xAI milik Elon Musk telah mencapai kemajuan besar dengan menambah keupayaan visual kepada model Grok AI, menandakan langkah penting ke arah fungsi AI multimodal. Perkembangan ini meletakkan Grok dalam persaingan langsung dengan peneraju AI terkemuka seperti GPT-4V dari OpenAI dan Gemini dari Google.
Integrasi Analisis Visual
Keupayaan penglihatan baharu Grok membolehkannya menganalisis imej yang dikongsi di platform X, termasuk dokumen, gambar rajah, dan foto. Sistem ini kini boleh memproses maklumat visual dan memberikan penerangan terperinci, menjadikannya sangat berguna untuk tugasan seperti cadangan resipi daripada foto bahan-bahan atau pengenalpastian mercu tanda. Fungsi ini tersedia secara eksklusif untuk pelanggan X Premium+ pada harga $16 sebulan (atau $22 sebulan melalui aplikasi).
Infrastruktur Teknikal
Pembangunan ini disokong oleh infrastruktur xAI yang mengagumkan, termasuk pusat data 200,000 GPU yang dikhaskan untuk latihan Grok. Untuk menilai prestasi model, xAI telah memperkenalkan penanda aras baharu yang dipanggil RealWorldQA, yang direka khusus untuk menilai pemahaman dunia fizikal melalui imej. Walaupun keputusan penanda aras rasmi masih belum diumumkan, xAI mendakwa keupayaan visual Grok setanding dengan model AI utama yang lain.
Keupayaan Memahami Meme
Salah satu aspek yang menarik dalam peningkatan visual Grok ialah percubaannya untuk menganalisis dan menjelaskan meme. Walau bagaimanapun, ujian awal menunjukkan keterbatasan dalam memahami humor yang halus dan konteks budaya. Walaupun model ini boleh mengenal pasti elemen visual asas dan cuba menjelaskan jenaka, ia sering terlepas pandang komen sosial yang halus dan makna yang lebih mendalam, cabaran yang turut dihadapi oleh model AI lain termasuk Gemini dari Google.
Keterbatasan Semasa dan Prospek Masa Depan
Walaupun kemajuan ini signifikan, keupayaan penjanaan imej Grok telah mendapat kritikan kerana kekurangan beberapa langkah keselamatan. Trajektori pembangunan model ini mencadangkan pengembangan masa depan ke dalam analisis video dan suara, berpotensi sejajar dengan inisiatif robotik Tesla. Walau bagaimanapun, pelaksanaan semasa menunjukkan bahawa walaupun AI boleh memproses maklumat visual dengan berkesan, memahami elemen manusia seperti humor dan konteks budaya masih menjadi cabaran besar.
Integrasi dengan Platform X
Ciri analisis visual dilaksanakan melalui butang baharu pada hantaran X yang mengandungi imej, memudahkan pengalaman pengguna untuk pelanggan Premium+. Integrasi ini boleh menjadi sangat berharga untuk kebolehcapaian kandungan, berpotensi membantu pengguna yang mempunyai masalah penglihatan untuk lebih memahami kandungan imej di platform tersebut.
Kedudukan Pasaran
Sebagai peserta terbaru dalam ruang AI multimodal, Grok memposisikan dirinya sebagai pesaing kepada model yang sudah mantap seperti GPT-4 dan Gemini 1.5 Pro. Walaupun masih dalam pembangunan berbanding sistem yang lebih matang ini, kadar peningkatan yang pesat dan infrastruktur yang didedikasikan menunjukkan komitmen yang kuat untuk mengatasi jurang ini.