Komuniti Perdebatkan MILS Meta: Bolehkah LLM Benar-benar "Melihat dan Mendengar" Tanpa Latihan?

BigGo Editorial Team
Komuniti Perdebatkan MILS Meta: Bolehkah LLM Benar-benar "Melihat dan Mendengar" Tanpa Latihan?

FAIR (Facebook AI Research) milik Meta baru-baru ini menerbitkan kertas kajian bertajuk LLMs can see and hear without any training, yang telah mencetuskan perdebatan ketara dalam komuniti AI. Kertas kajian ini memperkenalkan MILS, satu kaedah yang membolehkan model bahasa melaksanakan tugas-tugas multimodal seperti memberi keterangan imej, audio, dan video tanpa latihan khusus untuk modaliti-modaliti ini. Walau bagaimanapun, reaksi komuniti menunjukkan tajuk kertas kajian ini mungkin lebih provokatif berbanding pencapaian teknikal sebenar.

Seni Bina Actor-Critic Dengan Nama Lain

Pada asasnya, MILS menggunakan apa yang segera dikenali oleh ramai dalam komuniti sebagai persediaan Actor-Critic, walaupun istilah ini tidak wujud dalam kertas kajian tersebut. Sistem ini menggunakan Generator (LLM) dan Scorer (seperti CLIP) dalam proses berulang di mana LLM menghasilkan keterangan dan menerima maklum balas daripada model penilaian yang telah dilatih sebelumnya.

Ya, nampaknya mereka telah membangunkan nama-nama baru: Generator dan Scorer. Ini terasa sedikit seperti fenomena Tai's Model

Pendekatan ini telah dibandingkan dengan fenomena Tai's Model, di mana konsep-konsep yang telah mantap diberi jenama baru dengan terminologi baharu. Komuniti menunjukkan bahawa walaupun kaedah ini bijak, pembingkaian kertas kajian ini mencadangkan lebih banyak pembaharuan daripada yang mungkin sebenarnya.

Komponen Utama Sistem MILS

  • Generator: Sebuah LLM (khususnya model Llama 8B) yang menghasilkan kapsyen atau penerangan
  • Penilai: Model yang telah dilatih sebelumnya seperti CLIP yang menilai output Generator
  • Aliran Kerja: Proses berulang di mana LLM memperbaiki output berdasarkan maklum balas penilai

Tugas-tugas yang Ditunjukkan dalam Kertas Kajian

  • Pengkapsyenan imej
  • Pengkapsyenan audio
  • Pengkapsyenan video
  • Penjanaan imej berkualiti tinggi
  • Pemindahan gaya
  • Aritmetik silang-modal

Tajuk vs. Realiti: Memahami Tuntutan

Ramai pengomen mengambil isu dengan tajuk kertas kajian tersebut, menunjukkan ia salah menggambarkan apa yang sebenarnya berlaku. Sistem ini tidak benar-benar membolehkan LLM melihat dan mendengar seperti yang diimplikasikan oleh tajuk. Sebaliknya, ia mencipta gelung maklum balas di mana LLM secara berulang memperbaiki outputnya berdasarkan skor daripada model yang telah dilatih pada data visual atau audio.

Pendekatan ini agak serupa dengan orang buta yang bermain Marco Polo, di mana mereka bergerak ke arah matlamat berdasarkan maklum balas panas atau sejuk. LLM tidak memproses input visual atau audio secara langsung tetapi sebaliknya menggunakan maklum balas teks tentang tekaannya untuk mencapai keterangan yang sesuai.

Keupayaan Baru atau Kejuruteraan Bijak?

Sesetengah pembela kertas kajian ini menekankan bahawa pendekatan ini menunjukkan keupayaan baru LLM. Memandangkan model bahasa tidak dilatih secara eksplisit untuk mentafsir maklum balas daripada model visual dan menyesuaikan diri dengan sewajarnya, keupayaannya untuk berbuat demikian boleh dianggap sebagai sifat baru yang muncul. LLM secara efektif mencari jalannya ke arah keterangan yang betul tanpa mempunyai contoh tugas khusus ini dalam data latihannya.

Walau bagaimanapun, pengkritik menunjukkan bahawa sistem ini masih bergantung kepada model multimodal yang telah dilatih sebelumnya seperti CLIP, yang memang telah dilatih pada sejumlah besar data visual. Perdebatan berkisar pada sama ada tanpa sebarang latihan adalah pencirian yang tepat apabila sistem bergantung pada komponen-komponen lain yang telah dilatih.

Mengantropomorfiskan Keupayaan AI

Tema berulang dalam komen-komen adalah kebimbangan tentang bahasa pengantropomorfisma yang digunakan untuk menggambarkan sistem AI. Sesetengah pengomen membuat perbandingan satira dengan peranti mudah seperti fotoresistor dan termostat yang boleh melihat kegelapan atau merasakan suhu tanpa sebarang latihan atau kod.

Walaupun analogi ini jelas hiperbola, ia menyoroti kebimbangan yang sah tentang bagaimana penyelidikan AI dikomunikasikan. Penggunaan istilah seperti melihat dan mendengar yang menyerupai manusia mungkin mencipta salah faham tentang apa yang sebenarnya dilakukan oleh sistem ini dan bagaimana ia berfungsi.

Reaksi komuniti terhadap kertas kajian ini mencerminkan ketegangan yang lebih luas dalam komunikasi penyelidikan AI, di mana tekanan untuk menghasilkan tajuk-tajuk yang menarik perhatian kadang-kadang bercanggah dengan huraian teknikal yang tepat. Apabila makmal-makmal penyelidikan besar bersaing untuk mendapatkan perhatian dan pembiayaan, terdapat kebimbangan yang semakin meningkat tentang promosi yang tidak perlu dalam cara keupayaan AI dibingkaikan.

Walaupun kritikan ini, pendekatan teknikal yang diterangkan dalam kertas kajian ini memang mewakili kaedah yang menarik untuk memanfaatkan LLM dalam tugas-tugas multimodal tanpa penalaan halus khusus untuk tugas, walaupun tuntutan tanpa sebarang latihan memerlukan kelayakan yang ketara.

Rujukan: LLMs can see and hear without any training

Repositori GitHub untuk projek MILS Meta, menggambarkan asas teknikal di sebalik dakwaan kontroversi yang dibuat tentang keupayaan LLM
Repositori GitHub untuk projek MILS Meta, menggambarkan asas teknikal di sebalik dakwaan kontroversi yang dibuat tentang keupayaan LLM