Pelancaran Llama 4 Meta Dibayangi Kontroversi Penanda Aras

BigGo Editorial Team

Pelancaran Llama 4 Meta Dibayangi Kontroversi Penanda Aras

Pelancaran model AI terbaru Meta yang berambisi telah dibayangi oleh persoalan tentang ketelusan dan dakwaan prestasi. Gergasi media sosial ini baru-baru ini melancarkan generasi terbaru model bahasa besarnya, Llama 4, tetapi pelancaran tersebut dengan pantas terpalit dalam kontroversi mengenai amalan ujian penanda aras yang telah menimbulkan tanda tanya dalam komuniti AI.

Keluarga Llama 4

Meta baru-baru ini melancarkan keluarga model multi-modal Llama 4, mendakwa peningkatan prestasi yang ketara berbanding pesaing. Syarikat ini memperkenalkan tiga model dalam generasi baharu ini: Llama 4 Scout, Llama 4 Maverick, dan Llama 4 Behemoth. Menurut Meta, yang terbesar di antaranya - Behemoth - mempunyai parameter mengesankan sebanyak 2 trilion dan didakwa mengatasi model daripada pemimpin industri seperti OpenAI, Anthropic, dan Google dalam beberapa penanda aras STEM. Walau bagaimanapun, walaupun Meta telah membuat dakwaan berani tentang keupayaan Behemoth, model utama ini masih belum tersedia kepada orang ramai, dengan hanya model Scout dan Maverick yang lebih kecil kini boleh diakses oleh pembangun.

Keluarga Model Llama 4 Meta:

Llama 4 Scout: Model yang lebih kecil, tersedia untuk umum
Llama 4 Maverick: Model bersaiz sederhana, tersedia untuk umum (tetapi versi penanda aras berbeza daripada versi yang dikeluarkan)
Llama 4 Behemoth: Model terbesar dengan 2 trilion parameter, belum tersedia untuk umum

Kontroversi Penanda Aras Muncul

Pelancaran tersebut segera menghadapi kritikan apabila pembangun menemui percanggahan antara apa yang telah diuji oleh Meta dan apa yang sebenarnya dikeluarkan kepada orang ramai. Secara khususnya, kontroversi tersebut tertumpu pada Llama 4 Maverick, yang telah dinilai pada platform LM Arena yang popular di mana orang membandingkan dan menilai respons model AI. TechCrunch melaporkan bahawa Meta telah menguji versi Maverick yang lebih halus berbanding dengan apa yang dikeluarkan secara umum kepada pembangun, fakta yang hanya dinyatakan dalam cetakan halus dalam catatan blog Meta sendiri. Pendedahan ini mendorong LM Arena untuk mengumumkan bahawa mereka akan mengemaskini dasar mereka untuk penilaian model yang adil dan boleh diulang pada masa hadapan.

Butiran Kontroversi Penanda Aras:

Platform: LM Arena
Isu: Meta telah menanda aras versi Llama 4 Maverick yang lebih halus penalaannya berbanding dengan yang dikeluarkan kepada orang awam
Pendedahan: Hanya dinyatakan dalam cetakan halus dalam catatan blog Meta
Keputusan: LM Arena mengemaskini polisi untuk "penilaian yang adil dan boleh diulang"

Respons LM Arena

Platform penanda aras tersebut bertindak pantas untuk menangani situasi ini, menyatakan di media sosial: Tafsiran Meta terhadap dasar kami tidak sepadan dengan apa yang kami harapkan daripada pembekal model. Akibatnya, kami sedang mengemaskini dasar papan pendahulu kami untuk mengukuhkan komitmen kami terhadap penilaian yang adil dan boleh diulang supaya kekeliruan ini tidak berlaku pada masa hadapan. Insiden ini telah menimbulkan persoalan serius tentang kebolehpercayaan penanda aras AI dan ketelusan dakwaan yang dibuat oleh pembangun AI utama tentang prestasi model mereka.

Dakwaan Prestasi Di Bawah Pengawasan

Meta telah memposisikan Llama 4 sebagai berprestasi lebih baik dan lebih kos efisien berbanding GPT-4o OpenAI dan Gemini 2.0 Google untuk tugas-tugas termasuk penulisan kreatif, pengkodan, dan ringkasan dokumen. Walau bagaimanapun, kontroversi penanda aras telah menimbulkan keraguan terhadap dakwaan ini, dengan penyelidik AI menggunakan platform media sosial seperti X (dahulunya Twitter) untuk menyoroti percanggahan tersebut. Situasi ini menekankan kebimbangan yang semakin meningkat tentang bagaimana keupayaan AI diukur dan dilaporkan dalam pasaran yang semakin kompetitif.

Konteks Perlumbaan AI yang Lebih Luas

Kontroversi ini berlaku pada masa persaingan dalam ruang AI semakin meningkat. Microsoft baru-baru ini meraikan ulang tahun ke-50 dengan menyoroti inovasi AI mereka dan mengumumkan keupayaan baharu untuk pembantu Copilot mereka. Sementara itu, industri ini menghadapi cabaran berpotensi daripada tarif baharu yang diumumkan oleh Presiden Trump, yang, walaupun mengecualikan semikonduktor, boleh meningkatkan kos untuk membina pusat data besar di mana model AI dilatih.


Ibu pejabat Microsoft meraikan ulang tahun ke-50, mempamerkan evolusi dan inovasi syarikat, selari dengan persaingan yang semakin meningkat dalam sektor AI

Implikasi untuk Ketelusan AI

Kontroversi penanda aras Llama 4 menyoroti isu yang semakin meningkat dalam industri AI: keperluan untuk kaedah penilaian yang standard dan telus. Ketika syarikat berlumba untuk mendakwa prestasi unggul untuk model mereka, insiden ini berfungsi sebagai peringatan bahawa penanda aras tidak selalu menjadi ukuran yang boleh dipercayai untuk keupayaan AI. Bagi pembangun dan perniagaan yang ingin menggunakan teknologi ini, ini menekankan kepentingan menjalankan penilaian bebas dan tidak hanya bergantung pada dakwaan vendor.

Apa Seterusnya untuk Strategi AI Meta

Walaupun kontroversi ini, Meta terus memposisikan dirinya sebagai pemain utama dalam gerakan AI sumber terbuka. Strategi syarikat untuk melancarkan model dengan keupayaan dan saiz yang berbeza bertujuan untuk menyediakan pilihan untuk kes penggunaan dan kekangan pengkomputeran yang berbeza. Walau bagaimanapun, insiden ini mungkin mendorong Meta untuk mempertimbangkan semula bagaimana ia berkomunikasi tentang prestasi model dan penanda aras pada masa hadapan, kerana kepercayaan dan ketelusan menjadi faktor yang semakin penting dalam landskap AI yang kompetitif.