Model O3 OpenAI Dikritik Kerana Akses Istimewa Kepada Soalan Ujian FrontierMath

BigGo Editorial Team

Model O3 OpenAI Dikritik Kerana Akses Istimewa Kepada Soalan Ujian FrontierMath

Komuniti kecerdasan buatan kini berhadapan dengan kontroversi berikutan pendedahan tentang akses OpenAI kepada soalan ujian penanda aras FrontierMath, yang menimbulkan kebimbangan serius tentang kesahihan prestasi model O3 terbaru mereka. Perkembangan ini telah mencetuskan perdebatan sengit mengenai ketelusan dan keadilan dalam penilaian model AI.


Imej ini menggambarkan perbincangan mengenai kontroversi akses OpenAI kepada bahan ujian FrontierMath, menekankan kebimbangan komuniti mengenai ketelusan dalam penilaian AI

Kontroversi FrontierMath

Pendedahan penting daripada kontraktor Epoch AI di forum LessWrong telah mendedahkan bahawa OpenAI bukan sahaja membiayai ujian penanda aras FrontierMath tetapi juga menerima akses istimewa kepada bank soalannya. Maklumat ini tidak didedahkan sehingga pelancaran O3 pada 20 Disember 2024, yang menimbulkan keraguan terhadap kadar ketepatan 25.2% yang dilaporkan, jauh melebihi prestasi pesaing yang kurang daripada 2%.

Perbandingan Prestasi Model:

OpenAI O3: 25.2% ketepatan pada FrontierMath
GPT-4 dan Gemini: Kurang daripada 2% ketepatan

Kepentingan Penanda Aras

FrontierMath merupakan alat penilaian penting dalam penaakulan matematik lanjutan, yang dibangunkan melalui kerjasama antara Epoch AI dan lebih 60 ahli matematik elit, termasuk pemenang Pingat Fields dan penyusun soalan Olimpiad Matematik Antarabangsa. Penanda aras ini mengandungi ratusan masalah asli yang mencabar merentasi pelbagai disiplin matematik, dengan masalah yang begitu kompleks sehingga pakar manusia mungkin memerlukan beberapa hari untuk menyelesaikannya.

Liputan Penanda Aras FrontierMath:

Bidang matematik: Teori Nombor, Analisis Nyata, Geometri Algebra, Teori Kategori
Penyumbang: Lebih 60 ahli matematik terkemuka termasuk pemenang Pingat Fields
Tahap kesukaran masalah: Memerlukan masa dari beberapa jam hingga beberapa hari untuk diselesaikan oleh pakar

Respons dan Kritikan Akademik

Calon doktor matematik Universiti Stanford, Carina Hong telah membawa ke hadapan kesaksian daripada enam ahli matematik terkemuka yang menyumbang kepada FrontierMath, mendedahkan ketidaksedaran mereka tentang hak akses eksklusif OpenAI. Kebanyakan mereka menyatakan mungkin akan menolak penyertaan jika mereka mengetahui tentang pengaturan ini sebelumnya.

Respons Epoch AI

Tamay Besiroglu, timbalan pengarah dan pengasas bersama Epoch AI, telah mengakui kekurangan ketelusan, menjelaskan bahawa kewajipan kontrak menghalang pendedahan lebih awal. Walaupun mengekalkan bahawa pembiayaan OpenAI terhad kepada pembangunan tanpa mempengaruhi kandungan ujian, mereka telah mengesahkan akses OpenAI kepada kebanyakan masalah dan penyelesaian, kecuali set ujian yang dikhaskan untuk pengesahan bebas.

Kritikan Pakar

Pakar AI terkenal Gary Marcus telah mengkritik situasi ini dengan keras, mencirikan demonstrasi O3 OpenAI sebagai mengelirukan dan tidak saintifik. Kontroversi ini telah khususnya memberi tumpuan kepada kekurangan pendedahan mengenai masalah mana yang muncul dalam data latihan dan ketiadaan rekod proses penaakulan terperinci.

Implikasi Masa Depan

Ketika kontroversi ini berkembang, OpenAI telah mengumumkan kemajuan dalam projek Operator mereka, dengan CEO Altman dijadualkan untuk taklimat tertutup dengan kerajaan Amerika Syarikat pada 30 Januari 2025. Masa ini telah menimbulkan spekulasi tentang strategi pengurusan krisis dan implikasi yang lebih luas terhadap amalan industri AI.