Dalam perkembangan yang mengejutkan bagi komuniti penyelidikan AI, sebuah kertas penyelidikan baharu bertajuk Understanding R1-Zero-Like Training: A Critical Perspective telah mencabar andaian lazim tentang bagaimana model bahasa besar (LLM) membangunkan keupayaan penaakulan. Penyelidikan ini mencadangkan bahawa model asas seperti DeepSeek-V3-Base dan Qwen2.5 sudah memiliki keupayaan penaakulan yang ketara sebelum menjalani latihan pembelajaran pengukuhan khusus.
Model Asas Sudah Menunjukkan Penaakulan Lanjutan
Menurut kertas penyelidikan tersebut, model DeepSeek-V3-Base sudah menunjukkan apa yang digelar oleh penyelidik sebagai momen Aha - iaitu penemuan penting dalam keupayaan penaakulan yang banyak dikaitkan dengan teknik latihan R1-Zero khusus. Lebih mengejutkan lagi ialah penemuan bahawa model asas Qwen2.5 menunjukkan keupayaan penaakulan yang kukuh tanpa templat arahan, dengan skor penanda aras meningkat kira-kira 60% berbanding kaedah arahan tradisional.
Pendedahan ini telah mencetuskan perbincangan yang ketara dalam komuniti teknikal, dengan ramai pakar mempersoalkan nilai sebenar yang ditambah oleh proses pembelajaran pengukuhan yang ekstensif.
Saya ingin menawarkan penjelasan alternatif yang mungkin. Setelah melatih beberapa LLM sehingga kini, terutamanya berkaitan peningkatan dari model pelengkapan teks kepada model berarahan, saya perhatikan bahawa keupayaan mengikut arahan cenderung tidak seragam merentasi semua tugas yang boleh dilaksanakan oleh LLM.
Penemuan Utama daripada Penyelidikan
- Model-model DeepSeek-V3-Base telah menunjukkan keupayaan "Aha moment" sebelum latihan khusus
- Model asas Qwen2.5 menunjukkan peningkatan ~60% dalam skor penanda aras tanpa templat arahan
- Algoritma GRPO menyebabkan pengoptimuman yang berat sebelah, ditangani oleh pembetulan "Dr. GRPO" yang dicadangkan
- Resipi minimalis R1-Zero mencapai prestasi SOTA dengan hanya 27 jam pengkomputeran menggunakan 8x GPU A100
- Templat dan set soalan melakukan duet untuk mempengaruhi dinamik RL
- Llama juga boleh dilatih-semula RL dari model asas dengan pra-latihan domain khusus meningkatkan had RL
![]() |
---|
Imej ini memaparkan senario penyelesaian masalah matematik berkaitan dengan keupayaan penaakulan model asas |
Mempersoalkan Peranan Token Rantaian-Pemikiran
Perbincangan komuniti telah menyoroti kebimbangan mengenai apa yang digelar oleh penyelidik sebagai Refleksi Diri Superfisial dalam model-model ini. Ramai pengguna telah memperhatikan bahawa kesimpulan dalam output model tidak selalu mengikuti secara semula jadi daripada token pemikiran yang dihasilkan semasa proses rantaian-pemikiran. Ketidakselarasan ini menimbulkan persoalan tentang peranan sebenar token pemikiran ini dalam meningkatkan prestasi.
Sesetengah pengulas mencadangkan bahawa faedah token tambahan mungkin lebih mudah daripada yang biasa dipercayai - lebih banyak token hanya mengurangkan pilihan untuk rentetan output akhir, bukannya mewakili pemikiran sebenar. Yang lain telah mencadangkan bahawa walaupun menambah ruang putih atau aksara berulang mungkin meningkatkan kualiti output dengan membolehkan model memasuki keadaan dalaman yang berbeza, secara efektif menggunakan token ini sebagai titik laluan pemprosesan.
Peningkatan Kecekapan dalam Latihan R1-Zero
Kertas ini memperkenalkan pendekatan yang lebih cekap untuk latihan seperti R1-Zero, mencadangkan pembetulan kepada algoritma GRPO (Generalized Reinforcement Learning from Preference Optimization) yang meningkatkan kecekapan token sambil mengekalkan prestasi penaakulan. Pendekatan yang diubah suai ini, dikenali sebagai Dr. GRPO (GRPO Done Right), membolehkan penyelidik mencapai prestasi terkini dengan penalaan-RL Qwen2.5-Math-7B pada soalan MATH tahap 3-5 dengan sumber pengkomputeran yang sangat sederhana - hanya 27 jam pada 8 GPU A100.
Bagi komuniti AI, terutamanya mereka yang menjalankan model berat terbuka pada perkakasan pengguna, peningkatan kecekapan ini boleh mengurangkan kos masa inferensi yang berkaitan dengan proses rantaian-pemikiran yang panjang yang kini menggunakan ruang tetingkap konteks yang berharga.
![]() |
---|
Imej ini menggambarkan formula Dr GRPO dan perbandingan kecekapan token, menyerlahkan kemajuan dalam latihan pembelajaran pengukuhan |
Keperluan untuk Penilaian Teliti dan Kurang Gembar-gembur
Penyelidikan ini muncul pada masa apabila ramai dalam komuniti AI menyeru untuk penilaian lebih kritikal terhadap keupayaan model dan kurang gembar-gembur pemasaran. Pengulas telah menunjukkan contoh lain di mana keputusan penanda aras telah dibesar-besarkan, seperti penanda aras pengkodan SWE-verified yang digunakan oleh vendor utama yang dilaporkan mempunyai kurang daripada 10% masalah yang diselesaikan dengan betul.
Sesetengah ahli komuniti masih skeptikal tentang dakwaan penaakulan sebenar dalam model-model ini, mencadangkan bahawa apa yang kelihatan sebagai penaakulan mungkin hanya pemadanan corak statistik berdasarkan data latihan yang luas. Perbezaan antara keupayaan numerasi (keupayaan pengiraan asas) dan penaakulan matematik yang tulen terus diperdebatkan.
Penyelidikan ini mewakili langkah penting ke arah penilaian keupayaan AI yang lebih telus dan realistik, menekankan keperluan untuk memahami apa yang sebenarnya dilakukan oleh model-model ini dan bukannya mengaitkan proses penaakulan seperti manusia kepada sistem statistik.
Rujukan: Understanding R1-Zero-Like Training: A Critical Perspective
![]() |
---|
Carta bar ini membandingkan prestasi model merentasi pelbagai penanda aras, menekankan kepentingan penilaian yang ketat dalam keupayaan AI |