Satu kajian menyeluruh yang melibatkan lebih setengah juta penilaian telah membuktikan bahawa model bahasa besar (LLM) yang dikuantumkan dengan teliti mampu berprestasi setanding dengan model ketepatan penuh merentasi pelbagai penanda aras. Penemuan ini menangani kebimbangan terkini dalam komuniti pembelajaran mesin tentang kebolehlaksanaan model terkuantum untuk aplikasi dunia sebenar.
Kajian ini memfokuskan pada siri model Llama 3.1, menguji versi 8-bit, 4-bit, dan asas 16-bit merentasi pelbagai saiz model (8B, 70B, dan 405B parameter). Para penyelidik menilai model-model ini menggunakan penanda aras akademik seperti OpenLLM Leaderboard dan ujian dunia sebenar seperti ArenaHard dan cabaran pengkodan.
Penemuan utama termasuk:
- Model terkuantum mencapai lebih 99% daripada skor purata yang dicapai oleh model asas tidak terkuantum pada penanda aras OpenLLM Leaderboard v1.
- Pada OpenLLM Leaderboard v2 yang lebih mencabar, model terkuantum mengekalkan sekurang-kurangnya 96% pemulihan prestasi asas.
- Dalam penanda aras dunia sebenar seperti Arena-Hard-Auto, model terkuantum menunjukkan prestasi yang secara statistik tidak dapat dibezakan dari versi ketepatan penuh.
- Penanda aras pengkodan menunjukkan prestasi luar biasa, dengan model 8-bit mencapai pemulihan ketepatan 99.9% dan model 4-bit memulihkan 98.9% pada HumanEval dan HumanEval+.
Kajian ini juga meneliti metrik persamaan teks untuk memastikan model terkuantum mengekalkan makna dan struktur output berbanding model ketepatan penuh. Keputusan menunjukkan tahap persamaan yang tinggi, terutamanya untuk model yang lebih besar.
Penemuan ini mempunyai implikasi penting untuk penggunaan LLM dalam persekitaran pengeluaran. Kuantisasi menawarkan manfaat besar dari segi kecekapan pengkomputeran, kelajuan inferens yang lebih pantas, dan pengurangan penggunaan tenaga tanpa menjejaskan integriti model atau kualiti output.
Seiring dengan pertumbuhan LLM dalam saiz dan kerumitan, teknik kuantisasi dijangka akan memainkan peranan yang semakin penting dalam menjadikan model terkini lebih mudah diakses dan kos efektif untuk pelbagai aplikasi dan organisasi.
Pasukan penyelidik telah menyediakan hasil terperinci dan perbandingan model mereka melalui demo interaktif, membolehkan pengguna membandingkan output dari model terkuantum dan ketepatan penuh secara langsung.
Kajian ini memberikan bukti kukuh bahawa kuantisasi yang dilaksanakan dengan teliti boleh menjadi alat yang berkuasa untuk mengoptimumkan penggunaan LLM tanpa mengorbankan prestasi, membuka jalan untuk sistem AI yang lebih cekap dan berskala.
Perwakilan futuristik kemajuan teknologi dalam AI, melambangkan kejayaan model terkuantum yang dapat menyamai prestasi model ketepatan penuh |