Satu kajian baru daripada penyelidik Apple telah menimbulkan keraguan terhadap keupayaan penaakulan matematik model bahasa besar (LLM) seperti ChatGPT, mengetengahkan potensi batasan dalam penggunaannya untuk tugas penyelesaian masalah dan membuat keputusan yang kompleks.
Penyelidikan yang diketuai oleh pasukan AI dan pembelajaran mesin Apple memperkenalkan penanda aras baru yang dipanggil GSM-Symbolic untuk menilai keupayaan penaakulan matematik LLM. Penemuan mereka mencadangkan bahawa model AI semasa menghadapi kesukaran dengan penaakulan logik yang tulen, terutamanya apabila masalah menjadi lebih kompleks.
Perkara utama daripada kajian ini termasuk:
- LLM lebih bergantung kepada pemadanan corak dari data latihan berbanding penaakulan sebenar
- Ketepatan menurun dengan ketara (dari 80-90% kepada sekitar 40%) apabila kerumitan masalah meningkat
- Penanda aras sedia ada seperti GSM8K mungkin terlebih anggaran prestasi AI disebabkan potensi pencemaran data
- Malah model termaju seperti Gemma2-9B dari Google menunjukkan penurunan ketepatan sebanyak 15% apabila diuji dengan GSM-Symbolic
Hasil kajian ini mempunyai implikasi penting bagi perniagaan dan individu yang mempertimbangkan penggunaan AI:
- Alat AI seperti ChatGPT boleh membantu untuk tugas tertentu tetapi tidak harus diharapkan untuk membuat keputusan kompleks atau operasi kritikal.
- Pengawasan dan kepakaran manusia kekal penting, terutamanya dalam bidang yang memerlukan penaakulan mendalam atau pengetahuan subjek tertentu.
- Organisasi harus melabur dengan berhati-hati dalam AI, memberi tumpuan kepada bidang di mana ia terbukti cemerlang dan bukannya menganggap ia boleh menyelesaikan semua masalah.
- Pasukan perlu dididik tentang keupayaan dan batasan AI untuk mengelakkan terlalu bergantung atau berpuas hati.
Walaupun penyelidikan Apple mungkin kelihatan bertentangan dengan pemasaran Apple Intelligence mereka, ia menunjukkan ketelusan yang terpuji tentang keadaan semasa teknologi AI. Apabila AI terus berkembang, memahami kekuatan dan kelemahannya akan menjadi penting untuk pelaksanaan yang bertanggungjawab merentasi industri.
Buat masa ini, pesanannya jelas: AI adalah alat yang berkuasa, tetapi belum bersedia untuk menggantikan penaakulan dan membuat keputusan manusia dalam senario yang kompleks. Semasa kita mengemudi revolusi AI, pendekatan yang seimbang yang memanfaatkan kedua-dua kecerdasan buatan dan manusia berkemungkinan akan menghasilkan keputusan yang terbaik.