Model GPT Terbaru OpenAI Menunjukkan Peningkatan Membimbangkan dalam Halusinasi

BigGo Editorial Team

Model GPT Terbaru OpenAI Menunjukkan Peningkatan Membimbangkan dalam Halusinasi

Kecerdasan buatan telah mencapai kemajuan luar biasa dalam beberapa tahun kebelakangan ini, tetapi satu trend yang membimbangkan telah muncul dengan generasi terbaru model bahasa. Menurut ujian dalaman oleh OpenAI sendiri, sistem AI terbaru dan paling canggih mereka semakin cenderung untuk mereka-reka maklumat, menimbulkan persoalan serius tentang kebolehpercayaan dan aplikasi praktikal dalam senario dunia sebenar.

Angka Membimbangkan Di Sebalik Masalah Halusinasi GPT

Siasatan OpenAI terhadap model terbaru mereka telah mendedahkan kemunduran yang mengejutkan dalam ketepatan fakta. Model GPT-o3 syarikat itu, yang diuar-uarkan sebagai sistem paling berkuasa mereka, mengalami halusinasi sebanyak 33 peratus ketika menjawab soalan tentang tokoh-tokoh awam dalam ujian penanda aras PersonQA. Ini mewakili lebih daripada dua kali ganda kadar halusinasi berbanding sistem penaakulan terdahulu OpenAI, o1. Lebih membimbangkan lagi, model o4-mini yang baru menunjukkan prestasi yang jauh lebih buruk, dengan kadar halusinasi 48 peratus dalam ujian yang sama. Apabila diuji dengan penanda aras SimpleQA, yang mengemukakan soalan pengetahuan umum, hasilnya lebih membimbangkan – o3 mengalami halusinasi 51 peratus masa, manakala o4-mini mencapai kadar halusinasi yang mengejutkan sebanyak 79 peratus. Model o1 sebelumnya, sebagai perbandingan, mengalami halusinasi 44 peratus masa dalam ujian ini.

Kadar Halusinasi dalam Model-model OpenAI

Model	Penanda Aras PersonQA	Penanda Aras SimpleQA
GPT-o1	~16.5%	44%
GPT-o3	33%	51%
GPT-o4-mini	48%	79%

Paradoks Penaakulan Lanjutan

Peningkatan kadar halusinasi menimbulkan percanggahan yang membingungkan dalam pembangunan AI. Model-model baru ini direka khusus sebagai sistem penaakulan yang mampu memecahkan masalah kompleks kepada langkah-langkah logik, serupa dengan proses pemikiran manusia. OpenAI sebelum ini mendakwa bahawa o1 boleh menyamai atau melebihi prestasi pelajar PhD dalam bidang seperti fizik, kimia, biologi, dan matematik. Jangkaannya adalah bahawa penaakulan yang lebih canggih akan membawa kepada ketepatan yang lebih tinggi, tetapi sebaliknya yang berlaku. Beberapa pemerhati industri mencadangkan bahawa mekanisme yang membolehkan penaakulan lebih kompleks mungkin mewujudkan peluang tambahan untuk kesilapan berganda. Apabila model-model ini cuba menghubungkan fakta-fakta yang berbeza dan menilai pelbagai laluan yang mungkin, mereka kelihatan lebih cenderung untuk melangkah ke wilayah spekulatif di mana fiksyen menjadi sukar dibezakan daripada fakta.

Tindak Balas OpenAI Terhadap Masalah yang Semakin Meningkat

OpenAI telah mengakui isu ini tetapi menolak naratif bahawa model penaakulan secara semula jadi mengalami peningkatan kadar halusinasi. Gaby Raila, wakil OpenAI, memberitahu The New York Times bahawa halusinasi tidak semestinya lebih lazim dalam model penaakulan, walaupun kami sedang berusaha untuk mengurangkan kadar halusinasi yang lebih tinggi yang kami lihat dalam o3 dan o4-mini. Syarikat itu telah menunjukkan bahawa lebih banyak penyelidikan diperlukan untuk memahami mengapa model terbaru lebih cenderung untuk mereka-reka maklumat. Ini menunjukkan bahawa punca asas masih menjadi misteri walaupun kepada pencipta sistem ini, menyerlahkan sifat kotak hitam model bahasa besar yang terus mencabar para penyelidik AI.

Implikasi Praktikal untuk Penggunaan AI

Masalah halusinasi yang semakin meningkat menimbulkan cabaran besar untuk aplikasi AI praktikal. Apabila sistem ini semakin banyak digunakan di bilik darjah, pejabat, hospital, dan agensi kerajaan, risiko penyebaran maklumat palsu semakin meningkat. Profesional undang-undang telah menghadapi akibat kerana menggunakan ChatGPT tanpa mengesahkan petikan sumbernya, dan isu serupa boleh timbul dalam banyak konteks lain. Nilai asas pembantu AI – menjimatkan masa dan mengurangkan beban kerja – terjejas apabila pengguna perlu memeriksa fakta setiap output dengan teliti. Ini mewujudkan situasi paradoks di mana alat AI yang lebih berkuasa mungkin sebenarnya memerlukan lebih banyak pengawasan manusia, bukan kurang. Sehingga isu-isu halusinasi ini diselesaikan, pengguna perlu mendekati kandungan yang dihasilkan AI dengan skeptisisme yang tinggi, terutamanya apabila ketepatan adalah sangat penting.

Kebimbangan Utama dengan Halusinasi AI

Pengurangan kepercayaan dalam persekitaran profesional
Potensi akibat undang-undang daripada bergantung pada maklumat yang direka
Pengurangan faedah penjimatan masa disebabkan keperluan untuk menyemak fakta
Cabaran untuk pelaksanaan dalam persekitaran berisiko tinggi seperti penjagaan kesihatan atau kerajaan


Imej ini menyoroti teknologi di sebalik sistem AI, menekankan peranan penting yang dimainkan oleh maklumat yang tepat dalam aplikasinya merentasi pelbagai sektor

Masa Depan AI yang Boleh Dipercayai

Untuk sistem AI mencapai potensi yang dijanjikan, masalah halusinasi mesti ditangani. Industri ini menghadapi cabaran kritikal: bagaimana untuk mengekalkan keupayaan penaakulan lanjutan model terbaru sambil meningkatkan kebolehpercayaan fakta mereka. OpenAI dan pesaing seperti Google dan Anthropic pasti sedang berusaha untuk menyelesaikan masalah ini, tetapi penyelesaiannya masih sukar dicapai. Keadaan semasa menunjukkan bahawa pembangunan AI mungkin telah mencapai tahap di mana peningkatan kecanggihan datang dengan kos kebolehpercayaan – sekurang-kurangnya untuk sementara waktu. Sementara penyelidikan berterusan, pengguna mesti mengekalkan perspektif yang seimbang, menghargai keupayaan menakjubkan sistem ini sambil mengiktiraf keterbatasan signifikan mereka. Usaha untuk mencapai AI yang boleh menaakul seperti manusia sambil mengekalkan ketepatan fakta seperti mesin berterusan, tetapi buat masa ini, pengesahan manusia kekal sebagai komponen penting dalam bekerja dengan sistem AI yang paling canggih sekalipun.