LLM Menghadapi Masalah dengan Permainan Kad Set, Mencetuskan Persoalan Tentang Keupayaan Pemikiran AI

BigGo Editorial Team
LLM Menghadapi Masalah dengan Permainan Kad Set, Mencetuskan Persoalan Tentang Keupayaan Pemikiran AI

Eksperimen terkini dengan Model Bahasa Besar ( LLM ) dalam permainan kad Set telah mendedahkan batasan menarik dalam keupayaan pemikiran mereka, mencetuskan perbincangan tentang sifat kecerdasan buatan dan pemikiran mesin. Walaupun model-model ini cemerlang dalam tugas pengaturcaraan yang kompleks, mereka menunjukkan kelemahan yang mengejutkan dalam senario permainan yang memerlukan pemikiran spatial dan logikal.

Cabaran Set

Permainan kad Set menyajikan kes ujian yang menarik untuk kecerdasan buatan. Pemain perlu mengenal pasti set tiga kad daripada susun atur di mana setiap kad mempunyai empat sifat - bentuk, warna, nombor, dan bayangan. Yang menariknya ialah walaupun algoritma tradisional boleh menyelesaikan permainan ini dengan mudah, model LLM yang maju seperti GPT-4 menghadapi kesukaran untuk mencari set yang sah atau membuat kenyataan yang tidak tepat tentang kewujudannya.

Melampaui Kecekapan Pengaturcaraan

Satu corak yang ketara telah muncul dalam cara LLM mengendalikan tugas berkaitan permainan. Perbincangan komuniti mendedahkan bahawa walaupun model-model ini boleh menulis kod dengan mudah untuk menyelesaikan permainan seperti Tic-tac-toe atau Set, mereka sering gagal dalam permainan sebenar. Ketidaksepadanan antara kebolehan pengaturcaraan dan prestasi bermain permainan ini menimbulkan persoalan penting tentang sifat pemikiran AI.

Saya sentiasa mengatakan bahawa menambah 'use python' pada arahan anda adalah frasa ajaib yang menjadikan 4o sangat berkuasa dalam pelbagai tugas.

Perbahasan Mesin Berfikir

Kemunculan model pemikiran baharu seperti DeepThink-R1 dan o3-mini, yang berjaya menyelesaikan teka-teki Set, telah mencetuskan perbincangan baharu tentang kesedaran mesin. Ahli komuniti telah menyatakan bahawa walaupun model-model ini menunjukkan peningkatan keupayaan pemikiran, persoalan asas masih wujud tentang sama ada ini merupakan pemikiran dalam erti kata yang sebenarnya. Sesetengah berpendapat bahawa pemikiran manusia mungkin kurang ajaib daripada yang disangka sebelum ini, berbanding mesin mencapai keupayaan pemikiran yang benar-benar ajaib.

Prestasi Model dalam Permainan Set:

  • GPT-4o : Mencadangkan set yang tidak sah, gagal dalam pengesahan
  • Sonnet-3.5 : Gagal tetapi mengakui kegagalan
  • Mistral : Berjaya menggunakan kod Python
  • o3-mini : Menemui 3 set dalam masa 1 minit 12 saat
  • DeepThink-R1 : Menemui 3 set dalam masa 10 minit

Batasan Seni Bina

Satu pertimbangan teknikal penting yang dibangkitkan dalam perbincangan adalah masalah ketidakkoheranan dalam seni bina LLM semasa. Tidak seperti kesedaran manusia, yang mengekalkan kesinambungan pemikiran, LLM kini beroperasi dalam kitaran respons yang berbeza dan menghadapi kesukaran untuk mengekalkan keadaan yang berterusan. Batasan seni bina ini mungkin menjelaskan sebahagian daripada kesukaran mereka dengan permainan yang memerlukan pemikiran berterusan dan pengesanan keadaan.

Penerokaan berterusan tentang keupayaan LLM dalam persekitaran permainan terus memberikan pandangan berharga tentang kekuatan dan batasan teknologi AI semasa, sambil mencabar pemahaman kita tentang apa yang membentuk kecerdasan dan pemikiran sebenar.

Rujukan: Let Them Play Set!

Halaman repositori GitHub untuk " When AI Fails " menyoroti perbincangan dan penemuan berterusan mengenai batasan AI dalam tugas-tugas penaakulan
Halaman repositori GitHub untuk " When AI Fails " menyoroti perbincangan dan penemuan berterusan mengenai batasan AI dalam tugas-tugas penaakulan