DeepSeek telah menggemparkan komuniti AI dengan pelancaran siri model penaakulan R1 mereka, membuktikan bahawa kemajuan AI yang ketara boleh dicapai dengan sumber yang agak sederhana. Syarikat ini, yang membina model V3 mereka dengan kos pengkomputeran hanya Ringgit Malaysia 25.8 juta, kini menawarkan model dengan pemberat terbuka yang dilaporkan dapat menyamai atau melampaui prestasi alternatif komersial terkemuka pada kos yang jauh lebih rendah.
Tangkapan skrin repositori GitHub DeepSeek-R1, mempamerkan model-model penaakulan dan sumber-sumber yang tersedia |
Pendekatan Baharu dalam Penaakulan
DeepSeek R1 memperkenalkan pendekatan baharu dengan membuktikan bahawa keupayaan penaakulan boleh dibangunkan sepenuhnya melalui pembelajaran pengukuhan (RL), tanpa memerlukan penalaan halus terselia (SFT). Pencapaian ini merupakan satu perubahan besar daripada kaedah tradisional, menunjukkan bahawa model boleh membangunkan tingkah laku penaakulan kompleks secara semula jadi melalui RL sahaja. Ciri istimewa model ini adalah proses pemikiran yang jelas, yang mendedahkan rantaian penaakulannya dengan cara yang telah mendapat pujian dan kritikan daripada komuniti.
Prestasi dan Kebolehcapaian
Siri R1 merangkumi pelbagai model yang telah didistilasi dari 1.5B hingga 70B parameter, menjadikannya mudah diakses oleh pengguna dengan sumber pengkomputeran yang berbeza. Ujian komuniti mendedahkan bahawa walaupun model yang lebih kecil menunjukkan keupayaan yang mengagumkan dalam tugas tertentu, namun masih terdapat beberapa batasan. Model-model ini dikeluarkan di bawah lesen MIT, membenarkan penggunaan komersial dan pengubahsuaian, termasuk penyulingan untuk melatih LLM lain.
Ketua Eksekutif: Dalam menghadapi teknologi yang mengganggu, kelebihan yang dicipta oleh sumber tertutup hanyalah sementara. Walaupun pendekatan sumber tertutup OpenAI tidak dapat menghalang orang lain daripada mengejar. Jadi kami menambat nilai kami pada pasukan kami — rakan sekerja kami berkembang melalui proses ini, mengumpul pengetahuan, dan membentuk organisasi dan budaya yang mampu berinovasi. Itulah kelebihan kami.
Spesifikasi Model:
- Panjang Konteks: 128K
- Jumlah Parameter: 671B
- Parameter Diaktifkan: 37B
Model Terdistilasi yang Tersedia:
- DeepSeek-R1-Distill-Qwen-1.5B
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-R1-Distill-Llama-70B
Cabaran dan Batasan Teknikal
Pengguna melaporkan pengalaman yang bercampur-campur dengan model ini, terutamanya berkaitan isu pemanggilan fungsi dan halusinasi yang sesekali berlaku. Pemerhatian yang berulang adalah kecenderungan model untuk menghasilkan output pemikiran yang panjang lebar, yang dianggap berlebihan oleh sesetengah pihak. Had token input 64K dan had token output 8K juga disebut sebagai kekangan yang berpotensi berbanding dengan beberapa alternatif komersial. Walau bagaimanapun, komuniti telah membangunkan pelbagai penyelesaian, termasuk pengelompokan dan pelaksanaan RAG.
Kesan pada Landskap AI
Pendekatan DeepSeek mewakili cabaran besar kepada pemain industri AI yang sedia ada. Dengan mencapai hasil yang setanding dengan kos pengkomputeran yang jauh lebih rendah dan berkongsi teknologi mereka secara terbuka, mereka membuktikan bahawa pembangunan AI yang berkesan tidak semestinya memerlukan sumber pengkomputeran yang besar. Ini boleh memberi implikasi yang meluas untuk pendemokrasian teknologi AI dan pembangunan model penaakulan pada masa hadapan.
Pelancaran DeepSeek R1 menandakan satu pencapaian penting dalam pembangunan AI sumber terbuka, menunjukkan bahawa keupayaan penaakulan yang canggih boleh dicapai melalui pendekatan inovatif dan bukan hanya bergantung pada kuasa pengkomputeran semata-mata. Walaupun model ini mempunyai batasannya, nisbah prestasi kepada kos dan sifat terbukanya menjadikannya satu sumbangan penting kepada bidang ini.