Dalam perkembangan penting bagi industri kecerdasan buatan, syarikat AI China, DeepSeek telah memperkenalkan model bahasa besar terbarunya, DeepSeek-R1. Model yang membawa perubahan ini menunjukkan keupayaan yang setanding dengan tawaran terkini OpenAI sambil mengekalkan komitmen terhadap prinsip sumber terbuka dan keberkesanan kos, menandakan perubahan yang berpotensi dalam landskap AI global.
Kedudukan Prestasi Model:
- Arahan Kompleks/Kawalan Gaya: 1
- Penanda Aras WebDev: 2 (hampir sama dengan Claude 3.5 Sonnet)
- Kedudukan Keseluruhan: 3 Teratas bersama ChatGPT-4o
Imej ini melambangkan inovasi belia dan semangat kerjasama yang menjadi tunjang kejayaan DeepSeek dalam membangunkan model AI DeepSeek-R1 |
Nisbah Kos-Prestasi yang Revolusioner
DeepSeek-R1 telah mencapai pencapaian luar biasa dengan menyamai prestasi model o1 OpenAI sambil mengurangkan kos API sehingga 97%. Harga API model ini ditetapkan pada 1 Yuan China bagi setiap juta token input untuk cache hits dan 4 Yuan China untuk cache misses, dengan token output berharga 16 Yuan China setiap juta. Pengurangan kos yang dramatik ini menjadikan keupayaan AI termaju lebih mudah diakses oleh pembangun dan perniagaan di seluruh dunia.
Ciri | DeepSeek-R1 | Model Tradisional |
---|---|---|
GPU Latihan | ~2,000 H800 | ~10,000 A100/H100 |
Masa Pembangunan | 2 bulan | 6+ bulan |
Kos Latihan | USD 5.58M | USD 78M-200M |
Kos API (Output) | CNY 16/M token | ~CNY 432/M token |
Carta bar ini menggambarkan secara visual prestasi DeepSeek-R1 berbanding kaedah-kaedah lain pada pelbagai set data AI, menekankan keupayaan kompetitifnya |
Inovasi Teknikal Di Bawah Kekangan
Walaupun menghadapi sekatan eksport cip AI termaju, pasukan DeepSeek membangunkan penyelesaian inovatif untuk mengoptimumkan prestasi model mereka. Syarikat ini menggunakan kira-kira 2,000 GPU Nvidia H800 untuk latihan, berbanding dengan 10,000 GPU yang dilaporkan digunakan oleh pesaing. Kecekapan ini dicapai melalui inovasi seni bina seperti mekanisme Multi-head Latent Attention (MLA) dan seni bina DeepSeekMoE, yang mengurangkan keperluan memori dan pengkomputeran secara signifikan.
Komitmen Sumber Terbuka
DeepSeek telah melancarkan R1 di bawah lesen MIT, menjadikan kedua-dua pemberat model dan dokumentasi teknikal tersedia secara percuma kepada komuniti pembangun global. Langkah ini membolehkan penyulingan model dan integrasi ke dalam aplikasi pihak ketiga, memupuk inovasi dan kerjasama dalam bidang AI. Syarikat ini telah menunjukkan potensi model tersebut dengan menyuling enam model yang lebih kecil yang sepadan dengan prestasi o1-mini OpenAI.
Imej ini mencerminkan kecekapan AI yang berbanding antara pelbagai negara, menggariskan konteks global pelepasan model sumber terbuka DeepSeek |
Bakat Muda Memacu Inovasi
Di sebalik kejayaan DeepSeek adalah strategi komposisi pasukan yang unik. Syarikat ini terutamanya mengambil bakat muda, ramai di antaranya adalah graduan baharu atau profesional awal kerjaya dengan pengalaman kurang daripada lima tahun. Pendekatan ini, yang diketuai oleh pengasas Liang Wenfeng, menekankan keupayaan penyelidikan asas dan pemikiran kreatif berbanding pengalaman industri.
Implikasi Masa Depan
Pencapaian DeepSeek mewakili pencapaian penting dalam mendemokratikkan akses kepada keupayaan AI termaju. Kejayaan syarikat ini menunjukkan bahawa pendekatan inovatif terhadap seni bina model dan latihan boleh mengatasi kekangan sumber sambil mengekalkan prestasi yang kompetitif. Ketika DeepSeek terus membangunkan aplikasi mudah alih dan mengembangkan tawaran perkhidmatannya, kesan pendekatan sumber terbuka dan kos efektif mereka mungkin membentuk semula masa depan pembangunan AI.