Dalam satu langkah penting untuk komuniti pembangunan AI, DeepSeek telah melancarkan DeepEP, perpustakaan komunikasi pakar-selari yang cekap direka untuk model Mixture-of-Experts (MoE). Pelancaran ini telah menjana keterujaan yang ketara dalam kalangan pembangun dan penyelidik, terutamanya kerana sifat sumber terbukanya dan teknik pengoptimuman termaju.
Seni Bina Komunikasi Termaju
DeepEP memperkenalkan kernel komunikasi GPU semua-ke-semua yang canggih, menyokong kedua-dua operasi intranode dan internode melalui teknologi NVLink dan RDMA. Perpustakaan ini mencapai metrik prestasi yang mengagumkan, dengan operasi intranode mencapai lebar jalur sehingga 158 GB/s melalui NVLink, manakala komunikasi internode mengekalkan prestasi yang konsisten sekitar 40-46 GB/s melalui RDMA.
Nota Teknikal: RDMA (Remote Direct Memory Access) membolehkan akses memori secara langsung dari satu komputer ke komputer lain tanpa melibatkan mana-mana sistem operasi, membolehkan rangkaian berthroughput tinggi dan berlatensi rendah.
Sorotan Prestasi:
- Intranode ( NVLink ): Lebar jalur sehingga 158 GB/s
- Internode ( RDMA ): Lebar jalur 39-46 GB/s
- Operasi latensi rendah: 163-194 μs untuk penghantaran, 318-369 μs untuk penggabungan
- Berskala dengan cekap dari 8 hingga 256 pakar
Keperluan:
- GPU Hopper
- Python 3.8+
- CUDA 12.3+
- PyTorch 2.1+
- NVLink untuk komunikasi intranode
- Rangkaian RDMA untuk komunikasi internode
Pengoptimuman PTX Inovatif
Salah satu aspek pelancaran yang paling banyak dibincangkan ialah penggunaan arahan PTX termaju. Perpustakaan ini melaksanakan arahan PTX kelakuan-di-luar-dokumen yang khusus (ld.global.nc1::no_allocate.L2::256B) yang, walaupun secara teknikal merupakan kelakuan yang tidak ditentukan, telah diuji secara menyeluruh untuk ketepatan pada seni bina Hopper. Pengoptimuman ini telah menarik minat khusus daripada komuniti teknikal, dengan pembangun menyatakan potensi kesannya terhadap prestasi.
Saya rasa seperti kanak-kanak di kedai gula-gula. Sesetengah teknik ini akan mengambil masa yang terlalu lama untuk direkayasa semula dengan betul berdasarkan kertas penyelidikan.
Kesan Komuniti dan Falsafah Sumber Terbuka
Pelancaran ini telah mencetuskan perbincangan tentang keadaan pembangunan AI sumber terbuka, dengan ramai ahli komuniti membuat perbandingan yang menguntungkan antara pendekatan DeepSeek dan syarikat AI lain. Dokumentasi yang komprehensif, termasuk metrik prestasi terperinci dan contoh pelaksanaan, menunjukkan komitmen terhadap pembangunan yang telus dan kolaboratif yang telah mendapat sambutan yang kuat daripada komuniti pembangun.
Pelancaran perpustakaan ini mewakili satu langkah penting ke hadapan dalam mendemokrasikan teknologi AI termaju, berpotensi membolehkan lebih ramai penyelidik dan pembangun untuk bekerja dengan model MoE secara berkesan. Dengan sokongan untuk operasi FP8 dan kawalan sumber GPU yang fleksibel, DeepEP menyediakan asas yang kukuh untuk pembangunan dan pengoptimuman model AI pada masa hadapan.
Rujukan: DeepEP: an efficient expert-parallel communication library