FlashMLA DeepSeek Mencapai 90% Kecekapan Lebar Jalur Memori pada GPU Hopper

BigGo Editorial Team
FlashMLA DeepSeek Mencapai 90% Kecekapan Lebar Jalur Memori pada GPU Hopper

Dalam perkembangan penting untuk kecekapan penyampaian model AI, DeepSeek telah mengumumkan sumber terbuka FlashMLA, iaitu kernel pendekodean MLA (Multi-head Linear Attention) yang dioptimumkan khusus untuk GPU Hopper. Pelepasan ini muncul di tengah-tengah minat yang semakin meningkat terhadap MLA sebagai alternatif kepada mekanisme perhatian tradisional dalam model bahasa besar.

Pencapaian Prestasi

FlashMLA menunjukkan metrik prestasi yang mengagumkan, mencapai sehingga 3000 GB/s dalam konfigurasi terikat memori dan 580 TFLOPS dalam konfigurasi terikat pengkomputeran pada GPU H800 SXM5. Ini diterjemahkan kepada kira-kira 90% kecekapan lebar jalur memori dan 60% kecekapan pengkomputeran, menandakan peningkatan besar dalam penggunaan GPU untuk penyampaian model AI.

Spesifikasi Teknikal:

  • Sokongan GPU: GPU Hopper ( H800 SXM5 )
  • Prestasi Memori: Sehingga 3000 GB/s
  • Prestasi Pengkomputeran: Sehingga 580 TFLOPS
  • Sokongan Ketepatan: BF16
  • Cache KV: Berhalaman dengan saiz blok 64
  • Keperluan CUDA: 12.3 dan ke atas
  • Keperluan PyTorch: 2.0 dan ke atas

MLA berbanding Perhatian Tradisional

Penyelidikan teori terkini telah mengesahkan kelebihan MLA berbanding Group Query Attention (GQA) tradisional. Menurut perbincangan komuniti, MLA menawarkan kuasa ekspresif yang lebih besar berbanding GQA sambil mengekalkan overhed KV Cache yang sama. Yang menariknya, model pra-latihan berasaskan GQA yang sedia ada, termasuk yang popular seperti LLaMA, Qwen, dan Mixtral, boleh ditukar kepada model berasaskan MLA.

Pelaksanaan dan Batasan

Buat masa ini, FlashMLA menyokong ketepatan BF16 dan melaksanakan cache KV berhalaman dengan saiz blok 64. Walaupun pelaksanaan ini menunjukkan harapan, beberapa ahli komuniti telah menyatakan batasan platform khususnya:

Pada pandangan saya, sasaran eksklusif FlashMLA terhadap GPU Hopper menghadkan penggunaan silang platformnya, dan kekurangan dokumentasi komprehensif, keserasian yang kabur dengan rangka kerja yang lebih luas, dan ketiadaan perbandingan penanda aras atau pandangan perdagangan mengurangkan kemudahan penggunaan dan kebolehsuaiannya.

Kesan pada Landskap Penyampaian AI

Pelepasan ini telah mencetuskan perbincangan tentang potensi kesannya terhadap rangka kerja penyampaian AI sedia ada seperti vLLM dan SGLang. Komuniti mencatat bahawa vLLM telah melaksanakan sokongan MLA untuk model DeepSeek, melaporkan peningkatan ketara dalam penjanaan pemprosesan dan kapasiti token memori. Landskap persaingan ini terus mendorong inovasi dalam kecekapan penyampaian model AI.

Implikasi Masa Depan

Sebagai sebahagian daripada strategi pelepasan infrastruktur yang lebih besar, DeepSeek merancang untuk membuka sumber repositori berkaitan infrastruktur tambahan. Komuniti menjangkakan bahawa pelepasan ini, digabungkan dengan FlashMLA, boleh mempengaruhi arah pengoptimuman penyampaian model AI secara signifikan, terutamanya dalam menangani cabaran lebar jalur memori dan kecekapan pengkomputeran dalam penempatan skala besar.

Rujukan: FlashMLA