Seiring dengan pertumbuhan model bahasa besar dari segi saiz dan kerumitan, cabaran dalam menguruskan kos inferens dan kecekapan akses memori menjadi semakin kritikal. Pasukan Douyin ByteDance telah membangunkan penyelesaian baharu yang berpotensi merevolusikan cara kita mendekati cabaran-cabaran ini dalam seni bina AI.
Pendekatan Baharu dalam Seni Bina Model Jarang
UltraMem , inovasi terbaru ByteDance dalam seni bina AI, merupakan pencapaian penting dalam menangani keterbatasan akses memori sistem Mixture of Experts (MoE) semasa. Seni bina baharu ini telah diterima untuk pembentangan di ICLR 2025 , menandakan pengiktirafannya oleh komuniti akademik. Sistem ini menunjukkan peningkatan yang ketara dalam prestasi dan kecekapan, mencapai peningkatan kelajuan inferens 2-6 kali ganda berbanding seni bina MoE tradisional sambil mengurangkan kos inferens sehingga 83%.
Peningkatan Prestasi:
- Kelajuan inferens: 2-6 kali lebih pantas berbanding MoE
- Pengurangan kos: Sehingga 83% pengurangan kos inferens
- Saiz model yang diuji: 151M, 680M, 1.6B parameter
Inovasi Teknikal
Seni bina ini memperkenalkan tiga penambahbaikan utama berbanding sistem sedia ada. Pertama, ia melaksanakan pelbagai lapisan memori kecil yang disebarkan di seluruh lapisan Transformer , menggantikan lapisan memori besar tunggal yang terdapat dalam reka bentuk PKM (Product Key Memory) tradisional. Kedua, ia menggunakan kaedah pengambilan nilai yang lebih canggih yang dipanggil Tucker Decomposed Query-Key Retrieval (TDQKR) , yang meningkatkan kerumitan dan keberkesanan penilaian nilai. Akhir sekali, ia memperkenalkan Implicit Value Expansion (IVE) , membolehkan pengembangan memori maya tanpa peningkatan berkadar dalam keperluan memori fizikal.
Ciri-ciri Teknikal Utama:
- Pelbagai lapisan memori teragih
- Pengambilan Semula Kunci-Pertanyaan Terurai Tucker ( TDQKR )
- Pengembangan Nilai Tersirat ( IVE )
- Menyokong sehingga 20 juta nilai
Prestasi dan Kebolehskalaan
Dalam ujian menyeluruh merentasi model dari 151M hingga 1.6B parameter, UltraMem telah menunjukkan prestasi yang lebih unggul berbanding seni bina MoE dan PKM . Yang sangat mengagumkan ialah keupayaannya untuk mengekalkan masa inferens yang konsisten walaupun parameter jarang meningkat - satu kelebihan yang ketara berbanding model MoE , yang biasanya menunjukkan kelembapan yang ketara dengan pertumbuhan parameter. Seni bina ini telah berjaya diuji dengan model yang mengandungi sehingga 20 juta nilai, membuka jalan untuk potensi pengembangan kepada berbilion nilai atau pakar.
Implikasi Praktikal
Bagi industri AI, pencapaian UltraMem mewakili langkah penting ke hadapan dalam menjadikan model bahasa besar lebih praktikal untuk aplikasi dunia sebenar. Pengurangan drastik dalam kos inferens dan peningkatan kecekapan memori boleh menjadikan model AI termaju lebih mudah diakses dan berdaya maju dari segi ekonomi untuk pelbagai aplikasi dan organisasi. Perkembangan ini hadir pada masa yang kritikal ketika industri sedang bergelut dengan permintaan pengkomputeran yang semakin meningkat untuk model AI yang semakin canggih.
![]() |
---|
Kemajuan UltraMem boleh menjadikan model bahasa besar lebih mudah diakses dari segi ekonomi untuk pelbagai aplikasi, seperti yang ditunjukkan oleh data prestasi yang dipaparkan |