Apple Neural Engine (ANE) telah lama menjadi komponen misteri dalam cip Apple Silicon, dengan dokumentasi dan kebolehcapaian yang terhad untuk pembangun. Projek sumber terbuka baharu ANEMLL (disebut animal) bertujuan untuk mengubah keadaan ini dengan menyediakan alat untuk memindahkan Model Bahasa Besar ke ANE, tetapi ujian komuniti mendedahkan kelebihan dan juga batasan yang ketara.
Pertukaran Prestasi: Kelajuan berbanding Kecekapan Tenaga
Ujian oleh ahli komuniti menunjukkan bahawa walaupun model yang dioptimumkan untuk ANE berjalan lebih perlahan berbanding implementasi GPU, ia menawarkan kecekapan tenaga yang luar biasa. Seorang pengguna melaporkan bahawa pada M4 Pro, model Llama 3.2 1B mencapai kira-kira 62 token per saat sambil hanya menggunakan 2.8 watt kuasa. Sebagai perbandingan, implementasi GPU boleh menjadi dua kali lebih pantas tetapi menggunakan kira-kira 20 watt—hampir 10 kali ganda penggunaan kuasa. Kecekapan ini menjadikan ANE sangat bernilai untuk peranti mudah alih di mana jangka hayat bateri adalah kritikal.
Walau bagaimanapun, perbandingan langsung antara ANEMLL dan rangka kerja lain seperti MLX menunjukkan jurang prestasi yang ketara. Penanda aras yang menjalankan DeepSeek R1-8B pada M4 Max menunjukkan ANEMLL hanya mencapai 9.3 token per saat berbanding 31.33 token per saat untuk versi 8-bit yang dikuantumkan oleh MLX. Perbezaan prestasi ini menimbulkan persoalan sama ada penjimatan tenaga mewajarkan pengurangan kelajuan untuk kebanyakan kes penggunaan.
Perbandingan Prestasi: ANEMLL lwn MLX pada M4 Max
Rangka Kerja | Model | Prestasi | Penggunaan Memori |
---|---|---|---|
ANEMLL | DeepSeek R1-8B | 9.3 token/saat | ~500MB |
MLX (8-bit) | DeepSeek R1-8B | 31.33 token/saat | ~8.5GB |
MLX (bf16) | DeepSeek R1-8B | 27.17 token/saat | ~15.7GB |
Perbandingan Kecekapan Tenaga
Perkakasan | Model | Prestasi | Penggunaan Kuasa |
---|---|---|---|
M1 Max (ANE) | Llama 3.2-1B | 47 token/saat | ~1.8 watt |
M4 Pro (ANE) | Llama 3.2-1B | 62 token/saat | ~2.8 watt |
Implementasi GPU | Model serupa | ~2x lebih pantas | ~20 watt |
Kecekapan Memori dan Batasan Teknikal
Satu kelebihan ANEMLL yang mengejutkan adalah kecekapan memori. Penanda aras yang sama yang menunjukkan prestasi lebih perlahan juga mendedahkan penggunaan memori yang jauh lebih rendah—kira-kira 500MB untuk ANEMLL berbanding 8.5GB untuk model 8-bit MLX. Kecekapan ini boleh menjadikan implementasi ANE sangat bernilai untuk menjalankan model pada peranti dengan memori terhad, seperti iPhone dan iPad.
Cabaran teknikal bekerja dengan ANE berpunca daripada kekangan perkakasannya. Tidak seperti GPU, ANE memerlukan bentuk input/output yang tetap, menjadikan operasi dinamik seperti pertumbuhan cache perhatian sukar. Ia juga hanya menyokong ketepatan FP16 (bukan BF16), yang boleh menyebabkan masalah limpahan pengaktifan. Pembangun telah perlu melaksanakan penyelesaian kreatif, seperti menggunakan operasi conv2d bukannya lapisan linear dan membangunkan pendekatan tetingkap gelongsor untuk cache kunci-nilai.
Pendekatan Ekosistem Tertutup Apple
Perbincangan komuniti mendedahkan kekecewaan dengan pendekatan Apple terhadap pecutan AI. Walaupun kertas penyelidikan Apple sendiri mendakwa peningkatan prestasi yang ketara untuk model yang dioptimumkan untuk ANE, syarikat itu telah menyediakan dokumentasi dan alat yang terhad untuk pembangun. Malah rangka kerja MLX Apple sendiri tidak menyokong ANE, menimbulkan persoalan tentang strategi syarikat.
Sesetengah pengomen telah membuat perbandingan dengan NPU Qualcomm dalam komputer riba Snapdragon X, mencadangkan bahawa pengeluar perkakasan sering melebih-lebihkan keupayaan unit pemprosesan neural mereka untuk beban kerja AI. Hakikatnya adalah bahawa cip khusus ini cemerlang dalam tugas tertentu dan terhad tetapi mungkin tidak memberikan prestasi yang dijanjikan untuk model besar yang sebenarnya ingin dijalankan oleh pengguna.
Seperti yang dinyatakan oleh seorang ahli komuniti:
Faedah utama adalah penggunaan kuasa yang jauh lebih rendah. Menanda aras llama3.2-1B pada mesin saya; M1 Max (47t/s, ~1.8 watt), M4 Pro (62t/s, ~2.8 watt). GPU adalah dua kali lebih pantas (malah lebih pantas pada Max), tetapi menggunakan lebih banyak kuasa (~20 watt) berbanding ANE.
Projek ANEMLL mewakili langkah penting ke arah menjadikan Apple Neural Engine lebih mudah diakses oleh pembangun, tetapi ciri-ciri prestasi semasa mencadangkan ia mungkin paling bernilai untuk kes penggunaan tertentu yang mengutamakan kecekapan tenaga berbanding kelajuan mentah. Ketika Apple terus mengembangkan perkakasannya dengan cip M-series yang lebih baharu, keseimbangan antara keupayaan ANE, CPU, dan GPU mungkin berubah, berpotensi menjadikan Neural Engine lebih kompetitif untuk beban kerja AI umum.
Rujukan: ANEMLL