Dalam lanskap yang didominasi oleh GPU NVIDIA untuk beban kerja AI, cip Apple Silicon sedang membentuk ceruk sebagai alternatif cekap tenaga untuk menjalankan model bahasa besar secara tempatan. Ketika pembangun meneroka keupayaan MLX, rangka kerja pembelajaran mesin Apple yang dioptimumkan untuk silikon khas mereka, pengguna melaporkan metrik prestasi yang mengesankan yang menyerlahkan potensi sistem ini untuk aplikasi AI.
Rangka Kerja MLX Semakin Mendapat Perhatian
MLX, rangka kerja pembelajaran mesin Apple yang direka khusus untuk Apple Silicon, telah secara berterusan mendapat perhatian dalam komuniti pembangun walaupun baru berusia setahun lebih. Serupa dengan NumPy dan PyTorch tetapi eksklusif untuk Apple Silicon, MLX menyediakan asas untuk menjalankan pelbagai model AI secara tempatan pada peranti Mac. Rangka kerja ini membolehkan pengguna menjalankan LLM (Model Bahasa Besar), model penglihatan, dan semakin banyak model audio tanpa memerlukan perkakasan GPU khusus yang mahal. Ahli komuniti telah menyatakan bahawa aktiviti ekosistem sekitar MLX adalah mengesankan, dengan alat seperti mlx-lm muncul sebagai setara llama.cpp yang dibina khusus untuk seni bina Apple.
Metrik Prestasi Menunjukkan Potensi
Laporan prestasi daripada ahli komuniti menyerlahkan kecekapan Apple Silicon untuk menjalankan LLM. Seorang pengguna yang menjalankan DeepSeek-R1-Distill-Llama-70B yang dikuantisasikan 4-bit pada MacBook Pro M4 Max melaporkan mencapai 10.2 token per saat ketika disambungkan ke kuasa dan 4.2 token per saat pada kuasa bateri. Untuk model Gemma-3-27B-IT-QAT yang lebih kecil, sistem yang sama mencapai 26.37 token per saat dengan kuasa dan 9.7 token per saat dalam mod penjimatan bateri. Metrik ini menunjukkan bahawa Mac moden boleh menjalankan model AI yang besar dengan prestasi yang munasabah, menjadikan keupayaan yang sebelum ini terikat pada pelayan kini boleh diakses pada perkakasan pengguna.
Metrik Prestasi pada Apple Silicon
Model | Peranti | Mod Kuasa | Prestasi |
---|---|---|---|
DeepSeek-R1-Distill-Llama-70B (4-bit) | MacBook Pro M4 Max | Disambungkan ke kuasa | 10.2 token/saat |
DeepSeek-R1-Distill-Llama-70B (4-bit) | MacBook Pro M4 Max | Bateri/Kuasa Rendah | 4.2 token/saat |
Gemma-3-27B-IT-QAT (4-bit) | MacBook Pro M4 Max | Disambungkan ke kuasa | 26.37 token/saat |
Gemma-3-27B-IT-QAT (4-bit) | MacBook Pro M4 Max | Bateri/Kuasa Rendah | 9.7 token/saat |
Perbandingan Kecekapan Tenaga
Perkakasan | Skor Penanda Aras OpenCL | Penggunaan Kuasa |
---|---|---|
NVIDIA GeForce RTX 5090 | 376,224 | 400-550W (GPU) + 250-500W (sistem) |
Apple M3 Ultra | 131,247 | ~200W (jumlah sistem) |
Perbandingan Kecekapan Tenaga
Apabila membandingkan kecekapan tenaga antara Apple Silicon dan GPU NVIDIA, perbincangan komuniti mencadangkan Apple mungkin mempunyai kelebihan dari segi prestasi per watt. Walaupun kad NVIDIA kelas tinggi seperti RTX 5090 mencapai prestasi mentah yang lebih tinggi (mendapat skor 376,224 dalam penanda aras OpenCL berbanding dengan 131,247 untuk M3 Ultra), ia menggunakan kuasa yang jauh lebih tinggi—kira-kira 400-550W untuk GPU sahaja ditambah dengan keperluan kuasa sistem tambahan. Sebaliknya, M3 Ultra beroperasi pada sekitar 200W jumlah kuasa sistem, menjadikannya berpotensi lebih cekap tenaga untuk beban kerja AI tertentu walaupun prestasi mutlaknya lebih rendah.
Cabaran Pengalaman Pengguna
Walaupun terdapat manfaat prestasi, pengurusan kebergantungan Python kekal sebagai titik kesakitan yang ketara bagi ramai pengguna yang cuba menjalankan aplikasi berasaskan MLX. Beberapa pengulas menggambarkan pengalaman yang mengecewakan dengan persediaan persekitaran Python, menyerlahkan halangan biasa untuk pembangun bukan Python yang hanya ingin menjalankan aplikasi yang kebetulan ditulis dalam Python. Pengalaman seorang pengguna bertambah baik dengan menentukan versi Python 3.12 dengan parameter arahan -p 3.12
, mencadangkan bahawa MLX mungkin mempunyai roda binari yang hanya tersedia untuk versi Python tertentu.
Python termasuk dalam kategori perkara yang tidak boleh anda gunakan tanpa menjadi pakar dalam perinciannya. Ini tidak menguntungkan kerana terdapat ramai orang yang bukan pembangun Python yang ingin menjalankan program yang kebetulan ditulis dalam Python.
Aplikasi Praktikal
Pengguna melaporkan berjaya menggunakan pelbagai model melalui MLX untuk pelbagai tugas. Model popular termasuk Mistral Small 3.1 (memerlukan kira-kira 20GB RAM), Gemma3:12B untuk tugas umum seperti penjanaan cerita dan pengkodan ringan, Qwen2.5-coder:32B untuk bantuan pengaturcaraan, dan model Qwen2.5:0.5B yang kecil tetapi mengejutkan keupayaannya. Projek tutorial tiny-llm yang ditonjolkan dalam artikel asal bertujuan untuk membantu pembangun memahami teknik di sebalik penyampaian model LLM secara cekap, terutamanya memfokuskan pada model Qwen2, dengan membina infrastruktur perkhidmatan model dari awal menggunakan API array/matrix MLX.
Dengan keupayaan perkakasan pengguna yang terus meningkat dan rangka kerja seperti MLX semakin matang, kita menyaksikan pendemokrasian teknologi AI yang sebelum ini terhad kepada pusat data khusus. Walaupun cabaran masih wujud, terutamanya sekitar kebergantungan perisian dan aliran kerja pembangunan, Apple Silicon muncul sebagai platform yang menarik untuk peminat AI dan profesional yang ingin menjalankan model canggih secara tempatan dengan prestasi yang munasabah dan kecekapan tenaga yang cemerlang.
Rujukan: tiny-llm - LLM Serving in a Week