Projek sumber terbuka llama.cpp telah mengembangkan keupayaannya secara signifikan dengan menambah sokongan penglihatan multimodal yang komprehensif kepada kedua-dua alat pelayan dan antara muka baris arahan. Integrasi ini membolehkan pengguna menjalankan model bahasa-penglihatan secara tempatan pada perkakasan mereka sendiri, membolehkan penerangan dan analisis imej tanpa bergantung pada perkhidmatan awan.
Pelaksanaan Multimodal Bersepadu
Pelaksanaan baharu ini menggabungkan fungsi penglihatan yang sebelumnya berasingan di bawah rangka kerja bersepadu. Menurut perbincangan komuniti, pembangun ngxson memainkan peranan penting dalam usaha ini, bermula dengan menambah sokongan untuk pelbagai model penglihatan dengan program CLI berasingan, kemudian menyatukannya di bawah satu alat baris arahan yang dipanggil llama-mtmd-cli, dan akhirnya membawa keupayaan ini kepada komponen pelayan. Sokongan multimodal berfungsi melalui perpustakaan yang dipanggil libmtmd
yang mengendalikan prapemprosesan imej-ke-embedding secara berasingan daripada model bahasa utama.
Pendekatan seni bina ini mencerminkan bagaimana prapemprosesan teks berkembang dalam ekosistem transformer, dengan perpustakaan khusus mengendalikan tokenisasi secara berasingan daripada model teras. Pemisahan ini membolehkan pengoptimuman khusus untuk pemprosesan imej sambil mengekalkan keserasian dengan rangka kerja llama.cpp yang lebih luas.
Model yang Disokong dan Prestasi
Pelaksanaan ini menyokong pelbagai model multimodal yang menakjubkan, termasuk Gemma 3 (dalam varian 4B, 12B, dan 27B), model SmolVLM, Pixtral 12B, Qwen2 VL, Qwen2.5 VL, dan Mistral Small 3.1. Pengguna telah melaporkan pengalaman yang sangat baik dengan model Gemma 3 4B, yang walaupun saiznya agak kecil, memberikan penerangan imej yang mengagumkan.
Laporan prestasi daripada komuniti menunjukkan bahawa pada MacBook Pro M1 dengan RAM 64GB, model Gemma 3 4B memproses prompt pada kira-kira 25 token sesaat dan menghasilkan token pada kadar 63 sesaat. Pemprosesan imej mengambil masa kira-kira 15 saat tanpa mengira saiz imej. Tahap prestasi ini menjadikan model-model ini praktikal untuk aplikasi dunia sebenar pada perkakasan pengguna.
Model Multimodal yang Disokong
-
Siri Gemma 3
- ggml-org/gemma-3-4b-it-GGUF
- ggml-org/gemma-3-12b-it-GGUF
- ggml-org/gemma-3-27b-it-GGUF
-
Siri SmolVLM
- ggml-org/SmolVLM-Instruct-GGUF
- ggml-org/SmolVLM-256M-Instruct-GGUF
- ggml-org/SmolVLM-500M-Instruct-GGUF
- ggml-org/SmolVLM2-2.2B-Instruct-GGUF
- ggml-org/SmolVLM2-256M-Video-Instruct-GGUF
- ggml-org/SmolVLM2-500M-Video-Instruct-GGUF
-
Pixtral
- ggml-org/pixtral-12b-GGUF
-
Qwen 2 VL
- ggml-org/Qwen2-VL-2B-Instruct-GGUF
- ggml-org/Qwen2-VL-7B-Instruct-GGUF
-
Qwen 2.5 VL
- ggml-org/Qwen2.5-VL-3B-Instruct-GGUF
- ggml-org/Qwen2.5-VL-7B-Instruct-GGUF
- ggml-org/Qwen2.5-VL-32B-Instruct-GGUF
- ggml-org/Qwen2.5-VL-72B-Instruct-GGUF
-
Mistral Small
- ggml-org/Mistral-Small-3.1-24B-Instruct-2503-GGUF
Aplikasi Dunia Sebenar
Ahli komuniti telah mula menggunakan keupayaan ini untuk kegunaan praktikal. Seorang pengguna menerangkan tentang mencipta sistem untuk menghasilkan kata kunci dan penerangan untuk foto percutian, dan menyatakan bahawa model Gemma 3 4B dapat mengekstrak maklumat bermakna termasuk OCR asas (pengecaman karakter optik) daripada imej yang mengandungi teks dan mengenal pasti maklumat lokasi kontekstual.
Siri model SmolVLM telah ditonjolkan sebagai sangat sesuai untuk aplikasi masa nyata seperti pengawasan video rumah kerana saiznya yang kecil dan masa tindak balas yang cepat. Model-model ini bersaiz dari hanya 256MB hingga 2.2GB, menjadikannya mudah diakses walaupun pada peranti dengan sumber terhad.
Metrik Prestasi (Gemma 3 4B pada M1 MacBook Pro 64GB)
- Pemprosesan prompt: 25 token/saat
- Penjanaan token: 63 token/saat
- Masa pemprosesan imej: ~15 saat bagi setiap imej (tanpa mengira saiz)
Pemasangan dan Penggunaan
Memulakan dengan keupayaan multimodal adalah mudah. Pengguna boleh memuat turun binari yang telah dikompil dari halaman GitHub llama.cpp atau memasang melalui pengurus pakej seperti Homebrew. Alat-alat ini boleh dijalankan dengan arahan mudah yang menentukan model yang akan digunakan, dengan pilihan untuk mengawal pemindahan GPU untuk prestasi yang lebih baik.
Bagi mereka yang menggunakan macOS dengan Homebrew, pakej akan dikemas kini untuk memasukkan keupayaan baharu ini, membolehkan pengguna hanya perlu menjalankan brew upgrade llama.cpp
untuk mendapatkan ciri-ciri terbaru. Pelaksanaan ini secara automatik memanfaatkan pecutan GPU di mana tersedia, dengan pengguna backend Metal mendapat manfaat daripada pemindahan lapisan automatik.
Perkembangan ini merupakan langkah penting ke hadapan untuk keupayaan AI tepi, membawa model bahasa-penglihatan yang berkuasa ke peranti tempatan tanpa memerlukan sambungan awan atau perkhidmatan langganan. Dengan alat-alat ini terus matang, kita boleh menjangkakan peningkatan jumlah aplikasi yang memanfaatkan AI multimodal untuk kes penggunaan peribadi dan profesional.
Rujukan: Multimodal