Pelancaran sokongan Llama 3.2 Vision dalam Ollama baru-baru ini menandakan pencapaian teknikal yang penting, tetapi perbincangan komuniti mendedahkan kerumitan teknikal di sebalik implementasi ini dan pelbagai pertimbangan praktikal untuk pengguna.
Pembaharuan Teknikal Besar
Implementasi Llama 3.2 Vision dalam Ollama melibatkan perubahan arkitektur yang besar. Pasukan pembangunan menulis semula sebahagian besar kod sumber, beralih daripada C++ kepada Golang untuk komponen utama. Ini termasuk rutin pemprosesan imej baharu, pengekod visual, dan mekanisme perhatian silang, bersama dengan reka bentuk semula lengkap penjadual model.
Ini merupakan usaha yang cukup berat untuk kami laksanakan dan itulah sebabnya ia mengambil masa. Selain menulis rutin pemprosesan imej baharu, pengekod visual, dan melakukan perhatian silang, kami juga terpaksa mereka bentuk semula cara model-model dijalankan oleh penjadual. Sumber
Prestasi dan Keperluan Perkakasan
Perbincangan komuniti menekankan pertimbangan praktikal yang penting untuk pengguna:
- Model 11B memerlukan minimum 8GB VRAM
- Model 90B memerlukan sekurang-kurangnya 64GB VRAM
- Ujian awal menunjukkan hasil yang bercampur dengan tugas pengecaman imej asas
- Model ini boleh dijalankan pada perkakasan pengguna seperti MacBook, walaupun prestasi berbeza-beza
Batasan dan Kebimbangan Semasa
Pengguna telah mengenal pasti beberapa bidang yang membimbangkan:
- Ujian awal menunjukkan beberapa isu ketepatan dengan tugas asas seperti pengiraan objek dan pengenalpastian warna
- Laporan penapisan kandungan yang ketat berbanding model visual lain
- Isu antara muka dengan penyuntingan berbilang baris dan pengendalian nama fail
- Kebimbangan keselamatan berkaitan pengesanan dan pembacaan fail automatik
Perkembangan Masa Hadapan
Pasukan Ollama telah menunjukkan rancangan untuk mengembangkan keupayaan multimodal, dengan potensi integrasi model-model lain seperti Pixtral dan Qwen2.5-vl dalam perancangan. Terdapat juga minat berterusan daripada komuniti terhadap sokongan Vulkan Compute, walaupun permintaan tarik masih dalam semakan.
Implementasi ini mewakili perbezaan ketara daripada kod sumber llama.cpp yang asal, dengan implementasi khas untuk pemprosesan imej dan rutin pengekod menggunakan GGML. Perubahan arkitektur ini mungkin memberi implikasi untuk pembangunan dan keserasian masa hadapan.
Sumber: Blog Ollama - Llama 3.2 Vision Sumber: Perbincangan Hacker News