Implementasi Llama 3.2 Vision oleh Ollama: Perubahan Besar Arkitektur dan Reaksi Komuniti

BigGo Editorial Team
Implementasi Llama 3.2 Vision oleh Ollama: Perubahan Besar Arkitektur dan Reaksi Komuniti

Pelancaran sokongan Llama 3.2 Vision dalam Ollama baru-baru ini menandakan pencapaian teknikal yang penting, tetapi perbincangan komuniti mendedahkan kerumitan teknikal di sebalik implementasi ini dan pelbagai pertimbangan praktikal untuk pengguna.

Pembaharuan Teknikal Besar

Implementasi Llama 3.2 Vision dalam Ollama melibatkan perubahan arkitektur yang besar. Pasukan pembangunan menulis semula sebahagian besar kod sumber, beralih daripada C++ kepada Golang untuk komponen utama. Ini termasuk rutin pemprosesan imej baharu, pengekod visual, dan mekanisme perhatian silang, bersama dengan reka bentuk semula lengkap penjadual model.

Ini merupakan usaha yang cukup berat untuk kami laksanakan dan itulah sebabnya ia mengambil masa. Selain menulis rutin pemprosesan imej baharu, pengekod visual, dan melakukan perhatian silang, kami juga terpaksa mereka bentuk semula cara model-model dijalankan oleh penjadual. Sumber

Prestasi dan Keperluan Perkakasan

Perbincangan komuniti menekankan pertimbangan praktikal yang penting untuk pengguna:

  • Model 11B memerlukan minimum 8GB VRAM
  • Model 90B memerlukan sekurang-kurangnya 64GB VRAM
  • Ujian awal menunjukkan hasil yang bercampur dengan tugas pengecaman imej asas
  • Model ini boleh dijalankan pada perkakasan pengguna seperti MacBook, walaupun prestasi berbeza-beza

Batasan dan Kebimbangan Semasa

Pengguna telah mengenal pasti beberapa bidang yang membimbangkan:

  1. Ujian awal menunjukkan beberapa isu ketepatan dengan tugas asas seperti pengiraan objek dan pengenalpastian warna
  2. Laporan penapisan kandungan yang ketat berbanding model visual lain
  3. Isu antara muka dengan penyuntingan berbilang baris dan pengendalian nama fail
  4. Kebimbangan keselamatan berkaitan pengesanan dan pembacaan fail automatik

Perkembangan Masa Hadapan

Pasukan Ollama telah menunjukkan rancangan untuk mengembangkan keupayaan multimodal, dengan potensi integrasi model-model lain seperti Pixtral dan Qwen2.5-vl dalam perancangan. Terdapat juga minat berterusan daripada komuniti terhadap sokongan Vulkan Compute, walaupun permintaan tarik masih dalam semakan.

Implementasi ini mewakili perbezaan ketara daripada kod sumber llama.cpp yang asal, dengan implementasi khas untuk pemprosesan imej dan rutin pengekod menggunakan GGML. Perubahan arkitektur ini mungkin memberi implikasi untuk pembangunan dan keserasian masa hadapan.

Sumber: Blog Ollama - Llama 3.2 Vision Sumber: Perbincangan Hacker News