Para penyelidik Apple telah memperkenalkan FastVLM, sebuah model bahasa penglihatan yang berinovasi yang direka untuk pemprosesan cekap pada peranti, mencetuskan perbincangan yang bersemangat di kalangan pembangun dan penyokong kebolehcapaian. Kajian ini, yang akan dibentangkan di CVPR 2025, memperkenalkan pengekod penglihatan hibrid yang baharu yang secara dramatik mengurangkan masa pemprosesan sambil mengekalkan prestasi yang tinggi.
![]() |
---|
Gambaran keseluruhan repositori GitHub untuk FastVLM, mempamerkan antaramuka yang kemas dan kandungan teknikal yang relevan untuk pembangun dan penyelidik |
Peningkatan Kelajuan Revolusioner untuk Kecerdasan Buatan Penglihatan
Pencapaian paling ketara FastVLM adalah peningkatan kelajuannya yang luar biasa, dengan varian terkecil memberikan masa Token-Pertama (TTFT) 85 kali lebih pantas berbanding penyelesaian sedia ada seperti LLAVA-OneVision-0.5B. Pengurangan ketara dalam kependaman ini mewakili ambang kritikal untuk aplikasi praktikal kecerdasan buatan penglihatan dalam peranti harian. Keupayaan teknologi ini untuk memproses maklumat visual dengan cepat menangani salah satu kekangan paling ketara dalam model bahasa penglihatan semasa, berpotensi membolehkan pembantu kecerdasan buatan yang responsif yang dapat melihat dan mentafsir dunia hampir masa nyata.
Dengan itu, alat bantuan yang sangat berguna untuk orang buta boleh dibuat, berjalan hanya pada telefon mereka, disuap dari kamera dalam cermin mata mereka. Seseorang yang tidak dapat bergerak tanpa pembantu boleh menjadi autonomi dalam kehidupan harian.
Varian Model FastVLM
Model | Parameter | Prestasi Penting |
---|---|---|
FastVLM-0.5B | 0.5 bilion | 85x lebih pantas TTFT berbanding LLAVA-OneVision-0.5B, 3.4x lebih kecil encoder penglihatan |
FastVLM-1.5B | 1.5 bilion | Tersedia dalam varian Tahap 2 dan Tahap 3 |
FastVLM-7B | 7 bilion | Menggunakan LLM Qwen2-7B, mengatasi Cambrian-1-8B dengan 7.9x lebih pantas TTFT |
Semua model tersedia dalam format yang serasi dengan Apple Silicon untuk inferens pada peranti.
Strategi Pemprosesan Pada Peranti Semakin Mendapat Perhatian
Penyelidikan ini sejajar dengan apa yang dilihat oleh ramai dalam komuniti sebagai strategi kecerdasan buatan jangka panjang Apple: mengutamakan pemprosesan pada peranti untuk privasi yang lebih baik, kos yang lebih rendah, dan kependaman yang lebih rendah. Reka bentuk cekap FastVLM membolehkannya berjalan terus pada Apple Silicon, dengan repositori yang menyediakan arahan untuk mengeksport model ke format yang serasi dengan iPhone, iPad, dan Mac. Pendekatan ini berbeza dengan sistem kecerdasan buatan bergantung awan yang memerlukan sambungan internet yang berterusan dan menimbulkan kebimbangan privasi apabila memproses data visual yang sensitif.
Walaupun sesetengah pengulas menyatakan kekecewaan bahawa pelaksanaan ini menggunakan PyTorch dan bukannya rangka kerja MLX Apple, respons keseluruhan terhadap teknologi ini sangat positif, dengan pembangun sudah merancang untuk menggabungkannya ke dalam aplikasi yang merangkumi alat kebolehcapaian hingga utiliti penguraian skrin.
Potensi Transformatif untuk Kebolehcapaian
Mungkin perbincangan paling mengharukan mengenai FastVLM berkisar pada potensinya untuk mengubah kebolehcapaian bagi individu yang mempunyai masalah penglihatan. Ahli komuniti, termasuk ibu bapa kanak-kanak yang mempunyai masalah penglihatan, menyatakan harapan mendalam tentang bagaimana teknologi ini boleh memberikan kebebasan dan peluang baharu. Keupayaan untuk memproses maklumat visual dengan cepat pada peranti peribadi boleh membolehkan teknologi bantuan yang menerangkan persekitaran, mengenal pasti objek, dan membantu menavigasi persekitaran tanpa memerlukan peralatan khusus atau sambungan internet yang berterusan.
Pasukan penyelidik telah menyediakan pelbagai saiz model, dari versi parameter 0.5B yang ringan hingga varian parameter 7B yang lebih berkemampuan, membolehkan pembangun mengimbangi prestasi dengan kekangan peranti. Repositori ini termasuk arahan terperinci untuk inferens dan penalaan halus, berpotensi mempercepatkan penggunaan merentasi pelbagai aplikasi.
Ketika penglihatan menjadi semakin penting dalam sistem kecerdasan buatan, pendekatan FastVLM terhadap pengekodan yang cekap mungkin terbukti menjadi kemajuan penting dalam membawa pemahaman visual yang canggih kepada peranti harian. Dengan perkakasan pemprosesan neural Apple yang sudah digunakan di seluruh berjuta-juta peranti, pentas kelihatan tersedia untuk generasi baru aplikasi kecerdasan buatan penglihatan yang responsif dan melindungi privasi.
Rujukan: FastVLM: Efficient Vision Encoding for Vision Language Models