Penanda aras OCR OmniAl yang baru dilancarkan telah mencetuskan perbincangan penting dalam komuniti AI, dengan model Qwen2.5-VL dari Alibaba muncul sebagai peneraju dalam tugas pengecaman aksara optik. Penanda aras ini menilai kedua-dua pembekal OCR tradisional dan model bahasa multimodal tentang keupayaan mereka untuk mengekstrak teks dan data berstruktur daripada dokumen.
Model Qwen2.5-VL Menunjukkan Prestasi Mengagumkan
Model Qwen2.5-VL, terutamanya varian 32B dan 72B, telah menunjukkan keupayaan OCR yang luar biasa menurut maklum balas komuniti. Model-model ini bukan sahaja cemerlang dalam pengekstrakan teks tetapi juga menawarkan fungsi kotak pembatas—satu ciri yang secara tradisinya dikaitkan dengan alat OCR khusus dan bukannya model multimodal tujuan umum. Keupayaan ini membolehkan model mengenal pasti lokasi tepat teks dalam imej, yang penting untuk aliran kerja pengesahan dan pembetulan.
Sebenarnya qwen 2.5 dilatih untuk menyediakan kotak pembatas
Fungsi kotak pembatas ini mewakili kemajuan yang ketara, kerana ia menangani salah satu batasan utama yang menghalang penggunaan penyelesaian OCR berasaskan LLM secara lebih meluas dalam persekitaran pengeluaran. Untuk aplikasi yang memerlukan pengesahan manusia, keupayaan untuk mencari lokasi teks dalam dokumen asal dengan cepat meningkatkan kecekapan aliran kerja secara dramatik.
![]() |
---|
Carta alir yang menggambarkan metodologi pemprosesan teks dan peranan model pembelajaran mesin dalam penilaian dokumen |
Pertimbangan Kos dan Prestasi
Menurut data penanda aras yang dikongsi dalam komen, model-model ini menunjukkan pertukaran kos-prestasi yang menarik. Model Qwen 32B memproses dokumen pada kira-kira 0.33 USD bagi setiap 1000 halaman dengan kependaman 53 saat bagi setiap halaman, manakala Qwen 72B yang lebih besar kosnya sekitar 0.71 USD bagi setiap 1000 halaman dengan kependaman yang serupa. Sebagai perbandingan, Llama 90B menunjukkan kos yang jauh lebih tinggi pada 8.50 USD bagi setiap 1000 halaman.
Komuniti telah menyatakan bahawa harga boleh berbeza dengan ketara bergantung pada pembekal hos, menjadikan perbandingan kos standard mencabar. Model seperti Mistral menawarkan pemprosesan yang lebih cepat (3 saat bagi setiap halaman) pada kadar yang kompetitif (1.00 USD bagi setiap 1000 halaman), menyerlahkan pelbagai pilihan yang tersedia untuk pembangun.
Metrik Prestasi Model
Model | Kos (setiap 1000 halaman) | Kependaman (setiap halaman) |
---|---|---|
Qwen 32B | $0.33 | 53 saat |
Qwen 72B | $0.71 | 51 saat |
Llama 90B | $8.50 | 44 saat |
Llama 11B | $0.21 | 8 saat |
Gemma 27B | $0.25 | 22 saat |
Mistral | $1.00 | 3 saat |
Nota: Kos mungkin berbeza bergantung pada pembekal perkhidmatan hos
Persaingan yang Semakin Meningkat dalam AI Multimodal
Ahli komuniti telah menyatakan kejutan mereka tentang betapa cepatnya model Qwen maju dalam tugas berkaitan penglihatan. Beberapa pengguna melaporkan bahawa model Qwen2.5-VL terbaru bukan sahaja menambah baik pendahulu mereka tetapi juga menunjukkan kestabilan yang lebih besar dan kemudahan penalaan halus. Sesetengah pengguna bahkan mencadangkan bahawa model Qwen 2.5 VL 72B kini menyaingi Gemini dari Google untuk tugas penglihatan umum, meletakkannya di tempat kedua selepas GPT-4o dari OpenAI.
Apa yang menjadikan ini sangat ketara ialah model-model ini boleh dijalankan secara tempatan, menyediakan alternatif sumber terbuka kepada penyelesaian proprietari. Pilihan penempatan tempatan ini sangat berharga untuk aplikasi dengan keperluan privasi atau yang perlu memproses dokumen sensitif tanpa menghantar data ke API luar.
Aplikasi Praktikal dan Batasan
Pengguna telah melaporkan kejayaan dengan model-model ini dalam pelbagai aplikasi praktikal, termasuk mengekstrak teks dari kad permainan papan untuk penukaran teks kepada ucapan dan pemprosesan dokumen perniagaan. Walau bagaimanapun, perbincangan komuniti juga menekankan bahawa untuk aplikasi kritikal yang memerlukan ketepatan 95%+, pengesahan manusia masih diperlukan.
Penanda aras itu sendiri melampaui penilaian OCR biasa, memberi tumpuan kepada keupayaan model untuk mengekstrak data JSON berstruktur dari dokumen—tugas yang menggabungkan keupayaan OCR dengan pemahaman semantik. Ini mencerminkan trend yang semakin meningkat ke arah sistem pemprosesan dokumen hujung ke hujung yang boleh mengekstrak maklumat berstruktur secara langsung dan bukannya sekadar menyalin teks.
Apabila model sumber terbuka ini terus bertambah baik, mereka semakin mencabar penyelesaian proprietari dalam tugas pemprosesan dokumen yang pernah didominasi oleh pembekal OCR khusus. Bagi pembangun dan perniagaan yang bekerja dengan automasi dokumen, kemajuan pesat model-model ini menawarkan pilihan baru yang menjanjikan untuk membina saluran pemprosesan dokumen yang lebih berkebolehan dan kos efektif.
Rujukan: OmniAl OCR Benchmark
![]() |
---|
Perbandingan antara dokumen sumber dan dokumen rujukannya, menekankan penilaian ketepatan OCR dalam pemprosesan dokumen |