Model baharu daripada Facebook Research yang dikenali sebagai Visual Geometry Grounded Transformer (VGGT) sedang mencetuskan keterujaan dalam komuniti rekonstruksi 3D kerana keupayaannya untuk mencipta pemandangan 3D dengan pantas daripada gambar biasa. Berbeza dengan kaedah fotogrametri tradisional yang memerlukan masa pemprosesan yang panjang, VGGT boleh menghasilkan rekonstruksi 3D terperinci daripada hanya beberapa imej dalam beberapa saat sahaja.
![]() |
---|
Tangkapan skrin repositori GitHub untuk Visual Geometry Grounded Transformer (VGGT) oleh Facebook Research, mempamerkan sifat sumber terbukanya |
Pendekatan Berasaskan Transformer untuk Rekonstruksi 3D
VGGT mewakili perubahan besar daripada saluran rekonstruksi 3D konvensional. Berbanding dengan bergantung pada peringkat berasingan untuk anggaran kedudukan kamera, pengiraan kedalaman, dan penjanaan titik awan, VGGT mengendalikan semuanya dalam satu laluan ke hadapan melalui seni bina transformernya. Ahli komuniti telah menyatakan bahawa ini berpotensi menggantikan COLMAP, alat standard industri yang, walaupun tepat, terkenal lambat dan memerlukan banyak imej berkualiti tinggi.
Saya menganggarkan ini akan digunakan dalam banyak aliran kerja di mana ia akan menggantikan pelbagai saluran paip yang dirangka secara tidak sempurna.
Model ini mencapai ini dengan menggunakan seni bina transformer standard dengan mekanisme perhatian bingkai dan global secara berselang-seli, yang dilatih pada set data besar imej beranotasi 3D. Yang sangat mengagumkan adalah VGGT tidak menggabungkan bias induktif 3D khusus dalam rekaan, sebaliknya mempelajari hubungan ini semata-mata daripada data.
Ciri-ciri Utama VGGT
- Secara langsung menghasilkan parameter kamera, peta kedalaman, peta titik, dan jejak titik 3D
- Boleh berfungsi dengan serendah 1 imej atau sebanyak beratus-ratus imej
- Masa pemprosesan dari milisaat hingga beberapa saat
- Tidak memerlukan seni bina rangkaian 3D khusus
- Dilatih menggunakan pelbagai set data termasuk Co3Dv2, BlendMVS, MegaDepth, dan data sintetik
- Saiz model: 1 bilion parameter (dengan versi lebih kecil dirancang)
- Kos latihan: 64 GPU A100 selama sembilan hari (~$18,000 USD)
Aplikasi Praktikal yang Muncul dari Perbincangan Komuniti
Perbincangan komuniti mendedahkan pelbagai aplikasi praktikal untuk VGGT. Visualisasi arkitektur menonjol sebagai kes penggunaan utama, di mana rekonstruksi 3D yang pantas boleh memudahkan proses reka bentuk pengubahsuaian rumah secara dramatik. Aplikasi perubatan juga menjanjikan, dengan seorang pengulas menerangkan kerja pada sistem pembedahan ortopedik yang menjejaki alat pembedahan dalam ruang menggunakan perkakasan berpatutan seperti iPhone.
Mungkin yang paling menarik adalah potensi integrasi VGGT dengan Gaussian Splatting, teknik rendering terkini. Beberapa pengulas menyatakan bahawa VGGT boleh menyediakan struktur pemandangan awal untuk aliran kerja Gaussian Splatting, berpotensi menghapuskan keperluan untuk pemprosesan COLMAP yang lambat. Kertas kajian itu sendiri menyebut eksperimen penalaan halus untuk sintesis pandangan baharu, mencadangkan laluan integrasi ini sudah diterokai.
Batasan dan Kos Latihan
Walaupun menunjukkan hasil yang mengagumkan, ahli komuniti menyatakan beberapa keraguan tentang prestasi VGGT pada pemandangan baharu berbanding dengan mercu tanda terkenal yang mungkin telah muncul dalam data latihan. Contoh piramid Mesir dan Colosseum Rom yang ditunjukkan dalam demonstrasi menimbulkan persoalan tentang sejauh mana model ini dapat digeneralisasikan kepada persekitaran yang benar-benar belum pernah dilihat.
Sumber pengkomputeran yang diperlukan untuk melatih VGGT adalah besar. Menurut kertas kajian tersebut, model akhir dengan satu bilion parameter dilatih pada 64 GPU NVIDIA A100 selama sembilan hari, yang akan menelan kos kira-kira 18,000 dolar Amerika pada platform awan komersial. Ini mewakili apa yang disebut oleh beberapa pengulas sebagai 'The Bitter Lesson' AI moden - bahawa penskalaan pengkomputeran dan data sering mengatasi reka bentuk algoritma yang bijak.
Penanda Aras Prestasi VGGT
Bingkai Input | 1 | 2 | 4 | 8 | 10 | 20 | 50 | 100 | 200 |
---|---|---|---|---|---|---|---|---|---|
Masa (s) | 0.04 | 0.05 | 0.07 | 0.11 | 0.14 | 0.31 | 1.04 | 3.12 | 8.75 |
Memori (GB) | 1.88 | 2.07 | 2.45 | 3.23 | 3.63 | 5.58 | 11.41 | 21.15 | 40.63 |
Ditanda aras pada satu GPU NVIDIA H100 menggunakan Flash Attention 3
Masa Depan Rekonstruksi 3D
Pelancaran VGGT menandakan pencapaian penting dalam menjadikan rekonstruksi 3D lebih mudah diakses. Walaupun alat fotogrametri profesional masih menawarkan kelebihan dalam ketepatan, kelajuan dan kemudahan penggunaan VGGT membuka kemungkinan baharu untuk aplikasi di mana hasil pantas lebih bernilai daripada ketepatan sempurna.
Seorang pengulas mencadangkan bahawa pendekatan ideal mungkin menggabungkan VGGT dengan fotogrametri tradisional dan bukannya menggantikannya sepenuhnya - menggunakan AI untuk mengisi jurang dalam imbasan dan meningkatkan hasil. Pendekatan hibrid ini boleh menjadi sangat bernilai untuk pengimbas 3D berasaskan telefon di mana merakam data sempurna adalah mencabar.
Apabila eksperimen penalaan halus bermula pada perkakasan pengguna, kita boleh menjangkakan inovasi pesat dalam bidang ini dalam beberapa bulan akan datang, berpotensi mengubah aliran kerja merentasi industri dari permainan dan VR hingga arkitektur dan pengimejan perubatan.