Apple telah melancarkan CA-1M, satu dataset komprehensif untuk pengesanan objek 3D dalam ruangan dalaman, bersama dengan Cubify Transformer (CuTR), sebuah model yang direka untuk mengesan dan meletakkan kotak pembatas 3D di sekitar objek dalam ruang dalaman. Walaupun teknologi ini menunjukkan potensi untuk aplikasi AR/VR, maklum balas komuniti mendedahkan kedua-dua keghairahan tentang keupayaannya dan kebimbangan mengenai sekatan pelesenannya.
Gambaran Keseluruhan Dataset CA-1M & Cubify Transformer
- Dataset: CA-1M - Dianotasi secara menyeluruh dengan kotak 3D kelas-agnostik
- Model: Cubify Transformer (CuTR) - Tersedia dalam varian RGB-D dan RGB sahaja
- Struktur Lesen:
- Kod sampel: Lesen Kod Sampel Apple
- Dataset: CC-by-NC-ND
- Model: Terma Penggunaan Model Penyelidikan ML Apple
Ciri-ciri Utama:
- Kebenaran asas kotak 3D bagi setiap bingkai
- Posisi GT didaftarkan kepada pengimbas laser
- Kedalaman GT pada resolusi 512 x 384
- Bingkai berorientasi tegak
- Sokongan untuk dijalankan pada tangkapan dari peranti pengguna melalui aplikasi NeRF Capture
![]() |
---|
Sebuah ruang dalaman yang boleh mendapat manfaat daripada teknologi pengesanan objek 3D termaju untuk reka bentuk rumah dan aplikasi AR |
Struktur Pelesenan Kompleks Mencipta Kekeliruan
Pendekatan pelesenan projek ini telah mencetuskan perbincangan yang ketara dalam kalangan pembangun. Apple telah melaksanakan struktur pelesenan berbilang peringkat: kod sampel di bawah Lesen Kod Sampel Apple, dataset di bawah CC-by-NC-ND, dan model di bawah Terma Penggunaan Model Penyelidikan ML Apple. Pendekatan yang terpecah ini telah mendapat kritikan daripada komuniti pembangun.
Mereka terlalu merumitkan dengan menggunakan 3-4 lesen (sub) yang berbeza dalam satu projek... mengapa membuatnya begitu mengelirukan dan terperinci? Ia sangat tidak berguna untuk digunakan oleh pembangun pihak ketiga untuk membuat aplikasi dan melancarkannya di platform mereka.
Lesen Attribution-NonCommercial-NoDerivatives untuk dataset adalah sangat terhad, membatasi potensi aplikasi komersial. Beberapa pengulas menyatakan bahawa kerumitan pelesenan ini mungkin menghalang penggunaan dan eksperimentasi yang lebih luas dengan teknologi tersebut.
Prestasi Teknikal Menimbulkan Persoalan
Maklum balas komuniti mengenai prestasi teknikal Cubify Transformer telah bercampur-campur. Sesetengah pengguna telah menunjukkan isu ketepatan dengan pengesanan kotak pembatas, terutamanya dengan objek seperti gambar di dinding dan rasuk siling. Seorang pengulas menyatakan bahawa model ini sering tidak menggunakan [kiub berputar] apabila sepatutnya, menyebabkan lebihan batas, mencadangkan sistem kadangkala menghadapi kesukaran dengan penjajaran objek yang betul.
Menariknya, sesetengah pembangun mendakwa telah melihat prestasi yang lebih baik daripada rangkaian neural persendirian yang berjalan pada iPad menggunakan hanya data RGB tanpa maklumat kedalaman. Ini menimbulkan persoalan sama ada pendekatan berasaskan transformer adalah optimum untuk tugas penglihatan komputer ini.
Aplikasi Praktikal untuk Reka Bentuk Rumah
Walaupun terdapat kebimbangan teknikal dan pelesenan, ramai pengguna melihat potensi aplikasi yang berharga untuk teknologi ini. Salah satu kes penggunaan yang paling menarik yang dibincangkan adalah reka bentuk rumah dan penyusunan perabot. Pengguna menyatakan minat dalam mengimbas rumah mereka dengan kamera telefon dan LiDAR untuk mencipta model 3D di mana perabot boleh disusun semula secara maya.
Penyelesaian semasa seperti Scaniverse mencipta jaring lengkap tetapi tidak memisahkan objek individu, menjadikan penyusunan semula maya sukar. Pendekatan pengesanan objek Cubify berpotensi menyelesaikan masalah ini dengan mengenal pasti objek diskret dalam sebuah ruang.
Integrasi dengan Teknologi Web
Komuniti sudah meneroka cara untuk memperluaskan dan mengintegrasikan teknologi ini dengan platform web. Beberapa pengulas berkongsi sumber untuk merender imbasan USDZ dalam Three.js, perpustakaan 3D JavaScript yang popular, menunjukkan ekosistem yang lebih luas yang sedang berkembang di sekitar teknologi pengimbasan 3D.
Ketersediaan alat penonton dan rendering menunjukkan bahawa pembangun sedang aktif berusaha untuk menjadikan pengesanan dan visualisasi objek 3D lebih mudah diakses merentasi platform yang berbeza.
Integrasi Platform Apple Masa Depan
Sesetengah pengulas membuat spekulasi tentang potensi integrasi dengan platform Apple, terutamanya Vision Pro. Seorang pengguna menyatakan kejutan bahawa teknologi ini belum menjadi sebahagian daripada CoreML, rangka kerja pembelajaran mesin Apple, sementara yang lain mencadangkan ia mungkin akan diumumkan di persidangan pembangun WWDC yang akan datang.
Memandangkan fokus Apple yang semakin meningkat pada pengalaman realiti terimbuh, Cubify Transformer boleh mewakili blok pembinaan penting untuk aplikasi AR masa depan pada peranti Apple, berpotensi membolehkan pemahaman persekitaran dan interaksi objek yang lebih canggih.
Kesimpulannya, walaupun dataset CA-1M Apple dan teknologi Cubify Transformer menunjukkan potensi untuk memajukan pengesanan objek 3D, pelesenan yang terhad dan ulasan prestasi yang bercampur-campur menyoroti cabaran yang mungkin mengehadkan penggunaannya. Walau bagaimanapun, teknologi ini mewakili langkah penting ke arah pemahaman persekitaran yang lebih canggih untuk aplikasi AR/VR, dengan implikasi yang berpotensi untuk reka bentuk rumah, permainan, dan pengalaman realiti campuran.
Rujukan: CA-1M and Cubify Anything