Komuniti Membincangkan Masa Depan Model AI Video Sumber Terbuka dan Tertutup

BigGo Editorial Team
Komuniti Membincangkan Masa Depan Model AI Video Sumber Terbuka dan Tertutup

Pelancaran FastVideo , rangka kerja baharu untuk mempercepatkan model penyebaran video, telah mencetuskan perbahasan hangat dalam komuniti teknologi mengenai masa depan model penjanaan video AI sumber terbuka berbanding sumber tertutup. Perbincangan ini berlaku pada masa yang kritikal ketika pelbagai syarikat berlumba-lumba untuk membangunkan keupayaan penjanaan video yang semakin canggih.

Kelebihan Sumber Terbuka

Sebahagian besar komuniti percaya bahawa model video sumber terbuka akhirnya akan mengatasi alternatif sumber tertutup seperti Sora dari OpenAI . Hujah utama berkisar tentang kelebihan ekosistem yang disediakan oleh sumber terbuka, termasuk keupayaan untuk mengubah suai, menala halus, dan mengintegrasikan model-model ini ke dalam pelbagai aplikasi. Model seperti Hunyuan dan Mochi , yang boleh dijalankan secara tempatan atau dalam persekitaran awan tersuai, menawarkan pembangun dan pencipta lebih fleksibiliti dalam membina aplikasi inovatif.

Model video sumber terbuka akan mengatasi sumber tertutup. Ekosistem dan alatan adalah penting... Kerana anda boleh mengaturcaranya dan menjalankannya secara tempatan atau dalam awan anda sendiri. Anda boleh menala haluskannya untuk melakukan apa sahaja yang anda mahu. Anda boleh membina model reaktif audio, model yang boleh dikawal, dinding seni interaktif, dan pelbagai lagi.

Ciri-ciri Utama FastVideo:

  • Peningkatan kelajuan inferens sebanyak 8x dengan FastHunyuan dan FastMochi
  • Menyokong DiTs video terkini yang bersumber terbuka
  • Latihan yang boleh diskalakan dengan peningkatan hampir linear sehingga 64 GPU
  • Keupayaan penalaan halus yang cekap dari segi penggunaan memori

Batasan dan Cabaran Teknikal

Walau bagaimanapun, perbincangan ini juga mendedahkan halangan teknikal yang ketara yang dihadapi oleh kedua-dua model sumber terbuka dan tertutup. Keterbatasan perkakasan semasa, terutamanya berkaitan dengan memori GPU, merupakan kekangan utama. Walaupun sesetengah ahli komuniti menyatakan keinginan untuk kad grafik dengan kapasiti memori yang lebih besar (seperti varian 192GB yang hipotetikal), pakar-pakar menunjukkan bahawa reka bentuk berasaskan GDDR semasa menjadikan konfigurasi sedemikian tidak praktikal. Industri ini nampaknya sedang mencapai batasan fizikal dengan seni bina memori GPU konvensional.

Keperluan Perkakasan untuk FastVideo:

  • Minimum: 2 GPU dengan memori 40GB setiap satu (dengan LoRA)
  • Keperluan yang dikurangkan: 2 GPU dengan memori 30GB setiap satu (dengan pemindahan CPU dan LoRA)
  • Disyorkan: GPU dengan memori 80GB untuk inferens

Pertukaran antara Kualiti dan Kebolehcapaian

Komuniti telah menyatakan bahawa model penjanaan video semasa menghadapi cabaran dengan pemahaman realiti fizikal dan konsistensi merentasi urutan yang lebih panjang. Walaupun model-model ini cemerlang dalam mencipta klip pendek yang menakjubkan secara visual, mereka menghadapi kesukaran dalam mengekalkan kepaduan dalam urutan yang lebih panjang atau mewakili interaksi fizikal yang kompleks dengan tepat. Perbahasan ini menekankan bagaimana model yang berbeza membuat pertukaran yang berbeza antara kualiti dan kebolehcapaian, dengan sesetengahnya memberi tumpuan kepada hasil berkualiti tinggi manakala yang lain mengutamakan kebolehgunaan praktikal.

Kesimpulannya, walaupun teknologi ini menunjukkan potensi yang besar, komuniti mengakui bahawa penemuan penting dalam kedua-dua keupayaan perkakasan dan seni bina model mungkin diperlukan untuk mencapai tahap keupayaan penjanaan video seterusnya. Persaingan berterusan antara pendekatan sumber terbuka dan tertutup terus memacu inovasi dalam bidang yang berkembang pesat ini.

Rujukan: FastVideo: A Lightweight Framework for Accelerating Large Video Diffusion Models