Microsoft telah mengambil langkah berani dalam bidang permainan berkuasakan AI dengan model eksperimen terbarunya yang mengubah cara permainan klasik mungkin dirender pada masa hadapan. Gergasi teknologi ini menunjukkan potensi dan juga batasan semasa AI generatif dalam hiburan interaktif.
WHAMM: Model Permainan AI Terbaru Microsoft
Microsoft baru-baru ini memperkenalkan WHAMM (World and Human Action MaskGIT Model), sistem AI generatif yang direka khusus untuk aplikasi permainan masa nyata. Model baru ini mewakili kemajuan yang signifikan berbanding pendahulunya, WHAM-1.6B, yang dilancarkan pada Februari. Demonstrasi paling mengagumkan tentang keupayaan WHAMM datang dalam bentuk versi permainan klasik berusia 28 tahun, Quake II, yang boleh dimainkan terus dalam pelayar web melalui Copilot Labs. Walaupun teknologi ini masih dalam peringkat eksperimen, ia menunjukkan bagaimana AI mungkin akhirnya mengubah pengalaman permainan dengan menjana kandungan visual secara masa nyata berdasarkan interaksi pemain.
![]() |
---|
Antara muka AI WHAMM untuk penjanaan permainan masa nyata dalam Quake II |
Inovasi Teknikal Di Sebalik WHAMM
Inovasi teknikal utama dalam WHAMM terletak pada pendekatannya yang berbeza daripada model autoregresif tradisional, yang menjana token secara berurutan. Sebaliknya, WHAMM menggunakan seni bina gaya MaskGIT yang boleh menjana semua token imej untuk satu bingkai secara selari. Perubahan seni bina ini mengurangkan bilangan laluan ke hadapan yang diperlukan dan mengurangkan kebergantungan antara elemen, membolehkan output visual yang lebih cepat yang hampir mencapai responsif masa nyata. Resolusi juga telah ditingkatkan daripada 300 x 180 piksel model sebelumnya kepada 640 x 360 piksel yang lebih terperinci, memberikan visual yang lebih jelas sambil mengekalkan seni bina pengekod-penyahkod asas yang sama.
![]() |
---|
Seni bina teknikal model WHAM yang mempamerkan reka bentuk inovatifnya |
Proses Latihan yang Dipercepatkan
Mungkin yang paling menakjubkan adalah pengurangan dramatik dalam masa latihan yang diperlukan untuk WHAMM. Sementara model WHAM-1.6B sebelumnya memerlukan tujuh tahun data permainan untuk latihan, pembangun mengajar WHAMM menggunakan hanya lebih daripada seminggu permainan Quake II yang dikurasi. Kecekapan ini dicapai dengan memanfaatkan data daripada penguji permainan profesional yang memberi tumpuan khusus kepada satu tahap permainan sahaja. Ini mewakili kemajuan yang signifikan dalam kecekapan latihan model AI, berpotensi menjadikan sistem serupa lebih praktikal untuk dibangunkan pada masa hadapan.
Batasan Semasa dan Pengalaman Pengguna
Walaupun kemajuan ini, WHAMM masih berada dalam peringkat eksperimen. Demo ini berjalan pada kadar bingkai yang sangat rendah, hampir mencapai belasan rendah hingga pertengahan, dan mengalami kelambatan input yang ketara. Microsoft menekankan bahawa demo ini harus dilihat sebagai pameran teknologi dan bukannya produk permainan yang siap. Pemain boleh melakukan tindakan asas seperti menembak, melompat, membongkok, dan berinteraksi dengan musuh, tetapi pengalaman tersebut terhalang oleh banyak batasan. Interaksi musuh kelihatan kabur, statistik kesihatan dan kerosakan sering tidak tepat, dan model ini mempunyai panjang konteks yang terhad—melupakan objek yang meninggalkan pandangan pemain lebih daripada sembilan persepuluh saat. Selain itu, demo ini terhad kepada satu tahap sahaja, kerana percubaan untuk maju ke hadapan membekukan penjanaan imej disebabkan kekurangan data latihan yang direkodkan.
Spesifikasi Teknikal WHAMM:
- Resolusi: 640 x 360 piksel (meningkat dari 300 x 180 dalam model sebelumnya)
- Seni bina: Penjanaan token selari gaya MaskGIT
- Data latihan: Satu minggu permainan Quake II yang dikurasi (berkurang dari tujuh tahun untuk model sebelumnya)
- Batasan semasa: Kadar bingkai rendah (FPS rendah hingga pertengahan belasan), lag input tinggi, memori konteks terhad (0.9 saat), terhad kepada satu tahap sahaja
AI dalam Industri Kreatif: Peningkatan vs. Penggantian
WHAMM muncul di tengah-tengah perbincangan yang lebih luas tentang peranan AI dalam industri kreatif. Kontroversi terkini, seperti ciptaan AI terinspirasi Ghibli oleh OpenAI, telah menyoroti skeptisisme awam tentang sama ada AI benar-benar boleh meniru kesenian manusia. Microsoft memposisikan WHAMM bukan sebagai pengganti kreativiti manusia tetapi sebagai alat untuk meningkatkannya—falsafah yang serupa dengan teknologi ACE Nvidia, yang meningkatkan NPC yang realistik dalam permainan seperti inZOI. Pelaksanaan ideal akan melihat AI meningkatkan dan bukannya menggantikan karya kreatif, menambah elemen dinamik sambil memelihara sentuhan manusia yang menjadikan permainan menarik.
Implikasi Masa Depan untuk Media Interaktif
Melihat ke hadapan, Microsoft membayangkan WHAMM dan teknologi serupa membolehkan bentuk media interaktif yang sama sekali baru. Walaupun permainan yang sepenuhnya dijana oleh AI masih berada di ufuk berbanding realiti segera, inovasi seperti WHAMM mencadangkan ia boleh muncul dalam beberapa tahun akan datang. Iterasi masa depan berkemungkinan akan menangani kekurangan semasa sambil memperkasakan pembangun permainan untuk menghasilkan naratif yang lebih mendalam yang diperkaya oleh alat yang didorong oleh AI. Teknologi ini mewakili sekilas menarik tentang bagaimana AI generatif akhirnya mungkin mengubah bukan sahaja bagaimana permainan kelihatan, tetapi bagaimana ia berfungsi secara asas dan bertindak balas terhadap tindakan pemain.