Model Suara CSM Sumber Terbuka Sesame Tidak Memenuhi Jangkaan Demo

BigGo Editorial Team
Model Suara CSM Sumber Terbuka Sesame Tidak Memenuhi Jangkaan Demo

Baru-baru ini, Sesame AI telah membuka sumber Model Perbualan Suara (CSM) mereka, tetapi pelancarannya telah mencetuskan kekecewaan di kalangan komuniti pembangun. Walaupun syarikat itu sebelum ini mempamerkan demo suara interaktif yang mengesankan, ramai pengguna mendapati model 1B parameter yang dilancarkan jauh kurang berkemampuan berbanding apa yang telah ditunjukkan.

Versi Teknologi yang Dikurangkan Keupayaannya

CSM sumber terbuka ini adalah model penghasilan suara yang dibina di atas tulang belakang Llama dengan penyahkod audio yang lebih kecil yang menghasilkan kod audio Mimi. Walaupun secara teknikal berfungsi, maklum balas komuniti menunjukkan batasan yang ketara berbanding demo Sesame yang digilap. Beberapa pengulas telah menggambarkan pelancaran ini sebagai penipuan, mencadangkan bahawa Sesame telah melancarkan versi teknologi mereka yang sengaja dikurangkan keupayaannya.

Rupanya ia adalah penipuan. Mereka membuka sumber versi Sesame yang dikurangkan keupayaannya (1B), bukan yang mereka gunakan dalam demo sebenar.

Model ini memerlukan GPU yang serasi dengan CUDA dan telah diuji pada CUDA 12.4 dan 12.6, dengan Python 3.10 yang disyorkan. Ia boleh menghasilkan ucapan daripada input teks dan berfungsi paling baik apabila disediakan dengan konteks perbualan, tetapi pengguna melaporkan kualiti dan prestasi jauh di bawah jangkaan.

Keperluan Model CSM

  • GPU yang serasi dengan CUDA
  • Diuji pada CUDA 12.4 dan 12.6
  • Python 3.10 disyorkan
  • Akses kepada model Hugging Face:
    • Llama-3.2-1B
    • CSM-1B

Isu-isu Dilaporkan oleh Komuniti

  • Jauh lebih perlahan berbanding alternatif komersial
  • Kualiti output lebih rendah daripada yang ditunjukkan dalam demo Sesame
  • Bukan penyelesaian lengkap (hanya penjanaan pertuturan)
  • Memerlukan komponen tambahan untuk membina pembantu suara yang lengkap
  • Sesetengah implementasi mengalami jeda yang janggal dalam output pertuturan

Kebimbangan Prestasi dan Kebolehgunaan

Pengguna yang cuba melaksanakan model ini telah menghadapi masalah yang ketara. Proses penjanaan dilaporkan sangat perlahan, dan kualiti output telah digambarkan sebagai tidak optimum oleh ahli komuniti yang telah mengujinya. Seorang pengguna secara khusus merujuk kepada isu GitHub (#80) di mana batasan ini sedang dibincangkan secara terperinci.

Sesetengah pembangun telah mencipta pelaksanaan alternatif untuk meningkatkan kebolehcapaian, seperti pustaka Python untuk pengguna Mac. Walau bagaimanapun, bahkan pelaksanaan ini telah melaporkan kejanggalan seperti memasukkan jeda yang janggal yang berpanjangan beberapa saat ke dalam output.

Privasi dan Aplikasi Praktikal

Selain isu prestasi, kebimbangan privasi telah muncul mengenai penyelesaian yang dihoskan oleh Sesame. Seorang pengguna menyatakan bahawa dasar Sesame untuk merakam dan menyemak perbualan menjadikan perkhidmatan yang dihoskan mereka langsung tidak boleh diterima, menyerlahkan potensi nilai alternatif sumber terbuka yang benar-benar berkemampuan yang boleh dihoskan sendiri.

Konsensus komuniti nampaknya adalah bahawa walaupun model suara terbuka mewakili peluang menarik untuk bersaing dengan penyelesaian proprietari, pelancaran ini gagal memenuhi janjinya. Seperti yang dinyatakan oleh seorang pengulas, jurang antara model asas ini dan pembantu suara yang digilap dan responsif seperti yang ada dalam demo Sesame menunjukkan bahawa AI suara memerlukan pemikiran dari segi sistem lengkap dan bukannya komponen individu.

Kekecewaan seputar pelancaran ini menunjukkan masih terdapat peluang besar bagi pembangun yang boleh menyampaikan model suara sumber terbuka yang benar-benar berkemampuan yang sepadan dengan kualiti alternatif proprietari. Buat masa ini, pencarian berterusan untuk penyelesaian suara terbuka yang benar-benar memenuhi janji interaksi suara yang semula jadi dan responsif.

Rujukan: Dokumentasi CSM (Model Perbualan Suara)