Dia 1.6B: Model Teks-ke-Ucapan Sumber Terbuka Mengkagumkan dengan Penjanaan Dialog Semula Jadi dan Kawalan Suara

BigGo Editorial Team

Dia 1.6B: Model Teks-ke-Ucapan Sumber Terbuka Mengkagumkan dengan Penjanaan Dialog Semula Jadi dan Kawalan Suara

Nari Labs telah melancarkan Dia-1.6B, model teks-ke-ucapan sumber terbuka yang mendapat perhatian besar dalam komuniti AI kerana keupayaannya mencipta dialog yang terdengar sangat semula jadi. Apa yang menjadikan pelancaran ini sangat menarik adalah ia dibangunkan oleh pasukan kecil yang hanya terdiri daripada dua jurutera dalam tempoh tiga bulan, namun menghasilkan kualiti yang setanding dengan produk dari syarikat-syarikat yang lebih besar.


Repositori GitHub untuk model teks-ke-ucapan sumber terbuka Dia yang dibangunkan oleh Nari Labs

Penjanaan Dialog Semula Jadi

Berbeza dengan model teks-ke-ucapan (TTS) tradisional yang menjana setiap baris penutur secara berasingan dan kemudian menggabungkannya, Dia menjana keseluruhan perbualan dalam satu proses. Pendekatan ini menghasilkan dialog yang kedengaran lebih semula jadi dengan pengaturan masa yang tepat, pertindihan, dan kesinambungan emosi. Ahli komuniti sangat terkesan dengan keupayaan model ini menghasilkan elemen bukan verbal seperti ketawa, batuk, dan penjelasan tekak.

Ini sangat mengagumkan; kita semakin hampir dengan impian saya: keupayaan untuk menjana buku audio yang sesuai daripada EPUB. Bukan sekadar satu suara robotik untuk segalanya, tetapi suara berbeza dan konsisten untuk setiap watak.

Kualiti output Dia telah mengejutkan ramai pengguna, dengan beberapa orang mengulas bahawa contoh-contoh tersebut kedengaran sangat mirip manusia. Ada yang menyatakan bahawa contoh demo mempunyai kualiti teater, dengan seorang pengguna membandingkannya dengan gaya watak-watak dari rancangan TV The Office. Pemerhatian ini membawa pengguna lain menemui bahawa salah satu contoh demo memang berdasarkan adegan dari rancangan tersebut.

Kawalan Suara dan Emosi

Ciri menonjol Dia adalah sokongan untuk arahan audio, membolehkan pengguna menetapkan output berdasarkan suara atau nada emosi tertentu. Dengan menyediakan klip audio sampel, pengguna boleh meminta model meneruskan penjanaan ucapan dalam gaya yang sama. Keupayaan ini membuka kemungkinan untuk suara watak yang konsisten dalam buku audio, podcast, dan aplikasi kreatif lain.

Sesetengah pengguna melaporkan hasil bercampur dengan ciri kawalan emosi, dengan satu pengguna menyebut artifak yang tidak dijangka seperti muzik latar muncul ketika cuba menetapkan nada gembira. Walaupun ada kejanggalan sekali sekala, keupayaan keseluruhan untuk mengekalkan ciri suara yang konsisten sepanjang dialog nampaknya berfungsi dengan baik.

Keperluan Perkakasan dan Kebolehcapaian

Versi penuh Dia kini memerlukan sekitar 10GB VRAM untuk beroperasi, yang meletakkannya di luar jangkauan pengguna dengan perkakasan yang lebih sederhana. Walau bagaimanapun, pembangun telah menyatakan mereka merancang untuk melancarkan versi terkuantum pada masa hadapan yang akan mengurangkan keperluan ini, serupa dengan bagaimana model Bark dari Suno berkembang daripada memerlukan 16GB kepada hanya 4GB VRAM.

Ahli komuniti telah mula menyesuaikan model ini untuk konfigurasi perkakasan yang berbeza, dengan seorang pengguna berjaya menjalankannya pada MacBook Pro M2 Pro. Seorang lagi mengesahkan ia berfungsi pada cip M4 juga. Pembangun telah menyebut bahawa walaupun sokongan GPU kini diperlukan, sokongan CPU akan ditambah tidak lama lagi.

Spesifikasi Teknikal Dia-1.6B

Saiz Model: 1.6 bilion parameter
Keperluan Perkakasan: ~10GB VRAM (GPU diperlukan)
Platform yang Diuji:
- GPU NVIDIA dengan CUDA 12.6
- MacBook Pro M2 Pro (melalui adaptasi komuniti)
- Apple Silicon M4
Kelajuan Penjanaan: ~40 token/saat pada GPU A4000 (86 token = 1 saat audio)
Ciri-ciri Utama:
- Penjanaan dialog secara langsung (bukan suara tunggal yang disambung)
- Pengkondisian prompt audio untuk kawalan suara/emosi
- Komunikasi bukan lisan (ketawa, batuk, dll.)
- Sokongan untuk berbilang penutur

Garis Masa Pembangunan

Dicipta oleh pasukan 2 jurutera (1 sepenuh masa, 1 separuh masa)
Dibangunkan dalam tempoh kira-kira 3 bulan
Tiada pengalaman terdahulu dengan model pertuturan sebelum memulakan projek

Sumbangan Sumber Terbuka dan Pembangunan Masa Depan

Sebagai projek sumber terbuka yang dilancarkan di bawah Lesen Apache 2.0, Dia telah mula menerima sumbangan komuniti. Pengguna telah menghantar permintaan tarik untuk meningkatkan keserasian dengan platform perkakasan yang berbeza, dan sesetengah telah membincangkan strategi pelaksanaan Docker.

Pembangun telah menggariskan beberapa bidang untuk penambahbaikan masa depan, termasuk sokongan Docker, pengoptimuman kelajuan inferens, dan kuantisasi untuk kecekapan memori. Mereka juga menyatakan minat untuk mengembangkan sokongan bahasa selain Bahasa Inggeris, yang telah diminta oleh beberapa ahli komuniti.

Pelancaran Dia mewakili satu lagi langkah penting dalam mendemokrasikan akses kepada teknologi sintesis ucapan AI yang canggih. Dengan menjadikan model parameter 1.6B mereka tersedia secara terbuka, Nari Labs telah menyediakan alat yang berkuasa kepada penyelidik dan pembangun yang boleh menjana dialog yang meyakinkan seperti manusia tanpa memerlukan sumber dari syarikat teknologi besar.

Rujukan: nari-labs/dia