Pelancaran terbaru NotebookLlama, yang cuba meniru keupayaan penjanaan podcast Google NotebookLM, telah mencetuskan perbincangan hangat dalam komuniti teknologi mengenai cabaran menghasilkan podcast janaan AI yang kedengaran semula jadi dan keadaan semasa teknologi text-to-speech (TTS).
Dokumen ini menggariskan proses penukaran PDF kepada podcast, mencerminkan aliran kerja NotebookLlama dalam menghasilkan output berasaskan AI |
Jurang Realiti
Walaupun NotebookLlama menyediakan aliran kerja empat langkah untuk menukar PDF kepada podcast, maklum balas komuniti menunjukkan bahawa kualiti output jauh ketinggalan berbanding Google NotebookLM. Jurang ini menyerlahkan kecanggihan pelaksanaan Google, terutamanya dalam mengendalikan aliran perbualan dan interaksi penutur yang natural.
Pandangan Teknikal NotebookLM
Beberapa pembangun dan pengguna telah menyatakan bahawa kejayaan NotebookLM terletak pada keupayaannya untuk mewujudkan perbualan yang kedengaran semula jadi di mana penutur berinteraksi, menyela, dan melengkapkan ayat antara satu sama lain. Walaupun sesetengah pihak melihat gangguan ini sebagai bermasalah, yang lain berpendapat ia menyumbang kepada keaslian perbualan.
Batasan dan Cabaran Teknikal
Kekangan Enjin TTS
Pilihan enjin TTS dalam NotebookLlama ( parler-tts/parler-tts-mini-v1 dan bark/suno ) telah dikritik oleh komuniti sebagai kurang optimum. Alternatif sumber terbuka yang lebih maju seperti XTTSv2 dan F5-TTS berpotensi memberikan hasil yang lebih baik, walaupun ia memerlukan sumber pengkomputeran yang besar.
Halangan Kos
Cabaran besar bagi pembangun bebas yang cuba meniru fungsi NotebookLM adalah kos tinggi API TTS yang berkualiti. Seperti yang dinyatakan oleh beberapa pembangun, walaupun API TTS OpenAI yang agak berpatutan menjadikannya tidak ekonomik untuk menjana kandungan audio berjam-jam secara percuma.
Keperluan Pelaksanaan
NotebookLlama memerlukan sumber pengkomputeran yang besar:
- Pelayan GPU atau pembekal API untuk model Llama 70B, 8B, dan 1B
- 140GB memori terkumpul untuk inferens model 70B dalam ketepatan bfloat-16
- Token akses Hugging Face untuk muat turun model
Kebimbangan Pelesenan
Perlu diingatkan bahawa walaupun dinyatakan sebagai sumber terbuka dalam persembahannya, komuniti telah menunjukkan bahawa NotebookLlama tidak mempunyai maklumat pelesenan yang jelas, yang berpotensi menghadkan kebolehgunaannya di luar tujuan rujukan.
Penambahbaikan Masa Hadapan
Projek ini mengakui beberapa bidang yang berpotensi untuk peningkatan:
- Pelaksanaan model pertuturan yang lebih baik
- Pendekatan perbahasan LLM lawan LLM untuk penjanaan kandungan
- Pengujian dengan model 405B untuk penulisan transkrip
- Strategi arahan yang dipertingkatkan
- Sokongan untuk pelbagai format input (laman web, fail audio, pautan YouTube)
Walaupun NotebookLlama mungkin tidak setanding dengan kecanggihan NotebookLM, ia memberikan pandangan berharga tentang kerumitan penjanaan podcast berkuasa AI dan berfungsi sebagai titik permulaan bagi pembangun yang berminat dalam teknologi ini.