TScale: Rangka Kerja Latihan LLM yang Menjanjikan Menghadapi Pengawasan Awal daripada Pembangun

BigGo Editorial Team

TScale: Rangka Kerja Latihan LLM yang Menjanjikan Menghadapi Pengawasan Awal daripada Pembangun

TScale, rangka kerja latihan dan inferens transformer baharu yang ditulis dalam C++ dan CUDA, telah mencetuskan perbincangan dalam kalangan pembangun yang sedang mengkaji kualiti kod dan pilihan pelaksanaannya. Projek ini bertujuan untuk menjadikan latihan model bahasa besar (LLM) lebih mudah diakses pada perkakasan pengguna, tetapi maklum balas awal komuniti mencadangkan ia mungkin telah dikeluarkan terlalu awal.

Repositori yang menjanjikan seni bina transformer yang dioptimumkan dengan penumpuan yang lebih pantas dan kos perhatian yang dikurangkan, telah menarik perhatian kerana dakwaan yang bercita-cita tinggi tentang keupayaan latihannya. Menurut dokumentasinya, TScale boleh melatih model parameter 1.5B dengan kos kira-kira USD $500 menggunakan beberapa instans spot dengan GPU NVIDIA 4090. Ia juga memperkenalkan teknik indeks 1T yang menarik yang dilaporkan mencapai pengurangan perpleksiti yang ketara dengan model yang lebih kecil.

Ciri Utama TScale:

Seni bina transformer yang dioptimumkan dengan penumpuan lebih cepat dan kos perhatian dikurangkan ~2x
Sokongan untuk ketepatan pemberat model dan pengaktifan fp8 dan int8
Dioptimumkan untuk GPU NVIDIA pengguna dengan latihan ketepatan rendah yang pantas
Pemindahan CPU untuk mengurangkan keperluan memori GPU
Latihan teragih segerak pada hos dengan konfigurasi sama
Pemampatan kecerunan 1-bit untuk sambungan ethernet biasa
Latihan teragih tak segerak pada hos sembarangan dengan trafik rangkaian minimum

Prestasi yang Didakwa:

Latihan model 1.5B: 2 hari pada USD $500 menggunakan instans spot dengan GPU 4090
Model 125M dengan indeks 1T: Pengurangan kekaburan dari 19.02 kepada 2.28

Cabaran Sistem Pembinaan

Salah satu isu paling segera yang dibangkitkan oleh ahli komuniti adalah ketiadaan fail sistem pembinaan yang disebut dalam dokumentasi. Seorang pengguna melaporkan bahawa fo.cpp, penjana fail penyelesaian/pembinaan ringan yang diterangkan dalam arahan persediaan, sebenarnya tidak wujud dalam repositori, menjadikan ia mustahil untuk mengikuti proses pembinaan seperti yang digariskan.

Saya cuba menjalankan ini tetapi fo.cpp tidak wujud dalam repositori. Saya telah membuat isu lihat https://github.com/Foreseerr/TScale/issues/1

Percanggahan ini mencadangkan projek itu mungkin telah diterbitkan sebelum ia benar-benar sedia untuk kegunaan awam, dengan beberapa pembangun mengandaikan ia mungkin projek hujung minggu yang dikongsi terlalu awal.

Mencipta Semula Roda

Satu lagi perkara yang menjadi pertikaian dalam kalangan pembangun adalah pelaksanaan TScale terhadap komponen asas seperti penghurai fail konfigurasi nilai-kunci, yang banyak dianggap tidak perlu memandangkan ketersediaan perpustakaan yang telah mantap. Ini telah mencetuskan perbincangan yang lebih luas tentang pengurusan kebergantungan dalam projek C/C++.

Sesetengah pembangun berpendapat bahawa kecenderungan untuk membuat utiliti sendiri dan bukannya menggunakan perpustakaan sedia ada tertanam dalam budaya C/C++, bukan semestinya disebabkan oleh batasan teknikal tetapi lebih kepada keutamaan budaya. Walaupun alat moden seperti CMake telah menjadikan pengurusan kebergantungan lebih mudah, amalan meminimumkan kebergantungan luaran masih biasa.

Seorang pembangun mencadangkan pendekatan ini mungkin dipengaruhi oleh kebimbangan tentang rantaian kebergantungan:

Kebergantungan cenderung mempunyai kebergantungan sendiri (yang mempunyai...). Bukan kesukaran tetapi kesedaran tentangnya yang membawa saya untuk meminimumkan kebergantungan saya kepada yang paling minimum.

Yang lain mengandaikan bahawa beberapa corak kod mungkin merupakan gejala pengkodan berbantukan LLM, di mana alat AI kadangkala melaksanakan penyelesaian kompleks untuk masalah yang boleh diselesaikan dengan perpustakaan sedia ada.

Indeks 1T yang Misteri

Sebutan projek tentang teknik indeks 1T telah menimbulkan rasa ingin tahu. TScale mendakwa pendekatan ini membolehkan latihan model 1T di rumah dengan membina model dengan indeks 1T yang kita cari untuk setiap token untuk membuat ramalan dengan model yang jauh lebih kecil. Menurut dokumentasi, pembinaan ini mencapai hasil yang cemerlang dari segi kehilangan log dan perpleksiti, dengan pengurangan perpleksiti sebanyak 8x dilaporkan apabila menggunakan model parameter 125M dengan indeks tersebut.

Ahli komuniti telah menyatakan minat untuk memahami teknik ini dengan lebih baik, dengan sesetengah mengandaikan ia mungkin melibatkan pengindeksan istilah yang serupa dengan kaedah yang diterangkan dalam literatur akademik tentang penaakulan automatik, mungkin dilaksanakan sebagai struktur pokok awalan yang membantu mengenali pengitlakan.


Graf garis ini menggambarkan trend dalam data yang mungkin berkorelasi dengan dakwaan prestasi teknik indeks 1T TScale

Kesesakan Rangkaian dalam Inferens Teragih

Perbincangan juga menyentuh tentang cabaran inferens teragih, terutamanya mengenai kesesakan rangkaian. Walaupun TScale menyebut keupayaan latihan teragih, termasuk latihan teragih tak segerak pada hos yang dipisahkan secara geografi, komuniti menyatakan bahawa batasan rangkaian kekal sebagai cabaran besar untuk mana-mana sistem LLM teragih.

Seperti yang dikatakan oleh seorang pengulas: mana-mana saluran paip latihan atau inferens LLM yang cukup maju akhirnya akan mendapati bahawa kesesakan sebenar adalah rangkaian!

Kesimpulannya, walaupun TScale mengemukakan idea-idea menarik untuk menjadikan latihan LLM lebih mudah diakses pada perkakasan pengguna, maklum balas awal komuniti menunjukkan ia mungkin memerlukan pembangunan lanjut sebelum ia dapat memenuhi janjinya. Perbincangan menyoroti kedua-dua cabaran teknikal dalam mencipta rangka kerja latihan LLM yang cekap dan aspek budaya pembangunan perisian dalam ekosistem C/C++.

Rujukan: TScale