Perpustakaan ART Menjadikan Pembelajaran Pengukuhan Lebih Mudah Diakses untuk Latihan LLM

BigGo Editorial Team
Perpustakaan ART Menjadikan Pembelajaran Pengukuhan Lebih Mudah Diakses untuk Latihan LLM

Perpustakaan sumber terbuka Agent Reinforcement Trainer ( ART ) semakin mendapat perhatian dalam komuniti AI apabila pembangun mempamerkan hasil yang mengagumkan dalam melatih model bahasa melalui pembelajaran pengukuhan. Perpustakaan ini bertujuan untuk memudahkan proses kompleks pembelajaran pengukuhan untuk model bahasa besar (LLM), menjadikannya lebih mudah diakses untuk pembangun melatih model pada tugas tersuai tanpa kepakaran ML yang mendalam.

Merapatkan Jurang Antara SFT dan RL

Salah satu perbincangan yang paling mendalam dalam komuniti ini berkisar tentang perbezaan antara pendekatan penalaan halus terkawal (SFT) dan pembelajaran pengukuhan (RL). Sementara SFT melatih model untuk menghasilkan token output tertentu berdasarkan input, pembelajaran pengukuhan memberi tumpuan kepada pengoptimuman fungsi ganjaran.

RL, sebaliknya, bermaksud melatih model bukan untuk menghasilkan rentetan konkrit token output, tetapi untuk mencipta output yang memaksimumkan beberapa fungsi ganjaran (anda boleh menentukan ganjarannya).

Pendekatan ini terbukti sangat bernilai dalam senario di mana memeriksa jawapan adalah lebih mudah daripada menghasilkannya. Sebagai contoh, dalam contoh ejen penyelidikan e-mel yang dikongsi oleh pasukan ART, model tersebut dilatih untuk menggunakan carian kata kunci secara berkesan untuk mencari e-mel yang relevan—strategi yang tidak diprogramkan secara eksplisit oleh pembangun tetapi yang ditemui oleh model melalui pembelajaran pengukuhan.

Pelaksanaan Fleksibel dengan API Serasi OpenAI

ART membezakan dirinya melalui pendekatan pelaksanaan yang fleksibel. Bukannya memaksa pembangun untuk bekerja dalam rangka kerja yang tegar, ART menyediakan titik akhir yang serasi dengan API OpenAI yang berfungsi sebagai pengganti langsung untuk API proprietari. Pilihan reka bentuk ini membolehkan pembangun mengintegrasikan ART ke dalam kod sedia ada dengan pengubahsuaian minimum.

Perpustakaan ini membahagikan fungsi antara klien dan pelayan. Klien berinteraksi dengan kod pembangun, manakala pelayan mengendalikan bahagian inferens dan latihan yang kompleks dalam kitaran pembelajaran pengukuhan. Pemisahan ini mengabstrakkan banyak kerumitan sambil masih membolehkan penyesuaian.

Tugas Ejen yang Disokong oleh ART

Tugas Ejen Penerangan Model yang Digunakan
2048 Ejen permainan Qwen 2.5 3B
Temporal Clue Penyelesai teka-teki Qwen 2.5 7B
Tic Tac Toe Ejen permainan Qwen 2.5 3B

Gambaran Keseluruhan Gelung Latihan ART

  1. Inferens

    • Kod menggunakan klien ART untuk aliran kerja ejen
    • Permintaan dihalakan ke pelayan ART yang menjalankan LoRA terkini model dalam vLLM
    • Mesej disimpan dalam Trajektori
    • Pelengkapan rollout mencetuskan pemberian ganjaran
  2. Latihan

    • Trajektori dikumpulkan dan dihantar ke pelayan
    • Pelayan melatih model menggunakan algoritma GRPO
    • LoRA yang baru dilatih disimpan dan dimuatkan ke dalam VLLM
    • Inferens diteruskan dengan model yang ditambah baik

Aplikasi Dunia Sebenar Menunjukkan Potensi

Ahli komuniti telah menyoroti ejen e-mel ART sebagai demonstrasi yang meyakinkan tentang keupayaan perpustakaan ini. Ejen tersebut dilatih untuk mencari e-mel secara efisien menggunakan kata kunci, mempelajari strategi carian optimum melalui pengukuhan dan bukannya pengaturcaraan eksplisit.

Perpustakaan ini kini menyokong latihan untuk pelbagai tugas, termasuk permainan seperti 2048, Temporal Clue, dan Tic Tac Toe, dengan penanda aras menunjukkan peningkatan prestasi yang setanding. Contoh-contoh ini berfungsi sebagai titik masuk bagi pembangun yang ingin memahami bagaimana ART boleh diaplikasikan untuk kes penggunaan mereka sendiri.

Status Pembangunan dan Penglibatan Komuniti

ART kini berada dalam peringkat alfa, dengan pasukan pembangunan secara aktif mencari maklum balas dan sumbangan. Titik akhir API HTTP masih tertakluk kepada perubahan, menunjukkan penghalusan berterusan rangka kerja ini. Pasukan tersebut mengakui mereka masih menguji ART secara meluas dan menggalakkan pengguna untuk melaporkan masalah melalui Discord atau GitHub.

Projek ini dibina berdasarkan beberapa projek sumber terbuka yang telah mantap, termasuk Unsloth, VLLM, trl, dan SkyPilot, menunjukkan sifat kolaboratif kemajuan dalam alat AI.

Seiring dengan lebih ramai pembangun bereksperimen dengan ART, kita boleh menjangkakan untuk melihat pelbagai aplikasi yang semakin meluas di mana pembelajaran pengukuhan meningkatkan prestasi LLM pada tugas-tugas tertentu, berpotensi mendemokrasikan akses kepada teknik latihan AI yang canggih yang sebelum ini terhad kepada organisasi dengan kepakaran dan sumber ML yang besar.

Rujukan: Agent Reinforcement Trainer (ART)