Plexe: Pembinaan Model ML Dengan Bahasa Semula Jadi Mencetuskan Perbincangan Komuniti Tentang Evolusi AutoML

BigGo Editorial Team
Plexe: Pembinaan Model ML Dengan Bahasa Semula Jadi Mencetuskan Perbincangan Komuniti Tentang Evolusi AutoML

Dalam bidang pembelajaran mesin yang berkembang pesat, satu alat baharu yang dipanggil Plexe telah muncul yang membolehkan pengguna mencipta model ML dengan menggambarkannya dalam bahasa biasa. Alat ini telah mencetuskan perbincangan yang signifikan dalam komuniti teknologi mengenai masa depan pembelajaran mesin automatik dan aplikasi praktikalnya dalam senario dunia sebenar.

Seni Bina Multi-Ejen Memacu Penciptaan Model Bahasa Semula Jadi

Plexe menggunakan sekumpulan ejen AI khusus untuk menganalisis keperluan, merancang penyelesaian model, menjana kod, menguji prestasi, dan menyediakan model untuk penempatan. Pendekatan multi-ejen ini membolehkan pengguna menentukan model menggunakan penerangan dalam Bahasa Inggeris biasa, dengan sistem secara automatik menentukan seni bina model yang sesuai berdasarkan pernyataan masalah dan data yang tersedia. Alat ini menyokong pelbagai jenis model dari algoritma tradisional seperti gradient boosting hingga rangkaian neural dalam, menilai pelbagai pendekatan untuk mencari penyelesaian optimum untuk data dan kekangan tertentu.

Beberapa ahli komuniti telah menyatakan minat terhadap pendekatan ejen untuk pembinaan model. Sistem ini kini menggunakan pustaka smolagents, walaupun pembangun telah menyatakan batasan termasuk kekurangan abstraksi memori bersama, kesukaran menyesuaikan arahan sistem, dan pelaksanaan segerak ejen yang diuruskan.

Membezakan Dari Percubaan AutoML Sebelumnya

Sebahagian besar perbincangan komuniti tertumpu pada bagaimana Plexe berbeza daripada alat AutoML sebelumnya yang mendapat populariti sekitar 2018. Walaupun beberapa pengulas menyatakan keraguan tentang dakwaan mengautomasikan kitaran hayat ML, pembangun menjelaskan kedudukan mereka:

Saya bersetuju sepenuhnya dengan komen anda. Melatih model ML pada set data yang bersih adalah bahagian yang mudah dan menyeronokkan daripada tugas jurutera ML... Buat masa ini, ini ditujukan terutamanya kepada jurutera yang tidak mempunyai kepakaran ML: seseorang yang memahami konteks perniagaan, tahu bagaimana membina saluran pemprosesan data dan perkhidmatan web, tetapi mungkin tidak tahu bagaimana membina model.

Tidak seperti beberapa pendekatan yang menggunakan model bahasa besar secara langsung sebagai peramal, Plexe memanfaatkan LLM untuk melakukan kerja pemodelan, biasanya menghasilkan model ringan dan khusus domain seperti pengatur regresi XGBoost yang lebih cekap daripada menggunakan LLM untuk inferens.

Pelan Pembangunan Didorong Komuniti Fokus pada Cabaran Data

Maklum balas yang paling konsisten dari komuniti berkaitan dengan cabaran penyediaan data. Beberapa pengulas menunjukkan bahawa bahagian paling sukar dalam pembelajaran mesin bukanlah latihan model tetapi penilaian kualiti data, kejuruteraan ciri, dan pencegahan kebocoran data. Para pembangun mengakui batasan ini dan berkongsi rancangan untuk mengembangkan keupayaan Plexe:

Pasukan ini sedang aktif membangunkan ejen untuk pembersihan data dan transformasi ciri berdasarkan maklum balas daripada penganalisis data, pengurus produk, dan jurutera. Mereka juga bekerja untuk meningkatkan keupayaan sistem untuk menganalisis data ketika membuat keputusan pemodelan dan mengesan masalah dengan data latihan.

Ciri-ciri lain yang diminta termasuk pembinaan model yang lebih interaktif dengan titik semakan pengguna antara langkah-langkah, integrasi dengan saluran scikit-learn, dan sokongan yang lebih baik untuk latihan teragih pada platform seperti Vertex.AI dari Google Cloud.

Ciri-ciri Utama Plexe

  • Definisi Model Bahasa Semula Jadi - Tentukan model menggunakan huraian bahasa Inggeris biasa
  • Seni Bina Multi-Ejen - Pasukan ejen AI khusus mengendalikan aspek berbeza dalam pembinaan model
  • Pembinaan Model Automatik - Bina model lengkap dengan hanya satu panggilan kaedah
  • Latihan Teragih dengan Ray - Sokongan untuk pemprosesan selari merentasi teras CPU yang tersedia
  • Penjanaan Data & Inferens Skema - Jana data sintetik atau secara automatik membuat inferens skema
  • Sokongan Pelbagai Pembekal - Serasi dengan model OpenAI, Anthropic, Ollama, dan Hugging Face

Pilihan Pemasangan

pip install plexe                   Pemasangan Standard
pip install plexe[lightweight]      Kebergantungan minimum
pip install plexe[all]              Dengan sokongan pembelajaran mendalam

Batasan yang Dikenal Pasti oleh Komuniti

  • Keupayaan penerokaan data yang terhad (sedang ditangani)
  • Kekurangan titik semakan interaktif semasa proses pembinaan model
  • Cabaran kesahihan statistik yang biasa dalam pendekatan automatik
  • Pelaksanaan ejen terurus yang kini bersifat segerak
  • Penyesuaian terhad untuk prompt sistem ejen

Kesahihan Statistik Kekal Sebagai Cabaran

Ahli komuniti membangkitkan kebimbangan mengenai kesahihan statistik model yang dijana secara automatik, menyatakan bahawa manusia dan LLM sering membuat kesilapan statistik. Pasukan Plexe mengakui cabaran ini, menjelaskan mereka telah melaksanakan protokol pengesahan dan pagar pembatas sekitar pengendalian data sambil bekerja untuk mengesan isu biasa seperti overfitting dan kebocoran data dengan lebih baik.

Ketika pembelajaran mesin terus menjadi lebih mudah diakses melalui alat seperti Plexe, keseimbangan antara automasi dan kepakaran kekal sebagai titik perbincangan utama. Walaupun automasi boleh mendemokratikkan akses kepada keupayaan ML, konsensus komuniti mencadangkan bahawa pengetahuan domain dan pemahaman statistik kekal penting untuk membangunkan model yang boleh dipercayai dan sedia untuk produksi.

Rujukan: plexe