Smallpond DeepSeek: Rangka Kerja Data Teragih Baharu yang Dibina di atas DuckDB dan 3FS

BigGo Editorial Team
Smallpond DeepSeek: Rangka Kerja Data Teragih Baharu yang Dibina di atas DuckDB dan 3FS

Landskap kejuruteraan data terus berkembang dengan alat khusus yang direka untuk kes penggunaan tertentu. Smallpond yang baru dikeluarkan oleh DeepSeek telah mencetuskan perbincangan penting dalam komuniti pembangun kerana ia bertujuan untuk merapatkan jurang antara pemprosesan data tempatan dan keperluan pengkomputeran teragih.

Apakah itu Smallpond?

Smallpond adalah rangka kerja pemprosesan data ringan yang dibina di atas DuckDB dan 3FS. Ia direka khusus untuk saluran latihan dan bukannya pemprosesan data untuk tujuan umum. Menurut perbincangan komuniti, rangka kerja ini mengkhusus dalam menyediakan kelompok data latihan kepada pekerja, menggunakan Ray untuk pemprosesan selari. Kekuatan utamanya terletak pada sokongan bacaan rawak (diperlukan untuk melaksanakan pengacakan merentasi epoch), sokongan Arrow untuk operasi salinan-sifar dengan Pandas DataFrames, dan mekanisme pemeriksaan titik yang cekap.

Ciri-ciri Utama Smallpond

  • Pemprosesan data berprestasi tinggi dikuasakan oleh DuckDB
  • Boleh diskalakan untuk mengendalikan set data berskala PB
  • Operasi mudah tanpa perkhidmatan yang berjalan lama
  • Menyokong Python 3.8 hingga 3.12
  • Integrasi dengan Ray untuk pemprosesan selari
  • Dikhususkan untuk aliran kerja latihan ML

Prestasi Penanda Aras GraySort

  • Data yang disusun: 110.5TiB
  • Masa yang diperlukan: 30 minit dan 14 saat
  • Purata pemprosesan: 3.66TiB/min
  • Infrastruktur: 50 nod pengkomputeran dan 25 nod storan yang menjalankan 3FS

Hubungan dengan 3FS

Komponen penting dalam seni bina smallpond ialah 3FS, sistem fail teragih yang wujud sebelum DeepSeek sendiri. Ahli komuniti menunjukkan bahawa 3FS telah wujud sejak sekurang-kurangnya 2019, dengan rujukan dalam blog teknologi Cina. Sistem fail ini kelihatan menjadi kunci kepada keupayaan smallpond untuk mengendalikan set data berskala petabait. Walau bagaimanapun, beberapa pengguna menyatakan bahawa tanpa 3FS, kegunaan smallpond mungkin berkurangan dengan ketara kerana prestasi sistem fail rangkaian akan menjadi kekangan.

Saya tidak fikir anda mendapat sebarang faedah sebenar berbanding duckdb kecuali data anda melebihi 10tb+ atau anda menggunakan 3FS (yang kelihatan mencabar).

Keperluan infrastruktur untuk 3FS menimbulkan satu lagi batasan. Ahli komuniti menekankan bahawa pembekal cloud utama AS mempunyai sokongan terhad untuk InfiniBand, yang kelihatan penting untuk prestasi 3FS. Ini boleh menghadkan penggunaan smallpond dalam kalangan syarikat yang bergantung kepada infrastruktur awan awam.

Prestasi dan Penanda Aras

Tuntutan prestasi Smallpond sangat mengagumkan, dengan penanda aras GraySort menunjukkan keupayaan untuk menyusun 110.5TiB data dalam masa hanya lebih 30 minit menggunakan kluster 50 nod pengiraan dan 25 nod storan. Ini diterjemahkan kepada purata daya pemprosesan 3.66TiB/min. Menariknya, analisis komuniti terhadap kod smallpond mendedahkan bahawa untuk penanda aras GraySort, ia menggunakan Polars secara lalai untuk mengendalikan penyusunan sebenar dan bukannya menggunakan DuckDB secara langsung.

Kedudukan dalam Ekosistem Data

Kemunculan smallpond mencerminkan trend yang lebih luas dalam kejuruteraan data - pembangunan enjin pertanyaan khusus untuk beban kerja tertentu. Walaupun alat tujuan umum seperti DuckDB, Polars, dan penyelesaian awan terurus telah wujud selama bertahun-tahun, smallpond kelihatan menyasarkan ceruk di mana pemprosesan teragih set data yang sangat besar untuk pembelajaran mesin diperlukan.

Bagi kebanyakan pengguna dengan set data kurang daripada 10TB, sentimen komuniti mencadangkan bahawa faedah smallpond berbanding alat sedia ada seperti DuckDB sahaja mungkin terhad. Kelebihan sebenar muncul pada skala yang lebih besar di mana pemprosesan teragih menjadi keperluan.

Sementara kejuruteraan data terus berkembang, alat seperti smallpond mewakili langkah ke arah penyelesaian khusus yang dibina untuk tujuan tertentu yang mengabstrakkan sebahagian daripada kerumitan pemprosesan data teragih. Sama ada ini mewakili permulaan abstraksi teknologi backend yang lebih luas, seperti yang diharapkan oleh beberapa ahli komuniti, atau sekadar alat lain dengan pertukaran tertentu, masih belum dapat dipastikan.

Rujukan: smallpond - Rangka kerja pemprosesan data ringan yang dibina di atas DuckDB dan 3FS