Cabaran Pemprosesan Aliran: Jurang Antara DataFusion dan Keperluan Dunia Sebenar

BigGo Editorial Team
Cabaran Pemprosesan Aliran: Jurang Antara DataFusion dan Keperluan Dunia Sebenar

Landskap pemprosesan aliran dan pembangunan pangkalan data sedang mengalami evolusi yang ketara, dengan pembangun dan syarikat mencari penyelesaian yang dapat merapatkan jurang antara pemprosesan kelompok tradisional dan keperluan data masa nyata. Walaupun Apache DataFusion menawarkan keupayaan yang menjanjikan sebagai alat pembangunan pangkalan data, perbincangan komuniti mendedahkan cabaran dan peluang yang lebih mendalam dalam ruang pemprosesan data aliran.

Cabaran Aliran

Walaupun DataFusion cemerlang dalam mengendalikan pemprosesan data statik, pelaksanaan keupayaan aliran membentangkan satu set cabaran yang berbeza. Perbincangan komuniti menekankan bahawa pemprosesan aliran memerlukan komponen infrastruktur khusus melebihi apa yang ditawarkan oleh enjin SQL tradisional. Kerumitan infrastruktur, kebolehpercayaan penggunaan aliran, dan pengurusan memori muncul sebagai isu kritikal yang masih belum dapat ditangani secara menyeluruh oleh penyelesaian semasa.

Jurang Pasaran dalam Penyelesaian Terbenam

Terdapat kekosongan yang ketara dalam pasaran untuk penyelesaian aliran terbenam. Tawaran semasa kebanyakannya mengikuti model berasaskan awan yang disokong VC, meninggalkan pembangun yang memerlukan keupayaan aliran terbenam dengan pilihan yang terhad. Seperti yang dinyatakan oleh salah seorang ahli komuniti:

Adalah lebih mudah untuk menggunakan kafka dan skrip python yang berjalan lama dan menulis transformasi secara manual, berbanding menggunakan apa-apa yang ada di pasaran sekarang. Tiada pemproses aliran semasa yang mahu dibenamkan setakat yang saya tahu, itu bukan di mana wangnya berada.

Penyelesaian dan Inovasi Baharu

Beberapa projek sedang cuba menangani cabaran-cabaran ini. Arroyo telah mengambil pendekatan inovatif dengan menggunakan komponen frontend SQL dan enjin ungkapan DataFusion sambil melaksanakan aliran data dan operator mereka sendiri. Materialize baru-baru ini telah membuat kemajuan dalam menangani isu penggunaan memori dan meningkatkan pengurusan data berasaskan cakera. Sementara itu, ClickHouse terus mengembangkan keupayaan pandangan termaterialisasi untuk senario aliran.

Projek-Projek Utama dalam Bidang Pemprosesan Aliran:

  • DataFusion: Kit alatan enjin SQL yang memberi tumpuan kepada pemprosesan berkelompok
  • Arroyo: Pelaksanaan aliran data tersuai menggunakan komponen DataFusion
  • Materialize: Penyelesaian berasaskan awan dengan penambahbaikan pengoptimuman memori terkini
  • ClickHouse: Membangunkan keupayaan pandangan termaterialisasi untuk penstriman
  • Feldera: Penyelesaian baharu dalam ruang penstriman
Imej ini mewakili inovasi berterusan dalam teknologi pangkalan data dan perjalanan membina penyelesaian penstreaman yang lebih baik
Imej ini mewakili inovasi berterusan dalam teknologi pangkalan data dan perjalanan membina penyelesaian penstreaman yang lebih baik

Langkah ke Hadapan

Konsensus komuniti menunjukkan bahawa walaupun primitif SQL aliran asas (seperti tetingkap tumble, hop, atau sesi) telah mantap, cabaran sebenar terletak dalam mewujudkan infrastruktur yang boleh mengendalikan kes penggunaan dunia sebenar dengan dipercayai. Penyelesaian ideal akan menggabungkan kebolehcapaian SQL tradisional dengan keupayaan aliran yang mantap, sambil mengekalkan antara muka mesra pembangun dan kerumitan infrastruktur yang munasabah.

Evolusi ruang ini berterusan, dengan pelbagai pendekatan yang diterokai oleh projek yang berbeza. Walau bagaimanapun, matlamat utama penyelesaian aliran terbenam yang mesra pembangun yang sepadan dengan kemudahan penggunaan pangkalan data tradisional masih belum tercapai, membentangkan peluang untuk inovasi dalam tahun-tahun akan datang.

Sumber Rujukan: Building Databases over a Weekend