Landskap pangkalan data sumber terbuka kini mempunyai pesaing baharu dengan pelancaran HelixDB, sebuah pangkalan data graf-vektor yang ditulis dalam bahasa Rust yang direka khusus untuk aplikasi RAG (Retrieval Augmented Generation) dan AI. Apa yang menarik perhatian komuniti ialah tuntutan prestasi yang berani dan pendekatan uniknya dalam menggabungkan fungsi graf dan vektor.
![]() |
---|
Halaman GitHub untuk HelixDB ini memaparkan strukturnya sebagai pangkalan data graf-vektor sumber terbuka untuk aplikasi AI |
Tuntutan Prestasi Menimbulkan Tanda Tanya
Pembangun HelixDB mendakwa pangkalan data mereka 1000x lebih pantas daripada Neo4j dan 100x lebih pantas daripada TigerGraph sambil setanding dengan Qdrant untuk vektor. Dakwaan ini telah mendorong ahli komuniti meminta bukti, dengan seorang pengguna secara langsung meminta tanda aras untuk menyokong tuntutan tersebut. Pasukan HelixDB mengakui mereka telah menjalankan tanda aras ini tetapi belum menerbitkannya sebelum mengumumkan projek tersebut, dan berjanji untuk menambah data prestasi terperinci dalam dokumentasi mereka.
Ciri-ciri Utama HelixDB
- Pantas & Cekap: Mendakwa 1000 kali lebih pantas daripada Neo4j, 100 kali lebih pantas daripada TigerGraph, setanding dengan Qdrant untuk vektor
- RAG-First: Sokongan asli untuk jenis data graf dan vektor
- Integrasi Graf-Vektor: Menyokong hubungan antara nod, vektor, atau nod DAN vektor
- Penyimpanan: Dikuasakan oleh LMDB (Lightning Memory-Mapped Database)
- Mematuhi ACID: Memastikan integriti dan konsistensi data
- Dimensi Vektor: Kini tiada had, had masa depan kemungkinan sekitar 64,000 dimensi
- Bahasa Pertanyaan: DSL khusus dengan keselamatan jenis
- Lesen: AGPL (Affero General Public License)
Keupayaan Vektor dan Dimensi
Pangkalan data ini kelihatan mempunyai sokongan vektor yang kukuh, dengan pembangun mengesahkan bahawa tiada had untuk dimensi vektor pada masa ini. Mereka menyebut bahawa mereka mungkin akan melaksanakan had sekitar 64,000 dimensi pada masa hadapan, serupa dengan pangkalan data vektor lain seperti Qdrant dan Pinecone. Pasukan ini juga mendedahkan rancangan untuk melaksanakan kuantisasi binari dalam beberapa bulan akan datang untuk meningkatkan prestasi dengan vektor berdimensi tinggi, menunjukkan kesedaran tentang keseimbangan prestasi yang terlibat dalam operasi vektor.
Integrasi Graf-Vektor Menjadikannya Berbeza
Apa yang membezakan HelixDB daripada pesaing seperti KuzuDB ialah pendekatannya dalam mengintegrasikan fungsi graf dan vektor. Menurut pembangun, HelixDB menyokong pengindeksan tambahan pada vektor, membolehkan kemas kini tanpa memerlukan pengindeksan semula semua vektor. Ini menangani masalah dengan beberapa penyelesaian sedia ada di mana indeks vektor benar-benar berasingan daripada struktur graf, memerlukan pengindeksan semula sepenuhnya apabila kemas kini berlaku.
Lebih kurang sama seperti yang anda lakukan dengan mana-mana pangkalan data graf, dengan kelebihan tambahan dapat memperlakukan vektor sebagai nod dengan mewujudkan hubungan eksplisit antara mereka.
Bahasa Pertanyaan Khas Mencetuskan Perbincangan
Bahasa pertanyaan khas HelixDB telah menghasilkan reaksi bercampur-campur. Sesetengah pengguna menyatakan kebimbangan tentang keperluan mempelajari bahasa domain khusus (DSL) baharu, terutamanya mengenai keupayaan menggunakannya dengan LLM untuk penjanaan pertanyaan. Pembangun mempertahankan pilihan ini, menjelaskan bahawa tiada bahasa sedia ada yang betul-betul merangkumi fungsi graf dan vektor, dan mereka ingin mencipta bahasa pertanyaan yang selamat dari segi jenis. Mereka menyebut bahawa mereka sedang berusaha untuk mengintegrasikan tatabahasa mereka ke dalam kod CPP LLaMa untuk memastikan LLM dapat menjana pertanyaan yang betul dari segi tatabahasa dalam bahasa mereka.
Keserasian Pelayar dan Penggunaan Terbenam
Beberapa pengguna bertanya tentang menjalankan HelixDB dalam pelayar melalui WebAssembly (WASM) untuk aplikasi yang memberi tumpuan kepada privasi dan tentang menggunakannya sebagai pangkalan data terbenam serupa dengan SQLite. Pasukan tersebut mengakui bahawa LMDB, enjin penyimpanan semasa mereka, adalah halangan untuk keserasian pelayar, tetapi menyebut mereka mempunyai rancangan untuk membangunkan enjin penyimpanan mereka sendiri dengan sokongan WASM. Buat masa ini, HelixDB tidak boleh berjalan sebagai pangkalan data terbenam, yang mengehadkan beberapa kes penggunaan yang berpotensi.
Item-item Pelan Tindakan
- Mengembangkan keupayaan jenis data vektor untuk aplikasi RAG
- Meningkatkan bahasa pertanyaan dengan pemeriksaan jenis yang lebih mantap
- Melaksanakan set ujian untuk pengujian pertanyaan hujung ke hujung
- Membina enjin pengujian simulasi deterministik
- Menambah kuantisasi binari untuk prestasi yang lebih baik
- Melaksanakan BM25 untuk carian jarang
- Membangunkan enjin penyimpanan graf-vektor dalaman (untuk menggantikan LMDB)
- Mencipta protokol rangkaian & perpustakaan penserializasian dalaman
Pembangunan Masa Depan dan Pelan Tindakan
Pasukan HelixDB telah menggariskan beberapa ciri yang akan datang, termasuk carian jarang menggunakan BM25, dengan beberapa ahli komuniti mencadangkan pertimbangan model SPLADE untuk keupayaan carian yang dipertingkatkan. Pelan tindakan mereka juga termasuk mengembangkan keupayaan vektor, meningkatkan bahasa pertanyaan, melaksanakan set ujian, membina enjin ujian simulasi deterministik, dan akhirnya membangunkan enjin penyimpanan graf-vektor mereka sendiri untuk menggantikan LMDB.
Ketika HelixDB memasuki ruang pangkalan data vektor dan graf yang semakin kompetitif, tuntutan prestasi dan pendekatan uniknya dalam menggabungkan fungsi ini pasti telah menarik perhatian. Komuniti kelihatan berhati-hati tetapi optimistik, dengan ramai yang menyatakan minat untuk mencuba pangkalan data ini dan memberikan maklum balas. Bagaimana HelixDB akan membezakan dirinya dalam jangka panjang daripada pemain yang sudah mantap dan pendatang baru yang lain masih belum dapat dilihat, tetapi tumpuannya pada pengalaman pembangun dan prestasi untuk aplikasi AI nampaknya mendapat sambutan daripada pengguna yang berpotensi.
Rujukan: HelixDB/helix-db