Carian Hibrid Meilisearch Mendapat Sambutan Dalam Kalangan Pembangun, Persoalan Prestasi Masih Wujud

BigGo Editorial Team
Carian Hibrid Meilisearch Mendapat Sambutan Dalam Kalangan Pembangun, Persoalan Prestasi Masih Wujud

Meilisearch, enjin carian yang pantas dan direka untuk diintegrasikan dengan lancar bersama aplikasi dan laman web, baru-baru ini mendapat perhatian kerana keupayaan carian hibridnya. Ketika pasaran enjin carian terus berkembang dengan ciri-ciri yang dikuasakan oleh AI, para pembangun berkongsi pengalaman mereka dengan Meilisearch dalam persekitaran pengeluaran dan membandingkannya dengan alternatif seperti Typesense, Elasticsearch, dan penyelesaian baharu seperti Orama.

Kesediaan Pengeluaran dan Prestasi

Meilisearch telah sedia untuk pengeluaran sejak versi 1.0, dengan beberapa pembangun melaporkan pelaksanaan yang berjaya mengendalikan berjuta-juta dokumen. Seorang pengguna menyebut tentang penggunaannya untuk korpus 7 juta artikel dengan hasil yang baik, manakala yang lain menyatakan pemasangan yang mudah pada instans Hetzner berharga 8 dolar sebulan yang mengendalikan sejuta rekod. Walau bagaimanapun, persoalan masih wujud tentang pilihan ketersediaan tinggi, dengan sesetengah pengguna menyatakan bahawa menjalankan beberapa instans yang disegerakkan kelihatan menjadi satu-satunya penyelesaian untuk redundansi.

Penggunaan memori enjin carian ini telah mencetuskan perbincangan, dengan sesetengah pengguna memerhatikan penggunaan memori yang tinggi (3GB+) walaupun untuk instans kecil. Seorang ahli pasukan Meilisearch menjelaskan tingkah laku ini:

Sebenarnya, Meilisearch menggunakan RAM yang tersedia secara terancang kerana ia menggunakan LMDB (yang dipetakan memori) sebagai asas untuk penyimpanan nilai kunci. Ini adalah ciri, bukan pepijat. Perkara yang bagus tentang itu adalah OS yang akan memilih proses mana untuk memperuntukkan memori.

Pilihan reka bentuk ini bermakna Meilisearch memanfaatkan memori sistem yang tersedia untuk prestasi tetapi bergantung pada sistem operasi untuk menguruskan peruntukan memori antara proses.

Pelaksanaan Carian Hibrid

Satu topik perbincangan yang penting berkisar tentang pendekatan Meilisearch terhadap carian hibrid, yang menggabungkan carian teks penuh tradisional dengan carian semantik (berasaskan vektor). Pelaksanaan ini berbeza daripada pesaing seperti Typesense, yang menggunakan Reciprocal Rank Fusion (RRF) untuk menggabungkan hasil.

Perbualan itu mendedahkan ketegangan antara pendekatan berbeza terhadap carian hibrid, dengan seorang pengulas (yang kemudiannya dikenal pasti sebagai ahli pasukan Meilisearch) mengkritik kaedah carian gabungan Typesense sebagai hampir tidak berguna kerana anda akan sentiasa mempunyai satu atau strategi carian lain yang akan memberi anda hasil yang teruk. Ini mencetuskan respons daripada wakil Typesense yang mempertahankan pendekatan mereka sebagai kajian yang baik dan didokumentasikan dalam kertas akademik.

Untuk pembangun yang mempertimbangkan untuk melaksanakan carian hibrid, seorang pengulas menasihatkan: Satu perkara yang perlu selalu digali adalah bagaimana penyelesaian carian hibrid anda menapis indeks carian vektor. Ini tidak distandarkan sama sekali, sering diabaikan, tetapi apabila anda mahukan 'X teratas yang paling serupa dengan pertanyaan mengikut penyematan, tetapi juga dalam kategori Y/padanan istilah carian Z', itulah perkara utama yang dilakukan oleh carian hibrid anda.

Ciri-ciri Utama Meilisearch:

  • Carian hibrid yang menggabungkan carian semantik & carian teks penuh
  • Carian-semasa-menaip (hasil dalam <50ms)
  • Toleransi kesilapan ejaan
  • Penapisan dan carian berfaset
  • Keupayaan menyusun
  • Sokongan sinonim
  • Fungsi geosearch
  • Sokongan pelbagai bahasa
  • Pengurusan keselamatan dengan kunci API
  • Sokongan multi-tenancy
  • API RESTful dengan plugin dan SDK
  • Bersedia untuk AI dengan integrasi langchain

Kelajuan Pengindeksan dan Kemas Kini Dokumen

Beberapa pengguna menyoroti cabaran dengan Meilisearch apabila mengendalikan dokumen yang sering berubah. Seorang menyatakan bahawa apabila dokumen sering berubah dan hasil carian perlu mencerminkan perubahan tersebut dengan cepat, ia berakhir dengan tugas tertunda selama berjam-jam. Walau bagaimanapun, untuk kandungan statik atau yang jarang berubah, Meilisearch menerima pujian untuk prestasi dan kemudahan pemasangannya.

Pasukan Meilisearch menunjukkan peningkatan dalam keluaran terbaru mereka (v1.12), yang merangkumi versi pengindeks baharu yang jauh lebih pantas, memanfaatkan penggunaan tinggi pemprosesan selari, dan mengurangkan penulisan cakera. Mereka juga menekankan pendekatan cakera-dahulu mereka, di mana kandungan ditulis ke cakera dan bukannya disimpan terutamanya dalam memori, membolehkan but semula segera dan peningkatan yang lebih mudah tanpa pengindeksan semula.

Alternatif Meilisearch yang Disebut:

  • Typesense - Dikenali dengan pilihan ketersediaan tinggi
  • Elasticsearch - Penyelesaian perusahaan tradisional
  • Quickwit - Berasaskan Tantivy (diambil alih oleh Datadog)
  • ParadeDB - Carian bersepadu Postgres
  • Orama - Penyelesaian padat (<2KB) untuk pelayar/pelayan/pinggir
  • Vespa - Disebut untuk keupayaan carian hibrid

Penyelesaian Alternatif

Perbincangan itu mendedahkan beberapa alternatif kepada Meilisearch yang dipertimbangkan oleh pembangun. Typesense sering disebut, terutamanya untuk senario ketersediaan tinggi. Yang lain menunjukkan kepada penyelesaian berasaskan Tantivy seperti Quickwit dan ParadeDB, walaupun kebimbangan dibangkitkan tentang masa depan Quickwit selepas diambil alih oleh Datadog. Peserta baharu, Orama, ditonjolkan kerana saiznya yang padat (kurang daripada 2KB) dan sokongan untuk carian teks penuh, vektor, dan hibrid yang boleh dijalankan dalam pelayar, pelayan, atau rangkaian tepi.

Bagi mereka yang ingin menggabungkan carian teks penuh dengan penyematan vektor, cadangan termasuk Elasticsearch, Vespa, dan Typesense, walaupun pendapat berbeza mengenai kualiti pelaksanaan dan kemudahan penggunaan.

Ketika teknologi carian terus berkembang dengan keupayaan AI, pendekatan Meilisearch untuk mengekalkan keserasian ke belakang sambil meningkatkan prestasi meletakkannya sebagai pesaing dalam ruang ini, walaupun pembangun harus mempertimbangkan dengan teliti keperluan khusus mereka berkaitan dengan kekerapan kemas kini dokumen, penggunaan memori, dan ketersediaan tinggi apabila memilih penyelesaian carian.

Rujukan: Meilisearch: Carian berkuasa AI dalam GA

Antara muka aplikasi carian filem yang kemas menggambarkan bagaimana pelbagai teknologi carian, seperti Meilisearch, membantu pengguna mengakses kandungan yang relevan dengan cekap
Antara muka aplikasi carian filem yang kemas menggambarkan bagaimana pelbagai teknologi carian, seperti Meilisearch, membantu pengguna mengakses kandungan yang relevan dengan cekap