Teknik NLP Moden Mendedahkan Struktur Seperti Bahasa dalam Manuskrip Voynich yang Misteri

BigGo Editorial Team
Teknik NLP Moden Mendedahkan Struktur Seperti Bahasa dalam Manuskrip Voynich yang Misteri

Manuskrip Voynich, dokumen misteri abad ke-15 yang dipenuhi dengan teks yang tidak dapat ditafsirkan dan ilustrasi pelik, terus membingungkan para penyelidik berabad-abad selepas penciptaannya. Analisis pengkomputeran terkini menggunakan teknik Pemprosesan Bahasa Tabii (NLP) moden telah mendedahkan penemuan menarik tentang struktur manuskrip tersebut, mencadangkan bahawa ia mengandungi corak yang konsisten dengan bahasa sebenar dan bukannya tulisan karut.

Analisis Berstruktur Mendedahkan Corak Seperti Bahasa

Analisis ini menggunakan beberapa teknik NLP termasuk pengelompokan kata akar yang telah dibuang akhirannya menggunakan SBERT (Sentence-BERT) pelbagai bahasa, pengenalpastian kelompok yang menyerupai kata fungsi berbanding kata kandungan, dan pemodelan peralihan gaya Markov. Dengan membuang akhiran berulang pada perkataan (seperti aiin, dy, dan chy), penyelidik dapat mengasingkan apa yang kelihatan seperti bentuk akar yang berulang dengan variasi. Keputusan prapemprosesan ini telah meningkatkan tingkah laku pengelompokan dengan ketara, dengan akar kata yang serupa berkumpul dengan lebih rapat dan matriks peralihan menunjukkan corak struktur yang lebih jelas.

Penemuan ini mendedahkan bahawa kelompok tertentu menunjukkan ciri-ciri yang tipikal bagi bahasa semula jadi. Kelompok 8, sebagai contoh, menunjukkan kekerapan tinggi, kepelbagaian rendah, dan kerap muncul pada permulaan baris—tingkah laku yang konsisten dengan kata fungsi dalam bahasa yang diketahui. Sementara itu, Kelompok 3 menunjukkan kepelbagaian tinggi dan kedudukan yang fleksibel, mencadangkan bahawa ia mungkin mewakili kata kandungan. Mungkin yang paling meyakinkan, matriks peralihan menunjukkan struktur dalaman yang kuat yang kelihatan jauh daripada rawak, dan corak penggunaan kelompok berbeza dengan ketara antara bahagian manuskrip (seperti bahagian Biologi berbanding bahagian Botani).

Peta haba kebarangkalian peralihan kelompok, mempamerkan corak linguistik yang dikenal pasti dalam Manuskrip Voynich
Peta haba kebarangkalian peralihan kelompok, mempamerkan corak linguistik yang dikenal pasti dalam Manuskrip Voynich

Komuniti Mencadangkan Teknik Pengurangan Dimensi Alternatif

Walaupun analisis asal menggunakan Analisis Komponen Utama (PCA) untuk pengurangan dimensi, ahli komuniti mencadangkan alternatif yang lebih maju yang mungkin mendedahkan struktur yang lebih mendalam. Beberapa pengulas mencadangkan algoritma yang lebih baru seperti UMAP (Uniform Manifold Approximation and Projection), t-SNE, PaCMAP, atau LocalMAP sebagai alat yang berpotensi lebih berkesan untuk jenis data ini.

Apabila saya mendapat pemisahan yang baik dengan PCA, saya secara peribadi cenderung mengelak UMAP, kerana jarak relatif semua titik antara satu sama lain lebih mudah untuk ditafsirkan. Saya mengelak t-SNE pada semua kos, kerana jarak dalam plot tersebut hampir tidak bermakna.

Perbincangan ini menyoroti pertimbangan metodologi yang penting dalam visualisasi pembenaman: walaupun teknik yang lebih baru mungkin mendedahkan corak yang lebih kompleks, kadangkala mereka mengorbankan kebolehinterpretasian jarak relatif antara titik. Pilihan teknik pengurangan dimensi boleh memberi kesan yang ketara terhadap corak yang diperhatikan oleh penyelidik dan bagaimana mereka mentafsirkannya.

Kebimbangan Mengenai Model Pembenaman Ketinggalan Zaman dan Prapemprosesan

Satu lagi perkara penting yang dibangkitkan oleh komuniti adalah bahawa model pembenaman yang digunakan dalam analisis—paraphrase-multilingual-MiniLM-L12-v2—berusia kira-kira empat tahun, yang dalam bidang NLP yang berkembang pesat dianggap ketinggalan zaman. Pengulas mencadangkan bahawa model pembenaman teks moden, walaupun yang tidak dilatih secara eksplisit untuk sokongan pelbagai bahasa, mungkin berfungsi lebih baik untuk bahasa yang tidak diketahui seperti bahasa Manuskrip Voynich.

Selain itu, sesetengah mempersoalkan sama ada teknik NLP tradisional seperti membuang akhiran mungkin sebenarnya merosakkan kualiti pembenaman dengan membuang data kontekstual yang relevan. Penyelidik asal mengakui batasan ini, menyatakan bahawa pembuangan akhiran adalah keputusan prapemprosesan yang kuat yang mungkin telah membuang maklumat morfologi sebenar atau menyembunyikan variasi infleksi yang bermakna.

Teknik-teknik NLP Utama yang Digunakan dalam Analisis

  • Pengelompokan perkataan akar yang telah dibuang menggunakan SBERT pelbagai bahasa
  • Pengenalpastian kelompok perkataan fungsi berbanding kelompok perkataan kandungan
  • Pemodelan peralihan gaya Markov untuk urutan kelompok
  • Pemetaan struktur sintaksis berasaskan folio
  • Penjanaan hipotesis leksikon berdasarkan data

Cadangan Penambahbaikan daripada Komuniti

  • Menggantikan PCA dengan algoritma pengurangan dimensi yang lebih baharu (UMAP, t-SNE, PaCMAP, LocalMAP)
  • Menggunakan model pembenaman teks yang lebih terkini berbanding paraphrase-multilingual-MiniLM-L12-v2 yang berusia 4 tahun
  • Mempertimbangkan untuk mengekalkan akhiran bagi memelihara maklumat morfologi
  • Menguji kumpulan kawalan dengan bahasa rekaan
  • Membandingkan dengan bahasa-bahasa yang diketahui untuk persamaan struktur

Perdebatan Penipuan vs. Bahasa Berterusan

Komuniti masih terbahagi sama ada Manuskrip Voynich mewakili bahasa sebenar atau penipuan yang rumit. Walaupun sesetengah percaya manuskrip tersebut adalah tulisan karut yang tidak dapat ditafsirkan, analisis statistik secara konsisten menemui corak yang tidak mungkin muncul daripada teks rawak. Seperti yang dinyatakan oleh seorang pengulas, untuk mencipta corak sedemikian, seseorang perlu pergi jauh untuk membina bahasa rekaan penuh—pencapaian yang mengesankan dengan sendirinya.

Yang lain menunjukkan bahawa manusia terkenal lemah dalam menjana kerawakan sebenar, dan seseorang yang cuba mencipta bahasa palsu pada abad ke-15 mungkin secara tidak sengaja menghasilkan teks dengan sifat statistik seperti bahasa. Perdebatan berterusan, dengan sesetengah penyelidik mencadangkan manuskrip itu mungkin mengekodkan bahasa rekaan atau mnemonik berstruktur menggunakan penambahan suku kata dan pengulangan kedudukan.

Penggunaan teknik pengkomputeran moden untuk misteri berabad-abad ini menunjukkan bagaimana teknologi dapat memberikan pandangan baru terhadap teka-teki sejarah. Walaupun kita mungkin belum memecahkan kod Manuskrip Voynich, analisis ini membantu kita memahami strukturnya dan mempersempit kemungkinan apa yang mungkin diwakilinya.

Rujukan: Analisis Struktur Manuskrip Voynich