Peningkatan penggunaan Model Bahasa Besar ( LLM ) telah mencetuskan minat baharu terhadap alat penukaran HTML-ke-Markdown, dengan pembangun mencari cara yang efisien untuk memproses kandungan web sambil menguruskan had token. Penukar berasaskan Go yang mantap telah muncul sebagai penyelesaian yang ketara, menawarkan kedua-dua perpustakaan dan perkhidmatan API untuk menukar kandungan HTML kepada Markdown yang kemas dan mudah dibaca.
Cebisan kod ini menunjukkan fungsi dalam Go untuk mendaftarkan pemproses tersuai dalam penukar HTML-ke-Markdown |
Kecekapan Token untuk Pemprosesan LLM
Salah satu kelebihan yang paling menarik dalam penukaran HTML kepada Markdown untuk pemprosesan LLM adalah pengurangan ketara dalam penggunaan token. Seperti yang ditunjukkan oleh ujian komuniti:
Gunakan https://tools.simonwillison.net/jina-reader untuk mengambil laman utama https://news.ycombinator.com/ sebagai Markdown dan tampalkannya ke dalam https://tools.simonwillison.net/claude-token-counter - 1550 token. Perkara yang sama dalam HTML: 13367 token.
Perbezaan dramatik dalam kiraan token ini menjadikan penukaran Markdown sangat bernilai untuk pembangun yang bekerja dengan had konteks LLM.
Aplikasi Dunia Sebenar
Pembangun telah menemui cara kreatif untuk melaksanakan penukaran HTML-ke-Markdown dalam aliran kerja mereka. Satu aplikasi yang ketara melibatkan penggunaan fungsi Lambda untuk secara automatik menukar laman web yang ditandakan ke Markdown untuk disimpan dalam S3, menjadikan kandungan tersedia untuk alat seperti Obsidian. Pendekatan ini terbukti sangat berguna untuk pengurusan pengetahuan peribadi dan pengarkiban kandungan.
Ketersediaan API dan Cabaran Penskalaan
Walaupun terdapat penyelesaian API percuma, cabaran penskalaan telah muncul. Penyelenggara projek terpaksa melaksanakan keperluan kunci API selepas mengalami penyalahgunaan kira-kira 5 juta permintaan sehari pada perkhidmatan demo mereka, menunjukkan keperluan untuk had penggunaan yang munasabah dalam API awam.
Integrasi dengan Automasi Pelayar
Untuk laman web yang berat dengan JavaScript, komuniti mencadangkan menggabungkan penukaran HTML-ke-Markdown dengan alat automasi pelayar seperti Playwright atau Puppeteer. Pendekatan ini memastikan pengekstrakan kandungan yang tepat dari laman web dinamik sebelum penukaran kepada Markdown.
Perkembangan Masa Hadapan
Komuniti telah mengenal pasti beberapa bidang untuk penambahbaikan yang berpotensi, termasuk:
- Penyahpendua N-gram untuk menghapuskan kandungan pengepala dan pengaki yang berulang
- Pengendalian kes pinggir yang lebih baik merentasi laman web yang berbeza
- Integrasi dengan algoritma pengekstrakan kandungan serupa dengan Readability Mozilla
- Sokongan yang dipertingkatkan untuk pemaparan kandungan dinamik
Alat-alat ini terus berkembang seiring dengan pertumbuhan permintaan aplikasi LLM, menjadikan kandungan web lebih mudah diakses dan diproses untuk sistem AI sambil mengekalkan kecekapan dalam penggunaan token.
Sumber: html-to-markdown Sumber: Perbincangan