Pengumuman terkini Google mengenai ejen AI mereka, Big Sleep, yang menemui kelemahan dalam SQLite telah mencetuskan perbincangan hangat dalam komuniti penyelidikan keselamatan, terutamanya berkaitan dakwaan mereka sebagai yang pertama mencapai pencapaian tersebut.
Kontroversi Mengenai Dakwaan Pertama
Komuniti keselamatan telah membangkitkan kebimbangan mengenai dakwaan Google sebagai contoh pertama awam di mana ejen AI menemui isu keselamatan memori yang tidak diketahui sebelum ini. Beberapa pakar menunjukkan bahawa Team Atlanta sebelum ini telah menemui masalah null-pointer dereference dalam SQLite semasa acara DARPA AIxCC, yang sebenarnya memenuhi kriteria yang sama. Perdebatan tertumpu pada definisi 'boleh dieksploitasi' dan sama ada pencapaian Google benar-benar yang pertama dalam bidang ini.
Konteks Teknikal Kelemahan
Kelemahan yang ditemui melibatkan stack buffer underflow dalam sambungan generate_series SQLite, khususnya dalam fungsi seriesBestIndex. Walaupun bug ini penting, ahli komuniti menyatakan bahawa kesannya adalah terhad kerana sambungan yang terdedah hanya diaktifkan secara lalai dalam binari shell SQLite, bukan dalam perpustakaan itu sendiri, seperti yang disahkan oleh penjejak isu Project Zero.
Pemadanan Corak sebagai Pandangan Utama
Salah satu aspek penyelidikan yang paling diterima baik adalah pendekatannya dalam mengesan kelemahan. Komuniti menekankan bahawa penggunaan LLM untuk analisis varian, di mana AI diberi maklumat tentang kelemahan yang telah diperbaiki sebelumnya untuk mengenal pasti corak yang serupa, kelihatan lebih berkesan berbanding penyelidikan kelemahan secara terbuka. Keupayaan pemadanan corak LLM ini boleh menjadi sangat berharga dalam penyelidikan keselamatan.
Aplikasi Praktikal Sudah Mula Digunakan
Beberapa organisasi sudah mula melaksanakan konsep serupa dalam aliran kerja pembangunan mereka. Sebagai contoh, pembangun telah mencipta GitHub Actions yang menggunakan GPT-4 untuk menganalisis perbezaan PR bagi isu keselamatan yang berpotensi, secara automatik menghalang kebimbangan yang berisiko tinggi sambil membenarkan perubahan berisiko sederhana atau rendah untuk diteruskan dengan semakan.
Perbahasan Fuzzing vs AI
Komuniti telah mempersoalkan perbandingan antara pendekatan AI dan kaedah fuzzing tradisional. Sesetengah pakar mencadangkan bahawa membandingkan prestasi Big Sleep dengan AFL fuzzing (yang tidak menemui bug selepas 150 jam CPU) mungkin bukan penanda aras yang paling relevan. Penganalisis statik, yang biasanya lebih pantas dan lebih cekap dari segi sumber, mungkin menjadi perbandingan yang lebih sesuai.
Implikasi Masa Depan
Penyelidik keselamatan melihat potensi dalam penggunaan pelbagai LLM heterogen sebagai pengganda daya dalam pengesanan kelemahan. Pendekatan ini boleh menjadi sangat berkesan dalam mengurangkan kelemahan keselamatan, walaupun sesetengah pihak memberi amaran bahawa cabaran sebenar bukan sekadar mencari kelemahan tetapi memahami cara untuk merangkaikan mereka menjadi eksploitasi yang berkesan.
Kesimpulan
Walaupun pencapaian teknikal dalam menemui kelemahan baharu adalah membanggakan, maklum balas komuniti mencadangkan bahawa bidang keselamatan akan mendapat manfaat daripada pendekatan yang lebih kolaboratif dan kurang bersifat persaingan dalam memajukan penyelidikan kelemahan berbantukan AI. Tumpuan seharusnya kurang pada mendakwa yang pertama dan lebih kepada membangunkan alat yang berkesan yang boleh membantu meningkatkan keselamatan perisian merentasi industri.