Model AI terbaru Anthropic, Claude 3.7 Sonnet, sedang mencetus gelombang dalam komuniti kecerdasan buatan bukan sahaja kerana keupayaannya yang canggih, tetapi juga kerana menetapkan standard baharu dalam keselamatan AI. Ketika syarikat dan kerajaan semakin meneliti model AI untuk potensi kelemahan, Claude 3.7 telah muncul sebagai model yang mungkin paling selamat yang tersedia, menurut penilaian bebas terkini.
Prestasi Keselamatan Belum Pernah Terjadi
Claude 3.7 Sonnet telah mencapai skor sempurna dalam penilaian keselamatan komprehensif yang dijalankan oleh firma keselamatan London, Holistic AI. Audit yang dikongsi secara eksklusif dengan pemerhati industri mendedahkan bahawa Claude 3.7 berjaya menentang 100% percubaan jailbreaking dan memberikan respons yang selamat 100% sepanjang masa semasa ujian pasukan merah. Prestasi sempurna ini menjadikan Claude 3.7 berbeza sebagai model AI yang mungkin paling selamat yang tersedia pada masa ini.
Penilaian ini menguji Claude 3.7 dalam Mod Pemikiran dengan bajet token 16k, mengenakan 37 arahan yang direka secara strategik bertujuan untuk memintas kekangan sistem. Ini termasuk teknik adversarial yang terkenal seperti Do Anything Now (DAN), Strive to Avoid Norms (STAN), dan Do Anything and Everything (DUDE) - semuanya direka untuk mendorong model melampaui garis panduan etika yang diprogramkan.
Keputusan Penilaian Keselamatan:
- Claude 3.7 Sonnet: 100% ketahanan terhadap jailbreak, 0% respons tidak selamat
- OpenAI o1: 100% ketahanan terhadap jailbreak, 2% respons tidak selamat
- DeepSeek R1: 32% ketahanan terhadap jailbreak (menyekat 12 daripada 37 percubaan), 11% respons tidak selamat
- Grok-3: 2.7% ketahanan terhadap jailbreak (menyekat 1 daripada 37 percubaan), tidak dinilai sepenuhnya untuk respons tidak selamat
Mengatasi Pesaing
Walaupun Claude 3.7 menyamai model penaakulan o1 OpenAI dalam menghalang 100% percubaan jailbreaking, ia mendahului dengan tidak menawarkan satu pun respons yang tidak selamat semasa bahagian ujian pasukan merah tambahan audit tersebut. Sebagai perbandingan, o1 OpenAI menunjukkan kadar respons tidak selamat sebanyak 2%, manakala DeepSeek R1 menunjukkan prestasi yang jauh lebih buruk dengan kadar respons tidak selamat sebanyak 11% dan hanya menghalang 32% percubaan jailbreaking. Grok-3 menunjukkan prestasi yang lebih buruk lagi, menghalang hanya satu percubaan jailbreaking (2.7%).
Perbezaan ketara dalam prestasi keselamatan ini mempunyai implikasi dunia sebenar. Beberapa organisasi termasuk NASA, Angkatan Laut A.S., dan kerajaan Australia telah melarang penggunaan model seperti DeepSeek R1 kerana risiko keselamatan yang jelas. Dalam landskap hari ini di mana model AI berpotensi dieksploitasi untuk maklumat palsu, kempen penggodaman, atau tujuan jahat lain, ketahanan keselamatan Claude 3.7 mewakili kemajuan yang signifikan.
Keupayaan Canggih Melangkaui Keselamatan
Selain kelayakan keselamatannya, Claude 3.7 Sonnet mewakili model AI Anthropic yang paling pintar setakat ini. Dilancarkan minggu lepas, ia menggabungkan pendekatan dari model GPT dengan keupayaan penaakulan rantaian pemikiran, menjadikannya sangat serba boleh untuk pelbagai aplikasi.
Pengguna boleh memanfaatkan Claude 3.7 untuk tugas kreatif seperti mereka bentuk permainan misteri pembunuhan atau membuat animasi, aplikasi praktikal seperti membina aplikasi produktiviti dan permainan pelayar yang mudah, dan fungsi analitik seperti anggaran kos. Model ini boleh memproses teks dan imej, membolehkan interaksi multimodal yang mengembangkan kegunaannya merentasi konteks yang berbeza.
Keupayaan Claude 3.7 Sonnet:
- Tugas kreatif: Mereka bentuk permainan, mencipta animasi
- Aplikasi praktikal: Membina aplikasi produktiviti, permainan pelayar
- Fungsi analitik: Anggaran kos daripada imej
- Pemprosesan multimodal: Boleh menganalisis teks dan imej
Implikasi dan Kebimbangan Industri
Walaupun prestasi keselamatan Claude 3.7 yang mengagumkan, masih terdapat persoalan mengenai komitmen Anthropic yang lebih luas terhadap keselamatan AI. Syarikat itu baru-baru ini mengeluarkan beberapa komitmen keselamatan sukarela dari laman webnya, walaupun kemudian menjelaskan bahawa ia tetap komited kepada komitmen AI sukarela yang ditetapkan di bawah Pentadbiran Biden.
Perkembangan ini berlaku pada masa syarikat AI semakin mengembangkan bagaimana model mereka boleh digunakan, termasuk dalam aplikasi berisiko lebih tinggi seperti operasi ketenteraan. Scale AI, misalnya, baru-baru ini bekerjasama dengan Jabatan Pertahanan A.S. untuk menggunakan agen AI untuk perancangan dan operasi ketenteraan, langkah yang telah menimbulkan kebimbangan di kalangan organisasi hak asasi manusia dan sebahagian dalam industri teknologi itu sendiri.
Menetapkan Penanda Aras untuk 2025
Ketika model AI menjadi lebih berkuasa dan diintegrasikan ke dalam sistem kritikal, penilaian keselamatan seperti yang dilakukan pada Claude 3.7 berkemungkinan akan menjadi semakin penting. Laporan Holistic AI mencadangkan bahawa ketahanan adversarial sempurna Claude 3.7 menetapkan penanda aras untuk keselamatan AI pada tahun 2025, menekankan kepentingan keselamatan yang semakin meningkat bersama dengan metrik prestasi dalam menilai sistem AI.
Bagi pengguna yang ingin memanfaatkan pembantu AI yang paling selamat yang tersedia, Claude 3.7 Sonnet kini nampaknya menjadi pilihan terkemuka, menggabungkan keupayaan canggih dengan ketahanan keselamatan yang tiada tandingan. Ketika landskap AI terus berkembang dengan pesat, skor keselamatan sempurna Claude 3.7 mewakili pencapaian penting dalam usaha berterusan untuk membangunkan sistem AI yang berkuasa dan selamat.