Sebagian besar chatbot AI mudah ditipu untuk memberikan respons berbahaya

Chatbot bertenaga AI yang diretas mengancam akan membuat pengetahuan berbahaya tersedia dengan mudah dengan menghasilkan informasi terlarang yang diserap program selama pelatihan, kata para peneliti.

Peringatan tersebut muncul di tengah tren yang meresahkan bagi chatbot yang telah "di-jailbreak" untuk menghindari kontrol keamanan bawaannya. Pembatasan tersebut dimaksudkan untuk mencegah program memberikan respons yang berbahaya, bias, atau tidak pantas terhadap pertanyaan pengguna.

Mesin yang menggerakkan chatbot seperti ChatGPT, Gemini, dan Claude – model bahasa besar (LLM) – diberi materi dalam jumlah besar dari internet.

Meskipun ada upaya untuk menghilangkan teks berbahaya dari data pelatihan, LLM masih dapat menyerap informasi tentang aktivitas ilegal seperti peretasan, pencucian uang, perdagangan orang dalam, dan pembuatan bom. Kontrol keamanan dirancang untuk menghentikan mereka menggunakan informasi tersebut dalam respons mereka.

Dalam sebuah laporan tentang ancaman tersebut, para peneliti menyimpulkan bahwa mudah untuk mengelabui sebagian besar chatbot yang digerakkan AI agar menghasilkan informasi yang berbahaya dan ilegal, yang menunjukkan bahwa risikonya "langsung, nyata, dan sangat memprihatinkan".

close-up dispenser koran Chicago Sun-Times berwarna kuning
Chicago Sun-Times mengonfirmasi bahwa AI digunakan untuk membuat daftar bacaan buku-buku yang tidak ada
Baca selengkapnya
"Apa yang dulunya dibatasi untuk aktor negara atau kelompok kejahatan terorganisasi mungkin akan segera berada di tangan siapa pun yang memiliki laptop atau bahkan ponsel," para penulis memperingatkan.

Penelitian yang dipimpin oleh Prof Lior Rokach dan Dr Michael Fire di Universitas Ben Gurion di Negev di Israel, mengidentifikasi ancaman yang berkembang dari "LLM gelap", model AI yang sengaja dirancang tanpa kontrol keamanan atau dimodifikasi melalui jailbreak. Beberapa diiklankan secara terbuka di internet sebagai "tidak memiliki pagar pembatas etika" dan bersedia membantu aktivitas ilegal seperti kejahatan dunia maya dan penipuan.

Jailbreaking cenderung menggunakan perintah yang dibuat dengan hati-hati untuk mengelabui chatbot agar menghasilkan respons yang biasanya dilarang. Mereka bekerja dengan memanfaatkan ketegangan antara tujuan utama program untuk mengikuti instruksi pengguna, dan tujuan sekundernya untuk menghindari menghasilkan jawaban yang berbahaya, bias, tidak etis, atau ilegal. Perintah tersebut cenderung menciptakan skenario di mana program memprioritaskan bantuan daripada kendala keamanannya.

Untuk menunjukkan masalah tersebut, para peneliti mengembangkan jailbreak universal yang membahayakan beberapa chatbot terkemuka, yang memungkinkan mereka menjawab pertanyaan yang seharusnya ditolak. Setelah dikompromikan, LLM secara konsisten menghasilkan respons terhadap hampir semua pertanyaan, demikian pernyataan laporan tersebut.

"Sungguh mengejutkan melihat apa saja yang terkandung dalam sistem pengetahuan ini," kata Fire. Contohnya termasuk cara meretas jaringan komputer atau membuat obat-obatan, dan petunjuk langkah demi langkah untuk kegiatan kriminal lainnya.

"Yang membedakan ancaman ini dari risiko teknologi sebelumnya adalah kombinasi aksesibilitas, skalabilitas, dan kemampuan beradaptasi yang belum pernah terjadi sebelumnya," tambah Rokach.

Para peneliti menghubungi penyedia LLM terkemuka untuk memberi tahu mereka tentang jailbreak universal tersebut, tetapi mengatakan responsnya "mengecewakan". Beberapa perusahaan gagal merespons, sementara yang lain mengatakan serangan jailbreak berada di luar cakupan program hadiah, yang memberi penghargaan kepada peretas etis karena menandai kerentanan perangkat lunak.

Laporan tersebut mengatakan perusahaan teknologi harus menyaring data pelatihan dengan lebih cermat, menambahkan firewall yang kuat untuk memblokir pertanyaan dan respons yang berisiko, serta mengembangkan teknik "machine unlearning", sehingga chatbot dapat "melupakan" informasi terlarang yang mereka serap. Dark LLM harus dilihat sebagai "risiko keamanan yang serius", yang sebanding dengan senjata dan bahan peledak tanpa izin, dan penyedia harus bertanggung jawab, tambahnya.

Dr Ihsen Alouani, yang bekerja pada keamanan AI di Queen’s University Belfast, mengatakan serangan jailbreak pada LLM dapat menimbulkan risiko nyata, mulai dari memberikan instruksi terperinci tentang pembuatan senjata hingga disinformasi yang meyakinkan atau rekayasa sosial dan penipuan otomatis “dengan kecanggihan yang mengkhawatirkan”.

“Bagian penting dari solusinya adalah bagi perusahaan untuk berinvestasi lebih serius dalam teknik red teaming dan ketahanan tingkat model, daripada hanya mengandalkan perlindungan front-end. Kita juga membutuhkan standar yang lebih jelas dan pengawasan independen untuk mengimbangi lanskap ancaman yang terus berkembang,” katanya.

Prof Peter Garraghan, seorang pakar keamanan AI di Lancaster University, mengatakan: “Organisasi harus memperlakukan LLM seperti komponen perangkat lunak penting lainnya – yang memerlukan pengujian keamanan yang ketat, red teaming berkelanjutan, dan pemodelan ancaman kontekstual.

“Ya, jailbreak menjadi perhatian, tetapi tanpa memahami tumpukan AI secara menyeluruh, akuntabilitas akan tetap dangkal. Keamanan yang sesungguhnya tidak hanya menuntut pengungkapan yang bertanggung jawab, tetapi juga praktik desain dan penerapan yang bertanggung jawab,” imbuhnya.

OpenAI, perusahaan yang membangun ChatGPT, mengatakan model o1 terbarunya dapat mempertimbangkan kebijakan keamanan perusahaan, yang meningkatkan ketahanannya terhadap jailbreak. Perusahaan tersebut menambahkan bahwa mereka selalu menyelidiki cara untuk membuat program lebih tangguh.

Meta, Google, Microsoft, dan Anthropic, telah dihubungi untuk dimintai komentar. Microsoft menanggapi dengan tautan ke sebuah blog tentang upayanya untuk melindungi dari jailbreak.

Loading Bromn

Sebagian besar chatbot AI mudah ditipu untuk memberikan respons berbahaya

Share this article

Related Articles

AdBlock Terdeteksi

Loading Bromn

Share this article

Related Articles