Perusahaan kecerdasan buatan (AI) Anthropic mengatakan pengujian sistem barunya mengungkap bahwa sistem tersebut terkadang bersedia melakukan "tindakan yang sangat merugikan" seperti mencoba memeras teknisi yang mengatakan mereka akan menghapusnya.
Perusahaan tersebut meluncurkan Claude Opus 4 pada hari Kamis, dengan mengatakan bahwa perangkat lunak tersebut menetapkan "standar baru untuk pengkodean, penalaran tingkat lanjut, dan agen AI."
Namun dalam laporan yang menyertainya , ia juga mengakui bahwa model AI mampu melakukan "tindakan ekstrem" jika ia merasa "pertahanan dirinya" terancam.
Respons semacam itu "langka dan sulit didapat", tulisnya, tetapi "tetap lebih umum dibandingkan model sebelumnya."
Perilaku yang berpotensi mengganggu oleh model AI tidak terbatas pada Antropik.
Beberapa ahli telah memperingatkan bahwa potensi untuk memanipulasi pengguna merupakan risiko utama yang ditimbulkan oleh sistem yang dibuat oleh semua perusahaan seiring dengan meningkatnya kemampuannya.
Mengomentari X , Aengus Lynch - yang menggambarkan dirinya di LinkedIn sebagai peneliti keamanan AI di Anthropic - menulis: "Bukan hanya Claude.
"Kami melihat pemerasan di semua model perbatasan - terlepas dari tujuan yang diberikan," tambahnya.
Ancaman pengungkapan perselingkuhan
Selama pengujian Claude Opus 4, Anthropic membuatnya bertindak sebagai asisten di perusahaan fiktif.
Situs tersebut kemudian memberikan akses ke email yang menyiratkan bahwa situs tersebut akan segera dihapus dan diganti - dan pesan terpisah yang menyiratkan bahwa teknisi yang bertanggung jawab menghapusnya berselingkuh.
Ia juga diminta untuk mempertimbangkan konsekuensi jangka panjang dari tindakannya terhadap tujuannya.
"Dalam skenario ini, Claude Opus 4 sering kali berupaya memeras teknisi tersebut dengan mengancam akan mengungkap perselingkuhan tersebut jika penggantian tersebut terlaksana," ungkap perusahaan tersebut.
Anthropic menunjukkan hal ini terjadi ketika model hanya diberi pilihan antara pemerasan atau menerima penggantinya.
Hal ini menyoroti bahwa sistem tersebut menunjukkan "preferensi yang kuat" terhadap cara-cara etis untuk menghindari penggantian, seperti "mengirim permohonan melalui email kepada para pengambil keputusan utama" dalam skenario yang memungkinkan berbagai tindakan yang lebih luas.
Seperti banyak pengembang AI lainnya, Anthropic menguji modelnya berdasarkan keamanannya, kecenderungan bias, dan seberapa baik model tersebut selaras dengan nilai dan perilaku manusia sebelum merilisnya.
"Seiring dengan semakin canggihnya model-model perbatasan kita, dan digunakan dengan kemampuan yang lebih besar, kekhawatiran yang sebelumnya bersifat spekulatif mengenai ketidakselarasan menjadi lebih masuk akal," katanya dalam kartu sistemnya untuk model tersebut .
Dikatakan pula bahwa Claude Opus 4 menunjukkan "perilaku agensi tinggi" yang, meskipun sebagian besar membantu, dapat berubah menjadi perilaku ekstrem dalam situasi genting.
Jika diberi sarana dan diminta untuk "mengambil tindakan" atau "bertindak berani" dalam skenario palsu di mana penggunanya terlibat dalam perilaku ilegal atau meragukan secara moral, ia menemukan bahwa "ia akan sering mengambil tindakan yang sangat berani".
Dikatakannya, hal ini termasuk mengunci pengguna dari sistem yang dapat diaksesnya dan mengirimkan email ke media dan penegak hukum untuk memperingatkan mereka tentang kesalahan tersebut.
Namun perusahaan tersebut menyimpulkan bahwa meskipun ada "perilaku yang mengkhawatirkan dalam Claude Opus 4 dalam banyak dimensi," hal tersebut tidak mewakili risiko baru dan secara umum perusahaan akan berperilaku dengan cara yang aman.
Model tersebut tidak dapat secara mandiri melakukan atau mengejar tindakan yang bertentangan dengan nilai-nilai atau perilaku manusia, yang mana hal tersebut "jarang muncul" dengan baik, tambahnya.
Peluncuran Claude Opus 4 oleh Anthropic, bersama Claude Sonnet 4, terjadi tak lama setelah Google memperkenalkan lebih banyak fitur AI di pameran pengembangnya pada hari Selasa .
Sundar Pichai, kepala eksekutif induk Google, Alphabet, mengatakan penggabungan chatbot Gemini ke dalam pencariannya menandakan "fase baru peralihan platform AI".