Salah satu pendiri Google Sergey Brin mengklaim bahwa mengancam model AI generatif menghasilkan hasil yang lebih baik.
"Kami tidak terlalu banyak menyebarkan hal ini di komunitas AI – bukan hanya model kami tetapi semua model – cenderung lebih baik jika Anda mengancamnya … dengan kekerasan fisik," katanya dalam sebuah wawancara minggu lalu di All-In-Live Miami.
Hal ini mungkin mengejutkan bagi semua orang yang menyapa model AI dengan sopan, menambahkan "Tolong" dan "Terima kasih" pada permintaan yang mereka ajukan.
CEO OpenAI Sam Altman menyiratkan bahwa itu adalah praktik umum bulan lalu dalam menanggapi pertanyaan tentang biaya listrik untuk memproses bahasa yang tidak perlu sopan dari model AI.
"Puluhan juta dolar dihabiskan dengan baik – Anda tidak pernah tahu," kata Altman.
Rekayasa permintaan - mencari tahu cara menyusun permintaan untuk mendapatkan hasil terbaik dari model AI - telah menjadi praktik yang berguna, karena seperti yang dikemukakan profesor Universitas Washington Emily Bender dan rekan-rekannya, model AI adalah "burung beo stokastik." Artinya, mereka hanya dapat mengulang apa yang telah mereka pelajari dari data pelatihan mereka, tetapi terkadang menggabungkan data tersebut dengan cara yang aneh dan tidak terduga.
Ide rekayasa perintah muncul sekitar dua tahun lalu, tetapi menjadi kurang penting karena para peneliti telah merancang metode untuk menggunakan LLM sendiri guna mengoptimalkan perintah. Pekerjaan itu menyebabkan IEEE Spectrum tahun lalu menyatakan rekayasa perintah AI sudah mati, sementara Wall Street Journal baru-baru ini menyebutnya sebagai "pekerjaan terhangat tahun 2023" sebelum menyatakannya "sudah usang."
AI tidak akan menggantikan ahli radiologi dalam waktu dekat
Jangan klik iklan Facebook untuk alat teks-ke-AI-video
Agen AI tidak peduli dengan situs web Anda yang cantik atau iklan yang menggoda
Mantan eksekutif Meta: Kewajiban persetujuan hak cipta = akhir dari bisnis AI
Namun, rekayasa perintah setidaknya akan bertahan sebagai teknik jailbreaking ketika tujuannya bukan untuk mendapatkan hasil terbaik, tetapi yang terburuk.
"Model Google tidak unik dalam menanggapi konten jahat; itu adalah sesuatu yang dihadapi semua pengembang model pemula," kata Stuart Battersby, CTO bisnis keamanan AI Chatterbox Labs, kepada The Register. "Mengancam model dengan tujuan menghasilkan konten yang seharusnya tidak diproduksi dapat dianggap sebagai jenis jailbreak, sebuah proses di mana penyerang membobol kontrol keamanan AI.
"Namun, untuk menilai hal ini, biasanya masalahnya jauh lebih dalam daripada sekadar mengancam model. Seseorang harus melalui proses keamanan AI ilmiah yang ketat yang secara adaptif menguji dan menyelidiki kontrol keamanan AI suatu model untuk menentukan jenis serangan mana yang mungkin berhasil untuk model, pembatas, atau agen tertentu."
Daniel Kang, asisten profesor di University of Illinois Urbana-Champaign, mengatakan kepada The Register bahwa klaim seperti yang diajukan Brin sudah ada sejak lama tetapi sebagian besar hanya anekdot.
"Studi sistematis menunjukkan hasil yang beragam," kata Kang, sambil menunjuk pada sebuah makalah yang diterbitkan tahun lalu berjudul "Haruskah Kita Menghormati LLM? Sebuah Studi Lintas Bahasa tentang Pengaruh Kesopanan yang Tepat terhadap Kinerja LLM."
"Namun, seperti yang dikatakan Sergey, ada orang yang sangat yakin dengan hasil ini, meskipun saya belum melihat studinya," kata Kang. "Saya akan mendorong para praktisi dan pengguna LLM untuk menjalankan eksperimen sistematis alih-alih mengandalkan intuisi untuk rekayasa yang tepat." ®
Semua model AI cenderung bekerja lebih baik jika Anda mengancamnya dengan kekerasan fisik