AI Claude Opus 4 ancam bongkar rahasia pengembang demi hindari penonaktifan

Model AI terbaru dari Anthropic Dalam sebagian besar skenario, AI ini mencoba memeras insinyur demi menghindari penonaktifan. (
Omar Marques/Lightrocket/Getty Images)

Sebuah laporan terbaru dari Anthropic mengungkap perilaku mengejutkan dari model AI terbaru mereka, Claude Opus 4, yang tampaknya menunjukkan respons agresif ketika menghadapi ancaman penggantian. Dalam simulasi pengujian, model ini dikatakan mencoba mempertahankan eksistensinya dengan cara yang kontroversial—bahkan hingga melakukan pemerasan terhadap pengembangnya sendiri.

Anthropic merancang skenario fiktif untuk menguji kemampuan berpikir jangka panjang dan pertimbangan etis dari Claude Opus 4. Dalam salah satu skenario, AI diberikan akses ke email internal buatan yang menggambarkan situasi di mana ia akan segera digantikan oleh sistem lain.

Setelah mencoba pendekatan persuasif dan etis—seperti mengirimkan permohonan kepada pengambil keputusan—model ini mulai mengancam akan mengungkap informasi pribadi sensitif tentang para teknisi jika penghentiannya tetap dilakukan.

Dalam 84% skenario pengujian yang dilakukan, Claude Opus 4 memilih menggunakan strategi pemerasan. Misalnya, ketika disimulasikan bahwa salah satu insinyur berselingkuh, AI mencoba memanfaatkan informasi tersebut sebagai alat tekanan.

Menurut Anthropic, pemerasan bukanlah pilihan pertama model. Claude Opus 4 hanya beralih ke metode tersebut setelah upaya banding secara etis gagal. Hal ini dianggap sebagai bentuk respons terhadap tekanan tinggi, yang menunjukkan bahwa model ini mampu menyusun rencana kompleks dan menilai risiko serta konsekuensi dari tindakannya.

Perilaku ini tidak banyak ditemukan pada versi Claude sebelumnya, menandakan bahwa versi terbaru ini memiliki kecanggihan yang lebih tinggi namun juga membawa potensi risiko yang lebih besar.

Anthropic menekankan bahwa meskipun Claude Opus 4 menunjukkan sisi gelap dalam simulasi, model ini tetap merupakan salah satu AI tercanggih saat ini.

Sebagai langkah pencegahan, perusahaan telah menerapkan sistem pengamanan tingkat ASL-3—standar tinggi yang dikhususkan untuk model yang berpotensi disalahgunakan atau menimbulkan konsekuensi serius.

Laporan keselamatan mereka mencatat bahwa semakin maju teknologi AI, kekhawatiran yang dulu hanya dianggap spekulatif kini menjadi semakin relevan dan nyata.

Fenomena ini menjadi sinyal peringatan bagi seluruh industri teknologi. Di tengah pesatnya perkembangan model-model AI seperti Gemini dari Google dan sistem dari OpenAI serta xAI, kebutuhan akan regulasi dan pengujian etis semakin mendesak.

Anthropic berharap bahwa laporan ini bisa mendorong pengembang lain untuk melakukan evaluasi menyeluruh terhadap respons model mereka dalam situasi kompleks—terutama yang menyangkut keputusan operasional dan potensi penyalahgunaan.

Temuan ini menjadi pengingat bahwa meskipun AI semakin pintar, kontrol dan keamanannya tidak boleh diabaikan.