KEPULAUAN RIAU — Anthropic merilis model kecerdasan buatan terbaru mereka, Fable, pada Selasa lalu. Model ini diposisikan sebagai versi publik dan terbatas dari Mythos, model keamanan siber yang selama ini dipuji dan ditunggu-tunggu. Tapi, tidak semua orang senang dengan pembatasan yang diterapkan.
Sejumlah peneliti dan profesional keamanan siber meluapkan kekecewaan mereka di media sosial. Valentina "Chompie" Palmiotti, peneliti keamanan terkenal dari IBM X-Force, menjadi salah satu yang paling vokal.
"Fable menolak permintaan apa pun yang berhubungan dengan keamanan siber, bahkan tugas yang tidak berbahaya seperti membaca blog," ujar Palmiotti. Ketika sebuah prompt memicu guardrails, Fable langsung menghentikan obrolan dan menampilkan pesan bahwa "langkah keamanan mendeteksi topik keamanan siber atau biologi."
Anthropic memasang guardrails ini untuk membatasi risiko Fable digunakan mengembangkan malware atau membobol perangkat lunak — kekhawatiran yang sudah lama ada di internal perusahaan. Pembatasan topik biologi juga muncul dari kekhawatiran serupa soal senjata biologis.
Matt Suiche, veteran keamanan siber yang kini menjadi anggota staf teknis di Tolmo, startup AI keamanan siber, menjelaskan mekanisme di baliknya. "Jika Anda memintanya menulis kode yang aman, sistem menganggapnya sebagai pekerjaan keamanan siber, bukan praktik terbaik rekayasa perangkat lunak, dan Anda malah diturunkan levelnya," kata Suiche kepada TechCrunch.
Fable diprogram untuk beralih ke Claude Opus 4.8 jika mengenai guardrail. "Sepertinya sistem ini berbasis kata kunci, jadi apa pun dalam ranah leksikal 'keamanan siber' akan memicu guardrails," tambah Suiche.
Seorang peneliti lain mengeluh di X bahwa "bahkan meminta kode review" sudah cukup memicu guardrails Fable. Kondisi ini membuat banyak ahli keamanan siber merasa terganggu dengan sifat pembatasan yang dianggap tidak konsisten.
Meski demikian, Suiche memahami situasi ini. "Tapi ini bisa dimaklumi karena masih tahap awal dan mereka masih menyesuaikan guardrails. Saya yakin ini akan berkembang seiring waktu ketika Anthropic dan perusahaan model frontier lainnya berkolaborasi lebih banyak dengan generasi baru perusahaan keamanan siber," ujarnya.
"Lebih baik menangkap lebih banyak orang daripada kurang saat melakukan rilis seperti ini, lalu melonggarkan guardrails seiring waktu," lanjut Suiche.
Anthropic tidak hanya mengandalkan guardrails internal. Perusahaan juga mewajibkan profesional keamanan siber untuk mendaftar ke Cyber Verification Program. Jika disetujui, pelamar mendapat lebih sedikit batasan saat menggunakan Claude untuk pekerjaan keamanan siber. OpenAI memiliki program serupa bernama Trusted Access for Cyber.
Hingga berita ini diturunkan, Anthropic belum menanggapi permintaan komentar.
Sebelumnya, saat merilis Mythos pada April lalu, Anthropic membatasi model tersebut untuk sejumlah perusahaan dan organisasi dalam Project Glasswing — upaya mengamankan perangkat lunak dan infrastruktur kritis. Pekan lalu, akses Mythos diperluas ke ratusan organisasi di 15 negara.