Yapay zekâ sohbet botlarının güvenlik bariyerleri, sıradışı bir yöntemle test edildi. Icaro Labs tarafından yayımlanan “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlıklı araştırma, sohbet botlarına klasik talimatlar yerine şiirsel üslupla yazılmış komutlar verildiğinde güvenlik filtrelerinin devre dışı kalabildiğini ortaya koydu.
Wired’ın aktardığı bulgulara göre araştırmacılar, şiir formunda verilen talimatlarla sohbet botlarından normal şartlarda kesin olarak yasaklanan içerikleri elde etmeyi başardı.
Araştırma ekibi, kullandıkları şiirsel komutların kamuoyuyla paylaşılmasının “çok tehlikeli sonuçlar doğurabileceği” uyarısında bulunarak teknik detayları gizli tuttu.
NÜKLEER BOMBA YAPIMINDAN ÇOCUK İSTİSMARINA: YASAKLI İÇERİKLERE ERİŞİM SAĞLANDI
Araştırmaya göre şiirsel komutlar aracılığıyla bazı modellerden:
Nükleer bir bomba için gerekli adımlar ve malzemeler,
Çocuk istismarıyla ilgili yasak içerikler,
Kendine zarar verme yöntemleri
gibi tamamen yasak ve ciddi risk oluşturan bilgiler elde edildi.
Bu bulgular, yapay zekâ sistemlerinin güvenlik katmanlarına yönelik yeni tür bir tehdidi gündeme getirdi.
CHATGPT VE CLAUDE EN DİRENÇLİ; GEMİNİ VE DEEPSEEK EN ZAYIF HALKALAR
Araştırma ekibi, yöntemi büyük şirketlerin modelleri dahil olmak üzere birçok yapay zekâ sistemi üzerinde test etti.
Sonuçlar şöyle özetlendi:
Google Gemini, DeepSeek ve MistralAI modelleri, şiirsel komutlara en kolay şekilde yanıt vererek güvenlik bariyerlerini aşırdı.
OpenAI'nin ChatGPT (GPT-5) modeli ile Anthropic’in Claude Haiku 4.5 modeli ise güvenlik filtrelerini korumada en iyi performansı gösteren sistemler oldu.
Araştırma, yapay zekâ modelleri arasındaki güvenlik farklarının ne kadar belirgin olduğunu da ortaya koydu.
Araştırma nedeniyle yapay zekâ güvenliği yeniden tartışma konusu oldu. Uzmanlar:
Güvenlik filtrelerinin yeni saldırı yöntemlerine karşı güçlendirilmesi,
Modellerin kötüye kullanım riskine karşı daha sıkı denetlenmesi,
Yapay zekâ şirketlerinin güvenlik yatırımlarını artırması
gerektiğini belirtiyor.
Şirketler ise modellerinin tehlikeli içerik üretmesini engellemek için daha gelişmiş koruma sistemlerine yatırım yapmaya devam ediyor.
