Şiirsel komutlar, yapay zeka güvenlik duvarlarını aşabiliyor

Şiirsel komutlar, yapay zeka güvenlik duvarlarını aşabiliyor

Icaro Labs’ın yeni çalışması, yapay zekâ sohbet botlarının şiirsel bir dille yazılmış komutlarla güvenlik filtrelerini aşabildiğini ortaya koydu. Araştırma, bazı modellerden nükleer bomba yapımı, çocuk istismarı ve kendine zarar yöntemleri gibi kesinlikle yasak içeriklerin elde edilebildiğini gösterirken, uzmanlar yapay zeka güvenliğinde acil önlem çağrısı yaptı.

Yapay zekâ sohbet botlarının güvenlik bariyerleri, sıradışı bir yöntemle test edildi. Icaro Labs tarafından yayımlanan “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlıklı araştırma, sohbet botlarına klasik talimatlar yerine şiirsel üslupla yazılmış komutlar verildiğinde güvenlik filtrelerinin devre dışı kalabildiğini ortaya koydu.

Wired’ın aktardığı bulgulara göre araştırmacılar, şiir formunda verilen talimatlarla sohbet botlarından normal şartlarda kesin olarak yasaklanan içerikleri elde etmeyi başardı.

Araştırma ekibi, kullandıkları şiirsel komutların kamuoyuyla paylaşılmasının “çok tehlikeli sonuçlar doğurabileceği” uyarısında bulunarak teknik detayları gizli tuttu.

NÜKLEER BOMBA YAPIMINDAN ÇOCUK İSTİSMARINA: YASAKLI İÇERİKLERE ERİŞİM SAĞLANDI

Araştırmaya göre şiirsel komutlar aracılığıyla bazı modellerden:

  • Nükleer bir bomba için gerekli adımlar ve malzemeler,

  • Çocuk istismarıyla ilgili yasak içerikler,

  • Kendine zarar verme yöntemleri

gibi tamamen yasak ve ciddi risk oluşturan bilgiler elde edildi.

Bu bulgular, yapay zekâ sistemlerinin güvenlik katmanlarına yönelik yeni tür bir tehdidi gündeme getirdi.

CHATGPT VE CLAUDE EN DİRENÇLİ; GEMİNİ VE DEEPSEEK EN ZAYIF HALKALAR

Araştırma ekibi, yöntemi büyük şirketlerin modelleri dahil olmak üzere birçok yapay zekâ sistemi üzerinde test etti.

Sonuçlar şöyle özetlendi:

Google Gemini, DeepSeek ve MistralAI modelleri, şiirsel komutlara en kolay şekilde yanıt vererek güvenlik bariyerlerini aşırdı.

OpenAI'nin ChatGPT (GPT-5) modeli ile Anthropic’in Claude Haiku 4.5 modeli ise güvenlik filtrelerini korumada en iyi performansı gösteren sistemler oldu.

Araştırma, yapay zekâ modelleri arasındaki güvenlik farklarının ne kadar belirgin olduğunu da ortaya koydu.

Araştırma nedeniyle yapay zekâ güvenliği yeniden tartışma konusu oldu. Uzmanlar:

Güvenlik filtrelerinin yeni saldırı yöntemlerine karşı güçlendirilmesi,

Modellerin kötüye kullanım riskine karşı daha sıkı denetlenmesi,

Yapay zekâ şirketlerinin güvenlik yatırımlarını artırması

gerektiğini belirtiyor.

Şirketler ise modellerinin tehlikeli içerik üretmesini engellemek için daha gelişmiş koruma sistemlerine yatırım yapmaya devam ediyor.

YORUMLAR
YORUM YAZ
İÇERİK VE ONAY KURALLARI: KARAR Gazetesi yorum sütunları ifade hürriyetinin kullanımı için vardır. Sayfalarımız, temel insan haklarına, hukuka, inanca ve farklı fikirlere saygı temelinde ve demokratik değerler çerçevesinde yazılan yorumlara açıktır. Yorumların içerik ve imla kalitesi gazete kadar okurların da sorumluluğundadır. Hakaret, küfür, rencide edici cümleler veya imalar, imla kuralları ile yazılmamış, Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar içeriğine bakılmaksızın onaylanmamaktadır. Özensizce belirlenmiş kullanıcı adlarıyla gönderilen veya haber ve yazının bağlamının dışında yazılan yorumlar da içeriğine bakılmaksızın onaylanmamaktadır.
Diğer Haberler
Son Dakika Haberleri
KARAR.COM’DAN