Yapay zeka destekli sohbet botlarının sağlık alanındaki güvenilirliği üzerine yapılan yeni bir çalışma, dikkat çekici sonuçlar ortaya koydu. BMJ Open dergisinde yayımlanan araştırmada, yaygın olarak kullanılan yapay zeka platformlarının tıbbi sorulara verdiği yanıtlar detaylı şekilde incelendi.
Çalışma kapsamında ChatGPT, Gemini, Grok, Meta AI ve DeepSeek gibi beş farklı yapay zeka sohbet botuna; kanser, aşılar, kök hücre tedavileri, beslenme ve atletik performans gibi çeşitli başlıklarda toplam 50 tıbbi soru yöneltildi.
Uzmanlar tarafından yapılan değerlendirmede, verilen yanıtların yalnızca sınırlı bir kısmının güvenilir olduğu belirlendi. İnceleme sonuçlarına göre yanıtların yüzde 20’si “yüksek derecede sorunlu”, yüzde 50’si “sorunlu”, yüzde 30’u ise “kısmen sorunlu” olarak sınıflandırıldı.
YANITLARIN ÖNEMLİ BÖLÜMÜ BİLİMSEL DAYANAKTAN YOKSUN
Araştırmada, yapay zeka sohbet botlarının sunduğu bilgilerin önemli bir bölümünde bilimsel dayanak eksikliği olduğu tespit edildi. Özellikle kaynak gösterme konusunda ciddi problemler dikkat çekti. Botların verdiği referansların büyük kısmında yanlış yazar isimleri, çalışmayan bağlantılar ya da gerçekte var olmayan akademik çalışmaların yer aldığı belirlendi.
Platformlar arasında karşılaştırma yapıldığında, en yüksek hata oranının yüzde 58 ile Grok’ta olduğu görüldü. Onu yüzde 52 hata oranıyla ChatGPT ve yüzde 50 ile Meta AI takip etti.
Araştırma ayrıca, yapay zekanın özellikle beslenme ve atletik performans gibi internet ortamında farklı ve çelişkili bilgilerin yoğun olduğu alanlarda daha fazla hata yaptığını ortaya koydu.
AÇIK UÇLU SORULARDA HATA ORANI ARTIYOR
Çalışmada soru türlerinin sonuçlar üzerindeki etkisi de incelendi. Buna göre yapay zeka sistemlerinin “doğru mu yanlış mı” gibi kapalı uçlu sorularda daha isabetli yanıtlar verdiği, buna karşılık açık uçlu sorularda hata oranının belirgin biçimde arttığı tespit edildi.
Günlük kullanımda daha yaygın olan açık uçlu sorulara verilen yanıtların yüzde 32’si “yüksek derecede sorunlu” olarak değerlendirildi.
Araştırmacılar, bu durumun yapay zeka modellerinin çalışma prensibiyle ilgili olduğunu belirtti. Modellerin gerçek anlamda bilgiye sahip olmadığı, yalnızca eğitim verilerindeki örüntülere dayanarak olasılıksal tahminler yaptığı ifade edildi. Bu veri setlerinin içinde akademik kaynakların yanı sıra forumlar ve sosyal medya içeriklerinin de bulunmasının, hatalı sonuçların ortaya çıkmasına zemin hazırladığı aktarıldı.
KULLANICILAR DOĞRU BİLGİYE ULAŞMAKTA ZORLANIYOR
Nature Medicine dergisinde yayımlanan başka bir çalışma ise kullanıcıların yapay zeka ile etkileşiminin sonuçlar üzerindeki etkisini ortaya koydu.
Bu çalışmaya göre yapay zeka modelleri tıbbi sorulara kendi başlarına yüzde 95 oranında doğru yanıt verebilirken, gerçek kullanıcıların bu araçları kullanarak doğru bilgiye ulaşma oranı yüzde 35’e kadar düşüyor.
