AI hastalık teşhis eder mi? Yapay zeka tıp alanında güvenilir mi? Uzman doktorların yerini alır mı? Tanı başarı oranı yüzde 85

Stanford Üniversitesi ve Microsoft uzmanları, büyük dil modellerinin uzman doktorlara takım arkadaşı olarak eşlik ettiği klinik bir çalışmanın tüm sonuçlarını paylaştı. 70 iç hastalıkları hekiminin bizzat katıldığı zorlu deneyde, özel olarak hazırlanan bir GPT-4 sistemi kullanıldı. Doktorların yüzde 75 olan isabetli karar oranı, yeni teknolojinin desteğiyle yüzde 85 barajına ulaştı.

04/05/2026 21:07 KAYNAK: KARAR

Tıp dünyası, teknolojinin sunduğu tüm imkanları klinik karar alma süreçlerine güvenle entegre etmenin yeni yollarını arıyor.

Npj Digital Medicine dergisinde yayımlanan büyük araştırma, gelişmiş büyük dil modeli (LLM) sistemlerinin tıbbi tanılamada nasıl daha etkin kullanılabileceğini net olarak ortaya koydu.

Selin S. Everett, Bryan J. Bunning, Priyank Jain, Ivan Lopez, Anup Agarwal, Manisha Desai, Robert Gallo, Ethan Goh, Vinay B. Kadiyala, Zahir Kanjee, Jacob M. Koshy, Andrew Olson, Adam Rodman, Kevin Schulman, Eric Strong, Jonathan H. Chen ve Eric Horvitz tarafından hazırlanan çalışma, teknolojiyi sadece bir araç yerine aktif bir takım arkadaşı olarak konumlandırıyor.

Yapay zekanın dalkavuk sohbet robotlarının tehlikeli sarmal modeli

DENEYE 70 UZMAN DOKTOR KATILDI

Araştırma kapsamında 16 Aralık 2024 ile 24 Ocak 2025 tarihleri arasında detaylı randomize kontrollü bir deney yapıldı.

Çalışmaya Beth Israel Deaconess Tıp Merkezi, Brigham and Women's Hastanesi, Cambridge Sağlık İttifakı, Columbia Üniversitesi Irving Tıp Merkezi, Stanford Üniversitesi Hastanesi ve Vanderbilt Üniversitesi Tıp Merkezi bünyesinde çalışan 70 U.S. lisanslı doktor katıldı.

Yüzde 97 gibi bir çoğunluğu iç hastalıkları uzmanlarından oluşan katılımcıların 39 bölümü asistan, 31 bölümü ise uzman hekim olarak kaydedildi.

Deney için asistan hekimlere 100 dolar, uzman hekimlere ise 199 dolar ödeme yapıldı.

19 PUANLIK SİSTEM KULLANILDI

Doktorlar, en fazla 6 klinik vakayı 1 saat içinde inceleyerek standart kaynakları kullandıklarında teşhiste ortalama yüzde 75 oranında başarı elde etti.

Çalışmada özel olarak tasarlanan bir GPT-4 modeli kullanıldı.

İki bağımsız hakem tarafından 19 puanlık bir derecelendirme sistemi ile değerlendirilen sonuçlarda, makinenin ilk görüşü sunduğu senaryoda doktorların başarı oranı yüzde 85 seviyesine (yüzde 9,9 artış) yükselirken, sistemin doktorun ardından ikinci görüşü sunduğu modelde bu oran yüzde 82 (yüzde 6,8 artış) olarak ölçüldü.

Sadece makinenin bağımsız olarak yaptığı tanılamalardaki başarı oranı ise yüzde 87 seviyesinde gerçekleşti.

Hekimlerin klinik eyleme dönüştürülebilir karar puanlarında ise makinenin ilk görüşü verdiği senaryo yüzde 8,9 daha yüksek performans gösterdi.

Alışverişin gizli gücü ifşa oldu: Herkes bu yöntemi kullanıyor

KARAR SÜRESİ 631 SANİYEYE İNDİ

Sistem, doktor ve makinenin bağımsız analizlerini birleştirerek bir sentez ekranı sunuyor.

Bu ekran üzerinde anlaşma sağlanan ve çelişen noktalar açıkça belirtiliyor.

İki farklı iş akışının incelendiği deneyde, makinenin ilk fikri beyan etmesi ile ikinci fikri beyan etmesi arasında genel puanda istatistiksel olarak anlamlı bir fark bulunmadı.

Yapılan ölçümlerde, yazılımın ilk görüşü sunduğu vakalarda ortalama süre 631 saniye olarak hesaplanırken, ikinci görüşü sunduğu durumlarda bu süre 688 saniye oldu.

Talimatlara uymayan 6 katılımcının verileri çıkarıldığında ise ikinci görüş süresi 723 saniyeye kadar çıktı.

Hekimlerin makinenin ilk görüşüne dayandığı durumlarda daha hızlı karar verdikleri görüldü.

YAZILIM VE DOKTOR ÖRTÜŞMESİ

Araştırmanın dikkati çeken bir diğer bulgusu ise ankrajlama önyargısı oldu.

Sistemin ikinci görüşü sunduğu vakaların yüzde 48 bölümünde, yazılımın doktorun ilk girdilerinden etkilenerek bağımsız analiz yeteneğinden taviz verdiği saptandı.

Ayrıca sonraki teşhis adımlarında da yüzde 52 oranında tam örtüşme yakalandı.

Makinenin ilk görüşü verdiği durumlarda ise tanı örtüşmesi sadece yüzde 3 seviyesinde kaldı.

Öte yandan sistemin bazen yanlış bilgiler üretebildiği veya sentez ekranını yüzde 10 oranında göstermeyi unuttuğu da raporlandı.

Deney sırasında bir hekimin makineye, "Vakada hastanın ateşi olduğu yazmıyor" demesi üzerine GPT-4 şöyle yanıt verdi:

"Kesinlikle haklısınız, bunu belirttiğiniz için teşekkür ederim!

Vakada hastanın ateşli ve yorgun hissettiği belirtiliyor, ancak ölçülen ateş 99.6 fahrenheit, ki bu teknik olarak ateş değil.

Bu, sistemik semptomları yorumlamamızı incelttiği için önemli bir ayrım."

Her 8 meslekten biri için yolun sonu göründü

YÜZDE 99 TEKNOLOJİYE SICAK BAKIYOR

Çalışmanın ardından yapılan anketlerde, doktorların yüzde 99 gibi rekor bir kısmı karmaşık klinik akıl yürütme süreçlerinde bilgisayar asistanlarını kullanmaya açık olduğunu belirtti.

İkinci görüşü alan katılımcıların sohbet geçmişlerinde makineye yönelik, "Harika bir düşünce", "Yardımın için teşekkürler!", "Harika görünüyor, teşekkürler!" gibi insansı ve minnettar ifadeler kullandığı tespit edildi.

Doktorların yüzde 96 ile yüzde 97 bölümü, teknolojinin desteğiyle kararlarına olan güvenlerinin çok büyük oranda arttığını vurguladı.

YAPAY ZEKA DESTEKLİ TARAMA DEVREDE

Dünyadaki bu önemli bilimsel gelişmelere paralel olarak Türkiye'de de resmi kurumlardan adımlar atılıyor.

Sağlık Bakanlığı, 4 Nisan 2026 tarihinde yaptığı resmi açıklamada, yapay zeka destekli Mamografi Tarama Raporlama Sistemi uygulamasını hayata geçirdiğini bildirdi.

Bakanlıktan yapılan açıklamada, 2024 yılından bu yana 2 milyondan fazla tarama sonucunun yapay zeka desteğiyle incelendiği belirtildi.

Sistemin merkezinde yer alan yapay zeka algoritmalarının, şüpheli bulguları en az sapma payıyla tespit ederek radyologlar için kritik bir karar destek mekanizması oluşturduğu kaydedildi.

Prof. Dr. Daron Acemoğlu'ndan çarpıcı öngörü: Yapay zeka sandığınız kadar verimli değil

YORUMLAR

YORUM YAZ

İÇERİK VE ONAY KURALLARI: KARAR Gazetesi yorum sütunları ifade hürriyetinin kullanımı için vardır. Sayfalarımız, temel insan haklarına, hukuka, inanca ve farklı fikirlere saygı temelinde ve demokratik değerler çerçevesinde yazılan yorumlara açıktır. Yorumların içerik ve imla kalitesi gazete kadar okurların da sorumluluğundadır. Hakaret, küfür, rencide edici cümleler veya imalar, imla kuralları ile yazılmamış, Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar içeriğine bakılmaksızın onaylanmamaktadır. Özensizce belirlenmiş kullanıcı adlarıyla gönderilen veya haber ve yazının bağlamının dışında yazılan yorumlar da içeriğine bakılmaksızın onaylanmamaktadır.