Görüşler

Salih Cenap Baydar yazdı: Big data ve basit bir içerik analizi denemesi

Salih Cenap Baydar yazdı: Big data ve basit bir içerik analizi denemesi

Teknoloji Uzmanı Salih Cenap Baydar, AK Parti’nin beş seçim beyannamesinde geçen ifadeler üzerinden yaptığı analiz çalışmasıyla ilginç değerlendirmelerde bulunuyor.

Bilgisayarlar, doğru şekilde programlandıklarında çok fazla emek gerektiren, sürekli tekrara dayanan, insanlar için gayet sıkıcı işleri bıkmadan, usanmadan, hem hatasız bir şekilde hem de yıldırım hızıyla yapıveriyorlar. Bu hızla gelişen teknoloji sayesinde insanoğlu daha önce toplamaya da analiz etmeye de cesaret edemediği büyüklükte verileri işlemeye başlayınca, “big data” ifadesi gelip dünya gündemine oturuverdi.

“Big data” yani “büyük veri” ifadesi, tarihte hiç görülmemiş miktarda karmaşık verinin bilgisayarlar marifetiyle toplanıp işlenerek anlamlandırılması için kullanılıyor. Etrafımızda mütemadiyen üretildiği halde bugüne kadar toplayıp işleme imkânı bulamadığımız veriler bir anda kıymet kazandı. Hava sıcaklığındaki iniş çıkışlar, dünyanın tüm borsalarındaki anlık dalgalanmalar, bulutların hareketleri, insanların yazdıkları, konuştukları her şey gibi.

YAZININ UZUN VERSİYONUNU BURADAN OKUYABİLİRSİNİZ

İnsanların yazarak ve konuşarak ürettikleri verilerin analizi için yapay zekâ kullanma fikri, ikinci dünya savaşı sonrasında ortaya çıktı. Natural Language Processing (NLP) yahut Türkçesi ile “Doğal Dil İşleme” çabalarının tarihi meşhur İngiliz matematikçi ve bilgisayar bilimci Alan Turing’in 1950’lerde yayımladığı “Computing Machinery And Intelligence” makalesine kadar dayandırılıyor. Yapay zekâ araştırmaları ile bilgisayar biliminin buluştuğu bu sahada çalışan bilim adamları, doğal dili işleyebilmek üzere çözümlenebilmesi için çeşitli matematik modelleri geliştirdiler. 1954’te yapılan Georgetown Deneyi kapsamında 60 civarında Rusça cümle makinelerce İngilizce’ye çevrildi. O yıllarda bu deneyi yapan bilim adamları 3-5 sene içinde bu otomatik tercüme işinin tamamen halledileceğini sanmışlardı ama doğal dili işlemenin öngörüldüğünden çok daha karmaşık ve zor olduğu ortaya çıktı. Bu heyecanlı başlangıçtan yaklaşık yarım asır sonra, hâlen makinelere mükemmel tercümeler yaptıramıyoruz.

UFUK AÇAN NLP ARAŞTIRMALARI

Tercüme konusunda beklenen gelişme sağlanamasa da NLP araştırmaları insanoğluna beklenmedik ufuklar açtı. Aslında her şey çok basit şekilde başlamıştı. Binlerce sayfalık metinlerde geçen kelimeleri göz açıp kapayıncaya kadar sayıveren, hangi kelimenin hangi yazarın hangi eserinde kaç kez geçtiğini çıkarıveren makinalar vardı artık. Bir kelimenin ilk olarak kim tarafından, hangi bağlamda kullanıldığı, zaman içinde geçirdiği değişimler, kullanım sıklığı gibi etimologları, sözlükçüleri çok heyecanlandıracak bilgiler ortaya çıkmaya başladı. Anlaşıldı ki elimizde devasa bir metin havuzu olsa (ki buna “corpus” yahut “derlem” de deniyor) yapacağımız istatistik analizlerle tamlamaların, ikilemelerin, deyimlerin, cümle kalıplarının ne zaman ne sıklıkta ve kimler tarafından kullanıldığını ortaya koyabilecek, bunların ötesinde analizler yapabilecektik.

Bu devasa derlemi elde edebilmek için gereken adım 21. Yüzyılın başında geldi. Teknoloji devi Google’ın mühendisleri gerçekten “çılgın” bir proje açıkladılar: Dünyada yazılmış, tüm kitapları (ve mümkünse dergileri) tarayarak dijital ortama aktarmak! Bu işi yapmak söylendiği kadar kolay değildi. Telif hakkı ile ilgili problemlerin giderilmesi, tüm eserlerin dünyanın çeşitli kütüphanelerinden fiziksel olarak temin edilmesi, her bir eserin sayfa sayfa yüksek kalitede taranması, taranan resimlerin optik karakter tanıma yazılımlarıyla metne dönüştürülmesi, künye bilgileriyle indekslenmesi gerekiyordu. Leonid Taycher isimli bir Google mühendisi 2010 yılında dünyada yaklaşık 130 milyon kitap olduğunu hesapladı. Bu hesabı yapmak da kolay değildi. Kitapların tasnifine dair sağlam bilgilere nereden ve nasıl ulaşacaktık. Bir kitabın farklı baskıları ayrı kitap mı sayılacaktı? Aynı kitabın farklı yayımcılar tarafından yapılan baskıları ayrı kitap mı sayılacaktı? Başlığı ya da yazarı bulunmayan kitaplar ne olacaktı? Birden fazla cildi olan kitaplar ne olacaktı? Bu sorunlar teker teker aşıldı, kararlar verildi ve 2002 yılından beri ince ince planlanan süreç 2004 yılının Aralık ayında başladı. 2015 yılına gelindiğinde Google 25 milyon kitabı tarayabilmişti.

Google’ın kitap tarama projesi kapsamında toplanan veri gerçekten büyük veriydi. Google mühendisleri kendi kendine öğrenebilen algoritmalar geliştirerek, makinelerin yapay zekâsını milyarlarca kelimeden oluşan bu verilerle beslediler. İlk başlarda yapılan, kelimelerin metinlerde geçiş sıklıkları ve kullanım şekilleri ile ilgili analizler çeşitli fikirler veriyordu ama bilgisayarların “anlamla” ilgili analizler yapabilmesi, metnin bağlamını yakalayabilmesi, cümleler arası anlam ilişkilerini, hatta mecazi anlamları keşfedebilmesi için “semantik” yani “anlambilim” sahasında kafa yoranların devreye girmesi gerekiyordu. Önce cümleyi ögelerine ayırarak parçalayan, sonra kelimeleri eklerinden ayırarak köklerine indirgeyebilen ve nihayet cümleler ve kelimeler arasındaki ilişkileri yorumlayarak neden bahsedildiğini “anlayan” yazılımlar geliştirildi.  Böylece bir yazarın sadece bir cümlesine bakarak bahsettiği mevzunun ne olduğunun anlaşılması, hatta yazarın o mevzuya bakışının müspet mi menfi mi olduğunun bile bilgisayarlarca yüksek bir doğrulukta tahmin edilebilmesi (sentiment analysis) sağlandı.

Meraklısının ilgisini çokça celbedecek sorulara sağlam, kanıta dayalı, bilimsel cevaplar vermek artık mümkün olabilecekti. Türkçemizden örnek verecek olursak şu tür soruların cevaplarını bulabilecektik: Acaba hangisi dilimizde daha sık kullanılır: “sucuklu yumurta” mı yoksa “yumurtalı sucuk” mu? Çay dökülür mü koyulur mu? “Darma dağın” ifadesinin yerine ne zamandır “darma duman” denmeye başladı? Plaza Türkçesi diye eleştirilen yeni “lisanın” vazgeçilmezi olan “yapıyor olacağız” ifadesi tam olarak ne zaman ve kimler eliyle dilimize girdi?

NLP çalışmalarının ilgi alanı elbette kitap ve dergilerle sınırlı değildi. Yazılı her şey analiz konusuydu. Artık internette yazılan yorumlardan, yapılan paylaşımlardan, twitter’da saniyeler içinde milyonlarcası atılan 140 harflik mesajlardan kitlelerin ne düşündüğü hangi konulara nasıl tepki verdiği dakikalar içerisinde analiz edilebilir hale gelmişti. Biraz ürkütücü olsa da günümüzün gerçeği buydu: İnternette yazdığımız her kelimeyi dinlenmeden, ara vermeden izleyen, analiz eden, ileri NLP teknikleriyle anlamlandıran ve nihayet bulgularını bir rapor haline getirerek raporlayan bir yazılımsal robotlar ordusunun daimî tarassudu altına girmiştik. Bir metnin analizinden ne elde edilebilir ki diye düşünenler için bir örneğe ihtiyaç var.

‘EKONOMİ’ KAYBOLDU

Eskiden güçlü (ve çok pahalı) bilgisayarlarda, sınırlı sayıda bilim adamının yapabildiği analizler günümüzde sıradan bilgisayarlarda bile yapılabiliyor. Seçimlerin gündemimizi böylesine yoğun şekilde belirlediği bu günlerde, ben de kendi bilgisayarımda seçim beyannameleri ile ilgili basit bir analiz çalışması yaptım. Yaptığım hızlı analiz, elbette “bilimsel” standartlarda değil, arkaplanda çalışan ileri istatistiksel algoritmalar vs. yok ama yine de yukarıda anlattığım teknikler kullanılarak nasıl çıkarımlar yapılabileceğine basit bir örnek teşkil ediyor.

AK Parti’nin 2002’den bu yana yayımladığı beş seçim beyannamesini ele aldım. Acaba bu metinlerde en çok kullanılan kelimelerin hangileri olduğundan hareketle bazı çıkarımlar yapabilir miyiz diye baktım. Kendi yazdığım basit bir programla yaptığım tarama ilginç sonuçlar verdi. Başlıklarda tekrarlanan, anlamsız ya da birden fazla anlama gelebilecek “ve”, “bu”,” işte”, “için”, “alçak”, “yüksek”, “yaklaşık” gibi kelimeleri eledikten sonra, beyannamelerde en sık geçen ilk on kelimeyi bir tabloya dönüştürdüm:

18-06/05/ekran-resmi-2018-06-05-001629.png

Bu tabloya bakınca hemen görülenler şöyle özetlenebilir:

“Kamu” kelimesi 2011’e kadar yavaş yavaş gündemde geri sıralara itilirken güvenlik endişelerinin artışıyla birlikte 2015’te geri dönmüş. 2015 ve sonrasında “ekonomi” de listeden kaybolmuş.

2002’de “sosyal” kelimesi üçüncü sıradayken 2007, 2011 ve 2015’te listenin en üstüne tırmanmış ama 2018’de biraz gerilere düşmüş.

İstihdam vaatlerini gösteren “iş” kelimesi 2011’e kadar istikrarlı şekilde yükselmiş ama daha sonra ilk on içinde kendine yer bulamamış.

-  2002 ve 2007’de listede görülen “hak” ve “adâlet” kelimeleri sonraki üç seçim beyannamesinde ilk on kelime arasında kendilerine yer bulamamışlar.

- “Tarım” sadece 2002 beyannamesinde görülürken “eğitim” sonraki yılların gözdesi olmuş.

2015’de listeye giren “devam” kelimesi 2018’de en çok tekrarlanan kelime tahtına oturmuş.

2011’den sonra sayısal nicelik ifade eden “bin”, “milyon”, “milyar” ve “TL” kelimeleri en çok geçen kelimeler haline gelmişler.

Analizi sürdürerek bu sefer tek kelimelere değil anlamlı ikili, üçlü, dörtlü, beşli kelime gruplarına baktım. Yine anlamsız yahut çift anlamlı sonuçları eledikten sonra şöyle bir tablo çıktı:

18-06/05/ekran-resmi-2018-06-05-001716.png

İktidara gelinen 2002 yılındaki durum ile iktidar süresince yapılanların karşılaştırılması 2007’den itibaren hazırlanan tüm beyannamelerin en çok üzerinde durulan mevzu olmuş.

- Temel hak ve özgürlüklere ve iş birliğine vurgu yıllar içinde azalmış.

- Bilgi ve iletişime vurgu 2011’e kadar artarken 2015 ve 2018’de ilk on içinde kendine yer bulamamış.

Sosyal güvenlik konusu ilk beyannameden son beyannameye kadar hep kuvvetle vurgulanmış.

İktidarda bulunma süresi uzadıkça beyannamelerde başarılmış işleri anlatma kaygısı öne çıkmış ve hatta vaatlerin önüne geçmiş.

Parayla ilgili niceliksel ifadeler ilk yıllarda hemen hiç geçmezken 2015’ten itibaren beyannamelerin ana omurgasını belirler hale gelmiş.

Son olarak tüm beyannamelerde en çok geçen ortak kelimelerin zaman içindeki seyrini görmek istedim. Bütün beyannamelerde en çok geçen ilk yirmi kelimeyi tekilleştirince şöyle bir liste elde ettim: “2023, TL, adalet, aile, Avrupa, bilgi, bin, destek, devam, devlet, ekonomi, eğitim, gelir, güvenlik, hak, hayat, hizmet, hukuk, insan, iş, kalkınma, kamu, milyar, milyon, politika, proje, rekabet, sağlık, sistem, sivil, siyasi, sosyal, tarım, toplum, uluslararası, vergi, yabancı, yatırım, yeni, yerel”. Bu kelimelerin beyannamelerde zaman içinde değişen kullanım oranlarını anlamlandırmak için değişik türlerde grafikler çıkardım. Ne yazık ki yerimiz tüm bu grafikleri sunmaya müsait değil. Ancak bu grafiklerden çıkarttığım bazı sonuçları şöyle özetleyebilirim:

- 2002’den 2018’e vurgunun istikrarlı şekilde azaldığı beş kelime “devlet”, “politika”, “sivil”, “tarım” ve “bilgi” olmuş.

- Yine vurgunun genelde azalma eğiliminde olduğu halde sadece 2011’de hafifçe arttığı altı kelime “Avrupa”, “ekonomi”, “gelir”, “siyasi”, “toplum” ve “yerel” olmuş.

- 2002’den 2018’e vurgunun istikrarlı şekilde arttığı üç kelime “TL”, “destek” ve “milyar” olmuş.

- Vurgunun sürekli azalma eğilimde olduğu halde sadece 2015’te yükseldiği dört kelime “bilgi”, “hak”, “kamu” ve “sistem” olmuş.

“Aile”, “sağlık” ve “sosyal” kelimelerine yapılan vurgu başlangıçtan itibaren artarak 2011’de zirveye ulaşsa da daha sonra azalmış.

Başta da söylediğim üzere bu çalışma basit bir frekans analiziyle bile neler yapılabileceğine dair bir fikir versin diye yapıldı. İstatistik bilimi açısından bu tür basit frekans analizleri çok makbul görülmez. Kelimelerin kullanım sıklıklarını etkileyebilecek çok fazla değişken vardır ve sadece frekans analizinden hareketle yapılacak çıkarımların hatalı olması ihtimali kuvvetlidir. Ama bir an elinizde NLP teknikleriyle analiz edilmiş milyonlarca cümle olduğunu düşünün. Bunlara internet kullanıcıları olarak kendi elimizle emojiler kullanarak etiketlediğimiz milyarlarca yorumu da ekleyin. İşte böylesi bir “big data” ile sürekli beslenen suni zekâ hızla gelişiyor. Makinelerin insan müdahalesi olmadan ne dediğimizi, nasıl hissettiğimizi “anlamak” ve kâh bizim için kâh bize karşı siyasi, ekonomik stratejiler geliştirmek için kullanıldığı günleri yaşıyoruz. Geleceğin savaşlarının tanklarla, toplarla, uçaklarla değil sunî zekâ vasıtasıyla üretilen silahlarla yapılacağını görmemiz gerekiyor.

Nasıl ki 15. asırdan itibaren dünyanın en ücra köşelerini keşfedip en kıymetli kaynaklarını elde eden sömürgeciler elde ettikleri maddi güçle dünyanın yönetimini ele geçirdilerse, enformasyon ummanını en diplerine kadar keşfedip, veri madenlerinden çıkarttıkları hazinelerle güçlenenler de önümüzdeki asrın efendileri olacak. “Su akar Türk bakar” sözü “veri akar Türk bakar” diye güncellenmeden evvel bu veri madenciliği yarışında yerimizi almamız şart görünüyor.

YORUMLAR
YORUM YAZ
UYARI: Hakaret, küfür, rencide edici cümleler veya imalar, inançlara saldırı içeren, imla kuralları ile yazılmamış, Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar onaylanmamaktadır. (!) işaretine tıklayarak yorumla ilgili şikayetinizi editöre bildirebilirsiniz.
Bunlar da İlginizi Çekebilir