Vatandaş Türkçe yaz!

Bu başlığı atarken biraz tereddüt ettim. Esprili bir ifade gibi dursa da, 1930’larda azınlıkların kendi dillerini kullanma haklarını hedef alan 'Vatandaş Türkçe Konuş' kampanyasını hatırlatıyor.

Elbette ki muradım başka bir husustan bahsetmek. Türkçe içerik üretmenin ehemmiyetinden. Aslında sadece Türkçe değil, tüm ekalliyetlerin kendi dillerinde gönül rahatlığı ile içerik üretmelerinin ehemmiyetinden söz etmek istiyorum. Zira bugünkü teknolojik imkanlar, illa ki ortak bir dilde içerik üretmeyi zaruri kılmıyor. Dil bariyerleri kalkıyor, tek bir tuşla bilmediğiniz bir dilde yazılmış içeriği, kendi dilinize çevirebiliyorsunuz.

Bu tabii ki ideal bir dünya için böyle. Neden mi böyle söyledim? Günümüz dünyasında bu hayalin gerçek olması daha fazla kendi dilimizde içerik üretmemize bağlı.

Evet sayın okurlar, büyük dil modelleri ve yapay zeka teknolojilerinin sunduğu imkanlardan bahsedeceğim.

2016 yılı ısrarla Türkçe teknik içerik üretmeye gayret ettiğim bir yıldı. O dönemde desteklerini ziyadesiyle gördüğüm mentörlerim İngilizce üretirsem ürettiğim içeriklerin daha fazla alıcı bulacağını belirtiyorlardı. Belki de o dönem haklılardı, ama bugün durum tam tersi.

Dil modelleri, en bilinen örneği ile ChatGPT, eğitimleri esnasında ne kadar çok bir dilde içeriğe muhatap olurlarsa o dili anlamaları o derece kolaylaşıyor. Tabii ki makineler dili bizim anladığımız gibi anlamıyor. Sözcükleri bir anlam uzayına yerleştiriyor, sayısal değerler atıyor ve tüm işlemleri binlerce boyutlu matrisler üzerinden gerçekleştiriyorlar.

Fazla mı karmaşık bir pasaj oldu? Galiba…

Sadeleştirmeyi deneyeceğim.

Makine öğrenmesinin bir alt dalı olan doğal dil işleme (NLP), ham metnin temizlenmesiyle başlar. Ardından metin, tokenize edilir (kelimelere ayrıştırılır), kelimeler arasındaki ilişkiler hesaplanır ve çok boyutlu bir veritabanına kaydedilir. Böylece büyük dil modelleri bir dili anlamlandırabilmeye başlar.

GPT 4 modelleri örneğin bir kelimeyi (tokenı) yaklaşık 16 bin farklı zaviyeden/boyuttan değerlendirebiliyor.

2017 yılında ortaya çıkan ve bugün büyük dil modellerinin (GPT örneğin) en önemli bileşeni olan transformers mimarisi de aslında bir makine çevirisi çalışmasında ortaya çıkıyor. Google’a bu bakımdan bir teşekkür borçluyuz.

Bu yeni mimaride metnin çevirilmesi işlemini şöyle -genel hatlarıyla- açıklayabiliriz: kaynak dildeki her bir kelime/token’a karşılık gelen anlam uzayındaki benzer ağırlıklara sahip, hedef dildeki başka bir kelimenin kullanılması.

Nihayet esas konuya şimdi gelebiliyorum. Bu büyük dil modellerinin eğitilmesi çok büyük hacimli metinlerin işlenmesi ile mümkün olabiliyor. Bu kaynaklardan biri de 2007 yılında kurulan Common Crawl’un büyük veri seti.

Common Crawl 2007’de kurulan, kar amacı gütmeyen bir kuruluş. Gayesi internette yer alan içerikleri tarayıp, ücretsiz olarak sunmak.

Bu listede İngilizce tabii ki ilk sırada. Yüzde 45’lik oranda üstelik toplam veri setinin yarıya yakını teşkil ediyor. İkinci sırada, ise Rusça yer alıyor. İngilizce metinlerin sekizde biri olarak!

Türkçe’nin bu listede ilk 10’da olmaması, dahası Danca, Lehçe’nin bile altına yer alması düşünülmesi gereken bir konu. Üstelik her geçen yıl Türkçe’nin ağırlığı bu veri setinde daha da fazla azalıyor.

Gelecek günlerde dil bariyerleri daha da alçalacak, otomatik çeviri özellikleriyle simultane çeviriler mümkün olacak. Youtube yakın bir zamanda İngilizce’den Fransızca, Almanca, Hintçe, Portekizce’ye otomatik çeviri hizmetini başlattı. Yine herhangi bir dilden de İngilizce’ye çeviriyi otomatik olarak destekliyor.

Samsung’un yeni model telefonları yapay zeka özellikleri ile daha siz telefonda konuşmanızı yaparken simultane çeviri yapabilmeyi vaad ediyor. Akıllı TV’lerde de benzer özellikler peyder pey yer almaya başladı.

Dil modellerinin Türkçe konusunda daha yetenekli olmasını istiyorsak daha fazla Türkçe -ve elbette kaliteli- içerik üretmek ve bu içerikleri görünür yapmak zorundayız.

Yapay zekanın bugüne dek üretilen tüm içerikleri hüplettiği bir dönemde sentetik içeriklerle yapay zeka eğitimlerine deva bulunmaya çalışılıyor. Gerçek insanların ürettiği içeriklerin, gerçek insanların beyin kıvrımlarından sadır olmuş imgelerin, hayallerin altın değerinde olacağı günlere yaklaşıyoruz.

Türkçe’nin ses bayrağını yükseltmenin tam zamanı, daha fazla yazarak, üreterek, ve elbette tüm diğer dillerin de Türkçe kadar aziz olduğunu ve dillerinin varlığının yaratıcının mucizelerinden biri olduğunu bilerek.

YORUMLAR (13)
13 Yorum
YORUM YAZ
İÇERİK VE ONAY KURALLARI: KARAR Gazetesi yorum sütunları ifade hürriyetinin kullanımı için vardır. Sayfalarımız, temel insan haklarına, hukuka, inanca ve farklı fikirlere saygı temelinde ve demokratik değerler çerçevesinde yazılan yorumlara açıktır. Yorumların içerik ve imla kalitesi gazete kadar okurların da sorumluluğundadır. Hakaret, küfür, rencide edici cümleler veya imalar, imla kuralları ile yazılmamış, Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar içeriğine bakılmaksızın onaylanmamaktadır. Özensizce belirlenmiş kullanıcı adlarıyla gönderilen veya haber ve yazının bağlamının dışında yazılan yorumlar da içeriğine bakılmaksızın onaylanmamaktadır.