Geniş dil modelleri: Bilince açılan kapının anahtarları

Kendi varlığımıza ve çevremizde olan bitene dair bir anlam üretmemizin en önemli aracı “lisanımız”.

Düşüncelerimiz, hislerimiz, algımız, dikkatimiz, hafızamız dilimiz üzerinden şekilleniyor.

Seslerle, kelimelerle, cümlelerle yaşıyor, düşünüyor, hissediyor, öğreniyor, kendimizi ifade edip iletişim kuruyoruz.

“Düşünüyorum öyleyse varım” diyebilmek için bile dile ihtiyacımız var!

Düşünmek için kullandığımız lisanımız ile bir türlü mahiyetini çözemediğimiz bilincimiz arasında yakın bir irtibat var.

Son teknolojik gelişmelerin yardımıyla dil, öğrenme ve bilinç konularında daha önceleri hiç ulaşamadığımız ufuklara yelken açtık.

Hızları ve işlem kapasiteleri durmaksızın artan bilgisayarlar sayesinde ortaya çıkan Geniş Dil Modelleri-GDM (Large Language Models-LLM) ile, bilince ve dile dair sır perdesini aralama konusunda önemli mesafeler almaya başladık.

Dilin yapısal özelliklerini, anlamsal ve dilbilgisel bağlamlarını matematiksel parametreler ile simüle etme çabalarımızın ürünü, yapay zeka dil modelleri oldu.

Yapay sinir ağlarında, çok büyük miktarda ve çeşitlikte metinlerle eğitilmiş yapay zeka araçları olarak tanımlayabileceğimiz GDM’ler inanılmaz bir hızla gelişiyor.

GDM’ler, her biri bir dildeki sentaksı, semantiği ve diğer özellikleri temsil eden milyarlarca parametre ile eğitilerek kelimeler arasındaki ilişkileri ve dilbilgisi kurallarını öğreniyor. Bu sayede, eğitildiği verilere benzer yeni metinler üretme kabiliyeti kazanıyor.

Bir dil modelinin parametre sayısı mühim. Parametre, yapay sinir ağı mimarisindeki öğrenilebilir ağırlıkları ve önyargıları ifade ediyor.

Ne demek bu?

Bir köpeği attığımız topu getirmesi için eğittiğimizi düşünelim. Bu durumda köpeğin davranışı, modelin çıktısı olarak düşünülebilir. Modelin girdisi verdiğimiz komutlar ve ödüllerimiz olur. Modelin parametreleri ise köpeğin deneyimleri ve anılarıdır. Köpeği eğitirken, modelin parametrelerini ayarlarız. Mesela, köpek attığımız topu getirdiğinde ona bir ödül veririz. Bu ödül, tekrar tekrar verildikçe köpeğin hafızasında yer eder, davranışı pekiştirir ve topu tekrar attığımızda köpeğin getirmesini daha muhtemel hale getirir.

GDM’ler de benzer şekilde çalışıyor. Daha önce başka bir yazımda daha detaylı olarak bahsettiğim parametreler, modelin tahminleri ile gerçek çıktı arasındaki farkı en aza indirmek için eğitim sırasında ayarlanıyor.

Bir GDM’nin parametre sayısı, modelin karmaşıklığını gösteriyor. Bir model ne kadar fazla parametreye sahipse karmaşık dilbilgisi kurallarını ve kelime ilişkilerini o kadar iyi öğrenebiliyor ve insanın ürettiklerine yakın kalitede metinler üretmeye başlıyor.

Şu an GDM piyasasında yaygın olarak kullanılan GPT-3’ün 175 milyar parametresi varken, takipçisi GPT-4’ün 1.76 milyar, Google Gemini Pro’nun 1.5 trilyon parametresi var. Yakın zamanda Facebook’un piyasaya sürdüğü “Llama 3” 400 milyar parametre ile gelirken, Anthropic firmasının ürünü Claude 3’ün en üst modeli olan Opus’un 2 trilyon parametresinin olduğu tahmin ediliyor.

Türkçe için Turkcell ve Trendyol firmalarınca üretilen ve açık kaynak olarak yayınlanan GDM’lerin 7 milyar parametresi bulunuyor.

Bir GDM, genel olarak bir dili, mantık yürütmeyi, çıkarım, tahmin, analiz ve sentez yapmayı öğrenince, daha özel bir görevi veya daha özel dil özelliklerini daha doğru bir şekilde öğrenebilmesi için özel veri kümeleri ile yeniden eğitilebiliyor.

Buna “ince ayar” (fine tuning) yapma diyoruz.

Yani GDM’leri sadece kendi belirlediğimiz verilerle yeniden eğitilerek “ince ayar” çekiyoruz.

Bunu, okuma yazmayı, temel matematiği öğrenmiş bir çocuğun ilgisini çeken belli bir alanda okumalar yaparak derinleşmesine benzetebiliriz. RAG( Retrieval-augmented generation) ismi verilen bu yöntemle, modelin genel geçer cevaplar yerine kendi verdiğimiz belgeler üzerinde ayrıntılı cevaplar üretmesini sağlıyoruz.

Mesela tüm ceza hukuku mevzuatı ile eğiterek bir GDM’yi mevzuata tamamen hakim bir hukukçu yapabiliriz!

Daha GDM’lerle ilgili anlatacaklarım bitmedi ama yerim bitti. Devamı bir sonraki yazıya inşallah.