Büyük veri ve süper bilgisayarlar

Geçtiğimiz hafta Pittsburgh Süper Bilgi İşlem Merkezi’nin düzenlediği iki günlük büyük veri kampına katıldım. Program boyunca süper bilgisayarlara bağlanıp normal bilgisayarlarla aylarca sürecek hesapları ve yapay zekâ uygulamalarını birkaç milisaniyede yaparak sonuca çok hızlı bir şekilde ulaştık. Başka bir süper bilgisayar merkezi ise bana yapay zekâ projelerim için 50 bin saatlik işlemci zamanı verdi. Binlerce sütun ve milyonlarca satır veriyi süper bilgisayarlarda analiz etmek harika bir tecrübe oldu.

Büyük Veri (Big Data), standart programlama ile işlenmesi mümkün olmayacak kadar fazla, binlerce sütun ve milyonlarca satırdan oluşan büyük ve karmaşık veri kümeleri için kullanılan bir terimdir. Standart veritabanı programlarında bir server (sunucu bilgisayar) bilgileri tutar ve üzerinde alan isimleri tanımlanmış tablolar olur ve bilgisayar programları bu sunucuya bağlanıp istenilen verileri SQL denilen program kodlarıyla alıp program içerisinde işleyip, kullanıcıya uygun bir arayüzle gösterip, işi bittiğinde de bağlantıyı keser. Büyük veride ise standart SQL komutları çalışmaz. Çünkü veri bütünlüğü yoktur ve işlenebilecek veri çok çok büyüktür. Bilgisayarların RAM’i yetmez.

Hâla bu eski programlama mantığını kullanan çok kişi olsa da, devir çoktan değişti. Artık veri sadece ilişkisel veri tabanlarında tutulmuyor. Çünkü insanlık akıllı cihazları ile o kadar çok büyük veri üretiyor ki; veritabanına bu veriyi yazmaya bile zaman yok. Veri artık sadece tablolardan ibaret değil. Veri türleri de değişti. Çok farklı kaynaktan, değişik formatlarda veri üretiliyor. Bu durumda ilişkisel veri tabanları yetersiz kalmaya başladı. Veri kaynağı olarak her bir web sitesi, her bir konuşma, podcast, video, kitap, sosyal medya paylaşımları, resimler, uydulardan gelen fotoğraflar, dev teleskoplardan gelen veriler, bilim insanlarının laboratuvarlarda ürettiği veriler, hastanelerde hastalar, okullarda öğrenciler, polis kayıtları, mahkeme kayıtları, akademik yayınlar, bloglar, televizyon yayınları, gazetelerde çıkan haberler, IoT cihazlarından gelen veriler ve daha sayamadığımız yüzlerce çeşit veri son 20 yılda çok popüler olan ilişkisel veri tabanlarının sınırlarını aşıyor.

An itibariyle internette her bir dakika üretilen veri korkunç boyutlarda. Her dakika yaklaşık 1 milyon dolarlık online alışveriş yapılıyor, Netflix’de 694 bin 444 saat film izleniyor, 62 milyon mesaj gönderiliyor, 188 milyon email gönderiliyor, 87 bin 500 tweet atılıyor, akıllı telefonlara 390 bin uygulama indiriliyor, Youtube’den 4,5 milyon video izleniyor, 1 milyon kişi Facebook hesabına bağlanıyor ve Google’da 3.8 milyon arama yapılıyor. Listeyi daha da uzatmak mümkün.

Öte yanda teleskoplar da müthiş bir veri üretme makinası. Palomar Gözlemevi’nin ürettiği data 3 TB iken, CALTECH’in uzay teleskobu GALEX (The Galaxy Evolution Explorer) 30 TB, Avustralya’nın teleskobu SkyMapper ( Southern Sky Survey) 500 Terabyte, NASA JPL’in Hawaii’deki teleskobu PanSTARRS 40 PB data üretiyor. Dünya’daki bütün teleskopları birleştirdiğimizde oluşan datanın miktarı nerdeyse zettabytelara ulaşıyor.

19-12/09/zafer-acar.png

Büyük veriyi kolaylaştıran başka bir sebep ise bilgisayar çiplerinin zamanla ucuzlaması ve küçülmesi oldu. Özellikle veri depoladığımız belleklerin ucuzlaması ve bilgisayarların sürekli hızlanması zaten var olan algoritmaları test ederek hızlı sonuçlar almamızı sağladı. Eskiden işlemle yapıldıktan sonra sadece önemli görülen sonuçlar veritabanlarına kaydediliyor, gerisi siliniyordu. Şimdi her şey kaydediliyor ve ayrıca biz gönüllü olarak her yaptığımız işi, her gezdiğimiz yeri, her yediğimiz yemeği resimli belgeli sosyal medya sitelerinde paylaşıyoruz.

Hal böyle olunca bu verileri işlemek, analiz etmek, yapay zekâ algoritmaları ile ‘geleceği’ ufak bir hata payı ile tahmin etmek standart bilgisayarların yapabileceği iş değil. Kuantum bilgisayarlar henüz arzu edilen seviyeye gelemediği için iş Süper Bilgisayarlara düşüyor.

Süper Bilgisayarda binlerce işlemci ve terabytelarca RAM bulunuyor. Benim kullandığım makinede ise bellek 128 terabyte idi. İşlemci ve bellekten başka NVIDIA’nin liderlik ettiği GPU’lar (Graphics Processing Unit) yani ekran kartları var. Ekran kartları normal şartlar altında bilgisayar ekranlarına görüntü oluşmasını sağlar ve grafik arayüzü fazla olan oyunlarda yüksek performans sağlar. Yapay zekâ algoritmalarını daha hızlı çalıştırdığı için CPU’lardan daha çok GPU’lar çok işimize yarıyor.

Ancak yüksek performans GPUlar biraz pahalı: 10 bin dolardan başlıyor ve 400 bin dolara hatta yarım milyon dolara çıkabiliyor. Bilimsel araştırmalar için her ne kadar donanım çok önemli olsa da bu verileri analiz edebilecek yüksek seviye bir programla diline ve veriyi depolayacak bir yazılıma ihtiyaç var. Bu konuda benim ve birçok bilim adamının kullandığı programla dili Python ve verileri çok hızlı işlememizi sağlayan program ise Spark.

Spark’ın en önemli özelliği Hadoop’dan 100 kat daha hızlı olması. Dağıtılmış dosya sistemi kullanarak donanıma bağlılığı azaltmaktadır. Eskiden bir server olur ve diğer bilgisayarlar bu makineye bağlanıp veriye ulaşırlardı. Spark’da ise veri tek bir makinede değil binlerce makinede olabilir ve Spark çok hızlı bir şekilde bu makinelere bağlanıp veriye ulaşmamızı sağlar.

Süper bilgisayarlarını bana kullanma fırsatı veren Pittsburgh Süper Bilgi İşlem Merkezi, Carnegie Mellon Üniversitesi ve Pittsburgh Üniversitesi’nin ortaklaşa kurdukları bir birim. Üniversite, hükümet ve endüstri araştırmacılarına, ülke çapında bilim adamları ve mühendisler için yüksek performanslı bilgi işlem, iletişim ve veri depolama için en güçlü sistemlere erişim sağlamaktadır. ABD Ulusal Bilim Vakfı’nın siber altyapı programı olan XSEDE’deye (Aşırı Bilim ve Mühendislik Keşif Ortamı) bağlı bir süper kurumdur.

Geçtiğimiz aylarda bir proje için süper bilgisayara ihtiyacım olmuştu. Aynı kurum içerisinde başka bir birim tam yarım milyon dolar harcayarak bir süper bilgisayar almış. Kullanabilmek için başvuru yaptım, defalarca toplantı yaptık fakat bir sonuç çıkmamıştı. Geçtiğimiz hafta çok gelişmiş bir süper bilgisayar kullanarak hedefime ulaşmış oldum.

YORUMLAR (3)
YORUM YAZ
UYARI: Hakaret, küfür, rencide edici cümleler veya imalar, inançlara saldırı içeren, imla kuralları ile yazılmamış, Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar onaylanmamaktadır. (!) işaretine tıklayarak yorumla ilgili şikayetinizi editöre bildirebilirsiniz.
3 Yorum