Teknoloji dünyasında büyük bir inovasyona imza atan Amerika Birleşik Devletleri (ABD) merkezli yazılım devi Google, yetmişten fazla dili otomatik olarak algılayıp sesli tercüme eden yeni nesil ses modelini haziran ayında resmen ilan etti.
Şirket tarafından yapılan küresel duyuruya göre, akıllı telefonlar ve dijital görüşme platformları için özel olarak tasarlanan 'Gemini 3.5 Live Translate' adlı sistem, diler arası iletişimdeki gecikme sürelerini tamamen ortadan kaldırarak kullanıcılara kesintisiz bir deneyim sunuyor.
İNSAN SESİNİ TAKLİT EDEN GÜVENLİ FİLİGRANLI SİSTEM
Konuşma odaklı geliştirilen bu yeni altyapı, geleneksel robotik ses yapılarının aksine konuşan kişinin ses perdesini, tonlamasını ve konuşma hızını saniyeler içinde analiz ederek birebir eşleştiriyor.
Sadece birkaç saniye geriden gelen sürekli akış mimarisi sayesinde günlük diyaloglar hiç kesilmeden doğal ritminde ilerliyor.
Google mühendisleri, sistemin teknik başarısını vurgulamak amacıyla yaptıkları açıklamada, "Model, yetmişten fazla dili otomatik olarak algılıyor ve konuşmacıların tonlamasını, hızını ve ses perdesini koruyan pürüzsüz, doğal tınılı bir tercüme ses akışı üretiyor" ifadelerini kullandı.
Güvenlik önlemlerini de üst seviyede tutan şirket, ses taklidi risklerine karşı tüm ses akışlarının dalga formu verilerine görünmez SynthID filigranları entegre etti.
YAZILIMCILAR İÇİN KESİNTİSİZ VE OTOMATİK DİL KONTROLÜ
Yazılım uzmanları, yeni konuşma modelini Gemini Live Uygulama Programlama Arayüzü (API) ya da Google Yapay Zeka (AI) Studio platformundaki genel önizleme sürümü vasıtasıyla test edip kendi projelerine eklemeye başladı.
Çok dilli tüm ses girdilerini otomatik olarak yöneten akıllı altyapı, kullanıcıların diller arası geçiş için manuel ayar yapma zorunluluğunu tamamen ortadan kaldırıyor.
Üstelik gelişmiş gürültü engelleme algoritmaları, kalabalık ve gürültülü ortamlarda bile arka plan seslerini başarıyla filtreleyerek net bir iletişim kalitesi sağlıyor.
GOOGLE MEET TOPLANTILARINDA ÇOK DİLLİ YENI DÖNEM
İş dünyasındaki küresel iletişim süreçlerini kolaylaştırmayı hedefleyen teknoloji üreticisi, seçkin kurumsal müşterileri için bu ay itibarıyla Google Meet görüntülü toplantı platformunda yeni çeviri modelini erişime açıyor.
Canlı tercüme özelliğinin işlevselliğini ön plana çıkarmak isteyen şirket, toplantı arayüzünde de kullanıcı konforunu artıran önemli görsel değişiklikler hayata geçirdi.
AKILLI TELEFONLARDA AHİZEDEN GİZLİ DİNLEME MODU
Yapay zeka tabanlı bu yenilik çok yakında hem Android hem de iPhone İşletim Sistemi (iOS) tabanlı akıllı cihazlardaki Google Translate uygulaması bünyesinde yerini aldı.
Kullanıcıların canlı tercüme imkanından yararlanabilmesi için herhangi bir kulaklık takması yeterli.
Kulaklık eşleştirmesi tamamlandığında, yetmişten fazla dilde karşıdaki kişinin ses karakterini yansıtan akıcı bir iletişim süreci başlıyor.
Android kullanıcıları için ise süreç bir adım daha ileri taşınıyor; yeni 'dinleme modu' sayesinde akıllı telefon normal bir arama gibi kulağa götürüldüğünde, tercüme edilen ses doğrudan ahizeden gizlilik içinde dinleniyor.
