Amazon, insan konuşmasına yakın AI ses modeli Nova Sonic'i geliştirdi

HANDE BERKTAN

Amazon, doğal konuşmaları anlayıp süratle yazıya dökebilen ve insan konuşmasına yüksek kalitede emsal konuşma yetenekleri gösteren ve OpenAI’nin GPT 4.0 modelinden yaklaşık yüzde 80 daha ucuz olduğunu belirttiği yeni yapay zekâ ses modeli Nova Sonic’i tanıttı.

Teknoloji devi, Nova Sonic’in performansının sürat, konuşma tanıma ve konuşma kalitesini ölçen kıyaslamalarda OpenAI ve Google’ın öncü ses modelleriyle rekabet ettiğini belirtiyor. Nova Sonic, ortalama karşılık müddeti 1,09 saniye ile Amazon’un evvelki sesli yapay zekalarına nazaran çok daha süratli karşılık verebiliyor.

Nova Sonic , farklı aksanlardaki konuşmaları tanıma ve kalabalık ortamlarda birden fazla konuşmacıyı ayırt etme testlerini muvaffakiyetle tamamladı. Şirket, bu modelin kullanıcı komutu olmadan internetten bilgi arayabildiğini, bilgi tabanlarını tarayabildiğini ve gerekli durumlarda harici uygulamaları kendi başına açabildiğini söz etti.

“Amazon’un yeni yapay zeka ses modeli, insan konuşmasına yüksek kalitede emsal konuşma yetenekleri gösteriyor”

Amazon Yapay Genel Zeka Kıdemli Lider Yardımcısı Rohit Prasad, Amazon’un ses takviyeli teknoloji aracılığıyla müşteri tecrübelerini düzgünleştirme taahhüdünü vurguladı. Prasad “Nova Sonic, birden fazla fonksiyonu tek bir modelde birleştirerek, daha gerçek, doğal ve ilgi cazip müşteri etkileşimleri sağlıyor. Nova Sonic kapsamlı testlerden geçmiş ve yüksek kaliteli, beşere emsal konuşma yetenekleri göstermiştir. Doğal diyalog sürece ve konuşma tanıma doğruluğunda güçlü performans sergilemiştir.” açıklamasını yaptı.

Nova Sonic, başka AI ses modellerine kıyasla konuşma tanıma yanılgılarına daha az eğilimli, bu da modelin, mırıldansalar, yanlış konuşsalar yahut gürültülü bir ortamda olsalar bile bir kullanıcının niyetini anlamada nispeten uygun olduğu manasına gelir. Amazon, Multilingual LibriSpeech isimli lisanlar ve lehçeler ortasında konuşma tanımayı ölçen bir kıyaslamada Nova Sonic’in İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolcada ortalama alındığında sadece yüzde 4,2’lik bir söz yanılgı oranına (WER) ulaştığını söylüyor. Bu, modeldeki her 100 sözden yaklaşık dördünün bu lisanlardaki insan transkripsiyonundan farklı olduğu manasına geliyor.

Amazon, sesin ötesine geçerek imaj ve fizikî dünyadan alınan bilgileri işleyebilen daha gelişmiş yapay zeka modelleri üzerinde çalışmalar yürüttüğünü de açıkladı.