Konuşma tanıma teknolojisi, akıllı telefon gibi cihazların ve araç navigasyon sistemlerinin sesle çalıştırılmasına olanak sağlıyor. Ancak konvansiyonel konuşma tanıma sistemleri her bir dil için ayrıca geliştirildiğinden, kullanıcılar konuşmadan önce dil seçimi yapmak zorunda kalıyor. Dolayısıyla mevcut sistemlerde hem dil tespiti için ek bir süre harcanması gerekiyor hem de birden fazla konuşmacının aynı anda konuştuğu durumlarda sistemin kesinliği ciddi ölçüde etkileniyor. Tüm bu sorunlara çözüm sunmayı hedefleyen Japon devi Mitsubishi Electric, tescilli Maisart kompakt yapay zeka (AI) teknolojisi yardımıyla konuşulan dilleri eşzamanlı olarak tespit edebilen ve anlayan Mükemmel Konuşma Tanıma Teknolojisi’ni (Seamless Speech Recognition) geliştirdi.
5 dilde yüzde 90 ve 10 dilde yüzde 80 başarı
Mükemmel Konuşma Tanıma Teknolojisi’nde, Mitsubishi Electric’in esneklik ve kesinlik sağlayan tescilli derin öğrenme metodu kullanılıyor. Derin bir ağın yalnızca giriş ve çıkış örnekleriyle eğitime tabi tutulduğu bir uçtan uca öğrenme çerçevesini kullanan teknoloji, sesbirim sistemleri ve telaffuz özellikleri gibi uzman bilgilerinden yararlanmak zorunda kalmadan konuşma dillerini eşzamanlı olarak tespit eden ve anlayan tek bir sistemin oluşturulmasına imkan tanıyor. Bu sayede çok dilli konuşma verilerinin kullanıldığı eşzamanlı öğrenme isabet düzeyinin arttırılmasını sağlıyor. Tamamı düşük gürültülü ortamlarda olmak üzere 5 ve 10 dili içerecek şekilde yapılan testlerde, sistem hangi dilin konuşulduğu belirtilmeden sırasıyla yüzde 90’ın ve yüzde 80’in üzerinde başarı sağladı. Bu teknoloji eşzamanlı olarak aynı veya farklı dilleri konuşan birden fazla insanı da anlayabiliyor.
Yeni sistemde uçtan uca konuşma tanıma için kullanılan Mitsubishi Electric’in tescilli Hibrit CTC/Dikkat Metodu, konuşma tanıma prosesinin hassasiyetinde ciddi ölçüde iyileşme sağlıyor. Uçtan uca konuşma tanıma için bağlantıcı zamansal sınıflandırma (CTC) ve dikkate dayalı kod çözme şeklindeki iki temsili yöntemle geliştirilen bu metot, söz konusu yöntemlerin avantajlarını desteklerken dezavantajlarını azaltıyor. Özellikle hibrit metot CTC’nin sisteme kaydedilen konuşma sinyalleri ile çıkış karakterleri arasındaki uyumu, isabetli bir şekilde tahmin etme ve dikkate dayalı yöntemin konuşmanın akustik ve dilsel özellikleri arasındaki bağlantıları değerlendirme kabiliyetinden faydalanıyor.
Otomobiller, konutlar, kamu tesisleri gibi ortamlar için de geliştirilecek
Mükemmel Konuşma Tanıma Teknolojisi’nin farklı dilleri konuşan ve aynı cihazı kullanan gruplar veya havalimanı terminalinin rehberlik sisteminde ana dilinde arama yapan yabancı yolcular gibi farklı durumlara uygun konuşma arayüzlerinin hayata geçirilmesine yardımcı olması bekleniyor. Mitsubishi Electric otomatik konuşma tanıma teknolojisinin kesinliğini ve uygulanabilirliğini otomobiller, konutlar, kamu tesisleri ve daha birçok gerçek ortamda geliştirmek için çalışmalarını sürdürmeyi hedefliyor.