miktarda veriyi kısa sürede taramak. Bunun için tarama, yazılandırılmış içerikte değil direk olarak sesli
veriler arasında yapılıyor. Bu amaçla taranan anahtar sözcükler için yüksek ayırt edicilikte akustik
modeller oluşturuluyor.
Peki Ya Türkçe Konuşma Tanıma?
Türkçe; Fince ve Korece gibi sondan eklemeli bir dil olduğu için,
biçimbirimsel üretkenliği yüksektir. Türkçe’de aynı köke değişik sayıda
ve biçimde morfem eklenerek çok fazla sayıda yeni sözcük
oluşturulabilir. Konuşma tanıma sistemleri, kısıtlı bir sözcük dağarcığı ile
çalıştığı için İngilizce gibi eklemeli olmayan dillerde dil modellemesini
sözcük bazlı yapmak uygundur. Türkçe'nin üretken yapısı sadece
sözcüklerden oluşan bir dil modeli üretmeyi güçleştirir. Dağarcık dışı sözcük
sayısı, test edilecek veri miktarının artmasıyla çok hızlı artabilir. Aynı zamanda
Türkçe’de sözcük dizilim sırası serbest olduğu için dilin modellenmesi daha zordur.
Bu nedenle, Türkçe dil modelleme için farklı yaklaşımların yapılması gerekir. Bu
yaklaşımlardan birisi sözcükleri istatistiksel yöntemlerle daha küçük parçalara bölerek
kapsamı büyük bir sözcükdağarcığı üretmektir. Bu şekilde dağarcık dışı sözcükler sözcük
altı birimlerle oluşturulabilir.
TÜBİTAK-BİLGEM'de Konuşma Tanıma Çalışmaları
TÜBİTAK Bilişim ve Bilgi Güvenliği İleri Teknolojiler Araştırma Merkezi (BİLGEM) çatısı altında
kurulan Konuşma ve Dil Teknolojileri Merkezi (KDTM) bünyesinde 2000’li yılların başından bu
yana sürdürülen konuşma tanıma çalışmaları daha çok Türkçe üzerine yoğunlaşıyor. Türkçe ile
ilgili bu çalışmaları ulusal ve uluslar arası arenada kabul gören KDTM araştırmacıları KÂTİP adında
çok amaçlı bir konuşma tanıma yazılımını geliştirdi bile.
KÂTİP Projesi
Geliştirilen KÂTİP yazılımı ile kullanıcılar istedikleri metinleri bilgisayar yardımıyla hızlı bir şekilde
yazabiliyor ve çevrim dışı uygulamalarda çok miktarda sesli veriyi de yazılandırabiliyor. Önceleri TREN
(Turkish Recognition ENgine) adında markalaşan KÂTİP, konuşmacı adaptasyonu ile (konuşmacı belirli
bir süre -1 saat kadar- uyarlama verisi sağladığı takdirde) konuşma tanıma başarımını artırıyor. Şimdilik,
geliştirilen yazılım haber alanında çalışıyor. KDTM araştımacıları, yakın zamanda KÂTİP'in hukuk ve sağlık
alanlarında çalışan versiyonlarının da hazır olacağı müjdesini vermekte.
İnternetten toplanan yaklaşık 600 milyon kelimelik metin verisi ile eğitilen dil modelinin kullanıldığı
konuşmacıdan bağımsız KÂTİP sistemi %85 başarımla televizyon haberlerini tanıyabiliyor. TREN ile
başlayan ve daha sonra daha etkin dil modelleri ile zenginleştirilen KÂTİP, eğer yeterli miktarda veri
sağlanırsa başka diller, aksanlar ve uygulama alanları için de çözüm oluşturabilecek esneklikte.
22
1...,14,15,16,17,18,19,20,21,22,23 25,26,27,28,29,30,31,32,33,34,...44