Řečové technologie

Automatické rozpoznávání řeči

Jednou z oblastí řečových technologií je automatické rozpoznávání řeči. Stálý výzkum je zde věnován akustickému a jazykovému modelování řeči, které zvláště v případě jazyků s vysokou flexí (např. slovanské jazyky, včetně češtiny) je stálou výzvou pro výzkumníky. Využití automatického rozpoznávání řeči je široké a nachází uplatnění při přípravě textových dokumentů (např. diktovací systémy), při automatickém vytváření skrytých titulků (např. v případě titulkování „živých“ TV pořadů), při automatické indexaci a vyhledávání klíčových slov v řečových dokumentech, případně v rozsáhlých audiovizuálních archivech apod.

Syntéza řeči (Text-to-speech)

Z hlediska řečové komunikace hraje významnou roli i počítačová syntéza řeči z textu. Zde je cílem dosáhnout maximální přirozenosti syntetizované promluvy, a to i v kontextu s množstvím trénovacích dat. Aplikace systémů počítačové syntézy řeči má využití například při čtení textových dokumentů, čtení mailů, v případě textem ovládaných hlásičů, při „konzervaci“ hlasu apod.

Dialogové systémy

Další oblastí uplatnění hlasových technologií jsou hlasové dialogové systémy, které slouží k obousměrné hlasové komunikaci člověka s počítačem. Hlasový dialogový systém využívá vedle modulů automatického rozpoznávání a počítačové syntézy řeči ještě modul porozumění promluvě a modul řízení dialogu. Tyto dva posledně zmíněné moduly jsou předmětem intenzivního výzkumu, protože jejich funkce přispívá významným způsobem k masivnějšímu uplatnění a rozšíření dialogových systémů v praxi. Jde zde o cílenou snahu zvyšování přirozenosti vedeného dialogu tak, aby se komunikace člověka se strojem co nejvíce blížila komunikaci mezi lidmi. Hlasové dialogové systémy mají široké uplatnění například v automatizaci služeb hlasových kontaktních center nebo při zpřístupnění informací prostřednictvím telefonních linek apod. Jejich další uplatnění se očekává při vývoji nových asistivních technologií, kde hlasové ovládání a hlasová komunikace se stroji a přístroji se má stát novou alternativní normou každodenního styku člověka s těmito systémy. Naprosto klíčovou roli zde budou hrát systémy vyvíjené pro podporu a zlepšení kvality života starých a nemocných lidí.

Hlasová biometrie

Z mnoha dalších oblastí využití řečových technologií zmiňme ještě oblast hlasové biometrie, která se zabývá problematikou identifikace či verifikace osob na základě charakteristik jejich hlasu. Automatické ověřování identity lidí na základě vzorku jejich hlasu nabývá na významu v souvislosti se stálým posilováním bezpečnosti a ochrany před kriminalitou a terorismem.

Automatické zpracování video archivů

Vyhledávání ve velkých audiovizuáních archivech a jejich automatický přepis. Technologie umožňuje vyhledávat i různé místopisné názvy, případně jména osob či produktů, která nebyla předem ve slovníku. Databáze je prohledávána velmi rychle a výsledek dotazu je dostupný ihned po jeho zadání.

Řečové technologie pro zdraví společnosti

Výzkum směřuje ke zlepšení životních podmínek hendikepovaných občanů. Kromě hlasové syntézy a rozpoznávaná mluvené řeči zahrnuje i automatický překlad z a do znakové řeči. Automatického hlasového dialogu s počítačem lze využít k rychlejšímu a úplnějšímu začlenění osob se zdravotním postižením do společnosti a ke zproduktivnění práce zdravotnického personálu. Cílovou skupinou jsou senzorově (zrakově, sluchově a hlasově) a tělesně handicapovaní občané, nemocnice a zdravotnická zařízení.

Audiovizuální rozpoznávání a syntéza

Výzkum řeší zpracování spontánní řeči a multimodálního záznamu, tj. kombinace akustických a obrazových dat. Syntéza kombinuje automatické generování řeči a k tomu příslušné tváře (pohyby hlavy, rtů atd.) do kompletního avatara.