Úvod k syntéze reči

Ľudské nadšenie pre hovoriace stroje nie je nič nové. Od nepamäti sa ľudia snažili dať strojom schopnosť rozprávať. Pokrok v oblasti vývoja informačných technológií napreduje obrovským tempom a je tu snaha zjednodušiť obsluhu počítačov. Pred niekoľkými desiatkami rokov boli obrovské halové počítače, ktoré sa obsluhovali pomocou dierkovacích štítkov. Takýto spôsob ovládania bol veľmi náročný a vyžadoval si expertov už len na interpoláciu zadania pre počítač. Dnes počítače nemajú veľkosť poschodia, všetko sa miniaturizuje a počítače sú ovládané pomocou klávesnice, myši a dotykového monitora. Stále to však pre ľudí nie je najprirodzenejší spôsob ovládania a mnohým robí problém. Ideálnym riešením by bol počítač, ktorý bude schopný rozumieť a rozprávať ľudskou rečou. Zatiaľ je to len vízia, ale pri rýchlosti vývoja to bude pravdepodobne za pár rokov realitou. Netýka sa to len osobných počítačov, ktorých obsluha by sa zjednodušila pri použití reči ako ovládacieho prostriedku. Spoločnosti v oblasti informačných technológií sa snažia vyvinúť alternatívne ovládanie pre mobilné telefóny a ostatný hardware, kde použitie klávesnice nie je najvhodnejšie. Pri niektorých príležitostiach ako je napr. ovládanie mobilného telefónu v aute, kde by sa mal šofér venovať riadeniu auta a nie telefónu, by bolo ovládanie hlasom osožné.

speech

Väčšina systémov pracujúcich s ľudským hlasom by sa dala rozdeliť na tri časti: STT, vyhodnocovacia jednotka, TTS. Engine na spracovanie hlasu na textu sa nazýva STT. Ide o premenu ľudských verbálnych príkazov do formy, ktorej rozumie počítač. Systém tak rozpoznáva ľudskú reč. Ďalšou časťou je vyhodnocovacia jednotka, ktorá závisí od použitia systému. Poslednou časťou je engine na spracovanie textu na hlas, nazývaný aj TTS. Tým dáva systém odpoveď na zadanú otázku vo forme hlasového signálu. Robí to skladaním menších rečových jednotiek do viet, ktorým už účastník systému rozumie. V mojej práci sa budem venovať vyhodnocovaniu kvality reči v oblasti TTS.

Syntetizovaná reč môže byť produkovaná rôznymi metódami. Všetky metódy majú svoje výhody a možno ich rozdeliť do troch skupín:

  • Artikulačná syntéza – snaží sa o priame napodobenie ľudského hlasového traktu.
  • Formantova syntéza – využitie základných frekvencií vznikajúcich v hrtanovej trubici pri vyslovovaní a ich premena podľa filtračného modelu.
  • Metóda skladania rečových jednotiek ( z angl. concatenantive synthesis) – skladanie žiadaného textu prebieha zložením menších rečových jednotiek do slovných spojení. Tieto rečové jednotky sú nahraté v pripravenej databáze (rečový korpus). Syntetizované slovo je zložené z foném a prechodu medzi nimi (napr. difónová syntéza). V ideálnom prípade hľadáme najväčšiu možnú časť (slovo, frázu) z predloženého akustického inventára.

Syntéza reči

Pokračuj
Warning: mysql_pconnect() [function.mysql-pconnect]: Host '147.175.103.5' is blocked because of many connection errors; unblock with 'mysqladmin flush-hosts' in /data/ktl/projects/speech/WWW/quality_test/classes/database.class.php on line 15
Nepodarilo sa prihlasit na databazovy server.Host '147.175.103.5' is blocked because of many connection errors; unblock with 'mysqladmin flush-hosts'