Text to speech
Kľúčové slová
TTS, syntéza reči, automatické popisovanie, návrh databázy, spájanie, selekcia jednotiek, modelovanie intonácie, úprava prozódie
Abstrakt:
TTS (Text-To-Speech) synthesis (syntéza textu do reči) je proces, ktorý mení "surový" text ako vstupný parameter na zvukový záznam. Cieľom tohto procesu je vytvoriť rečový signál, ktorý je zrozumiteľný a zachováva pôvodný význam textu. Zároveň musí byť reč prirodzená a poslucháč by nemal vedieť rozpoznať, či hovorí človek, alebo počítač. Proces môžeme rozdeliť na dve fázy - vysokoúrovňovú syntézu (alebo prirodzený jazykový proces - NLP (natural language processing)), ktorý vytvára cieľovú špecifikáciu, ktorá slúži ako vstup pre druhú fázu - nízkoúrovňovú syntézu, ktorá vytvorí syntetický signál za pomoci procesu číslicového spracovania signálov (DSP - digital signal processing). Výstupom prvej fázy je fonetická transkripcia spolu s akustickým parametrom pre identifikované rečové jednotky. Cieľová špecifikácia je daná hlavne základnou frekvenčnou krivkou, ktorej tvar je výsledkom intonačného modelovacieho procesu. Syntézu v DSP fáze vieme spraviť niekoľkými spôsobmi; popíšeme si typ, využívajúci spájanie. Tento typ syntézy využíva vopred nahrané rečové jednotky, ktoré sú preusporiadané a pospájané. Každú rečovú jednotku môžeme mať v databáze obsiahnutú len raz, alebo vo viacerých podobách. Takzvaný difónový syntetizátor využíva databázu, kde je každý rečový element obsiahnutý len v jednej podobe – difóne, ktorá tvorí základnú rečovú jednotku. Tento typ syntetizátora vytvára reč s vysokou a stálou zrozumiteľnosťou, ale s trošku neprirodzeným zvukom. Na druhej strane, korpusový syntetizátor, ktorý využíva mnoho variant rečových jednotiek toho istého druhu znie prirodzene, ale nie je pri ňom zaručená stále vysoká zrozumiteľnosť. Pri difónovej syntéze dosiahneme cieľovú špecifikáciu podľa predpísanej úpravy signálu; pri korpusovej syntéze sa množstvo modifikácii dá znížiť vybraním vhodných jednotiek. Kvalita modifikácie závisí od použitej metódy; najčastejšie používanou metódou sú „prekry“ a „pridaj“ techniky a sínusoidné modelovanie. Aj keď difónová syntéza dosiahla už svoje limity, vývoj syntézy založenej na korpuse stále pokračuje. Vhodná databáza pre korpusovú syntézu musí byť rečovo bohatá – vyvážená, čo vieme dosiahnuť dobrým návrhom databázy. Dĺžka takejto databázy je zvyčajne dlhšia ako jedna hodina. Kvalitu syntézy môžeme zvýšiť, ak obsah zameriame na určitú oblasť použitia. Aby mohla byť databáza v syntetizátore použitá, musia byť označené hranice jednotiek – foném. Toto sa robí pri procese segmentácie, ktorý môže byť manuálny alebo automatizovaný. Manuálny proces je veľmi časovo náročná a chybovo náchylná úloha. Na druhej strane automatizované metódy, využívajúce DTW (dynamické časové obaľovanie) alebo akustické modelovanie podľa HMM (skryté Markovove modely) nie sú tak časovo náročné a vytvárajú systematické chyby, ktoré môžu byť odstránené neskorším spracovaním. Všetky spomenuté problémy TTS boli úspešne riešené na našej katedre.