Čo je korpus

Syntéza reči skladaním menších rečových jednotiek je jednou z najjednoduchších metód na vytvorenie kvalitnej a prirodzene znejúcej umelej reči. Nevýhodou je viazanosť na hlas rečníka, ktorý nahovoril rečovú databázu a väčšia náročnosť na pamäť systému. Väčšina dnešných TTS systémov pracuje na tomto princípe.

Systémy na syntézu jazyka potrebujú nahovorenú databázu slov, z ktorej si vyberajú podľa určitého algoritmu časti slov a tie potom syntetizujú. Táto databáza (hovorme jej “korpus”) má veľmi veľký podiel na kvalite syntetizovanej reči. Spracovanie takejto databázy zaťažuje náš systém na syntézu, preto nemôže prerásť do obrovských rozmerov, ale zároveň musí byť dostatočne veľká, aby sa kvalita syntetizovanej reči čo najviac priblížila hovorovej reči.

Ideálnym riešením by bol určitý stred medzi veľkosťou databázy a kvalitou syntetizovanej reči. Pre potreby zrozumiteľnej syntézy slovenskej reči je potrebná korpusová databáza, ktorá obsahuje čo najväčšiu časť slovenského rečového korpusu. V korpuse chceme dosiahnuť to, aby boli zachované aj niektoré charakteristiky slovenského jazyka (intonácia). Jedine tak je možné dosiahnuť zrozumiteľnosť syntetizovanej reči.

Rečová databáza

Popis korpusov

Pokračuj
Warning: mysql_pconnect() [function.mysql-pconnect]: Host '147.175.103.5' is blocked because of many connection errors; unblock with 'mysqladmin flush-hosts' in /data/ktl/projects/speech/WWW/quality_test/classes/database.class.php on line 15
Nepodarilo sa prihlasit na databazovy server.Host '147.175.103.5' is blocked because of many connection errors; unblock with 'mysqladmin flush-hosts'