Testovanie reči

Testovanie rečového signálu je zložitý proces, väčšinou založený na subjektívnych pocitoch poslucháčov. Je to najmä preto, lebo v oblasti syntézy reči nemáme nijakú explicitnú definíciu parametrov vyjadrujúcich kvalitu umelej reči.

Reč sa nedá popísať jedným parametrom, lebo by ju neopisoval komplexne. Popísal by iba jednu vlastnosť rečového signálu, ktorá by nebola schopná presnej identifikácie rečovej vzorky. Namiesto toho sa prešlo na popis reči ako vzdialenosti medzi vektormi alebo aj statického modelovania. Pri takomto modelovaní reči si uvedomíme vzájomnú spätosť parametrov.

Umelo upraviť niektoré parametre by nemal byť problém. Ako napríklad úroveň hlasitosti, ktorú by sme zmenili zmenou maxima amplitúdy a prepočítania priebehu signálu vzhľadom na novú vzťažnú hodnotu. Zložitejšie sú však také parametre ako napríklad jasnosť reči, ktorá indikuje koľko informácií môžeme extrahovať z rečového signálu. Zmena jasnosti ešte nie je presne daná. Predpokladá sa, že určité frekvenčné pásma sú pre zrozumiteľnosť dôležitejšie. Príkladom môže byť telefónne pásmo v rozmedzí 300-3400 kHz prenášajúce ľudský hlas charakterizovaný omnoho širším frekvenčným pásmom, zachovávajúc dobrú zrozumiteľnosť pri telefónnom prenose. Ďalším aspektom pri zisťovaní zrozumiteľnosti reči je logický význam viet. Úplné vety sú pre ľudí lepšie zrozumiteľné ako nelogická sekvencia slov. K úbytku zrozumiteľnosti dochádza pri výskyte efektov v umelej reči, ktoré ľudské ucho vyhodnotí ako neprirodzené javy. Medzi tie patrí neprirodzená rytmickosť reči ako aj náhla zmena výšky hlasu. Podľa niektorých autorov prirodzenosť umelej reči závisí nielen od samotného skladania menších slovných častí do slov a následne do slovných spojení, ale aj od javov sprevádzajúcich prirodzenú hovorovú reč ako zachovanie prozódie vetnej stavby.

Je veľké množstvo parametrov, podľa ktorých môžu poslucháči subjektívne hodnotiť predložené zosyntetizované rečové signály. Kvalita umelej reči sa môže hodnotiť aj podľa nasledovných aspektov:

  • Zrozumiteľnosť reči - určuje ako sú schopní poslucháči vnímať obsah syntetizovanej reči, či sú schopní zachytiť význam syntetizovaných viet a slovných spojení pri prehratí záznamu iba raz alebo či si ho musia prehrať viac krát, aby mu rozumeli. So zvyšujúcou sa zrozumiteľnosťou reči sa znižuje námaha pri počúvaní a to najmä relaxáciou rečníkov pri počúvaní.
  • Prirodzenosť hlasu – pri korpusovej syntéze vzniká množstvo prechodov jednotlivých slovných častí, ktoré nie vždy do seba kvalitne zapadajú. Pri vhodnom výbere týchto slovných častí poslucháči vnímajú prirodzenosť hlasu veľmi dobre. Najoptimálnejší spôsob výberu je výber celých slov, kde nemôže nastať problém s prechodmi vo vnútri slova, ale iba v rámci vety.
  • Precíznosť artikulácie reči – pri stavbe vety zo slovných jednotiek sa musí brať ohľad aj na celkovú štylizáciu. Veľmi výrazná je najmä zmena štylizácie medzi rôznymi typmi viet ako opytovacia alebo rozkazovacia.
  • Presnosť výslovnosti - môžeme vylepšiť najmä prípravou vhodných viet slúžiacich ako podklad pre rečovú databázu, ako aj dobrým rečníkom predčítajúcim tieto vety.
  • Rýchlosť rozprávania – rýchlosť čítania textu rečníkom pri nahrávaní pripravených textov.
  • Príjemnosť hlasu – veľmi subjektívny parameter. Každý človek vníma rôzne zafarbené hlasy ináč. Niekomu viac vyhovuje mužský rečník, inému ženský. To isté platí pri vysokom či hrubom hlase. Snažíme sa o elimináciu príjemnosti hlasu pri hodnotení syntetizovanej reči, ale nie je to možné, lebo testy sú subjektívne. Tento faktor vplýva najmä na prirodzenosť hlasu, lebo poslucháči sú zvádzaní hodnotiť hlas, ktorý je ich zvukovému aparátu príjemnejší ako viac prirodzený. Preto je dôležitá aj voľba rečníka.
  • Adekvátnosť slovného prízvuku – aby bol syntetizovaný text dobre vnímaný poslucháčmi, musí mať prirodzený priebeh akustických parametrov.
  • Vhodnosť tempa – korpus by mal byť nahraný rovnakým tempom, aby pri syntéze textu nevznikali nežiadúce javy pri skladaní rečových jednotiek.
  • Plynulosť – plynulé nasledovanie syntetizovaných slov jedno za druhým. Preto je dôležité, aby boli v rečovej databáze zachytené aj slová tomu odpovedajúce so zachovanými parametrami na začiatku a konci slova. Melódia prirodzenej reči by mala byť zachovaná aj pri syntetizovanej reči a to v podobe prozódie ( trvanie hlasu, umiestňovanie páuz, atď.)

Každý zvuk je možné opísať z fyziologického hľadiska podľa troch základných parametrov. Tieto parametre nám však nepopisujú reč ako ju poslucháči vnímajú.

  • Hlasitosť – subjektívny vnem o sile zvuku, teda odraz intenzity zvuku v mozgovej kôre. Čím je intenzita zvuku väčšia, tým je zvuk hlasitejší. Intenzita je jav fyzikálny, hlasitosť je jav fyziologický, biologický. Hlasitosť vzrastá do značnej miery v súlade s decibelovou hladinou intenzity zvuku. Má veľmi široký rozsah, od prahu počutia až po prah bolesti.
  • Výška tónu – frekvencia zvuku určuje jeho výšku pri vnímaní. Čím je frekvencia vyššia, tým je zvuk vyšší. Vysoké tóny vnímajú ľudia ako vysoké, nízke ako hlboké. Mladý človek s nepoškodeným sluchom počuje zvuky v rozsahu od 16 Hz do 20 kHz.
  • Farba tónu – je odrazom jeho frekvenčného spektra v našom vedomí. Podľa nej vieme rozoznať hudobné nástroje ako aj jednotlivé osoby. Hlavným činiteľom podmieňujúcim farbu tónu je frekvenčné rozloženie harmonických tónov a pomer ich amplitúd k amplitúde základného tónu.

Syntéza reči

Pokračuj
Warning: mysql_pconnect() [function.mysql-pconnect]: Host '147.175.103.5' is blocked because of many connection errors; unblock with 'mysqladmin flush-hosts' in /data/ktl/projects/speech/WWW/quality_test/classes/database.class.php on line 15
Nepodarilo sa prihlasit na databazovy server.Host '147.175.103.5' is blocked because of many connection errors; unblock with 'mysqladmin flush-hosts'