Algorithms and Methods of Multimedia Signals Processing for Human Computer Interaction (HCI)

VEGA 1/0718/09

Anotácia

Projekt VEGA sa venoval riešeniam problémov v oblasti rozpoznania reči, syntézy reči, inteligentného učenia pri syntéze reči, spracovania a modifikácie prozódie, analýzy a syntézy hovoriacej hlavy a mikrofónových polí.

Boli navrhnuté a overené modifikácie štandardných trénovacich postupov HMM modelov pre systémy HTK a SPHINX tak, aby dosahovali vyššie úspešnosti pre slovenský jazyk.

Syntetizátor S2 sme taktiež rozšírili o niekoľko metód, ktoré majú viesť k vyššej kvalite syntetizovanej reči. Bol vytvorený systém na zmenu prozodických vlastností reči založený na sínusoidálnych modeloch (STN model). Systém bol upravený na konverziu klasických rečových korpusov do sínusoidálnych korpusov . Bola zdokonalená aplikácia rečového syntetizátora a animácie tváre na mobilný telefón.

Súčasťou projektu je aj analýza, návrh a implementácia modulárneho rečového syntetizátora s rôznymi úrovňami učenia pre jednotlivé moduly.

Anotation

VEGA project has dealt with problem solving in the area of speech recognition, speech synthesis, intelligent learning during speech synthesis, prosodie processing and modification, talking head analysis and synthesis and microphone arrays.

New modifications of HMM training procedures were designed and evaluated for Slovak language using HTK and SPHINX systems. Suggested modifications brought improved results in terms of accuracy. Synthesizer S2 has been anhanced with several methods, which lead to higher quality of synthesized speech. System for modification of prosodic  features was designed and implemented, based on sinusoidal model (STN model). The system was  adapted  for purposes of conversion from classical speech corpus  into sinusoidal corpus.

An application for speech synthesis and face animation for a mobile phone has been improved.

Our work also contains analysis, module architecture design and implementation for the speech synthesizer.

Zhodnotenie vedeckých výsledkov projektu

Vedecké ciele projektu boli stanovené v oblasti rozpoznania reči, syntézy reči, inteligentného učenia pri syntéze reči, spracovania a modifikácie prozódie, analýzy a syntézy hovoriacej hlavy a mikrofónových polí.

Možno konštatovať, že všetky ciele projektu boli splnené, v mnohých prípadoch prekročené. Za najvýznamnejšie výsledky považujeme:

Úspešná modifikácia trénovacích postupov HMM pre rozpoznanie slovenskej reči.

-  Vytvorenie kontextových zhlukov rečových segmentov pomocou rozhodovacích stromov a za využitia „greedy“ rozhodovacieho kritéria.

-  Návrh algoritmu výberu segmentov z kontextových zhlukov, tak aby tento sa dal integrovať do existujúceho korpusového syntetizátora.

- Návrh štruktúry a realizácia nahrávania rečového korpusu v špecializovanom laboratóriu profesionálnym rečníkom.

- Vývoj systému na zmenu prozódie reči

- zdokonalenie aplikácie rečového syntetizátora na mobilný telefón

- návrh a implementácia modulárnej architektúry rečového syntetizátora spolu s metódami učenia

 

Využiteľnosť  získaných výsledkov

Nový trénovací postup pre HMM modely sa dá využiť pre systémy automatického rozpoznávania reči využivajúce HTK resp. SPHINX štruktúru modelov, ktoré budú pre slovenčinu dosahovať vyššie úspešnosti. To platí aj pre voľbu vhodnej parametrizácie reči, keďže medzi jednotlivými prostrediami a parametrizáciami sú rozdiely.

Navrhutý systém tvorby štatistického jazyka sa dá využit pre samotnú tvoru modelu jazyka, ktorý je dôležitý v systémoch rozpoznávania kontinuálnej reči, kde apriorny výskyt slov zvyšuje celkovú úspešnosť systému ako aj samotnú rýchlosť dekodovania.

Zdokonalenie fonetickej transkripcie sa využije v TTS syntetizátore v module syntézy vyššej úrovne pri generovaní fóném ako parametrov pre modul syntézy nižšej úrovne. Toto zdokonalenie bude viesť k lepšej výslovnosti čítaného textu.

Využiteľnosť výsledkov projektu možno dokumentovať zoznamom výskumných a vzdelávacích projektov, ktoré nadväzujú na tento projekt VEGA:

             7RP projekt HBB-Next (2011 - 2014) pri návrhu multimodálneho rozhrania, manažmente identity a personalizácii služieb

             Leonardo da Vinci projekt IMProVET (2011-2014),

             Projekt APVV podaný v roku 2011, v ktorom dudú výsledky tohoto projektu využité v aplikovanom výskume.

             7RP projekt NEWTON podaný v decembri 2011, využitie NGNLab.eu platformy a výstupov projektu pri tvorbe vzdelávacieho multimediálneho obsahu.

 

Zoznam publikácií, ktoré vznikli na základe výsledkov projektu

ABC Kapitoly vo vedeckých monografiách vydané v zahraničných vydavateľstvách

a) Zoznam publikovaných prác

OraInt10:            Oravec, Miloš - Mazanec, Ján - Pavlovičová, Jarmila - Eiben, Pavel - Lehocki, Fedor: Face Recognition in Ideal and Noisy Conditions Using Support Vector Machines, PCA and LDA.

In: Face Recognition. - Vukovar : InTech, 2010. - ISBN 978-953-307-060-5. - S. 125-150 [podiel projektu 0,4]

 

ADE Vedecké práce v zahraničných nekarentovaných časopisoch

 

BenIjs11:             Beniak, Marián - Pavlovičová, Jarmila - Oravec, Miloš: 3D Chrominance Histogram Based Face Localisation.

In: International Journal of Signal and Imaging Systems Engineering. - ISSN 1748-0701 (ON-LINE). - ISSN 1748-0698 (PRINT). - Vol. 4, Iss. 1 (2011), s. 3-12

 

ADC Vedecké práce v zahraničných karentovaných časopisoch

 

KacTel11:            Kacur, Juraj - Rozinaj, Gregor:

Building accurate and robust HMM models for practical ASR systems (CC journal)

In: Telecommunication Systems , DOI: 10.1007/s11235-011-9660-8 Online First(tm) 6 October 2011, Publisher: Springer Netherlands, (14 pages), ISSN: 1018-4864 Impact factor: 0.670

 

TreJas11:             Treiber, Alexander S. - Gruhler, Gerhard - Rozinaj, Gregor: Improvement of Rotary Encoders in Human-Machine-Interfaces through Optimized Acoustic Feedback.

In: Journal of the Acoustical Society of America. - ISSN 0001-4966. - Vol. 130, Iss. 2 (2011), EL57 - EL61

 

ADF Vedecké práce v domácich nekarentovaných časopisoch

 

MalEec09:          Malá, Tatiana - Kačur, Juraj: Moderné postupy kompresie audio signálov - algoritmus Ogg Vorbis.

In: EE časopis pre elektrotechniku a energetiku. - ISSN 1335-2547. - Roč. 15, mimoriadne č (2009), s. 129-132

b) Zoznam prác odovzdaných do tlače

ADE       Vedecké práce v zahraničných nekarentovaných časopisoch

 

PodBuj12:           Podhradsky, Pavol – Kadlic, Radovan – Lábaj, Ondrej – Londák, Juraj – Trúchly, Peter:

Subsystem for m/e-learning and Virtual Training based on IMS NGN Architecture

In: Bogaziçi University Journal of Education (BUJE) 2012 (invited paper) (accepted)

 

RybIjd12:            Rybarova, Renata - Rozinaj, Gregor:

Intelligent Speech Synthesizer

In: International Journal of Digital Content Technology and its Applications (JDCTA), published by AICIT (Advanced Institute of Convergence Information Technology), (accepted), (8 pages), ISSN : 2233-9310 (Online), ISSN : 1975-9339 (Print)

 

VojIjs12:              Vojtko, Juraj - Rozinaj, Gregor - Kacur, Juraj:

Acoustic Model Training for Speech Recognition over Mobile Networks

In: International Journal of Signal and Imaging Systems Engineering (IJSISE), IJSISE V5,N1 the first issue of 2012 ISSN : 1748-0701 (Online), ISSN : 1748-0698 (Print)

 

PalAut12:            Palenik, Andrej - Rozinaj, Gregor:

Corpus-based Variable Synthesis of Slovak Intonation

In: Automatika - Journal for Control, Measurement, Electronics, Computing and Communications, (accepted) by KoREMA - Croatian Society for Communications, Computing, Electronics, Measurement and Control, Member of IMEKO and IFAC, (8 pages), ISSN : 0005-1144 Impact factor: 0,10

 

c) Zoznam publikácií v zborníkoch a abstraktov referátov prednesených na vedeckých
podujatiach (uvedených v zborníkoch z konferencií)

 

AFC Publikované príspevky na zahraničných vedeckých konferenciách

 

5 najvýznamnejších publikácií kategórie AFC

 

RozWor09:         Rozinaj, Gregor - Rybárová Renata - Turi Nagy, Martin:

Sinusoidal Parametrization for Speech Synthesis in Mobile Phones

In: WORLDCOMP'09 - The 2009 World Congress in Computer Science, Computer Engineering, and Applied Computing, CGVR'09 The 2009 International Conference on Computer Graphics and Virtual Reality, July 13-16, 2009, Las Vegas, USA

 

RozIws10:           Rozinaj, Gregor: Towards More Intelligent Speech Interface.

In: IWSSIP 2010 : 17th International Conference on Systems, Signals & Image Processing. - : Editora da Universidade Federal Fluminense, 2010. - ISBN 978-85-228-0565-5. - S. 49-52

 

TurElm10:                           Turi Nagy, Martin - Rozinaj, Gregor: Compression of a Slovak Speech Database Using Harmonic, Noise and Transient Model.

In: Proceedings ELMAR-2010 : 52nd International Symposium ELMAR-2010. Zadar, Croatia, 15.-17.9.2010. - Zadar : Croatian Society Electronics in Marine, 2010. - ISBN 978-953-7044-11-4

 

VarElm11:           Vargic, Radoslav - Bunčák, Martin - Kačur, Juraj: On Self-Similarity in Service Triggering in NGN Networks Using Satellite Based Tolling Systems.

In: Proceedings ELMAR-2011 : 53rd International Symposium ELMAR-2011,14-16 September 2011, Zadar, Croatia. - Zadar : Croatian Society Electronics in Marine, 2011. - ISBN 978-953-7044-12-1. - S. 183-186

 

KonIws11:          Kondelová, Anna - Tóth, Ján - Guzmický, Peter: Simulation of Prosody Contours with Embeded Signal Generator.

In: IWSSIP 2011 : 18th International Conference on Systems, Signals & Image Processing. - : IEEE eXpress, 2011. - ISBN 978-9958-9966-3-4. - CD-Rom