Algorithms and Methods
of Multimedia Signals Processing for Human Computer
Interaction (HCI)
VEGA 1/0718/09
Projekt VEGA sa venoval riešeniam problémov v oblasti rozpoznania reči, syntézy reči, inteligentného učenia pri syntéze reči, spracovania a modifikácie prozódie, analýzy a syntézy hovoriacej hlavy a mikrofónových polí.
Boli navrhnuté a overené modifikácie štandardných trénovacich postupov HMM modelov pre systémy HTK a SPHINX tak, aby dosahovali vyššie úspešnosti pre slovenský jazyk.
Syntetizátor S2 sme taktiež rozšírili o niekoľko metód, ktoré majú viesť k vyššej kvalite syntetizovanej reči. Bol vytvorený systém na zmenu prozodických vlastností reči založený na sínusoidálnych modeloch (STN model). Systém bol upravený na konverziu klasických rečových korpusov do sínusoidálnych korpusov . Bola zdokonalená aplikácia rečového syntetizátora a animácie tváre na mobilný telefón.
Súčasťou projektu je aj analýza, návrh a implementácia modulárneho rečového syntetizátora s rôznymi úrovňami učenia pre jednotlivé moduly.
VEGA project has dealt with problem solving in the area of speech recognition, speech synthesis, intelligent learning during speech synthesis, prosodie processing and modification, talking head analysis and synthesis and microphone arrays.
New modifications of HMM training procedures were designed and evaluated for Slovak language using HTK and SPHINX systems. Suggested modifications brought improved results in terms of accuracy. Synthesizer S2 has been anhanced with several methods, which lead to higher quality of synthesized speech. System for modification of prosodic features was designed and implemented, based on sinusoidal model (STN model). The system was adapted for purposes of conversion from classical speech corpus into sinusoidal corpus.
An application for speech synthesis and face animation for a mobile phone has been improved.
Our work also contains analysis, module architecture design and implementation for the speech synthesizer.
Vedecké ciele projektu boli stanovené v oblasti rozpoznania reči, syntézy reči, inteligentného učenia pri syntéze reči, spracovania a modifikácie prozódie, analýzy a syntézy hovoriacej hlavy a mikrofónových polí.
Možno konštatovať, že všetky ciele projektu boli splnené, v mnohých prípadoch prekročené. Za najvýznamnejšie výsledky považujeme:
Úspešná modifikácia trénovacích postupov HMM pre rozpoznanie slovenskej reči.
- Vytvorenie kontextových zhlukov rečových segmentov pomocou rozhodovacích stromov a za využitia „greedy“ rozhodovacieho kritéria.
- Návrh algoritmu výberu segmentov z kontextových zhlukov, tak aby tento sa dal integrovať do existujúceho korpusového syntetizátora.
- Návrh štruktúry a realizácia nahrávania rečového korpusu v špecializovanom laboratóriu profesionálnym rečníkom.
- Vývoj systému na zmenu prozódie reči
- zdokonalenie aplikácie rečového syntetizátora na mobilný telefón
- návrh a implementácia modulárnej architektúry rečového syntetizátora spolu s metódami učenia
Nový trénovací postup pre HMM modely sa dá využiť pre systémy automatického rozpoznávania reči využivajúce HTK resp. SPHINX štruktúru modelov, ktoré budú pre slovenčinu dosahovať vyššie úspešnosti. To platí aj pre voľbu vhodnej parametrizácie reči, keďže medzi jednotlivými prostrediami a parametrizáciami sú rozdiely.
Navrhutý systém tvorby štatistického jazyka sa dá využit pre samotnú tvoru modelu jazyka, ktorý je dôležitý v systémoch rozpoznávania kontinuálnej reči, kde apriorny výskyt slov zvyšuje celkovú úspešnosť systému ako aj samotnú rýchlosť dekodovania.
Zdokonalenie fonetickej transkripcie sa využije v TTS syntetizátore v module syntézy vyššej úrovne pri generovaní fóném ako parametrov pre modul syntézy nižšej úrovne. Toto zdokonalenie bude viesť k lepšej výslovnosti čítaného textu.
Využiteľnosť výsledkov projektu možno dokumentovať zoznamom výskumných a vzdelávacích projektov, ktoré nadväzujú na tento projekt VEGA:
• 7RP projekt HBB-Next (2011 - 2014) pri návrhu multimodálneho rozhrania, manažmente identity a personalizácii služieb
• Leonardo da Vinci projekt IMProVET (2011-2014),
• Projekt APVV podaný v roku 2011, v ktorom dudú výsledky tohoto projektu využité v aplikovanom výskume.
• 7RP projekt NEWTON podaný v decembri 2011, využitie NGNLab.eu platformy a výstupov projektu pri tvorbe vzdelávacieho multimediálneho obsahu.
a) Zoznam publikovaných prác
OraInt10: Oravec, Miloš - Mazanec, Ján - Pavlovičová, Jarmila - Eiben, Pavel - Lehocki, Fedor: Face Recognition in Ideal and Noisy Conditions Using Support Vector Machines, PCA and LDA.
In: Face Recognition. - Vukovar : InTech, 2010. - ISBN 978-953-307-060-5. - S. 125-150 [podiel projektu 0,4]
BenIjs11: Beniak, Marián - Pavlovičová, Jarmila - Oravec, Miloš: 3D Chrominance Histogram Based Face Localisation.
In: International Journal of Signal and Imaging Systems Engineering. - ISSN 1748-0701 (ON-LINE). - ISSN 1748-0698 (PRINT). - Vol. 4, Iss. 1 (2011), s. 3-12
ADC Vedecké práce v zahraničných karentovaných časopisoch
KacTel11: Kacur, Juraj - Rozinaj, Gregor:
Building accurate and robust HMM models for practical ASR systems (CC journal)
In: Telecommunication Systems , DOI: 10.1007/s11235-011-9660-8 Online First(tm) 6 October 2011, Publisher: Springer Netherlands, (14 pages), ISSN: 1018-4864 Impact factor: 0.670
TreJas11: Treiber, Alexander S. - Gruhler, Gerhard - Rozinaj, Gregor: Improvement of Rotary Encoders in Human-Machine-Interfaces through Optimized Acoustic Feedback.
In: Journal of the Acoustical Society of America. - ISSN 0001-4966. - Vol. 130, Iss. 2 (2011), EL57 - EL61
ADF Vedecké práce v domácich nekarentovaných časopisoch
MalEec09: Malá, Tatiana - Kačur, Juraj: Moderné postupy kompresie audio signálov - algoritmus Ogg Vorbis.
In: EE časopis pre elektrotechniku a energetiku. - ISSN 1335-2547. - Roč. 15, mimoriadne č (2009), s. 129-132
b) Zoznam prác odovzdaných do tlače
ADE Vedecké práce v zahraničných nekarentovaných časopisoch
PodBuj12: Podhradsky, Pavol – Kadlic, Radovan – Lábaj, Ondrej – Londák, Juraj – Trúchly, Peter:
Subsystem for m/e-learning and Virtual Training based on IMS NGN Architecture
In: Bogaziçi University Journal of Education (BUJE) 2012 (invited paper) (accepted)
RybIjd12: Rybarova, Renata - Rozinaj, Gregor:
Intelligent Speech Synthesizer
In: International Journal of Digital Content Technology and its Applications (JDCTA), published by AICIT (Advanced Institute of Convergence Information Technology), (accepted), (8 pages), ISSN : 2233-9310 (Online), ISSN : 1975-9339 (Print)
VojIjs12: Vojtko, Juraj - Rozinaj, Gregor - Kacur, Juraj:
Acoustic Model Training for Speech Recognition over Mobile Networks
In: International Journal of Signal and Imaging Systems Engineering (IJSISE), IJSISE V5,N1 the first issue of 2012 ISSN : 1748-0701 (Online), ISSN : 1748-0698 (Print)
PalAut12: Palenik, Andrej - Rozinaj, Gregor:
Corpus-based Variable Synthesis of Slovak Intonation
In: Automatika - Journal for Control, Measurement, Electronics, Computing and Communications, (accepted) by KoREMA - Croatian Society for Communications, Computing, Electronics, Measurement and Control, Member of IMEKO and IFAC, (8 pages), ISSN : 0005-1144 Impact factor: 0,10
c) Zoznam publikácií v zborníkoch a
abstraktov referátov prednesených na vedeckých
podujatiach (uvedených v zborníkoch z konferencií)
5 najvýznamnejších publikácií kategórie AFC
RozWor09: Rozinaj, Gregor - Rybárová Renata - Turi Nagy, Martin:
Sinusoidal Parametrization for Speech Synthesis in Mobile Phones
In: WORLDCOMP'09 - The 2009 World Congress in Computer Science, Computer Engineering, and Applied Computing, CGVR'09 The 2009 International Conference on Computer Graphics and Virtual Reality, July 13-16, 2009, Las Vegas, USA
RozIws10: Rozinaj, Gregor: Towards More Intelligent Speech Interface.
In: IWSSIP 2010 : 17th International Conference on Systems, Signals & Image Processing. - : Editora da Universidade Federal Fluminense, 2010. - ISBN 978-85-228-0565-5. - S. 49-52
TurElm10: Turi Nagy, Martin - Rozinaj, Gregor: Compression of a Slovak Speech Database Using Harmonic, Noise and Transient Model.
In: Proceedings ELMAR-2010 : 52nd International Symposium ELMAR-2010. Zadar, Croatia, 15.-17.9.2010. - Zadar : Croatian Society Electronics in Marine, 2010. - ISBN 978-953-7044-11-4
VarElm11: Vargic, Radoslav - Bunčák, Martin - Kačur, Juraj: On Self-Similarity in Service Triggering in NGN Networks Using Satellite Based Tolling Systems.
In: Proceedings ELMAR-2011 : 53rd International Symposium ELMAR-2011,14-16 September 2011, Zadar, Croatia. - Zadar : Croatian Society Electronics in Marine, 2011. - ISBN 978-953-7044-12-1. - S. 183-186
KonIws11: Kondelová, Anna - Tóth, Ján - Guzmický, Peter: Simulation of Prosody Contours with Embeded Signal Generator.
In: IWSSIP 2011 : 18th International Conference on Systems, Signals & Image Processing. - : IEEE eXpress, 2011. - ISBN 978-9958-9966-3-4. - CD-Rom