Dizertačné práce

Rozpoznávanie reči s nízkou výpočtovou náročnosťou

Autor práce: Ing. Martin Hyben
Školiteľ: prof. Ing. Juraj Miček, PhD.
Dátum obhajoby: 3.12.2014
Študijný program: 9.2.9 Aplikovaná informatika
Oponent 1: doc. RNDr. Katarína BACHRATÁ, PhD. – KIS, FRI, ŽU Žilina
Oponent 2: doc. RNDr. Michal MUNK, PhD. – KI, FPV, UKF Nitra
Oponent 3: prof. Ing. Karel ŠOTEK, CSc. – KST, FEI, UP Pardubice

Slovenský abstrakt:

Práca je venovaná problematike rozpoznávania reči, s dôrazom na rozpoznávanie izolovaných slov v slovenskom jazyku. Taktiež popisuje proces optimalizácie rozpoznávania reči, v rámci ktorej sú uvádzané možnosti optimalizácie frekvenčnej analýzy pomocou riedkej Fourierovej transformácie (sparse Fourier transformation) a s použitím programovateľných hradlových polí (FPGA). Okrem toho bol navrhnutý vlastný algoritmus nerovnomernej segmentácie rečového signálu, ktorý markantne znižuje množstvo parametrov vstupujúcich do procesu klasifikácie. Uvedené postupy boli použité pri návrhu optimalizovaného algoritmu rozpoznávania reči, v rámci ktorého boli aplikované tri rôzne metódy klasifikácie parametrov, a to algoritmus dynamického zarovnania časovej mierky (DTW), skryté Markovove modely (HMM) a hlboké neurónové siete (DNN). Výsledkom práce je návrh šiestich scenárov, pričom ako základ experimentov boli postavené tri vyššie spomenuté metódy klasifikácie a ich vzájomné porovnanie s použitím rovnomernej segmentácie a vlastnej metódy nerovnomernej segmentácie rečového signálu. Záver práce je venovaný vyhodnoteniu a porovnaniu výsledkov jednotlivých experimentov z pohľadu úspešnosti rozpoznávania, výpočtovej náročnosti a využiteľnosti jednotlivých metód v praxi. Kľúčové slová: rozpoznávanie reči, rozpoznávanie izolovaných slov, nízka výpočtová náročnosť, nerovnomerna segmentácia

Anglický abstrakt:

A thesis is devoted to an issue of speech recognition, with emphasis on the recognition of isolated words in Slovak language. It also describes the process of optimizing the speech recognition, under which an optimizations of frequency analysis are presented using sparse Fourier transform and programmable gate arrays (FPGA). In addition, a new algorithm of nonlinear segmentation of speech signal is proposed, which markedly reduces the number of parameters entering classification process. Above procedures were used in design of optimized speech recognition algorithm, under which the three methods of classification of parameters were applied, namely dynamic time warping (DTW), hidden Markov models (HMM) and deep neural networks (DNN). The result of the thesis is a design of 6 scenarios, while the base for these scenarios were classification methods mentioned above and their mutual comparison with using of linear segmentation and new algorithm of nonlinear segmentation of speech signal. The final part of thesis is devoted to evaluation and comparison of the results of individual experiments in terms of recognition accuracy, computational complexity and applicability of individual methods in practice. Key words: speech recognition, recognition of isolated words, low computational complexity, nonlinear segmentation

Späť

Partneri FRI