Späť


Tesseract - podpora OCR pre Slovenský jazyk

Garant: Ing. Adam Jaroš, PhD.
Učitelia: Ing. Adam Jaroš, PhD.
Počet študentov: 1 - 1

Tesseract je knižnica s otvoreným kódom umožňujúca optické rozpoznávanie znakov (OCR) a textu v rôznych jazykoch. Kvalita podpory pre slovenský jazyk však oproti iným ako angliština, nemčina značne kvalitatívne zaostáva. Projekt si kladie za cieľ zvýšenie úspešnosti rozpoznávania slovenčiny v knižnici Tesseract.

1. Zoznámenie sa s architektúrou a používaním knižnice Tesseract.

2. Formáty dátových súborov knižnice Tesseract.

3. Príprava údajov a trénovanie knižnice Tesseract pre slovenský jazyk.

4. Zdokumentovanie výsledkov. Porovnanie kvality rozpoznávania so súčasným stavom.

5. Publikovanie výsledkov pod otvorenou licenciou.


Mám záujem o projekt
0
študentov
0
učiteľov
0
partnerov

Partneri FRI

Platinový partner

Hlavný partner

Partneri

Projekty a centrá FRI

Projekty

Inteligentné operačné a spracovateľské systémy pre UAV
Transdata
IT akadémia
ACeSYRI
SmartSoc
TECH4EDU4
Centre in Advanced Biomedical and Medical Informatics

Centrá

Cisco Network Academy
PEARSON VUE - Aturizované centrum