Tesseract - podpora OCR pre Slovenský jazyk
Garant: Ing. Adam Jaroš, PhD.
Učitelia: Ing. Adam Jaroš, PhD.
Počet študentov: 1 - 1
Tesseract je knižnica s otvoreným kódom umožňujúca optické rozpoznávanie znakov (OCR) a textu v rôznych jazykoch. Kvalita podpory pre slovenský jazyk však oproti iným ako angliština, nemčina značne kvalitatívne zaostáva. Projekt si kladie za cieľ zvýšenie úspešnosti rozpoznávania slovenčiny v knižnici Tesseract.
1. Zoznámenie sa s architektúrou a používaním knižnice Tesseract.
2. Formáty dátových súborov knižnice Tesseract.
3. Príprava údajov a trénovanie knižnice Tesseract pre slovenský jazyk.
4. Zdokumentovanie výsledkov. Porovnanie kvality rozpoznávania so súčasným stavom.
5. Publikovanie výsledkov pod otvorenou licenciou.
Mám záujem o projekt
0
študentov
0
učiteľov
0
partnerov