Created
January 1, 2024 16:21
-
-
Save DELAGREEN/b89175baac4bad69f1ddd6036fb22f15 to your computer and use it in GitHub Desktop.
tesseract_teacheng
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
| Создание файла с разметкой | |
| D:\REP\projects\drawing_text_recognition\tesseract\tesseract.exe D:\REP\projects\drawing_text_recognition\teatch_img\1.png testfile --psm 6 -l rus+eng lstmbox | |
| после этого размертку можно поправить при необходимости | |
| Создание тренировочной БД | |
| D:\REP\projects\drawing_text_recognition\tesseract\tesseract.exe D:\REP\projects\drawing_text_recognition\teatch_img\1.png testfile.box --psm 6 -l rus+eng lstm.train |
Author
Thanks
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
1.Делаем разметку из языкового пакете "RUS"(можно сделать из обученной своей модели указав наименование своей модели)
-l - активируем нужный нам языковой пакет, с указанием его имени (Например RUS, ENG или свое име Например NUM)
tesseract\tesseract.exe -l "rus" teach_img\num.font.exp0.tif teach_img\num.font.exp0 batch.nochop makebox
Корректируем данные разметки по необходимости
2.Создать сырую базу перед тренировкой и слиянием
tesseract\combine_tessdata.exe -e "rus.traineddata" rus_f.lstm
3.tesseract\unicharset_extractor.exe --output_unicharset
my.unicharset --norm_mode 2 num.font.exp0.box
tesseract\tesseract.exe test.png output_2 -l NUM