Skip to content

Instantly share code, notes, and snippets.

@DELAGREEN
Created January 1, 2024 16:21
Show Gist options
  • Select an option

  • Save DELAGREEN/b89175baac4bad69f1ddd6036fb22f15 to your computer and use it in GitHub Desktop.

Select an option

Save DELAGREEN/b89175baac4bad69f1ddd6036fb22f15 to your computer and use it in GitHub Desktop.
tesseract_teacheng
Создание файла с разметкой
D:\REP\projects\drawing_text_recognition\tesseract\tesseract.exe D:\REP\projects\drawing_text_recognition\teatch_img\1.png testfile --psm 6 -l rus+eng lstmbox
после этого размертку можно поправить при необходимости
Создание тренировочной БД
D:\REP\projects\drawing_text_recognition\tesseract\tesseract.exe D:\REP\projects\drawing_text_recognition\teatch_img\1.png testfile.box --psm 6 -l rus+eng lstm.train
@DELAGREEN
Copy link
Author

DELAGREEN commented Jan 2, 2024

1.Делаем разметку из языкового пакете "RUS"(можно сделать из обученной своей модели указав наименование своей модели)
-l - активируем нужный нам языковой пакет, с указанием его имени (Например RUS, ENG или свое име Например NUM)

  • первый параметр путь к картинке
  • второй путь к куда сохранить файл разметки .box
  • третий batch.nochop убирает переносы строки и пробелы
  • makebox передает параметр что будем делать (сборка .box файла)
    tesseract\tesseract.exe -l "rus" teach_img\num.font.exp0.tif teach_img\num.font.exp0 batch.nochop makebox

Корректируем данные разметки по необходимости

2.Создать сырую базу перед тренировкой и слиянием
tesseract\combine_tessdata.exe -e "rus.traineddata" rus_f.lstm

3.tesseract\unicharset_extractor.exe --output_unicharset
my.unicharset --norm_mode 2 num.font.exp0.box

  1. Выполняем запуск распознавания текста через терминал
  • первый параметр путь к картинке
  • второй параметр куда сохранить .txt с результатом (наименование параметра служит наименованием для .txt файла)
  • третий -l NUM активируем флаг для скрипта после которого наименование языкового пакета с помощью которого будем распознавать текст.
    tesseract\tesseract.exe test.png output_2 -l NUM

@krakozyabra5
Copy link

Thanks

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment