Распознавание текста/цифр в табличных документах (Python, Tesseract)

1 000 руб. за проект • безналичный расчёт
04 декабря 2018, 12:55 • 4 отклика • 53 просмотра
Привет!

У нас есть решение, которое распознает цифры в табличных документах.
Работает так: мы даем скан/pdf, алгоритм находит таблицу, размечает ее на ячейки, потом содержимое каждой ячейки передает в Tesseract.
Оно немного научено на тестовых документах, распознает нормально.

Есть задачи по поддержке и развитию.
Нужно а) поправить ряд багов б) добавить новый тип табличных документов.

Расскажите про свой опыт – покажу код, обсудим.