OCR: распознавание + парсинг текста (OpenCV, Tesseract, Python)

999 руб. за проект • безналичный расчёт
13 марта 2019, 18:50 • 5 откликов • 84 просмотра
Привет!

Исходные данные:
– есть ряд однотипных документов (договоры, уставы)
– качество сканирования разное

Задача:
1) понимать, что за документ загружен. то есть пользователь может загрузить в один и тот же инпут любой документ, надо понять, что это: договор и устав (скорее всего по ключевым словам, типовым фразам)
2) в зависимости от типа документа достать из него определенную информацию (например, название компании или срок действия договора); есть учтойчивые выражения, которые в документах используются и на основе этого можно находить нужные данные
3) бонус: распознавать данные отсканированного паспорта (если печатный шрифт)

Есть "черновик" проекта, покажу, если пригодится, можно дорабатывать его.