Извлечение данных из документов (Tesseract, OpenCV, OCR, NLP)

90 000 руб. за проект • наличный расчёт, безналичный расчёт
31 марта 2019, 10:09 • 11 откликов • 117 просмотров
Всем привет!

Необходимо реализовать сервис по извлечению данных из сканов или фотографий документов. Документы могут быть как с заранее известной структурой (Паспорт, СНИЛС, Свидетельство ИНН, Бухгалтерская отчетность, итд), так и неструктурированные (Устав организации, Приказ, Справка, итд).

Пример реализации API:
На входе: документ (изображение, pdf)
На выходе: тип документа + json с данными, извлеченными из документа. Структура json всегда единая для определенного типа документа.

Например, из СНИЛС должны быть выделены такие поля как: Имя, Фамилия, Отчество, Дата рождения, Номер.

Какие особенности необходимо учесть: решение должно быть полностью автономное, не использующее сторонние API и проприетарный софт.
Данные для разметки и обучения модели предоставим.

Примерный алгоритм решения:
1.Распознавание типа документа (Open CV)
2.Обнаружение местоположений соответствующих текстовых полей (в зависимости от типа)
3.Извлечение данных из текстовых полей (Tesseract OCR)
4.Исправление ошибок / стандартизация текста
5.Формирование итогового Json

Также у нас имеются наработки по СНИЛС и Паспортам, можно построить решение на базе них, либо предложить свое с нуля.

Оплата может быть как сдельной, так и почасовой. В дальнейшем планируется продакшен, поддержка и постоянная доработка решения.

Будет плюсом если у Вас имеется опыт решения подобных задач (как по извлечению данных, так и по стандартизации текста).
Если необходимо привлечь с Вашей или с нашей стороны дополнительные силы для разметки данных - это тоже можно сделать.

Пишите, пожалуйста, в отклике Telegram для оперативной связи.