Утилита для извлечения текста из doc, xls, pdf по шаблону

15 000 руб. за проект • наличный расчёт, безналичный расчёт, электронные деньги
29 мая 2015, 11:45 • 2 отклика • 41 просмотр
Нужно написать консольную утилиту на Python/C/C++ под Linux, которая получает на вход файл с текстом, ищёт внутри данные по шаблону и выдаёт в консоль.

Программа получает на вход файл с финансовой документацией и вытаскивает оттуда текст по шаблону. Файлы могут быть в разных офисных форматах: doc, xls, pdf. Также необходимая функциональность - работа с графическими файлами (сканами). Они переводятся в текст при помощи одного из открытых OCR-движков и затем из них также извлекаются данные по шаблону. За качество работы движков распознавания вы не отвечаете.

Требования к реализации:

  • GUI не нужен

  • программа должна работать под Linux

  • предпочтительные языки - Python/C/C++. Возможны другие по согласованию.

  • Git

Проект должен быть завершён к 15 июня.

Чтобы приступить к работе и получить полное ТЗ, надо выполнить тестовое задание или показать релевантное портфолио. Выполнение тестового задания должно занять не более одного рабочего дня. После успешного выполнения тестовое задание оплачивается - 2000 рублей. Описание тестового задания: https://docs.google.com/document/d/10O3EDumXoXfh4P...

! По оплате тестового задания !
Я люблю программистов (особенно тех, которые быстро решают задачи :-) ), но оплачивать слишком много выполненных тестов для меня бессмысленно, поэтому:

  1. Я оплачу только первые три выполненных задания.

  2. Выполненный тест должен удовлетворять минимальным требованиям по коду - конечно, тест можно решить и на bash, но смысл его - быть основой для выполнения полного задания.

По любым вопросам (в том числе, сколько сейчас людей делают тест) не стесняйтесь обращаться.
По состоянию на 10:36 30 мая мне прислали одно тестовое задание, которое я пока не проверил.