Интересный, но небольшой проект. Разрабатывал веб-приложение для конвертации электронных книг PDF в общепризнанный формат EPUB, так удобнее читать. В целом, задача кажется простой, но она многосоставная:
- распознание текста
- образка лишних переносов
- проверка орфографии
- замена дефисов на тире, там где требуется
- присвоение тегов
- определение и передача мета-данных
- поиск и присвоение обложки