Конвертация большого количества PDF файлов в HTML через ява-скрипт

50 000 руб. за проект • безналичный расчёт, электронные деньги
28 февраля 2017, 10:52 • 6 откликов • 55 просмотров
Реализуем некоммерческий проект - https://github.com/sparinov/CitEcCyr/wiki

Одна из его задач требует ежедневой конвертации множества полных текстов научных публикаций, поступающих к нам в виде PDF файлов (может быть сотни штук в день), к виду HTML5 с помощью ява-скрипта PDF.js (https://github.com/mozilla/pdf.js).

Вот пример веб страницы, на которой PDF.js конвертирует PDF файл (указан в file=) в HTML5 -

https://socionet.ru/pdfviewer.xml?h=repec:rus:mqijxk:43&file=http://dspacecris.eurocris.org/bitstream/11366/526/1/CRIS2016_paper_40_Parinov.pdf

Т.е. нам нужна процедура на сервере, которая будет имитировать обработку PDF ява-скриптом PDF.js и сохранять в файл получившуюся HTML версию документа. Этот HTML файл нам нужен для его последующего парсинга другими модулями нашей системы.

Использование тут PDF.js нам нужно для того, чтобы результаты программного парсинга неких данных (их текстовые координаты) в HTML версиях научных статей совпадали с другими данными, создаваемыми пользователями в браузере также с помощью PDF.js.

Для решения этой задачи мы используем сервер под UnixFreeBSD (возможен переход на Linux Debian, если это упростит реализацию).

Рассматриваем решение на базе Selenium+webdriver+xvfb (https://github.com/cgoldberg/xvfbwrapper) на Pyton, где xvfb нужен для headless запуска браузера на сервере.

Знаем про https://github.com/adityab/pdf2html5, но нам нужно headless решение.

Увидел, что есть другой способ headless запуска браузера через задание виртуального дисплея - https://toster.ru/q/387256

Ищем специалиста на разовую работу чтобы:

1) найти наиболее подходящее (в первую очередь скорость обработки) решение указанной выше задачи;

2) сконфигурировать на нашем сервере (доступ по SSH) процедуру конвертация полных текстов научных публикаций, поступающих к нам в виде PDF файлов, к виду HTML5 с помощью заданного ява-скрипта PDF.js. С возможностью сохранять получившийся HTML код этой страницы в файл для его последующего парсинга. Селениум у нас уже установлен.;

3) успешно прогнать эту процедуру, как минимум, на 2-3 тестовых примерах.

Стоимость работ подлежит уточнению и обсуждению.

Если нужно, готов дать больше деталей по задаче. Мои контакты: sparinov@gmail.com, тел. 9169149051

Всего наилучшего,
Сергей