Парсер научных статей

Цена договорная
28 мая 2019, 13:23 • 10 откликов • 89 просмотров
Ищем на долгосрочное сотрудничество разработчика с опытом обработки текстов. Примерная задача описана ниже, детали совместно обсуждаются. Больше всего приветствуется разработка на C#, но другие варианты тоже рассматриваем.

Необходимо разработать парсер текстов статей.
Примеры:
https://www.ncbi.nlm.nih.gov/books/NBK8435/
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC18557...
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC27535...
Тексты могут быть как в примерах, или же они могут быть полученны путем извлечения
текстового слоя PDF
Необходимо выделять:
● Заголовки и пункты
● Текст, связанный с заголовками
● Строить иерархическую структуру документа (примерно как автоматическое
построение оглавления)
● Автоматически выделять ключевые слова и словосочетания
● Разбирать список литературы (выделять авторов, названия статей, географию, дату)
● Осуществлять поиск в документе имен авторов статьи
● Осуществлять поиск цитат в тексте документа (по формальным признакам ) и
соотнесение их со ссылкой