Требуется высокопроизводительный парсинг данных

Цена договорная • безналичный расчёт, электронные деньги
28 апреля 2017, 21:07 • 7 откликов • 74 просмотра
нужна обработка данных.
разбор результатов парсинга яндекс. сейчас собирают данные. сохраняется сырой html-код
нужен скрипт, который будет
1. получаем по апи страницу (примеры страниц можно увидеть по любому запросу)
2. разбираем её
3. отдаем по апи структурированную инфу

очень важна скорость и быстродействие. миллионы в сутки - крайне желательный порог.
то есть надо написание и доработка
разбор включает:
1. рекламные блоки (яндекс-директ)
2. органика (позиции в топ10)
3. блок похожих фраз

типовой набор: тайл, url, позиция по счету
формат данных входных, выходных - обсуждаем для максимальной производительности

сами пс парсить не надо. только результаты (html)

Готов ответить на все уточняющие вопросы

предпочтение скриптовым язык, типо perl, чтобы вносить правки, когда меняется верстка.
но это не важный момент, важно уметь обрабатывать быстро все.
это первая задача. при успешной работе - продолжим работы.
опыт парсинга ПС будет огромным плюсом.
БД уже большая, потому чем раньше приступим - тем лучше
сразу пишите ваш бюджет на работу (первичная + доработки возможные, поддержка)