Развитие и поддержка семейства ботов-парсеров

Цена договорная • наличный расчёт, безналичный расчёт, электронные деньги
16 января 2016, 12:15 • 4 отклика • 63 просмотра
Мы эксплуатируем несколько групп ботов. Каждая группа ботов унифицирована под определенный класс сайтов. Боты запускаются несколько раз в день, каждый отправляет тысячи или десятки тысяч запросов.

Нужен человек, который сможет развивать и поддерживать эту инфраструктуру.

Ключевые навыки:
— python 2.7
— библиотеки Grab и Scrapy (нужно в общем представлять их архитектурное устройство)
— html, ajax (прошлое или опыт верстальщика — бонус)
— xpath (умение писать простые и стабильные запросы)
— mysql (индексы, типы данных)
— знание типичных проблем ботов: работа с сетью, нюансы и сложности работы через прокси
— желательно или знать и быть готовым узнать про асинхронную работу с mysql (через twisted в первую очередь)

Нужно будет:
— обходить капчи
— обходить разные технические фокусы владельцев сайтов, нацеленные на борьбу с ботами
— регистрировать аккаунты (с смс и подтверждениями на email)
— работать через десятки или сотни аккаунтов в рамках одной сессии сбора данных
— быстро восстанавливать работу ботов при изменениях целевых сайтов

Кандидату предлагается прежде всего ответить на следующие вопросы:
— можно ли используя Scrapy выполнять запросы последовательно, а не параллельно
— какие сложности с https протоколом могут возникнуть при использовании прокси