Парсинг, py3, gevent, requests: 6-8 сайтов до 2017-03-29

17 000 руб. за проект • наличный расчёт, безналичный расчёт, электронные деньги
19 марта 2017, 09:27 • 2 отклика • 66 просмотров
Нужна помощь в разработке парсеров на 6-8 сайтов до 2017-03-29.

Задача: будет предоставлен API в соответствии с которым нужно разработать по одному Python модулю на один сайт. Так же будет предоставлена рыба фреймворка в виде пакета Python, а разрабатываемые модули буду частью этого пакета. Сам “фреймворк” также может подвергаться изменениям без нарушения совместимости.

Так же нужно учитывать, что разработка будет вестись одновременно несколькими разработчиками с объединением кода в будущем, поэтому сильное отклонение от заданных начальных ограничений не приветствуется. Выбор сторонних зависимостей должен заранее согласовываться. Код будет приниматься в виде sdist.

Собирать нужно следующие данные о заданных в виде прямых ссылок товаров с интернет магазинов: цена, стоимость доставки, наличие на складе, все отзывы (тексты, рейтинги, pros/cons и т.д.). Сайты будут европейские и американские.

Модули будут разрабатываться в рамках пакета и исполняться как сервер. Взаимодействие потребителя с этим сервером будет происходить через execnet. Никаких планировщиков и никакого кеша не предусмотрено: запрос-ответ. В случае с ревью запрос может быть на полный сбор или только для последних (ревью могут исчисляться тысячами).

Разработка ведётся под Python 3 (3.4/3.5).
Другие значимые зависимости: gevent, requests и lxml.
Какие-либо сторонние фреймворки не используются.

Выход в интернеты будет осуществляться через предоставляемый список прокси + спец. заголовки для этих прокси (внешние IP). Ротация точек выхода, задержки между запросами и работа с кукисами на вас, активные блокировки встречаются в каждом пятом случае.

По итогам этого короткого марафона может быть предложено постоянное сотрудничество, нужно будет привести в порядок эти и ещё около 30 разношёрстных парсеров (одни на Twisted, другие на Mechanize) и поддерживать их.

Детали (рыба пакета, API для реализации и пр.) после начала работы.

Цена вопроса: 50$ за сайт.