Парсинг магазина (сбор, обработка, хранение, отслеживание, вывод)

190 000 руб. за проект
07 октября 2019, 22:19 • 38 откликов • 193 просмотра
Всем доброго времени суток! Для единоразового долгосрочного проекта требуется опытный разработчик (Middle/Senior).

Проект связан с промышленным парсингом большого магазина с регулярным отслеживанием динамик данных в нем (изменения в содержимом, ценах на товар, отзывах и прочие) с выводом их во фронтенд. Вам предстоит написание парсера (сначала более простого, но будем совершенствовать) для большого количества данных, сохранение их, операции с данными (фильтрации, сортировки и т.п.), отслеживание изменений и динамики (заготовки под большие данные), их анализ. Возможно оставить вам и вывод во фронтенд (если вы фулстек, иначе наймем отдельно фронтендера).

Наши требования:
- ЯП предпочтительно Python. Если владеете другим и считаете что он больше подойдет для решения задачи, то готовы послушать Ваше мнение;
- Опыт в парсинге;
- Опыт работы с большими объемами данных: их хранение, обработка и анализ;
- Базы данных выше базового уровня, предпочтительно Postgres;
- Опыт при построении приложений на основе микросервисных архитектур;
- Опыт (или хорошее понимание логики) написания масштабируемых систем.


Будет плюсом:
- Большим преимуществом будет опыт подобного парсинга больших магазинов;
- Опыт визуализации данных на картах (как на Avito недвижимость, ЦИАНе, Airbnb и подобных сервисах);
- Большим плюсом будет опыт в DevOps, деплое;
- Опыт в CI/CD;
- Опыт с большими данными и их анализом, в том числе ML;
- Владение каким-нибудь популярным JavaScript фреймворком (jQuery/Vue/React/Angular и т.д.).


Пример одной из задач проекта:

Необходимо
спарсить (а затем хотя бы раз в несколько часов обновлять их базу
новыми) все отзывы пользователей (их не менее нескольких сотен тысяч),
распределённых по страницам отзывов отдельных товаров (коих более 4к).
Отзыв содержит: никнейм юзера, дату публикации отзыва, приобретенный
товар (название товара ссылкой на него), город (в котором приобретён
товар), рейтинг (оценка товара) и текст отзыва.

На основе спарсенных отзывов, собрать следующие данные с возможностью фильтрации/сортировки:
-
Все отзывы конкретного пользователя, с выборками-фильтрациями по
диапазону даты-времени, приобретенным товарам, городам, рейтингам,
магазинам;
- Аналогично все отзывы конкретного товара с анализом и подсчётом данных;
-
Информация о каждом приобретенном товаре и категориях товаров (сколько
раз приобрели этот товар) с фильтрацией по дате-времени, городу;
- Информация о каждом городе, в котором приобретались какие-то товары (аналогично примеру выше);
- Возможно, визуализация некоторых данных выше на карте (как численные описания, метки и т.п. поверх карты);

Если вы хотите попробовать себя, пишите по контактам или оставьте ваш Telegram в отклике. Пожалуйста, в отклике сразу напишите подробнее о вас:
- Каким(-и) языком программирования владеете, какой язык использовали бы для задачи?
- Ваш опыт в разработке в целом, над какими подобными проектами приходилось трудиться?
- Опыт парсинга, хранения и обработки большого количества данных, какими базами данных владеете?
- Есть ли опыт в DevOps, CI/CD, Docker и т.п.?
- Владеете ли каким-нибудь JavaScript фреймворком (jQuery/Vue/React/Angular и т.д.)?
- На основе этого небольшого описания, как бы вы организовали архитектуру приложения?
- Прочие ваши навыки и умения? :)