Парсинг магазина (сбор данных, хранение, обработка, отслеживание)

190 000 руб. за проект
01 сентября 2019, 22:06 • 32 отклика • 219 просмотров
Всем доброго времени суток!

Для единоразового долгосрочного проекта требуется весьма опытный разработчик (Middle/Senior). Проект связан с промышленным парсингом магазина и регулярным отслеживанием данных в нем (изменения в цене на товар и прочая динамика) с выводом их во фронтенд. Вам предстоит написание парсера (сначала более простого, но
будем совершенствовать) для большого количества данных, сохранение их,
операции с данными (фильтрации, сортировки и т.п.), отслеживание
изменений и динамики. Оплату обсудим после оценки нашего ТЗ. Вам
предстоит плотно засесть за проект, поэтому желательно уделять ему не
менее 20 часов в неделю. Готовы рассматривать как full-time так и
part-time.

Наши требования:

- ЯП предпочтительно Python. Если владеете другим и считаете что он больше
подойдет для решения задачи, то готовы послушать мнение. Фрейморк Django
последних версий.
- Очевидно, опыт в парсинге;
- Опыт работы с большими объемами данных;
- Базы данных, предпочтительно Postgres;
- Опыт или понимание при разработке масштабируемых систем.

Будет плюсом:

- Большим преимуществом будет опыт подобного промышленного парсинга;
- Опыт визуализации данных на картах (как на Avito недвижимость, Airbnb и подобных сервисах);
- Опыт в DevOps, деплое.


Если вы хотите попробовать себя,
Пишите по контактам
Или в отклики на этой странице.

Сразу напишите ваш опыт в разработке, в парсинге, работе с большим объемом
данных, понятен ли вам пример ниже (ваши вопросы, если не понятен), как
бы вы всё обустроили.

Чтобы понимать масштаб, оставлю пример одной из задач, которую, вероятно будете выполнять первой.

Пример одной из задач парсера:

Необходимо спарсить все отзывы пользователей, их около миллиона.

Один отзыв пользователя содержит следующую информацию: `никнейм юзера, дата
публикации отзыва, приобретенный товар, (название товара это ссылка на
него), место, город, в котором он приобрел этот товар, рейтинг отзыва
(оценка товара) и его содержимое (текст отзыва).`

На основе спарсенных отзывов, собрать следующие данные с возможностью фильтрации/сортировки:

- Все отзывы конкретного пользователя, с фильтрацией по приобретенному
товару, городу, рейтингу. Если пользователь `user1` оставил 10 отзывов
над разными товарами с разными городами, нам нужно всё собрать с
возможностью фильтрации;

- Информация о каждом приобретенном товаре/категории товара (сколько раз приобрели этот товар) с фильтрацией по городу. Например, товар из категории Яблоки был куплен 30 000 раз в 15 разных городах. Нужно собрать всё вместе с возможностью фильтрации -
выбрали категорию Яблоки и смотрим, сколько раз он был приобретен за
определенный промежуток времени. в определенном городе;

- Информация о каждом городе, в котором приобретались какие-то товары.
Например, в городе Москва за определенный промежуток времени было
куплено 50 000 товаов категории Яблоки;

- Отслеживание новых отзывов и помещение их в базу, для создания статистики по каждому товару, (сегодня товар Яблоки купили 100 раз, в городе Санкт-Петербург),
составление определенной статистики (какая доля товаров из категории
Яблоки была приобретена сегодня в городе Москва);

- Возможно, визуализация некоторых из данных выше на карте (как у Авито надвижимость, airbnb и т.д.).