Парсинг товаров интернет магазина Nordstrom

Цена договорная • электронные деньги
29 января 2019, 19:32 • 10 откликов • 69 просмотров
Адрес магазина https://shop.nordstrom.com/ (блокирует IP адреса не из США)

Категории товаров:
  • Women - Clothing (~30 000 позиций)
  • Women - Shoes (~13 000)
  • Men - Clothing (~10 000)
  • Men - Shoes (~3500)
Подробнее о полях написано во вложении.

Как парсить:
  • Предпочтительно использовать Python + Scrapy (можно обсудить другие варианты)
  • Использовать кэш запросов и сохранять его, предпочтительно LevelDB (не кэшировать ответы с ошибками)
  • Сайт может блокировать доступ для IP адресов за пределами США, возможно придется использовать прокси
  • Следовать robots.txt и terms of use, не перенагружать сервер
  • На kaggle есть датасет, возможно он будет полезен https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others#shop_nordstrom_com.csv
Результат представить в виде:
  • json файл с результатами парсинга (~56000 записей), каждый товар - 1 строка файла (пример:
    [
    {"id": 234324, "name": "abc..."},
    {"id": 234325, "name": "abc..."}
    ])
  • исходный код парсера и паука
  • инструкции по запуску (парсер должен заработать и скачать хотя бы несколько товаров без кэша, тестироваться будет на macOS)
  • кэш html страниц (повторный запуск в идеале должен получить все результаты используя только кэш)

В отклике, пожалуйста, укажите:
  • Вкратце ваш опыт работы с парсерами
  • Какой стек технологий планируете использовать
  • Какие трудности вы видите в парсинге shop.nordstrom.com
  • Оценка по сроку и стоимости
  • Возможные способы оплаты (предпочтительно Яндекс.Деньги или PayPal)
  • Условия оплаты и работы (предоплата, этапы)
Файлы