Puppeteer - загрузчик изображений + API

20 000 руб. за проект
08 апреля 2023, 11:52 • 1 отклик • 71 просмотр
Задумка: Скачивать картинки из фрейма Recaptcha с использованием 100-150 браузерных потоков Puppeteer.
1. На сайте в фрейме Recaptcha https://www.google.com/recaptcha/api2/demo берем задания и распределяем картинки из задания с классификацией по папкам. В наименовании папки записываем задание что нужно выбрать в задании. Например: Папка 1) Train, Папка 2) Bus и так далее.
2. Выявляем появившиеся новые задания в фрейме Recaptcha и автоматически создаем новую папку с названием каждого (нового) задания.
3. Подключить 1 штуку прокси для выполнения запросив к фрейму Recaptcha с подключенного IP ( вам предоставлю 1 штуку прокси).
4. Добавить юзер агенты (для имитации разных устройств).

Ключевые моменты:
Загрузчик изображений:
- паралельная работа
- поддержка прокси
- смена user-agent'а
- запись информации о капче в бд (цель поиска, размер сетки, хэши изображений, пути к файлам)
- нарезка изображений
- пропуск дубликатов
- страктура каталога (сетка/цель/хэш/n.jpg)

API:
- запрос для получения списка изображений
- фильтрация по цели поиска/сетки/хэшу
- поддержка пагинации
- запрос для получения статистики по изображением (кол-во целей и изображений, размер бд)
- описание api в swagger

Стэк:
nodejs, nestjs, typeorm, postgresql, puppeteer, bull, redis, swagger

Телеграм @freedom_citizens
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Фрилансер
 
~ 1 год назад