Парсинг HTML страниц с автозаменой и добавлением путей в JSON файл

Цена договорная
16 мая 2019, 12:17 • 8 откликов • 100 просмотров
Описание проекта
Для крупного проекта было сделано 100 + экранов, которые представлены информационными панелями с картинками, текстами и видео. К экранам была написана система управления (СMS) c помощью которой, заказчик мог редактировать текст. Этот текст дополнительно прописывался в JSON файле, который можно было редактировать в CMS. Сейчас в рамках обновления проекта, заказчик хочет добавить функционал по изменению картинок, но чтобы это сделать нам необходимо прочесать 100 + экранов, и протегировать все картинки.

Задача
Написать скрипт автоматизации процесса добавления картинок в JSON файл. По сути нужно сделать парсинг HTML страниц, вытащить оттуда все картинки, убрать мусор в виде иконок и других константных изображений, записать их в JSON.
Пример того как это должно выглядеть прилагаю ниже.

С исполнителя жду расценки и сроки исполнения.

P.s Всем спасибо за отклики, очень ценные вопросы задаете. Завтра - послезавтра буду связываться.
1) Идентификация "мусора" решение которое нужно конечно разработать,проведя какую-то аналитику, но примерно понимаю что так - Есть картинки которые зашиты в стили, и мы их не берем, а картинок, которые в структуре страницы можно фильтровать по размеру. Это по большей части фотографии и их размер начинается от 300 пикселей.
2) По поводу передачи проектов. Мы выдадим какую-то часть. Выдавать все смысла не вижу, потому что все экраны делались по шаблону, но вес их начинается 300 метров
Файлы