Корректное проксирование 20 сайтов (парсинг, прокси)

20 000 руб. за проект • наличный расчёт, безналичный расчёт, электронные деньги
15 августа 2018, 12:33 • 18 откликов • 227 просмотров
Всем, привет!

Есть бизнес задача - уметь открывать любой сайт в iFrame., фактички, нужно сделать проксирвоание. Например, Amazon, Google, как это умеет делать, например, Cloudflare:



Или, например, похожая задача описана здесь: https://habr.com/company/mailru/blog/210050/

Решать задачу можно разными путями:
  • можно пытаться сделать через php, ajax, HTTP на уровне заголовков. Возможно, что задачу можно решить другим путем, на уровне знания уже существующих
  • можно решать как описано на Хабре: https://habr.com/company/mailru/blog/210050/
  • Есть еще такие механизмы как balancer - балансировщик нагрузки. Может его как-то можно использовать для нашей задачи. Типа reverse proxy https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%80%D... (https://github.com/containous/traefik)
  • Ещё, возможно, можно использовать phantom js. Он позволяет делать parser на уровне JS встроенный в phantom.js но тоже нужно будет как-то снимать результат и перенаправлять в обычный выход

В общем задача сводится, к тому чтобы пропускать через сервер странички и JavaScript страничек. Находить все возможные ссылки и возможные переходы в JS (знать HTML, JavaScript) менять их на свои. Знать заголовки HTTP их тоже находить и менять. То есть уметь писать парсеры.

Что важно:
Есть список примерно из 20 нужных нам сайтов, которые должны открываться во фрейме. Необходимо оттюнить тулзу, которую вы сделаете, чтобы она проксировала эти 20 сайтов.
Если общего решения нет, то нужно будет проработать каждый из 20 нужных нам сайтов.