Есть скрипт на Node.js который раньше брал URL из базы, шел по этому URL через прокси, выгружал оттуда html код, разбирал его, и делал с ним свои дальнейшие дела. Сейчас возникла проблема - на той стороне включили блокировку ботов. Теперь система при подозрении на бота гонит через кучу каких-то редирректов, и в итоге должна на страничку, но мы так и не смогли справиться с тем, что бы пройти на ту целевую страничку. конкретный пример: mikou0628.tw.taobao.com/i/asyn... Если пойти через какие-нибудь прокси - легко посылает в редирректы. Нужен скрипт обходящий эти редирректы и получающий в итоге html код страницы. Так же должен иметь возможность использовать прокси. И обработку ошибки при недоступности и проблеме прокси сервера.
Опубликован 08.11.2016 в 17:17 по мск
Автор публикации: Potovskaya Nina [nini3000]
Электронная почта: pompeeva@mail.ru
Проект ориентирован на фрилансеров со специализацией: Веб-программирование
Прошло времени с момента публикации: более 8 лет