За последние 24 часа нас посетили 62185 программистов и 1789 роботов. Сейчас ищут 869 программистов ...

Защита от парсинга taobao

Тема в разделе "Прочие вопросы по PHP", создана пользователем flatron, 4 фев 2015.

  1. flatron

    flatron Новичок

    С нами с:
    4 фев 2015
    Сообщения:
    1
    Симпатии:
    0
    Перестал работать парсинг страниц типа - http://detail.tmall.com/item.htm?spm=a1z10.1-b.w8958560-995 ... 1720868457
    Используется библиотека simple_html_dom.php, в ней содержимое страницы берется функцией file_get_contents. Сервер таобао стал возвращать страницу с неведомой х***й. И стал возвращать 302 если воспользоваться CURL с юзер агентом в заголовке.

    Может есть опыт или идеи как получить нужную страницу страницу?
     
  2. artoodetoo

    artoodetoo Суперстар
    Команда форума Модератор

    С нами с:
    11 июн 2010
    Сообщения:
    11.128
    Симпатии:
    1.248
    Адрес:
    там-сям
    Идей у меня нет. Пора создавать раздел "П*им контент вместе!".
     
  3. VLK

    VLK Старожил

    С нами с:
    15 дек 2013
    Сообщения:
    3.010
    Симпатии:
    58
    Я конечно ни это, не специалист и даже не средних познаний, а ты когда выполняешь file_get_contents, ты отправляешь заголовки? включая конечно юзер агент.

    Я тут недавно парсил тоже один сайт, так там меня тоже заблокировали, потом я добавил юзер агент и все стало нормально. Дело было в C#.
     
  4. denis01

    denis01 Суперстар
    Команда форума Модератор

    С нами с:
    9 дек 2014
    Сообщения:
    12.227
    Симпатии:
    1.714
    Адрес:
    Молдова, г.Кишинёв
    flatron, есть официальные скрипты которым разрешают получать данные с таобао, капай в эту сторону.