Здравствуйте! Знаю что тема избита, но толкового ответа так и не нашел. Надо спарсить адрес http://yandex.ru/yandsearch?text=url:stihi.in.ua/proizved.p ... php&lr=213 Пробовал по разному, много вариаций cURL. То вообще ничего не дает, то вообще на страничку капчи переводит. Смотрел что происходит в момент общения браузера с сервером, так там вообще тысяча редиректов. То туда, то сюда, то еще хз куда, и только в конце яндекс дает выдачу. Мне надо спарсить не для того, что бы делать что то корыстное, мне просто надо узнать проиндексирована ли проверяемая страница или нет и все. Помогите пожалуйста решить эту задачу, а то не получается как-то. Раньше я уже парсил Яндекс, только не основной сайт, а его поддомены, и не на PHP, а на Python, но сейчас случай другой, нужно на PHP. Заранее спасибо за помощь!
В месте жительства у меня написано откуда я. А домен сайта - ну домена разные бывают. Помоги если можешь Добавлено спустя 2 минуты 19 секунд: С чего ты решил что я в Москве?
Это твое школьное сознание. Ты игнорируешь вещи, которые не понимаешь. Поэтому твоя картина мира искажена. Научись задавать вопросы самому себе. Это единственный путь роста. Ответ на твой вопрос у тебя перед глазами. Зри и узришь.
lr 213 это часть моего урла и чем это мне поможет? Добавлено спустя 19 секунд: Это регион для поиска Добавлено спустя 1 минуту 1 секунду: 213 - Москва, это всего лишь регион для поиска, это не поможет мне спарсить выдачу Добавлено спустя 4 минуты 56 секунд: Я школу год как закончил!)
Такой большой, а без вертолета. 10 секунд ушло на https://www.google.ru/webhp?sourcei....r_qf.&bvm=bv.44442042,d.bGE&biw=1366&bih=653
С вертолетом Смотрел я на яндексе тему PHP парсинга выдач яндекса, но походу яндекс запрограммирован по этой теме посылать куда по дальше. У меня почему-то парсинг гогля выходил Надо бы мне сменить дефолтный ПС в браузере на Google. Спасибо за ссылку вроде нашел то что надо! Добавлено спустя 12 минут 41 секунду: Нифига не получается, Яндекс намудрил там защиту с кукисами и т.п. 1-2 раза дает выдачу потом кидает капчу. Прокси не помогает... Выдачу вообще реально спарсить?
Меня как-то не волнует сейчас этот вертолет, трабл в том что Яндекс нереально спарсить. Весь гугл перерыл так и не нашел рабочего скрипта, всегда кидает на капчу! Сохраняю печеньки все равно через 5 запросов дает капчу.
стоПицот IP это не дело. По прежнему продолжаю искать метод парсинга выдачи яндекса... Не могли вот они по человечески сделать как гугл...
наверное потому что это сделано для человеческого поиска. ты когда в браузере вводишь запрос - проблем не испытываешь. так вот прикинь теперь что именно нужно использовать для поиска вхождения твоих страниц в индекс поисковика. нагружать поисковую машину тупыми запросами? вот от этого-то они и защищаются.
Я бы уже давно снифером прогнал поиск браузером и поиск пыхом, и нашел ту хрень, которая все портит. Анализируй, еще раз повторюсь =)
Я кста тоже сразу после появления этого топика(или предыдущего) не помню, задал себе подобный вопрос и так на него не смог ответить (=
ну написание парсера яндекса меньше влияет на здоровье будущих поколений чем потребление пива по подъездам... заботятся о будущем нации
Решения данной проблемы вообще нет походу, хабровцы вообще начали скрипты распознавания капчи писать... Жесть одним словом