За последние 24 часа нас посетили 23310 программистов и 1510 роботов. Сейчас ищут 797 программистов ...

Парсинг выдачи поисковика

Тема в разделе "PHP для новичков", создана пользователем Priler, 30 мар 2013.

  1. Priler

    Priler Активный пользователь

    С нами с:
    2 мар 2013
    Сообщения:
    171
    Симпатии:
    0
    Адрес:
    New-York
    Здравствуйте!
    Знаю что тема избита, но толкового ответа так и не нашел.
    Надо спарсить адрес http://yandex.ru/yandsearch?text=url:stihi.in.ua/proizved.p ... php&lr=213

    Пробовал по разному, много вариаций cURL.
    То вообще ничего не дает, то вообще на страничку капчи переводит.
    Смотрел что происходит в момент общения браузера с сервером, так там вообще тысяча редиректов.
    То туда, то сюда, то еще хз куда, и только в конце яндекс дает выдачу.
    Мне надо спарсить не для того, что бы делать что то корыстное, мне просто надо узнать проиндексирована ли проверяемая страница или нет и все.
    Помогите пожалуйста решить эту задачу, а то не получается как-то.
    Раньше я уже парсил Яндекс, только не основной сайт, а его поддомены, и не на PHP, а на Python, но сейчас случай другой, нужно на PHP.

    Заранее спасибо за помощь!
     
  2. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    так ты в москве обитаешься?
    а че так повёрнут на украинских сайтах?
     
  3. Priler

    Priler Активный пользователь

    С нами с:
    2 мар 2013
    Сообщения:
    171
    Симпатии:
    0
    Адрес:
    New-York
    В месте жительства у меня написано откуда я.
    А домен сайта - ну домена разные бывают.
    Помоги если можешь

    Добавлено спустя 2 минуты 19 секунд:
    С чего ты решил что я в Москве?
     
  4. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
  5. Priler

    Priler Активный пользователь

    С нами с:
    2 мар 2013
    Сообщения:
    171
    Симпатии:
    0
    Адрес:
    New-York
    Что это?
     
  6. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    Это твое школьное сознание. Ты игнорируешь вещи, которые не понимаешь. Поэтому твоя картина мира искажена. Научись задавать вопросы самому себе. Это единственный путь роста.

    Ответ на твой вопрос у тебя перед глазами. Зри и узришь.
     
  7. Priler

    Priler Активный пользователь

    С нами с:
    2 мар 2013
    Сообщения:
    171
    Симпатии:
    0
    Адрес:
    New-York
    lr 213 это часть моего урла и чем это мне поможет?

    Добавлено спустя 19 секунд:
    Это регион для поиска

    Добавлено спустя 1 минуту 1 секунду:
    213 - Москва, это всего лишь регион для поиска, это не поможет мне спарсить выдачу

    Добавлено спустя 4 минуты 56 секунд:
    Я школу год как закончил!)
     
  8. r3l0c

    r3l0c Активный пользователь

    С нами с:
    10 янв 2013
    Сообщения:
    453
    Симпатии:
    4
  9. Priler

    Priler Активный пользователь

    С нами с:
    2 мар 2013
    Сообщения:
    171
    Симпатии:
    0
    Адрес:
    New-York
    С вертолетом :D
    Смотрел я на яндексе тему PHP парсинга выдач яндекса, но походу яндекс запрограммирован по этой теме посылать куда по дальше.
    У меня почему-то парсинг гогля выходил :D
    Надо бы мне сменить дефолтный ПС в браузере на Google.
    Спасибо за ссылку вроде нашел то что надо!

    Добавлено спустя 12 минут 41 секунду:
    Нифига не получается, Яндекс намудрил там защиту с кукисами и т.п.
    1-2 раза дает выдачу потом кидает капчу.
    Прокси не помогает...
    Выдачу вообще реально спарсить?
     
  10. r3l0c

    r3l0c Активный пользователь

    С нами с:
    10 янв 2013
    Сообщения:
    453
    Симпатии:
    4
    КЭП вроде =)

    Добавлено спустя 16 секунд:
    И все-таки без вертолета
     
  11. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    без вертолёта.
     
  12. Priler

    Priler Активный пользователь

    С нами с:
    2 мар 2013
    Сообщения:
    171
    Симпатии:
    0
    Адрес:
    New-York
    Меня как-то не волнует сейчас этот вертолет, трабл в том что Яндекс нереально спарсить. Весь гугл перерыл так и не нашел рабочего скрипта, всегда кидает на капчу! Сохраняю печеньки все равно через 5 запросов дает капчу.
     
  13. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    дык а ты не фигарь его с одного IP. купи подсеть...
     
  14. r3l0c

    r3l0c Активный пользователь

    С нами с:
    10 янв 2013
    Сообщения:
    453
    Симпатии:
    4
    анализируй
     
  15. Priler

    Priler Активный пользователь

    С нами с:
    2 мар 2013
    Сообщения:
    171
    Симпатии:
    0
    Адрес:
    New-York
    стоПицот IP это не дело.
    По прежнему продолжаю искать метод парсинга выдачи яндекса...
    Не могли вот они по человечески сделать как гугл...
     
  16. Ganzal

    Ganzal Суперстар
    Команда форума Модератор

    С нами с:
    15 мар 2007
    Сообщения:
    9.893
    Симпатии:
    965
    наверное потому что это сделано для человеческого поиска. ты когда в браузере вводишь запрос - проблем не испытываешь. так вот прикинь теперь что именно нужно использовать для поиска вхождения твоих страниц в индекс поисковика. нагружать поисковую машину тупыми запросами? вот от этого-то они и защищаются.
     
  17. r3l0c

    r3l0c Активный пользователь

    С нами с:
    10 янв 2013
    Сообщения:
    453
    Симпатии:
    4
    Я бы уже давно снифером прогнал поиск браузером и поиск пыхом, и нашел ту хрень, которая все портит. Анализируй, еще раз повторюсь =)
     
  18. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    школоло пишет парсеры яндекса чаще чем пьет пиво... я вот только не знаю зачем это надо.
     
  19. r3l0c

    r3l0c Активный пользователь

    С нами с:
    10 янв 2013
    Сообщения:
    453
    Симпатии:
    4
    Я кста тоже сразу после появления этого топика(или предыдущего) не помню, задал себе подобный вопрос и так на него не смог ответить (=
     
  20. Ganzal

    Ganzal Суперстар
    Команда форума Модератор

    С нами с:
    15 мар 2007
    Сообщения:
    9.893
    Симпатии:
    965
    ну написание парсера яндекса меньше влияет на здоровье будущих поколений чем потребление пива по подъездам... заботятся о будущем нации
     
  21. Колбася

    Колбася Активный пользователь

    С нами с:
    12 дек 2011
    Сообщения:
    722
    Симпатии:
    0
    сервис делают - узнать позиции сайта в поисковиках. нужная штука для seoбыдла
     
  22. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    у сеопульта есть парсер. чего б не использовать его?
     
  23. Колбася

    Колбася Активный пользователь

    С нами с:
    12 дек 2011
    Сообщения:
    722
    Симпатии:
    0
    они то не знают как и я шо так можно :)
     
  24. Priler

    Priler Активный пользователь

    С нами с:
    2 мар 2013
    Сообщения:
    171
    Симпатии:
    0
    Адрес:
    New-York
    Решения данной проблемы вообще нет походу, хабровцы вообще начали скрипты распознавания капчи писать... Жесть одним словом
     
  25. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    я тебе решение дал. =) ващета.

    еще можно заюзать ботнет.