За последние 24 часа нас посетили 50839 программистов и 1745 роботов. Сейчас ищут 892 программиста ...

отловить ботов на сайте

Тема в разделе "Прочие вопросы по PHP", создана пользователем vikrorpert, 11 окт 2012.

  1. vikrorpert

    vikrorpert Активный пользователь

    С нами с:
    13 окт 2010
    Сообщения:
    984
    Симпатии:
    10
    сайт активно парсят боты
    хочу их отвадить
    как сделать правильно, чтобы и ботов отловить и простых юзеров не тронуть?
     
  2. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    Сессия + js?
     
  3. Gold Dragon

    Gold Dragon Активный пользователь

    С нами с:
    30 сен 2012
    Сообщения:
    306
    Симпатии:
    2
    Адрес:
    Тамбов
    как вариант, использовать robots.txt

    Добавлено спустя 4 минуты 37 секунд:
    Но можно просто отлавливать ботов по имени и не давать им страницу
     
  4. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    Gold Dragon
    на robots.txt они кладут большой ....
    по какому имени? я напишу бота и что мне мешает маскироваться под яндексбота или гуглобота?
     
  5. Chushkin

    Chushkin Активный пользователь

    С нами с:
    17 дек 2010
    Сообщения:
    1.062
    Симпатии:
    91
    Адрес:
    Мещёра, Центр, Болото N3
    У Вас есть решение этой проблемы? Озвучьте, пожалуйста.
     
  6. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    Chushkin
    мало исходной информации. что за боты? что именно нужно спрятать от них? и т.д.

    - если это просто школьники натравили доунлоадеры на сайт - элементарно -делаем ссылку - скрыть её с пом. CSS. по переходу по ней - добавляем в бан-лист. обычные юзеры по ней не кликнут так как неувидят, тупые боты радостно сходят. профит!!! а лучче ловить такое с пом. готовых модулей к апачу,нгинксу и т.д.
    - если одолели именно "гуглоботы" , и сайт не нужно индексировать, то есть куча скриптов детекторов-ботов по имени и доп. параметрам + гуглится список IP гугла , яндекса и т.д. с которых ходят их боты. все это собираем в кучу - и возможно сайту станет легче жить.
    - если боты умные, умеют js и разгадывают капчи - надо делать индивидуальный механизм защиты. тут в двух словах не расскажешь.
     
  7. vikrorpert

    vikrorpert Активный пользователь

    С нами с:
    13 окт 2010
    Сообщения:
    984
    Симпатии:
    10
    имеются ввиду боты школоло парсеры
    гугл\яндекс банить не хочу, да это и не сложно- их ип известны
    скрыть хочу весь сайт, вобще ничего не отдавать
    потому что грузят сервак


    насчет скрытой ссылки, добавил элемент <img src='/img.php' width=1 height=1 />
    в img.php пишу ип и юзер агент
    оказалось что большинство не грузит эту картинку- значит боты?
    если нет юзер агента- тоже похож на бота?

    банить планирую так-в htaccess
    order allow,deny
    allow from all

    deny from ip
    deny from ip2
    deny from ip3
     
  8. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    Ссылку добавь а не картинку - раз.
    Два сделай в самом начале быстрые редиректы, пропуская на сайт только тех, у кого есть сессия и кто правильно сложил два числа на js.
     
  9. Your

    Your Старожил

    С нами с:
    2 июл 2011
    Сообщения:
    4.074
    Симпатии:
    7
    У них разве есть сессии и js ?)
     
  10. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    =) как раз нету
     
  11. Chushkin

    Chushkin Активный пользователь

    С нами с:
    17 дек 2010
    Сообщения:
    1.062
    Симпатии:
    91
    Адрес:
    Мещёра, Центр, Болото N3
    Вообще-то я просил озвучить решение проблемы, обозначенной Вами (ключевое слово подчёркнуто).
     
  12. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    если пытаться отсеять ботов только по имени которым он представляется - то НЕТ решения, ибо бот может называть себя ка у годно и пытаться выдать себя за кого угодно.
     
  13. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    ващета боты, маскирующиеся под яшу или гугель опознаются на раз =)
     
  14. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    по юзерагенту? )))
     
  15. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
  16. Your

    Your Старожил

    С нами с:
    2 июл 2011
    Сообщения:
    4.074
    Симпатии:
    7
    По тому, что нет не сеcсий не js =)


    Код (PHP):
    1. if(!session_id()) {
    2.     session_start();
    3. }
    4. if(!session_id()) {
    5.     echo'Ошибка! Невозможно создать сессию! Проверьте настройки!';
    6. } else {
    7.     //code
    8. } 

    Бабах)
     
  17. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    редирект нужен.


    но все легальные роботы идентифицируются однозначно. а их "клоны" - нет.
     
  18. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    тоесть если я отключу в браузере куки - то сразу стану для вас ботом? ))
    тысячи пользователей noScript кстати тоже пойдут лесом.

    на cUrl-е, бота с поддержкой сессий может написать любой школоло, за полчаса (CURLOPT_COOKIE, CURLOPT_COOKIEFILE ...)
    с js сложнее, но если очень нужно есть V8, webkit ... люди давно уже имет ботов которые могут js + отгадывают многие капчи.
    + про Selenium & etc надеюсь слышали?)
     
  19. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    а что в этом такого?

    Добавлено спустя 16 секунд:
    одного хоть покажи
     
  20. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    подробнее плиз

    Добавлено спустя 2 минуты 41 секунду:
    а то что для потребления контента на сайте, не всегда нужна авторизация. может я просто хочу серфить и читать. а вы меня в боты -> теряете посетителей. а сайт для кого сделан? для людей или для ботов?)
     
  21. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    ты не понимаешь некоторых вещей. По факту, люди, способные кодить кодят и рубят бабло и ботами для своих ссылкопомоек не занимаются вобще. =)

    поэтому отсев по отсутствию сессий и js убирает идиотов, которые ломают твою уникальность для СЕО.

    Добавлено спустя 1 минуту 18 секунд:
    серфи, читай. =) я тебя не понимаю. ты отключаешь куки? ну ты фрик. одим меньше, да, но трудозатраты на привлечение одного посетителя значительно меньше, чем на создание контента. Так что ты со своим фричеством значит в пролёте. Что делать.

    Добавлено спустя 1 минуту 53 секунды:
    http://help.yandex.ru/webmaster/?id=1076102
     
  22. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    да что там кодить то? примеров в сети вагон. + продаются готовые на любой вкус. помнится бот-скрипт авторизации и скачки контента с раздела партнерки, клиент написал сам за пару дней) даже нас не стал просить.

    про YandexBot. ну благо яндекс навел порядок. раньше его боты лезли откуда попало.
    да и думаю, клоакинг он проверяет все же с других адресов) специфика понимаете ли.

    если вы прочитаете мои сообщения выше, вы поймете, что я какраз уже упоминал что решения эти есть. но не все они дают 100% результат. и не для всех ботов. кроме яндекса есть еще вагон полезных пауков.
     
  23. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    Всех ботов невозможно отсеять. Вопрос стоит в защите контента от школьников.
     
  24. Your

    Your Старожил

    С нами с:
    2 июл 2011
    Сообщения:
    4.074
    Симпатии:
    7
    Ну, ну =)
     
  25. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    что вы этим хотите сказать?
    что curl неподдерживает работу с куками?
    тогда читаем внимательно http://www.php.ru/manual/book.curl.html.
    потом скролим ниже и смотрим готовые примеры.