сайт активно парсят боты хочу их отвадить как сделать правильно, чтобы и ботов отловить и простых юзеров не тронуть?
как вариант, использовать robots.txt Добавлено спустя 4 минуты 37 секунд: Но можно просто отлавливать ботов по имени и не давать им страницу
Gold Dragon на robots.txt они кладут большой .... по какому имени? я напишу бота и что мне мешает маскироваться под яндексбота или гуглобота?
Chushkin мало исходной информации. что за боты? что именно нужно спрятать от них? и т.д. - если это просто школьники натравили доунлоадеры на сайт - элементарно -делаем ссылку - скрыть её с пом. CSS. по переходу по ней - добавляем в бан-лист. обычные юзеры по ней не кликнут так как неувидят, тупые боты радостно сходят. профит!!! а лучче ловить такое с пом. готовых модулей к апачу,нгинксу и т.д. - если одолели именно "гуглоботы" , и сайт не нужно индексировать, то есть куча скриптов детекторов-ботов по имени и доп. параметрам + гуглится список IP гугла , яндекса и т.д. с которых ходят их боты. все это собираем в кучу - и возможно сайту станет легче жить. - если боты умные, умеют js и разгадывают капчи - надо делать индивидуальный механизм защиты. тут в двух словах не расскажешь.
имеются ввиду боты школоло парсеры гугл\яндекс банить не хочу, да это и не сложно- их ип известны скрыть хочу весь сайт, вобще ничего не отдавать потому что грузят сервак насчет скрытой ссылки, добавил элемент <img src='/img.php' width=1 height=1 /> в img.php пишу ип и юзер агент оказалось что большинство не грузит эту картинку- значит боты? если нет юзер агента- тоже похож на бота? банить планирую так-в htaccess order allow,deny allow from all deny from ip deny from ip2 deny from ip3
Ссылку добавь а не картинку - раз. Два сделай в самом начале быстрые редиректы, пропуская на сайт только тех, у кого есть сессия и кто правильно сложил два числа на js.
если пытаться отсеять ботов только по имени которым он представляется - то НЕТ решения, ибо бот может называть себя ка у годно и пытаться выдать себя за кого угодно.
По тому, что нет не сеcсий не js =) Код (PHP): if(!session_id()) { session_start(); } if(!session_id()) { echo'Ошибка! Невозможно создать сессию! Проверьте настройки!'; } else { //code } Бабах)
тоесть если я отключу в браузере куки - то сразу стану для вас ботом? )) тысячи пользователей noScript кстати тоже пойдут лесом. на cUrl-е, бота с поддержкой сессий может написать любой школоло, за полчаса (CURLOPT_COOKIE, CURLOPT_COOKIEFILE ...) с js сложнее, но если очень нужно есть V8, webkit ... люди давно уже имет ботов которые могут js + отгадывают многие капчи. + про Selenium & etc надеюсь слышали?)
подробнее плиз Добавлено спустя 2 минуты 41 секунду: а то что для потребления контента на сайте, не всегда нужна авторизация. может я просто хочу серфить и читать. а вы меня в боты -> теряете посетителей. а сайт для кого сделан? для людей или для ботов?)
ты не понимаешь некоторых вещей. По факту, люди, способные кодить кодят и рубят бабло и ботами для своих ссылкопомоек не занимаются вобще. =) поэтому отсев по отсутствию сессий и js убирает идиотов, которые ломают твою уникальность для СЕО. Добавлено спустя 1 минуту 18 секунд: серфи, читай. =) я тебя не понимаю. ты отключаешь куки? ну ты фрик. одим меньше, да, но трудозатраты на привлечение одного посетителя значительно меньше, чем на создание контента. Так что ты со своим фричеством значит в пролёте. Что делать. Добавлено спустя 1 минуту 53 секунды: http://help.yandex.ru/webmaster/?id=1076102
да что там кодить то? примеров в сети вагон. + продаются готовые на любой вкус. помнится бот-скрипт авторизации и скачки контента с раздела партнерки, клиент написал сам за пару дней) даже нас не стал просить. про YandexBot. ну благо яндекс навел порядок. раньше его боты лезли откуда попало. да и думаю, клоакинг он проверяет все же с других адресов) специфика понимаете ли. если вы прочитаете мои сообщения выше, вы поймете, что я какраз уже упоминал что решения эти есть. но не все они дают 100% результат. и не для всех ботов. кроме яндекса есть еще вагон полезных пауков.
что вы этим хотите сказать? что curl неподдерживает работу с куками? тогда читаем внимательно http://www.php.ru/manual/book.curl.html. потом скролим ниже и смотрим готовые примеры.