Добрый день, существуют ли сегодня какие-нибудь действенные средства защиты на уровне сервера от парсинга данных? суть проблемы в том, что за последнюю неделю нашли четыре точных алиса (дубля) своего ресурса. причем обновления происходят на них одновоременно с нашим (только выложили статью - у них тут же, но ладно статьи бы просто копировали сайт полность под корень включая дизайн). Если существют методы защиты от таких недоумком, можно обговорить стоимость такой работы, если нет то что можно сделать в этом случае, кроме того чтобы просигнализировать их хостеру и поисковикам. Достойное вознаграждение за 100% защиту от такого вида парсинга.
dscoma Ваш ресурс очень часто обновляется?много веток?В смысле того,что не думаете ли вы , что даже если такую защиту реализовать, то будут тупо копировать? Зы: а можно на ресурс глянуть?
Padaboo 1. ресурс обновляется очень часто, неско десятков уникальных статей в день. 2. веток очень много 3. адрес ресурса могу сказать только тому кто возьмется за реализацию такой защиты Копипаст это одно, но тут полность не только статьи, но дизайн и все что-есть на сайте до мелочей спарсено! понятно что php язык великий, но естьли методы против таких негодяев, т.е. к примеру чтобы запросы к ресурсу могли делать только доверенные домены или что-то подобное..?
dscoma Попробуйте написать в фриланс, сомневаюсь что кто то просто так возьмётся. Зы:самому интересно как от этого защитится поэтому и хотел посмотреть на ваш ресурс и на сайт парсеров) Может дадите ссылки в пм, интересно)Насчет доверенных доменов парсить можно и не на пхп , на питоне например еше можно реализовать.
Думаю 100% защиты добиться невозможно... Если скрипт хорошо замаскируется под обычного пользователя(или под нескольких), то он получит весь контент при любой защите. Логика подсказывает мне что можно: При всем этом надо не перепутать злоумышленника с поисковым ботом.
Padaboo за просто так такую работу конечно никто не будет делать, поэтому я и написал в первом посту что достойное вознаграждение за 100% защиту от такого вида парсинга. НЕ В ОБИДУ, но адрес сайта не могу дать, только разработчику т.к. нет гарантии, что тут над ним не будут эксперементировать (уже достаточно дублей).
dscoma вот сюда напиши http://www.php.ru/forum/viewforum.php?f=4 цену лучше сразу указывай, тут наши гуру считают что программист должен достойно зарабатывать) А 100% гарантию наверное никто не даст.
Активность отслеживать тяжело. На одном IP-адресе могут сидеть тысячи людей. Если помимо IP прикрутить проверку браузера и ОС, то нет никаких проблем для бота менять заголовки. Отслеживать по JS тоже не получиться. Попробуйте заблокировать по IP сайты-дублеры. Хотя где гарантия, что парсеры находятся на других серверах (кстати, проследите адреса) и их никто не переместит. Самый простой и верный способ - написать письмо главным поисковикам с жалобой и попросить заблокировать сайты-двойники. Если дизайн одинаковый, то их могут заблокировать, хотя бы, за фишинг.
после сигнализирования писковикам о фейках они видимо предприняли попытки помочь нам и теперь все фейки выдают Error303 Request-URI Too Large The requested URL /url... is too large to process. Но неужели если нашлись люди, которые смогли реализовать такой механизм, нет тех кто мог бы предотвратить его реализацию кроме техподдержки поисковиков и хостеров.
Дело в том, что браузер - это программа, которая отсылает и принимает данные, а потом их отрисовывает. Любой может написать свой браузер, но данные сохранять в базу. И его никак нельзя будет отличить от пользователя. Можно лишь надеяться, что бот везде одинаковый и дает одинаковые заголовки. Так его можно пропалить по периодическому цикличному обращению к сайту.