Защита от парсинга

dscoma · 16 фев 2010

Добрый день,
существуют ли сегодня какие-нибудь действенные средства защиты на уровне сервера от парсинга данных?

суть проблемы в том, что за последнюю неделю нашли четыре точных алиса (дубля) своего ресурса. причем обновления происходят на них одновоременно с нашим (только выложили статью - у них тут же, но ладно статьи бы просто копировали сайт полность под корень включая дизайн).
Если существют методы защиты от таких недоумком, можно обговорить стоимость такой работы, если нет то что можно сделать в этом случае, кроме того чтобы просигнализировать их хостеру и поисковикам.

Достойное вознаграждение за 100% защиту от такого вида парсинга.

Padaboo · 16 фев 2010

dscoma
Ваш ресурс очень часто обновляется?много веток?В смысле того,что не думаете ли вы , что даже если такую защиту реализовать, то будут тупо копировать?
Зы: а можно на ресурс глянуть?

dscoma · 16 фев 2010

Padaboo
1. ресурс обновляется очень часто, неско десятков уникальных статей в день.
2. веток очень много
3. адрес ресурса могу сказать только тому кто возьмется за реализацию такой защиты

Копипаст это одно, но тут полность не только статьи, но дизайн и все что-есть на сайте до мелочей спарсено!
понятно что php язык великий, но естьли методы против таких негодяев, т.е. к примеру чтобы запросы к ресурсу могли делать только доверенные домены или что-то подобное..?

Padaboo · 16 фев 2010

dscoma
Попробуйте написать в фриланс, сомневаюсь что кто то просто так возьмётся.
Зы:самому интересно как от этого защитится поэтому и хотел посмотреть на ваш ресурс и на сайт парсеров)
Может дадите ссылки в пм, интересно)Насчет доверенных доменов парсить можно и не на пхп , на питоне например еше можно реализовать.

Volt(220) · 16 фев 2010

Думаю 100% защиты добиться невозможно...
Если скрипт хорошо замаскируется под обычного пользователя(или под нескольких), то он получит весь контент при любой защите.
Логика подсказывает мне что можно:

0) Проверять заголовки.
1) Сделать проверку поддержки javascript и не выдавать информацию если js не поддерживается.
2) Аналогично для cookie.
3) Анализировать активность:
а) Отслеживать слишком быстрых пользователей.
б) Отслеживать пользователей, которые посещают весь сайт.
в) Отслеживать ip с которых очень часто идет обращение.
Нажмите, чтобы раскрыть...

При всем этом надо не перепутать злоумышленника с поисковым ботом.

dscoma · 16 фев 2010

Padaboo
за просто так такую работу конечно никто не будет делать, поэтому я и написал в первом посту что достойное вознаграждение за 100% защиту от такого вида парсинга.

НЕ В ОБИДУ, но адрес сайта не могу дать, только разработчику т.к. нет гарантии, что тут над ним не будут эксперементировать (уже достаточно дублей).

Padaboo · 16 фев 2010

dscoma
вот сюда напиши http://www.php.ru/forum/viewforum.php?f=4
цену лучше сразу указывай, тут наши гуру считают что программист должен достойно зарабатывать)
А 100% гарантию наверное никто не даст.

Kreker · 17 фев 2010

Активность отслеживать тяжело. На одном IP-адресе могут сидеть тысячи людей. Если помимо IP прикрутить проверку браузера и ОС, то нет никаких проблем для бота менять заголовки.
Отслеживать по JS тоже не получиться.
Попробуйте заблокировать по IP сайты-дублеры. Хотя где гарантия, что парсеры находятся на других серверах (кстати, проследите адреса) и их никто не переместит.

Самый простой и верный способ - написать письмо главным поисковикам с жалобой и попросить заблокировать сайты-двойники. Если дизайн одинаковый, то их могут заблокировать, хотя бы, за фишинг.

dscoma · 17 фев 2010

после сигнализирования писковикам о фейках они видимо предприняли попытки помочь нам и теперь все фейки выдают

Error303
Request-URI Too Large
The requested URL /url... is too large to process.

Но неужели если нашлись люди, которые смогли реализовать такой механизм, нет тех кто мог бы предотвратить его реализацию кроме техподдержки поисковиков и хостеров.

Kreker · 17 фев 2010

dscoma сказал(а):

Но неужели если нашлись люди, которые смогли реализовать такой механизм, нет тех кто мог бы предотвратить его реализацию кроме техподдержки поисковиков и хостеров.
Нажмите, чтобы раскрыть...

Дело в том, что браузер - это программа, которая отсылает и принимает данные, а потом их отрисовывает. Любой может написать свой браузер, но данные сохранять в базу. И его никак нельзя будет отличить от пользователя.
Можно лишь надеяться, что бот везде одинаковый и дает одинаковые заголовки. Так его можно пропалить по периодическому цикличному обращению к сайту.

Luge · 17 фев 2010

кросспост http://www.php.ru/forum/viewtopic.php?t=24019

440Hz · 17 фев 2010

dscoma сказал(а):

адрес ресурса могу сказать только тому кто возьмется за реализацию такой защиты
Нажмите, чтобы раскрыть...

писни в личку свой проект и адреса клонов

Защита от парсинга

dscoma Активный пользователь

Padaboo Старожил
Команда форума Модератор

dscoma Активный пользователь

Padaboo Старожил
Команда форума Модератор

Volt(220) Активный пользователь

dscoma Активный пользователь

Padaboo Старожил
Команда форума Модератор

Kreker Старожил

dscoma Активный пользователь

Kreker Старожил

Luge Старожил

440Hz Старожил
Команда форума Модератор

Быстрый поиск

Защита от парсинга

dscoma Активный пользователь

Padaboo Старожил Команда форума Модератор

dscoma Активный пользователь

Padaboo Старожил Команда форума Модератор

Volt(220) Активный пользователь

dscoma Активный пользователь

Padaboo Старожил Команда форума Модератор

Kreker Старожил

dscoma Активный пользователь

Kreker Старожил

Luge Старожил

440Hz Старожил Команда форума Модератор

Padaboo Старожил
Команда форума Модератор

Padaboo Старожил
Команда форума Модератор

Padaboo Старожил
Команда форума Модератор

440Hz Старожил
Команда форума Модератор