За последние 24 часа нас посетили 16315 программистов и 1582 робота. Сейчас ищут 1535 программистов ...

Защита от парсинга

Тема в разделе "Прочие вопросы по PHP", создана пользователем dscoma, 16 фев 2010.

Статус темы:
Закрыта.
  1. dscoma

    dscoma Активный пользователь

    С нами с:
    15 фев 2010
    Сообщения:
    14
    Симпатии:
    0
    Добрый день,
    существуют ли сегодня какие-нибудь действенные средства защиты на уровне сервера от парсинга данных?

    суть проблемы в том, что за последнюю неделю нашли четыре точных алиса (дубля) своего ресурса. причем обновления происходят на них одновоременно с нашим (только выложили статью - у них тут же, но ладно статьи бы просто копировали сайт полность под корень включая дизайн).
    Если существют методы защиты от таких недоумком, можно обговорить стоимость такой работы, если нет то что можно сделать в этом случае, кроме того чтобы просигнализировать их хостеру и поисковикам.

    Достойное вознаграждение за 100% защиту от такого вида парсинга.
     
  2. Padaboo

    Padaboo Старожил
    Команда форума Модератор

    С нами с:
    26 окт 2009
    Сообщения:
    5.242
    Симпатии:
    1
    dscoma
    Ваш ресурс очень часто обновляется?много веток?В смысле того,что не думаете ли вы , что даже если такую защиту реализовать, то будут тупо копировать?
    Зы: а можно на ресурс глянуть?
     
  3. dscoma

    dscoma Активный пользователь

    С нами с:
    15 фев 2010
    Сообщения:
    14
    Симпатии:
    0
    Padaboo
    1. ресурс обновляется очень часто, неско десятков уникальных статей в день.
    2. веток очень много
    3. адрес ресурса могу сказать только тому кто возьмется за реализацию такой защиты

    Копипаст это одно, но тут полность не только статьи, но дизайн и все что-есть на сайте до мелочей спарсено!
    понятно что php язык великий, но естьли методы против таких негодяев, т.е. к примеру чтобы запросы к ресурсу могли делать только доверенные домены или что-то подобное..?
     
  4. Padaboo

    Padaboo Старожил
    Команда форума Модератор

    С нами с:
    26 окт 2009
    Сообщения:
    5.242
    Симпатии:
    1
    dscoma
    Попробуйте написать в фриланс, сомневаюсь что кто то просто так возьмётся.
    Зы:самому интересно как от этого защитится поэтому и хотел посмотреть на ваш ресурс и на сайт парсеров)
    Может дадите ссылки в пм, интересно)Насчет доверенных доменов парсить можно и не на пхп , на питоне например еше можно реализовать.
     
  5. Volt(220)

    Volt(220) Активный пользователь

    С нами с:
    11 июн 2009
    Сообщения:
    1.640
    Симпатии:
    1
    Думаю 100% защиты добиться невозможно...
    Если скрипт хорошо замаскируется под обычного пользователя(или под нескольких), то он получит весь контент при любой защите.
    Логика подсказывает мне что можно:
    При всем этом надо не перепутать злоумышленника с поисковым ботом.
     
  6. dscoma

    dscoma Активный пользователь

    С нами с:
    15 фев 2010
    Сообщения:
    14
    Симпатии:
    0
    Padaboo
    за просто так такую работу конечно никто не будет делать, поэтому я и написал в первом посту что достойное вознаграждение за 100% защиту от такого вида парсинга.

    НЕ В ОБИДУ, но адрес сайта не могу дать, только разработчику т.к. нет гарантии, что тут над ним не будут эксперементировать (уже достаточно дублей).
     
  7. Padaboo

    Padaboo Старожил
    Команда форума Модератор

    С нами с:
    26 окт 2009
    Сообщения:
    5.242
    Симпатии:
    1
    dscoma
    вот сюда напиши http://www.php.ru/forum/viewforum.php?f=4
    цену лучше сразу указывай, тут наши гуру считают что программист должен достойно зарабатывать)
    А 100% гарантию наверное никто не даст.
     
  8. Kreker

    Kreker Старожил

    С нами с:
    8 апр 2007
    Сообщения:
    5.433
    Симпатии:
    0
    Активность отслеживать тяжело. На одном IP-адресе могут сидеть тысячи людей. Если помимо IP прикрутить проверку браузера и ОС, то нет никаких проблем для бота менять заголовки.
    Отслеживать по JS тоже не получиться.
    Попробуйте заблокировать по IP сайты-дублеры. Хотя где гарантия, что парсеры находятся на других серверах (кстати, проследите адреса) и их никто не переместит.

    Самый простой и верный способ - написать письмо главным поисковикам с жалобой и попросить заблокировать сайты-двойники. Если дизайн одинаковый, то их могут заблокировать, хотя бы, за фишинг.
     
  9. dscoma

    dscoma Активный пользователь

    С нами с:
    15 фев 2010
    Сообщения:
    14
    Симпатии:
    0
    после сигнализирования писковикам о фейках они видимо предприняли попытки помочь нам и теперь все фейки выдают

    Error303
    Request-URI Too Large
    The requested URL /url... is too large to process.

    Но неужели если нашлись люди, которые смогли реализовать такой механизм, нет тех кто мог бы предотвратить его реализацию кроме техподдержки поисковиков и хостеров.
     
  10. Kreker

    Kreker Старожил

    С нами с:
    8 апр 2007
    Сообщения:
    5.433
    Симпатии:
    0
    Дело в том, что браузер - это программа, которая отсылает и принимает данные, а потом их отрисовывает. Любой может написать свой браузер, но данные сохранять в базу. И его никак нельзя будет отличить от пользователя.
    Можно лишь надеяться, что бот везде одинаковый и дает одинаковые заголовки. Так его можно пропалить по периодическому цикличному обращению к сайту.
     
  11. Luge

    Luge Старожил

    С нами с:
    2 фев 2007
    Сообщения:
    4.680
    Симпатии:
    1
    Адрес:
    Минск
  12. 440Hz

    440Hz Старожил
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда
    писни в личку свой проект и адреса клонов
     
Статус темы:
Закрыта.