За последние 24 часа нас посетили 16347 программистов и 1587 роботов. Сейчас ищут 1579 программистов ...

Защита от парсинга ресурса

Тема в разделе "PHP Free-Lance", создана пользователем dscoma, 16 фев 2010.

  1. dscoma

    dscoma Активный пользователь

    С нами с:
    15 фев 2010
    Сообщения:
    14
    Симпатии:
    0
    Добрый день,
    существуют ли сегодня какие-нибудь действенные средства защиты на уровне сервера от парсинга данных?

    суть проблемы в том, что за последнюю неделю нашли четыре точных алиса (дубля) своего ресурса. причем обновления происходят на них одновоременно с нашим (только выложили статью - у них тут же, но ладно статьи бы просто копировали - сайт полность под корень включая дизайн парсят).

    Если существют методы защиты от таких недоумком, можно обговорить стоимость такой работы, даже нужно если эта проблема решаема.

    Ваши предложения и примерная стоимость реализации такой защиты
    НЕ В ОБИДУ: Адрес ресурса предоставлю, только разработчику, поэтому не просите его написать.

    Достойное вознаграждение за 100% защиту от такого вида парсинга.
     
  2. Simpliest

    Simpliest Активный пользователь

    С нами с:
    24 сен 2009
    Сообщения:
    4.511
    Симпатии:
    2
    Адрес:
    Донецк
    dscoma
    Никаких шансов.

    Только административное решение. Т.е. абузы (жалобы) хостерам сайтов, плюс поисковики.
     
  3. Костян

    Костян Активный пользователь

    С нами с:
    12 ноя 2009
    Сообщения:
    1.724
    Симпатии:
    1
    Адрес:
    адуктО
    dscoma
    100% ой защиты нет. Всё что вы показываете вы отдаете, все что вы отдаете можно взять, всё что можно взять можно показать в другом месте...
     
  4. Padaboo

    Padaboo Старожил
    Команда форума Модератор

    С нами с:
    26 окт 2009
    Сообщения:
    5.242
    Симпатии:
    1
    Костян
    в доме который построил джек :D
     
  5. Костян

    Костян Активный пользователь

    С нами с:
    12 ноя 2009
    Сообщения:
    1.724
    Симпатии:
    1
    Адрес:
    адуктО
  6. dscoma

    dscoma Активный пользователь

    С нами с:
    15 фев 2010
    Сообщения:
    14
    Симпатии:
    0
    после сигнализирования писковикам о фейках они видимо предприняли попытки помочь нам и теперь все фейки выдают

    Error303
    Request-URI Too Large
    The requested URL /url... is too large to process.


    неужели php работает только в одну строну? :), причем в последнее время все чаще и чаще его возможности используется для вредоносных целей.
    Нужно в 6 реализации php ввести политику общего происхождения как на строне клинта (мысли в слух)
     
  7. Костян

    Костян Активный пользователь

    С нами с:
    12 ноя 2009
    Сообщения:
    1.724
    Симпатии:
    1
    Адрес:
    адуктО
    а еще надо внедрить интеграцию общего дифференциала флейта
     
  8. Padaboo

    Padaboo Старожил
    Команда форума Модератор

    С нами с:
    26 окт 2009
    Сообщения:
    5.242
    Симпатии:
    1
    Костян
    не матерись :lol: :DD
     
  9. Simpliest

    Simpliest Активный пользователь

    С нами с:
    24 сен 2009
    Сообщения:
    4.511
    Симпатии:
    2
    Адрес:
    Донецк
    DRM для текста? Круто. Если сделаете - вам дадут нобелевскую премию.

    Можете написать свой браузер. И показывать сайт только в нем. Остальных редиректить на упячку.
     
  10. Костян

    Костян Активный пользователь

    С нами с:
    12 ноя 2009
    Сообщения:
    1.724
    Симпатии:
    1
    Адрес:
    адуктО
    Simpliest
    dscoma
    может объясните что это за политика???
     
  11. dscoma

    dscoma Активный пользователь

    С нами с:
    15 фев 2010
    Сообщения:
    14
    Симпатии:
    0
    я же написал, что это мысли в слух не более того, конечно это не серьезно, но как-то решать эту проблему нужно...
     
  12. Padaboo

    Padaboo Старожил
    Команда форума Модератор

    С нами с:
    26 окт 2009
    Сообщения:
    5.242
    Симпатии:
    1
    Simpliest
    ХАХАХАХАХАХА вот это реклама для упячки будет особенно если ресурс какойнить в контакте ру или чёнить схожее по посещаймости :DDDDDDDD
    dscoma
    угу и мне объясните)
     
  13. dscoma

    dscoma Активный пользователь

    С нами с:
    15 фев 2010
    Сообщения:
    14
    Симпатии:
    0
    Some origin policy (Политика общего происхождения) - определяет с какими серверами допускается взаимодействие. Это понятие больше знакомо разработчкам на стороне клиента (JavaScript, VBScript ...)
     
  14. Simpliest

    Simpliest Активный пользователь

    С нами с:
    24 сен 2009
    Сообщения:
    4.511
    Симпатии:
    2
    Адрес:
    Донецк
    В общем случае это нерешаемо.

    В частном случае - рекомендую воспользоваться опытом Reuters, да и любого другого ресурса с закрытой информацией.
     
  15. Psih

    Psih Активный пользователь
    Команда форума Модератор

    С нами с:
    28 дек 2006
    Сообщения:
    2.678
    Симпатии:
    6
    Адрес:
    Рига, Латвия
    Можно исхитрятся и пробовать вычислить сервера, с которых происходит парсинг данных и их просто блокировать. 100% гарантии не даёт, но по крайней мере можно противодействовать. Можно так же анализировать логи и смотреть кто последовательно лазит по всему сайту и таким образом вычислять ботов. В общем можно сильно усложнить жизнь им, когда им будет не выгодно это делать.
    Если что, обращайтесь, могу попробовать помочь с проблемой.
     
  16. Simpliest

    Simpliest Активный пользователь

    С нами с:
    24 сен 2009
    Сообщения:
    4.511
    Симпатии:
    2
    Адрес:
    Донецк
    Psih
    это палиатив. Проксей в мире настолько много, что они могут забирать контент в ближайшие 10ть лет.

    Вопрос в том насколько он ценен(контент) и стоит ли овчинка выделки.

    В простейшем случае можно менять дизайн и классы/айди у контента каждые пару дней
     
  17. Padaboo

    Padaboo Старожил
    Команда форума Модератор

    С нами с:
    26 окт 2009
    Сообщения:
    5.242
    Симпатии:
    1
    Щас я наверное глупость сморожу)
    Можно попробовать создать статью типа и выставить ей display:none и када вытащат оттуда контент спалить айпи)
     
  18. Kreker

    Kreker Старожил

    С нами с:
    8 апр 2007
    Сообщения:
    5.433
    Симпатии:
    0
    Ну да, и исключить ip поисковиков. В принципе, интересное решение :)
     
  19. Simpliest

    Simpliest Активный пользователь

    С нами с:
    24 сен 2009
    Сообщения:
    4.511
    Симпатии:
    2
    Адрес:
    Донецк
    Непрозрачно только решением чего это является?
    Парсят ВЕСЬ сайт включая CSS
     
  20. karakh

    karakh Активный пользователь

    С нами с:
    11 дек 2007
    Сообщения:
    1.344
    Симпатии:
    0
    Интересно, а то что отдается аяксом - тоже парсят? И вообще js-ссылки?
    Я сам сайт-парсеров не писал, исхожу только из того что гугл-боты ссылки через onclick="location.href()" уже не любят, значит гуглу лень писать на это парсер. А этим умникам, значит, не лень?
     
  21. Simpliest

    Simpliest Активный пользователь

    С нами с:
    24 сен 2009
    Сообщения:
    4.511
    Симпатии:
    2
    Адрес:
    Донецк
    крайне невероятно. Но могут тупо забирать вместе с яваскриптом :)
     
  22. Alost

    Alost Активный пользователь

    С нами с:
    7 фев 2009
    Сообщения:
    335
    Симпатии:
    0
    Адрес:
    Город вокруг невы
    А могут еще проще делать...при запросе страницы, запрашивают ее с вашего сайта и тут же показывают пользователю.
    Ставьте пользователям куку, если куки нету, отдавайте не контент а "бяку".Ну и допилить это решение для поисковиков, чтоб не попасть под санкции
     
  23. Elkaz

    Elkaz Старожил
    Команда форума Модератор

    С нами с:
    26 июн 2006
    Сообщения:
    3.373
    Симпатии:
    0
    Адрес:
    Баку, Азербайджан
    Alost
    cURL с cookie вполне себе дружит. И по редиректам ходит.
     
  24. [vs]

    [vs] Суперстар
    Команда форума Модератор

    С нами с:
    27 сен 2007
    Сообщения:
    10.557
    Симпатии:
    631
    Вот. Ставим уникальную куку. Если такая кака пришла больше 10 раз за минуту - банить на час нафиг. =)
     
  25. toorion

    toorion Активный пользователь

    С нами с:
    28 авг 2008
    Сообщения:
    3
    Симпатии:
    0
    Говорите, парсят с CSS и javaScript :)

    тогда:
    <script language="JavaScript">
    if( documant.domain != 'yourdomain.ru' )
    {
    document.location.href = 'http://yourdomain.ru';
    }
    </script>
    И пущай парсят :) Сначало поможет не на долго - сообразят, вырежут, но потом можно это закодить в общий яваскриптовый файл и заобфускатить его весь и раз в день менять, или, еще лучше, выдавать скрипт динамически для каждого нового IP - тогда им полная жопа - всех посетителей, что к ним придет будет редиректить к вам и этого можно будет избежать только вырезав JavaScript целиком!