За последние 24 часа нас посетили 36176 программистов и 1718 роботов. Сейчас ищут 682 программиста ...

Как определить наверняка, что сайт качается программой?

Тема в разделе "Прочие вопросы по PHP", создана пользователем Frai, 9 фев 2016.

  1. Abyss

    Abyss Старожил

    С нами с:
    12 дек 2015
    Сообщения:
    1.298
    Симпатии:
    218
    Адрес:
    Default city
    За вторую копейку с диска.
     
  2. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    - делаешь ссылку на секретную страницу
    - css стилями делаешь эту ссылку невидимой, т.е. обычный юзер по ней НИКОГДА не кликнет
    - всех кто попадает на эту странцу банишь. на время или навсегда. ну или требуешь пройти капчу.
    - чтобы не обижать честных ботов, запрещаешь ходить по этой ссылке через robots.txt

    либо анализировать частоту обращений. человек физически не сможет быстро ходить по страницам.

    либо заузать готовые модули защищающие от качалок и ддоса. на уровне скриптов или на уровне веб сервера
     
  3. mahmuzar

    mahmuzar Старожил

    С нами с:
    6 апр 2012
    Сообщения:
    4.631
    Симпатии:
    425
    Адрес:
    РД, г. Махачкала.
    +
     
  4. artoodetoo

    artoodetoo Суперстар
    Команда форума Модератор

    С нами с:
    11 июн 2010
    Сообщения:
    11.128
    Симпатии:
    1.248
    Адрес:
    там-сям
    Project Honey Pot http://www.projecthoneypot.org/about_us.php

    Добавлено спустя 1 минуту 59 секунд:
     
  5. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    Honeypot обычно называют другое. когда делают некий ресурс с целью заманить туда хакера или бота, с целью полного логгирования его действий. для изучения поведения и методов взлома, стратегию злоумышленника или бота. потом эта инфа анализируется, и на основании этого вырабатываются стратегии отражения этих атак.

    тут же все намного проще. используется именно разница восприятия веб-страниц человеком и программой. хотя есть боты эмулирующие полностью браузер(выше упоминали) и стили и js-скрипты, и им сложно противостоять. ну а обычные тупые качалки - детектировать проще.

    Самое сложное, когда бота настраивают/пишут конкретно под твой сайт. тогда на все твои уловки они делают поправки в логике бота.

    Добавлено спустя 4 минуты 24 секунды:
    к сожалению это тоже обходят. запросы распределяют по множеству проксей. и частоту обращений делают сопоставимой с среднечеловеческой(либо подбирают экспериментально, достаточную для обхода защиты).

    но это уже кто посерьезнее. обычных школьников/качальщиков отбрить обычно несложно.
     
  6. artoodetoo

    artoodetoo Суперстар
    Команда форума Модератор

    С нами с:
    11 июн 2010
    Сообщения:
    11.128
    Симпатии:
    1.248
    Адрес:
    там-сям
    runcore, спасибо К.О. я уже успел уточнить свой комментарий. )))

    Добавлено спустя 6 минут 56 секунд:
    Ты не можешь гарантированно это прикрыть, можешь только затруднить. Трудолюбивый и рукастый копировальщик таки сумеет сохранить твой контент.
    Можешь пару мышеловок на javascript поставить, которые будут проверять протокол и домен при открытии страницы и делать переход на твой сайт )))
     
  7. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    да, все что он видит в браузере, это уже у него скачалось и лежит локально, по сути.
    Тут можно только усложнить ему распространение/продажу этого контента. Для это метим весь контент своим копирайтом.
    в текст можно вставлять невидимые копирайты, или комментарии, все картинки делать с ватермарком, в видео тоже встраивать свое лого и т.д.
    По крайней мере, если он это гдето опубликует - то будет всем видно что контент ворован и откуда. И далее, останется зафиксировать это нотариально, и подать на него в суд. или хотябы пригрозить этим.
     
  8. Frai

    Frai Активный пользователь

    С нами с:
    21 июл 2015
    Сообщения:
    102
    Симпатии:
    0
    Спасибо! Направление понял!

    Мои школьники-качальщики обратились на форум поддержки программы для скачивания =)

    Недавно уже поставил блокирующий js в коде каждой страницы. Пока защищает, но скачанный и очищенный один раз сайт попадет на файлообменник. Делать для сайта обновления и развивать его просто отбивает всякую охоту...
     
  9. Ke1eth

    Ke1eth Активный пользователь

    С нами с:
    16 мар 2012
    Сообщения:
    1.073
    Симпатии:
    11
    Адрес:
    заблудилса
    Вот только если используется тот-же Selenium, то попытка надуть скрытой ссылкой или еще каким js - уже не выйдет.
    Я бы сказал: радоваться ТС надо, что пользуется популярностью, раз уносят в оффлайн.
    Патовая ситуация :)
     
  10. Zuldek

    Zuldek Старожил

    С нами с:
    13 май 2014
    Сообщения:
    2.381
    Симпатии:
    344
    Адрес:
    Лондон, Тисовая улица, дом 4, чулан под лестницей
    Надеюсь лишь что вы все тут шутили.
     
  11. Fell-x27

    Fell-x27 Суперстар
    Команда форума Модератор

    С нами с:
    25 июл 2013
    Сообщения:
    12.156
    Симпатии:
    1.771
    Адрес:
    :сердА
    "Ненавижу!!!"(с) Юный Дарт Вейдер.
    1) Нет, невозможно.
    2) Автор, даже если ты чудесным образом сможешь отличать браузер клиента от курлобота, это все равно не поможет. Я зарегаюсь на твоем сайте, напишу бота на основе браузера буквально из навоза и палок на шарпиках, которые не открывал уже тысячу лет, что мне не помешает никак, потому что это простейшая задача. И этот бот, от моего имени, совершенно легально, проходя проверки, методично скачает все, что угодно.
    3) А если я, обычный сурикат, смотрящий твой сайт, отмечу для себя интересный материал, нажму в браузере CTRL+S и сохраню страничку, тогда что?
    Я гарантирую, что нечестные боты первым делом пялятся именно в robots.txt. Те же парсерщики будут туда пялиться, как минимум, чтобы понять где есть контент, который можно стырить, а где нет. Чтобы не перебирать странички с регистрацей и прочий "шум".
     
  12. Frai

    Frai Активный пользователь

    С нами с:
    21 июл 2015
    Сообщения:
    102
    Симпатии:
    0
    1) Я так и думал. А локальный вариант swf, встроенный в страницу?
    2) Мне уже подсказали, как притормозить этого бота. Если затраченные усилия на настройку скачивания будут намного больше, чем удовольствие от выкладки сайта для общего пользования или тупо для себя родимого зажилить его на винчестере, то никто не будет связываться.
    3) Перекинет на эту же страницу онлайн.
     
  13. Fell-x27

    Fell-x27 Суперстар
    Команда форума Модератор

    С нами с:
    25 июл 2013
    Сообщения:
    12.156
    Симпатии:
    1.771
    Адрес:
    :сердА
    CTRL+S. Вот и все усилия. Точнее вызов аналогичного метода у браузер-компонента программы.
    Открою страницу браузером без JS, открою страницу текстовым редактором, скормлю страницу DOM-парсеру.
    Ты не понимаешь верно, что нет никакого "онлайн" в данном случае. Браузер не видеопоток с сервера тянет. Браузер - это программа. Такой же "бот", технически, только управляемый человеком. Такая же качалка. Он посылает запрос серверу. Сервер формирует ответ в виде HTML-документа и передает его браузеру на скачивание. Браузер его выкачивает и парсит, чтобы затем отрисовать у себя во вьюпорте.

    Страница, открытая в браузере никак не связана с твоим сервером уже. Это локальный фалик. Хранится у тебя на винте. В папке с кэшем браузера. Такие дела.

    Когда ты нажимаешь CTRL+S в браузере, он ничего не спрашивает у сервера. Он просто уже скачанную страничку сохраняет туда, куда ты попросишь.

    Ты пчела, пытающаяся победить мед, бро :(
     
  14. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    гарантии? )) может очередные фантазии? У меня такая защита работает на одном сайте, который периодически пытаются скачать школьники, ибо там хороший каталог комп-железа. и мне пох, смотрят они роботс или не смотрят, они попадают в бан-лист, это факт. это не 100% рабочая защита, но свой процент халявщиков отсеивает, факт. а с серьезными конкурентами у меня есть другие рабочие плюшки.
    кстате, даже наоборот, раз запрет индексирования есть, лезут туда в первую очередь)) как мухи на фекалии. honeypot ) в действии.
    так что маст хев. а вас фантазеров-теоретиков послушаешь, так и вообще делать ничего не нужно. ну это ваше право. но не все хотят быть терпилами. жизнь борьба.
     
  15. Frai

    Frai Активный пользователь

    С нами с:
    21 июл 2015
    Сообщения:
    102
    Симпатии:
    0
    Овер 1000 страниц вручную сохранять никто не будет. Неестественно быстро просматриваешь страницы - получи капчу. Перешёл по скрытой ссылке получи бан. Поисковых ботов я не пущу на скрытые страницы и на треть текущих, не особенно важных для индексации. Есть еще пара идей, не считая того, что когда заглядывают в скачанную страницу, то находят там плохочитаемый человеком фарш в коде, перемешанный вместе с lock url. По крайней мере я буду двигаться в таком направлении.

    Здесь мы не поняли друг друга малость, я имел ввиду заботу о пользователе, который сохранил одну или две страницы, некоторые так делают, чтобы сохранить инфу и не забыть про сайт. Таким палки в колёса ставить незачем. Перенаправляется куда надо и всё.
     
  16. [vs]

    [vs] Суперстар
    Команда форума Модератор

    С нами с:
    27 сен 2007
    Сообщения:
    10.559
    Симпатии:
    632
    Дай уже ссылку, ради спортивного интереса. Проанализировать твою защиту =)
     
  17. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    можно кстати добавить коварности)
    Не банить таких клиентов, а выдавать им коцанный/неполный контент/доп.контент_ненужный, плюс задержку, чтоб обслуживались дольше.
    пусть разгребают потом) раз настолько не ценят свое время)
     
  18. Frai

    Frai Активный пользователь

    С нами с:
    21 июл 2015
    Сообщения:
    102
    Симпатии:
    0
    Хах, сейчас только поищу сайты потенциальных конкурентов )
     
  19. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    это может плохо закончиться, тк пхп блокирует себя на время паузы и ничего другого не делает.
     
  20. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    Это да.
     
  21. Fell-x27

    Fell-x27 Суперстар
    Команда форума Модератор

    С нами с:
    25 июл 2013
    Сообщения:
    12.156
    Симпатии:
    1.771
    Адрес:
    :сердА
    1) Будь добр, не груби, тут тебе не подворотня. А то, дабы не прослыть "терпилой", лупану тебе бананом по голове на денек. Хватит это терпеть(tm).
    2) Я могу ошибаться, конечно, но это какая-то борьба с мельницами, не более. Если сайт такой офигенный, если у него такая офигенная база и посещаемость, то у него должна быть офигенная индексация поисковиками и, как минимум, настроен гугло-пинг. Появился новый контент - сразу ушел запрос гуглу на индексацию.

    Пример - этот форум. Каждый пост с него индексируется гуглом чуть ли не в реальном времени. Воруй сколько хочешь - гугл все равно в курсе, кто первоисточник. А это, собственно основная цель, не так ли? Корректная позиция в выдаче поисковиков. По этому я и не понимаю, чего автор парится.
     
  22. runcore

    runcore Старожил

    С нами с:
    12 окт 2012
    Сообщения:
    3.625
    Симпатии:
    158
    ок.
    А вообще-то, забань. чтоб мне неповадно было.
     
  23. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    ранкор просто не знает значения слова терпила и использует его так, как понимает.

    Добавлено спустя 1 минуту 54 секунды:
    Курсера например обязывает тебя принять еула где грозится тебе божьей хмуростью и импотенцией если ты будешь её материалы распространять. В принципе все материалы отдаются на скачивание и ничем более не защищены. Но чета никто особо не постит, т.к. не в материалах сила.
     
  24. Frai

    Frai Активный пользователь

    С нами с:
    21 июл 2015
    Сообщения:
    102
    Симпатии:
    0
    Увлекло меня это дело, так то не особо напрягает. Ну бесит иногда, когда в отзывы пишут "у кого получилось скачать на комп?" или "отдал сайт на взлом спецу, бог ему в помощь", а в остальном норм.
     
  25. Fell-x27

    Fell-x27 Суперстар
    Команда форума Модератор

    С нами с:
    25 июл 2013
    Сообщения:
    12.156
    Симпатии:
    1.771
    Адрес:
    :сердА
    В данном случае вполне достаточно было этого:
    Чтож у тебя там такое, что людям прям так нужно качать твои странички, и что ж у тебя там за аудитория такая? Начинает уже смахивать на маркетинговый ход :)

    Неужто секретные отчеты ФСБ по деятельности инопланетян в Тульской области хранишь? Мб ты правда загоняешься?

    Просто я так вижу - на мимокрокодилов плевать. Мимокрокодил не враг. А если будет враг, который чешет не все, что видит, а именно заинтересованный в твоем сайте, бот будет написан аккурат под твой сайт. Ну или тебя просто заддосят. Вот тогда можно будет говорить о борьбе.