- делаешь ссылку на секретную страницу - css стилями делаешь эту ссылку невидимой, т.е. обычный юзер по ней НИКОГДА не кликнет - всех кто попадает на эту странцу банишь. на время или навсегда. ну или требуешь пройти капчу. - чтобы не обижать честных ботов, запрещаешь ходить по этой ссылке через robots.txt либо анализировать частоту обращений. человек физически не сможет быстро ходить по страницам. либо заузать готовые модули защищающие от качалок и ддоса. на уровне скриптов или на уровне веб сервера
Honeypot обычно называют другое. когда делают некий ресурс с целью заманить туда хакера или бота, с целью полного логгирования его действий. для изучения поведения и методов взлома, стратегию злоумышленника или бота. потом эта инфа анализируется, и на основании этого вырабатываются стратегии отражения этих атак. тут же все намного проще. используется именно разница восприятия веб-страниц человеком и программой. хотя есть боты эмулирующие полностью браузер(выше упоминали) и стили и js-скрипты, и им сложно противостоять. ну а обычные тупые качалки - детектировать проще. Самое сложное, когда бота настраивают/пишут конкретно под твой сайт. тогда на все твои уловки они делают поправки в логике бота. Добавлено спустя 4 минуты 24 секунды: к сожалению это тоже обходят. запросы распределяют по множеству проксей. и частоту обращений делают сопоставимой с среднечеловеческой(либо подбирают экспериментально, достаточную для обхода защиты). но это уже кто посерьезнее. обычных школьников/качальщиков отбрить обычно несложно.
runcore, спасибо К.О. я уже успел уточнить свой комментарий. ))) Добавлено спустя 6 минут 56 секунд: Ты не можешь гарантированно это прикрыть, можешь только затруднить. Трудолюбивый и рукастый копировальщик таки сумеет сохранить твой контент. Можешь пару мышеловок на javascript поставить, которые будут проверять протокол и домен при открытии страницы и делать переход на твой сайт )))
да, все что он видит в браузере, это уже у него скачалось и лежит локально, по сути. Тут можно только усложнить ему распространение/продажу этого контента. Для это метим весь контент своим копирайтом. в текст можно вставлять невидимые копирайты, или комментарии, все картинки делать с ватермарком, в видео тоже встраивать свое лого и т.д. По крайней мере, если он это гдето опубликует - то будет всем видно что контент ворован и откуда. И далее, останется зафиксировать это нотариально, и подать на него в суд. или хотябы пригрозить этим.
Спасибо! Направление понял! Мои школьники-качальщики обратились на форум поддержки программы для скачивания =) Недавно уже поставил блокирующий js в коде каждой страницы. Пока защищает, но скачанный и очищенный один раз сайт попадет на файлообменник. Делать для сайта обновления и развивать его просто отбивает всякую охоту...
Вот только если используется тот-же Selenium, то попытка надуть скрытой ссылкой или еще каким js - уже не выйдет. Я бы сказал: радоваться ТС надо, что пользуется популярностью, раз уносят в оффлайн. Патовая ситуация
"Ненавижу!!!"(с) Юный Дарт Вейдер. 1) Нет, невозможно. 2) Автор, даже если ты чудесным образом сможешь отличать браузер клиента от курлобота, это все равно не поможет. Я зарегаюсь на твоем сайте, напишу бота на основе браузера буквально из навоза и палок на шарпиках, которые не открывал уже тысячу лет, что мне не помешает никак, потому что это простейшая задача. И этот бот, от моего имени, совершенно легально, проходя проверки, методично скачает все, что угодно. 3) А если я, обычный сурикат, смотрящий твой сайт, отмечу для себя интересный материал, нажму в браузере CTRL+S и сохраню страничку, тогда что? Я гарантирую, что нечестные боты первым делом пялятся именно в robots.txt. Те же парсерщики будут туда пялиться, как минимум, чтобы понять где есть контент, который можно стырить, а где нет. Чтобы не перебирать странички с регистрацей и прочий "шум".
1) Я так и думал. А локальный вариант swf, встроенный в страницу? 2) Мне уже подсказали, как притормозить этого бота. Если затраченные усилия на настройку скачивания будут намного больше, чем удовольствие от выкладки сайта для общего пользования или тупо для себя родимого зажилить его на винчестере, то никто не будет связываться. 3) Перекинет на эту же страницу онлайн.
CTRL+S. Вот и все усилия. Точнее вызов аналогичного метода у браузер-компонента программы. Открою страницу браузером без JS, открою страницу текстовым редактором, скормлю страницу DOM-парсеру. Ты не понимаешь верно, что нет никакого "онлайн" в данном случае. Браузер не видеопоток с сервера тянет. Браузер - это программа. Такой же "бот", технически, только управляемый человеком. Такая же качалка. Он посылает запрос серверу. Сервер формирует ответ в виде HTML-документа и передает его браузеру на скачивание. Браузер его выкачивает и парсит, чтобы затем отрисовать у себя во вьюпорте. Страница, открытая в браузере никак не связана с твоим сервером уже. Это локальный фалик. Хранится у тебя на винте. В папке с кэшем браузера. Такие дела. Когда ты нажимаешь CTRL+S в браузере, он ничего не спрашивает у сервера. Он просто уже скачанную страничку сохраняет туда, куда ты попросишь. Ты пчела, пытающаяся победить мед, бро
гарантии? )) может очередные фантазии? У меня такая защита работает на одном сайте, который периодически пытаются скачать школьники, ибо там хороший каталог комп-железа. и мне пох, смотрят они роботс или не смотрят, они попадают в бан-лист, это факт. это не 100% рабочая защита, но свой процент халявщиков отсеивает, факт. а с серьезными конкурентами у меня есть другие рабочие плюшки. кстате, даже наоборот, раз запрет индексирования есть, лезут туда в первую очередь)) как мухи на фекалии. honeypot ) в действии. так что маст хев. а вас фантазеров-теоретиков послушаешь, так и вообще делать ничего не нужно. ну это ваше право. но не все хотят быть терпилами. жизнь борьба.
Овер 1000 страниц вручную сохранять никто не будет. Неестественно быстро просматриваешь страницы - получи капчу. Перешёл по скрытой ссылке получи бан. Поисковых ботов я не пущу на скрытые страницы и на треть текущих, не особенно важных для индексации. Есть еще пара идей, не считая того, что когда заглядывают в скачанную страницу, то находят там плохочитаемый человеком фарш в коде, перемешанный вместе с lock url. По крайней мере я буду двигаться в таком направлении. Здесь мы не поняли друг друга малость, я имел ввиду заботу о пользователе, который сохранил одну или две страницы, некоторые так делают, чтобы сохранить инфу и не забыть про сайт. Таким палки в колёса ставить незачем. Перенаправляется куда надо и всё.
можно кстати добавить коварности) Не банить таких клиентов, а выдавать им коцанный/неполный контент/доп.контент_ненужный, плюс задержку, чтоб обслуживались дольше. пусть разгребают потом) раз настолько не ценят свое время)
1) Будь добр, не груби, тут тебе не подворотня. А то, дабы не прослыть "терпилой", лупану тебе бананом по голове на денек. Хватит это терпеть(tm). 2) Я могу ошибаться, конечно, но это какая-то борьба с мельницами, не более. Если сайт такой офигенный, если у него такая офигенная база и посещаемость, то у него должна быть офигенная индексация поисковиками и, как минимум, настроен гугло-пинг. Появился новый контент - сразу ушел запрос гуглу на индексацию. Пример - этот форум. Каждый пост с него индексируется гуглом чуть ли не в реальном времени. Воруй сколько хочешь - гугл все равно в курсе, кто первоисточник. А это, собственно основная цель, не так ли? Корректная позиция в выдаче поисковиков. По этому я и не понимаю, чего автор парится.
ранкор просто не знает значения слова терпила и использует его так, как понимает. Добавлено спустя 1 минуту 54 секунды: Курсера например обязывает тебя принять еула где грозится тебе божьей хмуростью и импотенцией если ты будешь её материалы распространять. В принципе все материалы отдаются на скачивание и ничем более не защищены. Но чета никто особо не постит, т.к. не в материалах сила.
Увлекло меня это дело, так то не особо напрягает. Ну бесит иногда, когда в отзывы пишут "у кого получилось скачать на комп?" или "отдал сайт на взлом спецу, бог ему в помощь", а в остальном норм.
В данном случае вполне достаточно было этого: Чтож у тебя там такое, что людям прям так нужно качать твои странички, и что ж у тебя там за аудитория такая? Начинает уже смахивать на маркетинговый ход Неужто секретные отчеты ФСБ по деятельности инопланетян в Тульской области хранишь? Мб ты правда загоняешься? Просто я так вижу - на мимокрокодилов плевать. Мимокрокодил не враг. А если будет враг, который чешет не все, что видит, а именно заинтересованный в твоем сайте, бот будет написан аккурат под твой сайт. Ну или тебя просто заддосят. Вот тогда можно будет говорить о борьбе.