Вообщем всё просто ищем уязвимость в базе данных кое какого сайта Вопрос только технического момента имеется листинг страниц или пагинация как вам угодно которая выдаёт 30 юзеров с их данными http://секрет/employers/?page=1 то бишь page=1 первая страница и так далее 10660 Внимание вопрос каким образом текст штмл каждой страницы записать ладно не надо в базу данных.Достаточно просто в текстовой файл.ТО ишь простой парсер думаю.Спасибо добрые хакеры)) Добавлено спустя 20 минут 29 секунд: Вот что значит дока на русском))) Код (Text): Пример 1. Использования модуля CURL для сохранения стартовой страницы example.com <?php $ch = curl_init("http://www.example.com/"); $fp = fopen("example_homepage.txt", "w"); curl_setopt($ch, CURLOPT_FILE, $fp); curl_setopt($ch, CURLOPT_HEADER, 0); curl_exec($ch); curl_close($ch); fclose($fp); ?> Добавлено спустя 18 минут 22 секунды: Так атака не удалась помогайте ребятки Возврат Код (Text): <html> <head><title>403 Forbidden</title></head> <body bgcolor="white"> <center><h1>403 Forbidden</h1></center> <hr><center>nginx</center> </body> </html> Добавлено спустя 4 минуты 53 секунды: ТАК ребятки попробовал другой сайтик атаковать тот дал мне штмл страницы а тот не хочет интересно как он защищается?)))
Ну это конечно не полноценная атака,но парсингом как мне кажется можно найти стыковку в данных базы и сделать выигрыш для себя.
Блин показал бы на примере но не хочу что бы кто то узнал об этом Вот смотри имеется база данных 319800 юзеров.У каждого юзверя есть данные ну штук 20 полей Теперь же есть кое какие сервисы на проекте которые по причине того что ты не про платил не показывают юзверя но показывают кое какие данные о нём.А тебе так и хочется связаться с ним. Я обнаружил кое какие стыковки.Вообщем если слямзить эту базу юзверов.Ломать к примеру сервак мы не будем так как не хотим быть бандитами.Мы сделаем это умнее.Начнём слямзывать базу парсингом.А они заразы почему то выставили защиту от парсинга.)))) Но допустим слямзили теперь запускаем простой поиск строки.Строка получается не сказать что совсем уникальная.Но процент совпадения очень не высок.К то му же есть ещё критерий вторичного отбора. То попадание будет с точностью 90% Добавлено спустя 3 минуты 26 секунд: Красота Вот это сила
Если вы можете открыть страницу в браузере с тем результатом, который ожидаете - парсер без проблем вытащит то же самое. Извините, прочитал дважды и не совсем понял, наверное, слишком оторвано от конкретного примера, но позволю предположить, что система выдает на разных страницах разные данные о пользователе, вы же хотите, собирая по кусочкам сведения, воссоздать БД в как можно более полном виде, верно? Это совершенно нормальное явление, особенно, если каталоги или сервисы не дают возможность выдать все скопом со всеми параметрами, но при этом требуется собрать полную единую базу (со множеством данных по разным критериям). Например, в каталоге, допустим, Яндекс.Маркета, товары поделены на категории тематические, а вам было бы нужно собрать таблицу с общим названием "Каталог товаров интернет-магазина [Name]". Надеюсь, я верно понял то, что вы подразумевали. Если вы пытаетесь парсить, используя тот кусок кода, который привели в начале темы, то тогда очевидно, что подразумевается под "защитой от парсинга". Подделайте клиентский запрос, если вам доступны при просмотре в браузере те сведения, которые вы ищете. Настройте курл на получение кук, авторизуйтесь на сайте, разрешите авто-редирект, подделайте хидеры, заставьте сервер ответить "браузеру".
Согласен. Исходя из логики так и есть. Но все же, почему он не открывается. Другие же открываются. К тому же наберите в гуглу "Защита страницы от парсинга". Темболее открыть страницу в браузере != открыть ее парсеру. Добавлено спустя 1 минуту 51 секунду: Вот тебе пример: существуют проги для рипа сайта. Знаешь как от них защищаются? Проги то куки не сохраняют, тобиш: setcookie(бла-бла-бла); if(кука отсутствует) { echo 'Forbidden...'; } Добавлено спустя 52 секунды: При парсинге куки вроде не могут проставиться.
XCoder смотрите есть данные о пользователе на его личном профайле я туда ему могу написать Но что бы узнать что это он я должен вычислить по определённому критерию.Так вот этот критерий присутствует и там где его Имя секретится и на его личном профайле.Кароче всё очень просто Надо только подделать запрос.И выкачать парсером 10660 страниц и сохранить тупо в файл. Добавлено спустя 17 минут 53 секунды: всё понятно я ошибку допустил в адресе сайта забыл))) Всё начинаем брать себе базу))) Код (Text): <?php // 1. инициализация $ch = curl_init(); // 2. указываем параметры, включая url curl_setopt($ch, CURLOPT_URL, "секрет"); curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2 (.NET CLR 3.5.30729)"); curl_setopt($ch, CURLOPT_REFERER, 'http://google.com'); curl_setopt($ch, CURLOPT_COOKIEJAR, 'незнаю чо тут'); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_HEADER, 0); // 3. получаем HTML в качестве результата $output = curl_exec($ch); curl_setopt($ch, CURLOPT_FILE, $fp); // 4. закрываем соединение curl_close($ch); echo 'НАПАДАЕМ 2'; ?>
1. Куки - это механизм хранения определенных данных, которые передаются в заголовках, т.к. заголовки можно спокойно прописать вручную, то как таковые куки совершенно не обязательны. 2. А в CURL работа с куками очень проста, изучите на досуге по теме: Код (Text): curl _setopt($ch, CURLOPT_COOKIEFILE, "cookie.txt"); // откуда читаем curl _setopt($ch, CURLOPT_COOKIEJAR, "cookie.txt"); // куда пишем
XCoder да это всё понятно у меня тут банальный стопор открыть файл сместить указатель вконец и записать туда следующую страницу))) Кароче по моим вычислениям текстовой файл будет весить 1гиг 300 меторов))) Код (Text): $fp = fopen("example_homepage.txt", "w"); fwrite($fp, $output); fseek($fp, 0); Ладно я уехал
file_put_contents($fp, $output, FILE_APPEND | LOCK_EX); решила проблему только fopen уже не надо применять. Теперь ещё нарисовалась проблемка надо небольшую регулярку составить имеем кусок штмл Код (Text): <strong class="r_positive"><a href="/users/alexeyplekhanov/opinions/">0</a></strong> / <strong class="r_neutral"><a href="/users/alexeyplekhanov/opinions/">0</a></strong> / <strong class="r_negative"><a href="/users/alexeyplekhanov/opinions/">0</a></strong><br /> кароче где идёт логин alexeyplekhanov эти места строка должна проста проходит не учитываю разные ники поиск будет задаваться только критериями 0 0 0 в данном случае а бывает по другому 8 0 1 кароче 3-ёх значное число