парсинг кое какого сайта))

jei · 29 июн 2012

Вообщем всё просто ищем уязвимость в базе данных кое какого сайта
Вопрос только технического момента
имеется листинг страниц или пагинация как вам угодно которая выдаёт 30 юзеров с их данными

http://секрет/employers/?page=1

то бишь page=1 первая страница и так далее 10660
Внимание вопрос каким образом текст штмл каждой страницы записать ладно не надо
в базу данных.Достаточно просто в текстовой файл.ТО ишь простой парсер думаю.Спасибо добрые хакеры))

Добавлено спустя 20 минут 29 секунд:
Вот что значит дока на русском)))

Код (Text):

Пример 1. Использования модуля CURL для сохранения стартовой страницы example.com

<?php

$ch = curl_init("http://www.example.com/");

$fp = fopen("example_homepage.txt", "w");

curl_setopt($ch, CURLOPT_FILE, $fp);

curl_setopt($ch, CURLOPT_HEADER, 0);

curl_exec($ch);

curl_close($ch);

fclose($fp);

?>

Добавлено спустя 18 минут 22 секунды:
Так атака не удалась помогайте ребятки Возврат

Код (Text):

<html>

<head><title>403 Forbidden</title></head>

<body bgcolor="white">

<center><h1>403 Forbidden</h1></center>

<hr><center>nginx</center>

</body>

</html>

Добавлено спустя 4 минуты 53 секунды:
ТАК ребятки попробовал другой сайтик атаковать тот дал мне штмл страницы а тот не хочет
интересно как он защищается?)))

Gambit · 29 июн 2012

http://www.google.ru/#hl=ru&gs_nf=1&cp=27&gs_id=0&xhr=t&q=% ... 80&bih=909

XCoder · 30 июн 2012

jei,
Скиньте уже ссылку.
Почему вы называете парсинг атакой? =)

jei · 30 июн 2012

XCoder сказал(а):

jei,
Скиньте уже ссылку.
Почему вы называете парсинг атакой? =)
Нажмите, чтобы раскрыть...

Ну это конечно не полноценная атака,но парсингом как мне кажется можно найти стыковку в
данных базы и сделать выигрыш для себя.

Gambit · 30 июн 2012

jei сказал(а):

XCoder сказал(а):

jei,
Скиньте уже ссылку.
Почему вы называете парсинг атакой? =)
Нажмите, чтобы раскрыть...

Ну это конечно не полноценная атака,но парсингом как мне кажется можно найти стыковку в
данных базы и сделать выигрыш для себя.
Нажмите, чтобы раскрыть...

это как?)) Парсинг максимум html код парсит.

igordata · 30 июн 2012

Если параметры перебирать со всякими инъекциями можно будет найти ченить необычное.

jei · 30 июн 2012

Gambit сказал(а):

это как?)) Парсинг максимум html код парсит.
Нажмите, чтобы раскрыть...

Блин показал бы на примере но не хочу что бы кто то узнал об этом

Вот смотри имеется база данных 319800 юзеров.У каждого юзверя есть данные ну штук 20 полей
Теперь же есть кое какие сервисы на проекте которые по причине того что ты не про платил не
показывают юзверя но показывают кое какие данные о нём.А тебе так и хочется связаться с ним.
Я обнаружил кое какие стыковки.Вообщем если слямзить эту базу юзверов.Ломать к примеру
сервак мы не будем так как не хотим быть бандитами.Мы сделаем это умнее.Начнём
слямзывать базу парсингом.А они заразы почему то выставили защиту от парсинга.))))
Но допустим слямзили теперь запускаем простой поиск строки.Строка получается не сказать что совсем уникальная.Но процент совпадения очень не высок.К то му же есть ещё критерий вторичного отбора.
То попадание будет с точностью 90%

Добавлено спустя 3 минуты 26 секунд:
Красота Вот это сила

XCoder · 30 июн 2012

jei сказал(а):

выставили защиту от парсинга
Нажмите, чтобы раскрыть...

Если вы можете открыть страницу в браузере с тем результатом, который ожидаете - парсер без проблем вытащит то же самое.

jei сказал(а):

Вообщем если слямзить эту базу юзверов
Нажмите, чтобы раскрыть...

Извините, прочитал дважды и не совсем понял, наверное, слишком оторвано от конкретного примера, но позволю предположить, что система выдает на разных страницах разные данные о пользователе, вы же хотите, собирая по кусочкам сведения, воссоздать БД в как можно более полном виде, верно? Это совершенно нормальное явление, особенно, если каталоги или сервисы не дают возможность выдать все скопом со всеми параметрами, но при этом требуется собрать полную единую базу (со множеством данных по разным критериям). Например, в каталоге, допустим, Яндекс.Маркета, товары поделены на категории тематические, а вам было бы нужно собрать таблицу с общим названием "Каталог товаров интернет-магазина [Name]". Надеюсь, я верно понял то, что вы подразумевали.

Если вы пытаетесь парсить, используя тот кусок кода, который привели в начале темы, то тогда очевидно, что подразумевается под "защитой от парсинга". Подделайте клиентский запрос, если вам доступны при просмотре в браузере те сведения, которые вы ищете. Настройте курл на получение кук, авторизуйтесь на сайте, разрешите авто-редирект, подделайте хидеры, заставьте сервер ответить "браузеру".

Gambit · 30 июн 2012

XCoder сказал(а):

Если вы можете открыть страницу в браузере с тем результатом, который ожидаете - парсер без проблем вытащит то же самое.
Нажмите, чтобы раскрыть...

Согласен. Исходя из логики так и есть. Но все же, почему он не открывается. Другие же открываются. К тому же наберите в гуглу "Защита страницы от парсинга". Темболее открыть страницу в браузере != открыть ее парсеру.

Добавлено спустя 1 минуту 51 секунду:
Вот тебе пример: существуют проги для рипа сайта. Знаешь как от них защищаются? Проги то куки не сохраняют, тобиш:

setcookie(бла-бла-бла);
if(кука отсутствует) {
echo 'Forbidden...';
}

Добавлено спустя 52 секунды:
При парсинге куки вроде не могут проставиться.

jei · 30 июн 2012

XCoder смотрите есть данные о пользователе на его личном профайле я туда ему могу написать
Но что бы узнать что это он я должен вычислить по определённому критерию.Так вот этот критерий
присутствует и там где его Имя секретится и на его личном профайле.Кароче всё очень просто
Надо только подделать запрос.И выкачать парсером 10660 страниц и сохранить тупо в файл.

Добавлено спустя 17 минут 53 секунды:
всё понятно я ошибку допустил в адресе сайта забыл)))
Всё начинаем брать себе базу)))

Код (Text):

<?php

// 1. инициализация

$ch = curl_init();

// 2. указываем параметры, включая url

curl_setopt($ch, CURLOPT_URL, "секрет");

curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2 (.NET CLR 3.5.30729)");

curl_setopt($ch, CURLOPT_REFERER, 'http://google.com');

curl_setopt($ch, CURLOPT_COOKIEJAR, 'незнаю чо тут');

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_HEADER, 0);

// 3. получаем HTML в качестве результата

$output = curl_exec($ch);

curl_setopt($ch, CURLOPT_FILE, $fp);

// 4. закрываем соединение

curl_close($ch);

echo 'НАПАДАЕМ 2';

?>

XCoder · 30 июн 2012

Gambit сказал(а):

При парсинге куки вроде не могут проставиться.
Нажмите, чтобы раскрыть...

1. Куки - это механизм хранения определенных данных, которые передаются в заголовках, т.к. заголовки можно спокойно прописать вручную, то как таковые куки совершенно не обязательны.
2. А в CURL работа с куками очень проста, изучите на досуге по теме:

Код (Text):

curl _setopt($ch, CURLOPT_COOKIEFILE, "cookie.txt"); // откуда читаем

curl _setopt($ch, CURLOPT_COOKIEJAR, "cookie.txt"); // куда пишем

jei · 30 июн 2012

XCoder да это всё понятно у меня тут банальный стопор открыть файл сместить указатель вконец
и записать туда следующую страницу))) Кароче по моим вычислениям текстовой файл будет
весить 1гиг 300 меторов)))

Код (Text):

$fp = fopen("example_homepage.txt", "w");

fwrite($fp, $output);

fseek($fp, 0);

Ладно я уехал

igordata · 30 июн 2012

file_put_contents с флагом на аппенд

jei · 30 июн 2012

igordata сказал(а):

file_put_contents с флагом на аппенд
Нажмите, чтобы раскрыть...

file_put_contents($fp, $output, FILE_APPEND | LOCK_EX);
решила проблему только fopen уже не надо применять.

Теперь ещё нарисовалась проблемка надо небольшую регулярку составить
имеем кусок штмл

Код (Text):

<strong class="r_positive"><a href="/users/alexeyplekhanov/opinions/">0</a></strong> / <strong class="r_neutral"><a href="/users/alexeyplekhanov/opinions/">0</a></strong> / <strong class="r_negative"><a href="/users/alexeyplekhanov/opinions/">0</a></strong><br />

кароче где идёт логин alexeyplekhanov эти места строка должна проста проходит не учитываю
разные ники поиск будет задаваться только критериями 0 0 0 в данном случае а бывает по другому
8 0 1 кароче 3-ёх значное число

парсинг кое какого сайта))

jei Активный пользователь

Gambit Активный пользователь

XCoder Активный пользователь

jei Активный пользователь

Gambit Активный пользователь

igordata Суперстар
Команда форума Модератор

jei Активный пользователь

XCoder Активный пользователь

Gambit Активный пользователь

jei Активный пользователь

XCoder Активный пользователь

jei Активный пользователь

igordata Суперстар
Команда форума Модератор

jei Активный пользователь

Быстрый поиск

парсинг кое какого сайта))

jei Активный пользователь

Gambit Активный пользователь

XCoder Активный пользователь

jei Активный пользователь

Gambit Активный пользователь

igordata Суперстар Команда форума Модератор

jei Активный пользователь

XCoder Активный пользователь

Gambit Активный пользователь

jei Активный пользователь

XCoder Активный пользователь

jei Активный пользователь

igordata Суперстар Команда форума Модератор

jei Активный пользователь

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор