при парсинге в строку с урлом попадает всякий мусор

zhito · 4 мар 2008

всем доброго времени суток!
вместо списка урлов может просочиться такая например строчка
http://www.luxpotolok.ru. �� Joomla! ..." href=http:/
подскажите плз что в патерне поправить чтоб только урлы на выходе были?

Код (Text):

$result = parse_serp("google", "новые технологии");

$x=0;

foreach($result as $v)

{

echo '<br>' .$v;

}

function parse_serp($engine, $query)

{

switch (strtolower($engine))

{

case 'google':

$request = 'http://www.google.com/ie?hl=en&num=100&start=0&lr=&q='.urlencode(trim($query));

$pattern = '/http:\/\/(.+)\//isU';

$result = file_get_contents($request);

if(preg_match_all($pattern, $result, $matches))

{

for ($i=0; $i<count($matches[0]); $i++)

{

$link = $matches[0][$i];

$serp[] = $link;

}

}

break;

Sergey89 · 4 мар 2008

http:\/\/(.+)\/
Нажмите, чтобы раскрыть...

http://www.luxpotolok.ru. �� Joomla! ..." href=http:/
Нажмите, чтобы раскрыть...

Не находишь связь?

Код (Text):

http:\/\/(\S+)\/

440Hz · 4 мар 2008

мож пригодиться.
уж коли гугл дергаешь, то дергай правильно и со вкусом...

http://php.ru/forum/viewtopic.php?t=10527

zhito · 27 мар 2008

огромное спасибо!
но остались еще вопросы
задача - получить содержимое в теге <td class="556677" width="100%">
что-то опять наверное напутал т.к. получаю пустой массив

$request = 'http://hghghg.ru';
$pattern = '/<td\s*class=\"556677\"\s*width=\"100\%\">(.*)<\/td>/is';
$result = file_get_contents($request);
if(preg_match_all($pattern, $result, $matches))
{

echo $matches[0][0] ;

}

440Hz · 27 мар 2008

\s+

Sergey89 · 28 мар 2008

/isU
Нажмите, чтобы раскрыть...

zhito · 28 мар 2008

а тут оказывается часть страницы формируется функцией document.write
выглядит это примерно так:

Код (Text):

<script>document.write(two('hjkhjkhjkhjhJKHKJHJKhjkhJKHJKHJKH'));</script>

как ее содержимое можно разкодировать?

zhito · 28 мар 2008

неужели проблемотично?
что ж защиту от парсинга тоже полезно знать

при парсинге в строку с урлом попадает всякий мусор

zhito Активный пользователь

Sergey89 Активный пользователь

440Hz Старожил
Команда форума Модератор

zhito Активный пользователь

440Hz Старожил
Команда форума Модератор

Sergey89 Активный пользователь

zhito Активный пользователь

zhito Активный пользователь

Быстрый поиск

при парсинге в строку с урлом попадает всякий мусор

zhito Активный пользователь

Sergey89 Активный пользователь

440Hz Старожил Команда форума Модератор

zhito Активный пользователь

440Hz Старожил Команда форума Модератор

Sergey89 Активный пользователь

zhito Активный пользователь

zhito Активный пользователь

440Hz Старожил
Команда форума Модератор

440Hz Старожил
Команда форума Модератор