Парсер с помощью DOM

wtfowned · 4 окт 2007

Привет всем.
Моя будущая задача - писать парсеры поисковых систем .
Можно это делать просто при помощи PHP :
fopen и построчно при помощи регулярок разбирать .
Меня интересует , можно ли открывать удаленные файлы и разбирать из при помощи DOM ?
Функция load открывает только локальные файлы .
Как быть?

Sergey89 · 4 окт 2007

loadXML используйте. Он строку принимает, а не имя файла.

wtfowned · 4 окт 2007

Так , идею понял. То есть грузить содержимое в переменную , и грузить ее с помощью loadHTML .
Теперь проблема , из-за чего может быть глюк , что такое не работает ?

allow_url_fopen = On

PHP:

<?php

$s = file_get_contents('http://yandex.ru/');

echo $s;

?>

Warning: file_get_contents(http://yandex.ru/) [function.file-get-contents]: failed to open stream: Попытка установить соединение была безуспешной, т.к. от другого компьютера за требуемое время не получен нужный отклик, или было разорвано уже установленное соединение из-за неверного отклика уже подключенного компьютера. in C:\AppServ\www\dom.php on line 2

Нажмите, чтобы раскрыть...

wtfowned · 4 окт 2007

В поиске решения так и не было , все ссылались на баг .

Штаны · 4 окт 2007

wtfowned сказал(а):

Так , идею понял. То есть грузить содержимое в переменную , и грузить ее с помощью loadHTML .
Теперь проблема , из-за чего может быть глюк , что такое не работает ?

allow_url_fopen = On

PHP:

<?php

$s = file_get_contents('http://yandex.ru/');

echo $s;

?>

Нажмите, чтобы раскрыть...

У меня этот код прекрасно работает

wtfowned · 10 окт 2007

Немного забросил темку.
Проблема , кстати , заключалась в том , что браузер работал через прокси-сервер (на работе) .
В общем разобрался с домовским классом в пхп , но там куча ньюансов своих .
Ещё бесит , что при загрузке хтмл контента в DOM , он сразу же проверяет на соответствие стандарту , прописанному в doctype -.-
А так пока все понятно , гораздо приятнее получать данные со страницы именно этим методом , а не тупым проходом по всем строкам подряд , в поисках соответствия регулярке =)

Парсер с помощью DOM

wtfowned Активный пользователь

Sergey89 Активный пользователь

wtfowned Активный пользователь

wtfowned Активный пользователь

Штаны Guest

wtfowned Активный пользователь

Быстрый поиск

Парсер с помощью DOM

wtfowned Активный пользователь

Sergey89 Активный пользователь

wtfowned Активный пользователь

wtfowned Активный пользователь

Штаны Guest

wtfowned Активный пользователь