Как прочитать страницу, если исходники не HTML ?

Юрий Удовиченко · 26 сен 2011

Приветствую! Может я потерял логику (пытаюсь всё вспомнить и разобраться на корню) - но не понимаю: Вот есть страница http://www.present-dv.ru/present/current
Она ссылается на другую (внутри подкаталогов меню) на страницу http://www.present-dv.ru/present/current/nedv15
Т.е. реальный код файла не известен. Мне надо эту (готовую HTML страницу) обработать и разобрать по кусочкам.

Я понимаю, что исходный код - не HTML, а может быть PHP иди ещё каким угодно другим, т.е. расширение неизвестно. И Сервер мне не даст права скачать файл напрямую (пробовал).
Так как же тогда получить готовый HTML код, после обработки, чтоб не скачивать и не сохранять её вручную?
Как я понимаю, страница всё равно должна быть интерпретирована, но как это сделать?

Перерыл все функции, работающие с файлами - ответа пока не нашёл.

Заранее благодарен за любой ответ. Можете отвечать кодом любой сложности - попробую разобраться.

Спасибо.

Апельсин · 26 сен 2011

file_get_contents

Юрий Удовиченко · 26 сен 2011

О! Спасибо огромное. Так и знал, что либо что-то очень сложное, либо до банальности простое.
Попробовал - работает.

Единственное долго не мог понять, почему подстроку найти не может, как из обычного, ранее сохранённого файла. Пробовал по всякому htmlspecialchars() и с decode и с htmlentities - всё равно так и остаётся. Потом понял, что двойные кавычки title="ОБЪЯВЛЕНИЕ" преобразовало в одинарные title='ОБЪЯВЛЕНИЕ' так вот просто. Поменял и пошло, но прикол остался. Наверняка и многое другое изменило. Может не та кодировка? Или чем-то профильтровать надо?

Апельсин · 26 сен 2011

Ничего там не преобразовывается. Все, что в браузере можно увидеть через "Исходный код страницы", то и функция тебе возвращает.
Но сам браузер может корректировать хтмл код, дабы сделать страницу корректной для отображения при исп. определенного DOCTYPE.

Юрий Удовиченко · 27 сен 2011

Ага. Воно как. Действительно.

Как прочитать страницу, если исходники не HTML ?

Юрий Удовиченко Активный пользователь

Апельсин Активный пользователь

Юрий Удовиченко Активный пользователь

Апельсин Активный пользователь

Юрий Удовиченко Активный пользователь

Быстрый поиск

Как прочитать страницу, если исходники не HTML ?

Юрий Удовиченко Активный пользователь

Апельсин Активный пользователь

Юрий Удовиченко Активный пользователь

Апельсин Активный пользователь

Юрий Удовиченко Активный пользователь