За последние 24 часа нас посетили 15704 программиста и 1543 робота. Сейчас ищут 942 программиста ...

Как прочитать страницу, если исходники не HTML ?

Тема в разделе "PHP для новичков", создана пользователем Юрий Удовиченко, 26 сен 2011.

  1. Юрий Удовиченко

    Юрий Удовиченко Активный пользователь

    С нами с:
    26 сен 2011
    Сообщения:
    25
    Симпатии:
    0
    Адрес:
    Хабаровск
    Приветствую! Может я потерял логику (пытаюсь всё вспомнить и разобраться на корню) - но не понимаю: Вот есть страница http://www.present-dv.ru/present/current
    Она ссылается на другую (внутри подкаталогов меню) на страницу http://www.present-dv.ru/present/current/nedv15
    Т.е. реальный код файла не известен. Мне надо эту (готовую HTML страницу) обработать и разобрать по кусочкам.

    Я понимаю, что исходный код - не HTML, а может быть PHP иди ещё каким угодно другим, т.е. расширение неизвестно. И Сервер мне не даст права скачать файл напрямую (пробовал).
    Так как же тогда получить готовый HTML код, после обработки, чтоб не скачивать и не сохранять её вручную?
    Как я понимаю, страница всё равно должна быть интерпретирована, но как это сделать?

    Перерыл все функции, работающие с файлами - ответа пока не нашёл.

    Заранее благодарен за любой ответ. Можете отвечать кодом любой сложности - попробую разобраться.

    Спасибо.
     
  2. Апельсин

    Апельсин Активный пользователь

    С нами с:
    20 мар 2010
    Сообщения:
    3.645
    Симпатии:
    2
    file_get_contents
     
  3. Юрий Удовиченко

    Юрий Удовиченко Активный пользователь

    С нами с:
    26 сен 2011
    Сообщения:
    25
    Симпатии:
    0
    Адрес:
    Хабаровск
    О! Спасибо огромное. Так и знал, что либо что-то очень сложное, либо до банальности простое.
    Попробовал - работает.

    Единственное долго не мог понять, почему подстроку найти не может, как из обычного, ранее сохранённого файла. Пробовал по всякому htmlspecialchars() и с decode и с htmlentities - всё равно так и остаётся. Потом понял, что двойные кавычки title="ОБЪЯВЛЕНИЕ" преобразовало в одинарные title='ОБЪЯВЛЕНИЕ' так вот просто. Поменял и пошло, но прикол остался. Наверняка и многое другое изменило. Может не та кодировка? Или чем-то профильтровать надо?
     
  4. Апельсин

    Апельсин Активный пользователь

    С нами с:
    20 мар 2010
    Сообщения:
    3.645
    Симпатии:
    2
    Ничего там не преобразовывается. Все, что в браузере можно увидеть через "Исходный код страницы", то и функция тебе возвращает.
    Но сам браузер может корректировать хтмл код, дабы сделать страницу корректной для отображения при исп. определенного DOCTYPE.
     
  5. Юрий Удовиченко

    Юрий Удовиченко Активный пользователь

    С нами с:
    26 сен 2011
    Сообщения:
    25
    Симпатии:
    0
    Адрес:
    Хабаровск
    Ага. Воно как. Действительно.