За последние 24 часа нас посетили 51375 программистов и 1758 роботов. Сейчас ищут 713 программистов ...

Чем лучше парсить

Тема в разделе "Прочие вопросы по PHP", создана пользователем radioedit, 26 июл 2007.

Статус темы:
Закрыта.
  1. radioedit

    radioedit Активный пользователь

    С нами с:
    17 апр 2007
    Сообщения:
    19
    Симпатии:
    0
    Собсна вопрос к знатокам хмл и парсеров.

    Задача следующая есть класс который парсит контент, выделяет формы и все элементы форм записывает в ассоц массив, примерно вот так.
    [form1] = array(
    action=index.php
    method=post
    text=login
    submit=op
    )
    Но не суть, класс в принципе работает очень даже исправно, но очень не красиво, вопрос о повторном использовании и рядом не валялся.

    Хочется воспользоваться какими-либо встроенными средствами, например simplexm илиl domDocument, но...
    файлы разные, очень много кривого контента, соответственно ни domDocument->loadhtmlfile ни simplexml_load_file не работают как надо, начинают ругаться, мол где-то тег левый нашелся, где-то иды совпали и т.д.

    Что посоветуете? Есть ли еще народные методы???
    Спасибо
     
  2. Sergey89

    Sergey89 Активный пользователь

    С нами с:
    4 янв 2007
    Сообщения:
    4.796
    Симпатии:
    0
    Действительно народный метод - регулярки :) Можно попробовать заюзать tidy, а уже потом simplexml.
     
Статус темы:
Закрыта.