За последние 24 часа нас посетили 88273 программиста и 5013 роботов. Сейчас ищут 2002 программиста ...

Как спарсить статью?

Тема в разделе "PHP для новичков", создана пользователем AnteFil, 14 апр 2023.

Статус темы:
Закрыта.
  1. AnteFil

    AnteFil Активный пользователь

    С нами с:
    14 янв 2014
    Сообщения:
    531
    Симпатии:
    4
    Есть статья в формате текс+картинка. В статье они могут чередоваться по разному например 2 блока текста блок с катикой или блок с картинкой потом текст, потом опять картинка потом опять текст. Не могу придумать как забрать и текст и картинки при этом сохранить структуру статьи.
     
  2. AnteFil

    AnteFil Активный пользователь

    С нами с:
    14 янв 2014
    Сообщения:
    531
    Симпатии:
    4
    Я вырезал нужгый блок тоесть. Сама статья находиться в теге <artical>Текст статьи </artical>
    По сути у меня есь эта статья уже но беда с форматированием это все нужно удалить. Если удалять через php teg то получаеться каша. Структура приблизительно такая:
    <p>текст</p>
    <kart>изображение</kart>
    <p>текст</p>
    <kart>изображение</kart>
    <p>текст</p>
    <kart>изображение</kart>
    <p>текст</p>
    <kart>изображение</kart>
    --- Добавлено ---
    Я думаю так что надо как то заносить блоки в массив сохраняя очередность. Как это сделать не понятно
    --- Добавлено ---
    Если через регулярку _all на подобии такой '<p>|<kart>' находим все вхождения того или иного блока. Затем начиная с конца отрезаем найденный блок записываем в массив оставшееся пускаем в новый цикл. До тех пор пока все не перебереться. После чего разворачиваем массив и вроде все ок. Как вам план?
     
  3. Dimon2x

    Dimon2x Старожил

    С нами с:
    26 фев 2012
    Сообщения:
    2.199
    Симпатии:
    183
    Парсеры запрещено обсуждать.
     
    don.bidon нравится это.
  4. don.bidon

    don.bidon Активный пользователь

    С нами с:
    28 мар 2021
    Сообщения:
    947
    Симпатии:
    147
    Странно, что человек с 530-ми сообщениями не знает и не понимает этого.
     
Статус темы:
Закрыта.