php парсер

MaciFree · 15 дек 2021

Сервер генерирует страницу, в html код которой выводится кусок js скрипта

Код (Text):

app.init({

seo: {

seoParams: [

{ tagName: "meta", attributesDictionary: { property: "og:image", content: "https://site.ru/images/123456.jpg" } },

{ tagName: "meta", attributesDictionary: { property: "og:title", content: "Тайтл страницы" } },

{ tagName: "meta", attributesDictionary: { property: "og:description", content: "Описание для страницы" } },

],

},

});

я с помощью библиотеки phpquery распарсил html код, на выводе получаю текст, который между тэгов <script></script>, пример выше.

как мне дальше используя php достать и оставить только то, что находится между app.init({вся нужная инфа});?

artoodetoo · 15 дек 2021

@MaciFree большой брат следит за тобой. парсеры это скользкая тема и здесь ты можешь легко схлопотать бан. потому что контент надо получать легально! часто для этого предоставляется удобный API.

что касается добычи данных, то для частного случая можно сочинить регулярку с рекурсией, чтобы она справлялась с вложенными скобками. но в общем случае, регулярки не годятся для полного разбора. их удел разбиение на лексемы, а дальше должен работать какой-то анализатор грамматики более высокого уровня. возможно на низколм уровне тебе пригодятся token_get_all token_name

про разбор выражения (а это оно) написано много хороших книг. гугли написание компиляторов.

php парсер

MaciFree Новичок

artoodetoo Суперстар
Команда форума Модератор

Быстрый поиск

php парсер

MaciFree Новичок

artoodetoo Суперстар Команда форума Модератор

artoodetoo Суперстар
Команда форума Модератор