file_get_html переполняет память. Парсер.

karama23 · 30 окт 2016

Здравствуйте.

Имею парсер, в парсере использую конструкцию:

$perem1 = file_get_html('https://www.link.tld');
foreach($perem1->find('span.breadcrumbs-link-count') as $perem2)
echo "$perem2->plaintext" . '<br>';

В парсере таких запросов много. И получается, что переменные вида $perem1, содержащие целые страницу в себе, не очищаются и забивают всю память. Соответственно скрипт не отрабатывает до конца.

Мне нужно как-то очистить переменную $perem1 после того как отработает find и запишет данные в переменную $perem2.

За ранее спасибо.

denis01 · 30 окт 2016

Только в правилах запрещено обсуждение парсеров. Используй API сайта вместо парсинга.
--- Добавлено ---
link.tld так круто, но можно по рекомендациям IANA использовать специальные домены для примеров: example.com, example.org, example.net https://ru.wikipedia.org/wiki/Домены_для_примеров

karama23 · 30 окт 2016

denis01 сказал(а): ↑

Только в правилах запрещено обсуждение парсеров. Используй API сайта вместо парсинга.
Нажмите, чтобы раскрыть...

Насчет IANA я понял.

Насчет парсера - у сайта нет своего API. По другому не получить данных.

ADSoft · 30 окт 2016

unlink() ?

karama23 · 30 окт 2016

ADSoft сказал(а): ↑

unlink() ?
Нажмите, чтобы раскрыть...

Но у меня не создается никакого файла. Все в памяти.

ADSoft · 30 окт 2016

туплю с утра... попил кофе - unset() конечно же

karama23 · 30 окт 2016

ADSoft сказал(а): ↑

туплю с утра... попил кофе - unset() конечно же
Нажмите, чтобы раскрыть...

Получается вот что:

$perem1 = file_get_html('https://www.link.tld');
foreach($perem1->find('span.breadcrumbs-link-count') as $perem2)
unset ($perem1);
echo "$perem2->plaintext" . '<br>';

При количестве таких конструкций более 20 получаю ошибку:
Fatal error: Allowed memory size of ...

Как и без unset ($perem1);

ADSoft · 30 окт 2016

Мне нужно как-то очистить переменную $perem1

Нажмите, чтобы раскрыть...

я подсказал...

mkramer · 31 окт 2016

http://simplehtmldom.sourceforge.net/manual_api.htm,

void clear () Clean up memory.

Нажмите, чтобы раскрыть...

Fell-x27 · 31 окт 2016

karama23 сказал(а): ↑

Насчет парсера - у сайта нет своего API. По другому не получить данных.
Нажмите, чтобы раскрыть...

А может быть они просто не хотят, чтобы кто-то получал их данные? Может нужно сначала поговорить с разрабами сайта, прежде, чем тащить у них контент, в который они вкладывали труд?

file_get_html переполняет память. Парсер.

karama23 Новичок

denis01 Суперстар
Команда форума Модератор

karama23 Новичок

ADSoft Старожил

karama23 Новичок

ADSoft Старожил

karama23 Новичок

ADSoft Старожил

mkramer Суперстар
Команда форума Модератор

Fell-x27 Суперстар
Команда форума Модератор

Быстрый поиск

file_get_html переполняет память. Парсер.

karama23 Новичок

denis01 Суперстар Команда форума Модератор

karama23 Новичок

ADSoft Старожил

karama23 Новичок

ADSoft Старожил

karama23 Новичок

ADSoft Старожил

mkramer Суперстар Команда форума Модератор

Fell-x27 Суперстар Команда форума Модератор

denis01 Суперстар
Команда форума Модератор

mkramer Суперстар
Команда форума Модератор

Fell-x27 Суперстар
Команда форума Модератор