Как примирить curl_multi_select и curl_multi_info_read?

yup · 7 ноя 2024

Возникла у меня задача, в рамках которой нужно периодически опрашивать достаточно большое число веб-страниц, причём делать это быстро и в то же время не сильно грузя процессор, да и всю систему в целом, так как работать должно на довольно слабой машине, на которой и без того много всякого крутится.

Подобные задачи на PHP раньше решать не приходилось, поэтому полез читать документацию по curl_* (и, в частности, по curl_multi_*).

Почитал, написал код. Не работает. Помучился-поэкспериметировал сначала сам - не помогло. Поизучал Интернет, ужаснулся увиденному, но некий работающий вариант из кусочков вселенского мусора знания собрал (URL-ы здесь просто для примера, чтобы можно было скопировать код и сразу запустить, но всё остальное: "Шаг влево, шаг вправо - пуля в голову, и не обязательно серебряная"):

PHP:

<?php

$targets = array(

'https://ya.ru/',

'https://google.ru',

'https://msfn.org/',

);

$MultiCURL = curl_multi_init();

if (!curl_multi_setopt($MultiCURL, CURLMOPT_MAX_TOTAL_CONNECTIONS, 5))

die('Failed when setting max connections parameter');

$options = array(

CURLOPT_FOLLOWLOCATION => true

, CURLOPT_RETURNTRANSFER => true

, CURLOPT_CONNECTTIMEOUT => 10

, CURLOPT_TIMEOUT => 15

);

if (defined('CURLSSLOPT_NATIVE_CA') && version_compare(curl_version()['version'], '7.71', '>=')) {

$options[CURLOPT_SSL_OPTIONS] = CURLSSLOPT_NATIVE_CA;

} else {

$options[CURLOPT_CAINFO] = 'cacert.pem'; // список сертификатов брать с https://curl.se/ca/cacert.pem

}

foreach ($targets as $target) {

if (($ch = curl_init()) === false)

die('Failed init for ' . $target);

if (!curl_setopt_array($ch, $options))

die('Failed setting options for' . $target);

if (!curl_setopt($ch, CURLOPT_URL, trim($target)))

die('Failed setting proxy address' . $target);

$rc = curl_multi_add_handle($MultiCURL, $ch);

if ($rc)

die($curl_multi_status[$rc] . ' when adding ' . $target);

}

while (curl_multi_exec($MultiCURL, $running) == CURLM_CALL_MULTI_PERFORM);

while ($running > 0) {

$sel = curl_multi_select($MultiCURL, 10);

while (curl_multi_exec($MultiCURL, $running) == CURLM_CALL_MULTI_PERFORM);

if ($sel < 1) continue;

while (($info = curl_multi_info_read($MultiCURL)) != false) {

$ch = $info['handle'];

$info = curl_getinfo($ch);

$httpCode = $info['http_code'];

$text = "\r\nURL: ${info['url']} | HTTP code: $httpCode";

$text .= "\r\nTotal time: ${info['total_time']}\r\n";

echo "$text\r\n";

if ($httpCode == 200) {

//...

}

curl_multi_remove_handle($MultiCURL, $ch);

curl_close($ch);

}

}

?>

Всё, вроде бы, хорошо, работает, и даже довольно шустро, только вот процессор во время этой своей работы грузит неслабо. А это противоречит условиям задачи, да и вообще не соответствует логике алгоритма и обещаниям документации.

Начал разбираться и обнаружил ужасы.

Во-первых, вызов curl_multi_select(), вместо того, чтобы долго висеть в ожидании поступления ответов на запросы, завершается моментально и возвращает -1, что означает ошибку в общении со стеком операционки. И хотя почти вся остальная часть цикла при этом пропускается, процессор всё равно грузится.
И только после изрядного количества оборотов цикла -1 меняется на положительное число.

Во-вторых, даже когда curl_multi_select() говорит, что данные пришли, curl_multi_info_read() возвращает false ("Нет никаких ответов").
И ещё сколько-то оборотов цикла должны прокрутиться, прежде чем curl_multi_info_read() соизволит-таки заметить пришедшие ответы. А значит, ещё бессмысленная нагрузка на процессор.

В-третьих, даже если curl_multi_info_read() увидела несколько (3-4-5) пришедших ответов, вовсе не факт, что их все удастся вычитать во внутреннем цикле. Нередко вычитываются только часть из пришедших, а остальные - на следующих проходах внешнего цикла.

Соответственно, вопросы:

1. Как сделать, чтобы curl_multi_select() висела до прихода ответов (как того обещает документация)?

2. Как сделать, чтобы curl_multi_info_read() вычитывала всё, что пришло, не откладывая часть "на потом"?

Частично я проблему бессмысленных циклов сгладил, вставив в цикле задержку на полсекунды (usleep(500000)) перед вызовом curl_multi_select(). Но это же костыль, а хочется, чтобы было по-человечески.

don.bidon · 8 ноя 2024

может, попробовать wget2 и парсить скачанное потом?

yup · 8 ноя 2024

Насколько я понял из описания, это "wget c многопоточным выкачиванием сайта". А в моём случае с каждого "сайта" нужно выкачивать ровно одну "страничку". То есть, нужно будет кучу раз запускать wget. А это очевидный проигрыш даже по сравнению с кучей обычных вызовов curl_exec().
--- Добавлено ---
И ещё одна часть моих проблем (о которой я не упоминал раньше, потому что она с вопросами не связана) - линии связи с "серверами" (на самом деле это датчики) я должен считать ненадёжными. Поэтому мне нужно получать как можно более низкоуровневую информацию о сеансе связи (в идеале вообще оперативную, то есть даже для ещё открытых сокетов), чтобы в случае чего оперативно извещать человека: "У вас ус отклеился датчик отвалился, срочно принимайте меры." От внешних утилит-"качалок" такого не дождёшься.

Vladimir Kheifets · 9 ноя 2024

yup сказал(а): ↑

И ещё одна часть моих проблем (о которой я не упоминал раньше, потому что она с вопросами не связана) - линии связи с "серверами" (на самом деле это датчики) я должен считать ненадёжными. Поэтому мне нужно получать как можно более низкоуровневую информацию о сеансе связи (в идеале вообще оперативную, то есть даже для ещё открытых сокетов), чтобы в случае чего оперативно извещать человека: "У вас ус отклеился датчик отвалился, срочно принимайте меры." От внешних утилит-"качалок" такого не дождёшься.
Нажмите, чтобы раскрыть...

Добрый день!
Правильно ли понял, что на обоих серверах - на сервере 1 где датчики и на сервере 2 где обработчики сигналов, установлены Ваши скрипты?

yup · 9 ноя 2024

Нет.

1. Датчики не на сервере, они - каждый сам по себе сервер. Именно отсюда вся проблема: приходится же опрашивать хренову тучу IP-адресов.
2. Я занимаюсь только опросом. А к самим датчикам настолько не имею никакого отношения, что у меня нет ни их образцов, ни даже удалённого доступа. Поэтому вынужден имитировать их на своём собственном сервере. Но это элементарно просто - от них приходит даже не HTML-документ, а всего лишь несколько обычных текстовых строк.

Но чисто философски моё творение и можно будет расценивать как сервер, к которому подключены датчики, поскольку информацию от них я складываю в SQL БД, и дальше к ней доступается уже кто-то другой (визуализатор).

Vladimir Kheifets · 9 ноя 2024

yup сказал(а): ↑

Нет.

1. Датчики не на сервере, они - каждый сам по себе сервер. Именно отсюда вся проблема: приходится же опрашивать хренову тучу IP-адресов.
2. Я занимаюсь только опросом. А к самим датчикам настолько не имею никакого отношения, что у меня нет ни их образцов, ни даже удалённого доступа. Поэтому вынужден имитировать их на своём собственном сервере. Но это элементарно просто - от них приходит даже не HTML-документ, а всего лишь несколько обычных текстовых строк.

Но чисто философски моё творение и можно будет расценивать как сервер, к которому подключены датчики, поскольку информацию от них я складываю в SQL БД, и дальше к ней доступается уже кто-то другой (визуализатор).
Нажмите, чтобы раскрыть...

Чисто философски, если Вы имитирует датчики, т,е. как-то имитируете смену их показаний, то почему Вы не можете при смене покаказаний отправлять request на скрипт визуализатор на другом сервере?

yup · 9 ноя 2024

Смену показаний я не имитирую - нет смысла. Мне нужно получить оттуда несколько строк вида "имя_параметра=значение_параметра", разобрать их и обновить записи в БД по принципу: IP-адрес это ключ, по которому выбирается запись, а имена обновляемых в ней полей определяются именами параметров, которые я получил.

Опрос производится регулярно, по таймеру, следить за изменениями значений и извещать при изменениях не требуется.
Поэтому сейчас мои усилия направлены на имитацию разных возможных проблем со связью (каналы ненадёжные).

yup · 9 ноя 2024

Да, кстати: после несколькодневных экспериментов выяснилось, что английский вариант документации можно правильно понять, только если точно знаешь, как его следует понимать И у переводчиков на русский язык такого понимания не было.

В общем, тот вариант работы работы с curl_multi, который я привёл в самом начале, и есть единственно возможный.
(Ещё иногда бывают нужны дополнительные нелепые телодвижения, но о них писать не буду - всё равно никто не поверит.)

Vladimir Kheifets · 10 ноя 2024

yup сказал(а): ↑

Да, кстати: после несколькодневных экспериментов выяснилось, что английский вариант документации можно правильно понять, только если точно знаешь, как его следует понимать И у переводчиков на русский язык такого понимания не было.

В общем, тот вариант работы работы с curl_multi, который я привёл в самом начале, и есть единственно возможный.
(Ещё иногда бывают нужны дополнительные нелепые телодвижения, но о них писать не буду - всё равно никто не поверит.)
Нажмите, чтобы раскрыть...

Ранее Вы написали

Возникла у меня задача, в рамках которой нужно периодически опрашивать достаточно большое число веб-страниц...

1. Датчики не на сервере, они - каждый сам по себе сервер. Именно отсюда вся проблема: приходится же опрашивать хренову тучу IP-адресов.
2. Я занимаюсь только опросом. А к самим датчикам настолько не имею никакого отношения, что у меня нет ни их образцов, ни даже удалённого доступа.

Нажмите, чтобы раскрыть...

Обычно, когда в распределённых системах решается какая-то реальная задача,
в начале определяется источник и структура данных, а также регламент доступа к ним.
У Вас этого нет.
Вы поэкспериментировали curl_multi_select и curl_multi_info_read
и оценили их работособособность и ресурсоёмкость.
Ваше оценка этих функций может быть полезна для принятия решений
о целесообразности их использования.
Удачи!

yup · 11 ноя 2024

Да, прежде чем использовать использовать новый для себя инструмент в серьёзной работе, нужно его как следует изучить.
(Как говорилось в анекдоте 80-х годов: "Хлопцi, вчiть матчасть, бо дуже б'ють, коли питають.")

Вчера, например, обнаружил, что curl загаживает TCP/IP-стек операционки - после каждого полученного по HTTP ответа сервера там остаётся недозакрытое соединение (хотя я честно вызываю curl_close()). И висит оно там, отъедая ценный ресурс (порт), минуту-две-пять - в зависимости от операционной системы.

И страдает этим не только PHP-шный модуль, но и сама утилита curl, и вообще всё, что использует библиотеку libcurl.

Причём известно об этой проблеме минимум лет двадцать, и авторы libcurl о ней знают, но всех жалующихся посылают на три буквы: WAD.

Хотя способ борьбы с этим я нашёл, прямо средствами curl. Не со всеми серверами, правда, помогает, но в данном случае все и не надо.

l_2001 · 13 ноя 2024

yup сказал(а): ↑

Насколько я понял из описания, это "wget c многопоточным выкачиванием сайта". А в моём случае с каждого "сайта" нужно выкачивать ровно одну "страничку". То есть, нужно будет кучу раз запускать wget. А это очевидный проигрыш даже по сравнению с кучей обычных вызовов curl_exec().
--- Добавлено ---
И ещё одна часть моих проблем (о которой я не упоминал раньше, потому что она с вопросами не связана) - линии связи с "серверами" (на самом деле это датчики) я должен считать ненадёжными. Поэтому мне нужно получать как можно более низкоуровневую информацию о сеансе связи (в идеале вообще оперативную, то есть даже для ещё открытых сокетов), чтобы в случае чего оперативно извещать человека: "У вас ус отклеился датчик отвалился, срочно принимайте меры." От внешних утилит-"качалок" такого не дождёшься.
Нажмите, чтобы раскрыть...

У меня в 4-е потока льются данные через curl и я никаких тормозов не нашёл... проверьте тайминги при отработке, надеюсь тесты Вам доступны! так-же работает и wget... единственное, я бы порекомендовал, запускать всё это дело через jenkis, он корректно умеет закрывать и открывать рабочие сессии...

yup · 13 ноя 2024

l_2001 сказал(а): ↑

У меня в 4-е потока льются данные через curl и я никаких тормозов не нашёл...
Нажмите, чтобы раскрыть...

У меня сейчас при тестированиях в процессе написания параллельно запускается 30 потоков, а в реальной работе предвидятся сотни. (Скорее всего, ограничение на число одновременно работающих поставлю, остальные в очереди подождут.)

Разве ж я на низкую скорость curl жаловался? Вовсе нет. Работает быстро, просто очень хотелось загрузку процессора снизить за счёт висения на select и уменьшения числа холостых циклов info_read. Да не судьба.

l_2001 сказал(а): ↑

проверьте тайминги при отработке
Нажмите, чтобы раскрыть...

Да, практика показала, что искусственное внесение некоторых ручных задержек (usleep) в цикл не только снижает загрузку процессора, но и повышает скорость получения данных(!) - как раз за счёт уменьшения холостых циклов.
Плохо то, что оптимальную величину задержки на той машине, где всё это работать будет, придётся подбирать экспериментально.

l_2001 сказал(а): ↑

так-же работает и wget
Нажмите, чтобы раскрыть...

Вот чем плохо использование внешних утилит, так это гораздо большими накладными расходами на запуск и трудностями с получением вменяемой диагностики в случае проблем со связью.

Я при отработке подобных проблем и с curl уже наткнулся на неприятные особенности, но для него хотя бы придумал, как в таких случаях выкручиваться, а что будет в случае wget - даже представлять не хочется.

don.bidon · 14 ноя 2024

Запустил 3 wget-а параллельно, камень амдюк топовый, но 2011-го года, QuadCore AMD Phenom II X4 Black Edition 975, 3600 MHz, лил на hdd 7200rpm, 2-4% проца, я хз, что там с накладными расходами.

Как примирить curl_multi_select и curl_multi_info_read?

yup Новичок

don.bidon Активный пользователь

yup Новичок

Vladimir Kheifets Новичок

yup Новичок

Vladimir Kheifets Новичок

yup Новичок

yup Новичок

Vladimir Kheifets Новичок

yup Новичок

l_2001 Активный пользователь

yup Новичок

don.bidon Активный пользователь

Быстрый поиск

Как примирить curl_multi_select и curl_multi_info_read?

yup Новичок

don.bidon Активный пользователь

yup Новичок

Vladimir Kheifets Новичок

yup Новичок

Vladimir Kheifets Новичок

yup Новичок

yup Новичок

Vladimir Kheifets Новичок

yup Новичок

l_2001 Активный пользователь

yup Новичок

don.bidon Активный пользователь