У меня такая проблема. Нужно отпарсить страницу. Для этого понадобился класс [[rint:]] - все печатные символы. Но он не содержит кириллицу. А русские символы также необходимы в регулярном выражении. Можно ли как то дополнить этот класс? Т.е. например можно написать [0-9а-я] - цифровые символы дополняем русскими. А как поступить с классом [[rint:]] ? Можно ли дополнить его русскими символами. Или придется перечислять все заново (все цифры, буквы, знаки препинания, другие символы..) Может есть какой нибудь способ? Поподробнее опишу задачу: Есть страница, на которой есть название и описание товара. К примеру название обрамляется <p><a href=..........>Название</a></div> и описание также обрамляется определенными тэгами. Таким образом описав в регулярном выражении конструкуции <p><a href=..........> и </a></p> Мне нужно вытащить то, что между ними. ereg('[0-9]+">([[rint:]]+)</a></div>',$page,$arr) ([[rint:]]+) и должно дать название, но проблемы начинаются, когда в названии встречаются русские символы.
1). USE preg_* 2) PHP: <?php preg_match_all('/\<a.*?\>([[:print:]а-я])\<\/a\>/i', $text, $matches);?>
Опять проблема. На страницах сайта, который нужно отпарсить встречаются нестандартные символы, которые не удовлетворяют регулярному выражению [[rint:]а-яА-ЯЁё] например символы с кодами (по функции ord) 9 и 183 Можно ли написть регулярное выражение, которое бы соответствовало всем символам? Т.е. например взять все, что находится между <td> </td>.