Здравствуйте! Нашел очень хороший класс для работы с сабжем. Называется jevix. Но он не корректно (на мой взгляд) обрабатывает значения, заключенные внутри тегов. Например, если дано: Код (Text): <span>Привет </span><span> php.ru</span> То после обрубания этих тегов получается: Код (Text): Приветphp.ru Удаляются крайние пробелы внутри тегов. Идея такая, чтобы предварительно с помощью регулярок вынести пробел за тег: Код (Text): <span>Привет</span> <span>php.ru</span> Препятствует то, что тег может содержать атрибуты (необходимые). Например: Код (Text): <p class=MsoNormal style='margin-top:3.0pt;text-indent:17.85pt;line-height:122%;background:white;text-autospace:none'> <span style='font-size:11.5pt;line-height:122%;color:black;letter-spacing:-.2pt'>2. Быть </span><span style='font-size:11.5pt;line-height:122%;color:black;letter-spacing:.3pt'>доброжелательным, не</span><span style='font-size:11.5pt;line-height:122%;color:black;letter-spacing:-.2pt'> оскорблять </span><span style='font-size:11.5pt;line-height:122%; color:black;letter-spacing:.3pt'>учеников</span><span style='font-size:11.5pt; line-height:122%;color:black;letter-spacing:-.2pt'>, не возмущаться их </span><span style='font-size:11.5pt;line-height:122%;color:black;letter-spacing:.3pt'>незнанием</span><span style='font-size:11.5pt;line-height:122%;color:black;letter-spacing:-.2pt'> и непониманием. </span><span style='font-size:11.5pt;line-height:122%;color:black; letter-spacing:.3pt'>Если</span><span style='font-size:11.5pt;line-height:122%; color:black;letter-spacing:-.2pt'> большинство учащихся</span><span style='font-size:11.5pt;line-height:122%;color:black'> <span style='letter-spacing: .2pt'>не </span><span style='letter-spacing:.3pt'>понимает</span><span style='letter-spacing:.2pt'> или</span> <span style='letter-spacing:.3pt'>затрудняется, то ошибку надо искать</span> <br> в формах <span style='letter-spacing:.1pt'>и способах организации</span> их деятельности.</span> </p> Поэтому обычной заменой типа "<span> " на " <span>" не обойдешься. Помогите с регуляркой
На входе HTML. Версия для php jevix-1.1 (http://code.google.com/p/jevix/). Не могу найти где это он делает. Га сайте http://jevix.ru/ обрабатывает текст нормально. Может там perl-версия используется - не знаю. На php-версии описанная выше ситуация..
эх всетаки надо заплатку, рефакторинг слишком сложен. перед отправкой надо повесить фильтр на текст PHP: <?php $text = str_replace(array(' <','> '),array(chr(38).'nbsp;<','>'.chr(38).'nbsp;'),$text); $res = $jevix->parse($text, $errors); ps chr(38) введен из за кривости форума. Это символ & psps версия с chr(38) рабочая и проходит bbcode парсер кривых форумов pspsps
Продолжаю работу на чисткой HTML. Не удается удалить спецсимволы Ворда. Проблему описал в следующей теме: http://www.php.ru/forum/viewtopic.php?p=281702#281702