За последние 24 часа нас посетили 34177 программистов и 1736 роботов. Сейчас ищут 908 программистов ...

удалить символы не относящиеся к кодировке iso-8859-1

Тема в разделе "Регулярные выражения", создана пользователем Dima4321, 19 ноя 2009.

  1. Dima4321

    Dima4321 Активный пользователь

    С нами с:
    1 апр 2009
    Сообщения:
    683
    Симпатии:
    0
    Всем привет.

    Случилась беда. При массовой вставке счетиков в html файлы переименовке контента и т.п случилось, что моя прога сдала сбой

    и наклепала каких-то симоволов которые отображаются как маленькие прямоугольнички т.е эти символы не относятся

    ни к коду iso-8859-1 ни к windows 1251 . Из за этого Валидатор не может утвердить мой код.

    Эти прямоугольнички иудт сразу после закрытия тега </html>

    Т.е

    <html>

    текст теги и т.п (все правильно)

    </html> а вот здесь после закрытия html тега несколько прямоугольничков.

    Нужен парсер или какая-нибудь прога .... может есть

    Помогите пожалуйста ??
     
  2. Dima4321

    Dima4321 Активный пользователь

    С нами с:
    1 апр 2009
    Сообщения:
    683
    Симпатии:
    0
    хочу одним щелчком удалить это гавно...а то оно встречается на 2000 страницах.
     
  3. vb

    vb Активный пользователь

    С нами с:
    6 июн 2006
    Сообщения:
    911
    Симпатии:
    0
    Адрес:
    Saint-Petersburg
    Для супер парсера вам потребуется
    http://ru2.php.net/manual/en/class.dir.php
    http://ru2.php.net/file_get_contents
    http://ru2.php.net/file_put_contents
    http://ru2.php.net/preg_replace

    Для preg_replace регулярка
    $output = preg_replace ("~(</html>)[^<]+$~i", "\\1", $input);
    //В примере предполагается что после html именно квадратики и нет тэгов.

    Остается вам потратить 15 минут на то чтобы собрать все воедино.