переход сайта с CP1251 на юникод

antonn · 18 фев 2009

Типа новичек
Значит, есть сайт, нужно его с CP1251 перегнать на юникод, пока две проблемы. Строковые функции и регулярки. Слышал, что с помощью mbstring можно перегрузить стандартные функции, остаются регулярки (preg). Просто добавление модификатора u решит проблемы? Какие есть подводные камни, в том числе с мусклом?

Sergey89 · 18 фев 2009

Если строковые функции используются только для того, чтобы их использовать с обычным текстом, то проблем быть не должно при оверлоаде.

С mysql вобще не будет проблем
[sql]SET NAMES utf8[/sql]

antonn · 18 фев 2009

да, функции типа strpos(), substr(), strlen(), str_replace().
Вот еще типа таких html_entity_decode(), wordwrap() тоже нормально себя ощущают?

и пока сильно интересуют регулярки

Sergey89 · 18 фев 2009

wordwrap()
Нажмите, чтобы раскрыть...

не нормально себя ощущает. Глянь в доке, там написано на какие функции какой уровень оверлоада влияет.

В регулярках достаточно u.

antonn · 18 фев 2009

когда то натыкался на ссылку, там было на русском расписано какие функции корячатся с utf, можешь подсказать?

Sergey89 · 18 фев 2009

По русски не знаю, а вот по англицки знаю http://www.phpwact.org/php/i18n/utf-8

флоппик · 18 фев 2009

http://php.net/mbstring+overload

unicross · 18 фев 2009

Sergey89 сказал(а):

С mysql вобще не будет проблем
Нажмите, чтобы раскрыть...

Будут и SET NAMES utf8 здесь не поможет.

Warning

The REGEXP and RLIKE operators work in byte-wise fashion, so they are not multi-byte safe and may produce unexpected results with multi-byte character sets. In addition, these operators compare characters by their byte values and accented characters may not compare as equal even if a given collation treats them as equal.
Нажмите, чтобы раскрыть...

Источник http://dev.mysql.com/doc/refman/5.1/en/regexp.html

antonn, если регулярки в MySQL не используете, то все будет нормально.

antonn · 23 фев 2009

использую

Kreker · 23 фев 2009

antonn
Много ли у тебя мультибайтных символов?

antonn · 24 фев 2009

Kreker
честно - не читал вопроса не пойму

Kreker · 24 фев 2009

antonn
Там написано, что с мультибайтными строками могут происходить неожиданный фигли.
Насколько мне известно, кириллица и латынь принадлежит входят в область однобайтных символов, поэтому баги нам не страшны, если я не ошибаюсь.

unicross · 24 фев 2009

Kreker сказал(а):

Насколько мне известно, кириллица и латынь принадлежит входят в область однобайтных символов
Нажмите, чтобы раскрыть...

Кириллица кодируется двумя байтами в UTF-8! Проблемы будут...
[sql]SELECT 'Строка' RLIKE '^[а-я]+$';
/* Выведет: 0 */
SELECT 'Строка' RLIKE '^[а-яА-Я]+$';
/* Выведет: 0 */
SELECT 'Строка' RLIKE '^[а-я]+';
/* Выведет: 1 */
SELECT 'СтрокА' RLIKE '[а-я]+$';
/* Выведет: 0 */
SELECT 'СтрокА' REGEXP '[а-яА-Я]+$';
/* Выведет: 1 */
SELECT 'Строка' RLIKE '[а-я]+$';
/* Выведет: 1 */
/* Проверка кодировки и кодовой таблицы */
SELECT CHARSET('Строка');
/* Выведет: utf8 */
SELECT COLLATION('Строка');
/* Выведет: utf8_general_ci */[/sql]
Как видно из примера, возникла проблема при указании строгой привязки к началу и концу строки. Даже указание русских символов в двух регистрах не решило проблему.

Kreker · 24 фев 2009

unicross сказал(а):

Кириллица кодируется двумя байтами в UTF-8!
Нажмите, чтобы раскрыть...

:shock: Блин. Точно. Только сейчас заметил, что количество символов в текстовом редакторе умножается на два, при кодировке UTF-8.
Когда-то в чьем-то блоге читал, как хорошо UTF-8, и там было написано, что эта кодировка занимает места столько же, сколько и win-1251, потому что русские символы однобайтные.

Sergey89 · 24 фев 2009

Первые 128 кодов однобайтные.

antonn · 25 фев 2009

если бы мне нужно было только инглиш и русский я бы с юникодом не связывался
а так обломс...

unicross · 25 фев 2009

antonn сказал(а):

использую
Нажмите, чтобы раскрыть...

А для чего вообще используете регулярки в MySQL? Приведите пример.
Почему не устаивает LIKE ? С ним проблем нет...

sylex · 25 фев 2009

Kreker сказал(а):

unicross сказал(а):

Кириллица кодируется двумя байтами в UTF-8!
Нажмите, чтобы раскрыть...

:shock: Блин. Точно. Только сейчас заметил, что количество символов в текстовом редакторе умножается на два, при кодировке UTF-8.
Когда-то в чьем-то блоге читал, как хорошо UTF-8, и там было написано, что эта кодировка занимает места столько же, сколько и win-1251, потому что русские символы однобайтные.
Нажмите, чтобы раскрыть...

:shock: как ты мог не знать?

antonn · 25 фев 2009

unicross
найди слово(!) начинающееся на "ва", не находящееся в параметрах тегов (html или bbcodes) и чтобы в тексте не встречалась подстрока "пупкин"

переход сайта с CP1251 на юникод

antonn Активный пользователь

Sergey89 Активный пользователь

antonn Активный пользователь

Sergey89 Активный пользователь

antonn Активный пользователь

Sergey89 Активный пользователь

флоппик Guest

unicross Активный пользователь

antonn Активный пользователь

Kreker Старожил

antonn Активный пользователь

Kreker Старожил

unicross Активный пользователь

Kreker Старожил

Sergey89 Активный пользователь

antonn Активный пользователь

unicross Активный пользователь

sylex Активный пользователь

antonn Активный пользователь

Быстрый поиск

переход сайта с CP1251 на юникод

antonn Активный пользователь

Sergey89 Активный пользователь

antonn Активный пользователь

Sergey89 Активный пользователь

antonn Активный пользователь

Sergey89 Активный пользователь

флоппик Guest

unicross Активный пользователь

antonn Активный пользователь

Kreker Старожил

antonn Активный пользователь

Kreker Старожил

unicross Активный пользователь

Kreker Старожил

Sergey89 Активный пользователь

antonn Активный пользователь

unicross Активный пользователь

sylex Активный пользователь

antonn Активный пользователь