url на русском

[vs] · 11 ноя 2008

http://пример.испытание

блудный сын · 11 ноя 2008

[vs] сказал(а):

Выражение "текст сохранён в кодировке юникод" означает, что текст сохранен либо в UTF-8, UTF-16 или UTF-32, значит оно верное.
Нажмите, чтобы раскрыть...

Как оно может быть верным если тут уже несколько опытных программистов сказали, что юникод это не кодировка, а система (стандарт) кодирования? Нет такой кодировки - юникод, понимаешь?

Далее тогда возникает вопрос, в какой кодировке должен быть урл, в УТФ-8, в УТФ-16 или в УТФ-32?

[vs] · 11 ноя 2008

блудный сын
Ты читать умеешь?

[vs] сказал(а):

http://www.icann.org/en/topics/idn/idn-glossary_ru_RU.htm
Нажмите, чтобы раскрыть...

мог бы не полениться статью с ICANN почитать:

ICANN сказал(а):

Unicode - это широко используемая единая система кодирования
Нажмите, чтобы раскрыть...

ICANN сказал(а):

UTF-8-битный формат преобразования Unicode, является системой для Unicode-кодирования
Нажмите, чтобы раскрыть...

У слова "кодировка" вообще нет точно определенного значения.

блудный сын сказал(а):

Далее тогда возникает вопрос, в какой кодировке должен быть урл, в УТФ-8, в УТФ-16 или в УТФ-32?
Нажмите, чтобы раскрыть...

UTF-8, т.к. коды латинских символов в адресной строке соответствуют кодам ASCII.

Dagdamor · 11 ноя 2008

блудный сын
Для URL стандартом уже давно считается UTF-8. Просто вся хня в том, что через сетевые протоколы по-прежнему нельзя в качестве URL пропускать ничего, кроме ASCII-символов. Поэтому:
- доменное имя кодируется методом punycode;
- все остальное кодируется методом "URL-кодирования" (почти все, кроме латинских букв и цифр, превращается в %NN, например "?"="%3F", "Я"="%D0%AF" и т.п.).

Kreker · 11 ноя 2008

Dagdamor сказал(а):

ASCII-символов
Нажмите, чтобы раскрыть...

А разве к ним латиница не относится?

блудный сын · 11 ноя 2008

[vs] сказал(а):

У слова "кодировка" вообще нет точно определенного значения.
Нажмите, чтобы раскрыть...

Да прям там! Такая загадочная вещь, что и определения ей нет Вое тебе коротенькое определение: кодировка это набор символов. Можешь в википедии глянуть

[vs] сказал(а):

UTF-8, т.к. коды латинских символов в адресной строке соответствуют кодам ASCII.
Нажмите, чтобы раскрыть...

А до этого ты говорил юникод... И возмущался когда я переспрашивал... Так в юникоде или в УТФ-8?

блудный сын · 11 ноя 2008

Dagdamor сказал(а):

блудный сын
Для URL стандартом уже давно считается UTF-8. Просто вся хня в том, что через сетевые протоколы по-прежнему нельзя в качестве URL пропускать ничего, кроме ASCII-символов. Поэтому:
- доменное имя кодируется методом punycode;
- все остальное кодируется методом "URL-кодирования" (почти все, кроме латинских букв и цифр, превращается в %NN, например "?"="%3F", "Я"="%D0%AF" и т.п.).
Нажмите, чтобы раскрыть...

А если глянуть на проблему шире? Вот взгляни на эту ссылку (рабочая кстати ) http://яндекс.com/Яндекс立即下载看天下电子书阅读器.jpg В ней кроме всего прочего есть китайские иероглифы. Как можно с помощью УТФ-8 закодировать китайские иероглифы? Как? Их же тысячи!

[vs] · 11 ноя 2008

блудный сын сказал(а):

Как можно с помощью УТФ-8 закодировать китайские иероглифы?
Нажмите, чтобы раскрыть...

В UTF-8 симолы могуть быть хоть 4-х байтными, это дофига символов.

блудный сын сказал(а):

А до этого ты говорил юникод... И возмущался когда я переспрашивал... Так в юникоде или в УТФ-8?
Нажмите, чтобы раскрыть...

В Юникоде UTF-8 блин :lol:

Kreker · 12 ноя 2008

блудный сын
Знаешь, почему UTF стал популярен? Потому что в его набор включили большинство языковых символов мира. И русский, и китайский, и арабский.
В китайском около 100 иероглифов.

УРЛ на русском пока невозможны в связи с тем, что сам протокол на HTTP английском.
Если страница в утф, то ссылка может быть на русском, но, при этом, при запросе этой ссылке сервер, браузер переводит её в пуникод и/или в %NN. Т.е. русская ссылка - это только визуальный финт браузера, и не каждого, притом.

karakh · 12 ноя 2008

Kreker сказал(а):

В китайском около 100 иероглифов.

Нажмите, чтобы раскрыть...

???
Маловато будет. Вики по этому поводу считает, что

википедия сказал(а):

В КНР стандартом грамотности считается освоение 1500 знаков (в сельской местности) или 2000 знаков (в городах, а также для рабочих и служащих на селе)
3000 иероглифов достаточно для чтения газет и неспециализированных журналов.
Словарь иероглифов издания 1994 года содержит 87 019 иероглифов.
Согласно статистике, 1000 обиходных иероглифов покрывают 92 % печатных материалов, 2000 могут покрыть более 98 %, а 3000 иероглифов уже покрывают 99 %.

Нажмите, чтобы раскрыть...

Dagdamor · 12 ноя 2008

блудный сын
Ну пусть тысячи, в чем проблема-то. Я же писал выше, что UTF-8 - это кодировка для Юникода. Следовательно, все символы Юникода она умеет как-то представлять, иначе это нельзя было бы назвать кодировкой. В Юникод "умещается" вовсе не 2^16=65536 символов, а 2^32=4294967296 (на самом деле меньше, см. Википедию, там все расписано). Но на иероглифы вполне хватает.

блудный сын · 12 ноя 2008

[vs] сказал(а):

В UTF-8 симолы могуть быть хоть 4-х байтными, это дофига символов.
Нажмите, чтобы раскрыть...

Да? А пример такого 4-х байтного символа и его UTF-8 кода можешь привести?

[vs] сказал(а):

В Юникоде UTF-8 блин :lol:
Нажмите, чтобы раскрыть...

В общем я вижу ты понял, что юникод это не кодировка, а система кодирования?

Kreker сказал(а):

и/или в %NN.
Нажмите, чтобы раскрыть...

А как эта кодировка называется?

блудный сын · 12 ноя 2008

Dagdamor сказал(а):

Ну пусть тысячи, в чем проблема-то. Я же писал выше, что UTF-8 - это кодировка для Юникода. Следовательно, все символы Юникода она умеет как-то представлять
Нажмите, чтобы раскрыть...

Ну как она может представить все символы, если в ней заложены только 256? Если бы УТФ-8 могла кодировать все символы, то тогда пропал бы смысл городить огород с УТФ-16 и УТФ-32.

Kreker · 12 ноя 2008

блудный сын сказал(а):

в ней заложены только 256
Нажмите, чтобы раскрыть...

Кто тебе такое сказал?

Если я не ошибаюсь, то символы в UTF-16 хранятся в виде 4х символов шестнадцатеричной системы. 16^4 = 65 536 символов. UTF-8 со своими 4096 символами тоже вполне пригоден.

UTF-16 и 32 придумали, чтобы уместить туда абсолютно все языки и их виды, а так же все спецсимволы мира.

Ti · 12 ноя 2008

Kreker сказал(а):

UTF-8 со своими 4096 символами тоже вполне пригоден.
Нажмите, чтобы раскрыть...

http://ru.wikipedia.org/wiki/UTF-8 сказал(а):

Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байтов (реально только до 4 байт, поскольку использование кодов больше 221 не планируется), в которых первый байт всегда имеет вид 11xxxxxx, а остальные — 10xxxxxx.
Нажмите, чтобы раскрыть...

блудный сын · 12 ноя 2008

Ti сказал(а):

http://ru.wikipedia.org/wiki/UTF-8 сказал(а):

в которых первый байт всегда имеет вид 11xxxxxx, а остальные — 10xxxxxx.
Нажмите, чтобы раскрыть...

Нажмите, чтобы раскрыть...

О, теперь до меня начинает доходить! Значит если в УТФ-8 код символа вот такой 0xxxxxxx, то это 1 байт; если код символа вот такой 110xxxxx то это два символа и нужно следующие 8 бит читать совместно с первым, ну и так далее, как там в таблице:
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

[vs] · 12 ноя 2008

блудный сын сказал(а):

О, теперь до меня начинает доходить! Значит если в УТФ-8 код символа вот такой 0xxxxxxx, то это 1 байт; если код символа вот такой 110xxxxx то это два символа и нужно следующие 8 бит читать совместно с первым, ну и так далее, как там в таблице:
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Нажмите, чтобы раскрыть...

Аллах акбар! ;-)

ЗЫ.А разве не справа налево байты должны обозначаться? о_0

блудный сын · 12 ноя 2008

[vs] сказал(а):

ЗЫ.А разве не справа налево байты должны обозначаться? о_0
Нажмите, чтобы раскрыть...

Спасибо за подсказку! Я про этот нюанс совсем забыл

Dagdamor · 13 ноя 2008

блудный сын

Ну как она может представить все символы, если в ней заложены только 256?
Нажмите, чтобы раскрыть...

Я уже написал, сколько в ней "заложено" - 2^32=4294967296.

Если бы УТФ-8 могла кодировать все символы, то тогда пропал бы смысл городить огород с УТФ-16 и УТФ-32.
Нажмите, чтобы раскрыть...

Если бы на C++ можно было написать любую программу, то тогда пропал бы смысл городить огород с другими языками.
У каждой кодировки есть свои достоинства и недостатки. Недостатки UTF-8 я уже не раз расписывал здесь. Но эти недостатки не связаны с количеством поддерживаемых символов.

блудный сын · 13 ноя 2008

Dagdamor сказал(а):

Я уже написал, сколько в ней "заложено" - 2^32=4294967296.
Нажмите, чтобы раскрыть...

А я думал только 256, т.к. 8 бит бают именно столько комбинаций. А оказывается они ввели управляющие байты, которые подсказывают сколько байт пошло на кодирование символа. Я этого не знал. Теперь буду всем рассказывать

Dagdamor сказал(а):

У каждой кодировки есть свои достоинства и недостатки. Недостатки UTF-8 я уже не раз расписывал здесь. Но эти недостатки не связаны с количеством поддерживаемых символов.
Нажмите, чтобы раскрыть...

А я всегда думал, что именно это и является основной причиной введения УТФ-16 и УТФ-32!

mpak · 30 июл 2010

Punycode — стандартизированный метод преобразования последовательностей Unicode-символов в так называемые ACE-последовательности, которые состоят только из алфавитно-цифровых символов, как это разрешено в доменных именах. Punycode был разработан для однозначного преобразования доменных имен, содержащих умляуты или символы кириллицы (в кодировке Unicode), в последовательность ASCII-символов.

А преобразовать можно здесь http://mpak.su/idna

mpak · 30 июл 2010

Наверно всетаки так

0xxxxxxx
110xxxxx xxxxxxxx
1110xxxx xxxxxxxx xxxxxxxx
11110xxx xxxxxxxx xxxxxxxx xxxxxxxx

Просто использование 10 во втором и последующем байте является излишней информацией. Сколько байт используется мы уже знаем. И ее использование во всех последующих это напрасная трата ресурсов.

Padaboo · 30 июл 2010

блин это 2008 года тема =)

Апельсин · 30 июл 2010

О, свежачОк.
А вообще домены на русском для меня приемлемы только в качестве редиректа на основной yandex.ru ( <= яндекс.ру).
Лоховская фишка вобщемто.

mpak · 30 июл 2010

Я тут как раз с того момента и небыл

url на русском

[vs] Суперстар
Команда форума Модератор

блудный сын Активный пользователь

[vs] Суперстар
Команда форума Модератор

Dagdamor Активный пользователь

Kreker Старожил

блудный сын Активный пользователь

блудный сын Активный пользователь

[vs] Суперстар
Команда форума Модератор

Kreker Старожил

karakh Активный пользователь

Dagdamor Активный пользователь

блудный сын Активный пользователь

блудный сын Активный пользователь

Kreker Старожил

Ti Активный пользователь

блудный сын Активный пользователь

[vs] Суперстар
Команда форума Модератор

блудный сын Активный пользователь

Dagdamor Активный пользователь

блудный сын Активный пользователь

mpak Активный пользователь

mpak Активный пользователь

Padaboo Старожил
Команда форума Модератор

Апельсин Активный пользователь

mpak Активный пользователь

Быстрый поиск

url на русском

[vs] Суперстар Команда форума Модератор

блудный сын Активный пользователь

[vs] Суперстар Команда форума Модератор

Dagdamor Активный пользователь

Kreker Старожил

блудный сын Активный пользователь

блудный сын Активный пользователь

[vs] Суперстар Команда форума Модератор

Kreker Старожил

karakh Активный пользователь

Dagdamor Активный пользователь

блудный сын Активный пользователь

блудный сын Активный пользователь

Kreker Старожил

Ti Активный пользователь

блудный сын Активный пользователь

[vs] Суперстар Команда форума Модератор

блудный сын Активный пользователь

Dagdamor Активный пользователь

блудный сын Активный пользователь

mpak Активный пользователь

mpak Активный пользователь

Padaboo Старожил Команда форума Модератор

Апельсин Активный пользователь

mpak Активный пользователь

[vs] Суперстар
Команда форума Модератор

[vs] Суперстар
Команда форума Модератор

[vs] Суперстар
Команда форума Модератор

[vs] Суперстар
Команда форума Модератор

Padaboo Старожил
Команда форума Модератор