Точное определение кодировки данных в переменной

KombaInER · 20 дек 2007

cp1251

host · 20 дек 2007

KombaInER
Да, именно

Anonymous · 20 дек 2007

У всего-всего-всего текста на этой странице кодировка cp1251. Независимо от того, в какой кодировке текст отобразится понятным человеку. Вот когда товарищ в Штанах это осознает, тогда глупые вопросы закончатся.

dslychko · 20 дек 2007

Разгадайте пожалуйста мой ребус .
Вставить не могу , потому что не отображается .
квадрат и собака каким макаром получается из Бр ?

Anonymous · 20 дек 2007

dslychko сказал(а):

квадрат и собака каким макаром получается из Бр ?
Нажмите, чтобы раскрыть...

а? :?

Штаны · 20 дек 2007

Горбунов Олег сказал(а):

У всего-всего-всего текста на этой странице кодировка cp1251. Независимо от того, в какой кодировке текст отобразится понятным человеку.
Нажмите, чтобы раскрыть...

А как определил? Анализом кода?

Anonymous · 20 дек 2007

Штаны, у этой страницы передан заголовок - cp1251. Все.

Штаны · 20 дек 2007

Горбунов Олег сказал(а):

Штаны, у этой страницы передан заголовок - cp1251. Все.
Нажмите, чтобы раскрыть...

Ото ж!
Заголовок, который живет отдельно от этой страницы...
К тому же можно и ошибиться с заголовком... Страница например была в KOI8-R, а ей передали заголовок ср-1251 и пошли кракозябы...

Или вот еще крайний случай. Есть три страницы: 1.txt 2.txt 3.txt
1.txt в кодировке KOI8-R
2.txt в кодировке ISO8859-5
3.txt в кодировке X-CP866
В них написан одинаковый осмысленный текс. Теперь возьмем откроем эти страницы в HEX редакторе, создадим чистый файл и скопируем в него исходные числовые коды этих трех страниц и сохраним с именем 123.txt Далее, если мы будем считать, что файл 123.txt имеет кодировку KOI8-R, то мы увидим осмысленным текстом первую часть файла 123.txt, а дальше пойдут кракозябы. Если мы будем считать, что файл 123.txt имеет кодировку ISO8859-5, то мы увидим осмысленным текстом вторую часть файла 123.txt, а первая и третья части файла будут в кракозябах. Если мы будем считать, что файл 123.txt имеет кодировку X-CP866, то мы увидим осмысленным текстом третью часть файла 123.txt, а первая и вторая часть будут в кракозябах.
И теперь я адресую вопрос для светлых голов: какая же кодировка у файла 123.txt???

Anonymous · 20 дек 2007

Штаны сказал(а):

В них написан одинаковый осмысленный текс.
Нажмите, чтобы раскрыть...

Текст может быть осмысленным только для человека. для компьютера это НАБОР БАЙТ.. Поэтому НИКАКОЙ автоматической перекодировки БЫТЬ НЕ МОЖЕТ. Есть эврестические алгоритмы, основанные на особеностях языка. Но это УГАДЫВАНИЕ кодировки, а не определение. ТАК ПОНЯТНО??

Штаны сказал(а):

Или вот еще крайний случай. Есть три страницы: 1.txt 2.txt 3.txt
Нажмите, чтобы раскрыть...

Штаны сказал(а):

И теперь я адресую вопрос для светлых голов: какая же кодировка у файла 123.txt???
Нажмите, чтобы раскрыть...

Никакая. У ФАЙЛА нет кодировки. Она есть у документа открытого в редакторе, который настроен на ОТОБРАЖЕНИЕ файла как документа с ВЫБРАННОЙ КОДИРОВКОЙ. Тогда у него будет кодировка — та, которую выберет для этого редактор. Или браузер.

Штаны · 20 дек 2007

Горбунов Олег сказал(а):

Штаны сказал(а):

В них написан одинаковый осмысленный текс.
Нажмите, чтобы раскрыть...

Текст может быть осмысленным только для человека. для компьютера это НАБОР БАЙТ.. Поэтому НИКАКОЙ автоматической перекодировки БЫТЬ НЕ МОЖЕТ. Есть эврестические алгоритмы, основанные на особеностях языка. Но это УГАДЫВАНИЕ кодировки, а не определение. ТАК ПОНЯТНО??
Нажмите, чтобы раскрыть...

Ну в общем-то понятно...

Горбунов Олег сказал(а):

Никакая. У ФАЙЛА нет кодировки.
Нажмите, чтобы раскрыть...

Лично меня этот ответ устривает.

А еще можно вопросик? То, что у файла нет кодировки, это мы выяснили... А у текста файла есть кодировка?

Anonymous · 21 дек 2007

Горбунов Олег сказал(а):

Она есть у документа открытого в редакторе, который настроен на ОТОБРАЖЕНИЕ файла как документа с ВЫБРАННОЙ КОДИРОВКОЙ. Тогда у него будет кодировка — та, которую выберет для этого редактор. Или браузер.
Нажмите, чтобы раскрыть...

Штаны · 21 дек 2007

Никак не могу понять вашу позицию. Вы же во ходу дела очень крупно сами себе противоречите!
Вот:

Горбунов Олег сказал(а):

У всего-всего-всего текста на этой странице кодировка cp1251. Независимо от того, в какой кодировке текст отобразится понятным человеку.
Нажмите, чтобы раскрыть...

Горбунов Олег сказал(а):

Она есть у документа открытого в редакторе, который настроен на ОТОБРАЖЕНИЕ файла как документа с ВЫБРАННОЙ КОДИРОВКОЙ. Тогда у него будет кодировка — та, которую выберет для этого редактор. Или браузер.
Нажмите, чтобы раскрыть...

Т.е. в начале утверждалось, что от браузера (редактора) кодировка не зависит, а во втором утверждении кодировка только от него и зависит... Интересно получается...

Anonymous · 21 дек 2007

Кодировка - это иллюзия, созданная человеком. Ее нет.

Горбунов Олег сказал(а):

У всего-всего-всего текста на этой странице кодировка cp1251. Независимо от того, в какой кодировке текст отобразится понятным человеку.
Нажмите, чтобы раскрыть...

Хорошо, перефразирую:
Браузер считает, что ЭТУ страницу он должен отобразить и отображает в кодировке cp1251, потому что ему об этом сказал веб-сервер, который владеет данной страницей. Вы можете изменить это отображение. Да, там в меню, ага.
У документа по прежнему нет кодировки. Только есть заголовок от веб сервера, сообщающий о том, что автор обычно пользуется cp1251. И браузер пытается ее отобразить так.
А вместо того, что бы искать несоответствия в моих словах лучше бы почитали документацию.

Штаны · 21 дек 2007

Вот теперь мне все понятно! Давно бы так! Спасибо!

host · 21 дек 2007

Ура.

KombaInER · 21 дек 2007

да здрасвует ртфм

ligne · 19 май 2010

Штаны сказал(а):

Sergey89 сказал(а):

тем более, что в одном тексте может одновременно быть несколько кодировок...
Нажмите, чтобы раскрыть...

это как? =)
Нажмите, чтобы раскрыть...

Примерно вот так:

И н с т р у к ц и я п о п р о в е д е н и ю а к т а ( г о л о с о в а н и е ) 1 . Н а й д и т е м е с т о , г д е в ы б е з о с о б о г о т р у д а с м о ж е т е с о в е р ш и т ь а к т . 2 . С п о м о щ ь ю с п е ц и а л ь н о й к о м и с с и и п о л у ч и т е р а з р е ш е н и е н а п р о в е д е н и е а к т а . 3 . П о л у ч и т е у к о м и с с и и н е о б х о д и м ы е а к ц е с с у а р ы д л я п р о в е д е н и я а к т а - р а с х о д н ы е м а т е р и а л ы , с п е ц и а л ь н ы й м н о г о р а з о в ы й п р и б о р д л я о с у щ е с т в л е н и я с в о е г о о т н о ш е н и я в о т н о ш е н и и т о г о и л и и н о г о с в о е г о и з б р а н н и к а . 4 . У б е д и т е с ь в н а л и ч и и с п е ц и а л ь н о о т в е д е н н о г о п о м е щ е н и я д л я п р о в е д е н и я с о б с т в е н н о а к т а ( о б ы ч н о о н о э р о т и ч н о г о я р к о - к р а с н о г о ц в е т а ) . 5 . П р о й д и т е т у д а , у б е д и т е с ь , ч т о з а в а м и н и к т о н е п о д с м а т р и в а е т и с о в е р ш и т е с о с в о и м и з б р а н н и к о м , т о ч т о с о б и р а л и с ь . В ы м о ж е т е с д е л а т ь э т о л ю б ы м с п о с о б о м , г л а в н о е , с о г л а с н о з а к о н о д а т е л ь с т в у , н е и с п о л ь з о в а т ь д в у х и б о л е е . 6 . П о о к о н ч а н и и , в ы й д и т е и з п о м е щ е н и я , г д е в ы с о в е р ш а л и а к т , п р о й д и т е к у р н е и о с т а в т е т а м т о , о т ч е г о в ы х о т и т е и з б а в и т ь с я п о о к о н ч а н и и а к т а . Н а э т о м а к т г о л о с о в а н и я о к о н ч е н .

= A B @ C : F 8 O ? > ? @ > 2 5 4 5 = 8 N 0 : B 0 ( 3 > ; > A > 2 0 = 8 5 ) 1 . 0 9 4 8 B 5 , 3 4 5 2 K 1 5 7 > A > 1 > 3 > B @ C 4 0 A 6 5 B 5 A > 2 5 @ H 8 B L 0 : B . 2 . ! ? > I L N A ? 5 F 8 0 ; L = > 9 : > ; C G 8 B 5 @ 0 7 @ 5 H 5 = 8 5 = 0 ? @ > 2 5 4 5 = 8 5 0 : B 0 . 3 . ¬ > ; C G 8 B 5 C : > 1 E > 4 8 2 5 4 5 = 8 O 0 : B 0 - @ 0 A E > 4 = K 5 3 > @ 0 7 > 2 K 9 ? @ 8 1 > @ 4 ; O > A C I 5 A B 2 ; 5 = 8 O A 2 > 5 3 > > B = > H 5 = 8 O 2 > B = > H 5 = 8 8 B > 3 > 8 ; 8 8 = > 3 > A 2 > 5 3 > 8 7 1 @ 0 = = 8 : 0 . 4 . # 1 5 4 8 B 5 A L 2 = 0 ; 8 G 8 8 A ? 5 F 8 0 ; L = > > B 2 5 4 5 = = > 3 > ? > 2 5 4 5 = 8 O A > 1 A B 2 5 = = > 0 : B 0 ( > 1 K G = > > = > M @ > B 8 G = > 3 > O @ : > - : @ 0 A = > 3 > F 2 5 B 0 ) . 5 . ¬ @ > 9 4 8 B 5 B C 4 0 , C 1 5 4 8 B 5 A L , G B > 7 0 2 0 = 5 ? > 4 A 2 5 @ H 8 B 5 A > A 2 > 8 G B > A > 1 8 @ 0 ; 8 A L . K 6 5 B 5 A 4 5 ; 0 B L M B > ; N 1 K A > 1 > 5 , A > 3 ; 0 A = > 7 0 : > = > 4 0 B 5 ; L A B 2 C , = 5 8 A ? > ; L 7 > 2 0 B L 4 2 C E 8 1 > ; 5 5 . 6 . ¬ > > : > = G 0 = 8 8 , 2 K 9 4 8 B 5 8 7 ? > 2 5 @ H 0 ; 8 0 : B , ? @ > 9 4 8 B 5 : C @ = 5 8 > A B 0 2 B 5 B 0 , > B G 5 3 > 2 K E > B 8 B 5 8 7 1 0 2 8 B L A O ? > > : > = G 0 = 8 8 0 : B 0 . 0 M B > ; > A > 2 0 = 8 O > : > = G 5 = .

Текст и там и там одинаков, но кодировка разная и я его вставил одним куском.
Нажмите, чтобы раскрыть...

Извините, а вы бы не могли подсказать где можно перевести вот эту странную нижнюю кодировку, которая мне приходит смс-ками вместо русской кириллицы?

Apple · 19 май 2010

блин, спасибо что подняли тему, ржал как псих.

ligne · 19 май 2010

Да не за что. Может вы мне тогда подскажите каким образом я могу прочесть свои каракули? Пожайлуста!...

ShamahN · 21 май 2010

Ну в общем-то понятно...
Нажмите, чтобы раскрыть...

...

А у текста файла есть кодировка?
Нажмите, чтобы раскрыть...

противоречие =) какое-то утверждение неверно

... у, чет я не туда) считайте, тут написано - "как интересно"...

verdim · 1 июн 2011

Уважаемые форумчане !!!
Мне очень понравился Ваш капустник и я понял, что все-таки хоть что-то соображаю.
У меня другая проблема. Может быть я не туда залез ... Ну, вы меня поправите ...
Не могу определить язык, на котором вводится символ ...
С английским все хорошо: и регистр узнает, и тип символа ... А вот заставить оператора вводить только на русском, к примеру, не могу: все-равно распознает как английский.
Для справки:
язык программирования - php (хотя, скорее всего, это не важно).
поле ввода - input.
Помогите страждущему.
Заранее спасибо, вечно ваш ...

verdim · 2 июн 2011

Кстати. Инициатор переписки, скорее всего, перепутал кодировку и раскладку клавиатуры ...
Хочется его спросить: он никогда не получал мат от системы, когда перед загрузкой забывал присоединить клавиатуру ???
Как и на обработчиках событий типа "onload=", на прерываниях системы сидят обработчики (и только по одному на каждом, - мы их называем драйверами).
Если у вас стоит англо-русская клавиатура (и соответствующий ей драйвер), то вы хоть извертитесь на пупе, - никогда не введете хоть символ на, к примеру, китайском. Вы, конечно, можете написать свой драйвер (если получится, конечно), который, в зависимости от комбинации клавиш (Lshift-Rshift, LCtrl-RCtrl и т.д. на сколько хватит комбинаций, кроме забитых в систему и не дай бог иначе) будет выводить вам соответствующий нажатой клавише символ. Но вы сойдете с ума пока будете искать какой клавише англо-русской клавиатуры соответствует нужный китайский иероглиф.
Я, по своей, возможно, наивности, хочу определить: какой на англо-русской клавиатуре введен символ, - латиница или кирилица.
Могу ли я надеяться ???

Mark32 · 23 июл 2011

antonn сказал(а):

имхо, кодировки - это один из самых грандиозных костылей %)
Нажмите, чтобы раскрыть...

хы хы, лучше и не сказать))))

дайте линк пожалуйста почитать о готовых способах определения кодировки и декодировании её в заданную (нужную) кодировку. класс может кто хороший выложил?

на почте яндекса к примеру крутая система распознавая и декодирования - в какой только кодировке не присылал письма - всё отображает как надо, не то что мой почтовик, который крякозябры показывает если кодировка письма не utf-8 или win-1251 (ну и ещё пару).

Lesya · 7 сен 2011

Файл написан в кодировке ANSI открывается в браузере в кодировке cp-1251, а оттуда передается и сохраняется на сервере средствами javascript, PHP. Полученный файл уже имеет кодировку UTF-8 (Извините, что неправильно выражаюсь). Вопрос: в какой момент могло произойти перекодирование и как этого избежать?

[vs] · 7 сен 2011

Вполне может быть, что в PHP с помощью функции iconv перекодируется

Точное определение кодировки данных в переменной

KombaInER Активный пользователь

host Активный пользователь

Anonymous Guest

dslychko Активный пользователь

Anonymous Guest

Штаны Guest

Anonymous Guest

Штаны Guest

Anonymous Guest

Штаны Guest

Anonymous Guest

Штаны Guest

Anonymous Guest

Штаны Guest

host Активный пользователь

KombaInER Активный пользователь

ligne Активный пользователь

Apple Активный пользователь

ligne Активный пользователь

ShamahN Активный пользователь

verdim Активный пользователь

verdim Активный пользователь

Mark32 Активный пользователь

Lesya Активный пользователь

[vs] Суперстар
Команда форума Модератор

Быстрый поиск

Точное определение кодировки данных в переменной

KombaInER Активный пользователь

host Активный пользователь

Anonymous Guest

dslychko Активный пользователь

Anonymous Guest

Штаны Guest

Anonymous Guest

Штаны Guest

Anonymous Guest

Штаны Guest

Anonymous Guest

Штаны Guest

Anonymous Guest

Штаны Guest

host Активный пользователь

KombaInER Активный пользователь

ligne Активный пользователь

Apple Активный пользователь

ligne Активный пользователь

ShamahN Активный пользователь

verdim Активный пользователь

verdim Активный пользователь

Mark32 Активный пользователь

Lesya Активный пользователь

[vs] Суперстар Команда форума Модератор

[vs] Суперстар
Команда форума Модератор