Точное определение кодировки данных в переменной

wtfowned · 17 дек 2007

Такой вопрос , можно ли как нибудь точно определить кодировку какого либо текста ?
Подходящей функции так и не нашел ....
Поисковики выдают обычную проверку входящих символов , которая позволяет отличие кириллицу от юникода .
Заранее thx

Sergey89 · 17 дек 2007

Точно, сомневаюсь. А так http://php.net/mb_detect_encoding

Штаны · 17 дек 2007

тем более, что в одном тексте может одновременно быть несколько кодировок...

Sergey89 · 18 дек 2007

тем более, что в одном тексте может одновременно быть несколько кодировок...
Нажмите, чтобы раскрыть...

это как? =)

Штаны · 18 дек 2007

Sergey89 сказал(а):

тем более, что в одном тексте может одновременно быть несколько кодировок...
Нажмите, чтобы раскрыть...

это как? =)
Нажмите, чтобы раскрыть...

Примерно вот так:

И н с т р у к ц и я п о п р о в е д е н и ю а к т а ( г о л о с о в а н и е ) 1 . Н а й д и т е м е с т о , г д е в ы б е з о с о б о г о т р у д а с м о ж е т е с о в е р ш и т ь а к т . 2 . С п о м о щ ь ю с п е ц и а л ь н о й к о м и с с и и п о л у ч и т е р а з р е ш е н и е н а п р о в е д е н и е а к т а . 3 . П о л у ч и т е у к о м и с с и и н е о б х о д и м ы е а к ц е с с у а р ы д л я п р о в е д е н и я а к т а - р а с х о д н ы е м а т е р и а л ы , с п е ц и а л ь н ы й м н о г о р а з о в ы й п р и б о р д л я о с у щ е с т в л е н и я с в о е г о о т н о ш е н и я в о т н о ш е н и и т о г о и л и и н о г о с в о е г о и з б р а н н и к а . 4 . У б е д и т е с ь в н а л и ч и и с п е ц и а л ь н о о т в е д е н н о г о п о м е щ е н и я д л я п р о в е д е н и я с о б с т в е н н о а к т а ( о б ы ч н о о н о э р о т и ч н о г о я р к о - к р а с н о г о ц в е т а ) . 5 . П р о й д и т е т у д а , у б е д и т е с ь , ч т о з а в а м и н и к т о н е п о д с м а т р и в а е т и с о в е р ш и т е с о с в о и м и з б р а н н и к о м , т о ч т о с о б и р а л и с ь . В ы м о ж е т е с д е л а т ь э т о л ю б ы м с п о с о б о м , г л а в н о е , с о г л а с н о з а к о н о д а т е л ь с т в у , н е и с п о л ь з о в а т ь д в у х и б о л е е . 6 . П о о к о н ч а н и и , в ы й д и т е и з п о м е щ е н и я , г д е в ы с о в е р ш а л и а к т , п р о й д и т е к у р н е и о с т а в т е т а м т о , о т ч е г о в ы х о т и т е и з б а в и т ь с я п о о к о н ч а н и и а к т а . Н а э т о м а к т г о л о с о в а н и я о к о н ч е н .

= A B @ C : F 8 O ? > ? @ > 2 5 4 5 = 8 N 0 : B 0 ( 3 > ; > A > 2 0 = 8 5 ) 1 . 0 9 4 8 B 5 , 3 4 5 2 K 1 5 7 > A > 1 > 3 > B @ C 4 0 A 6 5 B 5 A > 2 5 @ H 8 B L 0 : B . 2 . ! ? > I L N A ? 5 F 8 0 ; L = > 9 : > ; C G 8 B 5 @ 0 7 @ 5 H 5 = 8 5 = 0 ? @ > 2 5 4 5 = 8 5 0 : B 0 . 3 . ¬ > ; C G 8 B 5 C : > 1 E > 4 8 2 5 4 5 = 8 O 0 : B 0 - @ 0 A E > 4 = K 5 3 > @ 0 7 > 2 K 9 ? @ 8 1 > @ 4 ; O > A C I 5 A B 2 ; 5 = 8 O A 2 > 5 3 > > B = > H 5 = 8 O 2 > B = > H 5 = 8 8 B > 3 > 8 ; 8 8 = > 3 > A 2 > 5 3 > 8 7 1 @ 0 = = 8 : 0 . 4 . # 1 5 4 8 B 5 A L 2 = 0 ; 8 G 8 8 A ? 5 F 8 0 ; L = > > B 2 5 4 5 = = > 3 > ? > 2 5 4 5 = 8 O A > 1 A B 2 5 = = > 0 : B 0 ( > 1 K G = > > = > M @ > B 8 G = > 3 > O @ : > - : @ 0 A = > 3 > F 2 5 B 0 ) . 5 . ¬ @ > 9 4 8 B 5 B C 4 0 , C 1 5 4 8 B 5 A L , G B > 7 0 2 0 = 5 ? > 4 A 2 5 @ H 8 B 5 A > A 2 > 8 G B > A > 1 8 @ 0 ; 8 A L . K 6 5 B 5 A 4 5 ; 0 B L M B > ; N 1 K A > 1 > 5 , A > 3 ; 0 A = > 7 0 : > = > 4 0 B 5 ; L A B 2 C , = 5 8 A ? > ; L 7 > 2 0 B L 4 2 C E 8 1 > ; 5 5 . 6 . ¬ > > : > = G 0 = 8 8 , 2 K 9 4 8 B 5 8 7 ? > 2 5 @ H 0 ; 8 0 : B , ? @ > 9 4 8 B 5 : C @ = 5 8 > A B 0 2 B 5 B 0 , > B G 5 3 > 2 K E > B 8 B 5 8 7 1 0 2 8 B L A O ? > > : > = G 0 = 8 8 0 : B 0 . 0 M B > ; > A > 2 0 = 8 O > : > = G 5 = .

Текст и там и там одинаков, но кодировка разная и я его вставил одним куском.

KombaInER · 18 дек 2007

покажи мне глупому где у тебя тут разная кодировка

wtfowned · 18 дек 2007

) Хватит спорить . Вообще в моем случае у меня всегда строка была одной кодировки .
Но проблема , с чем было связано создание этой темы , решилась .
Одна из цитат человека

А на meta твою браузеры х** ложат
Нажмите, чтобы раскрыть...

П.с. хеадер решает .
Сорри за тему , ее можно клоузе )

Штаны · 18 дек 2007

KombaInER сказал(а):

покажи мне глупому где у тебя тут разная кодировка
Нажмите, чтобы раскрыть...

А чё тут показывать? Чтобы нижний блок символов превратился по смыслу в верхний, нужно знать его кодировку...

KombaInER · 18 дек 2007

в данном случае имелось ввиду, как ты можешь впихнуть wg1251 и ютф8 в один текст. А в том тексте у тебя один цп1251

Штаны · 18 дек 2007

KombaInER сказал(а):

в данном случае имелось ввиду, как ты можешь впихнуть wg1251 и ютф8 в один текст. А в том тексте у тебя один цп1251
Нажмите, чтобы раскрыть...

Как я могу это впихнуть? Да легко!
По-порядку:
1) Открываешь например блокнот.
2) Копируешь в него текст в кодировке windows-1251.
3) Далее копируешь в него такой же текст, но в в кодировке UTF-8.
4) Сохраняешь этот блокнотовский файл в какой-нибудь третьей кодировке.
Далее вопрос: в какой кодировке данные в этом файле?
В windows-1251? Представляешь файл в этой кодировке, но видишь, что нет смысла в нижнем блоке текста...
В UTF-8? Представляешь файл в этой кодировке, но видишь, что тогда нет смысла в верхнем блоке текста...

Dagdamor · 18 дек 2007

Штаны
Комбайнер, по-видимому, имеет в виду, что кодировка текста - это "то, что он сам решил", а не то, что в этом тексте содержится...
К сожалению, это неверно, т.к. определенные комбинации символов в том же УТФ являются недопустимыми и следовательно текст в определенной кодировке не может хранить все подряд

KombaInER · 18 дек 2007

Dagdamor сказал(а):

следовательно текст в определенной кодировке не может хранить все подряд
Нажмите, чтобы раскрыть...

да, по-русски это так звучит =)

antonn · 18 дек 2007

Штаны

3) Далее копируешь в него такой же текст, но в в кодировке UTF-8.
Нажмите, чтобы раскрыть...

могу тебя заверить, что после вставки из буфера в блокнот, текст будет переконверчен в кодировку, в которой создан документ либо сохранен. Именно поэтому частенько при копировании со страниц с КОИ-8 в блокноте кракозябры.

4) Сохраняешь этот блокнотовский файл в какой-нибудь третьей кодировке.
Нажмите, чтобы раскрыть...

и все это сохранится в ОДНОЙ кодировке.

Далее вопрос: в какой кодировке данные в этом файле?
Нажмите, чтобы раскрыть...

windows-1251

В windows-1251? Представляешь файл в этой кодировке, но видишь, что нет смысла в нижнем блоке текста...
В UTF-8? Представляешь файл в этой кодировке, но видишь, что тогда нет смысла в верхнем блоке текста...
Нажмите, чтобы раскрыть...

имеет место быть непонимание. Включая 1251 весь текст просматривается как однобайтовая 1251. При УТФ весь текст будет как двухбайтовый. С таким же успехом можно открыть картинку и искать знакомые буквы, которые случайно соберутся из байтов попадающих в таблицу кодировки.

Штаны · 18 дек 2007

Что то я запутался, что такое кодировка... Кто подскажет?
Кодировка это - ...

antonn · 18 дек 2007

таблица, в которой указано соответсвие значения байта (два байта, три байта, числовое значение символа короче) самому символу.

antonn · 18 дек 2007

имхо, кодировки - это один из самых грандиозных костылей %)

Штаны · 18 дек 2007

antonn сказал(а):

Штаны

Далее вопрос: в какой кодировке данные в этом файле?
Нажмите, чтобы раскрыть...

windows-1251
Нажмите, чтобы раскрыть...

И только потому, что в шапке форумной страницы написано <meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> ?? А может нет? Может когда беспорядочный набор символов который видится на форумной странице с <meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> превращается в осмысленные предложения например в Unicode , то это говорит о том, что текст в кодировке Unicode?

antonn · 18 дек 2007

это потому что я попробывал и посмотрел в hex-редакторе.

ЗЗЫ WinXP_SP2 eng-rus

Штаны · 18 дек 2007

antonn сказал(а):

это потому что я попробывал и посмотрел в hex-редакторе.

ЗЗЫ WinXP_SP2 eng-rus
Нажмите, чтобы раскрыть...

И что ты там такое отличительное увидел? Почему не подумал, что это, например, KOI8-R кодировка?

KombaInER · 18 дек 2007

Штаны сказал(а):

Что то я запутался, что такое кодировка... Кто подскажет?
Нажмите, чтобы раскрыть...

антонн сказал.
Ты же, я так понял, имел ввиду шифр свой

= A B @ C : F 8 O ? > ?
Нажмите, чтобы раскрыть...

==

И н с т р у к ц и я п о
Нажмите, чтобы раскрыть...

antonn · 18 дек 2007

Почему не подумал, что это, например, KOI8-R кодировка?
Нажмите, чтобы раскрыть...

потому что как КОИ она показывала кракозябры, а как 1251 нормальный текст.
ты бы файлик свой прикрепил? только именно файлик, да еще в zip на всякий случай

Штаны · 19 дек 2007

antonn сказал(а):

Почему не подумал, что это, например, KOI8-R кодировка?
Нажмите, чтобы раскрыть...

потому что как КОИ она показывала кракозябры, а как 1251 нормальный текст.
ты бы файлик свой прикрепил? только именно файлик, да еще в zip на всякий случай
Нажмите, чтобы раскрыть...

Ты недоговариваешь Нормальный текст был только до середины А дальше пошли кракозябы, т.е. другая кодировка

Штаны · 19 дек 2007

KombaInER сказал(а):

Штаны сказал(а):

Что то я запутался, что такое кодировка... Кто подскажет?
Нажмите, чтобы раскрыть...

антонн сказал.
Ты же, я так понял, имел ввиду шифр свой

= A B @ C : F 8 O ? > ?
Нажмите, чтобы раскрыть...

==

И н с т р у к ц и я п о
Нажмите, чтобы раскрыть...

Нажмите, чтобы раскрыть...

Это был неудачный пример. Я теперь его сам раскодировать не могу Щя удачней подберу.

antonn · 19 дек 2007

я все договариваю, я взял свои текстовые файлы, в УТФ8 и 1251. Ты то свой так и не дал. А то что ты в форум перекинул - оно уже несколько раз хрен знает где побывало.

давай файл, блин

Штаны · 19 дек 2007

antonn сказал(а):

я все договариваю, я взял свои текстовые файлы, в УТФ8 и 1251. Ты то свой так и не дал. А то что ты в форум перекинул - оно уже несколько раз хрен знает где побывало.

давай файл, блин
Нажмите, чтобы раскрыть...

Щя проверим

Вот текст:

Код (Text):

ЛПДЙТПЧЛБ ЪЮФШаЮТЪР Є®¤Ёа®ўЄ

В какой он кодировке?

Точное определение кодировки данных в переменной

wtfowned Активный пользователь

Sergey89 Активный пользователь

Штаны Guest

Sergey89 Активный пользователь

Штаны Guest

KombaInER Активный пользователь

wtfowned Активный пользователь

Штаны Guest

KombaInER Активный пользователь

Штаны Guest

Dagdamor Активный пользователь

KombaInER Активный пользователь

antonn Активный пользователь

Штаны Guest

antonn Активный пользователь

antonn Активный пользователь

Штаны Guest

antonn Активный пользователь

Штаны Guest

KombaInER Активный пользователь

antonn Активный пользователь

Штаны Guest

Штаны Guest

antonn Активный пользователь

Штаны Guest

Быстрый поиск

Точное определение кодировки данных в переменной

wtfowned Активный пользователь

Sergey89 Активный пользователь

Штаны Guest

Sergey89 Активный пользователь

Штаны Guest

KombaInER Активный пользователь

wtfowned Активный пользователь

Штаны Guest

KombaInER Активный пользователь

Штаны Guest

Dagdamor Активный пользователь

KombaInER Активный пользователь

antonn Активный пользователь

Штаны Guest

antonn Активный пользователь

antonn Активный пользователь

Штаны Guest

antonn Активный пользователь

Штаны Guest

KombaInER Активный пользователь

antonn Активный пользователь

Штаны Guest

Штаны Guest

antonn Активный пользователь

Штаны Guest