Такой вопрос , можно ли как нибудь точно определить кодировку какого либо текста ? Подходящей функции так и не нашел .... Поисковики выдают обычную проверку входящих символов , которая позволяет отличие кириллицу от юникода . Заранее thx
Примерно вот так: И н с т р у к ц и я п о п р о в е д е н и ю а к т а ( г о л о с о в а н и е ) 1 . Н а й д и т е м е с т о , г д е в ы б е з о с о б о г о т р у д а с м о ж е т е с о в е р ш и т ь а к т . 2 . С п о м о щ ь ю с п е ц и а л ь н о й к о м и с с и и п о л у ч и т е р а з р е ш е н и е н а п р о в е д е н и е а к т а . 3 . П о л у ч и т е у к о м и с с и и н е о б х о д и м ы е а к ц е с с у а р ы д л я п р о в е д е н и я а к т а - р а с х о д н ы е м а т е р и а л ы , с п е ц и а л ь н ы й м н о г о р а з о в ы й п р и б о р д л я о с у щ е с т в л е н и я с в о е г о о т н о ш е н и я в о т н о ш е н и и т о г о и л и и н о г о с в о е г о и з б р а н н и к а . 4 . У б е д и т е с ь в н а л и ч и и с п е ц и а л ь н о о т в е д е н н о г о п о м е щ е н и я д л я п р о в е д е н и я с о б с т в е н н о а к т а ( о б ы ч н о о н о э р о т и ч н о г о я р к о - к р а с н о г о ц в е т а ) . 5 . П р о й д и т е т у д а , у б е д и т е с ь , ч т о з а в а м и н и к т о н е п о д с м а т р и в а е т и с о в е р ш и т е с о с в о и м и з б р а н н и к о м , т о ч т о с о б и р а л и с ь . В ы м о ж е т е с д е л а т ь э т о л ю б ы м с п о с о б о м , г л а в н о е , с о г л а с н о з а к о н о д а т е л ь с т в у , н е и с п о л ь з о в а т ь д в у х и б о л е е . 6 . П о о к о н ч а н и и , в ы й д и т е и з п о м е щ е н и я , г д е в ы с о в е р ш а л и а к т , п р о й д и т е к у р н е и о с т а в т е т а м т о , о т ч е г о в ы х о т и т е и з б а в и т ь с я п о о к о н ч а н и и а к т а . Н а э т о м а к т г о л о с о в а н и я о к о н ч е н . = A B @ C : F 8 O ? > ? @ > 2 5 4 5 = 8 N 0 : B 0 ( 3 > ; > A > 2 0 = 8 5 ) 1 . 0 9 4 8 B 5 , 3 4 5 2 K 1 5 7 > A > 1 > 3 > B @ C 4 0 A 6 5 B 5 A > 2 5 @ H 8 B L 0 : B . 2 . ! ? > I L N A ? 5 F 8 0 ; L = > 9 : > ; C G 8 B 5 @ 0 7 @ 5 H 5 = 8 5 = 0 ? @ > 2 5 4 5 = 8 5 0 : B 0 . 3 . ¬ > ; C G 8 B 5 C : > 1 E > 4 8 2 5 4 5 = 8 O 0 : B 0 - @ 0 A E > 4 = K 5 3 > @ 0 7 > 2 K 9 ? @ 8 1 > @ 4 ; O > A C I 5 A B 2 ; 5 = 8 O A 2 > 5 3 > > B = > H 5 = 8 O 2 > B = > H 5 = 8 8 B > 3 > 8 ; 8 8 = > 3 > A 2 > 5 3 > 8 7 1 @ 0 = = 8 : 0 . 4 . # 1 5 4 8 B 5 A L 2 = 0 ; 8 G 8 8 A ? 5 F 8 0 ; L = > > B 2 5 4 5 = = > 3 > ? > 2 5 4 5 = 8 O A > 1 A B 2 5 = = > 0 : B 0 ( > 1 K G = > > = > M @ > B 8 G = > 3 > O @ : > - : @ 0 A = > 3 > F 2 5 B 0 ) . 5 . ¬ @ > 9 4 8 B 5 B C 4 0 , C 1 5 4 8 B 5 A L , G B > 7 0 2 0 = 5 ? > 4 A 2 5 @ H 8 B 5 A > A 2 > 8 G B > A > 1 8 @ 0 ; 8 A L . K 6 5 B 5 A 4 5 ; 0 B L M B > ; N 1 K A > 1 > 5 , A > 3 ; 0 A = > 7 0 : > = > 4 0 B 5 ; L A B 2 C , = 5 8 A ? > ; L 7 > 2 0 B L 4 2 C E 8 1 > ; 5 5 . 6 . ¬ > > : > = G 0 = 8 8 , 2 K 9 4 8 B 5 8 7 ? > 2 5 @ H 0 ; 8 0 : B , ? @ > 9 4 8 B 5 : C @ = 5 8 > A B 0 2 B 5 B 0 , > B G 5 3 > 2 K E > B 8 B 5 8 7 1 0 2 8 B L A O ? > > : > = G 0 = 8 8 0 : B 0 . 0 M B > ; > A > 2 0 = 8 O > : > = G 5 = . Текст и там и там одинаков, но кодировка разная и я его вставил одним куском.
) Хватит спорить . Вообще в моем случае у меня всегда строка была одной кодировки . Но проблема , с чем было связано создание этой темы , решилась . Одна из цитат человека П.с. хеадер решает . Сорри за тему , ее можно клоузе )
А чё тут показывать? Чтобы нижний блок символов превратился по смыслу в верхний, нужно знать его кодировку...
в данном случае имелось ввиду, как ты можешь впихнуть wg1251 и ютф8 в один текст. А в том тексте у тебя один цп1251
Как я могу это впихнуть? Да легко! По-порядку: 1) Открываешь например блокнот. 2) Копируешь в него текст в кодировке windows-1251. 3) Далее копируешь в него такой же текст, но в в кодировке UTF-8. 4) Сохраняешь этот блокнотовский файл в какой-нибудь третьей кодировке. Далее вопрос: в какой кодировке данные в этом файле? В windows-1251? Представляешь файл в этой кодировке, но видишь, что нет смысла в нижнем блоке текста... В UTF-8? Представляешь файл в этой кодировке, но видишь, что тогда нет смысла в верхнем блоке текста...
Штаны Комбайнер, по-видимому, имеет в виду, что кодировка текста - это "то, что он сам решил", а не то, что в этом тексте содержится... К сожалению, это неверно, т.к. определенные комбинации символов в том же УТФ являются недопустимыми и следовательно текст в определенной кодировке не может хранить все подряд
Штаны могу тебя заверить, что после вставки из буфера в блокнот, текст будет переконверчен в кодировку, в которой создан документ либо сохранен. Именно поэтому частенько при копировании со страниц с КОИ-8 в блокноте кракозябры. и все это сохранится в ОДНОЙ кодировке. windows-1251 имеет место быть непонимание. Включая 1251 весь текст просматривается как однобайтовая 1251. При УТФ весь текст будет как двухбайтовый. С таким же успехом можно открыть картинку и искать знакомые буквы, которые случайно соберутся из байтов попадающих в таблицу кодировки.
таблица, в которой указано соответсвие значения байта (два байта, три байта, числовое значение символа короче) самому символу.
И только потому, что в шапке форумной страницы написано <meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> ?? А может нет? Может когда беспорядочный набор символов который видится на форумной странице с <meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> превращается в осмысленные предложения например в Unicode , то это говорит о том, что текст в кодировке Unicode?
потому что как КОИ она показывала кракозябры, а как 1251 нормальный текст. ты бы файлик свой прикрепил? только именно файлик, да еще в zip на всякий случай
Ты недоговариваешь Нормальный текст был только до середины А дальше пошли кракозябы, т.е. другая кодировка
я все договариваю, я взял свои текстовые файлы, в УТФ8 и 1251. Ты то свой так и не дал. А то что ты в форум перекинул - оно уже несколько раз хрен знает где побывало. давай файл, блин