За последние 24 часа нас посетили 22928 программистов и 1245 роботов. Сейчас ищут 780 программистов ...

Точное определение кодировки данных в переменной

Тема в разделе "Вопросы от блондинок", создана пользователем wtfowned, 17 дек 2007.

  1. wtfowned

    wtfowned Активный пользователь

    С нами с:
    4 окт 2007
    Сообщения:
    37
    Симпатии:
    0
    Такой вопрос , можно ли как нибудь точно определить кодировку какого либо текста ?
    Подходящей функции так и не нашел ....
    Поисковики выдают обычную проверку входящих символов , которая позволяет отличие кириллицу от юникода .
    Заранее thx
     
  2. Sergey89

    Sergey89 Активный пользователь

    С нами с:
    4 янв 2007
    Сообщения:
    4.796
    Симпатии:
    0
  3. Штаны

    Штаны Guest

    тем более, что в одном тексте может одновременно быть несколько кодировок...
     
  4. Sergey89

    Sergey89 Активный пользователь

    С нами с:
    4 янв 2007
    Сообщения:
    4.796
    Симпатии:
    0
    это как? =)
     
  5. Штаны

    Штаны Guest

    Примерно вот так:

    И н с т р у к ц и я п о п р о в е д е н и ю а к т а ( г о л о с о в а н и е ) 1 . Н а й д и т е м е с т о , г д е в ы б е з о с о б о г о т р у д а с м о ж е т е с о в е р ш и т ь а к т . 2 . С п о м о щ ь ю с п е ц и а л ь н о й к о м и с с и и п о л у ч и т е р а з р е ш е н и е н а п р о в е д е н и е а к т а . 3 . П о л у ч и т е у к о м и с с и и н е о б х о д и м ы е а к ц е с с у а р ы д л я п р о в е д е н и я а к т а - р а с х о д н ы е м а т е р и а л ы , с п е ц и а л ь н ы й м н о г о р а з о в ы й п р и б о р д л я о с у щ е с т в л е н и я с в о е г о о т н о ш е н и я в о т н о ш е н и и т о г о и л и и н о г о с в о е г о и з б р а н н и к а . 4 . У б е д и т е с ь в н а л и ч и и с п е ц и а л ь н о о т в е д е н н о г о п о м е щ е н и я д л я п р о в е д е н и я с о б с т в е н н о а к т а ( о б ы ч н о о н о э р о т и ч н о г о я р к о - к р а с н о г о ц в е т а ) . 5 . П р о й д и т е т у д а , у б е д и т е с ь , ч т о з а в а м и н и к т о н е п о д с м а т р и в а е т и с о в е р ш и т е с о с в о и м и з б р а н н и к о м , т о ч т о с о б и р а л и с ь . В ы м о ж е т е с д е л а т ь э т о л ю б ы м с п о с о б о м , г л а в н о е , с о г л а с н о з а к о н о д а т е л ь с т в у , н е и с п о л ь з о в а т ь д в у х и б о л е е . 6 . П о о к о н ч а н и и , в ы й д и т е и з п о м е щ е н и я , г д е в ы с о в е р ш а л и а к т , п р о й д и т е к у р н е и о с т а в т е т а м т о , о т ч е г о в ы х о т и т е и з б а в и т ь с я п о о к о н ч а н и и а к т а . Н а э т о м а к т г о л о с о в а н и я о к о н ч е н .

    = A B @ C : F 8 O ? > ? @ > 2 5 4 5 = 8 N 0 : B 0 ( 3 > ; > A > 2 0 = 8 5 ) 1 . 0 9 4 8 B 5 , 3 4 5 2 K 1 5 7 > A > 1 > 3 > B @ C 4 0 A 6 5 B 5 A > 2 5 @ H 8 B L 0 : B . 2 . ! ? > I L N A ? 5 F 8 0 ; L = > 9 : > ; C G 8 B 5 @ 0 7 @ 5 H 5 = 8 5 = 0 ? @ > 2 5 4 5 = 8 5 0 : B 0 . 3 . ¬ > ; C G 8 B 5 C : > 1 E > 4 8 2 5 4 5 = 8 O 0 : B 0 - @ 0 A E > 4 = K 5 3 > @ 0 7 > 2 K 9 ? @ 8 1 > @ 4 ; O > A C I 5 A B 2 ; 5 = 8 O A 2 > 5 3 > > B = > H 5 = 8 O 2 > B = > H 5 = 8 8 B > 3 > 8 ; 8 8 = > 3 > A 2 > 5 3 > 8 7 1 @ 0 = = 8 : 0 . 4 . # 1 5 4 8 B 5 A L 2 = 0 ; 8 G 8 8 A ? 5 F 8 0 ; L = > > B 2 5 4 5 = = > 3 > ? > 2 5 4 5 = 8 O A > 1 A B 2 5 = = > 0 : B 0 ( > 1 K G = > > = > M @ > B 8 G = > 3 > O @ : > - : @ 0 A = > 3 > F 2 5 B 0 ) . 5 . ¬ @ > 9 4 8 B 5 B C 4 0 , C 1 5 4 8 B 5 A L , G B > 7 0 2 0 = 5 ? > 4 A 2 5 @ H 8 B 5 A > A 2 > 8 G B > A > 1 8 @ 0 ; 8 A L . K 6 5 B 5 A 4 5 ; 0 B L M B > ; N 1 K A > 1 > 5 , A > 3 ; 0 A = > 7 0 : > = > 4 0 B 5 ; L A B 2 C , = 5 8 A ? > ; L 7 > 2 0 B L 4 2 C E 8 1 > ; 5 5 . 6 . ¬ > > : > = G 0 = 8 8 , 2 K 9 4 8 B 5 8 7 ? > 2 5 @ H 0 ; 8 0 : B , ? @ > 9 4 8 B 5 : C @ = 5 8 > A B 0 2 B 5 B 0 , > B G 5 3 > 2 K E > B 8 B 5 8 7 1 0 2 8 B L A O ? > > : > = G 0 = 8 8 0 : B 0 . 0 M B > ; > A > 2 0 = 8 O > : > = G 5 = .

    :)
    Текст и там и там одинаков, но кодировка разная и я его вставил одним куском.
     
  6. KombaInER

    KombaInER Активный пользователь

    С нами с:
    5 апр 2007
    Сообщения:
    221
    Симпатии:
    0
    Адрес:
    Днепр+Крым=Украина
    покажи мне глупому где у тебя тут разная кодировка
     
  7. wtfowned

    wtfowned Активный пользователь

    С нами с:
    4 окт 2007
    Сообщения:
    37
    Симпатии:
    0
    :)) Хватит спорить . Вообще в моем случае у меня всегда строка была одной кодировки .
    Но проблема , с чем было связано создание этой темы , решилась .
    Одна из цитат человека
    П.с. хеадер решает .
    Сорри за тему , ее можно клоузе )
     
  8. Штаны

    Штаны Guest

    А чё тут показывать? Чтобы нижний блок символов превратился по смыслу в верхний, нужно знать его кодировку...
     
  9. KombaInER

    KombaInER Активный пользователь

    С нами с:
    5 апр 2007
    Сообщения:
    221
    Симпатии:
    0
    Адрес:
    Днепр+Крым=Украина
    в данном случае имелось ввиду, как ты можешь впихнуть wg1251 и ютф8 в один текст. А в том тексте у тебя один цп1251
     
  10. Штаны

    Штаны Guest

    Как я могу это впихнуть? Да легко! :)
    По-порядку:
    1) Открываешь например блокнот.
    2) Копируешь в него текст в кодировке windows-1251.
    3) Далее копируешь в него такой же текст, но в в кодировке UTF-8.
    4) Сохраняешь этот блокнотовский файл в какой-нибудь третьей кодировке.
    Далее вопрос: в какой кодировке данные в этом файле?
    В windows-1251? Представляешь файл в этой кодировке, но видишь, что нет смысла в нижнем блоке текста...
    В UTF-8? Представляешь файл в этой кодировке, но видишь, что тогда нет смысла в верхнем блоке текста...
     
  11. Dagdamor

    Dagdamor Активный пользователь

    С нами с:
    4 фев 2006
    Сообщения:
    2.095
    Симпатии:
    1
    Адрес:
    Барнаул
    Штаны
    Комбайнер, по-видимому, имеет в виду, что кодировка текста - это "то, что он сам решил", а не то, что в этом тексте содержится...
    К сожалению, это неверно, т.к. определенные комбинации символов в том же УТФ являются недопустимыми и следовательно текст в определенной кодировке не может хранить все подряд ;)
     
  12. KombaInER

    KombaInER Активный пользователь

    С нами с:
    5 апр 2007
    Сообщения:
    221
    Симпатии:
    0
    Адрес:
    Днепр+Крым=Украина
    да, по-русски это так звучит =)
     
  13. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    Штаны
    могу тебя заверить, что после вставки из буфера в блокнот, текст будет переконверчен в кодировку, в которой создан документ либо сохранен. Именно поэтому частенько при копировании со страниц с КОИ-8 в блокноте кракозябры.
    и все это сохранится в ОДНОЙ кодировке.

    windows-1251

    имеет место быть непонимание. Включая 1251 весь текст просматривается как однобайтовая 1251. При УТФ весь текст будет как двухбайтовый. С таким же успехом можно открыть картинку и искать знакомые буквы, которые случайно соберутся из байтов попадающих в таблицу кодировки.
     
  14. Штаны

    Штаны Guest

    Что то я запутался, что такое кодировка... Кто подскажет?
    Кодировка это - ...
     
  15. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    таблица, в которой указано соответсвие значения байта (два байта, три байта, числовое значение символа короче) самому символу.
     
  16. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    имхо, кодировки - это один из самых грандиозных костылей %)
     
  17. Штаны

    Штаны Guest

    И только потому, что в шапке форумной страницы написано <meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> ?? А может нет? Может когда беспорядочный набор символов который видится на форумной странице с <meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> превращается в осмысленные предложения например в Unicode , то это говорит о том, что текст в кодировке Unicode?
     
  18. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    это потому что я попробывал и посмотрел в hex-редакторе.

    ЗЗЫ WinXP_SP2 eng-rus
     
  19. Штаны

    Штаны Guest

    И что ты там такое отличительное увидел? Почему не подумал, что это, например, KOI8-R кодировка?
     
  20. KombaInER

    KombaInER Активный пользователь

    С нами с:
    5 апр 2007
    Сообщения:
    221
    Симпатии:
    0
    Адрес:
    Днепр+Крым=Украина
    антонн сказал.
    Ты же, я так понял, имел ввиду шифр свой
    ==
     
  21. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    потому что как КОИ она показывала кракозябры, а как 1251 нормальный текст.
    ты бы файлик свой прикрепил? только именно файлик, да еще в zip на всякий случай :)
     
  22. Штаны

    Штаны Guest

    Ты недоговариваешь :) Нормальный текст был только до середины :) А дальше пошли кракозябы, т.е. другая кодировка :)
     
  23. Штаны

    Штаны Guest

    Это был неудачный пример. Я теперь его сам раскодировать не могу :) Щя удачней подберу.
     
  24. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    я все договариваю, я взял свои текстовые файлы, в УТФ8 и 1251. Ты то свой так и не дал. А то что ты в форум перекинул - оно уже несколько раз хрен знает где побывало.

    давай файл, блин :)
     
  25. Штаны

    Штаны Guest

    Щя проверим :)

    Вот текст:
    Код (Text):
    1.  
    2. ЛПДЙТПЧЛБ ЪЮФШаЮТЪР Є®¤Ёа®ўЄ
    В какой он кодировке?