Как обрабатывать rss feeds с различной кодировкой?

mistake · 31 мар 2006

Ситуация: Скачал класс для парсинга и вывода rss.xml. Но xml_parser выводит текст в той кодировке, в которой получил. Так что при выводе нескольких новостных лент с различной кодировкой страница не может правильно отображаться. Кодировка конечно указана в приходящем документе, но ее можно узнать только во время самого парсинга, а менять TARGET_ENCODING xml_parsera в это время наверно уже поздно.
Так вопрос: каким образом узнавать и менять кодировки разных лент, чтобы все они выводились на одной странице в кодировке Windows-1251?

440Hz · 31 мар 2006

mistake
при получении RSS в самом нчале прописано
<?xml version="1.0" encoding="windows-1251" ?>

ловишь от туда кодировку. конвертишь iconv() в то, что требуется.

mistake · 31 мар 2006

при получении RSS в самом нчале прописано
<?xml version="1.0" encoding="windows-1251" ?>
Нажмите, чтобы раскрыть...

это понятно

конвертишь iconv() в то, что требуется.
Нажмите, чтобы раскрыть...

За это СПАСИБО. Действительно работает, хотя я и не знал что существует iconv(). Полезная вещь.

440Hz · 31 мар 2006

mistake
я давно работаю в UTF-8. очень много проблем с кодировками отпадают сами собой. Рекомендую ...

Главное грамотно настроить базу.

mistake · 31 мар 2006

У меня вообще парадокс. На хостинге хмл-парсер вкакой кодировке берет, в такой и возвращает. А на локалке урезаный денвер берет в разных, а возвращает всегда в utf-8. В скрипте совместить это - головная боль.
И чем utf8 лучше win1251. По каким причинам переходить лишь на неё?

SNET.Manager · 1 апр 2006

http://snet-group.org/projects/rss

440Hz · 1 апр 2006

mistake сказал(а):

И чем utf8 лучше win1251. По каким причинам переходить лишь на неё?
Нажмите, чтобы раскрыть...

1251 это подмножество utf-8.

mistake · 2 апр 2006

SNET.Manager сказал(а):

http://snet-group.org/projects/rss
Нажмите, чтобы раскрыть...

Не совсем понятно
Warning: file_get_contents(): Unable to access exploit.in/rss.php in /home/snetgro/public_html/projects/rss/rss-parser.php on line 27

Warning: file_get_contents(exploit.in/rss.php): failed to open stream: No such file or directory in /home/snetgro/public_html/projects/rss/rss-parser.php on line 27

mistake · 2 апр 2006

SNET.Manager прошу прощения, с абс. адресами вида http://www.cnews.ru/news.xml работает, но в чём был совет?

AlexGousev · 5 апр 2006

440hz сказал(а):

mistake сказал(а):

И чем utf8 лучше win1251. По каким причинам переходить лишь на неё?
Нажмите, чтобы раскрыть...

1251 это подмножество utf-8.
Нажмите, чтобы раскрыть...

Уж лучше бы не отвечали... никаким подможестовом она не является.
UTF-8 - это кодировка, в кторой есть коды для всех букв/символов/иероглифов. В 1251 только стандартная ASCII и кириллица. Проще говоря в случае UTF-8 мы используем одну кодировку для всех алфавитов, а в случае всяких CP-1251,1252,... отдельную кодировку для каждого алфавита.

440Hz · 5 апр 2006

AlexGousev
и почему же она не подмножество? если включает все, что принадлежит 1251? подмножество и есть.

AlexGousev · 6 апр 2006

440hz сказал(а):

AlexGousev
и почему же она не подмножество? если включает все, что принадлежит 1251? подмножество и есть.
Нажмите, чтобы раскрыть...

Я трактовал слово "подмножество" как "одно множество является частью другого".

В CP1251 коды символов кириллицы лежат в диапазоне 128-255 (точно не помню какие где). В UTF-8 для кириллических символов используется второй байт. В общем, http://unicode.org/, если интересно.[/url]

440Hz · 6 апр 2006

AlexGousev сказал(а):

440hz сказал(а):

AlexGousev
В общем, http://unicode.org/, если интересно.[/url]
Нажмите, чтобы раскрыть...

Нажмите, чтобы раскрыть...

спасибо ... знаем ... 8)

Как обрабатывать rss feeds с различной кодировкой?

mistake Активный пользователь

440Hz Старожил
Команда форума Модератор

mistake Активный пользователь

440Hz Старожил
Команда форума Модератор

mistake Активный пользователь

SNET.Manager Активный пользователь

440Hz Старожил
Команда форума Модератор

mistake Активный пользователь

mistake Активный пользователь

AlexGousev Активный пользователь

440Hz Старожил
Команда форума Модератор

AlexGousev Активный пользователь

440Hz Старожил
Команда форума Модератор

Быстрый поиск

Как обрабатывать rss feeds с различной кодировкой?

mistake Активный пользователь

440Hz Старожил Команда форума Модератор

mistake Активный пользователь

440Hz Старожил Команда форума Модератор

mistake Активный пользователь

SNET.Manager Активный пользователь

440Hz Старожил Команда форума Модератор

mistake Активный пользователь

mistake Активный пользователь

AlexGousev Активный пользователь

440Hz Старожил Команда форума Модератор

AlexGousev Активный пользователь

440Hz Старожил Команда форума Модератор

440Hz Старожил
Команда форума Модератор

440Hz Старожил
Команда форума Модератор

440Hz Старожил
Команда форума Модератор

440Hz Старожил
Команда форума Модератор

440Hz Старожил
Команда форума Модератор