Как узнать кодировку сайта делающего запрос к скрипту?

allforweb · 27 июл 2011

Через GET запрос нужно отдать контент (простой текстовый тизер) другому сайту.
Есть ли способ определить кодировку сайта, который делает запрос, чтобы отдать контент в нужной кодировке?

igordata · 27 июл 2011

allforweb
можно попросить, чтобы сайт сам указывал кодировку, иначе - в UTF-8 и будет красиво

allforweb · 27 июл 2011

igordata сказал(а):

allforweb
можно попросить, чтобы сайт сам указывал кодировку, иначе - в UTF-8 и будет красиво
Нажмите, чтобы раскрыть...

ну этот вариант очевиден, меня интересует именно автоматическая кодировка.

igordata · 27 июл 2011

нет такого.

sobachnik · 27 июл 2011

Вообще, способы именно программно определить кодировку - существуют, на Хабре, например, обсуждались. Конечно, о стопроцентной гарантии верного распознавания кодировки речи не идёт, но этот процент довольно высок. Есть алгоритм, дающий близкий к 100% результат.
Но это не самый простой процесс, а стандартных функций, которые определяют кодировку (и делают это правильно), на сколько я знаю, не существует.

MiksIr · 27 июл 2011

Можно требовать, что бы в запросе была заранее известная русская буква как отдельный параметр. Тогда легко восстановить кодировку. Но вообще-то, это забота запрашивающего сайта, зная в какой кодировке пришел ответ, перекодировать во внутреннюю... или ввести параметр в запросе, в какой кодировке хочет получить ответ запрашивающий сайт.

Mamont · 27 июл 2011

allforweb
Зачем тебе это делать, когда можно ответственность за получение данных в нужной кодировке возложить на клиента?

allforweb · 27 июл 2011

Mamont сказал(а):

allforweb
Зачем тебе это делать, когда можно ответственность за получение данных в нужной кодировке возложить на клиента?
Нажмите, чтобы раскрыть...

Ну я могу запрашивать кодировку получателя и это очевидное решение, но есть же другой алгоритм. Многие рекламные сети (Google и Яндекс например) не запрашивают кодировку сайта и отдают коннтент в нужной кодировке. Значит они могут определить ее сами.

igordata · 27 июл 2011

sobachnik
это GET запрос! =)

allforweb
Ну я могу запрашивать кодировку получателя и это очевидное решение, но есть же другой алгоритм.
тысячи их. но стоит ли их придумывать? =) Тебе надо в отпуск.

allforweb · 27 июл 2011

igordata сказал(а):

sobachnik
это GET запрос! =)

Нажмите, чтобы раскрыть...

да это GET запрос

Mamont · 27 июл 2011

allforweb сказал(а):

Mamont сказал(а):

allforweb
Зачем тебе это делать, когда можно ответственность за получение данных в нужной кодировке возложить на клиента?
Нажмите, чтобы раскрыть...

Ну я могу запрашивать кодировку получателя и это очевидное решение, но есть же другой алгоритм. Многие рекламные сети (Google и Яндекс например) не запрашивают кодировку сайта и отдают коннтент в нужной кодировке. Значит они могут определить ее сами.
Нажмите, чтобы раскрыть...

http protocol Accept-Charset

artoodetoo · 27 июл 2011

PHP:

<?php

$str = isset($_GET['text']) ? $_GET['text'] : '';

echo mb_detect_encoding($str, "auto");

ну а дальше видимо iconv ...

artoodetoo · 27 июл 2011

или вот так:

PHP:

<?php

header('Content-type: text/plain; charset: utf-8');

function is_utf8($data)

{

$result = preg_replace('/.*/su', '', $data);

return is_string($result) && strlen($result) == 0;

}

$text = isset($_GET['text']) ? $_GET['text'] : '';

$charset = is_utf8($text) ? 'UTF-8' : 'CP1251';

echo 'detected charset:' . $charset . "\n";

$text = iconv($charset, 'UTF-8//IGNORE', $text);

echo $text;

здесь делается допущение, что кодировка либо windows-1251 либо utf-8. я думаю это разумно

Mamont · 27 июл 2011

artoodetoo, внимательно читал?

allforweb сказал(а):

Через GET запрос нужно отдать контент (простой текстовый тизер) другому сайту.
Есть ли способ определить кодировку сайта, который делает запрос, чтобы отдать контент в нужной кодировке?
Нажмите, чтобы раскрыть...

artoodetoo · 27 июл 2011

И таки что? Ты внимательно читал мой ответ?

Если ты ищешь решение через жопу, то я пасс. Мой пример работает.

igordata · 27 июл 2011

artoodetoo
он хочет через жопу.

sobachnik · 28 июл 2011

Функция mb_detect_encoding() работает через жопу
Если достаточно отличить utf8 от не utf8 - то второй пример - да, норм.

artoodetoo · 28 июл 2011

в реале достаточно различать эти два случая. между latin1 и utf8 нет разницы а koi и dos остальись в вечной мерзлоте.

не за что!

sobachnik · 28 июл 2011

artoodetoo
Почему-то был уверен, что latin1 - это CP

Как узнать кодировку сайта делающего запрос к скрипту?

allforweb Активный пользователь

igordata Суперстар
Команда форума Модератор

allforweb Активный пользователь

igordata Суперстар
Команда форума Модератор

sobachnik Старожил

MiksIr Активный пользователь

Mamont Активный пользователь

allforweb Активный пользователь

igordata Суперстар
Команда форума Модератор

allforweb Активный пользователь

Mamont Активный пользователь

artoodetoo Суперстар
Команда форума Модератор

artoodetoo Суперстар
Команда форума Модератор

Mamont Активный пользователь

artoodetoo Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

sobachnik Старожил

artoodetoo Суперстар
Команда форума Модератор

sobachnik Старожил

Быстрый поиск

Как узнать кодировку сайта делающего запрос к скрипту?

allforweb Активный пользователь

igordata Суперстар Команда форума Модератор

allforweb Активный пользователь

igordata Суперстар Команда форума Модератор

sobachnik Старожил

MiksIr Активный пользователь

Mamont Активный пользователь

allforweb Активный пользователь

igordata Суперстар Команда форума Модератор

allforweb Активный пользователь

Mamont Активный пользователь

artoodetoo Суперстар Команда форума Модератор

artoodetoo Суперстар Команда форума Модератор

Mamont Активный пользователь

artoodetoo Суперстар Команда форума Модератор

igordata Суперстар Команда форума Модератор

sobachnik Старожил

artoodetoo Суперстар Команда форума Модератор

sobachnik Старожил

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

artoodetoo Суперстар
Команда форума Модератор

artoodetoo Суперстар
Команда форума Модератор

artoodetoo Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

artoodetoo Суперстар
Команда форума Модератор