четверг, 26 марта 2009 г.

Некоторые файлы как-то странно показываются в Блокноте

Это перевод Some files come up strange in Notepad. Автор: Реймонд Чен.

Дэвид Кампс обнаружил, что некоторые текстовые файлы в Блокноте выглядят странно.

Причина состоит в том, что Блокнот должен уметь редактировать файлы в различных кодировках, и, когда он прижат к стене, иногда ему приходится угадывать кодировку. Вот файл со словом Hello в разных кодировках:

48 65 6C 6C 6F
Это традиционная кодировка ANSI.

48 00 65 00 6C 00 6C 00 6F 00
Это кодировка Unicode (прим.пер.: UTF-16) с порядком little-endian без указателя BOM (Byte Order Mask).

FF FE 48 00 65 00 6C 00 6C 00 6F 00
Это кодировка Unicode с порядком little-endian с BOM. Байты FF FE называются BOM (Byte Order Mask) и служат двум целям: во-первых, они помечают файл как документ в кодировке Unicode, а во-вторых, они указывают порядок, в котором идут байты (little-endian или big-endian).

00 48 00 65 00 6C 00 6C 00 6F
Это кодировка Unicode (big-endian) без BOM. Блокнот не поддерживает эту кодировку.

FE FF 00 48 00 65 00 6C 00 6C 00 6F
Это кодировка Unicode (big-endian) с BOM. Обратите внимание на то, что эта спецификация находится в порядке, обратном порядку в спецификации с прямым порядком байтов.

EF BB BF 48 65 6C 6C 6F
Это кодировка UTF-8. Первые три байта - это BOM для UTF-8.

2B 2F 76 38 2D 48 65 6C 6C 6F
Это кодировка UTF-7. Первые пять байтов - это BOM для UTF-7. Блокнот не поддерживает эту кодировку.

Прим.пер.: есть ещё 00 00 FE FF для UTF-32, big-endian и FE FF 00 00 для UTF-32, little-endian.

Обратите внимание, что BOM для UTF-7 - это просто строка ASCII "+/v8-" (без кавычек), которую трудно отличить от обычного файла, который начинается с этих пяти символов (какими бы странными они ни были). Кодировки, которые не имеют BOM и которые, тем не менее, поддерживаются Блокнотом: традиционная кодировка ANSI (т.е. "простой ASCII") и кодировка Unicode (UTF-16, little-endian). Столкнувшись с файлом без BOM, Блокнот вынужден угадывать, какую из этих двух кодировок ему нужно использовать. Эту работу выполняет функция IsTextUnicode, которая изучает набор байтов файла и выполняет статистический анализ, чтобы сделать некоторое предположение на основе эвристики. При этом, как указано в документации, "абсолютная точность не гарантируется". Короткие строки, скорее всего, будут определены неправильно.

Читать далее:

Комментариев нет:

Отправить комментарий

Можно использовать некоторые HTML-теги, например:

<b>Жирный</b>
<i>Курсив</i>
<a href="http://www.example.com/">Ссылка</a>

Вам необязательно регистрироваться для комментирования - для этого просто выберите из списка "Анонимный" (для анонимного комментария) или "Имя/URL" (для указания вашего имени и ссылки на сайт). Все прочие варианты потребуют от вас входа в вашу учётку.

Пожалуйста, по возможности используйте "Имя/URL" вместо "Анонимный". URL можно просто не указывать.

Ваше сообщение может быть помечено как спам спам-фильтром - не волнуйтесь, оно появится после проверки администратором.

Примечание. Отправлять комментарии могут только участники этого блога.