Это перевод Case mapping on Unicode is hard. Автор: Реймонд Чен.
Меня иногда спрашивают: "мне нужно проверить, что две строки являются одинаковыми (без учёта регистра). Как мне правильно это сделать?"
Ответом будет: "ну, это много от чего зависит. Какие case-mapping правила вы хотите использовать?"
Иногда говорят: "я хочу сделать сравнение независимым от языка (language-independent)".
Вот теперь у вас появилась проблема.
У каждого языка (локали, locale) свои case-mapping правила. Многие из них конфликтуют с правилами в других языках. Например, какие из нижеприведённых пар слов являются одинаковыми без учёта регистра?
1. gif GIF
2. Maße MASSE
3. Maße Masse
4. même MEME
Ответы:
1. Нет в Турции, да в Соединённых Штатах.
2. Нет в Соединённых Штатах, да в Германии.
3. Нет в в Соединённых Штатах, нет в Германии, да в Швейцарии! Хотя маловероятно, что вы увидите запись в форме "Maße" в Швейцарии.
4. Да во Франции, нет в Квебеке!
Ещё я слышал, что в Германии эти правила могут зависеть от контекста, хотя, может быть, последняя реформа орфографии это изменила. В Unicode Technical Report #21 есть и другие примеры.
Просто потому что вы используете Unicode ещё не означает, что вы решили все проблемы со своими языками. В самом деле, возможность отображать символы на любом языке мира означает, что у вас появляется больше вещей, о которых нужно заботиться, но никак не меньше.
Комментариев нет:
Отправить комментарий
Можно использовать некоторые HTML-теги, например:
<b>Жирный</b>
<i>Курсив</i>
<a href="http://www.example.com/">Ссылка</a>
Вам необязательно регистрироваться для комментирования - для этого просто выберите из списка "Анонимный" (для анонимного комментария) или "Имя/URL" (для указания вашего имени и ссылки на сайт). Все прочие варианты потребуют от вас входа в вашу учётку.
Пожалуйста, по возможности используйте "Имя/URL" вместо "Анонимный". URL можно просто не указывать.
Ваше сообщение может быть помечено как спам спам-фильтром - не волнуйтесь, оно появится после проверки администратором.
Примечание. Отправлять комментарии могут только участники этого блога.