Главная

Метка «Unicode» - 2

Заглавные и строчные буквы

2012-07-09 в 7:55, admin, рубрики: Unicode, Программирование, типографика, метки: Unicode

Я собрал здесь некоторые не очень очевидные факты о заглавных и строчных буквах, с которыми может столкнуться программист в работе. Многие из вас переводили строки во «все заглавные» (uppercase), «все строчные» (lowercase), «первую заглавную, а остальные строчные» (titlecase). Ещё более популярна операция сравнения без учёта регистра. В мировом масштабе такие операции могут быть весьма нетривиальны. Пост построен в виде «сборника заблуждений» с контрпримерами.

1. Если я переведу строку в uppercase или lowercase, число Unicode-символов не изменится.

Нет. В тексте могут попасться строчные лигатуры, которым не соответствует один символ в верхнем регистре. Например, при переводе в uppercase: ﬁ (U+FB00) -> FI (U+0046, U+0049)

2. Лигатуры — изврат, ими никто не пользуется. Если их не учитывать, то я прав.

Нет. Некоторым буквам с диакритикой нет точного соответствия в другом регистре, поэтому приходится использовать комбинированный символ. Скажем, в языке африкаанс есть буква ŉ (U+0149). В верхнем регистре ей соответствует комбинация из двух символов: Заглавные и строчные буквы (U+02BC, U+004E). Если вам попадётся транслитерация арабского текста, вы можете столкнуться с (U+1E96), которой в верхнем регистре также нет односимвольного соответствия, поэтому придётся заменять на Заглавные и строчные буквы (U+0048, U+0331). В ваханском языке есть буква (U+01F0) с аналогичной проблемой. Вы можете возразить, что это экзотика, однако на африкаанс в википедии 23000 статей.

3. Ну хорошо, но давайте считать комбинированный символ (с участием modifying или combining code points) одним символом. Тогда длина всё же сохранится.

Нет. Есть, например, в немецком языке буква «эсцет» ß (U+00DF). При переводе в верхний регистр, она превращается в два символа SS (U+0053, U+0053).
Читать полностью »

Типографика / Вышел стандарт Unicode 6.1, добавлено 732 новых символа

2012-02-05 в 13:08, admin, рубрики: Unicode, Юникод, метки: Unicode, Юникод

Типографика / Вышел стандарт Unicode 6.1, добавлено 732 новых символа
31 января официально представлена новая версия стандарта Unicode 6.1.0, это минорный релиз по сравнению с Unicode 6.0.0 (октябрь 2010 г.).
Последняя версия включает 732 новых символа, в том числе семь новых письменностей: китайские, азиатские и африканские. Среди 110 тыс. символов Unicode можно найти глифы на любой вкус, например, вот символ LOVE HOTEL (U+1F3E9):
В Unicode 6.1 добавлена поддержка 200 вариаторов для иконок (смайликов) Emoji, так что теперь эти значки можно описывать как в чёрно-белом (text style), так и в цветном варианте (emoji style).
26FA FE0E

TENT text style

26FA FE0F

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Метка «Unicode» - 2

Заглавные и строчные буквы

1. Если я переведу строку в uppercase или lowercase, число Unicode-символов не изменится.

2. Лигатуры — изврат, ими никто не пользуется. Если их не учитывать, то я прав.

3. Ну хорошо, но давайте считать комбинированный символ (с участием modifying или combining code points) одним символом. Тогда длина всё же сохранится.

Типографика / Вышел стандарт Unicode 6.1, добавлено 732 новых символа

Архив

Информация

Обсуждаемое

Рекомендуем

Метка «Unicode» - 2

Заглавные и строчные буквы

1. Если я переведу строку в uppercase или lowercase, число Unicode-символов не изменится.

2. Лигатуры — изврат, ими никто не пользуется. Если их не учитывать, то я прав.

3. Ну хорошо, но давайте считать комбинированный символ (с участием modifying или combining code points) одним символом. Тогда длина всё же сохранится.

Типографика / Вышел стандарт Unicode 6.1, добавлено 732 новых символа

Новости

Актуальные темы

Архив