Linux программирование в примерах - Роббинс Арнольд, страница 204 читать на Freelibrary.ru

Linux программирование в примерах - Роббинс Арнольд. Страница 204

Широкие символы представлены на С типом

wchar_t

. C99 предоставляет соответствующий тип

wint_t

, в котором может находиться любое значение, допустимое для

wchar_t

, а также специальное значение

WEOF

, аналогичное обычному

EOF

из

<stdio.h>

. В заголовочном файле

<wchar.h

> определены различные типы. Ряд функций, сходных с функциями в

<ctype.h>

, такие, как

iswalnum()

и др., определены в заголовочном файле

<wctype.h>

Широкие символы могут быть от 16 до 32 битов размером в зависимости от реализации. Как упоминалось, они нацелены на манипулирование данными в памяти и обычно не хранятся в файлах непосредственно.

Стандарт C предусматривает для широких символов большое число функций и макросов, соответствующих традиционным функциям, работающим с данными

char

. Например,

wprintf()

iswlower()

и т.д. Они документированы в справочных страницах GNU/Linux и в книгах по стандартному С.

13.4.2. Представления многобайтных символов

Строки широких символов сохраняются на диске путем преобразования их в памяти в многобайтное представление набора символов с последующей записью в дисковый файл. Сходным образом, такие строки считываются с диска через низкоуровневый блочный ввод/вывод, а затем конвертируются в памяти из многобайтной версии в версию широких символов.

Многие описанные кодировки используют для представления многобайтных символов состояния регистра (shift states). Другими словами, в данном потоке байтов значения байтов представляют самих себя до тех пор, пока не встретится специальное управляющее значение. В этот момент интерпретация изменяется в соответствии с текущим состоянием регистра. Таким образом, одно и то же восьмибитовое значение может иметь два значения: одно для обычного состояния, без использования регистра, и другое для использования регистра. Предполагается, что правильно закодированные строки начинаются и заканчиваются с одним и тем же состоянием регистра.

Значительным преимуществом Unicode является то, что его представления являются самокорректирующимися; кодировки не используют состояния регистров, поэтому потеря данных в середине не может повредить последующим закодированным данным.

Первоначальные версии функций преобразования многобайтных символов в широкие и широких в многобайтные поддерживали закрытую копию состояния преобразования (например, состояние регистра, а также все остальное, что могло понадобиться) Такая модель ограничивает использование функции лишь одним видом преобразования в течение жизни программы. Примерами являются

mblen()

(определение длины многобайтной строки),

mbtowc()

(преобразование многобайтного символа в широкий),

wctomb()

(преобразование широкого символа в многобайтный),

mbstowcs()

(преобразование многобайтной строки в строку широких символов),

wcstombs()

(преобразование строки широких символов в многобайтную строку).

Новые версии этих процедур называются повторно запускаемыми (restartable). Это означает, что код уровня пользователя сохраняет состояние преобразования в отдельном объекте типа

mbstate_t

. Соответствующими примерами являются

mbrlen()

mbrtowc()

wcrtomb()

mbsrtowcs()

wcsrtombs()

. (Обратите внимание на

r

в их именах, это означает «restartable».)

13.4.3. Языки

Языковые проблемы управляются локалью. Ранее в главе мы уже видели

setlocale()

POSIX предоставляет продуманный механизм для определения правил, посредством которых работает локаль; некоторые подробности см. в справочной странице GNU/Linux locale(5), а полностью — в самом стандарте POSIX.

Правда в том, что подробности на самом деле не нужны. Вам, как разработчику программ, не нужно беспокоиться о них; как заставить все работать, зависит от разработчиков библиотек. Все, что нужно, это понять концепции и использовать в своем коде соответствующие функции, такие, как

strcoll()

(см. раздел 13.2.3 «Сравнение строк:

strcoll()

strxfrm()

»).

Современные системы GLIBC предоставляют отличную поддержку локалей, включая поддерживающие локали процедуры сопоставления регулярных выражений. Например, расширенное регулярное выражение POSIX

[[:alpha:]][[:alnum:]]+

соответствует букве, за которой следуют одна или более букв или цифр (алфавитный символ, за которым следуют один или более алфавитно-цифровых символов). Определение того, какие символы соответствуют этим классам, зависит от локали. Например, это регулярное выражение соответствовало бы двум символам '

eè

', тогда как регулярное выражение

[a-zA-Z][a-A-Zz0-9]+

традиционного, ориентированного на ASCII Unix — скорее всего нет. Классы символов POSIX перечислены в табл. 13.5.

Таблица 13.5. Классы символов регулярных выражений POSIX

Класс	Соответствует
`[:alnum:]`	Алфавитно-цифровые символы
`[:alpha:]`	Алфавитные символы
`[:blank:]`	Символы пробела и табуляции.
`[:cntrl:]`	Управляющие символы
`[:digit:]`	Цифровые символы
`[:graph:]`	Символы, являющиеся одновременно печатными и видимыми. (Символ конца строки печатный, но не видимый, тогда как `$` является и тем, и другим.)
`[:lower:]`	Строчные алфавитные символы
`[:print:]`	Печатные (не управляющие) символы
`[:punct:]`	Знаки пунктуации (не буквы, цифры, управляющие или пробельные символы)
`[:space:]`	Пробельные символы (такие, как сам пробел, символы табуляции, конца строки и т.д)
`[:upper:]`	Заглавные алфавитные символы
`[:xdigit:]`	Символы из набора `abcdefABCDEF0123456789`