Кодировка символов

Не следует путать с таблицей символов — списком используемых идентификаторов, составляемым при трансляции программы.

Набор символов (англ. character set) — таблица, задающая кодировку конечного множества символов алфавита (обычно элементов текста: букв, цифр, знаков препинания). Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько символов другого алфавита (точек и тире в коде Mорзе, сигнальных флагов на флоте, нулей и единиц (битов) в компьютере).

Набор символов в компьютере

Символы в компьютере обычно кодируются одним или нескольким байтами (группами из восьми битов).

Хотя термин «набор символов» ([4].

Нередко также вместо термина «набор символов» неправильно употребляют термин «кодовая страница», означающий на самом деле частный случай набора символов с однобайтным кодированием.

В настоящее время в основном используются кодировки трёх типов: совместимые с ASCII, совместимые с EBCDIC и основанные на Юникоде 16-битные, с подавляющим преобладанием первых. Представление UTF-8 Юникода совместимо с ASCII. Кодировки на базе EBCDIC (например, ДКОИ-8) используются только на некоторых мэйнфреймах. Первоначально в каждой операционной системе использовался один набор символов. Теперь используемые наборы символов стандартизованы^[5], зависят от типа операционной системы лишь по традиции и устанавливаются согласно локали.

В Википедии и других проектах Фонда Викимедиа используется Юникод UTF-8.

Автоматическое распознавание кодировок

Использование множества кодировок в современном ПО создаёт много неудобств не только программистам, но и пользователям. Согласно одной точке зрения, справиться с кракозябрами^[en] можно, если программы будут автоматически распознавать кодировку входящего текста.

Для однобайтных кодировок можно учитывать тот факт, что частота использования разных букв сильно различается (например, в русском часто используется «о», но редко «ъ»). Поэтому, зная язык текста, можно легко выбрать кодировку, в которой частота байтов лучше соответствует частоте букв данного языка.

Альтернативная точка зрения считает подобные эвристические алгоритмы определения кодировки текста вредными, поскольку современные информационные технологии располагают средствами недвусмысленно сопоставить тексту положенную ему кодовую страницу (см., например, MIME). Широкое же распространение эвристических анализаторов поощряет использование некачественных программ создания текстовых данных, нарушающих стандарты.

Распространенные кодировки

ISO 646
- ASCII
BCDIC
EBCDIC
ISO 8859:
- ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO 8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11, ISO 8859-13, ISO 8859-14, ISO 8859-15
- CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
Кодировки Microsoft Windows:
- Windows-1250 для языков Центральной Европы, которые используют латинское написание букв (польский, чешский, словацкий, венгерский, словенский, хорватский, румынский и албанский)
- Windows-1251 для кириллических алфавитов
- Windows-1252 для западных языков
- Windows-1253 для греческого языка
- Windows-1254 для турецкого языка
- Windows-1255 для иврита
- Windows-1256 для арабского языка
- Windows-1257 для балтийских языков
- Windows-1258 для вьетнамского языка
MacRoman, MacCyrillic
КОИ8 (KOI8-R, KOI8-U…), КОИ-7
Болгарская кодировка
ISCII
VISCII
Big5 (наиболее знаменитый вариант Microsoft CP950)
- HKSCS
Guobiao
- GB2312
- GBK (Microsoft CP936)
- GB18030
Shift JIS для японского языка (Microsoft CP932)
EUC-KR для корейского языка (Microsoft CP949)
ISO-2022 и EUC для китайской письменности
Кодировки UTF-8, UTF-16 и UTF-32 набора символов Юникод

См. также

Ссылки

Юникод-коды символов на unicode.org

Примечания

Перечень основных «кодировок» в руководстве по Java SE 6

Обсуждение темы «кодировок» в документации по языку Perl

Обсуждение темы «кодировок» в документации по технологии XSLT

Обсуждение соотношения терминов «кодировка» и «набор символов» в документации по языку HTML

Спецификации наборов символов на сайте IANA

Кодировки символов

Основы алфавит • текст ( файл • данные ) • набор символов • конверсия

Исторические кодировки Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2

Комп.: 6-битная • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646

современное
8-битное
представление символы ASCII ( управляющие • печатные ) • не-ASCII ( псевдографика )

8-битные код.стр. Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic

ISO 8859 1 (лат.) • 2 • 3 • 4 • 5 (кир.) • 6 • 7 • 8 • 9 • 10 • 11 • 12 • 13 • 14 • 15 (€) • 16

Windows 1250 • 1251 (кир.) • 1252 • 1253 • 1254 • 1255 • 1256 • 1257 • 1258 • WGL4

IBM & DOS 437 • 850 • 852 • 855 • 866 «альт.» • МИК • НИИ ЭВМ

Многобайтные Традиционные DBCS ( GB2312 ) • HTML

Unicode UTF-32 • UTF-16 • UTF-8 • список символов ( кириллица )

Связанные темы интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение

Утилиты iconv • recode

Шрифтолитейное дело и шрифтовой дизайн

Понятия Шрифт · Гарнитура · Глиф · Лигатура · Литера · Матрица · Пуансон · Словолитня · Панграмма

Строение шрифта^[en] Базовая линия · Выносные элементы · Вершина · Основной штрих (штамб) · Горизонтальный элемент · Овал · Соединительный штрих · Узел · Перекладина · Концевой элемент · Нога · Засечка · Точка · Наплыв · Ось овала · Присоединение · Ухо · Плечо · Капля · Петля · Внутрибуквенный просвет · Полуовал · Хвост · Заплечики^[de] · Очко литеры · Кегельная площадка

Характеристики шрифта Апертура^[en] · Апрош · Кернинг · Рост строчных^[en] · Рост прописных · Рост шрифта · Очко шрифта · Кегль (Список) · Пропорции · Насыщенность

Классификация шрифтов
алфавитного письма

Древние Маюскул · Минускул (Каролингский минускул) · Унциал · Островной пошиб (Гэльский шрифт)

Готические Ротунда · Текстура · Фрактура · Швабахер

Славянские Вязь · Глаголица · Полуустав · Скоропись · Устав

Современные Антиква · Гротеск · Моноширинный/Пропорциональный · Брусковый · Рукописный · Акцидентный · Болгарица

Начертания шрифта Жирный шрифт · Курсив · Наклонный шрифт · Капитель · Минускульные цифры

Единицы измерения Пайка^[en] · Пункт · Квадрат

Компьютерная
типографика Компьютерный шрифт · Набор символов · Кодовая страница · Юникод · Растеризация · Хинтинг · ClearType · PostScript · TrueType · OpenType · Растровый шрифт · Экранный шрифт

См. также: Издательство, Типография, Типографика, Набор, Вёрстка, Печатание

Stamp-i-k.ru

Печати, штампы

Рекомендуем

Кодировка символов

Содержание

Набор символов в компьютере

Автоматическое распознавание кодировок

Распространенные кодировки

См. также

Ссылки

Примечания

Кодировки символов
Основы		алфавит • текст ( файл • данные ) • набор символов • конверсия
Исторические кодировки	Докомп.:	семафорная (Макарова) • Морзе • Бодо • МТК-2
Исторические кодировки	Комп.:	6-битная • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646
современное 8-битное представление	символы	ASCII ( управляющие • печатные ) • не-ASCII ( псевдографика )
	8-битные код.стр.	Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic
	ISO 8859	1 (лат.) • 2 • 3 • 4 • 5 (кир.) • 6 • 7 • 8 • 9 • 10 • 11 • 12 • 13 • 14 • 15 (€) • 16
	Windows	1250 • 1251 (кир.) • 1252 • 1253 • 1254 • 1255 • 1256 • 1257 • 1258 • WGL4
	IBM & DOS	437 • 850 • 852 • 855 • 866 «альт.» • МИК • НИИ ЭВМ
Многобайтные	Традиционные	DBCS ( GB2312 ) • HTML
Многобайтные	Unicode	UTF-32 • UTF-16 • UTF-8 • список символов ( кириллица )
Связанные темы		интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение
Утилиты		iconv • recode

Stamp-i-k.ru

Печати, штампы

Рекомендуем

Кодировка символов

Содержание

§Набор символов в компьютере

§Автоматическое распознавание кодировок

§Распространенные кодировки

§См. также

§Ссылки

§Примечания

Набор символов в компьютере

Автоматическое распознавание кодировок

Распространенные кодировки

См. также

Ссылки

Примечания