Utf 8 таблица символов

Представление кириллицы в UTF-8

Стандарт VRML97 предусматривает возможность формирования текста с помощью node Text на любом языке. Для этого текст в UTF-8 представляется в стандарте UNICODE.
Это значит, что символы ASCII-7 (код до 128) представляются «как есть» по принципу 1 байт 1 символ. Символы старшей части кодовой таблицы (код > 128), где располагаются символы кириллицы, представляются 16-битными (двухбайтными) кодами:
110XXXXX 10XXXXXX, где X обозначены двоичные разряды для размещения кода символа в соответствии с таблицей UNICODE.

Символ UNICODE HEX-16 DEC 8 x 2 CP-1251 А 0410 D090 208 144 192 Б 0411 D091 208 145 193 В 0412 D092 208 146 194 Г 0413 D093 208 147 195 Д 0414 D094 208 148 196 Е 0415 D095 208 149 197 Ж 0416 D096 208 150 198 З 0417 D097 208 151 199 И 0418 D098 208 152 200 Й 0419 D099 208 153 201 К 041A D09A 208 154 202 Л 041B D09B 208 155 203 М 041C D09C 208 156 204 Н 041D D09D 208 157 205 О 041E D09E 208 158 206 П 041F D09F 208 159 207 Р 0420 D0A0 208 160 208 С 0421 D0A1 208 161 209 Т 0422 D0A2 208 162 210 У 0423 D0A3 208 163 211 Ф 0424 D0A4 208 164 212 Х 0425 D0A5 208 165 213 Ц 0426 D0A6 208 166 214 А 0427 D0A7 208 167 215 Ш 0428 D0A8 208 168 216 Щ 0429 D0A9 208 169 217 а 042A D0AA 208 170 218 Ы 042B D0AB 208 171 219 Ь 042C D0AC 208 172 220 Э 042D D0AD 208 173 221 Ю 042E D0AE 208 174 222 Я 042F D0AF 208 175 223 а 0430 D0B0 208 176 224 б 0431 D0B1 208 177 225 в 0432 D0B2 208 178 226 г 0433 D0B3 208 179 227 д 0434 D0B4 208 180 228 е 0435 D0B5 208 181 229 ж 0436 D0B6 208 182 230 з 0437 D0B7 208 183 231 и 0438 D0B8 208 184 232 й 0439 D0B9 208 185 233 к 043A D0BA 208 186 234 л 043B D0BB 208 187 235 м 043C D0BC 208 188 236 н 043D D0BD 208 189 237 о 043E D0BE 208 190 238 п 043F D0BF 208 191 239 р 0440 D180 209 128 240 с 0441 D181 209 129 241 т 0442 D182 209 130 242 у 0443 D183 209 131 243 ф 0444 D184 209 132 244 х 0445 D185 209 133 245 ц 0446 D186 209 134 246 ч 0447 D187 209 135 247 ш 0448 D188 209 136 248 щ 0449 D189 209 137 249 ъ 044A D18A 209 138 250 ы 044B D18B 209 139 251 ь 044C D18C 209 140 252 э 044D D18D 209 141 253 ю 044E D18E 209 142 254 я 044F D18F 209 143 255 //Символы вне общего правила: Ё 0401 D001 208 001 168 ё 0451 D191 209 145 184

В первой колонке таблицы содержатся символы кириллицы (русские буквы).
Во второй колонке их код по таблице UNICODE (стандартное двухбайтное представление).
В третьей колонке приводятся HEX-коды 2-х байт, представляющих данный символ в тексте VRML97.
В 4-й колонке те же 2 байта в десятичной кодировке (вводятся через ALT и цифровую клавиатуру).
В 5 колонке для справок представлены коды символов согласно кодировке Windows-1251.
Таким образом, чтобы получить в тексте символ «ю» (1251-код 254) надо ввести туда два байта: в первом десятичный код 209, во втором десятичный код 142.

Главная >> Веб-мастеру

Как перевести файлы в кодировку UTF-8

Те, у кого старые сайты, могут столкнуться с такой проблемой, что необходимо перевести файлы в кодировку UTF-8. К их числу я смело могу назвать и себя. Начала делать сайты более 10 лет назад, когда об этой кодировке было мало что известно.

На всех страницах у меня стояла кодировка:

<META http-equiv=content-type content=»text/html; charset=windows-1251″>

За эти годы некоторые мои сайты распухли до тысячи и более страниц и переделывать все эти тысячные страницы не хватит никаких сил и времени.

Сейчас уже так не пишут. На смену старому пришло новое — HTML5, где нужно прописать:

<meta charset=»UTF-8″>

Скажу честно, все же решила я все перелопатить вручную и вот как это у меня происходило:

  1. Открывала файл в Notepad++
  2. Выделяла весть текст
  3. Копировала весь текст
  4. Переводила кодировку в UTF-8
  5. Вставляла текст
  6. Проверяла опять — в той ли кодировке стоит?
  7. Сохраняла файл

И вот два дня я так долбила один свой сайт.

Можно, конечно же и не менять ничего.

Но ведь старые сайты мои давно устарели, нужно переводить их и на современную верстку HTML5 и CSS3, плюс мобильную и адаптивную верстку. И лучше это делать в более продвинутых программах, а не в Notepad++.

Короче, приуныла я. Однако приехал сын-программист и все решил!

Оказывается все уже давно придумано. И если у Вас возникла такая же проблема — не отчаивайтесь! Есть прекрасная программа UTFCast Express

Эту программу можно скачать тут — http://www.rotatingscrew.com/utfcast-express.aspx — Это условно бесплатная программа, которая умеет конвертировать текст из разных кодировок в utf8. Доступна для ОС семейства Windows.

Запускаем UTFCast Express и указываем правильные пути: сверху — что конвертировать, снизу — куда складывать конвертированные файлы. Вам нужно просто выбрать нужные директории, программа сама перекодирует все нужные файлы из папки. Нажимаем «Start».

Единственно, заранее создайте новую папку, куда программа закачает все Ваши файлы из нужной папки.

Не забудьте также поставить галочку «Copy Unconverted». Нажимаете кнопочку «Start» и программа заработала!

Всего пара минут и все файлы волшебным образом перекодировались в нужную кодировочку!

Папку с прежними файлами можете просто удалить, чтобы не занимала место и работать дальше! Вперед, к новым высотам!

Ура, товарищи!!!

Что такое вообще UTF-8

Заметьте, что UTF-8 надо обязательно писать в верхнем регистре и через черточку, то есть никаких там utf-8, utf8 или UTF8. Пишите правильно!

UTF-8 (от англ. Unicode Transformation Format, 8-bit — «формат преобразования Юникода, 8-битный») — одна из общепринятых и стандартизированных кодировок текста, которая позволяет хранить символы Юникода, используя переменное количество байт (от 1 до 6).

Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Кодировка нашла широкое применение в UNIX-подобных операционных системах и веб-пространстве. Сам же формат UTF-8 был изобретён 2 сентября 1992 года Кеном Томпсоном и Робом Пайком и реализован в Plan 9. В качестве BOM использует последовательность байт EF16, BB16, BF16 (что у неё самой является трёхбайтовой реализацией символа FEFF16).

Одним из преимуществ является совместимость с ASCII — любые их 7-битные символы отображаются как есть, а остальные выдают пользователю мусор (шум). Поэтому в случае, если латинские буквы и простейшие знаки препинания (включая пробел) занимают существенный объём текста, UTF-8 даёт выигрыш по объёму по сравнению с UTF-16.



 

  • High Star — уроки для начинающих веб-мастеров

Конвертер в Юникод

Конвертер для перевода любого текста (не только кириллицы) в Юникод. Набирайте текст — он будет автоматически преобразован по мере его набора. Либо вставьте текст из буфера и нажмите кнопку. Ограничение на длину текста — 3000 символов.

Заглавная буква Строчная буква
А U+0410 а U+0430
Б U+0411 б U+0431
В U+0412 в U+0432
Г U+0413 г U+0433
Д U+0414 д U+0434
Е U+0415 е U+0435
Ё U+0401 ё U+0451
Ж U+0416 ж U+0436
З U+0417 з U+0437
И U+0418 и U+0438
Й U+0419 й U+0439
К U+041A к U+043A
Л U+041B л U+043B
М U+041C м U+043C
Н U+041D н U+043D
О U+041E о U+043E
П U+041F п U+043F
Р U+0420 р U+0440
С U+0421 с U+0441
Т U+0422 т U+0442
У U+0423 у U+0443
Ф U+0424 ф U+0444
Х U+0425 х U+0445
Ц U+0426 ц U+0446
Ч U+0427 ч U+0447
Ш U+0428 ш U+0448
Щ U+0429 щ U+0449
Ъ U+042A ъ U+044A
Ы U+042B ы U+044B
Ь U+042C ь U+044C
Э U+042D э U+044D
Ю U+042E ю U+044E
Я U+042F я U+044F

Распечатать Сохранить

.

Добавить комментарий

Закрыть меню