Перевод текста в цифровой код.
Давайте разберемся как же все таки переводить тексты в цифровой код? Кстати, на нашем сайте вы можете перевести любой текст в десятичный, шестнадцатеричный, двоичный код воспользовавшись Калькулятором кодов онлайн.
Кодирование текста.
По теории ЭВМ любой текст состоит из отдельных символов. К этим символам относятся: буквы, цифры, строчные знаки препинания, специальные символы ( «»,№, (), и т.д.), к ним, так же, относятся пробелы между словами.
Необходимый багаж знаний. Множество символов, при помощи которых записываю текст, называется АЛФАВИТОМ.
Число взятых в алфавите символов, представляет его мощность.
Количество информации можно определить по формуле : N = 2b
Алфавит, в котором будет 256 может вместить в себя практически все нужные символы. Такие алфавиты называют ДОСТАТОЧНЫМИ.
Если взять алфавит мощностью 256, и иметь в виду что 256 = 28
Если перевести каждый символ в двоичный код, то этот код компьютерного текста будет занимать 1 байт.
Как текстовая информация может выглядеть в памяти компьютера?
Любой текст набирают на клавиатуре, на клавишах клавиатуры, мы видим привычные для нас знаки (цифры, буквы и т.д.). В оперативную память компьютера они попадают только в виде двоичного кода. Двоичный код каждого символа, выглядит восьмизначным числом, например 00111111.
Поскольку, байт – это самая маленькая адресуемая частица памяти, и память обращена к каждому символу отдельно – удобство такого кодирование очевидно. Однако, 256 символов – это очень удобное количество для любой символьной информации.
Естественно, встал вопрос: Какой конкретно восьми разрядный код принадлежит каждому символу? И как осуществить перевод текста в цифровой код?
Этот процесс условный, и мы вправе придумать различные способы для кодировки символов. Каждый символ алфавита имеет свой номер от 0 до 255. И каждому номеру присвоен код от 00000000 до 11111111.
Таблица для кодировки – это «шпаргалка», в которой указаны символы алфавита в соответствии порядковому номеру. Для различных типов ЭВМ используют разные таблицы для кодировки.
ASCII(или Аски), стала международным стандартом для персональных компьютеров. Таблица имеет две части.
Таблица кода символов ASCII.
Первая половина для таблицы ASCII. (Именно первая половина, стала стандартом.)
Соблюдение лексикографического порядка, то есть, в таблице буквы (Строчные и прописные) указаны в строгом алфавитном порядке, а цифры по возрастанию, называют принципом последовального кодирования алфавита.
Для русского алфавита тоже соблюдают принцип последовательного кодирования.
Сейчас, в наше время используют целых пять систем кодировок русского алфавита(КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за количества систем кодировок и отсутствия одного стандарта, очень часто возникают недоразумения с переносом русского текста в компьютерный его вид.
Одним из первых стандартов для кодирования русского алфавита на персональных компьютерах считают КОИ8(«Код обмена информацией, 8-битный»). Данная кодировка использовалась в середине семидесятых годов на серии компьютеров ЕС ЭВМ, а со средины восьмидесятых, её начинают использовать в первых переведенных на русский язык операционных системах UNIX.
С начала девяностых годов, так называемого, времени, когда господствовала операционная система MS DOS, появляется система кодирования CP866 («CP» означает «Code Page», «кодовая страница»).
Гигант компьютерных фирм APPLE, со своей инновационной системой, под упралением которой они и работали (Mac OS), начинают использовать собственную систему для кодирования алфавита МАС.
Международная организация стандартизации (International Standards Organization, ISO)назначает стандартом для русского языка еще одну систему для кодирования алфавита, которая называется ISO 8859-5.
А самая распространенная, в наши дни, система для кодирования алфавита, придумана в Microsoft Windows, и называется CP1251.
С второй половины девяностых годов, была решена проблема стандарта перевода текста в цифровой код для русского языка и не только, введением в стандарт системы, под названием Unicode. Она представлена шестнадцатиразрядной кодировкой, это означает, что на каждый символ отводится ровно по два байта оперативной памяти. Само собой, при такой кодировке, затраты памяти увеличены в два раза. Однако, такая кодовая система позволяет переводить в электронный код до 65536 символов.
Специфика стандартной системы Unicode, является включением в себя абсолютно любого алфавита, будь он существующим, вымершим, выдуманным. В конечном счете, абсолютно любой алфавит, в добавок к этом, система Unicode, включает в себя уйму математических, химических, музыкальных и общих символов.
Давайте с помощью таблицы ASCII посмотрим, как может выглядеть слово в памяти вашего компьютера.
Очень часто случается так, что ваш текст, который написан буквами из русского алфавита, не читается, это обусловлено различием систем кодирования алфавита на компьютерах. Это очень распространенная проблема, которая довольно часто обнаруживается.
Общие ключи Windows для установки
Необходимо выбрать правильный тип ключа!
Windows Edition: Product Key
Windows Vista Starter: X9PYV-YBQRV-9BXWV-TQDMK-QDWK4
Windows Vista Home Basic: RCG7P-TX42D-HM8FM-TCFCW-3V4VD
Windows Vista Home Premium: X9HTF-MKJQQ-XK376-TJ7T4-76PKF
Windows Vista Business: 4D2XH-PRBMM-8Q22B-K8BM3-MRW4W
Windows Vista Ultimate: VMCB9-FDRV6-6CDQM-RV23K-RP8F7
Windows 7 Starter: 7Q28W-FT9PC-CMMYT-WHMY2-89M6G
Windows 7 Home Basic: YGFVB-QTFXQ-3H233-PTWTJ-YRYRV
Windows 7 Home Premium: RHPQ2-RMFJH-74XYM-BH4JX-XM76F
Windows 7 Professional: HYF8J-CVRMY-CM74G-RPHKF-PW487
Windows 7 Ultimate: D4F6K-QK3RD-TMVMJ-BBMRX-3MBMV
Windows 7 Enterprise: H7X92-3VPBB-Q799D-Y6JJ3-86WC6
Windows 7 Starter N: D4C3G-38HGY-HGQCV-QCWR8-97FFR
Windows 7 Home Basic N: MD83G-H98CG-DXPYQ-Q8GCR-HM8X2
Windows 7 Home Premium N: D3PVQ-V7M4J-9Q9K3-GG4K3-F99JM
Windows 7 Professional N: BKFRB-RTCT3-9HW44-FX3X8-M48M6
Windows 7 Ultimate N: HTJK6-DXX8T-TVCR6-KDG67-97J8Q
Windows 7 Enterprise N: BQ4TH-BWRRY-424Y9-7PQX2-B4WBD
Windows 7 Starter E: BRQCV-K7HGQ-CKXP6-2XP7K-F233B
Windows 7 Home Basic E: VTKM9-74GQY-K3W94-47DHV-FTXJY
Windows 7 Home Premium E: 76BRM-9Q4K3-QDJ48-FH4F3-9WT2R
Windows 7 Professional E: 3YHKG-DVQ27-RYRBX-JMPVM-WG38T
Windows 7 Ultimate E: TWMF7-M387V-XKW4Y-PVQQD-RK7C8
Windows 7 Enterprise E: H3V6Q-JKQJG-GKVK3-FDDRF-TCKVR
Windows 8: FB4WR-32NVD-4RW79-XQFWH-CYQG3
Windows 8 (ARM): 6D4CN-WMGRW-DG8M6-XX8W9-3RPT8
Windows 8 (Country Specific): XYNVP-TW798-F8893-7B89K-8QHDK
Windows 8 (Single Language): XBRND-QDJTG-CQJDB-7DRBW-RX6HB
Windows 8 Professional: XKY4K-2NRWR-8F6P2-448RF-CRYQH
Windows 8 Professional with WMC: RR3BN-3YY9P-9D7FC-7J4YF-QGJXW
Windows 8 Enterprise: 32JNW-9KQ84-P47T8-D8GGY-CWCK7
Windows 8 N: VDKYM-JNKJ7-DC4X9-BT3QR-JHRDC
Windows 8 Professional N: BHHD4-FKNK8-89X83-HTGM4-3C73G
Windows 8 Enterprise N: NCVKH-RB9D4-R86X8-GB8WG-4M2K6
Windows 8.1: 334NH-RXG76-64THK-C7CKG-D3VPT
Windows 8.1 (ARM): NK2V7-9DWXG-KMTWQ-K9H9M-6VHPJ
Windows 8.1 (Country Specific): TNH8J-KG84C-TRMG4-FFD7J-VH4WX
Windows 8.1 (Single Language): Y9NXP-XT8MV-PT9TG-97CT3-9D6TC
Windows 8.1 Professional: GCRJD-8NW9H-F2CDX-CCM8D-9D6T9
Windows 8.1 Professional with WMC: GBFNG-2X3TC-8R27F-RMKYB-JK7QT
Windows 8.1 Enterprise: FHQNR-XYXYC-8PMHT-TV4PH-DRQ3H
Windows 8.1 N: 6NPQ8-PK64X-W4WMM-MF84V-RGB89
Windows 8.1 Professional N: JRBBN-4Q997-H4RM2-H3B7W-Q68KC
Windows 8.1 Enterprise N: NDRDJ-3YBP2-8WTKD-CK7VB-HT8KW
Windows 10 Home: TX9XD-98N7V-6WMQ6-BX7FG-H8Q99
Windows 10 Pro: W269N-WFGWX-YVC9B-4J6C9-T83GX
Windows 10 Education: NW6C2-QMPVW-D7KKK-3GKT6-VCFB2
Windows 10 Enterprise: NPPR9-FWDCX-D2C8J-H872K-2YT43
Windows 10 Профессиональная N: MH37W-N47XK-V7XM9-C7227-GCQG9
Windows 10 Корпоративная N: DPH2V-TTNVB-4X9Q3-TJR4H-KHJW4
Windows 10 для образовательных учреждений N: 2WH4N-8QGBV-H22JP-CT43Q-MDWWJ
Windows 10 Корпоративная 2015 с долгосрочным обслуживанием: WNMTR-4C88C-JK8YV-HQ7T2-76DF9
Windows 10 Корпоративная 2015 с долгосрочным обслуживанием N: 2F77B-TNFGY-69QQF-B8YKP-D69TJ
Windows Server 2008 Standard: TM24T-X9RMF-VWXK6-X8JC9-BFGM2
Windows Server 2008 Web: WYR28-R7TFJ-3X2YQ-YCY4H-M249D
Windows Server 2008 HPC: RCTX3-KWVHP-BR6TB-RB6DM-6X7HP
Windows Server 2008 Enterprise: YQGMW-MPWTJ-34KDK-48M3W-X4Q6V
Windows Server 2008 Itanium: 7YKJ4-CX8QP-Q23QY-7BYQM-H2893
Windows Server 2008 Datacenter: 7M67G-PC374-GR742-YH8V4-TCBY3
Windows SBS 2008 Standard: PHYFD-HQ4XW-78PR4-2CXKF-V67KJ
Windows SBS 2008 Premium: 4TMY4-8JG4B-VKY8X-6TVDH-J7XFV
Windows Server 2008 R2 Foundation: 36RXV-4Y4PJ-B7DWH-XY4VW-KQXDQ
Windows Server 2008 R2 Standard: YC6KT-GKW9T-YTKYR-T4X34-R7VHC
Windows Server 2008 R2 Web: 6TPJF-RBVHG-WBW2R-86QPH-6RTM4
Windows Server 2008 R2 HPC: TT8MH-CG224-D3D7Q-498W2-9QCTX
Windows Server 2008 R2 Enterprise : 489J6-VHDMP-X63PK-3K798-CPX3Y
Windows Server 2008 R2 Itanium: GT63C-RJFQ3-4GMB6-BRFB9-CB83V
Windows Server 2008 R2 Datacenter: 74YFP-3QFB3-KQT8W-PMXWJ-7M648
Windows Hyper-V Server 2008 R2: Q8R8C-T2W6H-7MGPB-4CQ9R-KR36H
Windows MultiPoint Server 2010: 736RG-XDKJK-V34PF-BHK87-J6X3K
Windows SBS 2011 Standard: YT76W-VD3W9-QDCK4-9QFPX-WQY4J
Windows SBS 2011 Premium: BXQQP-Q6Q6D-TR7TR-3YXQW-VFHKM
Windows Home Server 2011 Standard: BTMWJ-8KHD9-B9BX8-J7JQ9-7M6J2
Windows Home Server 2011 Premium: YQXDR-G2MBV-63VW2-JX8J2-FVTVG
Windows Server 2012 Foundation: PN24B-X6THG-274MF-YHM9G-H8MVG
Windows Server 2012 Standard: VN93G-8PVT3-W2X3H-F3X87-FJMTW
Windows Server 2012 Datacenter: 2GMNX-8K7D2-X968C-7P62F-8B2QK
Windows Server 2012 Storage Server: RD9XF-6N3MC-2P2R3-MK2WX-C7GCW
Windows Multipoint Server 2012 Standard: 32TNQ-HMFWQ-8R933-X6VYY-WHRFX
Windows Multipoint Server 2012 Premium: CBR2N-2HG39-2TGGT-GQB27-46V47
Windows Server 2012 Standard Core: VN93G-8PVT3-W2X3H-F3X87-FJMTW
Windows Server 2012 Datacenter Core: 2GMNX-8K7D2-X968C-7P62F-8B2QK
Windows Server 2012 R2 Essentials: KNC87-3J2TX-XB4WP-VCPJV-M4FWM
Windows Server 2012 R2 Foundation: 7JGXN-BW8X3-DTJCK-WG7XB-YWP26
Windows Server 2012 R2 Standard: D2N9P-3P6X9-2R39C-7RTCD-MDVJX
Windows Server 2012 R2 Datacenter: W3GGN-FT8W3-Y4M27-J84CP-Q3VJ9
Windows Server 2012 R2 Storage Server Standard: H2K4M-QNKQ2-64699-FYQHD-2WDYT
Windows Server 2012 R2 Storage Server Workgroup: 8N7PM-D3C64-RQVYF-MX8T7-G6MB2
Microsoft Hyper-V Server 2012 R2: Q8R8C-T2W6H-7MGPB-4CQ9R-KR36H
Windows Server 2012 R2 Essentials Core: 326N4-6GMBX-PD2QT-M7HX4-TVHM8
Windows Server 2012 R2 Foundation Core: 7JGXN-BW8X3-DTJCK-WG7XB-YWP26
Windows Server 2012 R2 Standard Core: NB4WH-BBBYV-3MPPC-9RCMV-46XCB
Windows Server 2012 R2 Datacenter Core: BH9T4-4N7CW-67J3M-64J36-WW98Y
Windows Server 2012 R2 Storage Server Standard Core: H2K4M-QNKQ2-64699-FYQHD-2WDYT
Windows Server 2012 R2 Storage Server Workgroup Core: 8N7PM-D3C64-RQVYF-MX8T7-G6MB2
Windows Server 2016 Datacenter: CB7KF-BWN84-R7R2Y-793K2-8XDDG
Windows Server 2016 Standard: WC2BQ-8NRM3-FDDYY-2BFGV-KHKQY
Windows Server 2016 Essentials: JCKRF-N37P4-C2D82-9YXRT-4M63B
8 битный код windows
БлогNot. Таблица кодов кириллицы в Unicode, UTF-8 и Windows-1251
Таблица кодов кириллицы в Unicode, UTF-8 и Windows-1251
Во-вторых, на самом деле кодирование там довольно замудрённое, возьмём, скажем русскую заглавную «Ж».
Представляемые в Юникоде символы кодируются целыми числами без знака, их можно называть «кодами символов Unicode».
Так, для буквы «Ж» Unicode = 104610 или 041616 или 10000 0101102. Unicode в двоичном виде разбивается на две части: пять левых бит и шесть правых. Левая часть в старших разрядах дополняется до байта признаком 110 двухбайтного кода UTF-8, получаем 11010000. К правой части в старших разрядах приписываются два бита 10 признака продолжения многобайтного кода, получаем 10010110. Окончательно код буквы «Ж» в UTF-8 будет иметь вид 11010000 100101102 или D0 9616.
Именно последний код мы увидим в любом 16-ричном вьюере файла, например, создав в текстовом редакторе файл со словом «Жора» и сохранив его в UTF-8 (только не из Блокнотика Windows, который добавит в начало файла 3-байтовую метку BOM):
То есть, каждая буква кодируется как бы дважды, сначала в 11-битный Unicode, затем в 16-битный UTF-8.
Ниже приведена таблица кодов кириллицы в Unicode, UTF-8 и однобайтовой кодировке Windows-1251.
Символ | Unicode | UTF-8 | Windows-1251 | ||
---|---|---|---|---|---|
16-ричн. | 10-тичн. | 16-ричн. | 10-тичн. | ||
А | 0410 | 1040 | D090 | 208 144 | 192 |
Б | 0411 | 1041 | D091 | 208 145 | 193 |
В | 0412 | 1042 | D092 | 208 146 | 194 |
Г | 0413 | 1043 | D093 | 208 147 | 195 |
Д | 0414 | 1044 | D094 | 208 148 | 196 |
Е | 0415 | 1045 | D095 | 208 149 | 197 |
Ж | 0416 | 1046 | D096 | 208 150 | 198 |
З | 0417 | 1047 | D097 | 208 151 | 199 |
И | 0418 | 1048 | D098 | 208 152 | 200 |
Й | 0419 | 1049 | D099 | 208 153 | 201 |
К | 041A | 1050 | D09A | 208 154 | 202 |
Л | 041B | 1051 | D09B | 208 155 | 203 |
М | 041C | 1052 | D09C | 208 156 | 204 |
Н | 041D | 1053 | D09D | 208 157 | 205 |
О | 041E | 1054 | D09E | 208 158 | 206 |
П | 041F | 1055 | D09F | 208 159 | 207 |
Р | 0420 | 1056 | D0A0 | 208 160 | 208 |
С | 0421 | 1057 | D0A1 | 208 161 | 209 |
Т | 0422 | 1058 | D0A2 | 208 162 | 210 |
У | 0423 | 1059 | D0A3 | 208 163 | 211 |
Ф | 0424 | 1060 | D0A4 | 208 164 | 212 |
Х | 0425 | 1061 | D0A5 | 208 165 | 213 |
Ц | 0426 | 1062 | D0A6 | 208 166 | 214 |
Ч | 0427 | 1063 | D0A7 | 208 167 | 215 |
Ш | 0428 | 1064 | D0A8 | 208 168 | 216 |
Щ | 0429 | 1065 | D0A9 | 208 169 | 217 |
Ъ | 042A | 1066 | D0AA | 208 170 | 218 |
Ы | 042B | 1067 | D0AB | 208 171 | 219 |
Ь | 042C | 1068 | D0AC | 208 172 | 220 |
Э | 042D | 1069 | D0AD | 208 173 | 221 |
Ю | 042E | 1070 | D0AE | 208 174 | 222 |
Я | 042F | 1071 | D0AF | 208 175 | 223 |
а | 0430 | 1072 | D0B0 | 208 176 | 224 |
б | 0431 | 1073 | D0B1 | 208 177 | 225 |
в | 0432 | 1074 | D0B2 | 208 178 | 226 |
г | 0433 | 1075 | D0B3 | 208 179 | 227 |
д | 0434 | 1076 | D0B4 | 208 180 | 228 |
е | 0435 | 1077 | D0B5 | 208 181 | 229 |
ж | 0436 | 1078 | D0B6 | 208 182 | 230 |
з | 0437 | 1079 | D0B7 | 208 183 | 231 |
и | 0438 | 1080 | D0B8 | 208 184 | 232 |
й | 0439 | 1081 | D0B9 | 208 185 | 233 |
к | 043A | 1082 | D0BA | 208 186 | 234 |
л | 043B | 1083 | D0BB | 208 187 | 235 |
м | 043C | 1084 | D0BC | 208 188 | 236 |
н | 043D | 1085 | D0BD | 208 189 | 237 |
о | 043E | 1086 | D0BE | 208 190 | 238 |
п | 043F | 1087 | D0BF | 208 191 | 239 |
р | 0440 | 1088 | D180 | 209 128 | 240 |
с | 0441 | 1089 | D181 | 209 129 | 241 |
т | 0442 | 1090 | D182 | 209 130 | 242 |
у | 0443 | 1091 | D183 | 209 131 | 243 |
ф | 0444 | 1092 | D184 | 209 132 | 244 |
х | 0445 | 1093 | D185 | 209 133 | 245 |
ц | 0446 | 1094 | D186 | 209 134 | 246 |
ч | 0447 | 1095 | D187 | 209 135 | 247 |
ш | 0448 | 1096 | D188 | 209 136 | 248 |
щ | 0449 | 1097 | D189 | 209 137 | 249 |
ъ | 044A | 1098 | D18A | 209 138 | 250 |
ы | 044B | 1099 | D18B | 209 139 | 251 |
ь | 044C | 1100 | D18C | 209 140 | 252 |
э | 044D | 1101 | D18D | 209 141 | 253 |
ю | 044E | 1102 | D18E | 209 142 | 254 |
я | 044F | 1103 | D18F | 209 143 | 255 |
Символы вне общего правила | |||||
Ё | 0401 | 1025 | D081 | 208 129 | 168 |
ё | 0451 | 1105 | D191 | 209 145 | 184 |
23.09.2018, 12:37; рейтинг: 42548
8-битные кодировки: ASCII, КОИ-8R и CP1251
Первые таблицы кодировки, созданные в США, не использовали восьмой бит в байте. Текст представлялся как последовательность байт, но восьмой бит не учитывался (он применялся в служебных целях). Общепризнанным стандартом стала таблица ASCII (American Standard Code for Information Interchange ).
Первые 32 символа таблицы ASCII (от 00 до 1F ) использовались для непечатаемых символов. Они были предназначены для управления печатающим устройством и т.п. Остальная часть – от 20 до 7F – обычные (печатаемые) символы.
Как легко заметить, в этой кодировке представлены только латинские буквы, причём те, которые используются в английском языке. Есть также арифметические и другие служебные символы. Но нет ни русских букв, ни даже специальных латинских для немецкого или французского языка.
Это легко объяснить – кодировка разрабатывалась имено как американский стандарт. Когда компьютеры стали применяться во всём мире, потребовалось кодировать и другие символы.
Для этого было принято решение использовать восьмой бит в каждом байте. Тем самым оказались доступны ещё 128 значений (от 80 до FF), которые можно было использовать для кодирования символов.
Первая из восьмибитных таблиц – “расширенный ASCII” (Extended ASCII) – включала в себя различные варианты латинских символов, применяемые в некоторых языках Западной Европы. Также в ней были другие дополнительные символы, включая псевдографику.
Таблица 2. Extended ASCII
Псевдографические символы позволяют, выводя на экран только текстовые символы, обеспечивать некоторое подобие графики. При помощи псевдографики работает, например, програма для управления файлами FAR Manager.
Русских букв в таблице Extended ASCII не было. В России (ранее – СССР) и в других государствах создавались свои кодировки, позволяющие представлять в 8-битных текстовых файлах специфические “национальные” символы – латинские буквы польского и чешского языков, кириллицу (включая русские буквы ) и другие алфавиты.
Во всех кодировках, получивших распространение, первые 127 символов (т.е. значения байта при восьмом бите, равном 0) совпадают с ASCII. Таким образом, файл в формате ASCII работает в любой из этих кодировок; буквы английского языка в них представлены одинаково.
Организация ISO (International Standardization Organization – Международная Организация по Стандартам) приняла группу стандартов ISO 8859. Она определяет 8-битные кодировки для разных групп языков. Так, ISO 8859-1 – это Extended ASCII, таблица для США и Западной Европы. А ISO 8859-5 – таблица для кириллицы (включая русский язык).
Однако по историческим причинам кодировка ISO 8859-5 не прижилась. Реально для русского языка применяются следующие кодировки:
– КОИ-8. Разработана в 70-80-е годы. Является общепринятым стандартом для передачи почтовых сообщений в российском Интернете. Широко применяется также в операционных системах семейства Unix, включая Linux. Вариант КОИ-8, рассчитанный на русский язык, называется КОИ-8R; существуют версии для иных кириллических языков (так, KOI8-U – вариант для украинского языка).
– Code Page 1251, CP1251, Windows-1251. Разработана компанией Microsoft для поддержки русского языка в системе Windows.
Основным достоинством CP866 было сохранение символов псевдографики на тех же местах, что и в Extended ASCII; поэтому могли без изменений работать зарубежные текстовые программы, например, знаменитый Norton Commander. Ныне CP866 используется для программ под Windows, работающих в текстовых окнах или в полноэкранном текстовом режиме, включая FAR Manager.
Тексты в CP866 в последние годы встречаются довольно редко. Поэтому мы подробнее остановимся на двух других кодировках – КОИ-8R и CP1251.
Как можно заметить, в таблице кодировки CP1251 русские буквы расположены в алфавитном порядке (за исключением, правда, буквы Ё). Благодаря такому расположению компьютерным программам очень просто осуществлять сортировку по алфавиту.
А вот в КОИ-8R порядок русских букв кажется случайным. Но на самом деле это не так.
А теперь сравните КОИ-8R с таблицей ASCII (табл.1). Вы обнаружите, что русские буквы поставлены в чёткое соответствие с латинскими. Если исчезнет восьмой бит, строчные русские буквы превращаются в заглавные латинские, а заглавные русские – в строчные латинские. Так, E1 в КОИ-8 – это русское “А”, тогда как 61 в ASCII – латинское “a”.
Итак, КОИ-8 позволяет сохранять читаемость русского текста при потере 8-го бита. “Привет всем” превращается в “pRIWET WSEM”.
В последнее время и алфавитный порядок расположения символов в таблице кодировки, и читаемость при потере 8-го бита потеряли решающее значение. Восьмой бит в современных компьютерах не теряется ни при передаче, ни при обработке. А сортировка по алфавиту производится с учётом кодировки, а не простым сравнением кодов. (Кстати, коды CP 1251 расположены не полностью по алфавиту – буква Ё не находится на своём месте).
Из-за того, что распространённых кодировок оказалось две, при работе с Интернетом (почта, просмотр Web-сайтов) иногда можно вместо русского текста увидеть бессмысленный набор букв. Например, “Я СБЮФЕМХЕЛ”. Это всего лишь слова “с уважением”; но они были закодированы в кодировке CP1251, а компьютер декодировал текст по таблице КОИ-8. Если те же слова были, наоборот, закодированы в КОИ-8, а компьютер декодировал текст по таблице CP1251, результатом будет “У ХЧБЦЕОЙЕН”.
Иногда бывает, что компьютер расшифровывает русскоязычные письма и вовсе по таблице, не предназначенной для русского языка. Тогда вместо русских букв появляются бессмысленный набор символов (например, латинские буквы восточно-европейских языков); их часто называют “крокозябрами”.
В большинстве случаев современные программы справляются с определением кодировок документов Интернета (электронных писем и Web-страниц) самостоятельно. Но иногда они “дают осечку”, и тогда можно увидеть странные последовательности русских букв или же “крокозябры”. Как правило, чтобы в такой ситуации вывести на экран настоящий текст, достаточно выбрать кодировку вручную в меню программы.