Что такое текст ASCII и как он используется?

ASCII — это аббревиатура, которую вы, возможно, слышали в отношении компьютерного текста, но это термин, который быстро выходит из употребления благодаря более мощному новичку. Но что такое ASCII и для чего он используется?

Что означает ASCII?

Возможно, проще всего начать с самого акронима, поэтому давайте расширим его:

мериканское S стандартная C ода для я информации я обменяю

Это полная фраза не дает полной картины, но некоторые части сразу предлагают некоторые подсказки, особенно первые два слова. ASCII — это американский стандарт, значение которого скоро станет очевидным.

«Код для обмена информацией» предполагает, что мы говорим о формате для передачи данных туда и обратно. В частности, ASCII имеет дело с текстовыми данными: символами, составляющими слова на обычно понятном человеку языке.

ASCII решает проблему присвоения значений буквам и другим символам, чтобы, когда они хранятся как единицы и нули в файле, их можно было преобразовать обратно в буквы, когда файл прочтите позже. Если разные компьютерные системы соглашаются использовать один и тот же код, такая информация может надежно обмениваться.

По теме: как находить символы и искать их значения

История ASCII

Иногда называемый US-ASCII, ASCII был американской инновацией разработан в 1960-х гг. Стандарт претерпел множество изменений с тех пор, в основном в 1977 и 1986 годах, когда ASCII последний раз обновлялся.

Расширения и вариации основывались на ASCII на протяжении многих лет, в основном для того, чтобы удовлетворить тот факт, что ASCII опускает многие символы, используемые или даже требуемые языками, отличными от английского (США). ASCII даже не обслуживает символ валюты Великобритании («£»), хотя фунт присутствует в Latin-1, 8-битном расширении, разработанном в 1980-х годах, которое также кодирует несколько других валют.

ASCII был значительно расширен, и ему на смену пришел Unicode, гораздо более полный и амбициозный стандарт, который обсуждается ниже. В 2008 году Unicode обогнал ASCII по популярности для использования в Интернете.

Какие символы представляет ASCII?

Для компьютера буква «А» так же незнакома, как фиолетовый цвет или чувство ревности.. Компьютеры имеют дело с единицами и нулями, и люди сами решают, как использовать эти единицы и нули для представления чисел, слов, изображений и всего остального.

Вы можете думать об ASCII как об азбуке Морзе в цифровом мире — во всяком случае, первая попытка. В то время как код Морзе используется для представления всего 36 различных символов (26 букв и 10 цифр), ASCII был разработан для представления до 128 различных символов в 7 битах данных.

ASCII чувствителен к регистру, то есть представляет 52 буквы верхнего и нижнего регистра английского алфавита. Наряду с теми же 10 цифрами это примерно половина используемого пространства.

Знаки препинания, математические и типографические символы занимают остаток, а также набор управляющих символов, которые представляют собой специальные непечатаемые коды с функциональными значениями — подробнее см. ниже.

Вот некоторые типичные символы, которые кодирует ASCII:

Двоичный Десятичный Символ
010 0001 33 !
011 0000 48 0
011 1001 57 9
011 1011 59 ;
100 0001 65 A
100 0010 66 B
101 1010 90 Z
101 1011 91 [
110 0001 97 а
110 0010 98 b
111 1101 125 }

Обратите внимание, что выбранные значения обладают некоторыми полезными свойствами, в частности:

  • Буквы одного и того же регистра всегда могут быть отсортированы численно, поскольку они в порядке. Например, A имеет меньшее значение, чем B, которое имеет меньшее значение, чем Z.
  • Буквы разных регистров смещены ровно на 32. Это позволяет очень легко переводить между нижним и верхним регистром. поскольку в любом случае для каждой буквы нужно переключать только один бит.

Управляющие символы

Помимо букв, знаков препинания и цифр, ASCII может представлять ряд управляющих символов, специальных кодовых точек, которые не производят односимвольный вывод, а вместо этого предоставляют альтернативные значения данных для того, что может их использовать.

Например, ASCII 000 1001 — это горизонтальный символ табуляции. Он представляет собой пространство, которое вы получите, когда нажмете клавишу TAB. Обычно вы не видите таких персонажей напрямую, но их эффект часто проявляется.. Вот еще несколько примеров:

Binary Decimal Символ
000 1001 9 По горизонтали Вкладка
000 1010 10 Перевод строки
001 0111 23 Конец блока передачи

А как насчет других символов?

ASCII был чрезвычайно были успешными на заре компьютерных технологий, поскольку были просты и широко распространены. Однако в мире с более интернациональным мировоззрением одна система письма просто не справится. Современные коммуникации должны быть возможны на французском, японском — фактически, на любом языке, на котором мы можем хранить текст.

Набор символов Unicode может адресовать в общей сложности 1112 064 различных символа, хотя только около одного. -десятая из них в настоящее время определены. Может показаться, что это много, но кодировка направлена ​​не только на обслуживание десятков тысяч китайских иероглифов, но и на эмодзи (почти полторы тысячи) и даже на вымершие системы письма, такие как чжурчжэнь.

Связано: Объяснение 100 самых популярных эмодзи

Unicode признал доминирование ASCII в его выбор первых 128 символов: они точно такие же, как ASCII. Это позволяет использовать файлы в кодировке ASCII в ситуациях, когда ожидается Unicode, обеспечивая обратную совместимость.

Summary

Текст ASCII представляет 26 букв английского алфавита с добавленными цифрами, пунктуацией и несколькими другими символами. Он отлично служил своему назначению на протяжении большей части полувека.

Теперь он был заменен Юникод, который поддерживает огромное количество языков и других символов, включая эмодзи. UTF-8 — это для всех практических целей кодировка, которая должна использоваться для представления символов Юникода в Интернете.

Оцените статью
oilgasindustry.ru
Добавить комментарий