Информатика. Теория и практика
Урок 3. Измерение информации
Во многих науках рассматриваются различные величины, которые можно измерить с помощью соответствующей эталонной единицы. В физике - килограммы, сантиметры, метры, минуты, секунды. Для измерении энергии - градусы Цельсия, Джоули, киловатты. Для измерения информациии должна быть введена своя эталонная единица.
Сколько раз эталонная единица укладывается в измеряемой величине, таков и результат измерения.
Для измерения информации существует два подхода:
алфавитный: измеряет информационный объем текста, не вникая в его содержание.
содержательный (вероятностный) - с учетом содержательной составляющей.
При алфавитном подходе измерение информации происходит через количество символов с учётом информационного веса символов.
При содержательном - через неопределённость знаний с учётом вероятности событий.
Алфавитный подход
Алфавит - это конечный набор различных символов, Мощность алфавита - количество таких символов. Мощность русского алфавита равна 33, латинского - 26.
В технических системах рассматривается последовательность символов, сигналов, при этом используется двоичное кодирование символами 0 и 1 . Но с помощью 0 и 1 можно закодировать только два символа, поэтому для кодирования большего количества используют последовательность нулей и единиц, т.е. удлиняют код.
Примеры: Если длина кода равна 2, то будем иметь 4 кода: 00, 01, 10 и 11. При длине кода 3 будем иметь 8 кодов: 000,001, 010, 011, 100, 101, 110, 111.
При двоичном кодировании мощность алфавита и длина двоичного кода связаны формулой:
где М - мощность алфавита, i - длина кода или информационный вес одного символа, измеряется в битах.
Тогда информационный объем текста I определяется по формуле: I=K*i,
где К — количество символов в сообщении,
i — информационный вес одного символа при использовании двоичного кодирования, измеряется в битах.
Для русского языка существует два вида кодировки букв: стандартный ASCII (1 символ весит 8 бит) и универсальный Unicode (1 символ весит 16 бит).
Для удобства измерения больших объемов информации были введены более крупные единицы измерения:
1 байт = 8 бит
1 Килобайт (Кб) = 1024 байт
1 Мегобайт (Мб) = 1024 Кб
1 Гигобайт (Гб) = 1024 Мб
1 Террабайт (Тб)= 1024 Гб
Решим задачи.
Задача 1. В книге 250 страниц текста, каждая страница имеет 60 строк по 50 символов в строке. Определите информационный объем книги в Кбайтах, если для кодировки текста использовался код КОИ-8?
Решение:
1) 250 x 60 x 50 = 750 000 символов — всего в книге.
2) 1 символ весит 8 бит — кодировка КОИ-8
3) 750 000 х 8 = 6 000 000 бит - в книге.
4) 6 000 000 : 8 = 750 000 байт.
5) 750 000 : 1024 = 732,4 Кбайт
Ответ: 732,4 Кб
Задача 2. В некоторой стране используется 64-символьный алфавит. Определите информационный объем сообщения, в котором 100 символов.
Решение:
1) т.к. М=64, то по формуле i = 6 битам.
2) I = K * i = 100 * 6 = 600 бит.
Ответ 600 бит.