Алфавітний підхід до вимірювання інформації

Лабораторна робота №1

В інформатиці використовуються різні підходи до вимірювання інформації:

Кількість інформації - це міра зменшення невизначеності.

Змістовний підхід до вимірювання інформації.

Повідомлення - інформативний потік, який в процесі передачі інформації надходить до приймача. Повідомлення несе інформацію для людини, якщо містяться в ньому відомості є для нього новими і зрозумілими Інформація - знання людини. повідомлення повинно бути інформативно. Повідомлення, яке не інформативно, то кількість інформації з точки зору людини = 0. (Приклад: вузівський підручник з вищої математики містить знання, але вони не доступні 1-класснику).

Нехай в деякому повідомленні містяться відомості про те, що сталося одне з N рівноймовірно подій. Кількість інформації i, що міститься в повідомленні про те, що сталося одне з N рівноймовірно подій, можна визначити з формули Хартлі:

Дана формула є показовим рівнянням щодо невідомого i. З математики відомо, що рішення такого рівняння має вигляд:

Якщо N дорівнює цілій степені двійки (2,4,8,16 і т. Д.), То таке рівняння можна вирішити «в умі».

Шахова дошка складається з 64 полів: 8 стовпців на 8 рядків. Яка кількість біт несе повідомлення про вибір одного шахового поля?

Оскільки вибір будь-якої з 64 клітин равновероятен, то кількість біт знаходиться з формули:



Алфавітний підхід до вимірювання інформації.

Алфавіт - безліч використовуваних символів в мові.

Зазвичай під алфавітом розуміють не тільки букви, але й цифри, розділові знаки і пробіл.

Потужність алфавіту (N) - кількість символів, які використовуються в алфавіті.

Наприклад. потужність алфавіту з російських букв дорівнює 32 (літера е зазвичай не використовується).

Якщо допустити, що всі символи алфавіту зустрічаються в тексті з однаковою частотою (рівноймовірно), то кількість інформації, яке несе кожен символ, обчислюється за формулою Хартлі:

де N - потужність алфавіту.

Формула Хартлі задає зв'язок між кількістю можливих подій N і кількістю інформацііi:

З базового курсу інформатики відомо, що в комп'ютерах використовується двійкове кодування інформації. Для двійкового представлення текстів в комп'ютері найчастіше використовується рівномірний восьмизарядний код. З його допомогою можна закодувати алфавіт з 256 символів, оскільки 256 = 2 8.

У стандартну кодову таблицю (наприклад, ASCII) поміщаються всі необхідні символи: англійські та російські великі та малі літери, цифри, знаки пунктуації, знаки арифметичних операцій, всілякі дужки та ін.

У двійковому коді один двійковий розряд несе одну одиницю інформації, яка називається 1 біт.

Наприклад, в 2-символьному алфавіті кожний символ «важить» 1 біт (log22 = 1); в 4-символьному алфавіті кожний символ несе 2 біти інформації (log2 4 = 2); в 8-символьному - 3 біта (log2 8 = 3) і т. д.

Один символ з алфавіту потужністю 256 (2 8) несе в тексті 8 бітів інформації. Така кількість інформації називається байтом.

Інформаційний обсяг тексту в пам'яті комп'ютера вимірюється в байтах. Він дорівнює кількості знаків у записі тексту.

Для вимірювання інформації використовуються і більш великі одиниці:

Назва одиниці вимірювання

Чисельна величина в байтах

Якщо весь текст складається з K символів, то при алфавітному підході обсяг V міститься в ньому інформації дорівнює:

де i - інформаційний вага одного символу в використовуваному алфавіті.

Знаючи, що i = log2 N, дану вище формулу можна представити в іншому вигляді:

якщо кількість символів алфавіту одно N, а кількість символів у записі повідомлення - K, то інформаційний обсяг V даного повідомлення обчислюється за формулою:

При алфавітному підході до вимірювання інформації інформаційний обсяг тексту залежить тільки від розміру тексту і від потужності алфавіту, а не від змісту. Тому не можна порівнювати інформаційні обсяги текстів, написаних на різних мовах, за розміром тексту.

Вважаючи, що кожен символ кодується одним байтом, оцініть інформаційний обсяг наступного речення: Біліє Парус Одинокий В Тумані Моря Блакитному!

Так як в реченні 44 символу (вважаючи розділові знаки і пробіли), то інформаційний обсяг обчислюється за формулою:

V = 44 # 8901; 1 байт = 44 байта = 44 # 8901; 8 біт = 352 біта