Алфавітний підхід до оцінки кількості інформації

Змістовний підхід до оцінки кількості інформації. який ми розглядали раніше, вимірює її кількість, як зменшення невизначеності наших знань.

Принцип алфавітного підходу до оцінки кількості інформації

Алфавітний підхід будується на принципі, що затверджує, що будь-яке повідомлення можна представити у вигляді кодів за допомогою кінцевої послідовності символів, що міститься в будь-якому алфавіті. Носії інформації містять будь-які послідовності символів, які можуть зберігатися, передаватися і оброблятися як за допомогою людини, так і за допомогою технічних пристроїв, зокрема комп'ютера. Цей підхід описав А.Н. Колмогоров, згідно з яким, інформативність, яка полягає в послідовності символів, не може залежати від змісту самого повідомлення, а може визначатися лише мінімальною кількістю символів, необхідних для її кодування. Подібний підхід до оцінки кількості інформації носить об'єктивний характер, так як не залежить від одержувача, що приймає повідомлення. Сенс же повідомлень може враховуватися тільки на етапі вибору алфавіту кодування або не враховуватися зовсім.

Вирішуємо контрольні з усіх предметів. 10 років досвід! Ціна від 100 руб. термін від 1 дня!

Найпростіший спосіб розібратися в цьому - розглянути приклад будь-якого тексту, написаного на якомусь мові. Для нас, звичайно ж, зручним буде текст російською мовою.

Потужність алфавіту і інформаційна ємність. Формула Хартлі

Всі безліч символів, з яких складається мова, можна традиційно назвати алфавітом. Як правило, під алфавітом розуміються тільки букви, але крім них при написанні текстів використовуються розділові знаки, цифри, дужки, прогалини, їх теж, в свою чергу, можна включити в алфавіт.

Таким чином, алфавіт - це безліч символів, використовуваних при записі тексту.

Потужність (розмір) алфавіту - це загальна кількість символів в алфавіті.

Потужність алфавіту позначається буквою $ N $.

потужність алфавіту, що складається з російських букв (кирилиці), дорівнює $ 33 $;

потужність алфавіту, що складається з латинських букв - $ 26 $;

потужність алфавіту тексту набраного з клавіатури комп'ютера дорівнює $ 256 $ (великі та малі латинські і російські літери, цифри, знаки арифметичних операцій, дужки, знаки пунктуації і т.д.);

потужність довічного алфавіту дорівнює $ 2 $.

При алфавітному підході вважають, що кожен символ тексту несе в собі певну інформаційну ємність, яка, в свою чергу, залежить від потужності алфавіту.

Алфавіт, за допомогою якого записується повідомлення, складається з $ N $ знаків. У найпростішому випадку при довжині коду повідомлення, що дорівнює одному знаку, відправник може послати одне з $ N $ можливих повідомлень, яке буде нести кількість інформації, рівне $ I $, згідно з формулою:

де $ N $ - кількість знаків у алфавіті знакової системи,

$ I $ - кількість інформації, яке несе кожен знак.

Дану формулу вивів Р. Хартлі, який в $ 20 $-ті роки минулого століття заклав основи теорії інформації, в якій визначалася міра кількості інформації при вирішенні деяких завдань.

Хартлі стверджував, що на кількість інформації, що міститься в повідомленні, може впливати фактор несподіванки, який, в свою чергу, залежить від ймовірності отримання повідомлення. Якщо ця ймовірність отримання повідомлення висока, а несподіванка при цьому низька, то повідомлення буде містити мало корисної для людини інформації.

Однак при створенні своєї формули Р.Хартлі повністю виключив фактор несподіванки. Формула Хартлі працює тільки в тому випадку, коли поява символів равновероятно і вони статистично незалежні.

Наприклад, за допомогою наведеної формули можна визначити кількість інформації, яке несе знак в двійковій системі числення:

Інформаційна ємність знака двійковій системи становить 1 біт.

Необхідно визначити інформаційну ємність літери російського алфавіту (без урахування букви "е").

Уявімо собі, що текст до нас надходить послідовно, по одному знаку, немов паперова стрічка, виповзає з телеграфного апарату. Припустимо, що кожен символ, який з'являється на стрічці, з однаковою ймовірністю може бути будь-яким символом алфавіту. Насправді це не зовсім так, але для спрощення приймемо таке припущення.

У кожній черговій позиції тексту може з'явитися будь-якої з $ N $ символів. Тоді, згідно з відомим нам формулою, кожен такий символ несе кількість інформації дорівнює $ I $ біт, яке можна визначити з рішення рівняння:

Інформаційна ємність літери російського алфавіту становить $ 5 $ біт інформації.

Таким чином, формула визначення $ N $ пов'язує між собою кількість можливих подій і кількість інформації, яке містить в собі отримане повідомлення. У розглянутій вище задачі $ N $ - це кількість знаків в російській алфавіті, а $ I $ - кількість інформації, яке несе одна буква.

Повідомлення складається з послідовності символів, кожен з яких несе певну кількість інформації.

Кількість інформації в повідомленні можна визначити, використовуючи формулу:

де $ I_c $ - кількість інформації, що міститься в повідомленні;

$ I $ - кількість інформації, яке несе один знак (інформаційна ємність);

$ K $ - кількість знаків у повідомленні.

Необхідно визначити яку кількість інформації містить слово «Привіт». якщо вважати, що алфавіт складається з $ 32 $ букв (без урахування букви "е")?

Рішення. Щоб вирішити задачу, для початку визначимо кількість знаків у повідомленні і потужність використовуваного алфавіту.

Кількість знаків в повідомленні: $ K = 6 $,

а потужність даного алфавіту: $ N = 32 $.

Необхідно визначити яку кількість інформації містить слово «Привіт».

Для цього необхідно помножити кількість інформації, яке несе один знак ($ I $), на кількість знаків у повідомленні ($ K $), тобто скористатися формулою: $ I_c = K \ cdot I $.

Однак ми не зможемо скористатися цією формулою, оскільки нам не відомо скільки інформації несе один знак ($ I $).

Для вирішення завдання скористаємося формулою Хартлі. Повідомлення записано за допомогою алфавіту, потужність якого дорівнює $ 32 $, тобто $ N = 32 $.

Вирішивши рівняння, використовуючи формулу $ N = 2 ^ I $, ми отримали, що кількість інформації $ I = 5 $ біт. Знаючи кількість інформації, яке містить в собі один знак нашого алфавіту, і кількість знаків у повідомленні, можна визначити, яка кількість інформації містить наше повідомлення.

Отже: $ I_c = K \ cdot I = 6 \ cdot 5 = 30 $ біт.

При вимірюванні інформації зручним є використання розміру алфавіту $ N $, рівного цілій степені двійки. Наприклад, якщо $ N = 16 $, то це означає, що кожен символ несе $ 4 $ біта інформації, так як $ 2 ^ 4 = 16 $.

Одиниці виміру інформації

Обмежень максимального розміру алфавіту теоретично не існує. Однак існує алфавіт, який можна назвати достатнім. Він використовується при роботі з комп'ютером. Потужність цього алфавіту - $ 256 $ символів. Він включає в себе практично всі необхідні символи: латинські і російські літери, цифри, знаки арифметичних операцій, всілякі дужки, знаки пунктуації.

Оскільки $ 256 = 2 ^ 8 $, то це означає, що $ 1 $ символ цього алфавіту містить $ 8 $ біт інформації. Ця величина лежить в основі використання обчислювальної техніки і носить назву - байт.

Використовуючи даний алфавіт, який ще називається таблицею ASCII-кодів, можна легко підрахувати обсяг інформації в тексті. В даному випадку $ 1 $ символ алфавіту містить в собі $ 1 $ байт інформації, тому необхідно просто визначити кількість символів, то число, яке отримаємо в результаті, і буде висловлювати інформаційний обсяг тексту в байтах.

Припустимо невелика книга, роздрукована на принтері, містить $ 50 $ сторінок, при цьому на кожній сторінці розміщено $ 50 $ рядків, в кожному рядку - $ 60 $ символів.

Схожі статті