Особливості реалізації сховища документів і механізмів пошуку

Потреби в системах, орієнтованих на накопичення і ефективну обробку неструктурованою або слабоструктурованої інформації привели до виникнення ще в 1970-х роках окремої гілки програмного забезпечення систем управління базами даних, на основі яких створюються документальні інформаційні системи.

Однак теоретичні дослідження питань інформаційного пошуку документів, розпочавшись ще в 1950-х - 1960-х роках, на жаль, не отримали такої суворої, повної і в той же час технічно реалізованої моделі представлення та обробки даних, як реляційна модель в фактографічних системах. Чи не отримали також стандартизації і численні спроби створення універсальних так званих інформаційно-пошукових мов, призначених для формалізованого опису смислового змісту документів і запитів по ним.

В даний час інформаційно-пошукові системи набули широкого поширення в правових електронних системах, бібліотечних, Інтернеті та інших системах.

Введення і глави 1, 2, 3, 4 написані А.Т. Тяжевим, глава 5 - Т.Т. Осипової, глави 6, 7, 8 - Р.Р. Фокіним, глава 9 і питання для самоконтролю - М.А. Абіссовой.

Глава 1. ВИДИ ІНФОРМАЦІЙНО-ПОШУКОВИХ СИСТЕМ. ЗАГАЛЬНА ХАРАКТЕРИСТИКА

Інформаційно-пошукова система (ІПС) - інформаційна система (ІС) з єдиним сховищем одиничних елементів даних і з розвиненим інструментарієм їх пошуку і відбору.

Модулі ІПС вбудовані майже в усі сучасні програмні засоби.

Серед величезної кількості файлів на якомусь диску ми можемо знайти потрібні нам файли.

спробуйте знайти на диску d: файли WORD (* .doc, * .rtf), які містять заяви, службові записки, пояснювальні, матеріали по ІПС.

У довгому тексті (реферат, курсова, диплом, дисертація) можна знайти потрібне нам місце в тексті, якщо ми пам'ятаємо якесь слово в цьому місці. Можна все входження в текст одного слова замінити іншим словом.

знайдіть який-небудь файл WORD (* .doc, * .rtf) і в цьому файлі проведіть заміну якихось 10 слів їх синонімами.

ІПС на CD-DVD ДИСКАХ

є лазерний диск і інструкція по установці відповідних ІПС на комп'ютер. Серед них, наприклад:

- Top Plan Харків

- Top Plan Ленінградська область

- До Вас прийшли з перевіркою

- Як влаштуватися на роботу

- Вибір і секрети цифрових фотоапаратів

- Вибір і секрети лиж і сноубордів

Давайте поставимо ці ІПС на один з наших комп'ютерів.

Найбільш потужні ІПС є в мережі Інтернет.

Пошукові машини Rambler (www.rambler.ru), Yandex (www.yandex.ru) і ін. Служать головним чином для пошуку потрібних сайтів. Ці ІПС інтелектуальні. Якщо ми просимо знайти сайти зі словом "льотчик", то будуть також знайдені сайти зі словом "пілот", причому у всіх відмінках.

Найбільш відомі сайти (фірми, бібліотеки, історія та ін.) Є ІПС з пошуку інформації всередині даного сайту. Ось деякі приклади:

Малюнок 1.1. Класифікація ІПС по виду одиничних елементів даних

По виду одиничних елементів даних ІПС поділяються на фактографічні та документальні (Малюнок 1.1).

Фактографічні ІПС - інформаційні системи, в яких одиничним елементом даних, які мають окреме смислове значення, є запис. утворена кінцевої сукупністю полів-атрибутів.

Наприклад, в Access запис може складатися з наступних полів (Таблиця 1.1).

Таблиця 1.1. запис Access

Експлуатація фактографічних ІПС вимагає або спочатку структурованих даних (звіти датчиків в АСУТП, фінансові масиви бухгалтерських ІС і т.д.), або попередньої структуризації даних. З цього випливають недоліки фактографічних ІС:

- часто структуризація даних вимагає великих накладних, в т.ч. і організаційних витрат, що призводять до матеріальних витрат інформатизації,

- витяг з тексту даних по формалізованим позиціях для введення в фактографічні ІС може призводити до помилок і втрати частини інформації, яка в початкових джерелах є, але через відсутність в базі даних відповідних елементів в ній не може бути відображена.

Останнім часом пріоритет отримали документальні ІПС.

Документальні ІПС - інформаційні системи, одиничним елементом яких є неструктурований на більш дрібні елементи документ.

Зазвичай це текстові документи у вигляді текстових файлів, хоча до класу неструктурованих задокументованих даних можуть також відноситься звукові та графічні файли.

Основним завданням документальних ІС є накопичення і надання користувачеві документів, які за змістом, тематикою, реквізитами і ін. Відповідають його інформаційним потребам.

Інформаційна потреба - усвідомлене розуміння відмінності індивідуального знання, яке визначається різницею між суб'єктивним сприйняттям предмета діяльності і рівнем знань про цей предмет, накопичених суспільством.

Коментарі: інформаційна потреба - це інформація, яка необхідна користувачеві.

Пертінентние називається відповідність знайдених документів інформаційним потребам користувача.

Коментарі: знайдена ІПС інформація може не повністю відповідати потребам користувача.

Особливості реалізації сховища документів і механізмів пошуку

Залежно від особливостей реалізації сховища документів і механізмів пошуку документальні ІПС поділяються на Системи на основі індексування і Семантично-навігаційні системи (Малюнок 1.2).

Малюнок 1.2. Види документальних ІПС в залежності від особливостей реалізації сховища документів і механізмів пошуку

У семантично-навігаційних системах документи, що поміщаються в сховище (базу) документів оснащуються спеціальними навігаціонниміконструкціямі. відповідними смисловим зв'язкам (відсилання) між різними документами або окремими фрагментами одного документа. Такі конструкції реалізують деяку семантичну (смислове) мережу в базі документів. Пошук здійснюється шляхом явної навігації по смисловим відсилання між документами. В даний час такий підхід реалізується в гіпертекстових ІПС.

Індексування - опис змісту документа за допомогою формалізованого інформаційного мови.

Пошуковим чином документа (ПОД) називається формалізоване опис індексу документа.

Пошуковим чином запиту (ПОЗ) до бази документів називається вираз користувачем своїх інформаційних потреб засобами і мовою пошукового простору.

Система на основі певних критеріїв і способів шукає документи, ПІД яких відповідають або близькі ПОЗ, і видає відповідні документи.

Коментарі: Є великий масив інформації - самі документи. Там важко щось знайти. Ми збираємо індекс - малу інформацію, для полегшення пошуку. Це і є індексування. Приклади: Мала інформація (індекс) - це карта місцевості. Велика інформація - це сама місцевість. Мала інформація (індекс) - це зміст книги. Велика інформація - це сама книга. Нехай є книга про художників. За змісту просто знайти на яких сторінках інформація, наприклад, про Шишкіні. У цьому випадку документи - це глави книги, пошукове простір - це зміст, пошукові образи документів (ПІД) - це пункти змісту. Пошуковий образ запиту (ПОЗ) - слово Шишкін, ми шукаємо пункт змісту з цим словом.

Малюнок 1.3. Система на основі індексування

Релевантність називається відповідність знайдених документів запитом користувача.

Коментарі: Чим сам запит відрізняється від пошукового образу запиту (ПОЗ)? Запит формулюється і розуміється людиною. Наприклад: Мене цікавлять документи в Інтернеті, які стверджують, що польоти американців на Місяць - містифікація. ПОЗ формулюється так, щоб його "зрозуміла" машина. Наприклад, як набір ключових слів: місяць політ містифікація американці. ПОЗ може не повністю відповідати запиту.

Схожі статті