Основи пошуку інформації в інтернеті

Базовий курс:
Основи професійної роботи з інформаційними ресурсами Інтернет

Відмова від відповідальності

Незважаючи на те, що було докладено всіх зусиль для того, щоб цей документ був вільний від помилок, помилкових відомостей і застарілих посилань на ресурси Інтернету, Харківське відділення Інституту "Відкрите Суспільство" не несе ніякої відповідальності за збитки, як прямі, так і непрямі, які можуть викликані використанням цього документа.

Всі згадані торгові марки є власністю їх власників.

Пошук інформації - завдання, яке людство вирішує вже багато століть. У міру зростання обсягу інформаційних ресурсів, потенційно доступних одній людині (наприклад, відвідувачеві бібліотеки), були вироблені дедалі витонченіші і досконалі пошукові засоби і прийоми, що дозволяють знайти необхідний документ.

Спочатку ці кошти удосконалювалися в каталогах та інформаційних відділах великих бібліотек. У 70-і роки XX століття з'явилися бази даних, доступ до яких спочатку забезпечувався через модемне підключення, а потім по протоколу telnet через Інтернет. Вартість роботи з такими базами даних досить велика. Наприклад, одна хвилина роботи з базою даних DIALOG (www.dialog.com) може коштувати долар, а висновок на екран одного елемента знайденої запису (з, наприклад, 70) - 20 центів. Така висока вартість пошуку інформації зажадала створення ефективних прийомів пошуку.

Дослідження по методах пошуку інформації публікуються в наукових журналах. У нашій країні - в журналі "Наукова і технічна інформація" (НТІ), в США - в Journal of American Society of Information Systems (JASIS).

Всі знайдені за багато років кошти і прийоми пошуку інформації доступні і ефективні і при пошуку інформації в Інтернет.

Бібліотеки використовують, в основному, три види каталогів: алфавітні, систематичні та предметні. Інформаційно-пошукові системи (ІПС) Інтернет, при всьому їхньому зовнішньому розмаїтті, також потрапляють в один з цих класів. Тому, перш ніж знайомитися з цими ІПС, подивимося, як влаштовані абстрактні алфавітні (словникові), систематичні та предметні ІПС. А для цього доведеться познайомитися ще й з деякими термінами з теорії інформаційного пошуку. Наша екскурсія в теорію виявиться корисною при зустрічі з черговою ІПС (а в Інтернет їх кілька сотень) - у цих ІПС ви станете впізнавати знайомі риси.

Екскурсія в теорію
інформаційно-пошукових систем

Ця інформаційна потреба часто (як правило) навіть не може бути точно виражена словами, і виражається тільки в оцінці документів, що переглядаються - підходить чи не підходить. У теорії інформаційного пошуку замість слова "підходить" використовують термін "пертінентние ДОКУМЕНТ", а замість "не підходить» - «не пертінентний". Слово "пертінентний" походить від англійського "pertinent", що означає "що відноситься до справи, відповідний по суті". Суб'єктивно розуміється мета інформаційного пошуку - знайти всі пертінентние і тільки пертінентние документи (ми хочемо знайти "тільки те, що хочемо, і нічого більше").

Коли документів багато, використовується інформаційно-пошукова система (ІПС). У цьому випадку інформаційна потреба повинна бути виражена засобами, що "розуміє" ІПС - повинен бути сформульований ЗАПИТ:

Запит рідко може точно висловити інформаційну потребу. Однак багато ІПС з різних причин не можуть визначити, чи відповідає той чи інший документ запитом. Ступінь відповідності документа запиту називається релевантною. Релевантний документ може виявитися непертінентних і навпаки. Відома (американська) ІПС, яка на запит, що складається з єдиного слова "Russia" (Росія), видає список документів, в першому з яких цього слова немає взагалі, але зате є слово "Gagarin". Цей документ нерелевантен, але пертінентен для масової американської аудиторії. У разі, коли шукається інформація про шлюпочних якорях (кішках), запит, що складається з слова "кішка", майже в будь-який ІПС дасть масу релевантних, але непертінентних документів.

Класичний приклад класифікаційної ІПС - Yahoo (www.yahoo.com). Тільки-но з'явившись, Yahoo швидко завоювала визнання якісної опрацюванням класифікатора. Зараз в Yahoo працюють понад 100 систематизатор.

Це непросте завдання. Існує професія, вирішальна цю задачу - перекладачі. Хороший перекладач перекладає не тільки слова, а й те, що називається "культурні реалії". У разі інформаційного пошуку відповідний професіонал називається "ІНФОРМАЦІЙНИЙ БРОКЕР". Він володіє когнітологіческімі методиками, знає, як влаштовані класифікатори і як їх інтерпретують систематизатори. Ці знання дозволяють інформаційному брокеру в бесіді з вами вивчити вашу інформаційну потребу і перетворити її в запит. У бібліотеках такі "інформаційні брокери" працюють в інформаційних і бібліографічних відділах. Інформаційні брокери Інтернет у нас в країні вже зустрічаються, хоча поки що рідко.

Ці прийоми використовуються в ситуації, коли документ може бути віднесений до одного з декількох розділів класифікатора, а особа, яка здійснює пошук (пошукач), може не знати, до якого саме розділу.

Відсилання використовується тоді, коли творці класифікатора і систематизатори в змозі прийняти чітке рішення про віднесення документа до одного з розділів класифікатора, а пошуковик з певною ймовірністю в пошуках цього документа прийде в інший розділ. Тоді в цьому іншому розділі поміщається відсилання ( "Див.") В той розділ класифікатора, в якому дійсно розміщена інформація про документи даного типу.

Наприклад, інформація про карти країн може бути розміщена в розділах "Наука / Географія / Країна", "Економіка / Географія / Країна" або "Довідники / Карти / Країна". Приймається рішення, що карти країн містяться в другій розділ "Економіка / Географія / Країна"; тоді в інші два розділи поміщаються відсилання в нього. Цей прийом активно використовується в ІПС Yahoo (відсилання позначається в ній знаком @).

Класифікаційних ІПС в Інтернет багато (деякі згадані в зведенні ІПС в кінці статті). Великі класифікаційні ІПС (американська Yahoo. Європейська Yellow Web. Українські Сузір'я Інтернет і Ау) використовують допоміжні словникові ІПС за власними рубриками (аналоги бібліотечних алфавітних покажчиків). Інші класифікаційні ІПС просто існують спільно з ІПС словникового типу (Excite, Lycos, Infoseek).

На щастя, не дивлячись на велику кількість слів (і словоформ) в природних мовах, більшість з них вживаються нечасто, що було помічено вченим лінгвістом Ципфом ще в кінці 40-х років нашого століття. До того ж найбільш уживані слова - це сполучники, прийменники і артиклі, тобто слова, абсолютно даремні при пошуку інформації. В результаті словник найбільшою словникової ІПС Інтернет -Alta Vista - має об'єм всього лише кілька Гбайт.

Замість того, щоб говорити "Список документів містять слово 'стіл' або документів, що містять слово 'стілець'", вживаються скорочені вирази, наведені на малюнку. Подальше скорочення ці вирази знаходять в мові запитів словникових ІПС: замість "Знайти список документів, які містять слово 'стіл' або документів, що містять слово 'стілець'", більшості словникових ІПС достатньо написати щось на кшталт

Союз АБО в запиті до словникової ІПС виступає в ролі ЛОГІЧНОГО ОПЕРАТОРА, що зв'язує безлічі шуканих документів. Словникові ІПС використовують три логічних оператора: АБО, І та І-НЕ ( "але без"); як правило, ці оператори позначаються одним із таких способів:

Ці оператори мають пріоритет (перш за все виконується І-НЕ, потім - І, і лише потім - АБО), тому для складання складних запитів можуть використовуватися дужки (виняток становить лише ІПС Infoseek. Яка замість дужок застосовує інші позначення). Як правило, словникові ІПС Інтернет надають користувачам два інтерфейси - режим "складного запиту" (advanced search "), в якому доступні всі логічні оператори, і режим простого пошуку, в якому, як правило, неможливо використання дужок, і, отже, можна використовувати не всі поєднання операторів.

Давайте розглянемо гіпотетичний приклад пошуку інформації про столах. З урахуванням відмінків слова "стіл" і наших знань про логічних операторах, запит до словникової ІПС міг би виглядати так:

стіл АБО столу АБО столу АБО столі АБО столом

Добре, що це тільки одне слово, але писати таке вже досить сумно.

Західні ІПС, орієнтовані на англійську мову, пропонують просте рішення: замість слова можна написати його початок, замінивши змінну частину зірочкою:

Формально кажучи, зірочка замінює будь-яку кількість символів, тому говорять, що вона позначає праве усікання. Називати словом позначення "стіл *" язик не повертається, тому для таких частин логічних виразів запитів використовується назва ТЕРМІН. Зірочка для зазначеної мети (правого усікання) застосовується всіма відомими словарними ІПС Інтернет.

Однак такий запит відшукає і документи зі словами "їдальня", "стільниця", "столоначальник" і навіть "стовп". Таке явище - штучна синонімія - може сильно заважати при пошуку, проте його прояв часто неможливо передбачити заздалегідь.

Дві українські ІПС (Яндекс і Апорт) "знають" російську граматику і в словнику зберігають тільки так звану "нормальну форму" слова (для іменника - називний відмінок однини). Ці системи допускають написання запиту природною мовою, нормалізує терміни запиту, тим самим істотно спрощуючи пошук в українському Інтернет.

Описані можливості словникових ІПС, хоча і досить потужні, часто виявляються абсолютно недостатніми для пошуку навіть дуже простий інформації. Спробуємо вирішити наступне завдання: відшукати відомості про продаж металевих стільців:

металеві * І стілець *

Але цей запит відповідають прейскурант торгової фірми, що продає плетений дерев'яний стілець (другий рядок прейскуранта) і металева шафа (178 рядок прейскуранта). Оператор І відшукує документи, в яких шукані слова зустрічаються в будь-якому місці!

Для усунення цього недоліку деякі ІПС зберігають не просто список документів, в яких зустрічається слово, а й номер цього слова в конкретному документі. Це дозволяє в мові запитів такий ІПС використовувати оператор ПОРУЧ, що вирішує поставлене завдання:

металеві * ПОРУЧ стілець *

Багато ІПС не дозволяють написати такий запит - вони не дозволяють використовувати терміни з правим урізанням спільно з оператором ПОРУЧ, (тільки слова), але це обмеження поступово знімається, - стежте за інформацією на конкретних ІПС.

Оператор ПОРУЧ в різних ІПС позначається по-різному (він є в Alta Vista. Lycos. Апарат і Яндекс. А також в ІПС телеконференцій DejaNews. І у всіх цих ІПС використовуються різні позначення). Більш того, в різних ІПС він може мати і кілька різний зміст. Так, Alta Vista вважає, що ПОРУЧ - це не більше ніж через 15 слів в будь-якому порядку, в той час як інші ІПС дозволяють вказувати необхідну відстань між словами (рівно стільки-то або не більше ніж стільки-то). Lycos дозволяє вказувати відстань і необхідний порядок слів. Апарат дозволяє вказувати відстань між словами в словах і пропозиціях; Яндекс - в словах і абзацах (з можливістю вказати порядок проходження слів).

Американський сервер ІПС Alta Vista (www.altavista.digital.com) надає унікальний спосіб уточнення результатів пошуку. Цей спосіб діє, тільки якщо в запиті використані лише англомовні терміни.

При натисканні на кнопку Refine виникає список понять, що зустрічаються в тільки що знайдених документах. З кожним поняттям Alta Vista пов'язує список слів, які видно відразу. Кожне поняття можна включити в новий запит, виключити з нього або ігнорувати. Вже одне це дозволяє різко підвищити ефективність пошуку за рахунок виключення понять, які не входять до потрібної предметну область, і про співіснування яких з використаними вами термінами часто важко здогадатися.

Якщо ваш броузер підтримує Java, то, натиснувши кнопку Graph. ви побачите схему зв'язків між поняттями, і, до того ж, зможете включати в запит і виключати з нього не тільки поняття цілком, але і окремі слова, з ними пов'язані.

Предметна ІПС з точки зору користувача влаштована найбільш просто. Шукай назву потрібного предмета свого інтересу (предметом може бути і щось нематеріальне, наприклад, індійська музика), а з назвою пов'язані списки відповідних ресурсів Інтернет. Це було б особливо зручно, якщо повний перелік предметів невеликий.

Так воно і було деякий час назад. Web-майстри, які займаються одним предметом, почали ставити на своїх серверах посилання на сервери колег, створюючи кільцеві посилальні структури.

Зрозуміло, що знайти потрібний предмет інтересу тепер непросто. www.webring.org обзавівся власними допоміжними ІПС - класифікаційної і словникової, що допомагають знайти назву предмета.

Дати загальний рецепт ефективної стратегії пошуку інформації в Інтернет, мабуть, неможливо. Є лише деякі принципи, що дозволяють витрачати менше часу. Спробую їх викласти.

Почну з прикладу. Якщо вам необхідно дізнатися, де росте деревоподібна чорниця, то навряд чи ви підете в алфавітний каталог бібліотеки. Може бути, ви знайдете потрібну літературу за допомогою систематичного каталогу. З дещо більшою ймовірністю - за допомогою предметного. Але, швидше за все, жоден з бібліотечних каталогів вам не допоможе. Але зайдіть в інформаційно-бібліографічний відділ великої бібліотеки, і черговий бібліограф дістане бібліографічний покажчик по чагарники або якусь схожу книжечку, з якої ви і знайдете відповідь на своє питання.

Подібну стратегію можна з успіхом застосовувати і в Інтернет. В ІПС загального призначення можна потонути в тисячах посилань, виданих вам на простий запит. Метою використання універсальної ІПС загального призначення може бути пошук спеціалізованої ІПС, присвяченій тематиці вашого пошуку. Така ІПС може бути розпізнає за такими словами "інформація (information)", "документ (document)" і т.п. в знайдених в універсальній ІПС документах. Але часто спеціалізована ІПС може ховатися на сервері громадської, професійної або спеціалізованої організації, видавництва.

Іноді доводиться розшукувати декілька інформаційних систем з усе більш вузькою тематикою. Одного разу до мене звернулися з проханням терміново знайти інформацію про продаж суден-суховантажів (по-англійськи - bulker). Запит в Alta Vista (простий пошук)

дав нульовий результат; запит

тисячі посилань на сторінки, присвячені продажу катерів і яхт (втім, попалася і одна баржа). Уважне вивчення кількох перших сторінок списку результатів пошуку показало, що в знайдених текстах часто присутнє слово "marine (морської)". І тут я згадав, що є в англійській мові слово "maritime", що означає "все морське". запит

вже серед перших десяти посилань містив посилання на розташовану на www.GeoCities.com інформаційну систему на морську тематику. Але і в ній інформації про продаж суховантажів не було. Зате була інформація про відправку суховантажів з портів світу, що включає відомості про власників суден. Багато з фірм - власників суден мали в своїй назві слова "ship brokers (торговці судами)". Цього англійського виразу я не знав. Однак запит в Alta Vista

Третій елемент стратегії: використовуйте кілька ІПС. Якщо ви регулярно займаєтеся пошуком інформації з якоїсь тематики, відмітьте ті ІПС. які для вас найбільш ефективні.

Схожі статті