релевантність документа

релевантність документа

Говорячи про пошукових системах, дуже часто люди згадують загадково звучить слово «релевантність». «О, ну, його запитом не знайдено релевантний!» - кажуть про одну пошуковій системі. «Він відмінний, велика релевантність!» - скажуть про інше. І тим самим, нескладно здогадатися, що наявність релевантності є хорошим явищем, і відсутність - поганим. Так все вірно. Релевантність документа - це ступінь його відповідності певним вимогам.

А що таке «ступінь відповідності»? Наприклад, якщо студенту або магістра, аспіранту потрібно написати кілька рефератів. Будучи просунутим дитиною епохи Інтернету, вони не збираються писати його самі, але сподіваються знайти потрібний документ в Інтернеті і видати його за самостійно написаний. Не намагаючись оцінити такий вплив з морального аспекту, можна розглянути це просто, як приклад.

Студент переходить до пошукової системи і вводить слово в рядку пошуку «реферат». І пошуковик, в свою чергу, видає посилання на близько восьми мільйонів сторінок, на яких це слово зустрічається тридцять мільйонів разів. І це слово зустрічається як на сторінках веб-сайту «скачати реферати, курсові», так і на сторінках блогу який-небудь гламурній красуні, де буквально написано: "Сьогодні я хотіла написати реферат, але замість цього пішла в салон, зробила укладку, манікюр і пілінг ".

Отже, яку з названих сторінок відкриє студент? Величезну базу грамотно написаних рефератів чи на дневничок дівиці, в якій потрібне слово потрапило, буквально випадково? Безумовно, йому знадобиться банк рефератів! Це і називається - релевантність, тобто ступінь відповідності документа запиту.

А яким же чином пошукова система може визначити цю релевантність, тобто, яка зі сторінок, де зустрічається дана пошукова рядок, є найбільш цікавою і корисною для користувача? Це як раз і є нововведення і концепція більшості пошукових систем, але загальний принцип дуже схожий на них:

  • Перевіряє, скільки разів дана фраза знайдена на вибраних сторінках;
  • Перевіряє відстань між словами;
  • Проаналізовано кількість посилань на цю сторінку;
  • Який тип шрифту (стилю) набирається на сторінці, і багато іншого.

Схожі статті