Індексування документів і сайтів, палю тему

Індексування документів і сайтів, палю тему

Байка з життя

Пертінентний? Ні, - релевантний

Деякі з цими термінами вже зустрічалися. А хтось їх чує вперше. Повинна сказати, що ми їх зубрили по бібліографії ще тоді, в 1980-х роках.
А означають вони наступне:

Релевантність - змістову відповідність між інформаційним запитом і отриманим повідомленням. Акваріум - розведення рибок

Пертінентность - точна відповідність отриманої інформації інформаційної потреби користувача. Акваріум - Віктора Суворова

Простіше кажучи, пертінентность - це крутіше, ніж релевантність, тому що точніше.

Який запит - таку відповідь

Так от і вийшло, що книжка про розведення акваріумних рибок виявилося релевантної запиту хлопчика, але не була пертінентние інформаційної потреби його мами.

Так що, релевантність - це погано?
Зовсім немає.
Якщо інформаційний / пошуковий запит сформульований точно, детально, правильно, то релевантний відповідь швидше за все з'явиться і пертінентние (тобто гідною кандидатурою, точним).
Але, як ми побачили на прикладі з акваріумами, користувачі не завжди можуть точно висловити власні інформаційні потреби.

А при чому тут Яндекс?

Так при тому, що Яндекс (точніше - будь-який пошуковик!) Теж повинен видавати користувачу інформацію та релевантну його запитом, і пертінентние його потреби.
Тобто пошуковик на підставі запиту (іноді - неповного або спотвореного) повинен визначити вашу інформаційну потребу.

Ось прямо зараз можете спантеличити Яндекс (і / або Гугл) термінами акваріум. а потім акваріум Суворова - і побачити цей процес наочно.

Індексування документів і сайтів, палю тему

Індексування документів і сайтів, палю тему

Сподіваюся, ви зрозуміли, що в своєму житті я таки виконувала ті завдання, які зараз, як правило, виконують Яндекс, Гугл та інша пошукова Ко. 😉

Треба відзначити, що подібних історій кожен бібліограф може розповідати безліч зі свого життя.

місія здійсненна

А чому я взагалі стала розповідати бібліографічну байку на блозі, присвяченому сайтобудування?
Так ось тут на днях один вебмастер дивувався: а як взагалі Яндекс визначає тематику сторінок.

І цей мій пост - відповідь на цей здивоване запитання.

Господа вебмастера!
Щоб ви знали, що поняття «індексування документів» народилося не при виникненні Яндекса або Гугла. І навіть не при виникненні Інтернету.

В якості почесного помічника бібліотекаря Рінсвінд просунувся лише небагато чим далі основ індексування книг.
(Террі Пратчетт «Посох і капелюх»)

Індексування включає в себе:

- визначення тематики документа;
- внесення документа в певну класифікацію, тобто привласнення індексу. Причому, тільки в бібліотеках таких класифікацій є кілька: ББК - Бібліотечно-Бібліографічна Класифікація, УДК ​​- Універсальна Десяткова Класифікація, ...... - не буду більше вантажити. Але ж є ще архівні організації, де системи класифікації зовсім інші ... До речі, в відмінному фентезі-роман Патріка Ротфусса «Ім'я вітру» є виразний епізод, присвячений проблемі різних класифікацій в бібліотеці.
Звичайно, в поняття «індексування» входять ще кілька процесів. Але ми зараз говоримо саме про визначення тематики - для подальшої видачі релевантних і пертінентних документів за запитами користувачів / Новомосковсктелей.

Отже, проблема індексування, зокрема, визначення тематики документів розробляється не пару років або десятиліть, а кілька століть. І тому вже досить сильно опрацьована. Алгоритми для вирішення цього завдання існують давно.

Індексування документів і сайтів, палю тему

Ну, а введення тієї чи іншої системи індексації в машиночитаемую форму - тобто створення відповідної комп'ютерної програми - це більш просте завдання, ніж розробка класифікації.
Звичайно, алгоритми зараз часто оновлюються і доповнюються. Але визначення тематики (як складова частина індексування) - це досить звичайне, типове завдання для інформаційного працівника - будь то бібліограф або Яндекс. 🙂

До речі, не дарма Яндекс взяв собі назву, яке інформаційному працівнику (бібліографа, в тому числі) говорить дуже і дуже багато.

І прямо зараз, на наших очах, алгоритми стають все досконалішими, і тому відповіді пошукачів все більш пертінентние нашим інформаційним потребам, а не тільки релевантні нашим запитам.

До речі, ось історія (майже анекдотична) про те, як за часів Великих ЕОМ створювалася теорія сьогоднішнього яндексовского Тіца. Ну майже. 😉

Ну, а справа вебмайстрів - допомогти пошуковикам швидше і краще проіндексувати матеріали свого сайту, допомогти точно визначити тематику і ключові слова.

Як це зробити? - ну, дик ... Яндекс в допомогу! 🙂 Головне - не забудьте скласти правильний і точний пошуковий запит. 😉

Палю тему!

Краще розділити їх за темами. Ну, знаєш: історія, мемуари, граматика ...
Патрік Ротфусс «Ім'я вітру»