Лематизації - це перетворення слів в лемму, тобто до їх первісної словникову форму. наприклад:
При лематизації частини мови перетворять за таким принципом:
1. Іменник - однина, називний відмінок.
2. Прикметник - однина, чоловічий рід, називний відмінок.
3. Дієслово - невизначена форма (інфінітив).
Для чого потрібна лематизації?
Перш за все, лематизації використовують пошукові системи. Вона допомагає їм прискорити індексування і обробку запитів, а також підвищити релевантність своєї видачі. Пошуковики пропускають кожну сторінку через алгоритм-лемматізатор, щоб зберегти її в базі в компактній і зручній для пошуку формі.
Запити теж проходять через лематизації. Неважливо, що ввів користувач: «куплю машину» або «купити машину» - пошуковик перетворює слова в леми ( «купити машина») і покаже один і той же результат.
Інше застосування лематизації - перевірка унікальності. Робиться це приблизно так:
- Оригінальний текст піддається лематизації.
- Програма по черзі бере з тексту по кілька лем поспіль (така серія називається «шингл» і найчастіше вона складається з 3 слів).
- Потім програма шукає цей шингл в інших текстах (які теж попередньо були лемматізірованни).
- Якщо збіг знайдено, то цей фрагмент вважається «неунікальним».
Лематизації користуються і SEO-оптимізатори, коли складають семантичне ядро (СЯ). Ця технологія допомагає:
1. Видалити дублі запитів. Наприклад, «куплю машину в Москві» і «купити машина Москва» - це насправді один і той же запит.
2. Кластеризація. Завдяки приведення ключів в вихідну форму їх простіше сортувати по темам.
3. Швидко оцінити популярність тих чи інших запитів.
І ще одне застосування лематизації - програмування і веб-розробка. Програмісти використовують цю технологію для створення власної системи пошуку по базах даних або сайту.
Знайшли помилку? Будь ласка, виділіть її мишкою і натисніть лівий Ctrl + Enter.