Що таке лематизації, панда-копірайтинг

Лематизації - це перетворення слів в лемму, тобто до їх первісної словникову форму. наприклад:

При лематизації частини мови перетворять за таким принципом:

1. Іменник - однина, називний відмінок.
2. Прикметник - однина, чоловічий рід, називний відмінок.
3. Дієслово - невизначена форма (інфінітив).

Для чого потрібна лематизації?

Перш за все, лематизації використовують пошукові системи. Вона допомагає їм прискорити індексування і обробку запитів, а також підвищити релевантність своєї видачі. Пошуковики пропускають кожну сторінку через алгоритм-лемматізатор, щоб зберегти її в базі в компактній і зручній для пошуку формі.

Запити теж проходять через лематизації. Неважливо, що ввів користувач: «куплю машину» або «купити машину» - пошуковик перетворює слова в леми ( «купити машина») і покаже один і той же результат.

Інше застосування лематизації - перевірка унікальності. Робиться це приблизно так:

  • Оригінальний текст піддається лематизації.
  • Програма по черзі бере з тексту по кілька лем поспіль (така серія називається «шингл» і найчастіше вона складається з 3 слів).
  • Потім програма шукає цей шингл в інших текстах (які теж попередньо були лемматізірованни).
  • Якщо збіг знайдено, то цей фрагмент вважається «неунікальним».

Лематизації користуються і SEO-оптимізатори, коли складають семантичне ядро ​​(СЯ). Ця технологія допомагає:

1. Видалити дублі запитів. Наприклад, «куплю машину в Москві» і «купити машина Москва» - це насправді один і той же запит.
2. Кластеризація. Завдяки приведення ключів в вихідну форму їх простіше сортувати по темам.
3. Швидко оцінити популярність тих чи інших запитів.

І ще одне застосування лематизації - програмування і веб-розробка. Програмісти використовують цю технологію для створення власної системи пошуку по базах даних або сайту.

Знайшли помилку? Будь ласка, виділіть її мишкою і натисніть лівий Ctrl + Enter.

оцінити статтю

Схожі статті