Контроль дубльованого контенту в wordpress

На щастя, є кілька способів і технологій, щоб побороти дублі контенту:

тег meta nofollow
тег meta noindex
атрибут nofollow
директиви robots
тег canonical
використання цитат

Розберемося з кожним окремо.

Теги meta noindex і nofollow

Ці теги належать до секції і розміщуються відповідно в header.php

Зрозуміло, що більшість блогерів хоче, щоб їх статті потрапляли в індекс, але при цьому не виникало дублів, тому для сторінок архівів оптимальною буде така конфігурація

З огляду на ці теги, ми можемо найкращим способом налаштувати боротьбу з дубльованим контентом автоматично. Для цього внесемо умови в header.php. відповідно до яких сторінки будуть дозволені або заборонені до індексації, і дані правила стосовно до всіх пошукових роботів.

А якщо ми хочемо заборонити індексувати один окремо взятий пост? Є багато плагінів для цієї мети, але все робиться своїми руками набагато простіше. Додаємо в секцію файлу шаблону теми header.php

Де 77 - ID обраної записи.

Звичайно, немає нічого поганого в тому, щоб індексувалися додаткові сторінки сайту, погано - якщо вони містять повністю не унікальний контент (з точки зору вашого сайту). Але якщо на цих сторінках формуються свої власні фрагменти тексту з цитат записів, то їх можна індексувати, для цього трохи поміняємо умова

На свій розсуд і виходячи з концепції сайту можна додавати або прибирати з індексування наступні сторінки

Повний перелік і опис тегів можна знайти тут

Цей код генерує і додає в секцію посилання на канонічну сторінку. Пошуковик бачить це і індексує тільки її, а все решта дублі, які на неї посилаються - немає.

Атрибут Nofollow

Ще одна можливість заборонити індексувати непотрібний контент - використовувати спірне атрибут посилань нофолоу.

Але, як зазначалося вище, це не 100% метод заборони індексування подібних сторінок, тому для максимального ефекту потрібно комбінувати кілька способів - заборонити індексування в мета тегах head, проставити тег нофолоу на посилання на цю сторінку, а також заборонити індексування в директивах robots

директиви robots.txt

Суть його в тому, щоб повідомляти пошуковим роботам, що можна і що не можна робити на сайті. Більшість білих роботів, таких як google і yandex, приймають їх до уваги, а різні спам боти і парсери - ігнорують.

Майте на увазі, що сторінки, заборонені для відвідування і індексування в Роботс, все одно поглинають контрольний вагу. Тому при неправильній організації і перелинковке сайту можна втрачати досить багато посилальної ваги, який втрачено і не врахований.

Крім цього, якщо відвідування сторінки заборонено для бота, це не означає, що пошуковий бот її не відвідали, ймовірно з цікавості - що ж там йому заборонили. І іноді з'являється в індексі - правда з відображенням лише одного лише урл сторінки без відображення контенту в сніпетів.

Давайте розберемо приклад оптимальної конфігурації директив Роботс для запобігання індексування непотрібних сторінок. Для цього потрібно освіжити в пам'яті структуру файлів і папок вордпресс.

Цими двома рядками ми забороняємо індексувати будь урл, що починається з wp- і будь-який урл, що містить .php на кінці. Таким чином всі папки та системні файли не повинні індексуватися

Далі, ми не хочемо щоб пошуковики індексували наступні сторінки:

Це ми можемо виключити ось таким простим способом

Якщо з'єднати всі разом, то вийде таке вміст robots.txt

Як видно, за допомогою директиви Disallow можна заборонити індексацію, вказавши повний або частина урл, тому таким же способом можна додати теги або рубрики в заборона. Але, крім заборони, іноді потрібно вирішувати індексування певних сторінок, наприклад, якщо ми заборонили індексацію всієї директорії, але хочемо дозволити один з файлів, що знаходиться в ній.

Таким чином пошуковий робот послідовно перебираючи правила, буде виконувати останнім підходяще за умовою.

Потужний інструмент створення і перевірки правил robots знаходиться в панелі вебмастера гугл. а також в панелі вебмастера яндекс.

Створені правила варто перевіряти на коректність, щоб не накоїти делов і не заборонити індексувати що-небудь потрібне.

Останнім штрихом буде додавання директиви, що пояснює, що правила повинні бути застосовані всіма пошуковими роботами

Якщо ж ми хочемо створити певний набір тільки для одного з пошукових систем, то ми вказуємо його

І завершальним штрихом буде включення в Роботс посилання на карту сайту сайтмап, що містить посилання на всі сторінки вашого сайту і допомагає його правильно індексувати

Для автоматичної генерації цього файлу можна скористатися плагіном Google XML Sitemaps. Цей файл відмінно сприймається також і яндексом, тому його слід обов'язково створювати для кожного сайту.

В результаті правильний robots.txt буде виглядати, приблизно, так

Це повністю працездатний код, придатний для більшості сайтів. Але пам'ятайте, що приймати його до уваги будуть лише основні пошукові боти.

Але варто звернути ще увагу ось на що - грамотна організація постійних посилань записів. Якщо процитувати кодекс вордпресс, то згадаємо.

Тому набагато краще буде починати урл запису з числового поля, такого як рік записи або її ID. Тому якщо на невеликих і рідко відвідуваних сайтах на це можна не звертати увагу, то, плануючи створення великого сайту, відразу варто задуматися про хорошу структуру URL.

І замість варіантів

краще використовувати варіанти

Але в цьому випадку варто бути уважним при налаштуванні Роботс, тому що директива типу Disallow: / 20 * може виключити з індексування всі записи, що починаються з номера року.

Канонічні мета теги

Розміщуючи на кожній з цих сторінок в секції мета тег

ми явно говоримо, де у нас дубльований контент, а де оригінальний.

У вордпресс канонічний тег виконує ту ж саму функцію, вказуючи, яку сторінку слід індексувати.

Однак варто розуміти, що для пошукових систем це скоріше рекомендація, яку вони повинні виконувати, але може виникнути і інший результат, якщо алгоритми візьмуть до уваги і інші фактори.

Використання цитат записів

Інший ефективною технікою запобігання дублюванню контенту є використання цитат замість повного змісту записів для всіх сторінок архівів, тегів і т.п. Таким чином вони не будуть ідентичними копіями одиночній записи.