Як правильно шукати і видаляти дублі сторінок на сайті

Як правильно шукати і видаляти дублі сторінок на сайті

Перед тим, як почати говорити про дублях, Олександр дав визначення дублюючої сторінці сайту:

Дублі - дві або більше сторінок одного сайту. які містять ідентичний або в достатній мірі схожий текстовий контент.

Причин появи дублів на сайті - безліч і всі вони пов'язані з різними помилками. наприклад:

Помилки у вмісті сторінок:

• некоректні відносні посилання
• відсутність тексту

• HTTP-200 замість HTTP-404
• доступність спеціальних сторінок

Велика кількість можливих причин виникнення дублів зазвичай дуже гнітить вебмайстрів і вони відкладають їх пошук в довгий ящик, не бажаючи витрачати на це час. Робити цього не варто, так як наявність дублів сторінок на сайті часто призводить до різних проблем.

01 | Небезпека дублів на сайті

Проблеми, до яких призводять дублі:

• Зміна релевантної сторінки в результатах пошуку
• Обхід дублюючих сторінок
• Складне Становище збору статистики

Зміна релевантної сторінки

Робот не зберігає в своїй базі кілька ідентичних документів, тому в пошуку залишається тільки один з них - на розсуд робота. Здається, що в цьому немає нічого поганого, адже сторінки ідентичні. Однак досвідчені вебмастера знають, що позиції конкретної сторінки по запитам розраховуються на підставі декількох сотень показників, тому при зміні сторінки в пошуковій видачі, позиції можуть змінитися.

Як правильно шукати і видаляти дублі сторінок на сайті

Через деякий час релевантна сторінка повернулася в видачу, однак цілком очевидно, що навіть така невелика зміна може вплинути на кількість трафіку на ресурс.

Обхід дублюючих сторінок

При наявності великої кількості дублів на ресурсі, пошуковому роботу доводиться постійно відвідувати велику кількість сторінок. Оскільки кількість запитів з боку індексуючему робота обмежена (виробником сервера або CMS сайту, вебмастером за допомогою директиви Crawl-delay), він, при наявності великої кількості дублюючих сторінок, починає завантажувати саме їх, замість того щоб індексувати потрібні сторінки сайту. В результаті в пошуковій видачі можуть бути показані якісь неактуальні дані і користувачі не зможуть знайти потрібну їм інформацію, хоч вона і розміщена на сайті.

Приклад з практики по обходу дублюючих сторінок, з якого видно, що до кінця травня робот щодня скачував трохи менше мільйона сторінок інтернет-магазину. Після поновлення ресурсу і внесення змін на сайт, робот різко починає збільшувати навантаження на ресурс, завантажуючи по кілька мільйонів сторінок в день:

Як правильно шукати і видаляти дублі сторінок на сайті

Велика частина цих сторінок - дублі, з некоректними GET-параметрами, які з'явилися через некоректну роботу CMS, використовуваної на сайті.

Проблеми зі збором статистики в Яндекс.Вебмастере Яндекс.Метрика

Якщо говорити про вебмайстрів, то в розділі «Сторінки в пошуку» можна спостерігати ось таку картину:

Як правильно шукати і видаляти дублі сторінок на сайті

При кожному оновленні пошукової бази, кількість сторінок у пошуку залишається практично незмінним, але видно, що робот при кожному оновленні додає і видаляє приблизно однакову кількість сторінок. Тобто якийсь процес відбувається, постійно щось віддаляється і додається, при цьому кількість сторінок у пошуку залишається незмінним. Якщо подивитися статистику обходу, то ми побачимо, що щодня робот відвідує кілька тисяч нових сторінок сайту, при цьому ці нові сторінки в пошукову видачу не потрапляють. Це як раз-таки і пов'язане з обходом роботом дублюючих сторінок, які потім в пошукову видачу не включаються.

Якщо дивитися статистику відвідуваності конкретної сторінки в Яндекс. Метриці, то може виникнути така ситуація: дана сторінка показувалася раніше за конкретним запитом і на неї були переходи з результатів пошуку, які чомусь припинилися на початку травня:

Як правильно шукати і видаляти дублі сторінок на сайті

А сталося ось що - включилася в пошукову видачу дублююча сторінка, і користувачі з пошуку почали переходити на неї, а не на потрібну сторінку сайту.

Здавалося б, ці три великі проблеми, викликані наявністю дублів сторінок на сайті, повинні мотивувати вебмайстрів до їх усунення. А щоб видалити дублі з сайту, спочатку їх потрібно знайти.

02 | Пошук дублів

- Бачиш дублюючі сторінки?
- Ні.
- І я ні. А вони є.

Найпростіший спосіб шукати дублюючі сторінки - це за допомогою розділу «Сторінки в пошуку» в Яндекс.Вебмастере:

Сторінки в пошуку -> Виключені сторінки -> Сортування: Дубль -> Застосувати

Як правильно шукати і видаляти дублі сторінок на сайті

В результаті можна побачити всі сторінки, які виключив робот, вважаючи їх дублюючими.
Якщо таких сторінок багато, наприклад, кілька десятків тисяч, можна отриману сторінку вивантажити з Вебмастера і далі використовувати її на свій розсуд.

Другий спосіб - за допомогою розділу «Статистика обходу»:

Статистика обходу -> Сортування: 200 (ОК)

Як правильно шукати і видаляти дублі сторінок на сайті

У цьому розділі можна побачити не лише сторінки, які відвідує робот, не тільки дублі, але і різні спеціальні сторінки сайту, які в пошуку бачити б не хотілося.

Третій спосіб - із застосуванням фантазії.

Беремо будь-яку сторінку сайту і додаємо до неї довільний GET-параметр (в нашому випадку це /? Test = 123. За допомогою інструменту «Перевірка відповіді сервера», перевіряємо код відповіді від даної сторінки:

Як правильно шукати і видаляти дублі сторінок на сайті

Якщо дана сторінка доступна і відповідає, як на скріншоті, кодом відповіді 200, то це може привести до появи дублюючих сторінок на сайті. Наприклад, якщо робот знайде десь таке посилання в інтернеті, він її проиндексирует і потенційно вона може стати дублюючої.

Четвертий спосіб - це перевірка статусу URL.

У ситуації, коли потрібна сторінка вже пропала з результатів пошуку, за допомогою цього інструменту можна перевірити, з яких саме причин це сталося:

Як правильно шукати і видаляти дублі сторінок на сайті

В даному випадку видно, що сторінка була виключена з пошуку оскільки є дублем.

Крім цих чотирьох способів можна використовувати ще якісь свої способи, наприклад: подивитися логи свого сервера, статистику Яндекс.Метрики, врешті-решт, подивитися пошукову видачу, там теж можна виявити дублюючі сторінки.

03 | усунення дублів

• Явні дублі (повністю ідентичний контент)
• Неявні дублі (сторінки зі схожим вмістом)

- HTTP-301 перенаправлення з одного виду сторінок на інші за допомогою .hitacces / CMS

Які саме сторінки потрібно залишати для робота вирішує сам вебмастер в кожному конкретному випадку. Можна подивитися на сторінки свого сайту в пошуку, які з них присутні в ньому в даний момент, і приймати рішення, виходячи з цих даних.

- Використовуємо атрибут rel = "canonical" тега

3. Сторінки версій для друку

Як правильно шукати і видаляти дублі сторінок на сайті

4. Сторінки з незначними параметрами

site.ru/page
site.ru/page?utm_sourse=adv
site.ru/page?sid=e0t421e63

Вдаємося до допомоги спеціальної директиви Clean-param в robots.txt і вказуємо всі незначущі параметри, які використовуються на сайті -

5. Сторінки дій на сайті

site.ru/page?add_basket=yes
site.ru/page?add_compare=list
site.ru/page?comment_page_1

Заборона в robots.txt -

site.ru/игрушки/мяч
site.ru/игрушки/ іграшки / іграшки / іграшки / м'яч

1. Шукаємо джерело появи
2. Налаштовуємо HTTP-404 на запити робота

7. Схожі товари

- Ми залишаємо товар на одному URL і використовуємо селектор (можливість вибору потрібного кольору і розміру)
- Додаємо на такі сторінки додаткове опис, відгуки
- Закриваємо непотрібне в noindex

8. Сторінки з фотографіями без опису

Сторінки фотогалерей, фотобанків

9. Сторінки фільтрів і сортування

- Визначаємо затребуваність і корисні залишаємо
- Для непотрібних прописуємо заборона в robots.txt -

10. Сторінки пагінацію

site.ru/shop/catalog/podarki/
site.ru/shop/catalog/podarki/?page_1
site.ru/shop/catalog/podarki/?page_2

Використовуємо атрибут rel = "canonical" тега

04 | висновки:

Причини виникнення та види дублів різноманітні, тому різними і повинні бути підходи до них з точки зору пошукової оптимізації. Не треба їх недооцінювати. Частіше потрібно заглядати в Веб-майстер і своєчасно вносити відповідні зміни на сайт.

Шпаргалка по роботі з дублями:

Як правильно шукати і видаляти дублі сторінок на сайті

Схожі статті