Зробивши повну копію всього, що йому вдалося знайти, він залишає ваш сайт, до наступних відвідин. Як ви розумієте після такого обшаривания в базу індексу пошукача потрапило все, що треба і все, що не треба. Те що треба ви знаєте - це ваші статті і сторінки. А ось чого індексувати не треба? Виявляється це вся службова інформація і в першу чергу всі файли нашої улюбленої WordPress. Копії статей і сторінок в архівах створюють враження, що у вас дуже багато статей з однаковими текстами. Картинки оформлені в окремі статті (вони в такому вигляді без тексту і опису виглядають абсолютно некоректно).
Тепер після всього сказаного виникає резонне питання: "А чи можна як то заборонити індексувати те що не треба?". Виявляється можна. Хоча б не в наказовому порядку, а в рекомендаційному. Ну тобто позбутися від повної індексації ми навряд чи зможемо, а ось рекомендувати не виводити в пошукових запитах деякі папки і файли нашого сайту ми цілком можемо.
Тільки треба враховувати особливості складання файлу:
Тепер давайте розглянемо детальніше:
1 - 14 блок налаштувань для всіх роботів
User-agent: * - Це обов'язкова директива, а зірочка каже, що директива для роботів всіх пошукових систем.
Disallow: - директива забороняє індексування папок або конкретних файлів. У нашому прикладі за допомогою назв папок і масок назв файлів, зроблений заборона на всі службові папки вордпресс.
Allow: - директива дозволяє індексування папок або файлів. Її корисно використовувати коли в глибині заборонених папок є файли які все ж треба проіндексувати.
15 - Порожній рядок.
16 - 30 блок налаштувань конкретно для Яндекса (User-agent: Yandex).
31 - Порожній рядок.
32 - доменне ім'я вашого сайту (ОБОВ'ЯЗКОВА директива)
Host: може перебувати де завгодно, але краще її розташувати в кінці файлу як в нашому прикладі.
33 - Порожній рядок.
Тепер трохи як створювати маски:
Disallow: /wp-register.php - Забороняє індексувати файл wp-register.php, розташований в кореневій папці.
Disallow: / wp-admin - забороняє індексувати вміст папки wp-admin, розташованої в кореневій папці.
Disallow: / trackback - закриває індексувати повідомлення
Disallow: / wp-content / plugins - забороняє індексувати вміст папки plugins, розташованої в папці (папці другого рівня) wp-content.
Disallow: / feed - забороняє індексувати канал feed тобто закриває RSS фід блогу.
* - означає будь-яка послідовність символів, тому може замінювати як один символ, так і частина назви або повністю назва файлу або папки. Відсутність конкретного назви в кінці рівносильно написання *.
Disallow: *? S = - забороняє індексувати сторінки пошуку
З огляду на що пошукових систем багато і всі вони працюють не зовсім однаково, то такі ж блоки як для Яндекса, є сенс прописати і для деяких нам відомих пошукових систем. Назви блоків для Mail.Ru, StackRambler, Googlebot, googlebot-image, googlebot-mobile, Aport, msnbot, psbot, yahoo-slurp наведені нижче:
User-agent: *
Disallow:
User-agent: Yandex
Disallow:
User-agent: Mail.Ru
Disallow:
User-agent: StackRambler
Disallow:
User-agent: Googlebot
Disallow:
User-agent: googlebot-image
Disallow:
User-agent: googlebot-mobile
Disallow:
User-agent: Aport
Disallow:
User-agent: msnbot
Disallow:
User-agent: psbot
Disallow:
User-agent: yahoo-slurp
Disallow: