Видалення сайту цілком
Щоб видалити сайт з пошукових систем і заборонити всім роботам в подальшому його сканувати, розмістіть в кореневому каталозі сервера файл robots.txt наступного змісту:
User-agent: Googlebot
Disallow: /
Для кожного порту повинен бути створений власний файл robots.txt. Зокрема, якщо використовуються протоколи http і https, для кожного з них будуть потрібні окремі файли robots.txt. Наприклад, щоб дозволити пошуковому роботу Google індексувати всі сторінки http і заборонити сканувати https, файли robots.txt повинні виглядати наступним чином.
Примітка. Якщо Ваш запит терміновий і дочекатися наступного сеансу сканування сайту роботом Google неможливо, скористайтеся системою автоматичного видалення URL. Щоб запустити цей автоматичний процес, веб-майстер повинен спочатку створити файл robots.txt і помістити його на відповідному сайті.
Якщо файл robots.txt залишиться в кореневому каталозі веб-сервера, в подальшому Google не буде сканувати сайт або його каталоги. Якщо у Вас немає доступу до кореневого каталогу сервера, можна помістити файл robots.txt на одному рівні з тими файлами, які потрібно видалити. Після того як Ви це зробите і скористаєтеся системою автоматичного видалення URL, сайт буде тимчасово, на 180 днів, видалений з індексу Google незалежно від того, чи буде видалений файл robots.txt після обробки запиту. (Якщо залишити файл robots.txt на тому ж рівні, URL буде потрібно видаляти за допомогою автоматичної системи кожні 180 днів.)
Видалення частини сайту
Варіант 1. Robots.txt
Щоб видалити каталоги або окремі сторінки сайту, можна помістити файл robots.txt в кореневому каталозі сервера. Про те, як створити файл robots.txt, розповідається в Стандарт винятків для роботів. Створюючи файл robots.txt, враховуйте наступні моменти. Приймаючи рішення про те, які сторінки сканувати на тому чи іншому хості, пошуковий робот Google діє відповідно до першим записом у файлі robots.txt, де параметр User-agent починається зі слова "Googlebot". Якщо такого запису немає, виконується перше правило, в якому User-agent - «*». Крім того, Google дозволяє використовувати файл robots.txt більш гнучко за рахунок застосування зірочок. У шаблонах заборони символ «*» може означати будь-яку послідовність символів. Шаблон може закінчуватися символом «$», який позначає кінець імені.
Щоб видалити всі сторінки того чи іншого каталогу (наприклад, "lemurs"), додайте в файл robots.txt таку запис:
User-agent: Googlebot
Disallow: / lemurs
Щоб видалити всі файли певного типу (наприклад. Gif), додайте в файл robots.txt таку запис:
User-agent: Googlebot
Disallow: /*.gif$
Щоб видалити динамічно створювані сторінки, додайте в файл robots.txt таку запис:
User-agent: Googlebot
Disallow: / *?
Варіант 2. Мета-теги
Щоб заборонити всім роботам індексувати сторінку сайту, додайте в розділ цієї сторінки наступний мета-тег:
Щоб заборонити індексувати сторінку тільки роботам Google, а іншим дозволити, використовуйте наступний тег:
Примітка. Якщо Ваш запит терміновий і чекати наступного сканування Google неможливо, скористайтеся автоматичною системою видалення URL. Щоб запустити цей автоматичний процес, веб-майстер повинен спочатку вставити в код сторінки HTML відповідні метатеги. Після цього каталоги будуть тимчасово, на 180 днів, вилучені з індексу Google незалежно від того, видаліть Чи Ви файл robots.txt або метатеги після обробки запиту.
Видалення фрагментів (фрагментів)
Щоб заборонити Google виводити фрагменти з Вашої сторінки, додайте в розділ
Наступного тег:Примітка. При видаленні фрагментів видаляються також і збережені в кеші сторінки.
Примітка. Якщо Ваш запит терміновий і дочекатися наступного сеансу сканування сайту роботом Google неможливо, скористайтеся системою автоматичного видалення URL. Щоб запустити цей автоматичний процес, веб-майстер повинен спочатку вставити в код HTML сторінки відповідні метатеги.
Видалення збережених в кеші сторінок
Google автоматично створює і архівує знімок кожної сканируемой сторінки. Наявність таких збережених в кеші версій дозволяє кінцевим користувачам знаходити сторінки, навіть якщо вони недоступні (через тимчасову неполадки на сервері, де розміщена сторінка). Користувачі бачать збережені в кеші сторінки в тому вигляді, в якому вони були в момент сканування роботом Google. Вгорі сторінки виводиться повідомлення про те, що це збережена в кеші версія. Щоб отримати доступ до такої сторінки, користувач повинен вибрати посилання «Збережено в кеші» на сторінці результатів пошуку.
Щоб заборонити всім пошуковим системам виводити цю посилання на Ваш сайт, додайте в розділ
Наступного тег:Щоб заборонити виводити посилання «Збережено в кеші» тільки системі Google, а іншим дозволити, використовуйте наступний тег:
Примітка. Цей тег видаляє лише посилання «Збережено в кеші» на відповідну сторінку. Google продовжує індексувати сторінку і виводити її фрагмент.
Примітка. Якщо Ваш запит терміновий і дочекатися наступного сеансу сканування сайту роботом Google неможливо, скористайтеся системою автоматичного видалення URL. Щоб запустити цей автоматичний процес, веб-майстер повинен спочатку вставити в код HTML сторінки відповідні метатеги.
Видалення картинки з системи пошуку зображень Google
Щоб видалити картинку з індексу картинок Google, розмістіть в кореневому каталозі сервера файл robots.txt. (Якщо це неможливо, помістіть його на рівні каталогу).
User-agent: Googlebot-Image
Disallow: /images/sobaki.jpg
User-agent: Googlebot-Image
Disallow: /
Крім того, Google дозволяє використовувати файл robots.txt більш гнучко за рахунок використання зірочок. У шаблонах заборони символ «*» може означати будь-яку послідовність символів. Шаблон може закінчуватися символом «$», який позначає кінець імені. Щоб видалити всі файли певного типу (наприклад, щоб залишити картинки в форматі .jpg, а в форматі .gif видалити), додайте в файл robots.txt таку запис:
User-agent: Googlebot-Image
Disallow: /*.gif$
Примітка. Якщо Ваш запит терміновий і дочекатися наступного сеансу сканування сайту роботом Google неможливо, скористайтеся системою автоматичного видалення URL. Щоб запустити цей автоматичний процес, веб-майстер повинен спочатку створити файл robots.txt і помістити його на відповідному сайті.
Якщо файл robots.txt залишиться в кореневому каталозі веб-сервера, Google і надалі не буде сканувати сайт або його каталоги. Якщо у Вас немає доступу до кореневого каталогу сервера, можна помістити файл robots.txt на одному рівні з тими файлами, які потрібно видалити. Після того як Ви це зробите і скористаєтеся системою автоматичного видалення URL, тимчасово, на 180 днів, будуть видалені каталоги, зазначені в файлі robots.txt, з індексу Google незалежно від того, видаліть Чи Ви файл robots.txt після обробки запиту. (Якщо залишити файл robots.txt на тому ж рівні, URL буде потрібно видаляти за допомогою автоматичної системи кожні 180 днів.)