Компьютерра як змінити швидкість сканування сайту роботом - яндекса

За допомогою спеціальної директиви у файлі robots.txt веб-майстри можуть змінювати тривалість перерв, які робить пошуковий робот "Яндекса" між запитами до сервера.

Користуючись спеціальною інструкцією Crawl-delay у файлі robots.txt, веб-майстри можуть змінювати тривалість перерв, які робить пошуковий робот "Яндекса" між запитами до сервера. Це може виявитися корисним в тому випадку, якщо "павук" створює надмірне навантаження на сайт, і його необхідно якось "втихомирити".

Crawl-delay дозволяє задати пошуковому роботу мінімальний час (в секундах) між закінченням сканування однієї сторінки сайту і початком індексації наступної. З метою сумісності з роботами, які не повністю дотримуються стандарту при обробці файлу robots.txt 1. директиву Crawl-delay необхідно додавати до групи, що починається з записи User-agent, безпосередньо після рядка Disallow (Allow).

Наприклад, для того щоб змусити робота обходити кожну сторінку веб-ресурсу з тайм-аутом в три секунди, необхідно прописати в robots.txt наступні інструкції:

User-agent: Yandex
Crawl-delay: 3

User-agent: Yandex
Disallow: / administrator
Crawl-delay: 3

В останньому прикладі яндексовского "павук" буде не тільки строго витримувати секундний паузу перед скачуванням кожної сторінки сайту, але і буде ігнорувати директорію Administrator 2.

"Яндекс" підтримує дробові значення Crawl-delay - наприклад, 0.5 або 4.5. Це означає, що при бажанні можна управляти настройками пошукового робота і регулювати швидкість, з якою він індексує сайти, з точністю до десятих часток секунд.

І останнє. Директиву Crawl-delay можна застосувати до всіх пошукових роботів, використовуючи в інструкції User-agent символ підстановки "*".

1. Про призначення файлу з ім'ям robots.txt і деякі тонкощі роботи з ним ви можете прочитати в цьому матеріалі рубрики RTFM. [Повернутися]

2. Деякі системи управління контентом (Joomla, наприклад) використовують директорію Administrator для зберігання файлів і скриптів, що відповідають роботу панелі управління сайтом. З цієї причини закриття папки Administrator від "павуків" може бути цілком виправданим рішенням. [Повернутися]