Складаємо правильний для dle сайту - turboportal

Складаємо правильний для dle сайту - turboportal

Привіт, шановні початківці вебмастера. Мова в сьогоднішній статті піде від тому, як скласти правильний Robots.txt на своєму Dle сайті, так що б пошукові машини індексували саме ті сторінки сайту, які Ви хотіли бачити в індексі пошукових системах. Robots.txt дозволяє правильно направляти пошукові машини по заданому курс, що покращити індексацію сайту і заборонить до індексації ті сторінки Dle сайту, які не повинні опинятися в публічному доступі. Пошукові машини індексують всі, що надає йому веб - майстер і видає їх в індекс. Тільки веб - майстер має право, що то заборонити індексувати пошуковим системам. Якраз про те, що заборонити, а що дозволити індексувати пошуковим системам і піде мова в даній статті.


У зв'язку з останніми скандалами з пошуковою системою Яндекс, яка надавала в публічний доступ конфіденційну інформацію про користувача магазинів і sms - повідомлення, Яндекс випустила рекомендації веб - майстрам по Robots.txt, яка була спрямована на недопущення подібних інцидентів. Вина всього цього галасу лежала на веб - майстрів, які неправильно склали Robots.txt і пошукова машина індексувала все, що не було заборонено в Robots.txt. У зв'язку, з чим Вам так само слід знати, як правильно скласти Robots.txt під свої Dle сайт, так щоб в індексі пошукових систем знаходилися потрібні сторінки Вашого Dle сайту.

Загальні правила складання Robots.txt для пошукових систем

Директива "Host" призначена для склеювання сторінок сайту з "www" або без "www", щоб пошукова система з часом склеїла копії сторінки "www" або без "www". У даній директиві зазначається правильний шлях на сайт, внаслідок чого пошукова система буде видавати в індекс сторінки тільки з "www" або без "www". Слід знати що директива "Host" слід прописувати тільки відразу після директиви "Disallow", інакше пошукова система не буде визначати її як директиву склейки.


У директиві "Sitemap" вказує шлях до карти сайту в форматі XML, щоб пошукова система могла знати шлях до карти сайту в форматі XML, для подальшого формування сесії закачувань.

У стандартах Robots.txt не передбачена можливість використання регулярних вираженні (знаків "*" і "$") для виключення сторінок директивою "Disallow:". Деякі регулярні вирази такі як "*" (означає, будь-який знак і символ) і "$" (означає, кінець рядка) використовують Яндекс і Google. Для російськомовних сайтів Ви можете використовувати конструкції сторінок виключення з використанням деяких регулярних виразів.

Складання правильного Robots.txt для Dle сайту


Що б складати правильний Robots.txt, Ви повинні мати уявлення, які саме сторінки не слід індексувати. Зазвичай для Dle це сторінки другорядної важливості (профіль користувача, тимчасові папки, зворотного зв'язку, хмара тегів, сторінки пошуку і т.д.). Robots.txt для російськомовних сайтів можна скласти для всіх пошукових систем відразу, тому як стандарти Robots.txt Яндекса і Google практично ідентичні. Ось приблизний вигляд Robots.txt, який виключає другорядні сторінки Dle сайту:

Знак "*" (зірочка) означає будь-який знак або символ в рядку, а знак "$" (долар) означає знак кінця рядка і те, що після цього знака нічого стояти не повинно. Якщо ж в Robots.txt вказувати директиву "Disallow: / tags" (без другого слеша), то вона буде рівноцінна конструкції "Disallow: / tags *", внаслідок цього можуть бути виключені сторінки, як хмари тега, так і сторінки новин в URL яких буде входити слово "tags". Дуже важливо вказувати точне входження слова в конструкцію URL і бути дуже уважним, щоб не заборонити індексацію сторінок новин Вашого сайту.

Видалення проіндексованих сторінки Dle сайту


Якщо ж пошукова система проіндексувала вже небажані для цього сторінки, то Ви з легкістю можете видалити їх в Google або Яндекс за допомогою сервісів для веб - майстрів. Для Google це "Інструменти для веб-майстрів -> Конфігурація сайту -> Доступ для сканера -> Видалити URL", а для Яндекса є спеціальна сторінка, яка видаляє сторінки сайту - Видалити Url з Яндекса. Перед тим як видаляти сторінки сайту, Вам слід налаштувати Robots.txt так щоб пошукові системи не смоги індексувати їх в подальшому.

Схожі статті