Робимо правильний і

Попередня ↔ Наступна

Завдання полягає в тому, щоб заборонити деякі каталоги для індексації пошуковим системам, для того, щоб позбутися від дубльованого контенту. Наприклад, на одну і ту ж статтю можна потрапити як з / tag / так і с / category /.

Чому дублюючийся контент це погано?

Ось, що говорить з цього приводу Google (переклад), можна також знайти інформацію з приводу пошукової системи Яндекс, де говориться що їх алгоритми банять сайти з дублюючим контентом. Не знаю так це чи ні, я не фахівець в області SEO (якщо є специ - відпишіть в камменти), але про всяк випадок прикрию дубляжі!

Скористайтеся пошуком від Google або Яндекс і ви знайдете море інформації по цій темі.

Robots.txt

robots.txt - файл обмеження доступу до вмісту роботам на http-сервері. Файл повинен знаходитися в корені сайту (тобто мати шлях щодо імені сайту /robots.txt). При наявності декількох субдоменів файл повинен розташовуватися в кореневому каталозі кожного з них. Даний файл доповнює стандарт Sitemaps, який служить прямо протилежної мети: полегшувати роботам доступ до вмісту.

Мій Robots.txt

Так ось виглядає мій Роботс:

Я дозволив пошуковим роботам індексувати мене тільки по "тегами" і "Архіву". Зверніть увагу, я використовую маску / wp-. для того щоб URL'и wp-login.php, wp-register.php, wp-admin і т.д. потрапили під заборону індексації (Disallow).

Також я дозволив індексувати мій "/ wp-content / uploads /" для сервісів "Яндекс.Зображення" і "Google Зображення". так як там зберігаються в основному картинки. І Разшарив файл "sitemap.xml" для кращої індексації.

Для перевірки синтаксису і структури файлу robots.txt існує ряд спеціалізованих онлайн-служб:

Так само слід не забути про фото sitemap.xml

Sitemaps - це XML-файл з інформацією для пошукових систем (таких як Google, Yahoo, Ask.com, MSN, Яндекс) про сторінки веб-сайту, які підлягають індексації. Sitemaps може допомогти пошуковикам визначити місцезнаходження сторінок сайту, час їхнього останнього оновлення, частоту оновлення та важливість щодо інших сторінок сайту для того, щоб пошукова машина змогла більш розумно індексувати сайт.

Сайтмап не обов'язковий і пошукові системи не гарантують його використання, він лише допомагає пошуковим роботам проводити індексацію, однак я вважаю що це дуже корисним!

Для Wordpress існує плагін - Google XML Sitemaps (інші корисні плагіни для Wordpress використовуються мною). Цей плагін генерує за вас файл sitemap.xml. в якому і міститься інформація для пошукових роботів по індексації сайту. Ви самі можете його налаштувати і вказати відсотки пріоритету для статей, сторінок і т.д.

Центри веб-майстрів Google і Яндекс

Для прискорення індексації рекомендується оповістити Google і Яндек з про ваших файлах robots.txt і sitemap.xml. для цього існують спеціальні сервіси:

Використання http-пінгів для повідомлення пошукових систем про оновлення в sitemaps

Можна вказати пошуковим системам місцезнаходження файлу Sitemap за допомогою HTTP-запиту:

Добрий час доби. У мене питання з приводу дублюючого контенту.
Наприклад, в рубриці є список статей, у багатьох з них є тег. клікаючи на посилання "читати далі" ми переходимо на статтю зі своїм унікальним url-му. Але є в рубриці короткі статті, які повністю відображають текст статті в списку статей рубрики. Тобто клікаючи на цю статтю, ми заходимо на юрл статті, де текст абсолютно ідентичний тексту на сторінці рубрики. Яким чином краще уникнути такої дубляж?
Спасибі за відповідь.

Взагалі я б закривав для індексації тіла статей в списку, а залишав тільки назви і посилання на окрему сторінку.

Спасиб. Закрив через плагін SEO все-в-одному рубрики, архіви і теги. Сподіваюся цього повинно вистачити.

Не, повернув рубрики тому, вони мені потрібні. Підкажіть, яким чином можна закрити саме "тіла статей в списку рубрики"?

Вітання. Я ось ще додав до свого сайт файл robots.txt З таким вмістом:

Як цю проблему усунути? Я ще хочу щоб туди брали сайти і з безкоштовних хостингів! У тому числі сайти з Ucoz! Я нічим вам не можу допомогти, не я писав правила. А юкоз і інші конструктори - розсадник ГС.

Ну все правильно. Ось Роботс так виглядає:

Ааааа. Там у Вікіпедії там де ці коди там я зрозумів що позначає код помилки 403:

«З'явився в HTTP / 1.0.

Сервер зрозумів запит, але він відмовляється його виконувати через обмеження в доступі з боку клієнта до зазначеного ресурсу.

Якщо для доступу до ресурсу потрібно аутентифікація засобами HTTP, то сервер поверне відповідь 401 (або 407 для проксі). В іншому випадку обмеження були задані адміністратором сервера або розробником веб-додатки і можуть бути будь-якими в залежності від можливостей використовуваного ПО.

У будь-якому випадку клієнтові слід повідомити причини відмови в обробці запиту.

Найбільш ймовірними причинами обмеження можуть послужити:

Спроба доступу до системних ресурсів веб-сервера (наприклад, файлів .htaccess або .htpasswd) або до файлів, доступ до яких був закритий за допомогою конфігураційних файлів.

Для доступу необхідна аутентифікація не грошима HTTP (наприклад, для доступу до CMS або розділу для зареєстрованих користувачів).

«З'явився в HTTP / 1.0.

Успішний запит ресурсу. Якщо клієнтом були запитані будь-які дані, то вони знаходяться в заголовку і / або тексті листа ».

А я все-таки хочу щоб мої сайти проиндексировали. І ще хочу щоб брали сайти і з безкоштовних хостингів! У тому числі сайти з Ucoz! І я ще хочу зробити такі показники свого сайту як ТИЦ 1500 PR 13. Як мені це зробити? Дайте відповідь хто-небудь будь ласка?