Майстер-клас з видалення рефспама з google analytics, блог

Майстер-клас з видалення рефспама з google analytics, блог

  • Реферальний спам (спам в реферера, спам в логах) - спам через реферер, тобто сайт отримує фейковий трафік від різних спамерських пошукових роботів. У Google Analytics таке джерело трафіку позначений як «не визначений».
  • Бот - спеціальна програма, розроблена для виконання завдань, що повторюються з високим ступенем точності і швидкості.

Зазвичай вони використовуються для веб-індексації (індексація вмісту сайтів). Але, крім того, для таких зловмисних цілей:

Таким чином, в залежності від того, для яких цілей використовується бот, він може бути «хорошим» і «поганим».

Чи не кожен сайт в рівній мірі піддається впливу різних спамерських пошукових роботів

Це пояснюється тим, що в основі роботи спам-ботів лежить виявлення і використання слабкостей сайту в своїх корисливих цілях.

Спам-боти часто нападають на погано захищені сайти. Так що якщо ваш сайт розташований на який-небудь дешевої хостингової платформі або ви використовуєте для користувача CMS інтернет-магазину, знайте, що у вас більше шансів піддатися нападу спамерських пошукових роботів.

Справа в тому, що часто для користувача CMS / движок інтернет-магазину не настільки добре протестовані для виявлення та виправлення вразливих місць програми. Тому використовуйте зарекомендував себе хостинг-провайдер, CMS та движки інтернет-магазину.

Якщо ваш сайт часто піддається атаці поганих ботів, то заміна веб-хостингу може допомогти позбутися від цієї проблеми.

Інструкція з виявлення й усунення рефспама:

Крок 1: Зайдіть в GA «Джерела трафіку» → «Весь трафік» → «Спрямування» і відсортуйте звіт по «Показник відмов» в порядку убування:

Майстер-клас з видалення рефспама з google analytics, блог

Крок 2: Зверніть увагу на реферали з показником відмов в 100% або 0% і показником «Сеанси» в 10 або більше. Як правило, це і є рефспам.

Крок 3: Якщо підозрілий реферал належить до одного з сайтів, перерахованих в наведеному нижче списку, - це точно рефспам:

1. semalt.com
2. semalt.semalt.com
3. buttons-for-website.com
4. blackhatworth.com
5. makemoneyonline.com
6. ilovevitaly.com
7. priceg.com

(Для російськомовного сегмента список сайтів буде іншим. Наприклад, hulfingtonpost.com, darodar.com (спасибі читачеві Marin за уточнення)

Крок 4: Якщо ви не можете визначити приналежність підозрілого реферала, не залишається нічого іншого, як на свій страх і ризик пройти по посиланню.

Однак перш ніж це зробити, переконайтеся в тому, що у вас встановлений антивірус / програма для захисту від шкідливого ПО, тому що перехід по посиланню може заразити ваш комп'ютер.

Крок 5: Як тільки ви переконаєтеся, що цікавить вас реферал є поганим ботом, ваше завдання якомога швидше заблокувати його і не дозволити знову зайти на сайт.

  • Не витрачайте дорогоцінний час на блокування поганих ботів через створення фільтра в GA.

Майстер-клас з видалення рефспама з google analytics, блог

Це пояснюється, по крайней мере, двома причинами:

# 1 Існують сотні, тисячі поганих ботів і кожен день їх з'являється стільки ж, тобто чисто фізично неможливо створити таку кількість фільтрів, яке б справлялося з атаками спамерських пошукових роботів.

  • Неможливо усунути рефспам з джерела трафіку рефералів, використовуючи «Реферальний список виключень».

У підсумку ви просто приховуєте проблему, але не вирішуєте її, тому що трафік від різних спамерських пошукових роботів буде відображатися в звіті GA як прямий трафік. При цьому у вас не буде можливості оцінити вплив різних спамерських пошукових роботів на загальний трафік сайту.

Візити спам-ботів завдадуть колосального удару по звітам GA і назавжди спотворять дані по трафіку.

Виникає питання, що робити в такому випадку?

Майстер-клас з видалення рефспама з google analytics, блог

Майстер-клас з видалення рефспама з google analytics, блог

# 2 Заблокуйте реферал, який використовується спам-ботом

Зайдіть в файл «.htaccess» (або в «web config», якщо ви використовуєте IIS) і додайте наступний код:

Даний код заблокує всі http і https реферали з сайту semalt.com і з усіх його піддоменів.

Зайдіть в файл «.htaccess file» і додайте наступний код:

RewriteEngine On
Options + FollowSymlinks
Order Deny, Allow
Deny from 234.45.12.33

Примітка: не копіюйте цей код в свій файл .htaccess - це лише приклад, в такому вигляді він не спрацює, вам необхідно підставити свої значення.

RewriteEngine On
Options + FollowSymlinks
Deny from 76.149.24.0/24
Allow from all

Тут 76.149.24.0/24 - це CIDR діапазон.

# 5Блокіровка шкідливих користувацьких агентів, використовуваних спам-ботами

Раз в тиждень переглядайте на сервері лог-файли, знаходите і блокуйте шкідливі для користувача агенти, щоб вони не змогли зайти на ваш сайт. Зробити це можна в такий спосіб:

RewriteEngine On
Options + FollowSymlinks
RewriteCond% Baiduspider [NC]
RewriteRule. * - [F, L]

Простий пошук через Google може видати великий список сайтів, що містять інформацію про шкідливі для користувача агентів (ПА), використовуйте її для визначення ботів, які заходять на ваш сайт.

Вам необхідно написати сценарій для автоматизації процесу блокування. Ведіть базу даних всіх відомих шкідливих ПА, а потім використовуйте скрипт для автоматичного визначення та блокування агентів, що містяться в базі даних. Постійно оновлюйте і редагуйте базу даних, тому що постійно виникають нові ПА, а старі зникають.

Блокуйте лише ті шкідливі ПА, які атакують ваш сайт. Не намагайтеся заблокувати всі відомі призначені для користувача агенти, інакше це зробить ваш файл «.htaccess» настільки великим, що ви не зможете коректно керувати сайтом. Крім того, це негативно відіб'ється на продуктивності веб-сервера.

# 6Іспользуйте функцію GA фільтрації роботів «Виключення звернень роботів і« павуків »» (знаходиться під звітом «Налаштування уявлення»).

Майстер-клас з видалення рефспама з google analytics, блог

Боротьбу з поганими ботами необхідно починати на рівні сервера. Якщо ви зможете в першу чергу захистити сайт від атак ботів, вам не доведеться потім їх видаляти зі звітів GA.

# 8Іспользуйте програму «Firewall» (захист від мережевих атак)

«Firewall» - це своєрідний фільтр між комп'ютером / веб-сервером і інтернетом, який може захистити ваш сайт від поганих ботів. Якщо ви працюєте у великій організації, то ви, швидше за все, не з чуток знаєте про цю програму і активно її використовуєте в своїй роботі.

# 9 Звертайтеся по допомогу до системного адміністратора

Захищати веб-сайт необхідно 7 днів на тиждень всі 24 години на добу, і це дійсно не ваша робота. Ваш системний адміністратор - це той самий чоловік, який повинен відповідати за безпеку і боротьбу з ботами, тому коли ви виявите новий поганий бот, повідомте йому про це.

# 10 Використовуйте в якості браузера Google Chrome

Якщо ви ще не користуєтеся програмою «Firewall», то другим кращим рішенням буде використання Google Chrome.

  • Chrome виявляє і сканує шкідливі програми швидше, ніж будь-який інший браузер.

Якщо ви користуєтеся Google Chrome, у вас менше шансів заразитися при переході по підозрілої посиланням в звіті GA «Спрямування».

# 11Іспользуйте призначене для користувача повідомлення для моніторингу незвичайного сплеску трафіку. особливо якщо воно стосується прямих заходів і рефералів. Якщо ви будете користуватися даними повідомленням в GA, то зможете швидко виявляти й усувати погані боти.

# 12Вкладивайте гроші в випробування, перевіряючі можливість проникнення в систему

Схожі статті