Hrefer - збір форумів під анти-спам систему - smm просування, навчання розкрутці в соц мережах

Стаття написана в рамках 5-го Конкурсу статей
HRefer є потужним парсером в комплекті утиліт XRumer. Дана програма здатна без зусиль парсити більшість популярних пошукових систем повністю в автоматичному режимі. Має гнучкі настройки і зручний інтерфейс.

Трохи пошукавши інформації про HRefer, я прийшов до висновку, що її мало (в основному це статті з 3 конкурси статей, але вони досить старі і не розкривають деякі поточні проблеми). Я не зміг знайти нормального гайда про те, як зібрати базу і вирішив написати свій.

Плюс всі ці бази показового характеру. Для успішної роботи необхідно мати свою базу. Особливо якщо ресурси з цієї бази які раніше не піддавалися спаму і не потрапляли в публічні списки для XRumer.
Наша мета - збір бази форумів під постинг через анти-спам систему.

підготовка проксі

Для успішного парсинга нам знадобляться проксі. Ми збираємося багато парсити, значить нам потрібно багато проксі. При цьому ці проксі не повинні бути забанені пошуковими системами. З публічними проксі таке практично неможливо.

Залишається всього 2 варіанти - платні пакети з проксі або приватні проксі. Найкращий варіант - приватні проксі, але вони вкрай дорогі. Якщо у Вас є зайва 100-1000 приватних проксі, то можна сміливо підключати їх. Орендувати їх спеціально під парсинг вкрай невигідно. Кожен такий проксі може коштувати кілька доларів в місяць.

Залишився останній варіант - платні пакети високоанонімних проксі. Хоч проксі з подібних пакетів хороші, але не завжди вони підійдуть для парсинга пошукових систем. Крім нас цими проксі може користуватися багато людей, який могли вже підвести проксі до бану. Пробуючи орендувати такі пакети, необхідно обов'язково звертатися в техпідтримку з питанням придатності цих проксі до парсингу пошукових систем.

А ось для Яндекса

Імпортуємо список проксі в Hreferer і можна приступати до наступного пункту. Так само не забуваємо той факт, що цими проксі користуються всі клієнти сервісу і проксі швидко потрапляють в бан. Що б підтримувати необхідну кількість проксі нам необхідно раз на кілька годин оновлювати наш список. Сервіс постійно моніторить придатність проксі і нам не доведеться цим займатися.

База з запитами до пошукової системи

Нам так само необхідна база з ключами для парсинга. Коробковий hrefer містить бази з буквами і числами. Нам вони не підійдуть. Я вважаю, що найкраще використовувати словник української мови для цієї мети. Так ми зможемо охопити величезну кількість тем. Так вдасться зібрати більше форумів.
Я використовував ось такий словник:

Hrefer - збір форумів під анти-спам систему - smm просування, навчання розкрутці в соц мережах

У ньому міститься більше 125 000 слів, за якими і буде відбуватися парсинг. Ви можете завантажити цей словник.

Зверну увагу на базу «додаткових» ключів. До кожного нашого слова зі словника підставляється по черзі кожен ключ з додаткової бази. Це дозволяє виявити і знайти ознаки деяких форумів. Так само в цей список сміливо можна додати слово форум. Майже кожен форум має в заголовку це слово і воно допоможе нам знайти ще більше форумів.

Приступаємо до парсингу

Сам парсинг краще виконувати по двох найпопулярніших пошукових систем (в основному це пов'язано з тим, що ми точно знаємо працездатність наших проксі з цими пошуковими системами) Яндексом і Гуглом. Парсити відразу обидві може стати проблематично. Це пов'язано з тим, що проксі забененние в обох пошукових системах куди рідше чому не забанені в одній з них.
Як варіант можна парсити спочатку по одній, а потім вже по іншій пошуковій системі.

В налаштуваннях многопоточности ми вказуємо велику кількість потоків з розрахунком на те, що ми маємо велику затримку між зверненнями кожного потоку. Це необхідно для збереження працездатності проксі і уникнення бана. Якщо ми будемо відсилати занадто багато запитів - нас тут же забанити. Кількість потоків компенсує витрачений час на простої.

Затримка між зверненнями проксі до пошукової системи повинна бути не менше 3 секунд. Це сильно підвищує живучість проксі. Ми ж ставимо ще більш великий проміжок часу, тим самим зводимо до мінімуму число звернень і можливість бана.

Кілька корисних порад

Секрети збору баз?

Якщо нам необхідна тематична база, то слід використовувати базу слів з релевантними нашої тематики фразами чи словами. Список таких слів можна отримати за допомогою Яндекс вордстата наприклад.

Для відбору окремих типів форумів найкраще використовувати коробкові фільтри. З фільтра «все форуми» можна виокремити необхідний нам ознака.