Faq по парсеру інформації datacol - все для різних движків і cms

Faq по парсеру інформації datacol - все для різних движків і cms

Datacol - це універсальне рішення для отримання будь-яких даних, доступних в інтернеті. Налаштування вирізання даних з будь-якої сторінки виробляється в кілька кліків миші. Вам потрібно просто вибрати область даних, яку ви хочете зберігати і Datacol сам підбере формулу для вирізання цього блоку.

Faq по парсеру інформації datacol - все для різних движків і cms

Для нормальної працездатності програми, в системі повинні бути встановлені:

Microsoft .NET Framework 4
Microsoft Internet Explorer 7 (або вище)

При запуску кампанії парсинга Черга заповнюється відповідно до настройками, зазначеними на вкладці Стартові URL. Також Черга може заповнюватися URL з дампа Черги, збереженого при попередньому парсінгу. Що стосується Історії, то вона також може заповнюватися URL з дампа Історії, збереженого при попередньому парсінгу. Далі потоки парсеру починають в паралельному режимі діставати URL з Черги. У момент видалення URL з черги (і відповідно надходження в обробку) відбувається додавання цього URL в історію оброблених. Кожен URL обробляється по нижчеописане плану.

1. Перевірка, чи підходить URL для збору даних або для збору посилань. Перевірка здійснюється відповідно до настройками в блоці Збір даних і Навігація.
2. Завантаження сторінки URL. в результаті чого ми отримуємо вихідний код сторінки.
3. Перевірка, чи підходить код завантаженої сторінки для збору даних або для збору посилань. Перевірка здійснюється відповідно до настройками в блоці Збір даних і Навігація.
4. Якщо сторінка підходить для збору даних (це перевірялося раніше по її URL і коду сторінки), то на ній виробляється збір даних відповідно до настройками зазначеними в блоці Збір даних.
5. Якщо сторінка підходить для збору посилань (це перевірялося раніше по її URL і коду сторінки), то на ній виробляється збір посилань відповідно до настройками зазначеними на вкладці Навігація -> Збір посилань. Зібрані посилання додаються в Черга. При цьому ігноруються:
- посилання, URL яких не відповідає НІ налаштувань відповідності URL для збору даних, НІ налаштувань соотвтествія URL для збору посилань.
- посилання, які вже Інтегровано в Історії парсеру.
6. Експорт результатів збору даних. Залежно від налаштувань експорту, результати можуть зберігатися в довільний формат (зазвичай це CSV або TXT файл), Excel, Mysql, Wordpress або за допомогою плагіна експорту.

Черга - це список посилань на сторінки сайту для обробки (яка включає завантаження сторінки, збір даних, збір посилань і експорт). Залежно від налаштувань кампанії, після закінчення парсинга може бути збережений дамп черзі. При наступному запуску чергу може бути довантажуючи з цього ж дампа.
Історія - це список посилань на сторінки сайту, які були оброблені парсером раніше. Залежно від налаштувань кампанії, після закінчення парсинга може бути збережений дамп історії. При наступному запуску історія може бути довантажуючи з цього ж дампа.

Faq по парсеру інформації datacol - все для різних движків і cms


Якщо на сторінці знайдено кілька діапазонів, то в кожному з них буде проведений пошук однієї групи даних.

Faq по парсеру інформації datacol - все для різних движків і cms


Зверніть увагу, що всі поля даних, присутні в одній групі, повинні перебувати на одній сторінці сайту (або на сторінці, на неї посилається, тобто на Referer).

Головне вікно програми містить: Меню, Дерево кампаній, Таблицю працюють кампаній, Область відображення новин і результов.
Також знизу знаходиться Рядок статусу.

Faq по парсеру інформації datacol - все для різних движків і cms

Меню складається з наступних вкладок: Головна, Додаткові.


Опис кнопок вкладки Додаткові наведено нижче.
Папка програми - службова папка програми, в якій розташовані службові дані, необхідні для належного функціонування програми.
Планувальник - планувальник завдань Datacol.
Звертати в трей - прапор згортання в трей замість панелі завдань.

Для імпорту та експорту файлів з настройками кампаній-парсеров (з розширенням .par) або кампаній-проксічекеров (з розширенням .prch) використовуються відповідні кнопки меню.
Для імпорту кампанії необхідно в дереві кампаній вибрати папку, в яку ви збираєтеся імпортувати кампанію (на нижче наведеному прикладі обрана папка parsers). Потім слід натиснути кнопку Імпорт кампанії.

Faq по парсеру інформації datacol - все для різних движків і cms


Тепер залишається вибрати файл кампанії, який ви збираєтеся імпортувати.

Faq по парсеру інформації datacol - все для різних движків і cms


Після натискання кнопки Відкрити нову імпортована кампанія з'явиться в дереві кампаній.

Faq по парсеру інформації datacol - все для різних движків і cms


Для експорту кампанії необхідно в дереві кампаній вибрати кампанію, яку ви збираєтеся експортувати (на нижче наведеному прикладі обрана кампанія kolchaka-cat.par). Потім слід натиснути кнопку Експорт кампанії.

Faq по парсеру інформації datacol - все для різних движків і cms


Тепер залишається вибрати папку, в яку буде експортована кампанія.

Faq по парсеру інформації datacol - все для різних движків і cms


Після експорту налаштувань кампанії, відповідний файл з'явиться в обраній папці.

Faq по парсеру інформації datacol - все для різних движків і cms

Для імпорту плагінів Datacol використовується пункт меню Імпорт плагіна.

Faq по парсеру інформації datacol - все для різних движків і cms


У откривашемся вікні необхідно вибрати папку, яка містить плагін Datacol і відносяться до нього файли. Зверніть увагу, потрібно вибирати саме ту папку, в якій міститься основний dll файл плагіна (а не батьківські папки, як часто буває при розархівуванні).

Faq по парсеру інформації datacol - все для різних движків і cms


Крім того, для коректного експорту в папці з плагіном повинен бути присутнім файл plugin_convention.txt. В даному файлі повинно бути присутнім ім'я файлу плагіна. Якщо ви купуєте або замовляєте плагін у нас, то даний файл завжди присутній в папці з надісланим вам плагіном.

Faq по парсеру інформації datacol - все для різних движків і cms

Faq по парсеру інформації datacol - все для різних движків і cms


Після імпорту плагіна він стане доступним для вибору в списках плагінів вікна настройки кампанії.

Faq по парсеру інформації datacol - все для різних движків і cms

Дерево кампаній відображає вміст службової папки Campaigns (сховище налаштованих кампаній). У дереві відображаються папки Campaigns, файли кампаній-парсеров (.par) і файли кампаній-проксі-чокерів (.prch). Кампаніями і папками можна керувати за допомогою контекстного меню. Воно викликається кліком правої кнопки миші на кампанії або папці.

Faq по парсеру інформації datacol - все для різних движків і cms


Контекстне меню кампанії складається з наступних елементів:

Запуск - запуск кампанії, обраної в Дереві кампаній.
Стоп - зупинка кампанії, обраної в Дереві кампаній.
Пауза - пауза кампанії, обраної в Дереві кампаній.
Зняти паузи - зняття з паузи кампанії, обраної в Дереві кампаній.
Експорт кампанії - експорт налаштувань кампанії, обраної в Дереві кампаній в файл.
Видалити - видалення кампанії, обраної в Дереві кампаній.
Налаштування - відкрити вікно налаштувань кампанії, обраної в Дереві кампаній.
Копіювати кампанію - створити копію кампанії, обраної в Дереві кампаній.
Статистика кампанії - показати статистику останнього запуску кампанії, обраної в Дереві кампаній. Статистика містить кількість сторінок в дампі історії, кількість сторінок в дампі черзі, а також кількість спарсенних за останній запуск результатів.


Контекстне меню папки складається з наступних елементів:

Додати папку - додавання папки в папку, вибрану в Дереві кампаній.
Додати кампанію - створення нової кампанії в папці, вибраній у Дереві кампаній.
Видалити папку - видалення папки, обраної в Дереві кампаній.
Запустити всі кампанії - запуск всіх кампаній папки, обраної в Дереві кампаній.
Зупинити все кампанії - зупинка всіх кампаній папки, обраної в Дереві кампаній.
Пауза всіх кампаній - пауза всіх кампаній папки, обраної в Дереві кампаній.
Зняти з паузи все кампанії - зняття з паузи всіх кампаній папки, обраної в Дереві кампаній.
Імпорт кампанії - імпорт кампанії, збереженої на локальному комп'ютері в папку, вибрану в Дереві кампаній.

Faq по парсеру інформації datacol - все для різних движків і cms

У таблиці працюючих кампаній відображаються дані про працюючих в даний момент кампаніях:
Ім'я - ім'я кампанії.
Стан - поточний стан кампанії.
Історія - кількість сторінок в історії кампанії.
Черга - кількість сторінок в черзі кампанії.
Результати - кількість знайдених кампанією груп даних.
Потоки - кількість потоків кампанії.

Faq по парсеру інформації datacol - все для різних движків і cms


При натисканні правою кнопкою миші на будь-якої з кампаній таблиці з'являється контекстне меню. Воно містить такі елементи:

Faq по парсеру інформації datacol - все для різних движків і cms

В області показу новин і результатів ви можете знайти посилання на останні новини, що стосуються програми Datacol, а також групи даних, зібрані запущеними кампаніями в процесі роботи. Максимальна кількість результатів, що виводяться для тієї чи іншої кампанії задається в настройках кампанії. Не робіть це число занадто великим, оскільки це створить зайве навантаження на оперативну пам'ять.

Faq по парсеру інформації datacol - все для різних движків і cms

У рядку статусу відображається кількість споживаної програмою в даний момент оперативної пам'яті.

Ctrl + L - Оновити вміст дерева кампаній.
Ctrl + E - відкрити папку програми.
Ctrl + D - Відкрити параметри обраної кампанії.
Ctrl + Q - Згорнути дерево кампаній

Ctrl + Shift + D - Додати нове поле даних.
Ctrl + S - Зберегти всі налаштування (аналог кнопки Застосувати).
Ctrl + X - Зберегти всі налаштування і закрити вікна налаштувань (аналог кнопки Зберегти та вийти).
Ctrl + T - Тестувати відрегулювати вкладки (однієї з основних вкладок: Загальні, Завантаження, Навігація, Збір даних, Експорт).
Escape - Закрити вікно налаштувань без збереження.

Найчастіше нашим покупцям не вистачає базового функціоналу програми Datacol. У таких випадках для розширення можливостей програми на різних етапах роботи можна вдаватися до використання плагінів. Плагін - це DLL файл, переобумовленої (або доповнює) ту чи іншу функцію програми. Крім основного DLL файлу плагін зазвичай включає додаткові DLL, папки з додатковими файлами, а також конфігураційні файли (зазвичай у форматі TXT). Імпорт плагінів в програму описаний тут.

Datacol5 підтримує такі типи плагінів парсинга:

- плагін обробки початкових URL;
- плагін завантаження сторінки;
- плагін збору діапазонів з даними;
- плагін збору даних (або плагін обробки зібраних даних);
- плагін завантаження файлів;
- плагін збору посилань;
- плагін обробки даних перед експортом;
- плагін експорту.
- плагін закінчення процесу.

Datacol5 підтримує такі типи плагінів проксічекера:

- плагін завантаження джерела;
- плагін парсинга проксі;
- плагін перевірки проксі;
- плагін закінчення процесу.

Faq по парсеру інформації datacol - все для різних движків і cms


Функція обробника плагіна (pluginHandler) використовується для обробки будь-яких типів плагінів. В якості аргументів їй передається словник параметрів і строкова змінна помилки. Набір ключів і значень (а також типів значень) словника параметрів залежить від типу плагіна. В строкову змінну помилки повертається помилка роботи плагіна, якщо така сталася. Якщо помилки не відбулося, дана змінна повинна залишатися символом нового рядка.
Функція обробника плагіна повертає об'єкт, який може мати той чи інший тип, в залежності від типу плагіна. Для деяких типів плагінів повертається значення не актуальне.
Повний список параметрів різних типів плагінів можна знайти у вихідному коді заготовки. Там же наведені прості приклади їх використання. Зверніть увагу, що при описі функції обробника, не обов'язково використовувати всі доступні параметри.

Вікно налаштувань кампанії-парсинга ділиться на 5 основних блоків: Загальні, Завантаження, Навігація, Збір даних і Експорт.

Також вікно містить наступні кнопки:
Помічник - відкриває програму Selector, яка використовується для швидкого підбору Xpath і регулярних виразів.
Застосувати - зберігає всі настройки кампанії.
Зберегти і вийти - зберігає всі настройки кампанії і закриває вікно настройки.
Скасування - закриває вікно налаштування без збереження.
Назад (стрілка вліво) - переходить на попередню вкладку налаштування.
Далі (стрілка вправо) - переходить на наступну вкладку налаштування.

Faq по парсеру інформації datacol - все для різних движків і cms

Trust "style =" text-shadow: 0px 0px 1px # 000000; "href =" / 1650-vip-premium-dostup-k-servisu-freeproxyru.html "> [Vip] Преміум доступ до серви.

Trust "style =" text-shadow: 0px 0px 1px # 000000; "href =" / 1122-vip11-intellekt-kart-administrator-vkontakte-50-shablonov-dlya-oformleniya-postov-vkontakte.html "> [Vip] 11 інтелект-карт Адмін.

Trust "style =" text-shadow: 0px 0px 1px # 000000; "href =" / 336-invision-power-board-331-rus-nulled.html "> Invision Power Board 3.3.1 [.