парсинг даних

Досить багато є задач, при яких потрібно зібрати всі внутрішні наприклад посилання зі сторінки, або взагалі все. Так ось в цій статті ми про це і поговоримо, вже багато пройшли статей по парсингу і сенс тут не зміниться, все теже компоненти, все таже наша функція парсинга сторінок, тут нам необхідно тільки додати те, щоб у нас збиралися всі посилання, а не перша ліпше. Для цього я вирішив використовувати мітки, самому навіть смішно, мітки;))). Ну це справа поправимо, ми можемо і цикл використовувати, тут як то кажуть на смак і колір товаришів немає. Звичайно з регулярними виразами тут все просто, але я до них поки що не дійшов. Так що пробуємо і робимо поки, що як вміємо.

Повторюся щодо компонентів, які нам необхідні

Начебто все компоненти перерахував. Отже приступимо до нашої роботи.

Як завжди отримуємо текст нашої html-сторінки, для подальшого парсинга

Готово, відмінно продовжимо, тепер я хочу сказати, що з точки зору валідатора посилання тега полягають в «подвійні лапки«, але є сайти, які і в одинарні роблять висновок, тому тут не вгадаєш і ми будемо виводити посилання, що знаходяться в лапках. Потім цю справу можна вдосконалити і поудалять зайве. В кінцевому підсумку ось що у мене вийшло

Як бачите є додатковий цикл, який чистить наш тег, від непотрібних параметрів. Загалом можна сміливо писати програму зі збору посилань і поступово вдосконалити її. Вихідні тексти стати скачати можна тут

Схожі записи

Схожі статті