Універсальний граббер контенту

Я тут заморочили і написав універсальний граббер контенту. Він працює прямо в браузері і вміє тягнути картинки, посилання і RSS. Детально про цей інструмент я напишу далі.

Граббер - це програма, яка вміє збирати дані з якогось зовнішнього ресурсу. Буває, наприклад, граббер екрану. Це коли програма захоплює те, що виводиться на екран (ваш або чийсь). В інтернеті часто застосовуються грабери контенту.

Зазвичай грабери застосовують для невеликих завдань. Наприклад можна отримати прогноз погоди.

Іноді грабери застосовуються для додаткового наповнення сайту. А іноді - навіть для основного. Наприклад, цей сайт майже повністю складається з граббер. Граббери збирають дані з твіттера, LastFM і Fromspring.me, оформляють їх як потрібно і виводять як частина контенту сайту.

Іноді грабери використовуються для. скажемо, не дуже красивих вчинків. Наприклад, можна написати граббер, який затягне у конкурента (або декількох) дані і дбайливо складе їх у вашу базу даних, звідки їх можна буде вже брати для власних потреб. Іноді така поведінка некрасиво, а іноді - дуже навіть корисно. Наприклад, Яндекс.Маркет побудований саме на основі граббер. Правда, власники магазинів самі підключаються до цієї системи, а не навпаки. Але те, що власники все ж, підключаються, показує що сервіс корисний та їм в тому числі.

Але в сторону лірику! Ось є граббер. навіщо він? Що з ним можна робити?

Збір колекції картинок

Більш того, він покаже вам їх і дасть скачати. А якщо ви ледар, можете просто зберегти сторінку грабер і знайти в доданому папці всі зображення, які були на сторінці в момент збереження.

Більш того, зазвичай, коли постять великі набори картинок, які лінь або незручно зберігати руками, вони мають схожі імена. І ви можете скористатися фільтром результату щоб залишити тільки ті зображення, які вам потрібні.

Збір колекції посилань

Уявіть що ви знайшли галерею зображень де все картинки маленькі. Це лише превью. Потрібно клікнути на кожну щоб відкрилося повнорозмірне зображення. Такі галереї не рідкість в інтернеті і завантажувати їх цілком незручно.

За допомогою грабер ви можете вдатися до трюку.

  • Знайдіть всі посилання на зображення зі сторінки галереї
  • Відфільтруйте їх так, щоб залишилися тільки посилання на повнорозмірні зображення
  • Виберіть режим src
  • натисніть показати

Тепер грабер візьме посилання з вікна результату і відобразить їх в області просмтра не як посилання, а як зображення! Шукали посилання - відобразили картинки. Зручно!

граббер RSS

Що таке RSS я вже писав. Якщо ви цього ще не знаєте - цілий пласт інтернету вислизнув від вас. RSS сильно стандартизований формат, тому грабувати і парсити його дуже легко. Це я і зробив у своєму чудо-граббер.

Я обмежив переключення з формату RSS на формат src. Якщо ви спробуєте вивести посилання як зображення - у вас нічого не вийде все одно. Якщо потрібний вам RSS містить картинки - спробуйте грабувати сам RSS, але в режимі src. Якщо в стрічці є зображення - ви їх отримаєте.

Зараз я розповім як ще можна використовувати чудо-граббер. Одну з хитрощів я вам уже розповів. Ви можете шукати посилання, а відображати картинки. Звичайно, якщо ви знайшли дійсно посилання на зображення, а не на html-файли.

Також, ви можете зібрати посилання на зображення замість самих зображень. Це теж може бути корисно якщо ви не хочете завантажувати всі ці зображення зараз.

Деякі нехороші (або хороші?) Адміни закривають доступ до різних сайтах і ви не можете до них пробитися. Але іноді дуже хочеться. Наприклад, почуття ЖЖ друзів або почитати башорг.

Якщо вас цікавлять css-файли - виконайте те ж, але для режиму href з фільтром по "css".

У фільтрів мало налаштувань

А ось і ні! Справа в тому, що фільтри підтримують справжнісінькі регулярні вирази! Якщо ви знаєте що це таке - ви вже зрозуміли що фільтрувати можна дуже потужно. Якщо немає - покажу на прикладах.

(Jpe? G | png | bmp | gif) - прибере або залишить рядки, які містять підрядка "jpeg, jpg, png, bmp, gif". Одну або кілька одразу.

(Jpe? G | png | bmp | gif) $ - прибере або залишить рядки, які закінчуються на ці ж подстроки

Уже цього часто досить.

Отримати всі зовнішні посилання

В налаштуваннях грабер є чекбокс "тільки для цього домену". А що робити якщо хочеться отримати посилання тільки не на цей домен?

Потрібно знайти всі посилання, а потім відфільтрувати за назвою домену.

Сподіваюся тепер стало зрозуміліше як і навіщо можна використовувати чудо-граббер. Всі ваші побажання і пропозиції можете відправити мені. А якщо вам сподобалося - можете замовити у мене щось подібне.