Обрізання веб-сайтів за допомогою Python та BeautifulSoup - поради щодо Semalt

В Інтернеті є більш ніж достатньо інформації про те, як правильно чистити веб-сайти та блоги. Нам потрібен не просто доступ до цих даних, а масштабовані способи їх збирання, аналізу та організації. Python та BeautifulSoup - це два чудові інструменти для скребкування веб-сайтів та вилучення даних. При веб-вискоблюванні дані можна легко витягти та подати у потрібному форматі. Якщо ви є завзятим інвестором, який цінує свій час і гроші, вам обов'язково потрібно прискорити процес скребки в Інтернеті та зробити його максимально оптимізованим.

Починаємо

Ми будемо використовувати як Python, так і BeautifulSoup в якості основної мови вискоблювання.

  • 1. Для користувачів Mac, Python попередньо встановлений в ОС X. Вони просто повинні відкрити Terminal і набрати python –версія . Таким чином вони зможуть побачити версію Python 2.7.
  • 2. Для користувачів Windows рекомендуємо встановити Python через його офіційний сайт.
  • 3. Далі вам потрібно отримати доступ до бібліотеки BeautifulSoup за допомогою pip. Цей інструмент управління пакетами був створений спеціально для Python.

У терміналі потрібно вставити такий код:

easy_install pip

піп встановити BeautifulSoup4

Правила скребки:

Основні правила вискоблювання, про які слід подбати:

  • 1. Ви повинні перевірити Правила та положення сайту, перш ніж розпочати його виведення. Тож будьте дуже обережні!
  • 2. Не слід запитувати дані з сайтів занадто агресивно. Переконайтеся, що інструмент, який ви використовуєте, поводиться розумно. В іншому випадку ви можете зламати сайт.
  • 3. Один запит в секунду - це правильна практика.
  • 4. Макет блогу чи сайту можна змінити будь-коли, і вам, можливо, доведеться переглянути цей сайт і переписати власний код, коли це буде потрібно.

Огляньте сторінку

Наведіть курсор на сторінку Ціна, щоб зрозуміти, що потрібно зробити. Прочитайте текст, що стосується як HTML, так і Python, а з результатів ви побачите ціни всередині тегів HTML.

Експорт до CSV Excel

Після вилучення даних наступним кроком є збереження їх у режимі офлайн. Формат розділеного кома Excel - найкращий вибір у цьому плані, і ви можете легко відкрити його на своєму листі Excel. Але спочатку вам доведеться імпортувати модулі CSV Python та модулі дати, щоб правильно записати свої дані. У розділ імпорту можна вставити такий код:

імпорт csv

від імпорту datetime до дати

Передові методи вискоблювання

BeautifulSoup - це один з найпростіших та всеосяжних інструментів для скребкування веб-сторінок. Однак якщо вам потрібно зібрати великі обсяги даних, розгляньте деякі інші варіанти:

  • 1. Скрапія - це потужна і дивовижна рамка вискоблювання пітона.
  • 2. Ви також можете інтегрувати код із загальнодоступним API. Ефективність ваших даних буде важливою. Наприклад, ви можете спробувати API Graph Graph, який допомагає приховати дані та не відображати їх на сторінках Facebook.
  • 3. Крім того, ви можете використовувати резервні програми, такі як MySQL, і зберігати дані у великій кількості з великою точністю.
  • 4. DRY означає «Не повторюй себе», і ви можете спробувати автоматизувати звичайні завдання, використовуючи цю техніку.

mass gmail