В певний момент мені довелося пошукати простенький модуль для парсингу та обробки XML/HTML. Можна було використати , але ні бажання, ні часу не було розбиратися з ними. Після двадцяти хвилин пошуку натрапив на модуль , який фактично і створений для функції парсингу та обробки HTML/XML. Почитавши документацію він мене підкупив своєю простотою і зручністю.
У Beaurtiful Soup дуже зручно організований пошук посилань, класів, тегів і т.д… Фактично, можна з легкістю йому наказати шукати всі посилання у спарсеному документі або лише посилань, які мають клас externalLink, або змусити його показувати лише посилання, що посилаються на конкретний сайт тощо. На цьому його функції не обмежуються. Завдяки багатій документації можна знайти вирішення фактично любої потреби. Встановлення та кілька найпростіших прикладів — під катом.
Встановлення
Починаючи з версії 3.8, встановлення Beautiful Soupe значно спростилося. Достатньо скачати сам модуль, розпакувати його, зайти в каталог з терміналу та ввести: sudo python ./setup.py install
Фактично через кілька секунд встановлення завершиться.
Кілька прикладів
Як я згадував вище, Beautiful Soup має багату , і хоч вона англійською мовою, з прикладів все стає зрозумілим у разі поганого знання англійської.
Найпростіший приклад викорситання Beautiful Soup.
Отже, ми маємо спарсений документ, і нам потрібно отримати лише контент, який знаходиться між тегом . Для цього достатньо кількох рядків коду:
я колись цікавився питанням, висвітленим у цьому пості, і мені на Stack Overflow як один із варіантів запропонували аналог для Ruby т.з. . оскільки я з Ruby ніколи не працював, то можу хіба сам повторно проделегувати цей лінк сюди :)
і якшо когось ше зацікавить, то є аналоги: для Java, для C++ і для XSLT. знову ж таки, не перевіряв
Коментарі (4)
RSS згорнути / розгорнутиlemon
і якшо когось ше зацікавить, то є аналоги: для Java, для C++ і для XSLT. знову ж таки, не перевіряв
cyba
lemon
Він на easy install також є
sandric
Тільки зареєстровані й авторизовані користувачі можуть залишати коментарі.