Кілька слів про Beautiful Soup

В певний момент мені довелося пошукати простенький модуль для парсингу та обробки XML/HTML. Можна було використати регулярні вирази, але ні бажання, ні часу не було розбиратися з ними. Після двадцяти хвилин пошуку натрапив на модуль Beautiful Soup, який фактично і створений для функції парсингу та обробки HTML/XML. Почитавши документацію він мене підкупив своєю простотою і зручністю.

У Beaurtiful Soup дуже зручно організований пошук посилань, класів, тегів і т.д… Фактично, можна з легкістю йому наказати шукати всі посилання у спарсеному документі або лише посилань, які мають клас externalLink, або змусити його показувати лише посилання, що посилаються на конкретний сайт тощо. На цьому його функції не обмежуються. Завдяки багатій документації можна знайти вирішення фактично любої потреби. Встановлення та кілька найпростіших прикладів — під катом.


( Читати далі )
  • +7
  • 19 лютого 2010, 20:14
  • theasus
  • 4