Beautiful Soup

Beautiful Soup (littéralement « Belle Soupe ») est une bibliothèque Python d'analyse syntaxique de documents HTML et XML créée par Leonard Richardson.

Beautiful Soup

Informations
Développé par Leonard Richardson
Dernière version 4.9.1 ()
Dépôt code.launchpad.net/beautifulsoup
Écrit en Python
Environnement Python
Type Bibliothèque d'analyse syntaxique
Licence Python Software Foundation License
Documentation www.crummy.com/software/BeautifulSoup/bs4/doc
Site web http://www.crummy.com/software/BeautifulSoup/

Elle produit un arbre syntaxique qui peut être utilisé pour chercher des éléments ou les modifier. Lorsque le document HTML ou XML est mal formé (par exemple s'il manque des balises fermantes), Beautiful Soup propose une approche à base d'heuristiques afin de reconstituer l'arbre syntaxique sans générer d'erreurs. Cette approche est aussi utilisée par les navigateurs web modernes.

Elle est disponible pour Python 2.7 et Python 3.

Exemple d'utilisation

# Python 2
# Extraction des liens d'une page web
from bs4 import BeautifulSoup
import urllib.request

webpage = urllib.request.urlopen('http://en.wikipedia.org/wiki/Main_Page')
soup = BeautifulSoup(webpage, 'html.parser')
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))
# Python 3
# Extraction des liens d'une page web
from bs4 import BeautifulSoup
import urllib.request

with urllib.request.urlopen('https://en.wikipedia.org/wiki/Main_Page') as response:
    webpage = response.read()
    soup = BeautifulSoup(webpage, 'html.parser')
    for anchor in soup.find_all('a'):
        print(anchor.get('href', '/'))

Liens externes

  • Portail de la programmation informatique
  • Portail d’Internet
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.