Web Scraper avec Streamlit

Ce projet est un web scraper construit avec Streamlit, une bibliothèque Python pour créer des applications web rapidement. Il permet d'extraire le texte de n'importe quelle page web et de ses sous-pages, puis de convertir le contenu HTML en Markdown pour un affichage facile à lire.

Fonctionnalités

Extraction du texte de n'importe quelle page web et de ses sous-pages.
Conversion du contenu HTML en Markdown pour un affichage facile à lire.
Exploration récursive des sous-pages d'une URL donnée.
Affichage du contenu Markdown extrait dans un format lisible.
Affichage d'un sommaire des URL visitées dans un volet déroulant.

Installation

Clonez ce dépôt sur votre machine locale.
Installez les dépendances en exécutant pip install -r requirements.txt dans votre terminal.
Exécutez l'application en tapant streamlit run app.py dans votre terminal.

Utilisation

Entrez l'URL de la page web dont vous voulez extraire le texte dans le champ de saisie.
L'application extrait le texte de l'URL principale et de toutes ses sous-URLs, et convertit le contenu HTML en Markdown.
Le contenu Markdown extrait est affiché dans un format facile à lire.
Un sommaire des URL visitées est affiché dans un volet déroulant.
Tout le contenu extrait est affiché dans un volet déroulant.

Dépendances

streamlit
requests
beautifulsoup4
html2text

Auteur

[Matt Pasquier]

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Web Scraper avec Streamlit

Fonctionnalités

Installation

Utilisation

Dépendances

Auteur

Files

README.md

Latest commit

History

README.md

File metadata and controls

Web Scraper avec Streamlit

Fonctionnalités

Installation

Utilisation

Dépendances

Auteur