Skip to content

Latest commit

 

History

History
45 lines (44 loc) · 3.81 KB

File metadata and controls

45 lines (44 loc) · 3.81 KB

img

Web Scraping em Python

Desenvolvido para o PET-Redação do Programa de Educação Tutorial (PET) da UFSM, que se encontra aqui. Este arquivo usa os sites iniciais da UFSM, encontrados aqui e aqui e tem por objetivo um estudo básico de Web Scraping em Python. ✨

📋 Requerimentos

Ter instalado o Python 3 e as bibliotecas Requests, BeautifulSoup e Pandas e a ferramenta Selenium.

🔧 Instalando no Windows

  1. Python 3: baixe o instalador e siga as instruções;
  2. Bibliotecas:
    • Requests: $ python -m pip install requests
    • BeautifulSoup 4: $ python -m pip install beautifulsoup4
    • Pandas: $ python -m pip install pandas
  3. Selenium: $ python -m pip install selenium

🔧 Instalando no Linux

  1. Python 3: $ sudo apt-get install python3
  2. Bibliotecas:
    • Requests: $ sudo pip3 install requests
    • BeautifulSoup 4: $ sudo pip3 install beautifulsoup4
    • Pandas: $ sudo pip3 install pandas
  3. Selenium: $ sudo pip3 install selenium

Observação: note que você vai precisar do gerenciador de pacotes pip.
Se você não tiver, use o comando $ sudo apt-get install python3-pip

✔️ Como Executar

No cmd/terminal, abra o diretório onde o arquivo se encontra e use o comando: $ python nome_arquivo.py.

Os arquivos a serem executados podem ser:

📝 Composição

Este repositório é composto pelos seguintes arquivos:

Arquivo Descrição
WebScraper-EventsUFSM.py Arquivo principal que para buscar os eventos
WebScraper-BusSchedule.py Arquivo principal que busca os horários dos ônibus
ExampleClick.py Exemplo de uma simulação de click.
GetSoup.py Arquivo com função auxiliar para buscar o soup.
SearchEvent.py Arquivo com função auxiliar para buscar os eventos.
Horarios.json Arquivo gerado através do código executado.

📌 ExampleClick.py e o Driver

Para executar o arquivo ExampleClick.py você deve ter o driver do navegador que for utilizar. Por padrão, está definido o do Chrome, na linha 13 (driver = webdriver.Chrome(options=option)), com a sua importação sendo feita na linha 3 (from selenium.webdriver.chrome.options import Options). Pode-se substituir pelos drivers do Firefox, Edge, etc., devendo ser alteradas essas linhas de acordo, mas ainda será necessário o driver.

🔎 Funcionamento do Código

Acesse a redação para mais detalhes. Bons estudos! ✨