Skip to content

Repositório destinado a uma prova de conceito para exemplificar o uso do scrapy para percorrer sites como G1 e CNN em busca de links de notícias com suas respectivas datas de publicações.

Notifications You must be signed in to change notification settings

luissiqueira/scrapy-notices

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

scrapy-notices

Repositório destinado a uma prova de conceito para exemplificar o uso do scrapy para percorrer sites como G1 e CNN em busca de links de notícias com suas respectivas datas de publicações.

Modo de usar

Instalar os requerimentos.

$ pip install -r requirements.txt

Para executar o exemplo do G1:

$ scrapy runspider globo_crawler.py -o globo_items.json

Para executar o exemplo da CNN:

$ scrapy runspider cnn_crawler.py -o cnn_items.json

Retornos

Os itens retornados seguirão a seguinte estrutura.

  {
    "title": "Bolsonaro segue na UTI e tem boas condições clínicas, diz boletim médico",
    "url": "https://g1.globo.com/sp/sao-paulo/noticia/2018/09/08/bolsonaro-segue-na-uti-e-em-boas-condicoes-clinicas-diz-boletim-medico.ghtml",
    "publish_date": "2018-09-08T13:42:15.277Z"
  }

Limitações

Por se tratar de um projeto para prova de conceito, algumas funcionalidades não foram implementadas como a passagem de parâmetros para início de busca dos links.

About

Repositório destinado a uma prova de conceito para exemplificar o uso do scrapy para percorrer sites como G1 e CNN em busca de links de notícias com suas respectivas datas de publicações.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages