Repositório destinado a uma prova de conceito para exemplificar o uso do scrapy para percorrer sites como G1 e CNN em busca de links de notícias com suas respectivas datas de publicações.
Instalar os requerimentos.
$ pip install -r requirements.txt
Para executar o exemplo do G1:
$ scrapy runspider globo_crawler.py -o globo_items.json
Para executar o exemplo da CNN:
$ scrapy runspider cnn_crawler.py -o cnn_items.json
Os itens retornados seguirão a seguinte estrutura.
{
"title": "Bolsonaro segue na UTI e tem boas condições clínicas, diz boletim médico",
"url": "https://g1.globo.com/sp/sao-paulo/noticia/2018/09/08/bolsonaro-segue-na-uti-e-em-boas-condicoes-clinicas-diz-boletim-medico.ghtml",
"publish_date": "2018-09-08T13:42:15.277Z"
}
Por se tratar de um projeto para prova de conceito, algumas funcionalidades não foram implementadas como a passagem de parâmetros para início de busca dos links.