Skip to content

Um script para resgatar as revisões de usuários sobre determinado produto

License

Notifications You must be signed in to change notification settings

serbarbosa/reviewCrawler

Repository files navigation

reviewCrawler

Um script para resgatar revisões de usuários sobre determinado produto utilizando Scrapy.

Até o momento, as revisões são obtidas apenas do site buscapé. Basicamente recebe-se o produto pelo qual se quer buscar e são extraídas as revisões do primeiro resultado do Buscapé.

O objetivo é usar o link do primeiro resultado para acessar também as outras lojas que vendem o mesmo produto (americanas, submarino, magazine luiza) e aumentar a base de revisões do produto buscado.


Execução

É necessário ter o framework Scrapy para executar o crawler. Convenientemente o diretório desse README já possui um ambiente virtual com o Scrapy. Para ativá-lo basta usar o comando:

source .venv/bin/activate

Então, para rodar o script pode-se optar por usar o Makefile ou scrapy crawl lembrando sempre de setar o parâmetro search. Exemplo usando o Makefile (verificar arquivo Makefile para mais opções):

make csv search='brastemp ative'

Exemplo usando direto o Scrapy (não vai gerar csv):

scrapy crawl buscape_crawler -a search='brastemp ative'

Saída

As revisões encontradas serão sempre escritas em arquivos .txt individuais no diretório reviewsFiles. Note que os arquivos não são apagados a cada execução, apenas sobrescritos e, portanto, podem sobrar arquivos da execução anterior.

É possível ainda obter os resultados em arquivos .csv, .json ou qualquer outro formato suportado pelo Scrapy bastando apenas adicionar a tag correspondente na execução. Diferentemente dos arquivos .txt, essa saída mostrará mais dados, como a data da revisão, uma avaliação de 1 a 5 estrelas e se o usuário recomenda ou não o produto.

About

Um script para resgatar as revisões de usuários sobre determinado produto

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published