Skip to content

Lick1Fonzi/BriteUp

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

gi_progetto

Progetto di gestione dell'informazione, sviluppato in cooperazione con Nicholas Lo Piccolo. Unimore FIM, anno accademico: 2021/2022

Web crawlers construction python:

  • Scrapy framework
  • BeautifulSoup

Installazione ed esecuzione

pip3 install -r requirements.txt

python
>>import nltk
>>nltk.download('book')
>>nltk.download('stopwords')
>>nltk.download('omw-1.4')
>>exit()

cd src
python3 main.py

Esecuzione Crawling

mkdir Docs

Al primo avvio, selezionare la voce del menu webcrawling, dare un minimo di 300 come limite e lasciare calcolare ( almeno 10 min )

Esecuzione benchmark

cancella cartella Docs, rinomina cartella Docs_benchmark in Docs esegui main.py

About

Gestione dell'informazione project Unimore FIM

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages