baiduSpider

百科类网站爬虫

百科类网站全站词条抓取，包括百度百科、互动百科、wiki中英文站点；
支持断点续爬；
支持缓存百科词条页面；
可分布式部署；
经过单机测试，在i5-7400 内存8G 20M网络带宽下，百度百科词条一天可以抓取大概30w条(默认系统配置下)；互动百科测试结果类似，wiki网站抓取数据量较少，受到配置的代理延迟影响较大；

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
encyclopediaCrawler		encyclopediaCrawler
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
initialize_db.py		initialize_db.py
initialize_tasks_seeds.py		initialize_tasks_seeds.py
requirement.txt		requirement.txt
scrapy.cfg		scrapy.cfg
seeds_for_zh.txt		seeds_for_zh.txt
start_spiders.py		start_spiders.py