Skip to content

sicklife/spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

#豆瓣书评爬虫

这个爬虫,是按照时间顺序爬取书评,每次爬取5篇

每次爬取5篇,通过setting.py中的CLOSESPIDER_ITMECOUNT设定

basicspider来写。

##遇到的错误合集

  1. 页面会request两遍。因为在url最后少加了一个\,导致会多一次跳转

  2. 遇到404页面爬虫会终止。在spider中添加了handle_httpstatus_list=[404]

  3. Spider must return Request, BaseItem, dict or None错误的使用yeild做最后的itme返回。

About

This is a douban book review spider, using scrapy.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages