DJH-Spider jasonhaven 1.入门 day1 爬虫原理 robots.txt sitemap.xml python 库:urllib,urllib2,requests,beautifulsoup,lxml,selenium,phantomjs,scrapy等等 基本爬取过程 cookie使用 get方式和post方式 爬取csdn 正则表达式的使用 day2 爬取糗事百科 day3 爬取百度贴吧 day4 爬取淘宝MM