Skip to content

Latest commit

 

History

History
24 lines (21 loc) · 383 Bytes

README.md

File metadata and controls

24 lines (21 loc) · 383 Bytes

DJH-Spider


jasonhaven


1.入门

day1

  • 爬虫原理
  • robots.txt
  • sitemap.xml
  • python 库:urllib,urllib2,requests,beautifulsoup,lxml,selenium,phantomjs,scrapy等等
  • 基本爬取过程
  • cookie使用
  • get方式和post方式
  • 爬取csdn
  • 正则表达式的使用

day2

  • 爬取糗事百科

day3

  • 爬取百度贴吧

day4

  • 爬取淘宝MM