View on GitHub

awesome_crawl

腾讯新闻、知乎话题、微博粉丝，Tumblr爬虫、斗鱼弹幕、妹子图爬虫、分布式设计等

爬虫	说明	技术栈
腾讯新闻	采集所有腾讯新闻的链接和新闻详情	scrapy,mongo,redis
知乎话题	从话题广场出发，先采集子话题ID，再采集ID下所有问题	scrapy,mongo,redis
微博粉丝	采集大V的所有粉丝	scrapy,mongo,redis
Tumblr爬虫	下载指定Tumblr博主的资源	requests,concurrent
妹子图爬虫	go语言下载妹子图	goroutine,goquery
全站爬虫	分布式全站爬虫——以”搜狗电视剧”为例	scrapy,redis，分布式

如果能帮助你，那就最好了。欢迎关注公众号：