View on GitHub

awesome_crawl

腾讯新闻、知乎话题、微博粉丝,Tumblr爬虫、斗鱼弹幕、妹子图爬虫、分布式设计等

知乎所有问题

话题广场出发,先采集所有知乎的子话题,如

解析之后把所有的话题ID保存到redis中,再新建爬虫去采集该话题下所有的问题(这部分基本完工,但是还没测试过)。