需求

抓取新浪微博的热门微博,在这些热门微博下,提取发表评论的人、他们发的评论、他们自己发的微博,把这些信息存储在不同的 csv 文件中,方便后续机器学习。

需求分析及实现

客户指明要求使用 scrapy 进行抓取,在实现时,第一个要解决的问题就是新浪微博的很多信息需要登录后才能查看,所以第一步就是登陆,获取到 cookies 信息。为了处理上的简单,使用移动版微博页面,而不是 pc 版的,数据提取时要方便很多。

下面是代码结构:

完成时间

2017/5/7 耗时大概 3 天。