第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

新浪微博爬蟲(chóng)分享(一天可抓取 1300 萬(wàn)條數(shù)據(jù))

標(biāo)簽:
Python

代码请移步GitHub:SinaSpider



爬虫功能:

  • 此项目和QQ空间爬虫类似,主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注(详细见此)。

  • 代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒(用来登录的账号可从淘宝购买,一块钱七个)。

  • 项目爬的是新浪微博wap站,结构简单,速度应该会比较快,而且反扒没那么强,缺点是信息量会稍微缺少一些(可见爬虫福利:如何爬wap站)。

  • 爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况,我使用的是校园网(广工大学城校区),普通的家庭网络可能才一半的速度,甚至都不到。




环境、架构:

开发语言:Python2.7
开发环境:64位Windows8系统,4G内存,i7-3612QM处理器。
数据库:MongoDB 3.2.0
(Python编辑器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)

  • 主要使用 scrapy 爬虫框架。

  • 下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中。

  • start_requests 中根据用户ID启动四个Request,同时对个人信息、微博、关注和粉丝进行爬取。

  • 将新爬下来的关注和粉丝ID加入到待爬队列(先去重)。




使用说明:

启动前配置:

  • MongoDB安装好 能启动即可,不需要配置。

  • Python需要安装好scrapy(64位的Python尽量使用64位的依赖模块)

  • 另外用到的python模块还有:pymongo、json、base64、requests。

  • 将你用来登录的微博账号和密码加入到 cookies.py 文件中,里面已经有两个账号作为格式参考了。

  • 另外一些scrapy的设置(如间隔时间、日志级别、Request线程数等)可自行在setting里面调。




运行截图:

新浪微博爬虫程序

新浪微博爬虫数据




数据库说明:

SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。
数据库设置 Information、Tweets、Follows、Fans四张表,此处仅介绍前面两张表的字段。

Information 表:
 _id:采用 “用户ID” 作为唯一标识。
 Birthday:出生日期。
 City:所在城市。
 Gender:性别。
 Marriage:婚姻状况。
 NickName:微博昵称。
 Num_Fans:粉丝数量。
 Num_Follows:关注数量。
 Num_Tweets:已发微博数量。
 Province:所在省份。
 Signature:个性签名。
 URL:微博的个人首页。



Tweets 表:
 _id:采用 “用户ID-微博ID” 的形式作为一条微博的唯一标识。
 Co_oridinates:发微博时的定位坐标(经纬度),调用地图API可直接查看具体方位,可识别到在哪一栋楼。
 Comment:微博被评论的数量。
 Content:微博的内容。
 ID:用户ID。
 Like:微博被点赞的数量。
 PubTime:微博发表时间。
 Tools:发微博的工具(手机类型或者平台)
 Transfer:微博被转发的数量。




转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/50903178

點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評(píng)論
  • 收藏
  • 共同學(xué)習(xí),寫(xiě)下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說(shuō)多少就多少
贊賞金額會(huì)直接到老師賬戶(hù)
支付方式
打開(kāi)微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專(zhuān)欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消