爬取4萬(wàn)多個(gè)淘寶模特信息進(jìn)行數(shù)據(jù)分析

標(biāo)簽：

Python

好久没有更新博客，国庆7天，宿舍就我一个人，人生真的寂寞如雪啊。
想起我之前看过一本数据分析的书，今天想来实战一下。之前由于误删了网络爬虫爬下来的数据，所以只能重新爬取一次了，不过这次就抓取点好玩的东西，爬取淘宝淘女郎的信息来做一个简单的数据分析。
先上爬虫代码：

#coding:utf-8import requestsimport osfrom multiprocessing.dummy import Pool as ThreadPoolimport timefrom bs4 import BeautifulSoupimport urllib2,urllibimport reclass MM:
    def __init__(self):
        self.baseurl='https://mm.taobao.com/json/request_top_list.htm?page='
        self.pool = ThreadPool(10)   #初始化线程池
        self.headers={'Accept-Language':'zh-CN,zh;q=0.8','User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36','Connection':'close','Referer': 'https://www.baidu.com/'}    def indexPage(self,index):
        indexpage=requests.get(self.baseurl+str(index),headers=self.headers)        return indexpage.content.decode('GBK')    def getAlldetail(self,index):
        indexpage=self.indexPage(index)
        p=re.compile(r'class="lady-avatar".*?<img class="lazyload" src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAADsQAAA7EAZUrDhsAAAANSURBVBhXYzh8+PB/AAffA0nNPuCLAAAAAElFTkSuQmCC" data-original="(.*?)".*?class="lady-name".*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
        alldetail=re.findall(p,indexpage)
        eachdetail=[]        for eachmm in alldetail:
            eachdetail.append(['http:'+eachmm[0],eachmm[1],eachmm[2]+'years old',eachmm[3]])        return eachdetail    def getImg(self,filename,imgaddr):
        f=open('mm/'+filename+'/'+filename+'.jpg','wb+')
        f.write(requests.get(imgaddr,headers=self.headers).content)
        f.close()    def getContent(self,filename,content):     
        with open('mm/'+filename+'/'+filename+'.txt','w+') as f:            for each in content:
                f.write((each.encode('utf-8'))+'\n')    def mkdir(self,path):
        path = path.strip()
        isExists=os.path.exists(path)        if not isExists:            # 如果不存在则创建目录
            print u"新建了名字叫做",path,u'的文件夹'
            # 创建目录操作函数
            os.makedirs(path)            return True                 
        else:       
            # 如果目录存在则不创建，并提示目录已存在
            print u"名为",path,'的文件夹已经创建'
            return False

    def savePageInfo(self,index):
        alldetail=self.getAlldetail(index)        for eachdetail in alldetail:
            self.mkdir('mm/'+eachdetail[1])       
            #self.mkdir('mm/')
            self.getImg(eachdetail[1],eachdetail[0])
            self.getContent(eachdetail[1],eachdetail[1:])    def start(self):
        while 1:            try:
                start=int(raw_input('开始查询的页数（整数）：'))
                end=int(raw_input('结束的页数（整数）：'))            except Exception,e:                print e            else:                break
        index=range(start,end+1)
        begin=time.time()        try:
            results = self.pool.map(self.savePageInfo,index)
            self.pool.close()
            self.pool.join()        except Exception as e:            print e            pass
        end=time.time()
        total=end-begin        print '总耗时：',totalif __name__=='__main__':
    mm=MM()
    mm.start()

运行后输入你要爬取的页面，就能把淘女郎的年龄，居住地，名字和照片给爬取下来。一共有4万多个淘女郎信息，你可以全部爬取下来做数据分析用。
我只爬了几十页，运行后截图：

1.png

随便打开一个目录，可以看到图片和信息。
由于代码是很久之前写的，当时并没有想到做

matplotlib这个中文不能显示这块有点恼火，它必须要指向一个可以显示中文的ttf文件才能显示中文，本脚本用的matplotlib是1.5版本的，如果是其他的版本可能会出现因为参数的不同而出错。

最后经过数据分析后的图片（以下是遍历了1到8页的信息后得到的图片，你们可以继续遍历......）

2016-10-08 19-38-09 的屏幕截图.png

2016-10-08 19-38-40 的屏幕截图.png

这是数据分析的一点点皮毛，深入之后再继续玩儿......
欢迎大牛指正.......

作者：adminlzzs
链接：https://www.jianshu.com/p/34493eab2a80

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫(xiě)下你的評(píng)論

評(píng)論加載中...

展開(kāi)查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

絕地?zé)o雙

手記
篇

粉絲

59

獲贊與收藏

328

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

Python 辦公自動(dòng)化教程

17個(gè)小節(jié) 26661 901

Python 算法入門(mén)教程

15個(gè)小節(jié) 28982 1116

Python 進(jìn)階應(yīng)用教程

38個(gè)小節(jié) 69418 1088

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫(xiě)下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說(shuō)多少就多少

贊賞金額會(huì)直接到老師賬戶(hù)

支付方式

打開(kāi)微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專(zhuān)欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶(hù)專(zhuān)享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專(zhuān)欄！

太棒了，直接落到你賬戶(hù)里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤(pán)、
Kindle 閱讀器、小米平衡車(chē)
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購(gòu)買(mǎi)實(shí)戰(zhàn)課、體系課
無(wú)門(mén)檻使用

先去看看，有什么好東西馬上兌換


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

爬取4萬(wàn)多個(gè)淘寶模特信息進(jìn)行數(shù)據(jù)分析

閱讀免費(fèi)教程