寫(xiě)文章

首頁(yè) 手記利用 Python +...

利用 Python + Selenium實(shí)現(xiàn)爬蟲(chóng)抓取表格數(shù)據(jù)（二）簡(jiǎn)介

標(biāo)簽：

Python 爬蟲(chóng)

简介

距离上一次写爬虫的blog已经是一个月前了，那么今天我们接着往下写如何利用爬虫抓取表格数据并保存到excel中，这一次我换了一个内部写的Sample接下来看实现细节部分。

实现细节

还是在原来的login.py 文件中引入pandas 分析结构化数据的工具集

import pandas as pd

from openpyxl import load_workbook

引入之后我们就可以根据上一篇中利用 Python + Selenium实现爬虫模拟登录（一）中登录

self.browser.find_element_by_name('commit').click() # 登录

time.sleep(1) #

登录成功之后真的成功的页面进行节点解析，模拟打开左边侧栏的层级

# 定位到第一层级

span_tags = self.browser.find_elements_by_xpath('//span[text()="用户"]')

span_tags[0].click()

# 打开微信用户页面

a_tags = self.browser.find_elements_by_xpath('//a[@href="/admin/wxusers"]')

a_tags[0].click()

通过上方的代码，我们就把侧边栏的内容彻展开并打开了页面，接下来最重要的代码来了由于本次所写的内部Sample不是前后端分离的就需要获取页面当中的页数，通过一下代码进行获取总页数：

b_tags = self.browser.find_element_by_class_name('pagination.page.width-auto').find_elements_by_tag_name('b')

pageSize = int(b_tags[1].text)

获取页数之后就需要对我们的页面进行一个for循环：

row = 10 # 记录每次写入Excel的行数

for i in range(pageSize):

循环的里边进行定位表格并获取表格的内容

lst = [] # 将表格的内容存储为list

element = self.browser.find_element_by_tag_name('tbody') # 定位表格

# 提取表格内容td

tr_tags = element.find_elements_by_tag_name("tr") # 进一步定位到表格内容所在的tr节点

for tr in tr_tags:

td_tags = tr.find_elements_by_tag_name('td')

for td in td_tags[:4]: #只提取前4列

lst.append(td.text) #不断抓取的内容新增到list当中

提取到第一页的内容之后，将内容进行分割并连续保存到Excel当中

# 确定表格列数

col = 4

# 通过定位一行td的数量，可获得表格的列数，然后将list拆分为对应列数的子list

lst = [lst[i:i + col] for i in range(0, len(lst), col)]

# list转为dataframe

df = pd.DataFrame(lst) # 列表数据转为数据框

#等于1 表示当前是第一条数据，直接省成Excel

if i == 0:

df.to_excel('demo.xlsx', sheet_name='sheet_1', index=False,header=False)

#在现有的文件当中新增内容并保存

book = load_workbook('demo.xlsx')

writer = pd.ExcelWriter('demo.xlsx', engine='openpyxl')

writer.book = book

writer.sheets = dict((ws.title, ws) for ws in book.worksheets)

df.to_excel(writer, sheet_name='sheet_1', index=False,startrow=row,header=False)

writer.save()

time.sleep(1) # 停顿一秒是以防把本地的Sample并发过高

row = row + 10 # 记录存储Excel的行数

内容保存之后点击下页，如此类推直到循环停止我们的数据也就抓取完成的

# 点击下一页

self.browser.find_element_by_class_name('next').click()

验证并进行测试

以上是本次所抓取保存下来的内容。目前第二篇我并没有录制视频，希望小伙伴自行验证，但可以保证的就是这些都是本人亲测通过的代码。

作者：qingwenLi

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫(xiě)下你的評(píng)論

評(píng)論加載中...

展開(kāi)查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

慕的地6264312

手記
篇

粉絲

16

獲贊與收藏

56

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

Python 辦公自動(dòng)化教程

17個(gè)小節(jié) 26988 912

Python 算法入門(mén)教程

15個(gè)小節(jié) 29441 1131

Python 進(jìn)階應(yīng)用教程

38個(gè)小節(jié) 71026 1107

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫(xiě)下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說(shuō)多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開(kāi)微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤(pán)、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購(gòu)買實(shí)戰(zhàn)課、體系課
無(wú)門(mén)檻使用

先去看看，有什么好東西馬上兌換


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

利用 Python + Selenium實(shí)現(xiàn)爬蟲(chóng)抓取表格數(shù)據(jù)（二） 簡(jiǎn)介

简介

实现细节

验证并进行测试

閱讀免費(fèi)教程

利用 Python + Selenium實(shí)現(xiàn)爬蟲(chóng)抓取表格數(shù)據(jù)（二）簡(jiǎn)介