第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Python計算PDF文件每頁上的每封電子郵件

Python計算PDF文件每頁上的每封電子郵件

慕斯709654 2023-12-12 15:08:14
我正在嘗試計算這個 1537 頁的 pdf 文件中包含 @twitter 或 @facebook 的每個字符串。我初始化了一個計數(shù)器,每當頁面找到 @twitter 或 @facebook 時,該計數(shù)器就會關(guān)閉,但計數(shù)器只是計算頁面數(shù)量,而不是包含 facebook 或 twitter 的電子郵件數(shù)量。我正在使用 python 3 并導入 pdftotext 來讀取文件。這是代碼import pdftotextcount = 0# 1 read the pdfwith open('Users.pdf', 'rb') as f:    pdf = pdftotext.PDF(f)# loop thru pagesfor page in pdf:    if '@facebook' in page or '@twitter' in page:        count += 1print(count)輸出:1537這是文件的頁數(shù)
查看完整描述

1 回答

?
哈士奇WWW

TA貢獻1799條經(jīng)驗 獲得超6個贊

您應該使用正則表達式匹配來實現(xiàn)您想要做的事情。

import pdftotext

import re


count = 0

# 1 read the pdf

with open('Users.pdf', 'rb') as f:

? ? pdf = pdftotext.PDF(f)


# regex pattern

pattern = '@facebook|@twitter'


# loop thru pages

for page in pdf:

? ? count += len(re.findall(pattern, page))


print(count)

要檢查并嘗試您的正則表達式模式,我推薦Regex101。



查看完整回答
反對 回復 2023-12-12
  • 1 回答
  • 0 關(guān)注
  • 149 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號