首頁猿問如何在 python 中返回從多個(gè)...

如何在 python 中返回從多個(gè) PDF 中提取的所有文本？

Python

嗶嗶one 2023-03-16 09:50:25

這是我的代碼。到目前為止，它會(huì)將 pdf 的所有內(nèi)容打印到 pages 變量。但是，我似乎無法返回相同的提取文本。我一直在通過從隨機(jī) pdf 中提取信息并將其放在我正在調(diào)用的文件夾中來測試它。如何讓它以與打印文本相同的方式返回提取的文本？import osimport PyPDF2 as pdfimport pandas as pddef scan_files(root): for path, subdirs, files in os.walk(root): for name in files: if name.endswith('.pdf'): #print(name) pdf = PyPDF2.PdfFileReader(os.path.join(path,name)) numPages = pdf.getNumPages() for p in range(0, numPages): pages = '' page = pdf.getPage(p) pages += page.extractText() pages = pages.replace('\n', '') #print(pages) return pages

查看完整描述

1 回答

慕尼黑5688855

TA貢獻(xiàn)1848條經(jīng)驗(yàn) 獲得超2個(gè)贊

打印文本將允許最后一個(gè) for 循環(huán)迭代（使用您提到的“打印（頁面）”）。然而，返回頁面將終止正在運(yùn)行的循環(huán)，并吐出它到目前為止覆蓋的文本。嘗試使用類似的東西：

def scan_files(root):

pdftext = ''

for path, subdirs, files in os.walk(root):

for name in files:

if name.endswith('.pdf'):

#print(name)

pdf = PyPDF2.PdfFileReader(os.path.join(path,name))

numPages = pdf.getNumPages()

pages = ''

for p in range(0, numPages):

page = pdf.getPage(p)

pages += page.extractText()

pages = pages.replace('\n', '')

pdftext += pages

return pdftext

反對回復(fù) 2023-03-16

1 回答
0 關(guān)注
138 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

如何在 python 中返回從多個(gè) PDF 中提取的所有文本？

如何在 python 中返回從多個(gè) PDF 中提取的所有文本？

1 回答

添加回答

如何在 python 中返回從多個(gè) PDF 中提取的所有文本？