首頁(yè) 猿問(wèn) 我如何將pdfminer用作庫(kù)

我如何將pdfminer用作庫(kù)

Python

翻閱古今 2019-11-23 11:02:58

我正在嘗試使用pdfminer從pdf獲取文本數(shù)據(jù)。我可以使用pdfminer命令行工具pdf2txt.py將數(shù)據(jù)成功提取到.txt文件中。我目前正在執(zhí)行此操作，然后使用python腳本清理.txt文件。我想將pdf提取過(guò)程合并到腳本中，從而節(jié)省了一步。當(dāng)我找到此鏈接時(shí)，我以為自己正在研究某些東西，但是任何解決方案都沒(méi)有成功。也許那里列出的功能需要再次更新，因?yàn)槲沂褂玫氖莗dfminer的較新版本。我也嘗試了此處顯示的功能，但是也沒(méi)有用。我嘗試的另一種方法是使用調(diào)用腳本內(nèi)的腳本os.system。這也不成功。我正在使用Python版本2.7.1和pdfminer版本20110227。

查看完整描述

3 回答

MMMHUHU

TA貢獻(xiàn)1834條經(jīng)驗(yàn) 獲得超8個(gè)贊

這是我最終制作的對(duì)我有用的清理版本。給定其文件名，以下代碼僅以PDF形式返回該字符串。我希望這可以節(jié)省一些時(shí)間。

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from cStringIO import StringIO

def convert_pdf(path):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

codec = 'utf-8'

laparams = LAParams()

device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

fp = file(path, 'rb')

process_pdf(rsrcmgr, device, fp)

fp.close()

device.close()

str = retstr.getvalue()

retstr.close()

return str

反對(duì) 回復(fù) 2019-11-23

侃侃無(wú)極

TA貢獻(xiàn)2051條經(jīng)驗(yàn) 獲得超10個(gè)贊

這是與最新版本一起使用的新解決方案：

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFPage

from cStringIO import StringIO

def convert_pdf_to_txt(path):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

codec = 'utf-8'

laparams = LAParams()

device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

fp = file(path, 'rb')

interpreter = PDFPageInterpreter(rsrcmgr, device)

password = ""

maxpages = 0

caching = True

pagenos=set()

for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):

interpreter.process_page(page)

fp.close()

device.close()

str = retstr.getvalue()

retstr.close()

return str

反對(duì) 回復(fù) 2019-11-23

3 回答
0 關(guān)注
485 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書(shū)簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

我如何將pdfminer用作庫(kù)

我如何將pdfminer用作庫(kù)

3 回答

添加回答