第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問(wèn)題,去搜搜看,總會(huì)有你想問(wèn)的

我如何將pdfminer用作庫(kù)

我如何將pdfminer用作庫(kù)

翻閱古今 2019-11-23 11:02:58
我正在嘗試使用pdfminer從pdf獲取文本數(shù)據(jù)。我可以使用pdfminer命令行工具pdf2txt.py將數(shù)據(jù)成功提取到.txt文件中。我目前正在執(zhí)行此操作,然后使用python腳本清理.txt文件。我想將pdf提取過(guò)程合并到腳本中,從而節(jié)省了一步。當(dāng)我找到此鏈接時(shí),我以為自己正在研究某些東西,但是任何解決方案都沒(méi)有成功。也許那里列出的功能需要再次更新,因?yàn)槲沂褂玫氖莗dfminer的較新版本。我也嘗試了此處顯示的功能,但是也沒(méi)有用。我嘗試的另一種方法是使用調(diào)用腳本內(nèi)的腳本os.system。這也不成功。我正在使用Python版本2.7.1和pdfminer版本20110227。
查看完整描述

3 回答

?
MMMHUHU

TA貢獻(xiàn)1834條經(jīng)驗(yàn) 獲得超8個(gè)贊

這是我最終制作的對(duì)我有用的清理版本。給定其文件名,以下代碼僅以PDF形式返回該字符串。我希望這可以節(jié)省一些時(shí)間。


from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from cStringIO import StringIO


def convert_pdf(path):


    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    codec = 'utf-8'

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)


    fp = file(path, 'rb')

    process_pdf(rsrcmgr, device, fp)

    fp.close()

    device.close()


    str = retstr.getvalue()

    retstr.close()

    return str


查看完整回答
反對(duì) 回復(fù) 2019-11-23
?
侃侃無(wú)極

TA貢獻(xiàn)2051條經(jīng)驗(yàn) 獲得超10個(gè)贊

這是與最新版本一起使用的新解決方案:


from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFPage

from cStringIO import StringIO


def convert_pdf_to_txt(path):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    codec = 'utf-8'

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    fp = file(path, 'rb')

    interpreter = PDFPageInterpreter(rsrcmgr, device)

    password = ""

    maxpages = 0

    caching = True

    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)

    fp.close()

    device.close()

    str = retstr.getvalue()

    retstr.close()

    return str


查看完整回答
反對(duì) 回復(fù) 2019-11-23
  • 3 回答
  • 0 關(guān)注
  • 485 瀏覽
慕課專(zhuān)欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)