第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

使用python pdfminer提取整個pdf數(shù)據(jù)

使用python pdfminer提取整個pdf數(shù)據(jù)

哈士奇WWW 2021-03-06 11:09:09
我正在使用pdfminer使用python從pdf文件中提取數(shù)據(jù)。我想提取pdf中存在的所有數(shù)據(jù),而不管它是圖像還是文本,無論它是什么。我們可以在一行中執(zhí)行此操作嗎(如果需要,可以執(zhí)行兩條操作,而無需進(jìn)行大量工作)。任何幫助表示贊賞。提前致謝
查看完整描述

3 回答

?
繁花如伊

TA貢獻(xiàn)2012條經(jīng)驗(yàn) 獲得超12個贊

對于Python 3:


點(diǎn)安裝pdfminer.six


from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFPage

from io import StringIO


def convert_pdf_to_txt(path, codec='utf-8'):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    fp = open(path, 'rb')

    interpreter = PDFPageInterpreter(rsrcmgr, device)

    password = ""

    maxpages = 0

    caching = True

    pagenos=set()


    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)


    text = retstr.getvalue()


    fp.close()

    device.close()

    retstr.close()

    return text


查看完整回答
反對 回復(fù) 2021-03-31
?
慕田峪4524236

TA貢獻(xiàn)1875條經(jīng)驗(yàn) 獲得超5個贊

對于python3,還有另一個:pip install pdfminer3k


from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

import time

from functools import wraps


def fn_timer(function)://this is for calculating the run time(function)

    @wraps(function)

    def function_timer(*args, **kwargs):

        t0 = time.time()

        result = function(*args, **kwargs)

        t1 = time.time()

        print ("Total time running %s: %s seconds" %

                ('test', str(t1-t0))

                )

        return result

    return function_timer


@fn_timer

def convert_pdf(path, pages):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, laparams=laparams)


    fp = open(path, 'rb')

    process_pdf(rsrcmgr, device, fp,pages)

    fp.close()

    device.close()


    str = retstr.getvalue()

    retstr.close()

    return str


file = r'M:\a.pdf'


print(convert_pdf(file,[1,]))


查看完整回答
反對 回復(fù) 2021-03-31
  • 3 回答
  • 0 關(guān)注
  • 358 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號