第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何在python腳本和外部命令行中使用pdfminer.six的pdf2txt.py?

如何在python腳本和外部命令行中使用pdfminer.six的pdf2txt.py?

紅顏莎娜 2021-06-10 14:04:14
我知道如何在命令行中使用 pdfminer.six 的 pdf2txt.py 工具;但是,我有很多 PDF 文件要轉(zhuǎn)換為 txt 文件,我不能在命令行中一一執(zhí)行。我還沒有找到如何在實際的 python 腳本中使用這個工具。有任何想法嗎?
查看完整描述

1 回答

?
哆啦的時光機

TA貢獻(xiàn)1779條經(jīng)驗 獲得超6個贊

好消息是您可以使用 PDFMiner 庫重新創(chuàng)建您可能在命令行上使用 pdf2text 運行的任何屬性/命令。請參閱下面的我使用的基本示例:


from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFPage

from io import BytesIO


def pdf_to_text(path):

    manager = PDFResourceManager()

    retstr = BytesIO()

    layout = LAParams(all_texts=True)

    device = TextConverter(manager, retstr, laparams=layout)

    filepath = open(path, 'rb')

    interpreter = PDFPageInterpreter(manager, device)


    for page in PDFPage.get_pages(filepath, check_extractable=True):

        interpreter.process_page(page)


    text = retstr.getvalue()


    filepath.close()

    device.close()

    retstr.close()

    return text



if __name__ == "__main__":

    text = pdf_to_text("yourfile.pdf")

    print(text)

如果您需要應(yīng)用頁碼或密碼,這些是 PDFPage.get_pages 中的可選參數(shù)。同樣,如果您需要更改布局,例如 all-texts 或 margin-size,LAParams 初始值設(shè)定項有可選屬性


查看完整回答
反對 回復(fù) 2021-06-22
  • 1 回答
  • 0 關(guān)注
  • 109 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號