第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何在 python 中返回從多個 PDF 中提取的所有文本?

如何在 python 中返回從多個 PDF 中提取的所有文本?

嗶嗶one 2023-03-16 09:50:25
這是我的代碼。到目前為止,它會將 pdf 的所有內(nèi)容打印到 pages 變量。但是,我似乎無法返回相同的提取文本。我一直在通過從隨機 pdf 中提取信息并將其放在我正在調(diào)用的文件夾中來測試它。如何讓它以與打印文本相同的方式返回提取的文本?import osimport PyPDF2 as pdfimport pandas as pddef scan_files(root):    for path, subdirs, files in os.walk(root):        for name in files:            if name.endswith('.pdf'):                #print(name)                pdf = PyPDF2.PdfFileReader(os.path.join(path,name))                numPages = pdf.getNumPages()                for p in range(0, numPages):                        pages = ''                        page = pdf.getPage(p)                        pages += page.extractText()                        pages = pages.replace('\n', '')                        #print(pages)                        return pages
查看完整描述

1 回答

?
慕尼黑5688855

TA貢獻1848條經(jīng)驗 獲得超2個贊

打印文本將允許最后一個 for 循環(huán)迭代(使用您提到的“打?。撁妫保H欢?,返回頁面將終止正在運行的循環(huán),并吐出它到目前為止覆蓋的文本。嘗試使用類似的東西:


def scan_files(root):

    pdftext = ''

    for path, subdirs, files in os.walk(root):

        for name in files:

            if name.endswith('.pdf'):

                #print(name)

                pdf = PyPDF2.PdfFileReader(os.path.join(path,name))

                numPages = pdf.getNumPages()

                

                pages = ''                    


                for p in range(0, numPages):

                    page = pdf.getPage(p)

                    pages += page.extractText()

                    pages = pages.replace('\n', '')


                pdftext += pages


    return pdftext


查看完整回答
反對 回復(fù) 2023-03-16
  • 1 回答
  • 0 關(guān)注
  • 123 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號