第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

如何在 python 中返回從多個(gè) PDF 中提取的所有文本?

如何在 python 中返回從多個(gè) PDF 中提取的所有文本?

嗶嗶one 2023-03-16 09:50:25
這是我的代碼。到目前為止,它會(huì)將 pdf 的所有內(nèi)容打印到 pages 變量。但是,我似乎無(wú)法返回相同的提取文本。我一直在通過從隨機(jī) pdf 中提取信息并將其放在我正在調(diào)用的文件夾中來測(cè)試它。如何讓它以與打印文本相同的方式返回提取的文本?import osimport PyPDF2 as pdfimport pandas as pddef scan_files(root):    for path, subdirs, files in os.walk(root):        for name in files:            if name.endswith('.pdf'):                #print(name)                pdf = PyPDF2.PdfFileReader(os.path.join(path,name))                numPages = pdf.getNumPages()                for p in range(0, numPages):                        pages = ''                        page = pdf.getPage(p)                        pages += page.extractText()                        pages = pages.replace('\n', '')                        #print(pages)                        return pages
查看完整描述

1 回答

?
慕尼黑5688855

TA貢獻(xiàn)1848條經(jīng)驗(yàn) 獲得超2個(gè)贊

打印文本將允許最后一個(gè) for 循環(huán)迭代(使用您提到的“打?。?yè)面)”)。然而,返回頁(yè)面將終止正在運(yùn)行的循環(huán),并吐出它到目前為止覆蓋的文本。嘗試使用類似的東西:


def scan_files(root):

    pdftext = ''

    for path, subdirs, files in os.walk(root):

        for name in files:

            if name.endswith('.pdf'):

                #print(name)

                pdf = PyPDF2.PdfFileReader(os.path.join(path,name))

                numPages = pdf.getNumPages()

                

                pages = ''                    


                for p in range(0, numPages):

                    page = pdf.getPage(p)

                    pages += page.extractText()

                    pages = pages.replace('\n', '')


                pdftext += pages


    return pdftext


查看完整回答
反對(duì) 回復(fù) 2023-03-16
  • 1 回答
  • 0 關(guān)注
  • 133 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)