首頁(yè) 猿問(wèn) 使用pdfbox 2.0.X...

使用pdfbox 2.0.X jar提取文本

Java

蕪湖不蕪 2021-04-09 14:10:51

我有一個(gè)pdf文件的Inputstream?，F(xiàn)在，我想從inputStream中提取所有字符串內(nèi)容。我發(fā)現(xiàn)了以下示例。我應(yīng)該使用第一個(gè)還是第二個(gè)？?jī)烧咧g在性能上有什么區(qū)別嗎？PDFParser在第二篇中有什么用？片段1：PDDocument doc = PDDocument.load(is);PDFTextStripper stripper = new PDFTextStripper();String result = stripper.getText(doc);片段2：PDFTextStripper stripper = new PDFTextStripper();PDFParser parser = new PDFParser(newRandomAccessBufferedFileInputStream(stream));parser.parse();doc = parser.getPDDocument();String content = stripper.getText(doc);提前致謝 ?。。?

查看完整描述

1 回答

繁星淼淼

TA貢獻(xiàn)1775條經(jīng)驗(yàn) 獲得超11個(gè)贊

使用第一個(gè)代碼。第二個(gè)代碼也可以工作，但是已經(jīng)過(guò)時(shí)并且沒(méi)有什么不同，解析的東西在內(nèi)部調(diào)用load()。速度是一樣的。通過(guò)使用文件作為參數(shù)或字節(jié)數(shù)組，您將獲得最佳結(jié)果。使用流將需要PDFBox進(jìn)行一些額外的緩沖。您的代碼不會(huì)告訴您stream來(lái)自何處。如果是FileInputStream，則應(yīng)該File改用。