首頁猿問如何使用Java讀取PDF文件？

如何使用Java讀取PDF文件？

Java

DIEA 2019-10-09 17:45:26

我想使用Java從PDF文件中讀取一些文本數(shù)據(jù)。我怎樣才能做到這一點？

查看完整描述

3 回答

子衿沉夜

TA貢獻1828條經(jīng)驗獲得超3個贊

PDFBox是我為此找到的最好的庫，它是全面的，如果您只是在進行基本文本提取，那么它確實非常易于使用。示例可以在這里找到。

它在頁面上對此進行了解釋，但要注意的一件事是，使用setStartPage（）和setEndPage（）時的開始索引和結束索引都包含在內(nèi)。我第一次繞過了這個解釋，然后花了我一段時間才意識到為什么每次打電話我回頭一頁以上！

Itext是另一種也可以與C＃一起使用的替代方法，盡管我個人從未使用過它。它比PDFBox級別低，因此如果您只需要基本文本提取，則不太適合該工作。

反對回復 2019-10-09

隔江千里

TA貢獻1906條經(jīng)驗獲得超10個贊

PDFBox包含用于文本提取的工具。

iText對文本操作提供了更底層的支持，但是您必須編寫大量代碼才能提取文本。

iText in Action很好地概述了從PDF提取文本的局限性，而與使用的庫無關（第18.2節(jié)：提取和編輯文本），以及令人信服的解釋，說明了為什么該庫不支持文本提取。簡而言之，編寫處理簡單情況的代碼相對容易，但是從總體上來說，從PDF中提取文本基本上是不可能的。

反對回復 2019-10-09

關注

舉報

0/150

提交

取消

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

慕課網(wǎng)APP
您的移動學習伙伴

掃描二維碼
關注慕課網(wǎng)微信公眾號