我想使用Java從PDF文件中讀取一些文本數(shù)據(jù)。我怎樣才能做到這一點?
3 回答

子衿沉夜
TA貢獻1828條經(jīng)驗 獲得超3個贊
PDFBox是我為此找到的最好的庫,它是全面的,如果您只是在進行基本文本提取,那么它確實非常易于使用。示例可以在這里找到。
它在頁面上對此進行了解釋,但要注意的一件事是,使用setStartPage()和setEndPage()時的開始索引和結束索引都包含在內(nèi)。我第一次繞過了這個解釋,然后花了我一段時間才意識到為什么每次打電話我回頭一頁以上!
Itext是另一種也可以與C#一起使用的替代方法,盡管我個人從未使用過它。它比PDFBox級別低,因此如果您只需要基本文本提取,則不太適合該工作。

隔江千里
TA貢獻1906條經(jīng)驗 獲得超10個贊
PDFBox包含用于文本提取的工具。
iText對文本操作提供了更底層的支持,但是您必須編寫大量代碼才能提取文本。
iText in Action很好地概述了從PDF提取文本的局限性,而與使用的庫無關(第18.2節(jié):提取和編輯文本),以及令人信服的解釋,說明了為什么該庫不支持文本提取。簡而言之,編寫處理簡單情況的代碼相對容易,但是從總體上來說,從PDF中提取文本基本上是不可能的。
添加回答
舉報
0/150
提交
取消