首頁猿問使用VB.NET或C＃中的itex...

使用VB.NET或C＃中的itextsharp dll讀取PDF內(nèi)容

C# .NET

慕容708150 2019-08-31 16:14:11

如何使用帶有Pdfreader類的itextsharp讀取PDF內(nèi)容。我的PDF可能包含純文本或文本圖像。

查看完整描述

3 回答

月關寶盒

TA貢獻1772條經(jīng)驗獲得超5個贊

您無法像使用iTextSharp一樣閱讀和解析PDF的內(nèi)容。

來自iTextSharp的SourceForge教程：

您無法使用iText“解析”現(xiàn)有PDF文件，您只能在每頁“讀取”該頁面。

這是什么意思？

pdf格式只是一個畫布，其中放置文本和圖形時沒有任何結構信息。因此，PDF文件中沒有任何“iText-objects”。在每個頁面中可能會有許多“字符串”，但您無法使用這些字符串重建短語或段落?？赡芾L制了許多線條，但您無法根據(jù)這些線條檢索表格對象。簡而言之：使用iText解析PDF文件的內(nèi)容是不可能的。在新聞組新聞：//comp.text.pdf上發(fā)布您的問題，也許您會從那些已經(jīng)構建了可以解析PDF并提取其內(nèi)容的工具的人那里得到一些答案，但是不要指望能夠執(zhí)行子彈的工具 - 結構化文本的轉(zhuǎn)換。

反對回復 2019-08-31

不負相思意

TA貢獻1777條經(jīng)驗獲得超10個贊

LGPL / FOSS iTextSharp 4.x

var pdfReader = new PdfReader(path); //other filestream etc

byte[] pageContent = _pdfReader .GetPageContent(pageNum); //not zero based

byte[] utf8 = Encoding.Convert(Encoding.Default, Encoding.UTF8, pageContent);

string textFromPage = Encoding.UTF8.GetString(utf8);

其他答案都沒有對我有用，它們似乎都針對iTextSharp的AGPL v5。我再也找不到任何參考SimpleTextExtractionStrategy或LocationTextExtractionStrategy在FOSS版本。

與此相關的其他可能非常有用的東西：

const string PdfTableFormat = @"\(.*\)Tj";

Regex PdfTableRegex = new Regex(PdfTableFormat, RegexOptions.Compiled);

List<string> ExtractPdfContent(string rawPdfContent)

{

var matches = PdfTableRegex.Matches(rawPdfContent);

var list = matches.Cast<Match>()

.Select(m => m.Value

.Substring(1) //remove leading (

.Remove(m.Value.Length - 4) //remove trailing )Tj

.Replace(@"\)", ")") //unencode parens

.Replace(@"\(", "(")

.Trim()

)

.ToList();

return list;

}

這將從PDF中提取僅文本數(shù)據(jù)，如果顯示的文本Foo(bar)將在PDF中編碼，則(Foo\(bar\))Tj此方法將按Foo(bar)預期返回。此方法將從原始pdf內(nèi)容中刪除許多其他信息，例如位置坐標。

反對回復 2019-08-31

3 回答
0 關注
1236 瀏覽

關注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

使用VB.NET或C＃中的itextsharp dll讀取PDF內(nèi)容

使用VB.NET或C＃中的itextsharp dll讀取PDF內(nèi)容

3 回答

添加回答