寫文章

首頁手記 C# 提取PDF中的表格

C# 提取PDF中的表格

標(biāo)簽：

C# .NET

本文介绍在C#程序中（附VB.NET代码）提取PDF中的表格的方法，调用Spire.PDF for .NET提供的提取表格的类以及方法等来获取表格单元格中的文本内容；代码内容中涉及到的主要类及方法归纳如下表，供参考：

类型	描述
PdfDocument Class	Represents a pdf document model.
PdfDocument.LoadFromFile(string filename) Method	Loads a PDF document.
PdfTableExtractor Class	Represents the PDF table extractor.
PdfTable Class	Defines a PDF table.
PdfTableExtractor. ExtractTable(int pageIndex) Method	Extracts table from page.
PdfTable.GetText(int rowIndex,int columnIndex) Method	Gets Text in cell.
File.WriteAllText() Method	Saves extracted text in table to a .txt file.

环境配置

Visual Studio 2017
.net framework 4.6.1
PDF测试文档
库：Spire.PDF for .NET 7.10.4

引用dll文件的2种方法：

方法1：通过NuGet安装。

【步骤】

鼠标右键点击“引用”，“管理NuGet程序包”，

点击“浏览”，在搜索框中输入，点击“安装”，

或者使用PM控制台安装:

PM>Install-Package Spire.PDF -Version 7.10.4

方法2：手动添加引用。

【步骤】

鼠标右键点击“引用”，“添加引用”，

点击“浏览”，“浏览”，将本地路径下的dll文件（需提前下载到本地，并解压）添加到引用列表

点击OK,完成引用：

代码示例

C#

using Spire.Pdf;

using Spire.Pdf.Utilities;

using System.IO;

using System.Text;

namespace ExtractTable

{

class Program

{

static void Main(string[] args)

{

//加载PDF文档

PdfDocument pdf = new PdfDocument();

pdf.LoadFromFile("sample.pdf");

StringBuilder builder = new StringBuilder();

//抽取表格

PdfTableExtractor extractor = new PdfTableExtractor(pdf);

PdfTable[] tableLists = null;

for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)

{

tableLists = extractor.ExtractTable(pageIndex);

if (tableLists != null && tableLists.Length > 0)

{

foreach (PdfTable table in tableLists)

{

int row = table.GetRowCount();

int column = table.GetColumnCount();

for (int i = 0; i < row; i++)

{

for (int j = 0; j < column; j++)

{

string text = table.GetText(i, j);

builder.Append(text + " ");

}

builder.Append("\r\n");

}

//保存提取的表格内容到txt文档

File.WriteAllText("ExtractedTable.txt", builder.ToString());

}

VB.NET

Imports Spire.Pdf

Imports Spire.Pdf.Utilities

Imports System.IO

Imports System.Text

Namespace ExtractTable

Class Program

Private Shared Sub Main(args As String())

'加载PDF文档

Dim pdf As New PdfDocument()

pdf.LoadFromFile("sample.pdf")

Dim builder As New StringBuilder()

'抽取表格

Dim extractor As New PdfTableExtractor(pdf)

Dim tableLists As PdfTable() = Nothing

For pageIndex As Integer = 0 To pdf.Pages.Count - 1

tableLists = extractor.ExtractTable(pageIndex)

If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then

For Each table As PdfTable In tableLists

Dim row As Integer = table.GetRowCount()

Dim column As Integer = table.GetColumnCount()

For i As Integer = 0 To row - 1

For j As Integer = 0 To column - 1

Dim text As String = table.GetText(i, j)

builder.Append(text & Convert.ToString(" "))

End If

File.WriteAllText("ExtractedTable.txt", builder.ToString())

End Sub

End Class

End Namespace

表格内容提取结果：

其他注意事项：

代码中的PDF文件以及生成的.txt文件路径为F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf和F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。文件路径也可以自定义为其他路径。

———————————————————————————————————————————

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫下你的評(píng)論

評(píng)論加載中...

展開查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

Eiceblue

JAVA開發(fā)工程師

手記
篇

粉絲

9

獲贊與收藏

48

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

后端通用面試教程

41個(gè)小節(jié) 32040 357

網(wǎng)絡(luò)編程入門教程

20個(gè)小節(jié) 13132 247

Pandas 入門教程

25個(gè)小節(jié) 19458 365

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購買實(shí)戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學(xué)習(xí)，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

C# 提取PDF中的表格

环境配置

代码示例

閱讀免費(fèi)教程