首頁猿問限制在 Tika...

限制在 Tika 中解析的嵌入式文件的數(shù)量

Java

慕斯王 2023-04-13 15:43:17

在創(chuàng)建自定義 EmbeddedDocumentExtractor 類時，我需要解析文件中的嵌入文檔并對有限數(shù)量的嵌入文檔（比如 10 個）執(zhí)行一些操作。如果我處理一個包含 1000 個嵌入的文件，每個嵌入都會被處理，這絕對是浪費時間。有沒有辦法限制只解析前幾個嵌入文件？public void parseEmbedded(InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml) throws SAXException, IOException { if(fileCount >= COUNT_LIMIT){ //skip file } else{ //perform op }}通過這種方法，比較文件計數(shù)（已處理的嵌入文件的數(shù)量）和 COUNT_LIMIT 實際上需要時間，而不是使進程停止。

查看完整描述

2 回答

繁花不似錦

TA貢獻1851條經(jīng)驗獲得超4個贊

在 OP 提出問題后更新：

EmbeddedDocumentExtractor我知道您在開始提問時已經(jīng)在制作一個實現(xiàn) tika's 的自定義類：

“關于創(chuàng)建自定義 EmbeddedDocumentExtractor 類，”

所以看看 tika github 我看到這EmbeddedDocumentExtractor是一個由名為的類實現(xiàn)的接口ParsingEmbeddedDocumentExtractor，它有一個具體的方法parseEmbedded。我假設這是您要使用的方法，但限制為n。

我建議您創(chuàng)建一個自定義類來實現(xiàn)EmbeddedDocumentExtractor并繼承自ParsingEmbeddedDocumentExtractor. 在這個類中，您定義了一個名為 COUNT_LIMIT 的變量。然后重寫 parseEmbedded 方法來執(zhí)行以下操作：

分離 InputStream 中的文件
將這些分離的文件放在使用限制的for循環(huán)中
在每個文件上調(diào)用父方法。

所以它看起來像這樣：

class MyEmbeddedDocumentExtractor implements EmbeddedDocumentExtractor extends ParsingEmbeddedDocumentExtractor{

private static int COUNT_LIMIT = 10;

...

@Override parseEmbedded(

InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml)

throws SAXException, IOException {

// separate the files in the InputStream

for(int i = 0; i < COUNT_LIMIT; i++){

super.parseEmbedded(streamOfOneFile, handler, metadata, outputHtml)

}

反對回復 2023-04-13

慕俠2389804

TA貢獻1719條經(jīng)驗獲得超6個贊

根據(jù)您的需要，也許可以嘗試 RecursiveParserWrapper；您可以在 RecursiveParserWrapperHandler 中設置最大嵌入深度。

反對回復 2023-04-13

2 回答
0 關注
268 瀏覽

關注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

限制在 Tika 中解析的嵌入式文件的數(shù)量

限制在 Tika 中解析的嵌入式文件的數(shù)量

2 回答

添加回答