第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

限制在 Tika 中解析的嵌入式文件的數(shù)量

限制在 Tika 中解析的嵌入式文件的數(shù)量

慕斯王 2023-04-13 15:43:17
在創(chuàng)建自定義 EmbeddedDocumentExtractor 類時,我需要解析文件中的嵌入文檔并對有限數(shù)量的嵌入文檔(比如 10 個)執(zhí)行一些操作。如果我處理一個包含 1000 個嵌入的文件,每個嵌入都會被處理,這絕對是浪費(fèi)時間。有沒有辦法限制只解析前幾個嵌入文件?public void parseEmbedded(InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml) throws SAXException, IOException {          if(fileCount >= COUNT_LIMIT){              //skip file          }          else{             //perform op          }}通過這種方法,比較文件計數(shù)(已處理的嵌入文件的數(shù)量)和 COUNT_LIMIT 實(shí)際上需要時間,而不是使進(jìn)程停止。
查看完整描述

2 回答

?
繁花不似錦

TA貢獻(xiàn)1851條經(jīng)驗(yàn) 獲得超4個贊

在 OP 提出問題后更新:

EmbeddedDocumentExtractor我知道您在開始提問時已經(jīng)在制作一個實(shí)現(xiàn) tika's 的自定義類:

“關(guān)于創(chuàng)建自定義 EmbeddedDocumentExtractor 類,”

所以看看 tika github 我看到這EmbeddedDocumentExtractor是一個由名為 的類實(shí)現(xiàn)的接口ParsingEmbeddedDocumentExtractor,它有一個具體的方法parseEmbedded。我假設(shè)這是您要使用的方法,但限制為n。

我建議您創(chuàng)建一個自定義類來實(shí)現(xiàn)EmbeddedDocumentExtractor并繼承自ParsingEmbeddedDocumentExtractor. 在這個類中,您定義了一個名為 COUNT_LIMIT 的變量。然后重寫 parseEmbedded 方法來執(zhí)行以下操作:

  1. 分離 InputStream 中的文件

  2. 將這些分離的文件放在使用限制的for循環(huán)中

  3. 在每個文件上調(diào)用父方法。

所以它看起來像這樣:

class MyEmbeddedDocumentExtractor implements EmbeddedDocumentExtractor extends ParsingEmbeddedDocumentExtractor{


private static int COUNT_LIMIT = 10;


...


@Override parseEmbedded(

            InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml)

            throws SAXException, IOException {


 // separate the files in the InputStream


for(int i = 0; i < COUNT_LIMIT; i++){

        super.parseEmbedded(streamOfOneFile, handler, metadata, outputHtml)

    }

}


}


查看完整回答
反對 回復(fù) 2023-04-13
?
慕俠2389804

TA貢獻(xiàn)1719條經(jīng)驗(yàn) 獲得超6個贊

根據(jù)您的需要,也許可以嘗試 RecursiveParserWrapper;您可以在 RecursiveParserWrapperHandler 中設(shè)置最大嵌入深度。

查看完整回答
反對 回復(fù) 2023-04-13
  • 2 回答
  • 0 關(guān)注
  • 239 瀏覽

添加回答

舉報

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號