首頁猿問 java中的自定義分析器，使用ed...

java中的自定義分析器，使用edgeNGram令牌過濾器

Java

白板的微信 2021-08-13 16:49:35

這是我上一個問題的延續(xù)。我正在使用 Lucene 3.6.1 并想創(chuàng)建一個自定義分析器來創(chuàng)建如下標記：-I/P 文本 :- foo bar代幣：- f,fo,foo,b,ba,barI/P 文本 :- HEllo 123代幣：- h,he,hel,hell,hello,1,12,123。基本上，它將文本轉(zhuǎn)換為小寫，然后使用邊緣 n-gram 標記過濾器。下面是我的自定義分析器的 java 代碼。@Override public TokenStream tokenStream(String fieldName, Reader reader) { TokenStream stream = new KeywordTokenizer(reader); TokenStream result = new EdgeNGramTokenFilter(stream, EdgeNGramTokenFilter.Side.FRONT, 1, 30); //OffsetAttribute offsetAttribute = result.addAttribute(OffsetAttribute.class); CharTermAttribute charTermAttribute = result.addAttribute(CharTermAttribute.class); try { result.reset(); while (result.incrementToken()) { //int startOffset = offsetAttribute.startOffset(); //int endOffset = offsetAttribute.endOffset(); System.out.println(charTermAttribute.toString()); } result.end(); result.close(); } catch (IOException e) { e.printStackTrace(); } return result; }但它返回低于foo bar.ffofoofoo foo bfoo bafoo bar讓我知道我的代碼中缺少什么。

查看完整描述

1 回答

藍山帝景

TA貢獻1843條經(jīng)驗獲得超7個贊

您需要使用StandardTokenizer而不是KeywordTokenizer。后者將簡單地將整個輸入視為單個標記，而前者將小寫并將輸入拆分為多個標記。

所以改變這個：

    TokenStream stream = new KeywordTokenizer(reader);

對此：

    TokenStream stream = new StandardTokenizer(reader);

反對回復(fù) 2021-08-13

1 回答
0 關(guān)注
146 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

java中的自定義分析器，使用edgeNGram令牌過濾器

java中的自定義分析器，使用edgeNGram令牌過濾器

1 回答

添加回答

java中的自定義分析器，使用edgeNGram令牌過濾器

java中的自定義分析器，使用edgeNGram令牌過濾器