首頁猿問 Java...

Java 讀取txt格式語料庫并匹配指定字符串，如何可以快速完成？

Java

慕工程0101907 2019-03-13 14:15:44

有一個(gè)9M多行的語料庫，文件大小4G?，F(xiàn)在需要匹配指定動(dòng)詞，符合句子條件的輸出。但是文件過大。每次讀取一行。匹配下來要好久。請(qǐng)問有沒有什么方法可以加快處理速度。BufferedReader cpreader = new BufferedReader(new InputStreamReader(new FileInputStream(this.getCorpusPath())));tring line = cpreader.readLine();while(line != null) { ArrayList<String> verbList = new ArrayList(); matcher_line = Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)").matcher(line); if(matcher_line.find()) { System.out.println(line); } line = cpreader.readLine(); }

查看完整描述

5 回答

三國紛爭(zhēng)

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超7個(gè)贊

讀文件的話應(yīng)該是沒有問題的，不過你可以嘗試改為緩沖式讀取，因?yàn)橐恍械拇笮?可能是不確定的，會(huì)對(duì)效率造成影響吧。。
匹配的話如果是單個(gè)單詞的話，可以改用更好的匹配方法，正則的話就不曉得了

反對(duì) 回復(fù) 2019-04-18

明月笑刀無情

TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超4個(gè)贊

nio+多線程

反對(duì) 回復(fù) 2019-04-18

浮云間

TA貢獻(xiàn)1829條經(jīng)驗(yàn) 獲得超4個(gè)贊

Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)")

這個(gè)在循環(huán)里邊，每次都要編譯正則，所以很慢，你把這個(gè)放到while外邊看看

反對(duì) 回復(fù) 2019-04-18

楊魅力

TA貢獻(xiàn)1811條經(jīng)驗(yàn) 獲得超6個(gè)贊

AC自動(dòng)機(jī)，構(gòu)造的樹大小應(yīng)該不到4G，普通的筆記本都應(yīng)該夠了

反對(duì) 回復(fù) 2019-04-18

5 回答
0 關(guān)注
769 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Java 讀取txt格式語料庫并匹配指定字符串，如何可以快速完成？

Java 讀取txt格式語料庫并匹配指定字符串，如何可以快速完成？

5 回答

添加回答

Java 讀取txt格式語料庫并匹配指定字符串，如何可以快速完成？

Java 讀取txt格式語料庫并匹配指定字符串，如何可以快速完成？