第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

Java 讀取txt格式語料庫并匹配指定字符串,如何可以快速完成?

Java 讀取txt格式語料庫并匹配指定字符串,如何可以快速完成?

慕工程0101907 2019-03-13 14:15:44
有一個(gè)9M多行的語料庫,文件大小4G?,F(xiàn)在需要匹配指定動(dòng)詞,符合句子條件的輸出。但是文件過大。每次讀取一行。匹配下來要好久。請(qǐng)問有沒有什么方法可以加快處理速度。BufferedReader cpreader = new BufferedReader(new InputStreamReader(new FileInputStream(this.getCorpusPath())));tring line = cpreader.readLine();while(line != null)            {                ArrayList<String> verbList = new ArrayList();                matcher_line = Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)").matcher(line);                if(matcher_line.find())                {                    System.out.println(line);                }                                                                line = cpreader.readLine();            }
查看完整描述

5 回答

?
三國紛爭(zhēng)

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超7個(gè)贊

讀文件的話應(yīng)該是沒有問題的,不過你可以嘗試改為緩沖式讀取,因?yàn)橐恍械拇笮?可能是不確定的,會(huì)對(duì)效率造成影響吧。。
匹配的話如果是單個(gè)單詞的話,可以改用更好的匹配方法,正則的話就不曉得了

查看完整回答
反對(duì) 回復(fù) 2019-04-18
?
明月笑刀無情

TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超4個(gè)贊

nio+多線程


查看完整回答
反對(duì) 回復(fù) 2019-04-18
?
浮云間

TA貢獻(xiàn)1829條經(jīng)驗(yàn) 獲得超4個(gè)贊

Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)")

這個(gè)在循環(huán)里邊,每次都要編譯正則,所以很慢,你把這個(gè)放到while外邊看看


查看完整回答
反對(duì) 回復(fù) 2019-04-18
?
楊魅力

TA貢獻(xiàn)1811條經(jīng)驗(yàn) 獲得超6個(gè)贊

AC自動(dòng)機(jī),構(gòu)造的樹大小應(yīng)該不到4G,普通的筆記本都應(yīng)該夠了


查看完整回答
反對(duì) 回復(fù) 2019-04-18
  • 5 回答
  • 0 關(guān)注
  • 769 瀏覽

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)