我想計(jì)算 .fdt/.fdx/.fdxt 文件中的單詞數(shù)我將 .fdxt 轉(zhuǎn)換為 .html,然后進(jìn)一步解析它。它在某些情況下取得了成功,但并非全部。 String html=""; Scanner sc = new Scanner(new File("/home/de-10/Desktop/1.html")); while(sc.hasNextLine()) { html+=sc.nextLine(); } sc.close(); System.out.println(html); Document doc = Jsoup.parse(html.toString()); String data = doc.text(); System.out.println(data); Scanner sc1 = new Scanner(new String(data)); int wordCount=0; while(sc1.hasNext()) { sc1.next(); wordCount++; } sc1.close(); System.out.println(""); System.out.println("**********"); System.out.println("WordCount: "+wordCount); System.out.println("**********"); System.out.println("");我正在尋找一些最佳解決方案。
1 回答

慕村225694
TA貢獻(xiàn)1880條經(jīng)驗(yàn) 獲得超4個(gè)贊
你說(shuō),“在某些情況下它是成功的,但不是全部”。所以我建議在計(jì)數(shù)之前刪除文本中的標(biāo)點(diǎn)符號(hào)。
int wordCount = Jsoup.parse(html).text().replaceAll("\\p{Punct}", "").split("\\s+").length;
添加回答
舉報(bào)
0/150
提交
取消