第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

我該如何詞干或詞法去除?

我該如何詞干或詞法去除?

撒科打諢 2019-12-09 09:26:50
我已經(jīng)嘗試過PorterStemmer和Snowball,但都無法使用所有單詞,缺少一些非常常見的單詞。我的測試詞是:“ 貓跑了仙人掌仙人掌社區(qū)仙人掌 ”,并且兩人都獲得了不到一半的權(quán)利。
查看完整描述

3 回答

?
湖上湖

TA貢獻2003條經(jīng)驗 獲得超2個贊

我使用斯坦福大學(xué)nlp進行詞條還原。最近幾天,我一直在遇到類似的問題。感謝stackoverflow幫助我解決問題。


import java.util.*; 

import edu.stanford.nlp.pipeline.*;

import edu.stanford.nlp.ling.*; 

import edu.stanford.nlp.ling.CoreAnnotations.*;  


public class example

{

    public static void main(String[] args)

    {

        Properties props = new Properties(); 

        props.put("annotators", "tokenize, ssplit, pos, lemma"); 

        pipeline = new StanfordCoreNLP(props, false);

        String text = /* the string you want */; 

        Annotation document = pipeline.process(text);  


        for(CoreMap sentence: document.get(SentencesAnnotation.class))

        {    

            for(CoreLabel token: sentence.get(TokensAnnotation.class))

            {       

                String word = token.get(TextAnnotation.class);      

                String lemma = token.get(LemmaAnnotation.class); 

                System.out.println("lemmatized version :" + lemma);

            }

        }

    }

}

如果停用詞稍后在分類器中使用,則最好使用停用詞來最小化輸出引理。請看一下John Conwell編寫的coreNlp擴展。


查看完整回答
反對 回復(fù) 2019-12-09
?
慕姐4208626

TA貢獻1852條經(jīng)驗 獲得超7個贊

我在這個雪球演示網(wǎng)站上嘗試了您的術(shù)語列表,結(jié)果看起來還不錯。...


貓->貓

運行->運行

跑->跑

仙人掌->仙人掌

仙人掌->仙人掌

社區(qū)->社區(qū)

社區(qū)->社區(qū)

詞干被認為可以將詞的變形形式轉(zhuǎn)化為某些共同的詞根。使該詞根成為“適當(dāng)?shù)摹弊值湓~并不是真正的工作。為此,您需要查看形態(tài)/正交分析儀。


我認為這個問題或多或少是同一件事,而Kaarel對這個問題的回答是我從第二個鏈接中獲得的。


查看完整回答
反對 回復(fù) 2019-12-09
  • 3 回答
  • 0 關(guān)注
  • 515 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號