我有一個(gè)標(biāo)記化文件,我想使用斯坦福自然語言處理(StanfordNLP)用 POS 和依賴解析標(biāo)簽來注釋它。我正在使用具有以下配置的 Python 腳本:config = {'processors': 'pos,lemma,depparse','lang': 'de','pos_model_path': './de_gsd_models/de_gsd_tagger.pt','pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt','lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt','depparse_model_path': './de_gsd_models/de_gsd_parser.pt','depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'nlp = stanfordnlp.Pipeline(**config)doc = nlp(text)但是,我收到以下消息:缺失:{'tokenize'} 為此管道提供的處理器列表無效。請(qǐng)確保每個(gè)處理器都滿足所有先決條件。是否可以使用 Python 腳本跳過標(biāo)記化步驟?提前致謝!
1 回答

函數(shù)式編程
TA貢獻(xiàn)1807條經(jīng)驗(yàn) 獲得超9個(gè)贊
您需要包含處理器并包含設(shè)置為 的tokenize
屬性。這將假設(shè)文本在空格上被標(biāo)記,并且句子被換行符分割。您還可以傳遞字符串列表的列表,每個(gè)列表代表一個(gè)句子,條目是標(biāo)記。tokenize_pretokenized
True
添加回答
舉報(bào)
0/150
提交
取消