我想使用帶有印度尼西亞語(yǔ)的 keras 將文本轉(zhuǎn)換為序列。但 keras 標(biāo)記器只檢測(cè)已知單詞。如何在keras中添加已知單詞?或者我有什么解決方案可以將文本轉(zhuǎn)換為序列?from keras.preprocessing.text import Tokenizertokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)tokenizer.fit_on_texts(concated['TITLE'].values)txt = ["bisnis di indonesia sangat maju"]seq = list(tokenizer.texts_to_sequences_generator(txt))如果我使用印度尼西亞語(yǔ),“seq”變量會(huì)產(chǎn)生空數(shù)組,如果我使用英文單詞,它會(huì)完美地工作。如何將 keras 用于不同的語(yǔ)言?或者無(wú)論如何要向keras添加一些已知詞?
1 回答

手掌心
TA貢獻(xiàn)1942條經(jīng)驗(yàn) 獲得超3個(gè)贊
Keras不知道任何語(yǔ)言或文字。您可以使用fit_on_texts
orfit_on_sequences
方法創(chuàng)建詞匯表。
我猜您是fit
在某些英文文本(即concated['TITLE'].values
)上使用分詞器。結(jié)果,內(nèi)部詞匯只包含英語(yǔ)單詞(沒(méi)有印尼語(yǔ)單詞)。這解釋了為什么seq
如果txt
只包含非英語(yǔ)單詞會(huì)是空的。
此外,您可以查看類的源代碼Tokenizer
。
添加回答
舉報(bào)
0/150
提交
取消