首頁猿問 Keras Tokenizer...

Keras Tokenizer num_words 指定了什么？

Python

慕沐林林 2023-09-26 14:20:53

鑒于這段代碼：from tensorflow.keras.preprocessing.text import Tokenizersentences = [ 'i love my dog', 'I, love my cat', 'You love my dog!']tokenizer = Tokenizer(num_words = 1)tokenizer.fit_on_texts(sentences)word_index = tokenizer.word_indexprint(word_index)無論num_words=1或num_words=100，當(dāng)我在 jupyter 筆記本上運行此單元時，我都會得到相同的輸出，而且我似乎無法理解它在標(biāo)記化方面有何不同。{'愛': 1, '我的': 2, '我': 3, '狗': 4, '貓': 5, '你': 6}

查看完整描述

1 回答

慕田峪4524236

TA貢獻1875條經(jīng)驗獲得超5個贊

word_index 它只是整個文本語料庫的單詞到 id 的映射，無論 num_words 是什么

區(qū)別在用法上很明顯。例如，如果我們調(diào)用texts_to_sequences

sentences = [

'i love my dog',

'I, love my cat',

'You love my dog!'

]

tokenizer = Tokenizer(num_words = 1+1)

tokenizer.fit_on_texts(sentences)

tokenizer.texts_to_sequences(sentences) # [[1], [1], [1]]

僅返回愛情 ID，因為最常見的單詞

反而

sentences = [

'i love my dog',

'I, love my cat',

'You love my dog!'

]

tokenizer = Tokenizer(num_words = 100+1)

tokenizer.fit_on_texts(sentences)

tokenizer.texts_to_sequences(sentences) # [[3, 1, 2, 4], [3, 1, 2, 5], [6, 1, 2, 4]]

返回最常見的 100 個單詞的 id

反對回復(fù) 2023-09-26

1 回答
0 關(guān)注
141 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Keras Tokenizer num_words 指定了什么？

Keras Tokenizer num_words 指定了什么？

1 回答

添加回答

Keras Tokenizer num_words 指定了什么？