2 回答

TA貢獻(xiàn)1811條經(jīng)驗(yàn) 獲得超5個(gè)贊
這是為了簡(jiǎn)化需要表示的元素?cái)?shù)量。當(dāng)您有大寫(xiě)字母時(shí),您需要分配至少 26 個(gè)額外空格 [AZ],如果有大寫(xiě)字母的組合,則需要分配更多空格。對(duì)于文本分類,我認(rèn)為沒(méi)有必要保留大寫(xiě)字母,因?yàn)檫@不會(huì)影響文本的閱讀方式,但如果您試圖生成序列中的下一個(gè)單詞或下一個(gè)字母,那么它就變得很重要。

TA貢獻(xiàn)1853條經(jīng)驗(yàn) 獲得超9個(gè)贊
您可能想要小寫(xiě)文本的原因之一是數(shù)據(jù)集很小。想象一下“amazing”和“Amazing”一詞出現(xiàn)在您的數(shù)據(jù)集中。對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),這兩個(gè)是不同的詞。如果您有一個(gè)大數(shù)據(jù)集,并且這些詞在不同情況下多次出現(xiàn),它可能能夠了解到“amazing”和“Amazing”是同一件事。但是,假設(shè)“amazing”這個(gè)詞在您的訓(xùn)練集中出現(xiàn)了十次,而“Amazing”只出現(xiàn)了一次。模型很可能無(wú)法找出兩者之間的關(guān)系,這可能會(huì)影響網(wǎng)絡(luò)的性能。
小寫(xiě)也可以幫助處理 OOV 單詞。想象一下,如果“Amazing”從未出現(xiàn)在訓(xùn)練數(shù)據(jù)集中,但網(wǎng)絡(luò)在測(cè)試樣本中遇到它。如果你將輸入小寫(xiě),它會(huì)工作得很好,但如果你不這樣做,你就會(huì)遇到問(wèn)題。
添加回答
舉報(bào)