我正在嘗試按字符串中是否有單詞來過濾數(shù)據(jù)框,我嘗試了以下方法:text="Abacus and androgeny and for"tokenized = tknzr.tokenize(text.lower())pattern= "|".join(tokenized)lexicon = lexicon[lexicon["English (en)"].str.match(pattern, na = False)]這實(shí)際上不起作用,因?yàn)橐浴癴or”開頭的單詞(如偽造)會匹配。為了清楚起見,我只需要與文本中的某個(gè)單詞完全匹配的行。
1 回答

牧羊人nacy
TA貢獻(xiàn)1862條經(jīng)驗(yàn) 獲得超7個(gè)贊
如果我正確理解你,你只是使用匹配來確定列中的單詞是否是文本中的單詞之一?如果是這樣 - 我會嘗試:
lexicon = lexicon[lexicon["English (en)"].isin(tokenized)]
這樣,匹配項(xiàng)將出現(xiàn)在確切的單詞上,因?yàn)樗鼤⑵渑c單詞列表進(jìn)行比較。
添加回答
舉報(bào)
0/150
提交
取消