2 回答

TA貢獻(xiàn)1878條經(jīng)驗 獲得超4個贊
vectorizer.fit_transform將可迭代的 str、unicode 或文件對象作為參數(shù)。您已經(jīng)傳遞了一個可迭代的列表(標(biāo)記化字符串)。您可以只傳遞原始字符串集,test['tweet']因為 CountVectorizer 會為您進(jìn)行標(biāo)記化。
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
BOW = vectorizer.fit_transform(test['tweet'])
print(BOW.toarray())
print(vectorizer.get_feature_names())
這應(yīng)該會給你預(yù)期的輸出。

TA貢獻(xiàn)1864條經(jīng)驗 獲得超2個贊
如您的輸出示例所示,test['tokenize']包含單元格中的列表。這些列表是通過按“”拆分從字符串中檢索到的值,因此要使此行test['BOW'] = test['tokenize'].apply(lambda x: Counter(x.split(" ")))
正常工作,請嘗試將其更改為test['BOW'] = test['tokenize'].apply(lambda x: Counter(x))
添加回答
舉報