假設(shè)我有一個名為的列表split_on_these,我想使用它來拆分另一個列表text。我首先填充split_on_these以免刪除自然發(fā)生的split_on_these條目實例:split_on_these = ['iv', 'x', 'v']text = ["random iv text x hat v", "cat", "dog iv", "random cat x"]padding = [" " + i + " " for i in split_on_these]我正在嘗試new_text在其中包含的所有項目上創(chuàng)建拆分,padding如下所示:["random", "text", "hat", "cat", "dog", "random cat"]我嘗試將包含在其中的所有文本條目替換為padding某個字符~,然后拆分該字符,但問題是當(dāng)您迭代文本中的條目時,有時它會是單詞塊,而有時它會是個別字母。請注意,應(yīng)保留分隔符之前的整個塊(例如隨機貓)。
2 回答

慕運維8079593
TA貢獻1876條經(jīng)驗 獲得超5個贊
您已經(jīng)通過填充分割詞完成了“重拆分”。你剩下的是一個拆分和過濾序列
text = ["random iv text x hat v", "cat", "dog iv"]
[word for sent in text for word in sent.split() if word not in split_on_these]
這會將您的填充句子拆分為單個單詞并過濾掉不需要的單詞。結(jié)果:
['random', 'text', 'hat', 'cat', 'dog']
添加回答
舉報
0/150
提交
取消