熊貓快速移除標(biāo)點(diǎn)符號這是一個自我回復(fù)的帖子。下面,我概述了NLP領(lǐng)域的一個常見問題,并提出了一些解決該問題的性能方法。經(jīng)常需要移除標(biāo)點(diǎn)符號在文本清理和預(yù)處理過程中。標(biāo)點(diǎn)符號定義為string.punctuation:>>> import string
string.punctuation'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'這是一個很常見的問題,在令人作嘔之前就已經(jīng)被問到了。最地道的解決辦法是用熊貓str.replace..但是,對于涉及羅得對于文本,可能需要考慮一種更具表現(xiàn)力的解決方案。什么是好的、有表現(xiàn)力的替代方案?str.replace在處理成千上萬的記錄時?
熊貓快速移除標(biāo)點(diǎn)符號
阿波羅的戰(zhàn)車
2019-07-01 10:17:01