講師回答 / 伏草惟存
# 正則對(duì)字符串清洗def textParse(str_doc):? ? # 正則過濾掉特殊符號(hào)、標(biāo)點(diǎn)、英文、數(shù)字等。? ? r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+'? ? # 去除空格? ? r2 = '\s+'? ? # 去除換行符? ? str_doc=re.sub(r1, ' ', str_doc)? ? # 多個(gè)空格成1個(gè)? ? str_doc=re.sub(r2, '...
2019-07-22