基本上,我想刪除嵌入在我的文本數(shù)據(jù)中的某些短語模式:以大寫字母開頭,以 Em Dash "—" 結(jié)尾以 Em Dash "—" 開頭并以 "Read Next" 結(jié)尾說,我有以下數(shù)據(jù):宿務(wù)市——被殺的人權(quán)律師的遺孀......引用了 NUPL 的數(shù)據(jù),該數(shù)據(jù)顯示過去兩年有 34 名律師被殺。— JULIE M. AURELIO 和 DJ YAP 的報告閱讀下一個和菲律賓馬尼拉——總統(tǒng)……但正義最終會突破他們的有罪不罰之墻,……——來自 MELVIN GASCON、JULIE M. AURELIO、DELFIN T. MALLARI JR.、JEROME ANING、JOVIC YEE、GABRIEL 的報道PABICO LALU、PATHRICIA ANN V. ROXAS、DJ YAP、法新社、APRead Next我想刪除以下短語:“宿霧城——”“—來自朱莉 M.奧雷利奧和 DJ YAP 的報告閱讀下一個”“菲律賓馬尼拉-”“——來自 MELVIN GASCON、JULIE M. AURELIO、DELFIN T. MALLARI JR.、JEROME ANING、JOVIC YEE、GABRIEL PABICO LALU、PATHRICIA ANN V. ROXAS、DJ YAP、法新社、APRead Next 的報道”我假設(shè)上面列舉的每個模式都需要兩個正則表達式。regex:—[A-Z].*Read Next\s*$可能適用于模式#2,但僅當(dāng)文本數(shù)據(jù)中沒有其他破折號時才有效。當(dāng)模式 #1 出現(xiàn)時它不會工作,因為它會從它看到的第一個 em 破折號中刪除塊,直到“ Read Next ”字符串。我已經(jīng)為模式 #1 嘗試了以下正則表達式:^[A-Z]([A-Za-z]).+(—)$但是怎么就不行了。該正則表達式應(yīng)該查找以任何大寫字母開頭的短語,然后是任何長度的字符串,只要它以“—”結(jié)尾。
在 Python 數(shù)據(jù)框中通過 RegEx 刪除不同的文本短語
慕工程0101907
2021-09-28 20:39:40