首頁猿問在 Python 數(shù)據(jù)框中通過...

在 Python 數(shù)據(jù)框中通過 RegEx 刪除不同的文本短語

Python

慕工程0101907 2021-09-28 20:39:40

基本上，我想刪除嵌入在我的文本數(shù)據(jù)中的某些短語模式：以大寫字母開頭，以 Em Dash "—" 結(jié)尾以 Em Dash "—" 開頭并以 "Read Next" 結(jié)尾說，我有以下數(shù)據(jù)：宿務(wù)市——被殺的人權(quán)律師的遺孀......引用了 NUPL 的數(shù)據(jù)，該數(shù)據(jù)顯示過去兩年有 34 名律師被殺。— JULIE M. AURELIO 和 DJ YAP 的報告閱讀下一個和菲律賓馬尼拉——總統(tǒng)……但正義最終會突破他們的有罪不罰之墻，……——來自 MELVIN GASCON、JULIE M. AURELIO、DELFIN T. MALLARI JR.、JEROME ANING、JOVIC YEE、GABRIEL 的報道PABICO LALU、PATHRICIA ANN V. ROXAS、DJ YAP、法新社、APRead Next我想刪除以下短語：“宿霧城——”“—來自朱莉 M.奧雷利奧和 DJ YAP 的報告閱讀下一個”“菲律賓馬尼拉-”“——來自 MELVIN GASCON、JULIE M. AURELIO、DELFIN T. MALLARI JR.、JEROME ANING、JOVIC YEE、GABRIEL PABICO LALU、PATHRICIA ANN V. ROXAS、DJ YAP、法新社、APRead Next 的報道”我假設(shè)上面列舉的每個模式都需要兩個正則表達式。regex:—[A-Z].*Read Next\s*$可能適用于模式＃2，但僅當(dāng)文本數(shù)據(jù)中沒有其他破折號時才有效。當(dāng)模式 #1 出現(xiàn)時它不會工作，因為它會從它看到的第一個 em 破折號中刪除塊，直到“ Read Next ”字符串。我已經(jīng)為模式 #1 嘗試了以下正則表達式：^[A-Z]([A-Za-z]).+(—)$但是怎么就不行了。該正則表達式應(yīng)該查找以任何大寫字母開頭的短語，然后是任何長度的字符串，只要它以“—”結(jié)尾。

查看完整描述