2 回答

TA貢獻1963條經(jīng)驗 獲得超6個贊
您可以使用
df[~df['text'].str.contains(r'[^\x00-\x7F]')]
熊貓測試:
import pandas as pd
df = pd.DataFrame({'text': ['hi what are you saying?', 'ご承知のとおり、殘念ながら悪質(zhì)な詐欺が増加しているようですのでお気を付けください。'], 'another_col':['demo 1', 'demo 2']})
df[~df['text'].str.contains(r'[^\x00-\x7F]')]
# text another_col
# 0 hi what are you saying? demo 1
筆記:
df['text'].str.contains(r'[^\x00-\x7F]')text查找列中包含 ASCII 字符以外的字符的所有值(這是我們的“掩碼”)
df[~...]只保留那些與正則表達式不匹配的行。

TA貢獻1798條經(jīng)驗 獲得超3個贊
str.contains()返回一系列布爾值,我們可以用它們來索引我們的框架
patternDel?=?"[^\x00-\x7F]" filter?=?df['Event?Name'].str.contains(patternDel)
我傾向于保留我們想要的東西而不是刪除行。由于過濾器代表我們要刪除的內(nèi)容,因此我們使用 ~ 來獲取所有不匹配的行并保留它們
df?=?df[~filter]
添加回答
舉報