2 回答

TA貢獻(xiàn)1831條經(jīng)驗(yàn) 獲得超10個(gè)贊
import re
def cleaning_PicURL (text):
text = re.sub(r'pic.twitter.com/[\w]*',"", text)
return text
df['text'] = df['text'].apply(lambda x: cleaning_PicURL(x))
使用上面的代碼,它將從文本中刪除圖片 URL,這里的split函數(shù)會(huì)將文本拆分為匹配的正則表達(dá)式模式并給我們一個(gè)列表。在推文中,您可能不確定圖片 URL 的位置,因此使用sub函數(shù)而不是split函數(shù)更相關(guān),因?yàn)閟ub函數(shù)會(huì)直接刪除帶有空字符串的匹配文本,它對(duì)您來(lái)說(shuō)很容易。正則表達(dá)式模式pic.twitter.com/[\w]*將有助于匹配文本中的所有 twitter 圖片 URL。希望這可以消除您的疑問(wèn)。
例子:
re.sub(r'pic.twitter.com/[\w]*',"", "test pic.twitter.com/va4nFjFQ5B")
'test '

TA貢獻(xiàn)1845條經(jīng)驗(yàn) 獲得超8個(gè)贊
做這個(gè) :
df['text'] = df['text'].str.replace(r'pic.twitter.com(.*?)\s(.*)', '')
(.*?)\s(.*)
把這個(gè)放在每個(gè)帖子特定的 URL 的其余部分
添加回答
舉報(bào)