第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

在 Python 中的字符串系列中替換不正確單詞的有效方法

在 Python 中的字符串系列中替換不正確單詞的有效方法

BIG陽 2022-01-18 17:51:25
我正在處理手寫的文本數(shù)據(jù),所以它有很多拼寫錯(cuò)誤。我目前正在清理數(shù)據(jù),并且當(dāng)單詞不存在時(shí)pyspellchecker,我正在使用該方法查找最可能的單詞。correct()我的方法是創(chuàng)建一個(gè)字典,其中所有寫得不好的單詞作為鍵,最有可能的單詞作為值:dic={}for i in df.text:    misspelled = spell.unknown(i.split())    for word in misspelled:        dic[word]=spell.correction(word)盡管這是有效的,但它的速度非常緩慢。因此,我想知道是否有更快的選擇來實(shí)現(xiàn)這一點(diǎn)。你有什么想法?編輯:df.text 中有 10571 行,字符串通常有 5-15 個(gè)字長。每個(gè)循環(huán)大約需要 3-5 秒,這使得運(yùn)行整個(gè)循環(huán)總共需要大約 40000 秒。
查看完整描述

2 回答

?
冉冉說

TA貢獻(xiàn)1877條經(jīng)驗(yàn) 獲得超1個(gè)贊

如果您只想創(chuàng)建一個(gè)從您遇到的拼寫錯(cuò)誤的單詞到他們的建議的映射,您可以通過刪除重復(fù)的單詞來減小數(shù)據(jù)集的大小。spell.unknown這將最大限度地減少對(duì)and的調(diào)用次數(shù),spell.correction并防止對(duì)字典內(nèi)容進(jìn)行不必要的更新。


uniquewords = set().union(*(sentence.split() for sentence in df.text))

corrections = {word: spell.correction(word) for word in spell.unknown(uniquewords)}


查看完整回答
反對(duì) 回復(fù) 2022-01-18
?
慕容3067478

TA貢獻(xiàn)1773條經(jīng)驗(yàn) 獲得超3個(gè)贊

您可以嘗試 pd.apply 而不是循環(huán):


eng = pd.Series(['EmpName', 'EMP_NAME', 'EMP.NAME', 'EMPName', 'CUSTOMIR', 'TIER187CAST', 'MultipleTIMESTAMPinTABLE', 'USD$'])

eng = eng.str.lower()

eng = eng.str.split()

spell = SpellChecker()

def msp(x):

    return spell.unknown(x)

eng.apply(msp)


查看完整回答
反對(duì) 回復(fù) 2022-01-18
  • 2 回答
  • 0 關(guān)注
  • 254 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)