第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

慕課網(wǎng)首頁
免費(fèi)課
實(shí)戰(zhàn)課
體系課
發(fā)現(xiàn)
評(píng)價(jià) 教程專欄手記
商業(yè)合作
企業(yè)服務(wù) 講師入駐

已解決430363個(gè)問題，去搜搜看，總會(huì)有你想問的

使用 pandas 和 fuzzwuzzy 匹配相似的列元素

首頁猿問使用 pandas 和...

使用 pandas 和 fuzzwuzzy 匹配相似的列元素

Python

慕勒3428872 2021-07-02 18:01:03

我有一個(gè) excel 文件，其中一列包含 1000 多個(gè)公司名稱，另一列包含大約 20,000 個(gè)公司名稱。目標(biāo)是匹配盡可能多的名稱。問題是第一列(1000+)中的名稱格式不正確，這意味著“公司名稱”字符串可能類似于“9Com(panynAm9e00”。我正在嘗試找出解決此問題的最佳方法。（僅12 個(gè)名字完全匹配）在嘗試了不同的方法后，我最終嘗試使用正則表達(dá)式匹配每個(gè)名稱中的 4-5 個(gè)或更多字符，具體取決于每個(gè)字符串的長(zhǎng)度。但我只是在努力尋找最有效的方法來做到這一點(diǎn)。例如：第 1 欄 1. 9Com(panynAm9e00 2. NikE4 3. Mitrosof2第 2 欄 1. Microsoft 2. Company Name 3. Nike取第1 列中的第一個(gè)元素并在第 2 列中查找匹配項(xiàng)。如果沒有完全匹配，則查找具有 4-5 個(gè)相同字符的字符串。有什么建議么？

查看完整描述

2 回答

SMILET

TA貢獻(xiàn)1796條經(jīng)驗(yàn) 獲得超4個(gè)贊

我想數(shù)字在實(shí)際公司名稱中并不是很常見，因此初始過濾步驟將極大地幫助前進(jìn)，但這里有一個(gè)實(shí)現(xiàn)，即使沒有這個(gè)也應(yīng)該可以相對(duì)良好地工作。一個(gè)信袋（bag-of-words）方法，如果你愿意：

將所有內(nèi)容（第 1 列和第 2 列）轉(zhuǎn)換為小寫
對(duì)于第 2 列中的每個(gè)已知公司，存儲(chǔ)每個(gè)唯一字母以及它在字典中出現(xiàn)的次數(shù)（計(jì)數(shù)）
對(duì)第 1 列中的每個(gè)條目執(zhí)行相同操作（步驟 2）
對(duì)于第 1 列中的每個(gè)條目，從真實(shí)公司名稱列表中找到最接近的信袋（步驟 2 中的字典）

字典距離的實(shí)現(xiàn)取決于你。

反對(duì) 回復(fù) 2021-07-06

2 回答
0 關(guān)注
208 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

<thead id="1v63v"><rt id="1v63v"></rt></thead>