描述我有兩個(gè)數(shù)據(jù)集,其中包含我需要合并的信息。我僅有的常見字段是不完全匹配的字符串和可能完全不同的數(shù)字字段解釋問題的唯一方法是向您顯示數(shù)據(jù)。這是a.csv和b.csv。我正在嘗試將B合并為A。B中有三個(gè)字段,A中有四個(gè)字段。公司名稱(僅文件A),基金名稱,資產(chǎn)類別和資產(chǎn)。到目前為止,我的重點(diǎn)一直是嘗試通過替換單詞或字符串的一部分以創(chuàng)建完全匹配項(xiàng),然后使用以下方法來匹配基金名稱:a <- read.table(file = "http://bertelsen.ca/R/a.csv",header=TRUE, sep=",", na.strings=F, strip.white=T, blank.lines.skip=F, stringsAsFactors=T) b <- read.table(file = "http://bertelsen.ca/R/b.csv",header=TRUE, sep=",", na.strings=F, strip.white=T, blank.lines.skip=F, stringsAsFactors=T)merge(a,b, by="Fund.Name") 但是,這只能使我達(dá)到30%的匹配率。剩下的我要手工做。資產(chǎn)是一個(gè)數(shù)值字段,在任何一個(gè)字段中都不總是正確的,并且如果基金的資產(chǎn)較低,則可能會(huì)發(fā)生巨大變化。資產(chǎn)類別是一個(gè)字符串字段,在兩個(gè)文件中“通?!笔窍嗤?,但是存在差異。更為復(fù)雜的是文件B中的不同系列的資金。例如:AGF加拿大價(jià)值A(chǔ)GF加拿大價(jià)值-D在這些情況下,我必須選擇一個(gè)不保留的匹配項(xiàng),或者選擇一個(gè)稱為“ A”,“-A”或“ Advisor”的匹配項(xiàng)。題您說什么是最好的方法?我必須每月進(jìn)行一次鍛煉,而手動(dòng)進(jìn)行匹配非常耗時(shí)。代碼示例將起到輔助作用。想法我認(rèn)為一種可行的方法是根據(jù)字符串中每個(gè)單詞的第一個(gè)大寫字母對(duì)字符串進(jìn)行規(guī)范化。但是我還無法弄清楚如何使用R實(shí)現(xiàn)這一目標(biāo)。我考慮的另一種方法是根據(jù)資產(chǎn),基金名稱,資產(chǎn)類別和公司的組合創(chuàng)建匹配索引。但是同樣,我不確定如何用R做到這一點(diǎn)。或者,即使有可能,也是如此。代碼示例,注釋,思想和指導(dǎo)非常感謝!
3 回答

慕后森
TA貢獻(xiàn)1802條經(jīng)驗(yàn) 獲得超5個(gè)贊
我也是加拿大人,認(rèn)出基金名稱。
這是一個(gè)困難的過程,因?yàn)槊總€(gè)數(shù)據(jù)提供者都為各個(gè)基金名稱選擇自己的形式。有些使用不同的結(jié)構(gòu),例如全部以基金或類別結(jié)尾,其他到處都是。每個(gè)人似乎也都選擇自己的短格式,并且這些格式會(huì)定期更改。
這就是為什么像您這樣的許多人定期手動(dòng)執(zhí)行此操作的原因。一些咨詢公司會(huì)列出索引以鏈接各種資源,不確定您是否探索過該路線?
正如Shane和Marek所指出的那樣,這不僅僅是一項(xiàng)直截了當(dāng)?shù)墓ぷ?,而是一?xiàng)匹配的任務(wù)。許多公司正在為此奮斗。我正在為此工作...
- 3 回答
- 0 關(guān)注
- 1837 瀏覽
添加回答
舉報(bào)
0/150
提交
取消