我需要計(jì)算標(biāo)記為假/非假的文本中大寫(xiě)字母、特殊標(biāo)點(diǎn)符號(hào)、特定單詞的存在之間的相關(guān)性。例如:Text Label Uppercase Special Punctuation Specific Wordtext1 1 1 0 1text2 0 0 0 0text3 1 1 1 1text4 1 1 1 1text5 0 0 0 1大寫(xiě)字母、特殊標(biāo)點(diǎn)符號(hào)和特定單詞只能取這兩個(gè)值之一:1 或 0。我想確定與標(biāo)簽相關(guān)的這些特征之間的相關(guān)性(假=1/非假=0)。我想使用皮爾遜相關(guān)系數(shù)如下import numpy as np# Create correlation matrixcorr_matrix = df.corr().abs()我可以問(wèn)你這是否是正確的函數(shù),或者Python中是否有不同的相關(guān)函數(shù)來(lái)計(jì)算二進(jìn)制變量之間的相關(guān)性?
2 回答

侃侃無(wú)極
TA貢獻(xiàn)2051條經(jīng)驗(yàn) 獲得超10個(gè)贊
該函數(shù)是正確的,但我不明白為什么你只使用絕對(duì)值。相關(guān)性的符號(hào)可以為關(guān)聯(lián)的方向提供信息。我不熟悉你的背景,所以我只是標(biāo)記這一點(diǎn),而不做進(jìn)一步的說(shuō)明。
相關(guān)性可以用略有不同的方式計(jì)算,即“pearson”、“kendall”、“spearman”。默認(rèn)方法是“pearson”。您可以通過(guò)指定“method”參數(shù)來(lái)使用其他方法進(jìn)行計(jì)算。像這樣:
corr_matrix?=?df.corr(method?=?'kendall')

LEATH
TA貢獻(xiàn)1936條經(jīng)驗(yàn) 獲得超7個(gè)贊
.corr()
如果你有數(shù)值,應(yīng)該可以工作。
如果您的變量是字符串,只需將它們轉(zhuǎn)換為整數(shù)并使用相關(guān)性即可。這應(yīng)該有效:
df[['Uppercase','Special Punctuation', 'Specific Word']].astype(int).corr()
添加回答
舉報(bào)
0/150
提交
取消