-
統(tǒng)計(jì)常規(guī)指標(biāo):
1.均值、中位數(shù)、最大值、最小值等
2.計(jì)數(shù)類(如統(tǒng)計(jì)某值出現(xiàn)多少)
3.缺失值和方差等(方差太小沒(méi)有區(qū)分度,缺失值太多也一樣)
4. 分位點(diǎn)、值得頻數(shù)等(不同的分位點(diǎn)的值相同的情況下,需要關(guān)注一下!值得頻數(shù)就是統(tǒng)計(jì)最經(jīng)常出現(xiàn)的值是誰(shuí),有什么比例等)
查看全部 -
數(shù)據(jù)的讀取
查看全部 -
數(shù)據(jù)? 診斷
查看全部 -
依賴包的導(dǎo)入
查看全部 -
數(shù)據(jù)分析依賴包
查看全部 -
數(shù)據(jù)診斷的目的
查看全部 -
1.?數(shù)據(jù)診斷的目的:
1)?了解特征的分布,缺失和異常等情況。(了解了這些情況我們才能更好地做特征工程和數(shù)據(jù)預(yù)處理)
2)統(tǒng)計(jì)指標(biāo)可直接用于數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理就是指比如說(shuō)特征缺失值的填充,缺失值的填充是建模常用的手段。填充的目的有很多。在填充的時(shí)候大家一般會(huì)采用很多種辦法。比如填一個(gè)0,-1,1這種常值進(jìn)去,但是更多的人可能會(huì)填一些統(tǒng)計(jì)值,比如說(shuō)中位數(shù)、眾數(shù)這樣的值進(jìn)去。如果要用這種方法填數(shù)的話,一般需要對(duì)特征值重新計(jì)算一遍,如果每次都計(jì)算的話,這樣會(huì)影響整個(gè)模型的效率。更好的辦法:就是可以從前面預(yù)處理的過(guò)程和結(jié)果中把中位數(shù)和眾數(shù)取到,直接填到缺失里面去,這樣可以減少運(yùn)行計(jì)算時(shí)間,因?yàn)槲覀冎恍枰崛?,不需要?jì)算,這樣的話會(huì)減少耗時(shí)。除了這個(gè)以外,我們也有很多的判斷,比如數(shù)缺失值的比例,眾數(shù)的比例,也是形容特征工程的一個(gè)環(huán)節(jié)。當(dāng)我們整個(gè)建模的流程形成之后,這些數(shù)據(jù)診斷的結(jié)果也可以起到判斷的作用。
查看全部 -
數(shù)據(jù)? 診斷
查看全部 -
依賴包包括:Numpy,Pandas,Scipy
查看全部 -
了解特征分布,缺失和異常
統(tǒng)計(jì)指標(biāo)可直接用于數(shù)據(jù)預(yù)處理
查看全部 -
清洗數(shù)據(jù),是必要之必要的,準(zhǔn)備步驟要做好
查看全部 -
為了更高效地學(xué)習(xí),這次嘗試從結(jié)果出發(fā)來(lái)學(xué)習(xí) python,看不懂的部分,回頭再查找入門(mén)課程。
依賴包-待安裝
特殊值、描述值-待查概念
查看全部 -
1.缺失值不應(yīng)該存在于EDA中。缺失值是通過(guò)分析得出來(lái)的。
2.數(shù)據(jù)導(dǎo)入-》數(shù)據(jù)分析-》工具
查看全部 -
1.# 2.Calculating Running time
import timeit
?
start = timeit.default_timer()
df_eda_summary = eda_analysis(missSet=[np.nan, 9999999999, -999999], df=df.iloc[:, 0:3])
print('EDA Running Time: {0:.2f} seconds'.format(timeit.default_timer() - start))
上面是時(shí)間的測(cè)試示例,我們?nèi)y(cè)試每一塊所用時(shí)間,由此可以判斷我們的優(yōu)化重點(diǎn),經(jīng)過(guò)測(cè)試可知,眾數(shù)部分的時(shí)間較長(zhǎng),所以我們后期可對(duì)這一部分進(jìn)行優(yōu)化,優(yōu)化的方法有:1)注釋掉沒(méi)用的代碼 2)使用更好的方法去替代原有方法。
查看全部 -
1.整合核心代碼:?
# 12.Combine All Information
????df_eda_summary = pd.concat(
????????[count_un, count_zero, df_mean, df_median, df_mode,
?????????df_mode_count, df_mode_perct, df_min, df_max, df_fre,
?????????df_miss], axis=1
????)
????# 左邊是特征,上邊是有多少統(tǒng)計(jì)描述,就拼多少
查看全部
舉報(bào)