-
統(tǒng)計常規(guī)指標:
1.均值、中位數(shù)、最大值、最小值等
2.計數(shù)類(如統(tǒng)計某值出現(xiàn)多少)
3.缺失值和方差等(方差太小沒有區(qū)分度,缺失值太多也一樣)
4. 分位點、值得頻數(shù)等(不同的分位點的值相同的情況下,需要關注一下!值得頻數(shù)就是統(tǒng)計最經(jīng)常出現(xiàn)的值是誰,有什么比例等)
查看全部 -
數(shù)據(jù)的讀取
查看全部 -
數(shù)據(jù)? 診斷
查看全部 -
依賴包的導入
查看全部 -
數(shù)據(jù)分析依賴包
查看全部 -
數(shù)據(jù)診斷的目的
查看全部 -
1.?數(shù)據(jù)診斷的目的:
1)?了解特征的分布,缺失和異常等情況。(了解了這些情況我們才能更好地做特征工程和數(shù)據(jù)預處理)
2)統(tǒng)計指標可直接用于數(shù)據(jù)預處理
數(shù)據(jù)預處理就是指比如說特征缺失值的填充,缺失值的填充是建模常用的手段。填充的目的有很多。在填充的時候大家一般會采用很多種辦法。比如填一個0,-1,1這種常值進去,但是更多的人可能會填一些統(tǒng)計值,比如說中位數(shù)、眾數(shù)這樣的值進去。如果要用這種方法填數(shù)的話,一般需要對特征值重新計算一遍,如果每次都計算的話,這樣會影響整個模型的效率。更好的辦法:就是可以從前面預處理的過程和結果中把中位數(shù)和眾數(shù)取到,直接填到缺失里面去,這樣可以減少運行計算時間,因為我們只需要提取,不需要計算,這樣的話會減少耗時。除了這個以外,我們也有很多的判斷,比如數(shù)缺失值的比例,眾數(shù)的比例,也是形容特征工程的一個環(huán)節(jié)。當我們整個建模的流程形成之后,這些數(shù)據(jù)診斷的結果也可以起到判斷的作用。
查看全部 -
數(shù)據(jù)? 診斷
查看全部 -
依賴包包括:Numpy,Pandas,Scipy
查看全部 -
了解特征分布,缺失和異常
統(tǒng)計指標可直接用于數(shù)據(jù)預處理
查看全部 -
清洗數(shù)據(jù),是必要之必要的,準備步驟要做好
查看全部 -
為了更高效地學習,這次嘗試從結果出發(fā)來學習 python,看不懂的部分,回頭再查找入門課程。
依賴包-待安裝
特殊值、描述值-待查概念
查看全部 -
1.缺失值不應該存在于EDA中。缺失值是通過分析得出來的。
2.數(shù)據(jù)導入-》數(shù)據(jù)分析-》工具
查看全部 -
1.# 2.Calculating Running time
import timeit
?
start = timeit.default_timer()
df_eda_summary = eda_analysis(missSet=[np.nan, 9999999999, -999999], df=df.iloc[:, 0:3])
print('EDA Running Time: {0:.2f} seconds'.format(timeit.default_timer() - start))
上面是時間的測試示例,我們?nèi)y試每一塊所用時間,由此可以判斷我們的優(yōu)化重點,經(jīng)過測試可知,眾數(shù)部分的時間較長,所以我們后期可對這一部分進行優(yōu)化,優(yōu)化的方法有:1)注釋掉沒用的代碼 2)使用更好的方法去替代原有方法。
查看全部 -
1.整合核心代碼:?
# 12.Combine All Information
????df_eda_summary = pd.concat(
????????[count_un, count_zero, df_mean, df_median, df_mode,
?????????df_mode_count, df_mode_perct, df_min, df_max, df_fre,
?????????df_miss], axis=1
????)
????# 左邊是特征,上邊是有多少統(tǒng)計描述,就拼多少
查看全部
舉報