-
?數(shù)據(jù)診斷的目的
? 1.了解特征的分布,缺失和異常等情況
? 2.統(tǒng)計指標課直接用于數(shù)據(jù)與處理
查看全部 -
先安裝好python。numpy包。pandas包。scipy包
查看全部 -
課程目標啊
查看全部 -
基本描述統(tǒng)計:
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999)? (#獲取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())(#對異常值的計數(shù),[:,0]表示所有列的第一列開始,然后找到不同值,再計數(shù))
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))(#如果是多列采用這個形式:apply 函數(shù)遍歷每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)(#還是以第一列為例,找到等于0的,然后將true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))(#還是對多列中等于0的加和)
查看全部 -
統(tǒng)計常規(guī)指標:
1.均值、中位數(shù)、最大值、最小值等
2.計數(shù)類(如統(tǒng)計某值出現(xiàn)多少)
3.缺失值和方差等(方差太小沒有區(qū)分度,缺失值太多也一樣)
分位點、值得頻數(shù)等(不同的分位點的值相同的情況下,需要關注一下!值得頻數(shù)就是統(tǒng)計最經(jīng)常出現(xiàn)的值是誰,有什么比例等)
查看全部 -
數(shù)據(jù)的診斷:
數(shù)據(jù)的獲取與讀取:
數(shù)據(jù)的獲?。篕aggle.
數(shù)據(jù)的讀?。?/p>
數(shù)據(jù)的鏈接:https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供:Santander(提供不滿意用戶,使用調查對因變量分析進而建立模型獲取不滿意
查看全部 -
numpy: 對數(shù)組向量化;
pandas: 把數(shù)據(jù)讀成dataframe形式,讀寫
scipy: 計算,函數(shù),眾數(shù)等計算
1、編碼
2、導入division返回值是一個浮點型的數(shù)
3、導入pd,np,scipy中的stats函數(shù)
查看全部 -
數(shù)據(jù)診斷的主要指標
查看全部 -
依賴包:
Numpy
Pandas
Scipy
查看全部 -
開始學習的第一天
查看全部 -
基本描述統(tǒng)計:
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999)? (#獲取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())(#對異常值的計數(shù),[:,0]表示所有列的第一列開始,然后找到不同值,再計數(shù))
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))(#如果是多列采用這個形式:apply 函數(shù)遍歷每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)(#還是以第一列為例,找到等于0的,然后將true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))(#還是對多列中等于0的加和)
查看全部 -
統(tǒng)計常規(guī)指標:
1.均值、中位數(shù)、最大值、最小值等
2.計數(shù)類(如統(tǒng)計某值出現(xiàn)多少)
3.缺失值和方差等(方差太小沒有區(qū)分度,缺失值太多也一樣)
分位點、值得頻數(shù)等(不同的分位點的值相同的情況下,需要關注一下!值得頻數(shù)就是統(tǒng)計最經(jīng)常出現(xiàn)的值是誰,有什么比例等)
查看全部 -
數(shù)據(jù)的診斷:
數(shù)據(jù)的獲取與讀?。?/p>
數(shù)據(jù)的獲?。篕aggle.
數(shù)據(jù)的讀?。?/p>
數(shù)據(jù)的鏈接:https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供:Santander(提供不滿意用戶,使用調查對因變量分析進而建立模型獲取不滿意客戶)
下面進行一個數(shù)據(jù)的讀取:
##0.Read Data##
df =pd.read_csv("./data/train. csv")? ? #獲取要讀取的文件格式并命名為df;#csv是第一行代碼讀取的格式;./data/train. csv這個路徑也是可以根據(jù)自己保存的不同進行更改的。
label = df ['TARGET']? ?#將要預測的目標名稱賦值給lable;
#要預測的目標label,TARGET是要預測目標的名字
df=df.drop( ['ID, 'TARGET'], axis=1)? ?#將不需要的列給刪除掉;
?#將不需要的變量刪掉,axis=1表示軸=1;?(['ID, 'TARGET'], axis=1)表示刪除ID和TARGET這兩列。
查看全部 -
依賴包:
Numpy、Pandas、Scripy
依賴包的導入:(一般采用)
#-*-coding:utf-8_*_
from? _future_? import division?
import pandas as pd?
import numpy as np?
from scipy import stats查看全部 -
from _future_ import division?確保一個數(shù)除以另外一個數(shù)不等于0,會返回一個浮點型的數(shù)
查看全部
舉報