-
?數(shù)據(jù)診斷的目的
? 1.了解特征的分布,缺失和異常等情況
? 2.統(tǒng)計(jì)指標(biāo)課直接用于數(shù)據(jù)與處理
查看全部 -
先安裝好python。numpy包。pandas包。scipy包
查看全部 -
課程目標(biāo)啊
查看全部 -
基本描述統(tǒng)計(jì):
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999)? (#獲取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())(#對(duì)異常值的計(jì)數(shù),[:,0]表示所有列的第一列開(kāi)始,然后找到不同值,再計(jì)數(shù))
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))(#如果是多列采用這個(gè)形式:apply 函數(shù)遍歷每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)(#還是以第一列為例,找到等于0的,然后將true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))(#還是對(duì)多列中等于0的加和)
查看全部 -
統(tǒng)計(jì)常規(guī)指標(biāo):
1.均值、中位數(shù)、最大值、最小值等
2.計(jì)數(shù)類(如統(tǒng)計(jì)某值出現(xiàn)多少)
3.缺失值和方差等(方差太小沒(méi)有區(qū)分度,缺失值太多也一樣)
分位點(diǎn)、值得頻數(shù)等(不同的分位點(diǎn)的值相同的情況下,需要關(guān)注一下!值得頻數(shù)就是統(tǒng)計(jì)最經(jīng)常出現(xiàn)的值是誰(shuí),有什么比例等)
查看全部 -
數(shù)據(jù)的診斷:
數(shù)據(jù)的獲取與讀?。?/p>
數(shù)據(jù)的獲?。篕aggle.
數(shù)據(jù)的讀取:
數(shù)據(jù)的鏈接:https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供:Santander(提供不滿意用戶,使用調(diào)查對(duì)因變量分析進(jìn)而建立模型獲取不滿意
查看全部 -
numpy: 對(duì)數(shù)組向量化;
pandas: 把數(shù)據(jù)讀成dataframe形式,讀寫(xiě)
scipy: 計(jì)算,函數(shù),眾數(shù)等計(jì)算
1、編碼
2、導(dǎo)入division返回值是一個(gè)浮點(diǎn)型的數(shù)
3、導(dǎo)入pd,np,scipy中的stats函數(shù)
查看全部 -
數(shù)據(jù)診斷的主要指標(biāo)
查看全部 -
依賴包:
Numpy
Pandas
Scipy
查看全部 -
開(kāi)始學(xué)習(xí)的第一天
查看全部 -
基本描述統(tǒng)計(jì):
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999)? (#獲取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())(#對(duì)異常值的計(jì)數(shù),[:,0]表示所有列的第一列開(kāi)始,然后找到不同值,再計(jì)數(shù))
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))(#如果是多列采用這個(gè)形式:apply 函數(shù)遍歷每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)(#還是以第一列為例,找到等于0的,然后將true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))(#還是對(duì)多列中等于0的加和)
查看全部 -
統(tǒng)計(jì)常規(guī)指標(biāo):
1.均值、中位數(shù)、最大值、最小值等
2.計(jì)數(shù)類(如統(tǒng)計(jì)某值出現(xiàn)多少)
3.缺失值和方差等(方差太小沒(méi)有區(qū)分度,缺失值太多也一樣)
分位點(diǎn)、值得頻數(shù)等(不同的分位點(diǎn)的值相同的情況下,需要關(guān)注一下!值得頻數(shù)就是統(tǒng)計(jì)最經(jīng)常出現(xiàn)的值是誰(shuí),有什么比例等)
查看全部 -
數(shù)據(jù)的診斷:
數(shù)據(jù)的獲取與讀?。?/p>
數(shù)據(jù)的獲?。篕aggle.
數(shù)據(jù)的讀?。?/p>
數(shù)據(jù)的鏈接:https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供:Santander(提供不滿意用戶,使用調(diào)查對(duì)因變量分析進(jìn)而建立模型獲取不滿意客戶)
下面進(jìn)行一個(gè)數(shù)據(jù)的讀取:
##0.Read Data##
df =pd.read_csv("./data/train. csv")? ? #獲取要讀取的文件格式并命名為df;#csv是第一行代碼讀取的格式;./data/train. csv這個(gè)路徑也是可以根據(jù)自己保存的不同進(jìn)行更改的。
label = df ['TARGET']? ?#將要預(yù)測(cè)的目標(biāo)名稱賦值給lable;
#要預(yù)測(cè)的目標(biāo)label,TARGET是要預(yù)測(cè)目標(biāo)的名字
df=df.drop( ['ID, 'TARGET'], axis=1)? ?#將不需要的列給刪除掉;
?#將不需要的變量刪掉,axis=1表示軸=1;?(['ID, 'TARGET'], axis=1)表示刪除ID和TARGET這兩列。
查看全部 -
依賴包:
Numpy、Pandas、Scripy
依賴包的導(dǎo)入:(一般采用)
#-*-coding:utf-8_*_
from? _future_? import division?
import pandas as pd?
import numpy as np?
from scipy import stats查看全部 -
from _future_ import division?確保一個(gè)數(shù)除以另外一個(gè)數(shù)不等于0,會(huì)返回一個(gè)浮點(diǎn)型的數(shù)
查看全部
舉報(bào)