第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

<meter id="btdcd"></meter>

<meter id="btdcd"><mark id="btdcd"><kbd id="btdcd"></kbd></mark></meter>

我的購物車

已加入門課程

購物車里空空如也

快去這里選購你中意的課程

實戰(zhàn)課

我的訂單中心

全部開發(fā)者教程

Pandas 入門教程

Pandas 簡介與安裝

Pandas 簡介 Pandas 安裝

Pandas 讀取數(shù)據(jù)

Pandas 讀取數(shù)據(jù) Pandas 讀取 MySql 數(shù)據(jù) Pandas 數(shù)據(jù)結(jié)構(gòu) Series Pandas 數(shù)據(jù)結(jié)構(gòu) DataFrame

Pandas 操作數(shù)據(jù)

Pandas 查詢數(shù)據(jù) Pandas 新增數(shù)據(jù) Pandas 刪除數(shù)據(jù) Pandas 修改數(shù)據(jù) Pandas 缺失值的處理 Pandas 重復(fù)值的處理 Pandas 的算術(shù)運算 Pandas 數(shù)據(jù)的連接拼合 Pandas 排序和排名操作 Pandas 字符串操作 Pandas 層次化索引 Pandas 數(shù)據(jù)重塑

Pandas 分組聚合與時間序列

Pandas 分組聚合操作 Pandas 統(tǒng)計描述操作 Pandas 時間序列概述 Pandas 時間序列之 Timestamp Pandas 時間序列之 Period Pandas 時間序列之 Timedelta Pandas 時間序列相關(guān)總結(jié)

首頁慕課教程 Pandas 入門教程 Pandas 重復(fù)值的處理

松思園 · 更新于 2021-02-25

上一節(jié)

Pandas 缺失值的處理

Pandas 的算術(shù)運算

下一節(jié)

Pandas 重復(fù)值的處理

1. 前言

上一小節(jié)我們學(xué)習(xí)了 Pandas 庫中對于缺失值 NaN 的檢測、過濾和填充操作，對于數(shù)據(jù)完整性的提升有著十分重要的意義，除了缺失數(shù)據(jù)的存在，源數(shù)據(jù)經(jīng)常還會存在重復(fù)性數(shù)據(jù)，尤其是在數(shù)據(jù)量越大的情況下，重復(fù)的概率也越大，數(shù)據(jù)中存在重復(fù)值，是常見的現(xiàn)象，這些數(shù)據(jù)只是根據(jù)我們的分析需要不同，而產(chǎn)生的價值不同，有時我們希望排除這些數(shù)據(jù)進行分析，而有時我們又需要對這部分數(shù)據(jù)進行單獨的分析，那對于重復(fù)數(shù)據(jù)的不同分析需要，Pandas 庫又提供了怎樣的操作呢？

本小節(jié)我們將學(xué)習(xí) Pandas 庫對于重復(fù)數(shù)據(jù)的查找操作和重復(fù)數(shù)據(jù)的刪除操作，為數(shù)據(jù)的進一步分析打下基礎(chǔ)。

2. 重復(fù)值的查找

在講解程序操作之前，我們先處理一下數(shù)據(jù)源，修改一部分重復(fù)數(shù)據(jù)出來，為下面的操作做準(zhǔn)備：
圖片描述

2.1 duplicated () 函數(shù)

該函數(shù)用于檢測數(shù)據(jù)的重復(fù)值，返回值是一個布爾序列，如果某個值存在重復(fù)，則返回的為 True。該函數(shù)有兩個參數(shù)，一個是參數(shù) subset ，用于指定檢測的某個列，另一個是 keep 指定如何控制如何檢測重復(fù)值，有三個值可選擇：

first：表示將第一次出現(xiàn)重復(fù)的值視為唯一的，后面重復(fù)的值標(biāo)記為 True ，默認是這種方式；
last：表示將最后一次出現(xiàn)重復(fù)的值視為唯一的，前面的重復(fù)值標(biāo)記為 True ；
False：表示將所有的重復(fù)項都標(biāo)記為 True ；

下面我們通過實際代碼操作來演示重復(fù)數(shù)據(jù)的檢測操作：

# 導(dǎo)入pandas包
import pandas as pd
data_path="C:/Users/13965/Documents/myFuture/IMOOC/pandasCourse-progress/data_source/第12小節(jié)/execl數(shù)據(jù)demo.xlsx"
# 解析數(shù)據(jù)
data = pd.read_excel(data_path)
print(data)
# --- 輸出結(jié)果 ---
        編程語言   推出時間    價格            主要創(chuàng)始人
0           java  1983年  45.6               James Gosling
1         python  1991年  67.0           Bjarne Stroustrup
2         python  1972年  45.6  Dennis MacAlistair Ritchie
3             js  1983年  45.6                          js
4  James Gosling  2012年  45.6              Rasmus Lerdorf
5            C++   java  75.0           Bjarne Stroustrup

# duplicated() 重復(fù)數(shù)據(jù)的判斷
new_data= data.duplicated()
print(new_data)
# --- 輸出結(jié)果 ---
0    False
1    False
2    False
3    False
4    False
5    False
dtype: bool
# 結(jié)果解析：這里的  duplicated() 函數(shù)我們什么參數(shù)也沒設(shè)置，所有默認會以正行值作為判斷，也就是判斷是否有重復(fù)行的數(shù)據(jù)內(nèi)容。

# duplicated() 設(shè)置 subset
new_data= data.duplicated(subset="價格")
print(new_data)
# --- 輸出結(jié)果 ---
0    False
1    False
2     True
3     True
4     True
5    False
dtype: bool
# 結(jié)果解析：這里程序設(shè)置 subset="價格"，則只對標(biāo)簽為"價格"的列進行重復(fù)數(shù)據(jù)的檢測，可以看到結(jié)果中重復(fù)數(shù)據(jù)值除了第一個重復(fù)值被視為唯一的，后面出現(xiàn)的重復(fù)值檢測結(jié)果均被設(shè)置為了 True，因為 keep 參數(shù)如果不設(shè)置，默認是 first 方式檢測。

# duplicated() 設(shè)置 keep 為 last
new_data= data.duplicated(subset="價格",keep="last")
print(new_data)
# --- 輸出結(jié)果 ---
0     True
1    False
2     True
3     True
4    False
5    False
dtype: bool
# 結(jié)果解析：這里指定 keep="last" ，表示最后一次出現(xiàn)的重復(fù)值視為唯一的，之前出現(xiàn)的重復(fù)值被檢查為重復(fù)，結(jié)果為 True 。

# duplicated() 設(shè)置 keep 為 False
new_data= data.duplicated(subset="價格",keep=False)
print(new_data)
# --- 輸出結(jié)果 ---
0     True
1    False
2     True
3     True
4     True
5    False
dtype: bool
# 結(jié)果解析：這里通過設(shè)置 keep=False ，將檢測出的所有重復(fù)值均表示為 True 。

3. 重復(fù)值的刪除

3.1 drop_duplicates () 函數(shù)

該函數(shù)用于刪除特定列下的重復(fù)數(shù)據(jù)行，并返回一個新的數(shù)據(jù)集對象，其中有兩個重要的參數(shù)，一是 subset ，該參數(shù)用來指定判定重復(fù)的數(shù)據(jù)的列，默認是所有的列；二是 keep 參數(shù)，該參數(shù)是用來控制如何刪除重復(fù)值的，有三個參數(shù)值選項：

first：表示將第一次出現(xiàn)的重復(fù)值視為唯一的，刪除后面出現(xiàn)重復(fù)值的數(shù)據(jù)行，默認是這種方式；
last：表示將最后一次出現(xiàn)重復(fù)的值視為唯一的，刪除前面出現(xiàn)重復(fù)值的數(shù)據(jù)行；
False：表示將刪除重復(fù)值所在的所有數(shù)據(jù)行；

下面我們通過實際代碼操作來演示重復(fù)數(shù)據(jù)的刪除操作：

# 導(dǎo)入pandas包
import pandas as pd
data_path="C:/Users/13965/Documents/myFuture/IMOOC/pandasCourse-progress/data_source/第12小節(jié)/execl數(shù)據(jù)demo.xlsx"
# 解析數(shù)據(jù)
data = pd.read_excel(data_path)
print(data)
# --- 輸出結(jié)果 ---
        編程語言   推出時間    價格               主要創(chuàng)始人
0           java  1983年  45.6               James Gosling
1         python  1991年  67.0           Bjarne Stroustrup
2         python  1972年  45.6  Dennis MacAlistair Ritchie
3             js  1983年  45.6                          js
4  James Gosling  2012年  45.6              Rasmus Lerdorf
5            C++   java  75.0           Bjarne Stroustrup

# drop_duplicates()
data_res=data.drop_duplicates()
print(data_res)
# --- 輸出結(jié)果 ---
            編程語言   推出時間    價格            主要創(chuàng)始人
0           java  1983年  45.6               James Gosling
1         python  1991年  67.0           Bjarne Stroustrup
2         python  1972年  45.6  Dennis MacAlistair Ritchie
3             js  1983年  45.6                          js
4  James Gosling  2012年  45.6              Rasmus Lerdorf
5            C++   java  75.0           Bjarne Stroustrup
# 結(jié)果解析：這里我們直接使用了 drop_duplicates() 函數(shù)，但是沒有傳入任何的參數(shù)，默認則是以整行進行判斷是否存在重復(fù)行，要是存在則進行刪除操作。這里因為沒有重復(fù)行，因此返回的數(shù)據(jù)集和原數(shù)據(jù)集內(nèi)容一樣。

# 設(shè)置 subset="編程語言"
data_res=data.drop_duplicates(subset="編程語言")
print(data_res)
# --- 輸出結(jié)果 ---
            編程語言   推出時間    價格    主要創(chuàng)始人
0           java  1983年  45.6      James Gosling
1         python  1991年  67.0  Bjarne Stroustrup
3             js  1983年  45.6                 js
4  James Gosling  2012年  45.6     Rasmus Lerdorf
5            C++   java  75.0  Bjarne Stroustrup
# 結(jié)果解析：這里設(shè)置了 subset="編程語言" ，以編程語言列為標(biāo)準(zhǔn)查找重復(fù)值，默認 keep="first" 表示第一次的重復(fù)值視為唯一的不進行刪除，通過輸出結(jié)果可以看到，第3行的數(shù)據(jù)被刪除了。

# 設(shè)置 keep="last"
data_res=data.drop_duplicates(subset="編程語言",keep="last")
print(data_res)
# --- 輸出結(jié)果 ---
            編程語言   推出時間    價格            主要創(chuàng)始人
0           java  1983年  45.6               James Gosling
2         python  1972年  45.6  Dennis MacAlistair Ritchie
3             js  1983年  45.6                          js
4  James Gosling  2012年  45.6              Rasmus Lerdorf
5            C++   java  75.0           Bjarne Stroustrup
# 結(jié)果解析：這里設(shè)置了 keep="last" 表示將最后一個出現(xiàn)的重復(fù)值視為唯一的，因此這里刪除了第2行的數(shù)據(jù)。

# 設(shè)置 keep=False
data_res=data.drop_duplicates(subset="編程語言",keep=False)
print(data_res)
# --- 輸出結(jié)果 ---
            編程語言   推出時間    價格      主要創(chuàng)始人
0           java  1983年  45.6      James Gosling
3             js  1983年  45.6                 js
4  James Gosling  2012年  45.6     Rasmus Lerdorf
5            C++   java  75.0  Bjarne Stroustrup
# 結(jié)果解析：通過設(shè)置 keep=False 可以看到所有重復(fù)值所在的行都被刪除了。

3. 小結(jié)

本節(jié)課程我們主要學(xué)習(xí)了 Pandas 庫對于重復(fù)數(shù)據(jù)的處理，包括查詢重復(fù)數(shù)據(jù)值，以及對出現(xiàn)重復(fù)的數(shù)據(jù)進行刪除操作，根據(jù)我們實際的應(yīng)用需要，我們可以方便的去處理重復(fù)數(shù)據(jù)，從而進一步的對數(shù)據(jù)開展分析工作。本節(jié)課程的重點如下：

使用 duplicated () 函數(shù)去檢測重復(fù)數(shù)據(jù)值的操作以及其中參數(shù)的設(shè)置；
使用 drop_duplicates () 函數(shù)去刪除重復(fù)的數(shù)據(jù)值。

圖片描述

上一節(jié)

Pandas 缺失值的處理

下一節(jié)

Pandas 的算術(shù)運算

我要提出意見反饋

索引目錄

Pandas 重復(fù)值的處理

2. 重復(fù)值的查找

2.1 duplicated () 函數(shù)

3. 重復(fù)值的刪除

3.1 drop_duplicates () 函數(shù)

3. 小結(jié)

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

<tfoot id="deqli"></tfoot>