第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

數(shù)據(jù)清洗

理想中,我們獲取的數(shù)據(jù)都是一樣的格式,可是現(xiàn)實中,會有許多臟數(shù)據(jù),有時候是數(shù)據(jù)太冗余,有時候是數(shù)據(jù)缺失,有時候是同一種類數(shù)據(jù)擁有不同的數(shù)據(jù)格式。比如生日,有的人使用阿拉伯數(shù)字,有的人使用英文簡寫,有的人則是加入了中文字符。

如果只是簡單的某一列數(shù)據(jù)問題,我們可以寫一個腳本進行處理,可是,當數(shù)據(jù)太復雜,數(shù)據(jù)量太大,我們自己編寫腳步就太浪費時間和精力了。有沒有什么可視化工具,可以像操作Excel表格很方便的對數(shù)據(jù)進行分類,排序清洗那?有問題,肯定會有解決問題的方案。我們接下來講解的就是數(shù)據(jù)清洗界的神器 OpenRefine.

OpenRefine 是谷歌一個開源項目,最早這個項目起源于2009年一家叫做Metaweb的公司,后來這個公司被谷歌收購。
OpenRefine 可以方便的清洗數(shù)據(jù),并且擁有簡單容易操作的界面,讓即使非計算機科班的人員也可以很方便的使用這個工具進行數(shù)據(jù)的清洗工作。

1. 安裝 OpenRefine

OpenFine的安裝,就像安裝正常的桌面的軟件一樣,不需要額外設置內(nèi)容,直接安裝即可。雙擊之后,打開 OpenRefine。

如下圖所示:

從以上的頁面中,我們可以知道,我們可以導入本機的 CSV,JSON 或者 Excel等 文件,也可以直接從互聯(lián)網(wǎng)上面進行解析,也可以連接數(shù)據(jù)庫,以及從黏貼版和 Google Data 中獲取原始數(shù)據(jù)。

Tips:OpenRefine 默認打開的 IP 為 127.0.0.1:3333。

2. 簡單的數(shù)據(jù)清洗例子

這里我用一組測試數(shù)據(jù)進行演示簡單的操作。首先,在導入原始數(shù)據(jù)之后,點擊 create project 來創(chuàng)建工程。

接下來,我們選擇需要進行清洗數(shù)據(jù)的列,點擊上面的向下的箭頭,在彈出的菜單中選擇 facet 接下來選擇 Text facet。

在頁面的左邊的浮框中,我們可以看到有許多組不同的數(shù)據(jù),這里我們發(fā)現(xiàn) Altbeir 和 Altbier 是同一個數(shù)據(jù),其中 Altbeir 是拼寫錯誤的單詞,其實也就是我們常說的臟數(shù)據(jù),我們需要將它合并到 Altbier中。

我們在單詞旁邊單詞 edit 按鈕,然后點擊edit進行編輯,接下來點擊apply。

最后,我們看到數(shù)據(jù)被歸并到一起了,臟數(shù)據(jù)被清洗掉了。

3. 小結(jié)

上面演示的只是清除臟數(shù)據(jù)的最基本操作步驟,我們還可以對數(shù)據(jù)進行排序,以及通過正則表達式來篩選數(shù)據(jù),也可以讓軟件智能地為我們推薦一些該歸并的單詞??傊?,OpenRefine 已經(jīng)成為數(shù)據(jù)清洗方面的主流軟件,大家平時需要的功能都可以通過這款軟件進行操作,方便而又快捷。