幕布斯7119047
2018-07-30 09:17:57
數(shù)據(jù)量大 就是大數(shù)據(jù),這個說法對嗎?
3 回答

陪伴而非守候
TA貢獻(xiàn)1757條經(jīng)驗(yàn) 獲得超8個贊
數(shù)據(jù)量大是大數(shù)據(jù)的必要而非充分條件。所謂的大數(shù)據(jù)
,是一種技術(shù)高度發(fā)展下衍生的概念,指原本沒有能力處理也被認(rèn)為沒有價(jià)值的大量非結(jié)構(gòu)化的數(shù)據(jù),比如用戶的訪問記錄、聊天記錄、購買記錄等等,由于谷歌三駕馬車
論文發(fā)表后分布式計(jì)算技術(shù)被普及而變得可以方便地存儲和處理,而另一方面通過原有只能運(yùn)用在小數(shù)據(jù)樣本上的統(tǒng)計(jì)學(xué)習(xí)方法,反而得到了一些傳統(tǒng)的數(shù)據(jù)分析方法(強(qiáng)調(diào)因果)不能獲得或與人類直覺相反(比如典型的啤酒與尿布
問題)的知識。
引用Coursera數(shù)據(jù)科學(xué)專項(xiàng)課程的一個定義:
Big data = now possible to collect data cheap, but not necessarily all useful (need the right data)

哈士奇WWW
TA貢獻(xiàn)1799條經(jīng)驗(yàn) 獲得超6個贊
大數(shù)據(jù)介紹
?-?"大數(shù)據(jù)"首先是指數(shù)據(jù)體量大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量;?-?其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。?-?接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時處理。?-?最后一個特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。
大數(shù)據(jù)特點(diǎn)
要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。 大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個V來總結(jié)(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。 ?-?1、?數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。 ?-?2、?數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。? ?-?3、價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。? ?-?4、處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。 大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。 解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。 大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過解決巨量數(shù)據(jù)處理問題促進(jìn)其突破性發(fā)展。 因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時代發(fā)展的前沿。
- 3 回答
- 0 關(guān)注
- 2523 瀏覽
添加回答
舉報(bào)
0/150
提交
取消