1 回答

TA貢獻(xiàn)1865條經(jīng)驗(yàn) 獲得超7個(gè)贊
在一些 Teiid 的一些文章和示例上都會(huì)有關(guān)于 JBoss Data Virtualization (Teiid) 通過(guò) Hive 使用Hadoop 作為數(shù)據(jù)源的信息。當(dāng)使用 Hadoop 環(huán)境創(chuàng)建 Data Virtualization 示例時(shí),比如Hortonworks Data Platform, Cloudera Quickstart 等等,里面會(huì)包含大量的開源項(xiàng)目。本篇文章主要是對(duì) Hadoop?生態(tài)系統(tǒng)有個(gè)初步的認(rèn)識(shí),以下的一些開源項(xiàng)目詳情可以查看 hadoop ecosystem table。
Map Reduce -MapReduce 是使用集群的并行,分布式算法處理大數(shù)據(jù)集的可編程模型。Apache MapReduce 是從 Google MapReduce 派生而來(lái)的:在大型集群中簡(jiǎn)化數(shù)據(jù)處理。當(dāng)前的 Apache MapReduce 版本基于 Apache YARN 框架構(gòu)建。YARN = “Yet-Another-Resource-Negotiator”。YARN 可以運(yùn)行非 MapReduce 模型的應(yīng)用。YARN 是 Apache Hadoop 想要超越 MapReduce?數(shù)據(jù)處理能力的一種嘗試。
HDFS - The Hadoop Distributed File System (HDFS) 提供跨多個(gè)機(jī)器存儲(chǔ)大型文件的一種解決方案。Hadoop 和 HDFS 都是從 Google File System (GFS) 中派生的。Hadoop 2.0.0 之前,NameNode 是 HDFS 集群的一個(gè)單點(diǎn)故障 (SPOF) 。利用 Zookeeper,HDFS?高可用性特性解決了這個(gè)問(wèn)題,提供選項(xiàng)來(lái)運(yùn)行兩個(gè)重復(fù)的 NameNodes,在同一個(gè)集群中,同一個(gè) Active/Passive 配置。
HBase - 靈感來(lái)源于 Google BigTable。HBase 是 Google Bigtable 的開源實(shí)現(xiàn),類似 Google Bigtable 利用 GFS 作為其文件存儲(chǔ)系統(tǒng),HBase 利用 Hadoop HDFS 作為其文件存儲(chǔ)系統(tǒng);Google 運(yùn)行 MapReduce 來(lái)處理 Bigtable 中的海量數(shù)據(jù),HBase 同樣利用 Hadoop MapReduce 來(lái)處理 HBase 中的海量數(shù)據(jù);Google Bigtable 利用 Chubby 作為協(xié)同服務(wù),HBase 利用 Zookeeper 作為對(duì)應(yīng)。
Hive - Facebook 開發(fā)的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施。數(shù)據(jù)匯總,查詢和分析。Hive 提供類似 SQL 的語(yǔ)言 (不兼容 SQL92):HiveQL。
Pig - Pig 提供一個(gè)引擎在 Hadoop?并行執(zhí)行數(shù)據(jù)流。Pig 包含一個(gè)語(yǔ)言:Pig Latin,用來(lái)表達(dá)這些數(shù)據(jù)流。Pig Latin 包括大量的傳統(tǒng)數(shù)據(jù)操作 (join, sort, filter, etc.), 也可以讓用戶開發(fā)他們自己的函數(shù),用來(lái)查看,處理和編寫數(shù)據(jù)。Pig 在 hadoop 上運(yùn)行,在 Hadoop?分布式文件系統(tǒng),HDFS 和 Hadoop 處理系統(tǒng),MapReduce 中都有使用。Pig 使用 MapReduce 來(lái)執(zhí)行所有的數(shù)據(jù)處理,編譯 Pig Latin 腳本,用戶可以編寫到一個(gè)系列,一個(gè)或者多個(gè)的 MapReduce 作業(yè),然后執(zhí)行。Pig Latin 看起來(lái)跟大多數(shù)編程語(yǔ)言都不一樣,沒(méi)有 if 狀態(tài)和 for 循環(huán)。
Zookeeper - ZooKeeper 是 Hadoop 的正式子項(xiàng)目,它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper 的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Zookeeper 是 Google 的 Chubby 一個(gè)開源的實(shí)現(xiàn).是高有效和可靠的協(xié)同工作系統(tǒng)。Zookeeper 能夠用來(lái) leader 選舉,配置信息維護(hù)等.在一個(gè)分布式的環(huán)境中,我們需要一個(gè) Master 實(shí)例或存儲(chǔ)一些配置信息,確保文件寫入的一致性等。
- 1 回答
- 0 關(guān)注
- 987 瀏覽
添加回答
舉報(bào)