第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

1.Why Apache Spark?

標(biāo)簽:
Spark

原文链接:http://blogxinxiucan.sh1.newtouch.com/2017/07/23/Why-Apache-Spark/

我们生活在“大数据”的时代,其中以各种类型的数据以前所未有的速度生成数据,而这种速度似乎只是在天文学上加速。该数据可以广泛地分类为交易数据,社交媒体内容(例如文本,图像,音频和视频)以及来自仪器化设备的传感器馈送。

但是人们可能会问为什么要重视这一点。原因是:“数据是有价值的,因为它可以做出决定”。

直到几年前,只有少数有技术和资金的公司投资存储和挖掘大量数据才能获得宝贵的见解。不过,雅虎在2009年开放Apache Hadoop的时候,一切都发生了变化。这是一个破坏性的变化,大大降低了大数据处理的水平。因此,许多行业,如医疗保健,基础设施,金融,保险,远程信息处理,消费者,零售,营销,电子商务,媒体,制造和娱乐等行业已经大大受益于Hadoop上的实际应用。

Apache Hadoop提供两个主要功能:

  • HDFS是使用水平可扩展的商品硬件廉价地存储大量数据的容错方式。

  • Map-Reduce,为挖掘数据提供编程结构并获得洞察力。

下面的图1说明了如何通过一系列Map-Reduce步骤处理数据,其中Map-Reduce步骤的输出在典型的Hadoop作业中输入到下一个。

webp

中间结果存储在磁盘上,这意味着大多数Map-Reduce作业都是I / O绑定的,而不是计算上的约束。对于诸如ETL,数据整合和清理等用例,处理时间并不是很大的问题,但是处理时间很重要的其他类型的大数据用例也不是问题。这些用例如下:

  1. 流数据处理进行近实时分析。例如,点击流数据分析来制作视频推荐,这增强了用户参与度。我们必须在准确性和处理时间之间进行权衡。

  2. 大型数据集的交互式查询,因此数据科学家可以对数据集进行自组织查询。

下图2显示了Hadoop如何发展成为几种技术的生态系统,为这些用例提供了非常专门的工具。

webp

虽然我们喜欢Hadoop生态系统中的工具之间的丰富选择,但是使用生态系统繁琐的挑战有几个:

  1. 需要一种不同的技术方案来解决每种类型的用例,因为一些解决方案在不同的用例中不可重用。

  2. 生产力需要熟练掌握多项技术

  3. 某些技术面临版本兼容性问题

  4. 它不适合并行作业中更快的数据共享需求。

这些是Apache Spark解决的挑战!Spark是闪电式快速内存集群计算平台,具有统一的解决方案,解决了批处理,流式传输和交互式用例,如图3所示。

webp




作者:全能程序猿
链接:https://www.jianshu.com/p/c584a03e10d1


點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評(píng)論
  • 收藏
  • 共同學(xué)習(xí),寫(xiě)下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說(shuō)多少就多少
贊賞金額會(huì)直接到老師賬戶(hù)
支付方式
打開(kāi)微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專(zhuān)欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消