-
分布式存儲,主節(jié)點負(fù)責(zé)分發(fā),告訴客戶端具體從節(jié)點信息,然后客戶端直接訪問從節(jié)點
查看全部 -
flom日志采集工具?查看全部
-
使用sqoop將hdfs中指定目錄的數(shù)據(jù)導(dǎo)出到mysql中
查看全部 -
具體操作步驟
查看全部 -
使用Sqoop將計算結(jié)果導(dǎo)出到Mysql
1、快速安裝Sqoop工具
2、數(shù)據(jù)導(dǎo)出功能開發(fā),使用Sqoop將MapReduce計算的結(jié)果導(dǎo)出到MysQL中
查看全部 -
任務(wù)執(zhí)行結(jié)果監(jiān)控、預(yù)警
1、針對任務(wù)執(zhí)行結(jié)果進(jìn)行檢測,如果執(zhí)行失敗,,則重試任務(wù)
2、腳本開發(fā)
查看全部 -
任務(wù)定時腳本封裝
1、把任務(wù)提交命令進(jìn)行封裝,方便使用,便于定時任務(wù)調(diào)度
2、腳本開發(fā)
查看全部 -
自定義Writable代碼實現(xiàn)
1、由于原始數(shù)據(jù)中涉及到多個需要統(tǒng)計的字段,所以可以把這幾個字段統(tǒng)一記錄在一個自定義數(shù)據(jù)類型中,方便使用。
2、代碼實現(xiàn)
查看全部 -
數(shù)據(jù)統(tǒng)計代碼實現(xiàn)
1、對數(shù)據(jù)中的金幣數(shù)量,總觀看pv,粉絲數(shù)量,視頻總開播時長等指標(biāo)進(jìn)行統(tǒng)計
2、統(tǒng)計每天開播時長最長的前10名主播及對應(yīng)的開播時長
3、代碼實現(xiàn)
查看全部 -
原始數(shù)據(jù)清洗代碼實現(xiàn)
1、由于原始數(shù)據(jù)是通過日志方式進(jìn)行記錄的,在使用日志采集工具采集到HDFS之后,還需要對數(shù)據(jù)進(jìn)行清洗過濾,丟棄缺失字段的數(shù)據(jù),針對異常字段進(jìn)行標(biāo)準(zhǔn)化處理
查看全部 -
需求分析
1、運營部門需要針對主播每天的開播數(shù)據(jù)進(jìn)行分析,統(tǒng)計出來每天受歡迎程度比較高的一些主播,進(jìn)而對這些主播分發(fā)更多流量,挖掘更大價值。
查看全部 -
shuffle作用:將相同分區(qū)的數(shù)據(jù)拉取到統(tǒng)一reduce節(jié)點進(jìn)行處理
查看全部 -
多文件處理過程2
查看全部 -
多文件處理過程1
查看全部 -
需要開發(fā)者實現(xiàn):
????????????Map階段的第二步驟
????????????Reduce階段的第三步驟
查看全部
舉報