hadoop中實現(xiàn)join的方式有哪些
1 回答

慕尼黑5688855
TA貢獻(xiàn)1848條經(jīng)驗 獲得超2個贊
reduce side join是一種最簡單的join方式,其主要思想如下:
在map階段,map函數(shù)同時讀取兩個文件File1和File2,為了區(qū)分兩種來源的key/value數(shù)據(jù)對,對每條數(shù)據(jù)打一個標(biāo)簽(tag),比如:tag=0表示來自文件File1,tag=2表示來自文件File2。即:map階段的主要任務(wù)是對不同文件中的數(shù)據(jù)打標(biāo)簽。
在reduce階段,reduce函數(shù)獲取key相同的來自File1和File2文件的value list, 然后對于同一個key,對File1和File2中的數(shù)據(jù)進(jìn)行join(笛卡爾乘積)。即:reduce階段進(jìn)行實際的連接操作。
REF:hadoop join之reduce side join
- 1 回答
- 0 關(guān)注
- 862 瀏覽
添加回答
舉報
0/150
提交
取消