藍(lán)色和綠色是兩種不同的key值,為什么會(huì)進(jìn)到同一個(gè)parition (2-3 Map-Shuffle-Reduce)
2:04老師說(shuō)假定文件中只有3種不同的key值(分別是藍(lán)色、綠色、黃色)
2:37又說(shuō)所有相同key值的數(shù)據(jù)都會(huì)匯聚到一個(gè)partition
那么藍(lán)色和綠色這兩種不同的key值,為什么會(huì)進(jìn)到一個(gè)parition中呢?
老師,這個(gè)地方您是不是沒(méi)將清楚呢?
2018-10-15
因?yàn)槔蠋煹睦臃Nreduce的partition只有兩個(gè),輸入有3個(gè)key,所以其中必須有兩個(gè)key落到同一個(gè)partition內(nèi)。
所有相同的key匯聚到一個(gè)partition,沒(méi)毛病。所有藍(lán)色的key都在一個(gè)partition內(nèi),所有綠色的key都在一個(gè)partition內(nèi),所有黃色的也一樣。只是可能有多個(gè)key公用一個(gè)partition而已。
為什么藍(lán)色和綠色的兩個(gè)key會(huì)進(jìn)入到一個(gè)partition呢,這個(gè)要看具體的key的值和shuffer算法。比如:藍(lán)色key=1,綠色key=3,黃色key=2,shuffer算法是根據(jù)partition數(shù)量(2)求模運(yùn)算,那么綠色和藍(lán)色就分到同一個(gè)partiton了阿。
不知道你明白沒(méi)?
2018-10-16
感謝兩位朋友的回答!??!
2018-10-08
我理解的是同一個(gè)parition中的任務(wù)的數(shù)量可以自己進(jìn)行設(shè)置,最大72的那個(gè),這里面的設(shè)置數(shù)量為2,所以同時(shí)兩個(gè)任務(wù)進(jìn)入同一個(gè)parition中,第三個(gè)無(wú)法容納所以進(jìn)入一個(gè)新的。如果不對(duì)請(qǐng)進(jìn)行糾正,謝謝