1. 创建键值对RDD ( Pair RDD)
RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD元素类型,在分组和聚合中经常会用到。
首先在本地创建一个word.txt,然后上传到hadoop目录中。
方法a:从文件中加载,来创建键值对RDD
pyspark --queue 队列名 [进入spark]
lines = sc.textFile("hadoop地址/word.txt") [加载文件到rdd中]
作者:Macroholica
链接:https://www.jianshu.com/p/a18fd1e5e8e4
點(diǎn)擊查看更多內(nèi)容
為 TA 點(diǎn)贊
評論
評論
共同學(xué)習(xí),寫下你的評論
評論加載中...
作者其他優(yōu)質(zhì)文章
正在加載中
感謝您的支持,我會繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦