第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

Pyspark - 使用廣播字典中的日期過濾 RDD

Pyspark - 使用廣播字典中的日期過濾 RDD

撒科打諢 2022-01-18 17:41:02
我有一個(gè)我廣播的 python 字典,其中包含用戶的日期過濾器。nested_filter = {"user1":"2018-02-15"}b_filter = sc.broadcast(nested_filter)我想使用這個(gè)廣播變量來過濾一個(gè)較大的 RDD,其行數(shù)少于過濾日期。rdd_set = sc.parallelize([("user1","2018-02-05"), ("user1","2018-02-20")])rdd_set.filter(lambda fields: fields <= b_filter.value.items()).collect()但它返回一個(gè)空的 RDD。有人可以指出我做錯(cuò)了什么嗎?另外,我需要將字符串日期轉(zhuǎn)換為日期對象嗎?正確的結(jié)果應(yīng)該是:[("user1","2018-02-05")]
查看完整描述

1 回答

?
呼啦一陣風(fēng)

TA貢獻(xiàn)1802條經(jīng)驗(yàn) 獲得超6個(gè)贊

觀察調(diào)用b_filter.value.items()內(nèi)部返回的值filter與以下內(nèi)容相同:


nested_filter.items()

#[('user1', '2018-02-15')]

那么你的比較就變成了:


("user1","2018-02-05") < [('user1', '2018-02-15')]

#False

這是False。假設(shè)這nested_filter是一個(gè)只有 1 項(xiàng)的字典(如此處所示),您可能打算做的是與列表的第一個(gè)元素進(jìn)行比較:


("user1","2018-02-05") < nested_filter.items()[0]

#True

因此,要“修復(fù)”您的代碼,您可以執(zhí)行以下操作:


rdd_set.filter(lambda fields: fields <= b_filter.value.items()[0]).collect()

#[('user1', '2018-02-05')]

但相反,我認(rèn)為你真正想要的是以下內(nèi)容:


rdd_set.filter(lambda fields: fields[1] <= b_filter.value.get(fields[0])).collect()

#[('user1', '2018-02-05')]

這用于fields[0]從 獲取日期nested_filter(None如果不存在則返回)并將值與fields[1].


正如您所指出的,這種比較將在字符串上按字典順序進(jìn)行。如果您的日期保持格式不變,這對您來說不是問題YYYY-MM-DD,但對于其他日期格式,您可能需要轉(zhuǎn)換為datetime對象。


查看完整回答
反對 回復(fù) 2022-01-18
  • 1 回答
  • 0 關(guān)注
  • 145 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號