第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Pyspark - 使用廣播字典中的日期過濾 RDD

Pyspark - 使用廣播字典中的日期過濾 RDD

撒科打諢 2022-01-18 17:41:02
我有一個我廣播的 python 字典,其中包含用戶的日期過濾器。nested_filter = {"user1":"2018-02-15"}b_filter = sc.broadcast(nested_filter)我想使用這個廣播變量來過濾一個較大的 RDD,其行數(shù)少于過濾日期。rdd_set = sc.parallelize([("user1","2018-02-05"), ("user1","2018-02-20")])rdd_set.filter(lambda fields: fields <= b_filter.value.items()).collect()但它返回一個空的 RDD。有人可以指出我做錯了什么嗎?另外,我需要將字符串日期轉(zhuǎn)換為日期對象嗎?正確的結(jié)果應(yīng)該是:[("user1","2018-02-05")]
查看完整描述

1 回答

?
呼啦一陣風

TA貢獻1802條經(jīng)驗 獲得超6個贊

觀察調(diào)用b_filter.value.items()內(nèi)部返回的值filter與以下內(nèi)容相同:


nested_filter.items()

#[('user1', '2018-02-15')]

那么你的比較就變成了:


("user1","2018-02-05") < [('user1', '2018-02-15')]

#False

這是False。假設(shè)這nested_filter是一個只有 1 項的字典(如此處所示),您可能打算做的是與列表的第一個元素進行比較:


("user1","2018-02-05") < nested_filter.items()[0]

#True

因此,要“修復(fù)”您的代碼,您可以執(zhí)行以下操作:


rdd_set.filter(lambda fields: fields <= b_filter.value.items()[0]).collect()

#[('user1', '2018-02-05')]

但相反,我認為你真正想要的是以下內(nèi)容:


rdd_set.filter(lambda fields: fields[1] <= b_filter.value.get(fields[0])).collect()

#[('user1', '2018-02-05')]

這用于fields[0]從 獲取日期nested_filter(None如果不存在則返回)并將值與fields[1].


正如您所指出的,這種比較將在字符串上按字典順序進行。如果您的日期保持格式不變,這對您來說不是問題YYYY-MM-DD,但對于其他日期格式,您可能需要轉(zhuǎn)換為datetime對象。


查看完整回答
反對 回復(fù) 2022-01-18
  • 1 回答
  • 0 關(guān)注
  • 144 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號