首頁猿問 Pyspark -...

Pyspark - 使用廣播字典中的日期過濾 RDD

Python

撒科打諢 2022-01-18 17:41:02

我有一個(gè)我廣播的 python 字典，其中包含用戶的日期過濾器。nested_filter = {"user1":"2018-02-15"}b_filter = sc.broadcast(nested_filter)我想使用這個(gè)廣播變量來過濾一個(gè)較大的 RDD，其行數(shù)少于過濾日期。rdd_set = sc.parallelize([("user1","2018-02-05"), ("user1","2018-02-20")])rdd_set.filter(lambda fields: fields <= b_filter.value.items()).collect()但它返回一個(gè)空的 RDD。有人可以指出我做錯(cuò)了什么嗎？另外，我需要將字符串日期轉(zhuǎn)換為日期對象嗎？正確的結(jié)果應(yīng)該是：[("user1","2018-02-05")]

查看完整描述

1 回答

呼啦一陣風(fēng)

TA貢獻(xiàn)1802條經(jīng)驗(yàn) 獲得超6個(gè)贊

觀察調(diào)用b_filter.value.items()內(nèi)部返回的值filter與以下內(nèi)容相同：

nested_filter.items()

#[('user1', '2018-02-15')]

那么你的比較就變成了：

("user1","2018-02-05") < [('user1', '2018-02-15')]

#False

這是False。假設(shè)這nested_filter是一個(gè)只有 1 項(xiàng)的字典（如此處所示），您可能打算做的是與列表的第一個(gè)元素進(jìn)行比較：

("user1","2018-02-05") < nested_filter.items()[0]

#True

因此，要“修復(fù)”您的代碼，您可以執(zhí)行以下操作：

rdd_set.filter(lambda fields: fields <= b_filter.value.items()[0]).collect()

#[('user1', '2018-02-05')]

但相反，我認(rèn)為你真正想要的是以下內(nèi)容：

rdd_set.filter(lambda fields: fields[1] <= b_filter.value.get(fields[0])).collect()

#[('user1', '2018-02-05')]

這用于fields[0]從獲取日期nested_filter（None如果不存在則返回）并將值與fields[1].

正如您所指出的，這種比較將在字符串上按字典順序進(jìn)行。如果您的日期保持格式不變，這對您來說不是問題YYYY-MM-DD，但對于其他日期格式，您可能需要轉(zhuǎn)換為datetime對象。

反對回復(fù) 2022-01-18

1 回答
0 關(guān)注
145 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Pyspark - 使用廣播字典中的日期過濾 RDD

Pyspark - 使用廣播字典中的日期過濾 RDD

1 回答

添加回答