3 回答

TA貢獻(xiàn)1880條經(jīng)驗(yàn) 獲得超4個(gè)贊
F.when(F.col('Name') == None)
None 是 python 中的對象,NoneType
. 它與空字符串或 0 不同。對于這種情況,您可能希望使用
F.when(F.col('Name') is None)
使用==
你正在檢查F.col('Name')
value 是否等于 None 對象,它會(huì)把東西扔掉。

TA貢獻(xiàn)1829條經(jīng)驗(yàn) 獲得超7個(gè)贊
請參閱此處:使用 None 值過濾 Pyspark 數(shù)據(jù)框列
基于相等的與 NULL 的比較將不起作用,因?yàn)樵?SQL 中 NULL 是未定義的,因此任何將其與另一個(gè)值進(jìn)行比較的嘗試都會(huì)返回 NULL

TA貢獻(xiàn)1829條經(jīng)驗(yàn) 獲得超7個(gè)贊
在數(shù)據(jù)世界中,兩個(gè)Null值(或兩個(gè)值None)并不相同。
因此,如果您對兩個(gè)值執(zhí)行==or!=操作None,它總是會(huì)產(chǎn)生False. 這是構(gòu)建功能的isNull()關(guān)鍵原因。isNotNull()
請看下面的例子以便更好地理解 -
創(chuàng)建一個(gè)dataframe具有少量有效記錄和一個(gè)記錄的None
from pyspark.sql.types import *
from pyspark.sql import Row
from pyspark.sql.functions import col
lst = [(1,'sometext'),(2,''),(3, None),(4, 'someothertext')]
myrdd = sc.parallelize(lst).map(lambda x: Row(id=x[0], txt=x[1]))
mydf= sqlContext.createDataFrame(myrdd)
isNull()返回True第 3 行,因此下面的語句返回一行 -
mydf.filter(col("txt").isNull()).show(truncate=False)
+---+----+
|id |txt |
+---+----+
|3 |null|
+---+----+
==運(yùn)算符返回False第 3 行,因此沒有記錄被過濾掉。
mydf.filter(col("txt") == None).show(truncate=False)
+---+---+
|id |txt|
+---+---+
+---+---+
添加回答
舉報(bào)