我有一個(gè)數(shù)據(jù)框,我想根據(jù)函數(shù)返回的值添加一個(gè)新列。此函數(shù)的參數(shù)是來自同一數(shù)據(jù)幀的四列。這個(gè)和這個(gè)有點(diǎn)類似于我想要的,但沒有回答我的問題。這是我的數(shù)據(jù)框(有更多的列然后這四個(gè)) + ------ + ------ + ------ + ------ + | lat1 | lng1 | lat2 | lng2 | + ------ + ------ + ------ + ------ + | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71 | + ------ + ------ + ------ + ------ +我想添加另一列“距離”,它是兩個(gè)位置點(diǎn)(緯度/經(jīng)度)之間的總距離。我有一個(gè)函數(shù),它將四個(gè)位置點(diǎn)作為參數(shù),并將差值作為浮點(diǎn)數(shù)返回。def get_distance(lat_1, lng_1, lat_2, lng_2): d_lat = lat_2 - lat_1 d_lng = lng_2 - lng_1 temp = ( math.sin(d_lat / 2) ** 2 + math.cos(lat_1) * math.cos(lat_2) * math.sin(d_lng / 2) ** 2 ) return 6367.0 * (2 * math.asin(math.sqrt(temp))) 這是我的嘗試導(dǎo)致錯(cuò)誤,我也不確定這種方法,它基于我已經(jīng)提到的其他問題。udf_func = udf(lambda lat_1, lng_1, lat_2, lng_2: get_distance(lat_1, lng_1, lat_2, lng_2), returnType=FloatType())df1 = df.withColumn('difference', udf_func(df.lat1, df_lng1, df.lat2, df.lng2))df_subset1.show()
2 回答

猛跑小豬
TA貢獻(xiàn)1858條經(jīng)驗(yàn) 獲得超8個(gè)贊
關(guān)于 unicode 的堆棧跟蹤部分表明該列的類型是 StringType,因?yàn)槟荒軠p去兩個(gè)字符串。您可以使用df.printSchema()
.
如果您float(lat1)
在任何計(jì)算之前將所有 lats 和 longs 轉(zhuǎn)換為浮點(diǎn)數(shù)(例如),您的 udf 應(yīng)該可以正常執(zhí)行。
添加回答
舉報(bào)
0/150
提交
取消