第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

PySpark Dataframe 根據(jù)函數(shù)返回值創(chuàng)建新列

PySpark Dataframe 根據(jù)函數(shù)返回值創(chuàng)建新列

慕哥6287543 2021-08-24 18:32:20
我有一個(gè)數(shù)據(jù)框,我想根據(jù)函數(shù)返回的值添加一個(gè)新列。此函數(shù)的參數(shù)是來自同一數(shù)據(jù)幀的四列。這個(gè)和這個(gè)有點(diǎn)類似于我想要的,但沒有回答我的問題。這是我的數(shù)據(jù)框(有更多的列然后這四個(gè)) + ------ + ------ + ------ + ------ + | lat1   | lng1   | lat2   | lng2   | + ------ + ------ + ------ + ------ + | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71 | + ------ + ------ + ------ + ------ +我想添加另一列“距離”,它是兩個(gè)位置點(diǎn)(緯度/經(jīng)度)之間的總距離。我有一個(gè)函數(shù),它將四個(gè)位置點(diǎn)作為參數(shù),并將差值作為浮點(diǎn)數(shù)返回。def get_distance(lat_1, lng_1, lat_2, lng_2):   d_lat = lat_2 - lat_1  d_lng = lng_2 - lng_1   temp = (    math.sin(d_lat / 2) ** 2     + math.cos(lat_1)     * math.cos(lat_2)     * math.sin(d_lng / 2) ** 2  )  return 6367.0 * (2 * math.asin(math.sqrt(temp))) 這是我的嘗試導(dǎo)致錯(cuò)誤,我也不確定這種方法,它基于我已經(jīng)提到的其他問題。udf_func = udf(lambda lat_1, lng_1, lat_2, lng_2: get_distance(lat_1, lng_1, lat_2, lng_2), returnType=FloatType())df1 = df.withColumn('difference', udf_func(df.lat1, df_lng1, df.lat2, df.lng2))df_subset1.show()
查看完整描述

2 回答

?
猛跑小豬

TA貢獻(xiàn)1858條經(jīng)驗(yàn) 獲得超8個(gè)贊

關(guān)于 unicode 的堆棧跟蹤部分表明該列的類型是 StringType,因?yàn)槟荒軠p去兩個(gè)字符串。您可以使用df.printSchema().

如果您float(lat1)在任何計(jì)算之前將所有 lats 和 longs 轉(zhuǎn)換為浮點(diǎn)數(shù)(例如),您的 udf 應(yīng)該可以正常執(zhí)行。



查看完整回答
反對 回復(fù) 2021-08-24
  • 2 回答
  • 0 關(guān)注
  • 274 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)