首頁猿問 PySpark - 按行和列計(jì)算不同

PySpark - 按行和列計(jì)算不同

Python

侃侃爾雅 2022-10-06 17:04:23

您能否建議如何計(jì)算以下情況的不同值。我在 PySpark 中有數(shù)據(jù)框（列：'Rank'、'Song'、'Artist'、'Year'、'Lyrics'、'Source'）。“歌詞”列包含字符串值，應(yīng)按單詞劃分。我已經(jīng)計(jì)算了“歌詞”列中每一行的所有單詞數(shù)。我還將字符串轉(zhuǎn)換為列表，將結(jié)果保存在新列“uniqWords_count”中。不幸的是，我無法弄清楚如何投入和計(jì)算不同的價(jià)值。如果它可能有用，這是代碼：billdf = billdf.withColumn('allWords_count', f.size(f.split(f.col('Lyrics'), ' ')))billdf = billdf.withColumn('uniqWords_count', f.split(f.col('Lyrics'), ' '))試圖應(yīng)用 countDistinct 函數(shù)，但它導(dǎo)致了錯誤：billdf = billdf.withColumn('uniqWords_count', f.countDistinct(f.split(f.col('Lyrics'), ' ')))Py4JJavaError：調(diào)用 o3784.withColumn 時(shí)出錯。：org.apache.spark.sql.AnalysisException：分組表達(dá)式序列為空，并且' Song'不是聚合函數(shù)。如果您不在乎得到哪個(gè)值，則將'(count(DISTINCT split( Lyrics, ' ', -1)) AS uniqWords_count)' 包裝在窗口函數(shù)中或?qū)?' ' 包裝在 first() （或 first_value）中。;;Song

查看完整描述

1 回答

DIEA

TA貢獻(xiàn)1820條經(jīng)驗(yàn) 獲得超3個(gè)贊

Mohammad Murtaza Hashmi提出了一個(gè)解決方案。就我而言，它看起來像這樣：

billdf = billdf.withColumn('uniqWords',f.size(f.array_distinct("uniqWords")))

非常感謝您的幫助！

反對回復(fù) 2022-10-06

1 回答
0 關(guān)注
82 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

PySpark - 按行和列計(jì)算不同

PySpark - 按行和列計(jì)算不同

1 回答

添加回答