第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

使用Pyspark計(jì)算Spark數(shù)據(jù)幀每列中非NaN條目的數(shù)量

使用Pyspark計(jì)算Spark數(shù)據(jù)幀每列中非NaN條目的數(shù)量

我在Hive中加載了一個(gè)非常大的數(shù)據(jù)集。它由大約190萬行和1450列組成。我需要確定每一列的“覆蓋率”,即每一列具有非NaN值的行的分?jǐn)?shù)。這是我的代碼:from pyspark import SparkContextfrom pyspark.sql import HiveContextimport string as stringsc = SparkContext(appName="compute_coverages") ## Create the contextsqlContext = HiveContext(sc)df = sqlContext.sql("select * from data_table")nrows_tot = df.count()covgs=sc.parallelize(df.columns)        .map(lambda x: str(x))        .map(lambda x: (x, float(df.select(x).dropna().count()) / float(nrows_tot) * 100.))在pyspark shell中進(jìn)行嘗試,如果我隨后執(zhí)行covgs.take(10),它將返回一個(gè)相當(dāng)大的錯(cuò)誤堆棧。它說在文件中保存有問題/usr/lib64/python2.6/pickle.py。這是錯(cuò)誤的最后一部分:py4j.protocol.Py4JError: An error occurred while calling o37.__getnewargs__. Trace:py4j.Py4JException: Method __getnewargs__([]) does not exist        at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:333)        at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:342)        at py4j.Gateway.invoke(Gateway.java:252)        at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)        at py4j.commands.CallCommand.execute(CallCommand.java:79)        at py4j.GatewayConnection.run(GatewayConnection.java:207)        at java.lang.Thread.run(Thread.java:745)如果有比我正在嘗試的方法更好的方法來實(shí)現(xiàn)此目的,我歡迎您提出建議。但是,我不能使用熊貓,因?yàn)樗谖艺谑褂玫娜杭袭?dāng)前不可用,并且我沒有安裝它的權(quán)利。
查看完整描述

2 回答

  • 2 回答
  • 0 關(guān)注
  • 296 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)