首頁(yè) 猿問(wèn) 創(chuàng)建自定義案例類的數(shù)據(jù)集時(shí)，為什么...

創(chuàng)建自定義案例類的數(shù)據(jù)集時(shí)，為什么“找不到存儲(chǔ)在數(shù)據(jù)集中的類型的編碼器”？

源碼算法與數(shù)據(jù)結(jié)構(gòu)

紅顏莎娜 2019-11-30 15:13:03

使用Scala 2.11.8的Spark 2.0（最終版）。以下超級(jí)簡(jiǎn)單代碼產(chǎn)生編譯錯(cuò)誤Error:(17, 45) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.import org.apache.spark.sql.SparkSessioncase class SimpleTuple(id: Int, desc: String)object DatasetTest { val dataList = List( SimpleTuple(5, "abc"), SimpleTuple(6, "bcd") ) def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder. master("local") .appName("example") .getOrCreate() val dataset = sparkSession.createDataset(dataList) }}

查看完整描述

3 回答

千萬(wàn)里不及你

TA貢獻(xiàn)1784條經(jīng)驗(yàn) 獲得超9個(gè)贊

Spark Datasets需要Encoders即將存儲(chǔ)的數(shù)據(jù)類型。對(duì)于常見(jiàn)類型（原子，產(chǎn)品類型），有許多可用的預(yù)定義編碼器，但是您必須首先從中導(dǎo)入這些編碼器SparkSession.implicits才能使其工作：

val sparkSession: SparkSession = ???

import sparkSession.implicits._

val dataset = sparkSession.createDataset(dataList)

或者，您可以直接提供一個(gè)明確的

import org.apache.spark.sql.{Encoder, Encoders}

val dataset = sparkSession.createDataset(dataList)(Encoders.product[SimpleTuple])

或隱式

implicit val enc: Encoder[SimpleTuple] = Encoders.product[SimpleTuple]

val dataset = sparkSession.createDataset(dataList)

Encoder 用于存儲(chǔ)的類型。

請(qǐng)注意，Enocders還提供了一些Encoders針對(duì)原子類型的預(yù)定義，Encoders對(duì)于復(fù)雜的原子類型，可以使用進(jìn)行預(yù)定義ExpressionEncoder。

進(jìn)一步閱讀：

對(duì)于內(nèi)置編碼器未涵蓋的自定義對(duì)象，請(qǐng)參見(jiàn)如何在數(shù)據(jù)集中存儲(chǔ)自定義對(duì)象？

對(duì)于Row對(duì)象，您必須在嘗試將數(shù)據(jù)框行映射到更新的行時(shí)Encoder明確提供如編碼器錯(cuò)誤所示的對(duì)象

反對(duì) 回復(fù) 2019-11-30

偶然的你

TA貢獻(xiàn)1841條經(jīng)驗(yàn) 獲得超3個(gè)贊

我會(huì)用我自己的問(wèn)題的答案來(lái)澄清，如果目標(biāo)是定義一個(gè)簡(jiǎn)單的文字SparkData框架，而不是使用Scala元組和隱式轉(zhuǎn)換，則更簡(jiǎn)單的方法是像這樣直接使用Spark API：

import org.apache.spark.sql._

import org.apache.spark.sql.types._

import scala.collection.JavaConverters._

val simpleSchema = StructType(

StructField("a", StringType) ::

StructField("b", IntegerType) ::

StructField("c", IntegerType) ::

StructField("d", IntegerType) ::

StructField("e", IntegerType) :: Nil)

val data = List(

Row("001", 1, 0, 3, 4),

Row("001", 3, 4, 1, 7),

Row("001", null, 0, 6, 4),

Row("003", 1, 4, 5, 7),

Row("003", 5, 4, null, 2),

Row("003", 4, null, 9, 2),

Row("003", 2, 3, 0, 1)

)

val df = spark.createDataFrame(data.asJava, simpleSchema)

反對(duì) 回復(fù) 2019-11-30

3 回答
0 關(guān)注
920 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

創(chuàng)建自定義案例類的數(shù)據(jù)集時(shí)，為什么“找不到存儲(chǔ)在數(shù)據(jù)集中的類型的編碼器”？

創(chuàng)建自定義案例類的數(shù)據(jù)集時(shí)，為什么“找不到存儲(chǔ)在數(shù)據(jù)集中的類型的編碼器”？

3 回答

添加回答

創(chuàng)建自定義案例類的數(shù)據(jù)集時(shí)，為什么“找不到存儲(chǔ)在數(shù)據(jù)集中的類型的編碼器”？

創(chuàng)建自定義案例類的數(shù)據(jù)集時(shí)，為什么“找不到存儲(chǔ)在數(shù)據(jù)集中的類型的編碼器”？