3 回答

TA貢獻(xiàn)1784條經(jīng)驗(yàn) 獲得超9個(gè)贊
Spark Datasets需要Encoders即將存儲(chǔ)的數(shù)據(jù)類型。對(duì)于常見(jiàn)類型(原子,產(chǎn)品類型),有許多可用的預(yù)定義編碼器,但是您必須首先從中導(dǎo)入這些編碼器SparkSession.implicits才能使其工作:
val sparkSession: SparkSession = ???
import sparkSession.implicits._
val dataset = sparkSession.createDataset(dataList)
或者,您可以直接提供一個(gè)明確的
import org.apache.spark.sql.{Encoder, Encoders}
val dataset = sparkSession.createDataset(dataList)(Encoders.product[SimpleTuple])
或隱式
implicit val enc: Encoder[SimpleTuple] = Encoders.product[SimpleTuple]
val dataset = sparkSession.createDataset(dataList)
Encoder 用于存儲(chǔ)的類型。
請(qǐng)注意,Enocders還提供了一些Encoders針對(duì)原子類型的預(yù)定義,Encoders對(duì)于復(fù)雜的原子類型,可以使用進(jìn)行預(yù)定義ExpressionEncoder。
進(jìn)一步閱讀:
對(duì)于內(nèi)置編碼器未涵蓋的自定義對(duì)象,請(qǐng)參見(jiàn)如何在數(shù)據(jù)集中存儲(chǔ)自定義對(duì)象?
對(duì)于Row對(duì)象,您必須在嘗試將數(shù)據(jù)框行映射到更新的行時(shí)Encoder明確提供如編碼器錯(cuò)誤所示的對(duì)象

TA貢獻(xiàn)1841條經(jīng)驗(yàn) 獲得超3個(gè)贊
我會(huì)用我自己的問(wèn)題的答案來(lái)澄清,如果目標(biāo)是定義一個(gè)簡(jiǎn)單的文字SparkData框架,而不是使用Scala元組和隱式轉(zhuǎn)換,則更簡(jiǎn)單的方法是像這樣直接使用Spark API:
import org.apache.spark.sql._
import org.apache.spark.sql.types._
import scala.collection.JavaConverters._
val simpleSchema = StructType(
StructField("a", StringType) ::
StructField("b", IntegerType) ::
StructField("c", IntegerType) ::
StructField("d", IntegerType) ::
StructField("e", IntegerType) :: Nil)
val data = List(
Row("001", 1, 0, 3, 4),
Row("001", 3, 4, 1, 7),
Row("001", null, 0, 6, 4),
Row("003", 1, 4, 5, 7),
Row("003", 5, 4, null, 2),
Row("003", 4, null, 9, 2),
Row("003", 2, 3, 0, 1)
)
val df = spark.createDataFrame(data.asJava, simpleSchema)
添加回答
舉報(bào)