首頁手記 Spark Connector Writer 原理與實踐

Spark Connector Writer 原理與實踐

標(biāo)簽：

在[《Spark Connector Reader 原理与实践》]中我们提过 Spark Connector 是一个 Spark 的数据连接器，可以通过该连接器进行外部数据系统的读写操作，Spark Connector 包含两部分，分别是 Reader 和 Writer，而本文主要讲述如何利用 Spark Connector 进行 Nebula Graph 数据的写入。

Spark Connector Writer 原理

[Spark SQL ]允许用户自定义数据源，支持对外部数据源进行扩展。

Nebula 的 Spark Connector 单条数据写入是基于 [DatasourceV2 ]实现的，需要以下几个步骤:

继承 WriteSupport 并重写 createWriter，创建自定义的 DataSourceWriter。
继承 DataSourceWriter 创建 NebulaDataSourceVertexWriter 类和 NebulaDataSourceEdgeWriter 类，重写 createWriterFactory 方法并返回自定义的 DataWriterFactory，重写 commit 方法，用来提交整个事务。重写 abort 方法，用来做事务回滚。Nebula Graph 1.x 不支持事务操作，故该实现中 commit 和 abort 无实质性操作。
继承 DataWriterFactory 创建 NebulaVertexWriterFactory 类和 NebulaEdgeWriterFactory 类，重写 createWriter 方法返回自定义的 DataWriter。
继承 DataWriter 创建 NebulaVertexWriter 类和 NebulaEdgeWriter 类，重写 write 方法，用来将数据写出，重写 commit 方法用来提交事务，重写 abort 方法用来做事务回滚，同样 DataWriter 中的 commit 方法和 abort 方法无实质性操作。

Nebula 的 Spark Connector Writer 的实现类图如下：

具体写入逻辑在 NebulaVertexWriter 和 NebulaEdgeWriter 的 write 方法中，一次写入的逻辑如下：

创建客户端，连接 Nebula 的 graphd 服务；
数据写入前先指定 graphSpace；
构造 Nebula 的数据写入 statement；
提交 statement，执行写入操作；
定义回调函数接收写入操作执行结果。

Nebula 的 Spark Connector 的批量数据写入与 [Exchange]工具类似，是通过对 DataFrame 进行 map 操作批量数据累计提交实现的。

Spark Connector Writer 实践

Spark Connector 的 Writer 功能提供了两类接口供用户编程进行数据写入。写入的数据源为 DataFrame，Spark Writer 提供了单条写入和批量写入两类接口。

拉取 GitHub 上 Spark Connector 代码：


git clone -b v1.0 https://github.com/vesoft-inc/nebula-java.git

cd nebula-java/tools/nebula-spark

mvn clean compile package install -Dgpg.skip -Dmaven.javadoc.skip=true

将编译打成的包 copy 到本地 maven 库。

应用示例如下：

在 mvn 项目的 pom 文件中加入 nebula-spark 依赖


<dependency>

<groupId>com.vesoft</groupId>

<artifactId>nebula-spark</artifactId>

<version>1.0.1</version>

</dependency>

在 Spark 程序中将 DataFrame 数据写入 Nebula

2.1 逐条写入 Nebula：


// 构造点和边数据的 DataFrame ，示例数据在 nebula-java/examples/src/main/resources 目录下

val vertexDF = spark.read.json("examples/src/main/resources/vertex")

vertexDF.show()

val edgeDF = spark.read.json("examples/src/main/resources/edge")

edgeDF.show()

  

// 写入点

vertexDF.write

.nebula("127.0.0.1:3699", "nb", "100")

.writeVertices("player", "vertexId", "hash")

// 写入边

edgeDF.write

.nebula("127.0.0.1:3699", "nb", "100")

.wirteEdges("follow", "source", "target")

配置说明：

nebula(address: String, space: String, partitionNum: String)
- address：可以配置多个地址，以英文逗号分割，如“ip1:3699,ip2:3699”
- space: Nebula 的 graphSpace
- partitionNum：创建 space 时指定的 Nebula 中的 partitionNum，未指定则默认为 100
writeVertices(tag: String, vertexFiled: String, policy: String = “”)
- tag：Nebula 中点的 tag
- vertexFiled：Dataframe 中可作为 Nebula 点 ID 的列，如 DataFrame 的列为 a，b，c，如果把 a 列作为点的 ID 列，则该参数设置为 a
- policy：若 DataFrame 中 vertexFiled 列的数据类型非数值型，则需要配置 Nebula 中 VID 的映射策略
writeEdges(edge: String, srcVertexField: String, dstVertexField: String, policy: String = “”)
- edge：Nebula 中边的 edge
- srcVertexField：DataFrame 中可作为源点的列
- dstVertexField：DataFrame 中可作为边目标点的列
- policy：若 DataFrame 中 srcVertexField 列或 dstVertexField 列的数据类型非数值型，则需要配置 Nebula 中 edge ID 的映射策略
2.2 批量写入 Nebula


// 构造点和边数据的 DataFrame ，示例数据在 nebula-java/examples/src/main/resources 目录下

val vertexDF = spark.read.json("examples/src/main/resources/vertex")

vertexDF.show()

val edgeDF = spark.read.json("examples/src/main/resources/edge")

edgeDF.show()

  

// 批量写入点

new NebulaBatchWriterUtils()

.batchInsert("127.0.0.1:3699", "nb", 2000)

.batchToNebulaVertex(vertexDF, "player", "vertexId")

// 批量写入边

new NebulaBatchWriterUtils()

.batchInsert("127.0.0.1:3699", "nb", 2000)

.batchToNebulaEdge(edgeDF, "follow", "source", "target")

配置说明：

batchInsert(address: String, space: String, batch: Int = 2000)
- address：可以配置多个地址，以英文逗号分割，如“ip1:3699,ip2:3699”
- space：Nebula 的 graphSpace
- batch：批量写入时一批次的数据量，可不配置，默认为 2000
batchToNebulaVertex(data: DataFrame, tag: String, vertexField: String, policy: String = “”)
- data：待写入 Nebula 的 DataFrame 数据
- tag：Nebula 中点的 tag
- vertexField：Dataframe 中可作为 Nebula 点 ID 的列
- policy：Nebula 中 VID 的映射策略，当 vertexField 列的值为数值时可不配置
batchToNebulaEdge(data: DataFrame, edge: String, srcVertexField: String, dstVertexField: String, rankField: String = “”, policy: String = “”)
- data：待写入 Nebula 的 DataFrame 数据
- edge：Nebula 中边的 edge
- srcVertexField：DataFrame 中可作为源点的列
- dstVertexField：DataFrame 中可作为边目标点的列
- rankField：DataFrame 中可作为边 rank 值的列，可不配置
- policy：edge 中点的映射策略，当 srcVertexField 和 dstVertexField 列的值为数值时可不配置

至此，Nebula Spark Connector Writer 讲解完毕

點擊查看更多內(nèi)容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學(xué)習(xí)，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優(yōu)質(zhì)文章

正在加載中

NebulaGraph

數(shù)據(jù)庫工程師

手記
篇

粉絲

6

獲贊與收藏

20

關(guān)注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節(jié) 32045 357

網(wǎng)絡(luò)編程入門教程

20個小節(jié) 13170 248

Pandas 入門教程

25個小節(jié) 19510 368

推薦

評論

收藏

共同學(xué)習(xí)，寫下你的評論



感謝您的支持，我會繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學(xué)

大額優(yōu)惠券免費領(lǐng)

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購買實戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學(xué)習(xí)，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Spark Connector Writer 原理與實踐

Spark Connector Writer 原理

Spark Connector Writer 实践

閱讀免費教程