StreamingPro添加Scala script 模塊支持

標(biāo)簽：

大數(shù)據(jù)

SQL 在解析字符串方面，能力还是有限，因为支持的算子譬如substring,split等有限，且不具备复杂的流程表达能力。我们内部有个通过JSON描述的DSL引擎方便配置化解析，然而也有一定的学习时间成本。

我们当然可以通过SQL的 UDF函数等来完成字符串解析，在streamingpro中也很简单，只要注册下你的UDF函数库即可：

"udf_register": {    "desc": "测试",    "strategy": "spark",    "algorithm": [],    "ref": [],    "compositor": [
      {        "name": "sql.udf",        "params": [
          {            "analysis": "streaming.core.compositor.spark.udf.func.MLFunctions"
          }
        ]
      }
    ]
  }

这样你就可以在SQL中使用MLfunctions里面所有的udf函数了。然而为此专门提供一个jar包也是略显麻烦。

这个时候如果能直接写脚本解析就好了，最好是能支持各种脚本，比如groovy,javascript,python,scala,java等。任何一个会编程的人都可以实现一个比较复杂的解析逻辑。

核心是ScriptCompositor模块：

 {        "name": "batch.script",        "params": [
          {            "inputTableName": "test",            "outputTableName": "test3"
          },
          {            "raw": [              "val Array(a,b)=rawLine.split(\"\t\");",              "Map(\"a\"->a,\"b\"->b)"
            ]
          }
        ]
      }

如果我想在代码里直接处理所有的列，则如下：

{        "name": "batch.script",        "params": [
          {            "inputTableName": "test2",            "outputTableName": "test3",            "useDocMap": true
          },
          {            "anykey": "val Array(a,b)=doc(\"raw\").toString.split(\"\t\");Map(\"a\"->a,\"b\"->b)"
          }
        ]
}

通过添加useDocMap为true,则你在代码里可以通过doc(doc是个Map[String,Any]) 来获取你想要的任何字段，然后形成一个新的Map。

如果你只要新生成Map里的字段，忽略掉旧的，则设置ignoreOldColumns=true 即可。

你可以把代码放到一个文件里，如下：

{        "name": "batch.script",        "params": [
          {            "inputTableName": "test",            "outputTableName": "test3"
          },
          {            "raw": "file:///tmp/raw_process.scala"
          }
        ]
      }

通过inputTableName指定输入的表，outputTableName作为输出结果表。 raw代表inputTableName中你需要解析的字段，然后通过你的scala脚本进行解析。在脚本中 rawLine 是固定的，对应raw字段(其他字段也是一样)的值。脚本只有一个要求，最后的返回结果暂时需要是个Map[String,Any]。

这里，你只是提供了一个map作为返回值，作为一行，然后以outputTableName指定的名字输出，作为下一条SQL的输入，所以StreamingPro需要推测出你的Schema。数据量大到一定程度，推测Schema的效率就得不到保证，这个时候，你可以通过配置schema来提升性能：

{        "name": "batch.script",        "params": [
          {            "inputTableName": "test",            "outputTableName": "test3",            "schema": "file:///tmp/schema.scala",            "useDocMap": true
          },
          {            "raw": "file:///tmp/raw_process.scala"
          }
        ]
      }

schema.scala的内容大致如下：

Some(StructType(Array(StructField("a", StringType, true),StructField("b", StringType, true)))
)

后续roadmap是：

支持外部脚本，比如放在hdfs或者http服务器上。
支持java 脚本
支持javascript脚本
支持 python 脚本
支持 ruby脚本
支持 groovy 脚本

举个案例，从HDFS读取一个文件，并且映射为只有一个raw字段的表，接着通过ScriptCompositor配置的scala代码解析raw字段，展开成a,b两个字段，然后继续用SQL继续处理，最后输出。

{  "convert_data_parquet": {    "desc": "测试",    "strategy": "spark",    "algorithm": [],    "ref": [],    "compositor": [
      {        "name": "batch.sources",        "params": [
          {            "path": "file:///tmp/hdfsfile",            "format": "org.apache.spark.sql.execution.datasources.hdfs",            "fieldName": "raw",            "outputTableName":"test"
          }
        ]
      },     
      {        "name": "batch.script",        "params": [
          {            "inputTableName": "test",            "outputTableName": "test3"
          },
          {            "raw": [              "val Array(a,b)=rawLine.split(\"\t\");",              "Map(\"a\"->a,\"b\"->b)"
            ]
          }
        ]
      },
      {        "name": "batch.sql",        "params": [
          {            "sql": "select a,b  from test3 "
          }
        ]
      },
      {        "name": "batch.outputs",        "params": [
          {           "format":"console"
          }
        ]
      }
    ],    "configParams": {
    }
  }
}

作者：祝威廉
链接：https://www.jianshu.com/p/b33c36cd3481

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫(xiě)下你的評(píng)論

評(píng)論加載中...

展開(kāi)查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

三國(guó)紛爭(zhēng)

JAVA開(kāi)發(fā)工程師

手記
篇

粉絲

51

獲贊與收藏

181

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

后端通用面試教程

41個(gè)小節(jié) 32194 359

網(wǎng)絡(luò)編程入門(mén)教程

20個(gè)小節(jié) 13289 250

Pandas 入門(mén)教程

25個(gè)小節(jié) 19886 373

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫(xiě)下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說(shuō)多少就多少

贊賞金額會(huì)直接到老師賬戶(hù)

支付方式

打開(kāi)微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專(zhuān)欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶(hù)專(zhuān)享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專(zhuān)欄！

太棒了，直接落到你賬戶(hù)里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤(pán)、
Kindle 閱讀器、小米平衡車(chē)
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購(gòu)買(mǎi)實(shí)戰(zhàn)課、體系課
無(wú)門(mén)檻使用

先去看看，有什么好東西馬上兌換


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

StreamingPro添加Scala script 模塊支持

閱讀免費(fèi)教程