Spark MLlib機(jī)器學(xué)習(xí)開發(fā)指南(2) --基本統(tǒng)計(jì)

標(biāo)簽：

Spark

翻译自官方文档
如有问题，欢迎留言指正，转载请注明出处。

基本统计

相关性

计算两个数据系列之间的相关性是统计学中的常见操作。在spark.ml中，我们灵活的提供了在很多数据系列之间计算成对相关性的方法。支持相关性的方法是Pearson（皮尔逊）相关性和spearman相关性

import org.apache.spark.ml.linalg.{Matrix, Vectors}import org.apache.spark.ml.stat.Correlationimport org.apache.spark.sql.Rowval data = Seq(  Vectors.sparse(4, Seq((0, 1.0), (3, -2.0))),  Vectors.dense(4.0, 5.0, 0.0, 3.0),  Vectors.dense(6.0, 7.0, 0.0, 8.0),  Vectors.sparse(4, Seq((0, 9.0), (3, 1.0)))
)val df = data.map(Tuple1.apply).toDF("features")val Row(coeff1: Matrix) = Correlation.corr(df, "features").head
println("Pearson correlation matrix:\n" + coeff1.toString)val Row(coeff2: Matrix) = Correlation.corr(df, "features", "spearman").head
println("Spearman correlation matrix:\n" + coeff2.toString)

完整示例代码在Spark仓库的 "examples/src/main/scala/org/apache/spark/examples/ml/CorrelationExample.scala" 这个位置

假设检验

假设检验是统计学中强大的工具，用于确定结果是否具有统计学意义，无论该结果是否偶然发生。spark.ml目前支持Pearson的卡方（χ2）独立性测试。
卡方测试针对标签的每个特征进行Pearson独立测试。对于每个特征，特征标签对被转换成列联表(contingency matrix)，以计算卡方统计量。所有标签和特征值必须是明确的。

有关API的详细信息，请参阅ChiSquareTest Scala文档。

import org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.ml.stat.ChiSquareTestval data = Seq(
  (0.0, Vectors.dense(0.5, 10.0)),
  (0.0, Vectors.dense(1.5, 20.0)),
  (1.0, Vectors.dense(1.5, 30.0)),
  (0.0, Vectors.dense(3.5, 30.0)),
  (0.0, Vectors.dense(3.5, 40.0)),
  (1.0, Vectors.dense(3.5, 40.0))
)val df = data.toDF("label", "features")val chi = ChiSquareTest.test(df, "features", "label").head
println("pValues = " + chi.getAs[Vector](0))
println("degreesOfFreedom = " + chi.getSeq[Int](1).mkString("[", ",", "]"))
println("statistics = " + chi.getAs[Vector](2))

在Spark仓库中"examples/src/main/scala/org/apache/spark/examples/ml/ChiSquareTestExample.scala" 这个位置有完整代码。

翻译自官方文档
如有问题，欢迎留言指正，转载请注明出处。

作者：xcrossed
链接：https://www.jianshu.com/p/3b1a1a44f72c

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫下你的評(píng)論

評(píng)論加載中...

展開查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

幕布斯6054654

手記
篇

粉絲

221

獲贊與收藏

1015

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

后端通用面試教程

41個(gè)小節(jié) 32258 360

網(wǎng)絡(luò)編程入門教程

20個(gè)小節(jié) 13303 250

Pandas 入門教程

25個(gè)小節(jié) 19925 373

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購買實(shí)戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學(xué)習(xí)，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

Spark MLlib機(jī)器學(xué)習(xí)開發(fā)指南(2) --基本統(tǒng)計(jì)

基本统计

目录

相关性

假设检验

閱讀免費(fèi)教程

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Spark MLlib機(jī)器學(xué)習(xí)開發(fā)指南(2) --基本統(tǒng)計(jì)

基本统计

目录

相关性

假设检验

閱讀免費(fèi)教程