hadoop菜鳥入門，spark mlib入門

2023-12-06 阅读 22 评论 0

摘要：MLlib 是 Spark 的機器學習（ML）庫。其目標是使實用的機器學習變得可擴展且簡單。在高級別上，它提供了各種工具：： ML 算法：常見的學習算法，如分類、回歸、聚類和協作篩選實現：特征提取、變換、尺寸減小和選擇管道

MLlib 是 Spark 的機器學習（ML）庫。其目標是使實用的機器學習變得可擴展且簡單。在高級別上，它提供了各種工具：：

ML 算法：常見的學習算法，如分類、回歸、聚類和協作篩選
實現：特征提取、變換、尺寸減小和選擇
管道：用于構建、評估和調整 ML 管道的工具
持久性：保存和加載算法、模型和管道
實用工具：線性代數、統計、數據處理等。

相關

hadoop菜鳥入門、計算兩個數據系列之間的相關性是統計學中的常見操作。

import org.apache.spark.ml.linalg.{Matrix, Vectors}
import org.apache.spark.ml.stat.Correlation
import org.apache.spark.sql.{DataFrame, Row, SparkSession}object MLTest {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master("local").getOrCreate()import spark.implicits._val data = Seq(//使用無序（索引，值）對創建稀疏向量。Vectors.sparse(4, Seq((0, 1.0), (3, -2.0))),//根據其值創建密集向量。Vectors.dense(4.0, 5.0, 0.0, 3.0),Vectors.dense(6.0, 7.0, 0.0, 8.0),Vectors.sparse(4, Seq((0, 9.0), (3, 1.0))))val df = data.map(Tuple1.apply).toDF("features")//計算向量輸入數據集的皮爾遜相關矩陣。//Returns the first row.val Row(coeff1: Matrix) = Correlation.corr(df, "features").headprintln(s"Pearson correlation matrix:\n $coeff1")val Row(coeff2: Matrix) = Correlation.corr(df, "features", "spearman").headprintln(s"Spearman correlation matrix:\n $coeff2")}
}

Spearman correlation matrix:1.0                  0.10540925533894532  NaN  0.40000000000000174  
0.10540925533894532  1.0                  NaN  0.9486832980505141   
NaN                  NaN                  1.0  NaN                  
0.40000000000000174  0.9486832980505141   NaN  1.0