Spark 在其 MLlib 機器學習庫中內置了一些函數用于特征的縮放和標準化。
>>> from pyspark.mllib.feature import Normalizer
python正則化,驗證兩種方式(直接使用 numpy 相關函數進行處理,使用 mllib 提供的類)的歸一化結果:
>>> import numpy as np
>>> np.__version__
'1.9.2' # 注意 numpy 的版本要高于 1.4 才行
>>> np.random.seed(42)
>>> x = np.random.randn(10)
(1)numpy 相關函數
>>> normalized_x_2 = x / np.linalg.norm(x)
(2)使用 MLlib 類
>>> from pyspark.mllib.feature import Normalizer
>>> normalizer = Normalizer()
>>> x = sc.parallelize([x])
>>> normalized_x_mllib = normalizer.transform(x).first().toArray()# toArray:返回 numpy 數組
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态