Spark MLlib机器学习:算法、源码及实战详解

Spark MLlib机器学习:算法、源码及实战详解
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2016-03
版次: 1
ISBN: 9787121282140
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 404页
正文语种: 简体中文
103人买过
  •   《SparkMLlib机器学习:算法、源码及实战详解》以Spark1.4.1版本源码为切入点,全面并且深入地解析SparkMLlib模块,着力于探索分布式机器学习的底层实现。  《SparkMLlib机器学习:算法、源码及实战详解》中本着循序渐进的原则,首先解析MLlib的底层实现基础:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础;接着对各个机器学习算法的理论知识进行讲解,并且解析机器学习算法如何在MLlib中实现分布式计算;然后对MLlib源码进行详细的讲解;最后进行MLlib实例的讲解。相信通过《SparkMLlib机器学习:算法、源码及实战详解》的学习,读者可全面掌握SparkMLlib机器学习,能够进行MLlib实战、MLlib定制开发等。  《SparkMLlib机器学习:算法、源码及实战详解》适合大数据、Spark、数据挖掘领域的从业人员阅读,同时也为Spark开发者和大数据爱好者展现了分布式机器学习的原理和实现细节。   黄美灵,久邦数码高级数据挖掘工程师,Spark爱好者,致力于分布式机器学习的研究与应用,现从事移动互联网的计算广告和数据变现工作,专注Spark机器学习在计算广告中的研究和实践。 第一部分 Spark MLlib基础
    第1章 Spark机器学习简介 2
    1.1 机器学习介绍 2
    1.2 Spark介绍 3
    1.3 Spark MLlib介绍 4
    第2章 Spark数据操作 6
    2.1 Spark RDD操作 6
    2.1.1 Spark RDD创建操作 6
    2.1.2 Spark RDD转换操作 7
    2.1.3 Spark RDD行动操作 14
    2.2 MLlib Statistics统计操作 15
    2.2.1 列统计汇总 15
    2.2.2 相关系数 16
    2.2.3 假设检验 18
    2.3 MLlib数据格式 18
    2.3.1 数据处理 18
    2.3.2 生成样本 22
    第3章 Spark MLlib矩阵向量 26
    3.1 Breeze介绍 26
    3.1.1 Breeze创建函数 27
    3.1.2 Breeze元素访问及操作函数 29
    3.1.3 Breeze数值计算函数 34
    3.1.4 Breeze求和函数 35
    3.1.5 Breeze布尔函数 36
    3.1.6 Breeze线性代数函数 37
    3.1.7 Breeze取整函数 39
    3.1.8 Breeze常量函数 40
    3.1.9 Breeze复数函数 40
    3.1.10 Breeze三角函数 40
    3.1.11 Breeze对数和指数函数 40
    3.2 BLAS介绍 41
    3.2.1 BLAS向量-向量运算 42
    3.2.2 BLAS矩阵-向量运算 42
    3.2.3 BLAS矩阵-矩阵运算 43
    3.3 MLlib向量 43
    3.3.1 MLlib向量介绍 43
    3.3.2 MLlib Vector接口 44
    3.3.3 MLlib DenseVector类 46
    3.3.4 MLlib SparseVector类 49
    3.3.5 MLlib Vectors伴生对象 50
    3.4 MLlib矩阵 57
    3.4.1 MLlib矩阵介绍 57
    3.4.2 MLlib Matrix接口 57
    3.4.3 MLlib DenseMatrix类 59
    3.4.4 MLlib SparseMatrix类 64
    3.4.5 MLlib Matrix伴生对象 71
    3.5 MLlib BLAS 77
    3.6 MLlib分布式矩阵 93
    3.6.1 MLlib分布式矩阵介绍 93
    3.6.2 行矩阵(RowMatrix) 94
    3.6.3 行索引矩阵(IndexedRowMatrix) 96
    3.6.4 坐标矩阵(CoordinateMatrix) 97
    3.6.5 分块矩阵(BlockMatrix) 98

    第二部分 Spark MLlib回归算法
    第4章 Spark MLlib线性回归算法 102
    4.1 线性回归算法 102
    4.1.1 数学模型 102
    4.1.2 最小二乘法 105
    4.1.3 梯度下降算法 105
    4.2 源码分析 106
    4.2.1 建立线性回归 108
    4.2.2 模型训练run方法 111
    4.2.3 权重优化计算 114
    4.2.4 线性回归模型 121
    4.3 实例 123
    4.3.1 训练数据 123
    4.3.2 实例代码 123
    第5章 Spark MLlib逻辑回归算法 126
    5.1 逻辑回归算法 126
    5.1.1 数学模型 126
    5.1.2 梯度下降算法 128
    5.1.3 正则化 129
    5.2 源码分析 132
    5.2.1 建立逻辑回归 134
    5.2.2 模型训练run方法 137
    5.2.3 权重优化计算 137
    5.2.4 逻辑回归模型 144
    5.3 实例 148
    5.3.1 训练数据 148
    5.3.2 实例代码 148
    第6章 Spark MLlib保序回归算法 151
    6.1 保序回归算法 151
    6.1.1 数学模型 151
    6.1.2 L2保序回归算法 153
    6.2 源码分析 153
    6.2.1 建立保序回归 154
    6.2.2 模型训练run方法 156
    6.2.3 并行PAV计算 156
    6.2.4 PAV计算 157
    6.2.5 保序回归模型 159
    6.3 实例 164
    6.3.1 训练数据 164
    6.3.2 实例代码 164

    第三部分 Spark MLlib分类算法
    第7章 Spark MLlib贝叶斯分类算法 170
    7.1 贝叶斯分类算法 170
    7.1.1 贝叶斯定理 170
    7.1.2 朴素贝叶斯分类 171
    7.2 源码分析 173
    7.2.1 建立贝叶斯分类 173
    7.2.2 模型训练run方法 176
    7.2.3 贝叶斯分类模型 179
    7.3 实例 181
    7.3.1 训练数据 181
    7.3.2 实例代码 182
    第8章 Spark MLlib SVM支持向量机算法 184
    8.1 SVM支持向量机算法 184
    8.1.1 数学模型 184
    8.1.2 拉格朗日 186
    8.2 源码分析 189
    8.2.1 建立线性SVM分类 191
    8.2.2 模型训练run方法 194
    8.2.3 权重优化计算 194
    8.2.4 线性SVM分类模型 196
    8.3 实例 199
    8.3.1 训练数据 199
    8.3.2 实例代码 199
    第9章 Spark MLlib决策树算法 202
    9.1 决策树算法 202
    9.1.1 决策树 202
    9.1.2 特征选择 203
    9.1.3 决策树生成 205
    9.1.4 决策树生成实例 206
    9.1.5 决策树的剪枝 208
    9.2 源码分析 209
    9.2.1 建立决策树 211
    9.2.2 建立随机森林 216
    9.2.3 建立元数据 220
    9.2.4 查找特征的分裂及划分 223
    9.2.5 查找最好的分裂顺序 228
    9.2.6 决策树模型 231
    9.3 实例 234
    9.3.1 训练数据 234
    9.3.2 实例代码 234

    第四部分 Spark MLlib聚类算法
    第10章 Spark MLlib KMeans聚类算法 238
    10.1 KMeans聚类算法 238
    10.1.1 KMeans算法 238
    10.1.2 演示KMeans算法 239
    10.1.3 初始化聚类中心点 239
    10.2 源码分析 240
    10.2.1 建立KMeans聚类 242
    10.2.2 模型训练run方法 247
    10.2.3 聚类中心点计算 248
    10.2.4 中心点初始化 251
    10.2.5 快速距离计算 254
    10.2.6 KMeans聚类模型 255
    10.3 实例 258
    10.3.1 训练数据 258
    10.3.2 实例代码 259
    第11章 Spark MLlib LDA主题模型算法 261
    11.1 LDA主题模型算法 261
    11.1.1 LDA概述 261
    11.1.2 LDA概率统计基础 262
    11.1.3 LDA数学模型 264
    11.2 GraphX基础 267
    11.3 源码分析 270
    11.3.1 建立LDA主题模型 272
    11.3.2 优化计算 279
    11.3.3 LDA模型 283
    11.4 实例 288
    11.4.1 训练数据 288
    11.4.2 实例代码 288

    第五部分 Spark MLlib关联规则挖掘算法
    第12章 Spark MLlib FPGrowth关联规则算法 292
    12.1 FPGrowth关联规则算法 292
    12.1.1 基本概念 292
    12.1.2 FPGrowth算法 293
    12.1.3 演示FP树构建 294
    12.1.4 演示FP树挖掘 296
    12.2 源码分析 298
    12.2.1 FPGrowth类 298
    12.2.2 关联规则挖掘 300
    12.2.3 FPTree类 303
    12.2.4 FPGrowthModel类 306
    12.3 实例 306
    12.3.1 训练数据 306
    12.3.2 实例代码 306

    第六部分 Spark MLlib推荐算法
    第13章 Spark MLlib ALS交替最小二乘算法 310
    13.1 ALS交替最小二乘算法 310
    13.2 源码分析 312
    13.2.1 建立ALS 314
    13.2.2 矩阵分解计算 322
    13.2.3 ALS模型 329
    13.3 实例 334
    13.3.1 训练数据 334
    13.3.2 实例代码 334
    第14章 Spark MLlib协同过滤推荐算法 337
    14.1 协同过滤推荐算法 337
    14.1.1 协同过滤推荐概述 337
    14.1.2 用户评分 338
    14.1.3 相似度计算 338
    14.1.4 推荐计算 340
    14.2 协同推荐算法实现 341
    14.2.1 相似度计算 344
    14.2.2 协同推荐计算 348
    14.3 实例 350
    14.3.1 训练数据 350
    14.3.2 实例代码 350

    第七部分 Spark MLlib神经网络算法
    第15章 Spark MLlib神经网络算法综述 354
    15.1 人工神经网络算法 354
    15.1.1 神经元 354
    15.1.2 神经网络模型 355
    15.1.3 信号前向传播 356
    15.1.4 误差反向传播 357
    15.1.5 其他参数 360
    15.2 神经网络算法实现 361
    15.2.1 神经网络类 363
    15.2.2 训练准备 370
    15.2.3 前向传播 375
    15.2.4 误差反向传播 377
    15.2.5 权重更新 381
    15.2.6 ANN模型 382
    15.3 实例 384
    15.3.1 测试数据 384
    15.3.2 测试函数代码 387
    15.3.3 实例代码 388
  • 内容简介:
      《SparkMLlib机器学习:算法、源码及实战详解》以Spark1.4.1版本源码为切入点,全面并且深入地解析SparkMLlib模块,着力于探索分布式机器学习的底层实现。  《SparkMLlib机器学习:算法、源码及实战详解》中本着循序渐进的原则,首先解析MLlib的底层实现基础:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础;接着对各个机器学习算法的理论知识进行讲解,并且解析机器学习算法如何在MLlib中实现分布式计算;然后对MLlib源码进行详细的讲解;最后进行MLlib实例的讲解。相信通过《SparkMLlib机器学习:算法、源码及实战详解》的学习,读者可全面掌握SparkMLlib机器学习,能够进行MLlib实战、MLlib定制开发等。  《SparkMLlib机器学习:算法、源码及实战详解》适合大数据、Spark、数据挖掘领域的从业人员阅读,同时也为Spark开发者和大数据爱好者展现了分布式机器学习的原理和实现细节。
  • 作者简介:
      黄美灵,久邦数码高级数据挖掘工程师,Spark爱好者,致力于分布式机器学习的研究与应用,现从事移动互联网的计算广告和数据变现工作,专注Spark机器学习在计算广告中的研究和实践。
  • 目录:
    第一部分 Spark MLlib基础
    第1章 Spark机器学习简介 2
    1.1 机器学习介绍 2
    1.2 Spark介绍 3
    1.3 Spark MLlib介绍 4
    第2章 Spark数据操作 6
    2.1 Spark RDD操作 6
    2.1.1 Spark RDD创建操作 6
    2.1.2 Spark RDD转换操作 7
    2.1.3 Spark RDD行动操作 14
    2.2 MLlib Statistics统计操作 15
    2.2.1 列统计汇总 15
    2.2.2 相关系数 16
    2.2.3 假设检验 18
    2.3 MLlib数据格式 18
    2.3.1 数据处理 18
    2.3.2 生成样本 22
    第3章 Spark MLlib矩阵向量 26
    3.1 Breeze介绍 26
    3.1.1 Breeze创建函数 27
    3.1.2 Breeze元素访问及操作函数 29
    3.1.3 Breeze数值计算函数 34
    3.1.4 Breeze求和函数 35
    3.1.5 Breeze布尔函数 36
    3.1.6 Breeze线性代数函数 37
    3.1.7 Breeze取整函数 39
    3.1.8 Breeze常量函数 40
    3.1.9 Breeze复数函数 40
    3.1.10 Breeze三角函数 40
    3.1.11 Breeze对数和指数函数 40
    3.2 BLAS介绍 41
    3.2.1 BLAS向量-向量运算 42
    3.2.2 BLAS矩阵-向量运算 42
    3.2.3 BLAS矩阵-矩阵运算 43
    3.3 MLlib向量 43
    3.3.1 MLlib向量介绍 43
    3.3.2 MLlib Vector接口 44
    3.3.3 MLlib DenseVector类 46
    3.3.4 MLlib SparseVector类 49
    3.3.5 MLlib Vectors伴生对象 50
    3.4 MLlib矩阵 57
    3.4.1 MLlib矩阵介绍 57
    3.4.2 MLlib Matrix接口 57
    3.4.3 MLlib DenseMatrix类 59
    3.4.4 MLlib SparseMatrix类 64
    3.4.5 MLlib Matrix伴生对象 71
    3.5 MLlib BLAS 77
    3.6 MLlib分布式矩阵 93
    3.6.1 MLlib分布式矩阵介绍 93
    3.6.2 行矩阵(RowMatrix) 94
    3.6.3 行索引矩阵(IndexedRowMatrix) 96
    3.6.4 坐标矩阵(CoordinateMatrix) 97
    3.6.5 分块矩阵(BlockMatrix) 98

    第二部分 Spark MLlib回归算法
    第4章 Spark MLlib线性回归算法 102
    4.1 线性回归算法 102
    4.1.1 数学模型 102
    4.1.2 最小二乘法 105
    4.1.3 梯度下降算法 105
    4.2 源码分析 106
    4.2.1 建立线性回归 108
    4.2.2 模型训练run方法 111
    4.2.3 权重优化计算 114
    4.2.4 线性回归模型 121
    4.3 实例 123
    4.3.1 训练数据 123
    4.3.2 实例代码 123
    第5章 Spark MLlib逻辑回归算法 126
    5.1 逻辑回归算法 126
    5.1.1 数学模型 126
    5.1.2 梯度下降算法 128
    5.1.3 正则化 129
    5.2 源码分析 132
    5.2.1 建立逻辑回归 134
    5.2.2 模型训练run方法 137
    5.2.3 权重优化计算 137
    5.2.4 逻辑回归模型 144
    5.3 实例 148
    5.3.1 训练数据 148
    5.3.2 实例代码 148
    第6章 Spark MLlib保序回归算法 151
    6.1 保序回归算法 151
    6.1.1 数学模型 151
    6.1.2 L2保序回归算法 153
    6.2 源码分析 153
    6.2.1 建立保序回归 154
    6.2.2 模型训练run方法 156
    6.2.3 并行PAV计算 156
    6.2.4 PAV计算 157
    6.2.5 保序回归模型 159
    6.3 实例 164
    6.3.1 训练数据 164
    6.3.2 实例代码 164

    第三部分 Spark MLlib分类算法
    第7章 Spark MLlib贝叶斯分类算法 170
    7.1 贝叶斯分类算法 170
    7.1.1 贝叶斯定理 170
    7.1.2 朴素贝叶斯分类 171
    7.2 源码分析 173
    7.2.1 建立贝叶斯分类 173
    7.2.2 模型训练run方法 176
    7.2.3 贝叶斯分类模型 179
    7.3 实例 181
    7.3.1 训练数据 181
    7.3.2 实例代码 182
    第8章 Spark MLlib SVM支持向量机算法 184
    8.1 SVM支持向量机算法 184
    8.1.1 数学模型 184
    8.1.2 拉格朗日 186
    8.2 源码分析 189
    8.2.1 建立线性SVM分类 191
    8.2.2 模型训练run方法 194
    8.2.3 权重优化计算 194
    8.2.4 线性SVM分类模型 196
    8.3 实例 199
    8.3.1 训练数据 199
    8.3.2 实例代码 199
    第9章 Spark MLlib决策树算法 202
    9.1 决策树算法 202
    9.1.1 决策树 202
    9.1.2 特征选择 203
    9.1.3 决策树生成 205
    9.1.4 决策树生成实例 206
    9.1.5 决策树的剪枝 208
    9.2 源码分析 209
    9.2.1 建立决策树 211
    9.2.2 建立随机森林 216
    9.2.3 建立元数据 220
    9.2.4 查找特征的分裂及划分 223
    9.2.5 查找最好的分裂顺序 228
    9.2.6 决策树模型 231
    9.3 实例 234
    9.3.1 训练数据 234
    9.3.2 实例代码 234

    第四部分 Spark MLlib聚类算法
    第10章 Spark MLlib KMeans聚类算法 238
    10.1 KMeans聚类算法 238
    10.1.1 KMeans算法 238
    10.1.2 演示KMeans算法 239
    10.1.3 初始化聚类中心点 239
    10.2 源码分析 240
    10.2.1 建立KMeans聚类 242
    10.2.2 模型训练run方法 247
    10.2.3 聚类中心点计算 248
    10.2.4 中心点初始化 251
    10.2.5 快速距离计算 254
    10.2.6 KMeans聚类模型 255
    10.3 实例 258
    10.3.1 训练数据 258
    10.3.2 实例代码 259
    第11章 Spark MLlib LDA主题模型算法 261
    11.1 LDA主题模型算法 261
    11.1.1 LDA概述 261
    11.1.2 LDA概率统计基础 262
    11.1.3 LDA数学模型 264
    11.2 GraphX基础 267
    11.3 源码分析 270
    11.3.1 建立LDA主题模型 272
    11.3.2 优化计算 279
    11.3.3 LDA模型 283
    11.4 实例 288
    11.4.1 训练数据 288
    11.4.2 实例代码 288

    第五部分 Spark MLlib关联规则挖掘算法
    第12章 Spark MLlib FPGrowth关联规则算法 292
    12.1 FPGrowth关联规则算法 292
    12.1.1 基本概念 292
    12.1.2 FPGrowth算法 293
    12.1.3 演示FP树构建 294
    12.1.4 演示FP树挖掘 296
    12.2 源码分析 298
    12.2.1 FPGrowth类 298
    12.2.2 关联规则挖掘 300
    12.2.3 FPTree类 303
    12.2.4 FPGrowthModel类 306
    12.3 实例 306
    12.3.1 训练数据 306
    12.3.2 实例代码 306

    第六部分 Spark MLlib推荐算法
    第13章 Spark MLlib ALS交替最小二乘算法 310
    13.1 ALS交替最小二乘算法 310
    13.2 源码分析 312
    13.2.1 建立ALS 314
    13.2.2 矩阵分解计算 322
    13.2.3 ALS模型 329
    13.3 实例 334
    13.3.1 训练数据 334
    13.3.2 实例代码 334
    第14章 Spark MLlib协同过滤推荐算法 337
    14.1 协同过滤推荐算法 337
    14.1.1 协同过滤推荐概述 337
    14.1.2 用户评分 338
    14.1.3 相似度计算 338
    14.1.4 推荐计算 340
    14.2 协同推荐算法实现 341
    14.2.1 相似度计算 344
    14.2.2 协同推荐计算 348
    14.3 实例 350
    14.3.1 训练数据 350
    14.3.2 实例代码 350

    第七部分 Spark MLlib神经网络算法
    第15章 Spark MLlib神经网络算法综述 354
    15.1 人工神经网络算法 354
    15.1.1 神经元 354
    15.1.2 神经网络模型 355
    15.1.3 信号前向传播 356
    15.1.4 误差反向传播 357
    15.1.5 其他参数 360
    15.2 神经网络算法实现 361
    15.2.1 神经网络类 363
    15.2.2 训练准备 370
    15.2.3 前向传播 375
    15.2.4 误差反向传播 377
    15.2.5 权重更新 381
    15.2.6 ANN模型 382
    15.3 实例 384
    15.3.1 测试数据 384
    15.3.2 测试函数代码 387
    15.3.3 实例代码 388
查看详情
相关图书 / 更多
Spark MLlib机器学习:算法、源码及实战详解
Spring Framework6开发实战 Spring+Spring Web MVC+MyBatis
肖海鹏、耿卫江、王荣芝、张天怡、张志慧
Spark MLlib机器学习:算法、源码及实战详解
Spark大数据分析
作者
Spark MLlib机器学习:算法、源码及实战详解
Spark入门与大数据分析实战
迟殿委 李超
Spark MLlib机器学习:算法、源码及实战详解
Spark大数据开发(职业教育计算机系列教材)
唐春玲;周桥;陈小龙
Spark MLlib机器学习:算法、源码及实战详解
Spring Boot+Vue前后端分离项目全栈开发实战
唐文
Spark MLlib机器学习:算法、源码及实战详解
Spring快速入门到精通
明日科技 编著
Spark MLlib机器学习:算法、源码及实战详解
Spring Boot 3.0开发实战
李西明;陈立为
Spark MLlib机器学习:算法、源码及实战详解
Spark分布式处理实战
刘均 王璐烽
Spark MLlib机器学习:算法、源码及实战详解
Spring Security原理与实战:构建安全可靠的微服务
邹炎
Spark MLlib机器学习:算法、源码及实战详解
Spark原理深入与编程实战(微课视频版)
辛立伟;张帆;张会娟
Spark MLlib机器学习:算法、源码及实战详解
Spring Cloud Alibaba大型微服务架构项目实战(上册)
十三 著
Spark MLlib机器学习:算法、源码及实战详解
Spring Boot 3 +Vue 3开发实战
朱建昕
您可能感兴趣 / 更多
Spark MLlib机器学习:算法、源码及实战详解
推荐系统算法实践
黄美灵 著