大数据分析原理与实践

大数据分析原理与实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2017-07
版次: 1
ISBN: 9787111569435
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 443页
140人买过
  • 本书介绍了大数据分析的多种模型、所涉及的算法和技术、实现大数据分析系统所需的工具以及大数据分析的具体应用。本书共16章。第1章为绪论,就大数据、大数据分析等概念进行了阐释,并对本书内容进行了概述;第2~7章介绍了关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型;第8章介绍大数据分析的数据预处理问题;第9章介绍降维方法;第10章介绍了数据仓库的概念、内涵、组成、体系结构和建立方法,还介绍了分布式数据仓库系统和内存数据仓库系统。第11章介绍大数据分析算法中的回归算法、关联规则挖掘算法、分类算法以及聚类算法的实现。第12~14章介绍了三种用于实现大数据分析算法的平台,即并行计算平台、流式计算平台和大图分析平台。第15章和第16章介绍两类大数据分析的具体应用,分别讲述了社会网络分析和推荐系统。本书可作为高等院校大数据相关专业的教学用书,也可以作为从事大数据相关工作的工程技术人员的参考用书。 王宏志,博士,博士生导师,哈尔滨工业大学计算机科学与技术学院副教授,中国计算机学会高级会员,YOCSEF黑龙江省分论坛AC。2008年7月在哈尔滨工业大学计算机软件与理论学科获得博士学位,博士论文获得“中国计算机学博士论文”和“哈尔滨工业大学博士论文”。研究方向包括XML数据管理、图数据管理、数据质量、信息集成等。先后被评为“微软学者”、“中国数据库工程师”和“IBM博士英才”。曾先后担任全国数据库会议等多个学术会议的程序委员会委员和IEEE TKDE等多个重要国际期刊的审稿人。 序 
    前言 
    教学建议 
    第1章 绪论 1 
    1.1 什么是大数据 1 
    1.2 哪里有大数据 3 
    1.3 什么是大数据分析 4 
    1.4 大数据分析的过程、技术与难点 5 
    1.5 全书概览 8 
    小结 10 
    习题 10 
    第2章 大数据分析模型 11 
    2.1 大数据分析模型建立方法 11 
    2.2 基本统计量 13 
    2.2.1 全表统计量 14 
    2.2.2 皮尔森相关系数 15 
    2.3 推断统计 16 
    2.3.1 参数估计 16 
    2.3.2 假设检验 20 
    2.3.3 假设检验的阿里云实现 23 
    小结 28 
    习题 28 
    第3章 关联分析模型 30 
    3.1 回归分析 31 
    3.1.1 回归分析概述 31 
    3.1.2 回归模型的拓展 35 
    3.1.3 回归的阿里云实现 43 
    3.2 关联规则分析 52 
    3.3 相关分析 54 
    小结 57 
    习题 58 
    第4章 分类分析模型 60 
    4.1 分类分析的定义 60 
    4.2 判别分析的原理和方法 61 
    4.2.1 距离判别法 61 
    4.2.2 Fisher判别法 64 
    4.2.3 贝叶斯判别法 67 
    4.3 基于机器学习分类的模型 71 
    4.3.1 支持向量机 72 
    4.3.2 逻辑回归 74 
    4.3.3 决策树与回归树 75 
    4.3.4 k近邻 78 
    4.3.5 随机森林 78 
    4.3.6 朴素贝叶斯 81 
    4.4 分类分析实例 82 
    4.4.1 二分类实例 82 
    4.4.2 多分类实例 94 
    小结 101 
    习题 102 
    第5章 聚类分析模型 105 
    5.1 聚类分析的定义 105 
    5.1.1 基于距离的亲疏关系度量 105 
    5.1.2 基于相似系数的相似性度量 108 
    5.1.3 个体与类以及类间的亲疏关系度量 110 
    5.1.4 变量的选择与处理 111 
    5.2 聚类分析的分类 111 
    5.3 聚类有效性的评价 112 
    5.4 聚类分析方法概述 112 
    5.5 聚类分析的应用 113 
    5.6 聚类分析的阿里云实现 114 
    小结 119 
    习题 119 
    第6章 结构分析模型 122 
    6.1 最短路径 122 
    6.2 链接排名 123 
    6.3 结构计数 125 
    6.4 结构聚类 126 
    6.5 社团发现 128 
    6.5.1 社团的定义 128 
    6.5.2 社团的分类 128 
    6.5.3 社团的用途 128 
    6.5.4 社团的数学定义 128 
    6.5.5 基于阿里云的社团发现 130 
    小结 132 
    习题 133 
    第7章 文本分析模型 135 
    7.1 文本分析模型概述 135 
    7.2 文本分析方法概述 136 
    7.2.1 SplitWord 136 
    7.2.2 词频统计 137 
    7.2.3 TFIDF 138 
    7.2.4 PLDA 140 
    7.2.5 Word2Vec 147 
    小结 148 
    习题 149 
    第8章 大数据分析的数据预处理 150 
    8.1 数据抽样和过滤 150 
    8.1.1 数据抽样 150 
    8.1.2 数据过滤 154 
    8.1.3 基于阿里云的抽样和过滤实现 154 
    8.2 数据标准化与归一化 157 
    8.3 数据清洗 159 
    8.3.1 数据质量概述 159 
    8.3.2 缺失值填充 160 
    8.3.3 实体识别与真值发现 162 
    8.3.4 错误发现与修复 169 
    小结 171 
    习题 171 
    第9章 降维 173 
    9.1 特征工程 173 
    9.1.1 特征工程概述 173 
    9.1.2 特征变换 175 
    9.1.3 特征选择 178 
    9.1.4 特征重要性评估 183 
    9.2 主成分分析 191 
    9.2.1 什么是主成分分析 191 
    9.2.2 主成分分析的计算过程 192 
    9.2.3 基于阿里云的主成分分析 194 
    9.2.4 主成分的表现度量 195 
    9.3 因子分析 196 
    9.3.1 因子分析概述 196 
    9.3.2 因子分析的主要分析指标 196 
    9.3.3 因子分析的计算方法 197 
    9.4 压缩感知 203 
    9.4.1 什么是压缩感知 203 
    9.4.2 压缩感知的具体模型 204 
    9.5 面向神经网络的降维 205 
    9.5.1 面向神经网络的降维方法概述 205 
    9.5.2 如何利用神经网络降维 206 
    9.6 基于特征散列的维度缩减 207 
    9.6.1 特征散列方法概述 207 
    9.6.2 特征散列算法 207 
    9.7 基于Lasso算法的降维 208 
    9.7.1 Lasso方法简介 208 
    9.7.2 Lasso方法 209 
    9.7.3 Lasso算法的适用情景 211 
    小结 211 
    习题 212 
    第10章 面向大数据的数据仓库系统 214 
    10.1 数据仓库概述 214 
    10.1.1 数据仓库的基本概念 214 
    10.1.2 数据仓库的内涵 215 
    10.1.3 数据仓库的基本组成 215 
    10.1.4 数据仓库系统的体系结构 216 
    10.1.5 数据仓库的建立 217 
    10.2 分布式数据仓库系统 221 
    10.2.1 基于Hadoop的数据仓库系统 221 
    10.2.2 Shark:基于Spark的数据仓库系统 227 
    10.2.3 Mesa 228 
    10.3 内存数据仓库系统 231 
    10.3.1 SAP HANA 231 
    10.3.2 HyPer 234 
    10.4 阿里云数据仓库简介 236 
    小结 238 
    习题 239 
    第11章 大数据分析算法 240 
    11.1 大数据分析算法概述 240 
    11.2 回归算法 242 
    11.3 关联规则挖掘算法 248 
    11.4 分类算法 255 
    11.4.1 二分类算法 256 
    11.4.2 多分类算法 273 
    11.5 聚类算法 283 
    11.5.1 kmeans算法 283 
    11.5.2 CLARANS算法 291 
    小结 293 
    习题 293 
    第12章 大数据计算平台 295 
    12.1 Spark 295 
    12.1.1 Spark简介 295 
    12.1.2 基于Spark的大数据分析实例 296 
    12.2 Hyracks 299 
    12.2.1 Hyracks简介 299 
    12.2.2 基于Hyracks的大数据分析实例 299 
    12.3 DPark
  • 内容简介:
    本书介绍了大数据分析的多种模型、所涉及的算法和技术、实现大数据分析系统所需的工具以及大数据分析的具体应用。本书共16章。第1章为绪论,就大数据、大数据分析等概念进行了阐释,并对本书内容进行了概述;第2~7章介绍了关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型;第8章介绍大数据分析的数据预处理问题;第9章介绍降维方法;第10章介绍了数据仓库的概念、内涵、组成、体系结构和建立方法,还介绍了分布式数据仓库系统和内存数据仓库系统。第11章介绍大数据分析算法中的回归算法、关联规则挖掘算法、分类算法以及聚类算法的实现。第12~14章介绍了三种用于实现大数据分析算法的平台,即并行计算平台、流式计算平台和大图分析平台。第15章和第16章介绍两类大数据分析的具体应用,分别讲述了社会网络分析和推荐系统。本书可作为高等院校大数据相关专业的教学用书,也可以作为从事大数据相关工作的工程技术人员的参考用书。
  • 作者简介:
    王宏志,博士,博士生导师,哈尔滨工业大学计算机科学与技术学院副教授,中国计算机学会高级会员,YOCSEF黑龙江省分论坛AC。2008年7月在哈尔滨工业大学计算机软件与理论学科获得博士学位,博士论文获得“中国计算机学博士论文”和“哈尔滨工业大学博士论文”。研究方向包括XML数据管理、图数据管理、数据质量、信息集成等。先后被评为“微软学者”、“中国数据库工程师”和“IBM博士英才”。曾先后担任全国数据库会议等多个学术会议的程序委员会委员和IEEE TKDE等多个重要国际期刊的审稿人。
  • 目录:
    序 
    前言 
    教学建议 
    第1章 绪论 1 
    1.1 什么是大数据 1 
    1.2 哪里有大数据 3 
    1.3 什么是大数据分析 4 
    1.4 大数据分析的过程、技术与难点 5 
    1.5 全书概览 8 
    小结 10 
    习题 10 
    第2章 大数据分析模型 11 
    2.1 大数据分析模型建立方法 11 
    2.2 基本统计量 13 
    2.2.1 全表统计量 14 
    2.2.2 皮尔森相关系数 15 
    2.3 推断统计 16 
    2.3.1 参数估计 16 
    2.3.2 假设检验 20 
    2.3.3 假设检验的阿里云实现 23 
    小结 28 
    习题 28 
    第3章 关联分析模型 30 
    3.1 回归分析 31 
    3.1.1 回归分析概述 31 
    3.1.2 回归模型的拓展 35 
    3.1.3 回归的阿里云实现 43 
    3.2 关联规则分析 52 
    3.3 相关分析 54 
    小结 57 
    习题 58 
    第4章 分类分析模型 60 
    4.1 分类分析的定义 60 
    4.2 判别分析的原理和方法 61 
    4.2.1 距离判别法 61 
    4.2.2 Fisher判别法 64 
    4.2.3 贝叶斯判别法 67 
    4.3 基于机器学习分类的模型 71 
    4.3.1 支持向量机 72 
    4.3.2 逻辑回归 74 
    4.3.3 决策树与回归树 75 
    4.3.4 k近邻 78 
    4.3.5 随机森林 78 
    4.3.6 朴素贝叶斯 81 
    4.4 分类分析实例 82 
    4.4.1 二分类实例 82 
    4.4.2 多分类实例 94 
    小结 101 
    习题 102 
    第5章 聚类分析模型 105 
    5.1 聚类分析的定义 105 
    5.1.1 基于距离的亲疏关系度量 105 
    5.1.2 基于相似系数的相似性度量 108 
    5.1.3 个体与类以及类间的亲疏关系度量 110 
    5.1.4 变量的选择与处理 111 
    5.2 聚类分析的分类 111 
    5.3 聚类有效性的评价 112 
    5.4 聚类分析方法概述 112 
    5.5 聚类分析的应用 113 
    5.6 聚类分析的阿里云实现 114 
    小结 119 
    习题 119 
    第6章 结构分析模型 122 
    6.1 最短路径 122 
    6.2 链接排名 123 
    6.3 结构计数 125 
    6.4 结构聚类 126 
    6.5 社团发现 128 
    6.5.1 社团的定义 128 
    6.5.2 社团的分类 128 
    6.5.3 社团的用途 128 
    6.5.4 社团的数学定义 128 
    6.5.5 基于阿里云的社团发现 130 
    小结 132 
    习题 133 
    第7章 文本分析模型 135 
    7.1 文本分析模型概述 135 
    7.2 文本分析方法概述 136 
    7.2.1 SplitWord 136 
    7.2.2 词频统计 137 
    7.2.3 TFIDF 138 
    7.2.4 PLDA 140 
    7.2.5 Word2Vec 147 
    小结 148 
    习题 149 
    第8章 大数据分析的数据预处理 150 
    8.1 数据抽样和过滤 150 
    8.1.1 数据抽样 150 
    8.1.2 数据过滤 154 
    8.1.3 基于阿里云的抽样和过滤实现 154 
    8.2 数据标准化与归一化 157 
    8.3 数据清洗 159 
    8.3.1 数据质量概述 159 
    8.3.2 缺失值填充 160 
    8.3.3 实体识别与真值发现 162 
    8.3.4 错误发现与修复 169 
    小结 171 
    习题 171 
    第9章 降维 173 
    9.1 特征工程 173 
    9.1.1 特征工程概述 173 
    9.1.2 特征变换 175 
    9.1.3 特征选择 178 
    9.1.4 特征重要性评估 183 
    9.2 主成分分析 191 
    9.2.1 什么是主成分分析 191 
    9.2.2 主成分分析的计算过程 192 
    9.2.3 基于阿里云的主成分分析 194 
    9.2.4 主成分的表现度量 195 
    9.3 因子分析 196 
    9.3.1 因子分析概述 196 
    9.3.2 因子分析的主要分析指标 196 
    9.3.3 因子分析的计算方法 197 
    9.4 压缩感知 203 
    9.4.1 什么是压缩感知 203 
    9.4.2 压缩感知的具体模型 204 
    9.5 面向神经网络的降维 205 
    9.5.1 面向神经网络的降维方法概述 205 
    9.5.2 如何利用神经网络降维 206 
    9.6 基于特征散列的维度缩减 207 
    9.6.1 特征散列方法概述 207 
    9.6.2 特征散列算法 207 
    9.7 基于Lasso算法的降维 208 
    9.7.1 Lasso方法简介 208 
    9.7.2 Lasso方法 209 
    9.7.3 Lasso算法的适用情景 211 
    小结 211 
    习题 212 
    第10章 面向大数据的数据仓库系统 214 
    10.1 数据仓库概述 214 
    10.1.1 数据仓库的基本概念 214 
    10.1.2 数据仓库的内涵 215 
    10.1.3 数据仓库的基本组成 215 
    10.1.4 数据仓库系统的体系结构 216 
    10.1.5 数据仓库的建立 217 
    10.2 分布式数据仓库系统 221 
    10.2.1 基于Hadoop的数据仓库系统 221 
    10.2.2 Shark:基于Spark的数据仓库系统 227 
    10.2.3 Mesa 228 
    10.3 内存数据仓库系统 231 
    10.3.1 SAP HANA 231 
    10.3.2 HyPer 234 
    10.4 阿里云数据仓库简介 236 
    小结 238 
    习题 239 
    第11章 大数据分析算法 240 
    11.1 大数据分析算法概述 240 
    11.2 回归算法 242 
    11.3 关联规则挖掘算法 248 
    11.4 分类算法 255 
    11.4.1 二分类算法 256 
    11.4.2 多分类算法 273 
    11.5 聚类算法 283 
    11.5.1 kmeans算法 283 
    11.5.2 CLARANS算法 291 
    小结 293 
    习题 293 
    第12章 大数据计算平台 295 
    12.1 Spark 295 
    12.1.1 Spark简介 295 
    12.1.2 基于Spark的大数据分析实例 296 
    12.2 Hyracks 299 
    12.2.1 Hyracks简介 299 
    12.2.2 基于Hyracks的大数据分析实例 299 
    12.3 DPark
查看详情
系列丛书 / 更多
大数据分析原理与实践
统计学习导论 基于R应用
[美]加雷斯·詹姆斯、丹妮拉·威滕、特雷弗·哈斯帖 著;王星 译
大数据分析原理与实践
大数据导论
彭智勇 译
大数据分析原理与实践
Python机器学习
高明、徐莹、陶虎成 译
大数据分析原理与实践
机器学习与R语言(原书第2版)
李洪成、许金炜、李舰 译
大数据分析原理与实践
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
[德]西蒙·蒙策尔特 著;吴今朝 译
大数据分析原理与实践
Python文本分析
[印度]迪潘简·撒卡尔 著;闫龙川 高德荃 李君婷 译
大数据分析原理与实践
机器学习与R语言
[美]Brett Lantz 著;李洪成、许金炜、李舰 译
大数据分析原理与实践
Python机器学习(原书第2版)
瓦希德·米 著;塞巴斯蒂安·拉施卡(Sebastian Raschka)、陈斌 译
大数据分析原理与实践
基于MPI的大数据高性能计算导论
弗兰克·尼尔森(Frank Nielsen) 著;张伟哲 译
大数据分析原理与实践
图分析与可视化:在关联数据中发现商业机会
[美]理查德·布莱斯(Richard Brath)、[美]David Jonker 著;赵利通 译
大数据分析原理与实践
数据科学导论:Python语言实现
[意]阿尔贝托·博斯凯蒂 著;于俊伟 译
大数据分析原理与实践
社交媒体数据挖掘与分析
[美]加博尔·萨博(Gabor Szabo) 著;李凯、吕天阳 译
您可能感兴趣 / 更多
大数据分析原理与实践
制造业大数据的建模与分析
王宏志【等 著
大数据分析原理与实践
大数据计算系统:原理、技术与应用
王宏志 刘海龙 张立臣 石胜飞 编著
大数据分析原理与实践
龙与狮的对话: 翻译与马戛尔尼访华使团
王宏志
大数据分析原理与实践
大数据治理:理论与方法
王宏志
大数据分析原理与实践
翻译史研究(2018)
王宏志
大数据分析原理与实践
大数据管理系统原理与技术
王宏志、何震瀛、王鹏、李春静 著
大数据分析原理与实践
国之重器出版工程大数据清洗技术
王宏志 著
大数据分析原理与实践
翻译史研究(2017)
王宏志 著
大数据分析原理与实践
Hadoop集群程序设计与开发
王宏志、李春静 著
大数据分析原理与实践
翻译史研究(2016)
王宏志 编
大数据分析原理与实践
零基础学大数据算法
王宏志 著
大数据分析原理与实践
大数据算法
王宏志 著