重构大数据统计:阿里巴巴集团技术丛书,大数据丛书。大型互联网公司大数据分析实践经验!大数据分析人员必修必学的内功。基于本书内容开发的数据分析工具已在阿里巴巴集团内部使用,取得显著效果。

重构大数据统计:阿里巴巴集团技术丛书,大数据丛书。大型互联网公司大数据分析实践经验!大数据分析人员必修必学的内功。基于本书内容开发的数据分析工具已在阿里巴巴集团内部使用,取得显著效果。
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2014-08
版次: 1
ISBN: 9787121225000
定价: 79.00
装帧: 平装
开本: 16开
纸张: 轻型纸
页数: 404页
字数: 502千字
正文语种: 简体中文
72人买过
  • 基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,取得显著效果。大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。 杨旭,2004年获南开大学数学博士学位,之后在南开大学信息学院从事博士后研究工作。2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。 第1章基本概念 1
    1.1  数据类型 1
    1.2  总体和样本 2
    1.3  参数和统计量 2
    1.4  分布式计算 3
    第2章单变量基本统计量 5
    2.1  数量统计量 5
    2.1.1  样本方差为何除以n-1 7
    2.1.2  数据分布与标准差的关系 10
    2.1.3  新的计算公式 11
    2.1.4  代码实现 16
    2.2  频数统计量 18
    2.3  次序统计量 23
    2.3.1  通过排序方法计算次序统计量 25
    2.3.2  不需排序就可计算的次序统计量 29
    2.3.3  基于频数信息计算次序统计量 31
    2.3.4  中位数、众数和均值的关系 34
    第3章单变量数据的分布 36
    3.1  直方图 36
    3.1.1  直方图的计算 39
    3.1.2  算法实现 42
    3.1.3  已知数据频数的情况下求直方图 49
    3.1.4  日期类型直方图 49
    3.2  经验分布 57
    3.3  近似分位数和近似百分位数 61
    3.4  PP、QQ概率图 65
    3.5  单变量的基本统计信息 69
    第4章多变量的数据特征 77
    4.1  协方差 77
    4.2  相关系数 79
    4.3  协方差和相关系数的计算实现 80
    4.4  数据表的基本统计结果 84
    第5章数据探索 88
    5.1  扩展直方图 88
    5.1.1  计算方法 90
    5.1.2  代码实现 91
    5.2  交叉表 110
    第6章极限定理 116
    6.1  大数定理 116
    6.2  中心极限定理 117
    第7章常用的分布函数介绍 123
    7.1  基本定义 123
    7.2  标准正态分布(Z分布或U分布) 124
    7.3  卡方分布(χ^2分布) 129
    7.4  学生T分布 133
    7.5  F分布 139
    第8章常用分布函数计算 145
    8.1  函数定义 145
    8.2  函数性质及相互间的关系 147
    8.3  分布函数关系图 164
    8.4  分布函数的计算 166
    8.4.1  计算Γ(x) 166
    8.4.2  计算CDF_Γ 170
    8.4.3  计算CDF_Β 173
    8.4.4  计算IDF_Γ和CDF_Β 176
    8.4.5  其他函数的计算 178
    8.5  生成常用分布的随机数 180
    第9章参数估计 187
    9.1  点估计与区间估计 187
    9.2  单个总体的参数估计 190
    9.2.1  不同情况的参数估计表达式 190
    9.2.2  单个总体参数估计的实现 191
    9.3  两个总体的参数估计 196
    9.3.1  不同情况的参数估计表达式 196
    9.3.2  两个总体参数估计的实现 199
    第10章假设检验 207
    10.1  基本概念 207
    10.2  参数检验 209
    10.3  单个总体参数的检验 212
    10.3.1  各种情况下的检验方法 212
    10.3.2  单个总体参数检验方法的实现 214
    10.3.3  不同检验方法的选择 223
    10.4  两个总体参数的检验 227
    10.4.1  各种情况下的检验方法 227
    10.4.2  两个总体参数检验方法的实现 231
    10.4.3  不同检验方法的选择 237
    第11章非参数检验 244
    11.1  Pearson拟合优度χ^2检验 245
    11.2  两个变量的列联表检验 248
    11.3  K-S检验 250
    11.3.1  单样本K-S检验 251
    11.3.2  双样本K-S检验 256
    11.4  符号检验 258
    11.5  秩统计量和秩检验方法 260
    11.5.1  Wilcoxon秩和检验 260
    11.5.2  Wilcoxon符号秩和检验 266
    11.5.3  Kruskal-Wallis检验 268
    11.5.4  Friedman检验 273
    第12章方差分析 277
    12.1  单因素方差分析 278
    12.1.1  计算流程 278
    12.1.2  代码实现 280
    12.1.3  方差分析与T检验的关系 283
    12.1.4  方差分析中的多重比较方法 285
    12.2  双因素方差分析 289
    12.2.1  无交互作用的双因素方差分析 289
    12.2.2  有交互作用的双因素方差分析 295
    第13章多元线性回归 302
    13.1  数学模型 302
    13.2  显著性检验 308
    13.3  计算步骤 309
    13.4  代码实现 313
    13.5  多重共线性 320
    13.5.1  度量指标 320
    13.5.2  代码实现 323
    13.5.3  应用示例 328
    13.6  逐步回归 330
    第14章主成分分析 340
    14.1  计算步骤 342
    14.2  代码实现 345
    14.3  应用举例 350
    第15章判别分析 359
    15.1  距离判别 359
    15.1.1  Mahalanobis距离 360
    15.1.2  模型训练和预测 361
    15.2  Fisher判别 364
    15.3  Bayes判别 369
    15.3.1  朴素Bayes判别 369
    15.3.2  模型训练和预测 370
    15.4  判别算法的综合模型 377
    15.5  应用举例 378
    第16章模型评估曲线 383
    16.1  相关概念 383
    16.2  定义 384
    16.2.1  ROC曲线 384
    16.2.2  上升图和反馈率―精确率线 386
    16.3  计算实现 386
    参考文献 391
  • 内容简介:
    基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,取得显著效果。大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。
  • 作者简介:
    杨旭,2004年获南开大学数学博士学位,之后在南开大学信息学院从事博士后研究工作。2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。
  • 目录:
    第1章基本概念 1
    1.1  数据类型 1
    1.2  总体和样本 2
    1.3  参数和统计量 2
    1.4  分布式计算 3
    第2章单变量基本统计量 5
    2.1  数量统计量 5
    2.1.1  样本方差为何除以n-1 7
    2.1.2  数据分布与标准差的关系 10
    2.1.3  新的计算公式 11
    2.1.4  代码实现 16
    2.2  频数统计量 18
    2.3  次序统计量 23
    2.3.1  通过排序方法计算次序统计量 25
    2.3.2  不需排序就可计算的次序统计量 29
    2.3.3  基于频数信息计算次序统计量 31
    2.3.4  中位数、众数和均值的关系 34
    第3章单变量数据的分布 36
    3.1  直方图 36
    3.1.1  直方图的计算 39
    3.1.2  算法实现 42
    3.1.3  已知数据频数的情况下求直方图 49
    3.1.4  日期类型直方图 49
    3.2  经验分布 57
    3.3  近似分位数和近似百分位数 61
    3.4  PP、QQ概率图 65
    3.5  单变量的基本统计信息 69
    第4章多变量的数据特征 77
    4.1  协方差 77
    4.2  相关系数 79
    4.3  协方差和相关系数的计算实现 80
    4.4  数据表的基本统计结果 84
    第5章数据探索 88
    5.1  扩展直方图 88
    5.1.1  计算方法 90
    5.1.2  代码实现 91
    5.2  交叉表 110
    第6章极限定理 116
    6.1  大数定理 116
    6.2  中心极限定理 117
    第7章常用的分布函数介绍 123
    7.1  基本定义 123
    7.2  标准正态分布(Z分布或U分布) 124
    7.3  卡方分布(χ^2分布) 129
    7.4  学生T分布 133
    7.5  F分布 139
    第8章常用分布函数计算 145
    8.1  函数定义 145
    8.2  函数性质及相互间的关系 147
    8.3  分布函数关系图 164
    8.4  分布函数的计算 166
    8.4.1  计算Γ(x) 166
    8.4.2  计算CDF_Γ 170
    8.4.3  计算CDF_Β 173
    8.4.4  计算IDF_Γ和CDF_Β 176
    8.4.5  其他函数的计算 178
    8.5  生成常用分布的随机数 180
    第9章参数估计 187
    9.1  点估计与区间估计 187
    9.2  单个总体的参数估计 190
    9.2.1  不同情况的参数估计表达式 190
    9.2.2  单个总体参数估计的实现 191
    9.3  两个总体的参数估计 196
    9.3.1  不同情况的参数估计表达式 196
    9.3.2  两个总体参数估计的实现 199
    第10章假设检验 207
    10.1  基本概念 207
    10.2  参数检验 209
    10.3  单个总体参数的检验 212
    10.3.1  各种情况下的检验方法 212
    10.3.2  单个总体参数检验方法的实现 214
    10.3.3  不同检验方法的选择 223
    10.4  两个总体参数的检验 227
    10.4.1  各种情况下的检验方法 227
    10.4.2  两个总体参数检验方法的实现 231
    10.4.3  不同检验方法的选择 237
    第11章非参数检验 244
    11.1  Pearson拟合优度χ^2检验 245
    11.2  两个变量的列联表检验 248
    11.3  K-S检验 250
    11.3.1  单样本K-S检验 251
    11.3.2  双样本K-S检验 256
    11.4  符号检验 258
    11.5  秩统计量和秩检验方法 260
    11.5.1  Wilcoxon秩和检验 260
    11.5.2  Wilcoxon符号秩和检验 266
    11.5.3  Kruskal-Wallis检验 268
    11.5.4  Friedman检验 273
    第12章方差分析 277
    12.1  单因素方差分析 278
    12.1.1  计算流程 278
    12.1.2  代码实现 280
    12.1.3  方差分析与T检验的关系 283
    12.1.4  方差分析中的多重比较方法 285
    12.2  双因素方差分析 289
    12.2.1  无交互作用的双因素方差分析 289
    12.2.2  有交互作用的双因素方差分析 295
    第13章多元线性回归 302
    13.1  数学模型 302
    13.2  显著性检验 308
    13.3  计算步骤 309
    13.4  代码实现 313
    13.5  多重共线性 320
    13.5.1  度量指标 320
    13.5.2  代码实现 323
    13.5.3  应用示例 328
    13.6  逐步回归 330
    第14章主成分分析 340
    14.1  计算步骤 342
    14.2  代码实现 345
    14.3  应用举例 350
    第15章判别分析 359
    15.1  距离判别 359
    15.1.1  Mahalanobis距离 360
    15.1.2  模型训练和预测 361
    15.2  Fisher判别 364
    15.3  Bayes判别 369
    15.3.1  朴素Bayes判别 369
    15.3.2  模型训练和预测 370
    15.4  判别算法的综合模型 377
    15.5  应用举例 378
    第16章模型评估曲线 383
    16.1  相关概念 383
    16.2  定义 384
    16.2.1  ROC曲线 384
    16.2.2  上升图和反馈率―精确率线 386
    16.3  计算实现 386
    参考文献 391
查看详情