R大数据分析实用指南

R大数据分析实用指南
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [英] (Simon Walkowiak) , ,
2019-05
版次: 1
ISBN: 9787115509253
定价: 99.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 373页
正文语种: 简体中文
丛书: R语言
8人买过
  • R是一个强大的、开源的、函数式编程语言,可以用于广泛的编程任务。一般来讲,R语言的应用主要在数据统计与分析、机器学习、高性能计算等方面。R语言已经在多个领域赢得了认可,同时也基于其开源、免费的特点不断地发展壮大。

    本书通过9章内容,循序渐进地揭示了大数据的概念,介绍了如何使用R进行数据处理,如何创建Hadoop虚拟机,如何建立和部署SQL数据库,同时还介绍了MongoDB、HBase、Spark、Hive相关的内容,并介绍了R的潜在应用场景。

    本书适合中级数据分析师、数据工程师、统计学家、研究人员和数据科学家阅读,需要读者具备数据分析、数据管理和大数据算法的基本知识。 Simon Walkowiak是Mind Project公司的认知神经系统科学家和总经理,Mind Project公司是一家位于英国伦敦的大数据预测分析咨询公司。在此之前,Simon 是欧洲的社会经济数据库—— 英国科研数据服务(UKDS,位于埃塞克斯大学)的数据主管人。Simon在处理和管理大规模数据集方面拥有丰富的经验,例如普查、传感器、智能电表数据、电信数据和众所周知的政治和社会调查。Simon在公共机构和国际公司开设了大量的数据科学和 R 培训课程。他还在英国的几所主要的大学以及由分析与数据科学研究所(Institute of Analytics and Data Science,IADS)组织的大数据分析暑期班教授大数据方法课程。 第 1章 大数据时代 1

    1.1 大数据——重新定义怪物 1

    1.2 大数据工具箱——为大而生 4

    1.2.1 Hadoop——屋中之象 4

    1.2.2 数据库 6

    1.2.3 Hadoop的Spark化 7

    1.3 R语言——大数据的无冕之王 8

    1.4 小结 13

    第 2章 R编程语言与统计环境的介绍 14

    2.1 学习R 14

    2.2 R语言基础回顾 16

    2.2.1 准备R和RStudio 16

    2.2.2 R语言数据结构 19

    2.2.3 导出R数据对象 29

    2.3 应用数据科学与R 33

    2.3.1 导入不同格式的数据 34

    2.3.2 探索性数据分析 35

    2.3.3 数据聚合和列联表 37

    2.3.4 假设检验和统计推断 41

    2.3.5 数据可视化包 52

    2.4 小结 53

    第3章 由内而外释放R的力量 54

    3.1 R的传统局限性 54

    3.1.1 内存外的数据 55

    3.1.2 处理速度 55

    3.2 超越内存限制 56

    3.2.1 使用ff和ffbase软件包进行数据转换和聚合 56

    3.2.2 使用ff和ffbase包的广义线性模型 65

    3.2.3 使用bigmemory包扩展内存 73

    3.3 R的并行 81

    3.3.1 从bigmemory到更快的计算 82

    3.3.2 未来的R并行处理 89

    3.4 使用data.table包和其他工具提高R性能 91

    3.4.1 使用data.table包快速数据导入和操作 91

    3.4.2 编写更好的R代码 98

    3.5 小结 99

    第4章 R相关的Hadoop和MapReduce框架 100

    4.1 Hadoop架构 100

    4.1.1 Hadoop分布式文件系统 101

    4.1.2 MapReduce框架 101

    4.1.3 其他Hadoop原生工具 104

    4.1.4 学习Hadoop 105

    4.2 云上的单节点Hadoop 106

    4.2.1 在Azure上部署Hortonworks Sandbox 106

    4.2.2 Java语言的Hadoop单词记数示例 119

    4.2.3 R语言的Hadoop单词记数示例 127

    4.3 HDInsight—— Azure上的多节点Hadoop集群 145

    4.3.1 创建第 一个HDInsight集群 145

    4.3.2 智能电表数据分析示例——在HDInsight集群上使用R 164

    4.4 小结 175

    第5章 R与关系型数据库管理系统(RDBMS) 176

    5.1 关系型数据库管理系统(RDBMS) 176

    5.1.1 常用RDBMS简介 177

    5.1.2 结构化查询语言(SQL) 178

    5.2 用SQLite 连接R 179

    5.2.1 准备并导入数据到本地SQLite数据库 179

    5.2.2 通过RStudio连接SQLite数据库 182

    5.3 在Amazon EC2实例中连接MariaDB和R 186

    5.3.1 准备EC2实例和RStudio服务器 186

    5.3.2 准备MariaDB和数据 188

    5.3.3 连接MariaDB和RStudio 195

    5.4 连接Amazon RDS上的PostgreSQL和R 209

    5.4.1 启动一个Amazon RDS数据库实例 209

    5.4.2 准备并上传数据到Amazon RDS上 214

    5.4.3 从RStudio 远程查询Amazon RDS上的PostgreSQL 222

    5.5 小结 232

    第6章 R与非关系型数据库 233

    6.1 NoSQL数据库简介 233

    6.2 用R操作MongoDB 236

    6.2.1 MongoDB简介 236

    6.2.2 在Amazon EC2上安装MongoDB并与R连接 237

    6.2.3 使用MongoDB和R处理大数据 240

    6.3 Hbase与R 268

    6.3.1 Azure HDInsight与HBase和RStudio Server 268

    6.3.2 将数据导入HDFS和HBase 274

    6.3.3 使用rhbase包读取和查阅Hbase 277

    6.4 小结 282

    第7章 比Hadoop更快——使用R编写Spark 283

    7.1 为大数据分析服务的Spark 283

    7.2 多节点HDInsight集群上使用R的Spark 284

    7.2.1 部署使用支持Spark和R/RStudio的HDInsight 284

    7.2.2 将数据读入HDFS和Hive 289

    7.2.3 使用SparkR分析湾区共享单车数据 299

    7.3 小结 315

    第8章 R语言大数据机器学习 316

    8.1 机器学习是什么 316

    8.1.1 机器学习算法 316

    8.1.2 监督和无监督机器学习方法 317

    8.1.3 分类和聚类算法 318

    8.1.4 R机器学习方法 318

    8.1.5 大数据机器学习工具 319

    8.2 在HDInsight集群中使用Spark和R的GLM示例 320

    8.2.1 准备Spark群集并从HDFS读取数据 320

    8.2.2 Spark中的R语言逻辑回归 325

    8.3 R中基于Hadoop H2O的朴素贝叶斯 336

    8.3.1 在R中运行Hadoop上的H2O实例 336

    8.3.2 读取和探索H2O中的数据 340

    8.3.3 R中基于H2O的朴素贝叶斯 343

    8.4 R中基于Hadoop H2O的神经网络 355

    8.4.1 神经网络的工作原理 355

    8.4.2 在H2O上运行神经网络模型 356

    8.5 小结 364

    第9章 R语言的未来——大数据、快数据、智能数据 365

    9.1 R大数据分析的现状 365

    9.1.1 超过单机内存的数据 365

    9.1.2 更快的R数据处理 367

    9.1.3 Hadoop与R 367

    9.1.4 Spark与R 368

    9.1.5 R与数据库 369

    9.1.6 机器学习与R 370

    9.2 R的未来 370

    9.2.1 大数据 370

    9.2.2 快数据 371

    9.2.3 智能数据 372

    9.3 如何提升 372

    9.4 小结 373
  • 内容简介:
    R是一个强大的、开源的、函数式编程语言,可以用于广泛的编程任务。一般来讲,R语言的应用主要在数据统计与分析、机器学习、高性能计算等方面。R语言已经在多个领域赢得了认可,同时也基于其开源、免费的特点不断地发展壮大。

    本书通过9章内容,循序渐进地揭示了大数据的概念,介绍了如何使用R进行数据处理,如何创建Hadoop虚拟机,如何建立和部署SQL数据库,同时还介绍了MongoDB、HBase、Spark、Hive相关的内容,并介绍了R的潜在应用场景。

    本书适合中级数据分析师、数据工程师、统计学家、研究人员和数据科学家阅读,需要读者具备数据分析、数据管理和大数据算法的基本知识。
  • 作者简介:
    Simon Walkowiak是Mind Project公司的认知神经系统科学家和总经理,Mind Project公司是一家位于英国伦敦的大数据预测分析咨询公司。在此之前,Simon 是欧洲的社会经济数据库—— 英国科研数据服务(UKDS,位于埃塞克斯大学)的数据主管人。Simon在处理和管理大规模数据集方面拥有丰富的经验,例如普查、传感器、智能电表数据、电信数据和众所周知的政治和社会调查。Simon在公共机构和国际公司开设了大量的数据科学和 R 培训课程。他还在英国的几所主要的大学以及由分析与数据科学研究所(Institute of Analytics and Data Science,IADS)组织的大数据分析暑期班教授大数据方法课程。
  • 目录:
    第 1章 大数据时代 1

    1.1 大数据——重新定义怪物 1

    1.2 大数据工具箱——为大而生 4

    1.2.1 Hadoop——屋中之象 4

    1.2.2 数据库 6

    1.2.3 Hadoop的Spark化 7

    1.3 R语言——大数据的无冕之王 8

    1.4 小结 13

    第 2章 R编程语言与统计环境的介绍 14

    2.1 学习R 14

    2.2 R语言基础回顾 16

    2.2.1 准备R和RStudio 16

    2.2.2 R语言数据结构 19

    2.2.3 导出R数据对象 29

    2.3 应用数据科学与R 33

    2.3.1 导入不同格式的数据 34

    2.3.2 探索性数据分析 35

    2.3.3 数据聚合和列联表 37

    2.3.4 假设检验和统计推断 41

    2.3.5 数据可视化包 52

    2.4 小结 53

    第3章 由内而外释放R的力量 54

    3.1 R的传统局限性 54

    3.1.1 内存外的数据 55

    3.1.2 处理速度 55

    3.2 超越内存限制 56

    3.2.1 使用ff和ffbase软件包进行数据转换和聚合 56

    3.2.2 使用ff和ffbase包的广义线性模型 65

    3.2.3 使用bigmemory包扩展内存 73

    3.3 R的并行 81

    3.3.1 从bigmemory到更快的计算 82

    3.3.2 未来的R并行处理 89

    3.4 使用data.table包和其他工具提高R性能 91

    3.4.1 使用data.table包快速数据导入和操作 91

    3.4.2 编写更好的R代码 98

    3.5 小结 99

    第4章 R相关的Hadoop和MapReduce框架 100

    4.1 Hadoop架构 100

    4.1.1 Hadoop分布式文件系统 101

    4.1.2 MapReduce框架 101

    4.1.3 其他Hadoop原生工具 104

    4.1.4 学习Hadoop 105

    4.2 云上的单节点Hadoop 106

    4.2.1 在Azure上部署Hortonworks Sandbox 106

    4.2.2 Java语言的Hadoop单词记数示例 119

    4.2.3 R语言的Hadoop单词记数示例 127

    4.3 HDInsight—— Azure上的多节点Hadoop集群 145

    4.3.1 创建第 一个HDInsight集群 145

    4.3.2 智能电表数据分析示例——在HDInsight集群上使用R 164

    4.4 小结 175

    第5章 R与关系型数据库管理系统(RDBMS) 176

    5.1 关系型数据库管理系统(RDBMS) 176

    5.1.1 常用RDBMS简介 177

    5.1.2 结构化查询语言(SQL) 178

    5.2 用SQLite 连接R 179

    5.2.1 准备并导入数据到本地SQLite数据库 179

    5.2.2 通过RStudio连接SQLite数据库 182

    5.3 在Amazon EC2实例中连接MariaDB和R 186

    5.3.1 准备EC2实例和RStudio服务器 186

    5.3.2 准备MariaDB和数据 188

    5.3.3 连接MariaDB和RStudio 195

    5.4 连接Amazon RDS上的PostgreSQL和R 209

    5.4.1 启动一个Amazon RDS数据库实例 209

    5.4.2 准备并上传数据到Amazon RDS上 214

    5.4.3 从RStudio 远程查询Amazon RDS上的PostgreSQL 222

    5.5 小结 232

    第6章 R与非关系型数据库 233

    6.1 NoSQL数据库简介 233

    6.2 用R操作MongoDB 236

    6.2.1 MongoDB简介 236

    6.2.2 在Amazon EC2上安装MongoDB并与R连接 237

    6.2.3 使用MongoDB和R处理大数据 240

    6.3 Hbase与R 268

    6.3.1 Azure HDInsight与HBase和RStudio Server 268

    6.3.2 将数据导入HDFS和HBase 274

    6.3.3 使用rhbase包读取和查阅Hbase 277

    6.4 小结 282

    第7章 比Hadoop更快——使用R编写Spark 283

    7.1 为大数据分析服务的Spark 283

    7.2 多节点HDInsight集群上使用R的Spark 284

    7.2.1 部署使用支持Spark和R/RStudio的HDInsight 284

    7.2.2 将数据读入HDFS和Hive 289

    7.2.3 使用SparkR分析湾区共享单车数据 299

    7.3 小结 315

    第8章 R语言大数据机器学习 316

    8.1 机器学习是什么 316

    8.1.1 机器学习算法 316

    8.1.2 监督和无监督机器学习方法 317

    8.1.3 分类和聚类算法 318

    8.1.4 R机器学习方法 318

    8.1.5 大数据机器学习工具 319

    8.2 在HDInsight集群中使用Spark和R的GLM示例 320

    8.2.1 准备Spark群集并从HDFS读取数据 320

    8.2.2 Spark中的R语言逻辑回归 325

    8.3 R中基于Hadoop H2O的朴素贝叶斯 336

    8.3.1 在R中运行Hadoop上的H2O实例 336

    8.3.2 读取和探索H2O中的数据 340

    8.3.3 R中基于H2O的朴素贝叶斯 343

    8.4 R中基于Hadoop H2O的神经网络 355

    8.4.1 神经网络的工作原理 355

    8.4.2 在H2O上运行神经网络模型 356

    8.5 小结 364

    第9章 R语言的未来——大数据、快数据、智能数据 365

    9.1 R大数据分析的现状 365

    9.1.1 超过单机内存的数据 365

    9.1.2 更快的R数据处理 367

    9.1.3 Hadoop与R 367

    9.1.4 Spark与R 368

    9.1.5 R与数据库 369

    9.1.6 机器学习与R 370

    9.2 R的未来 370

    9.2.1 大数据 370

    9.2.2 快数据 371

    9.2.3 智能数据 372

    9.3 如何提升 372

    9.4 小结 373
查看详情
系列丛书 / 更多
R大数据分析实用指南
深度学习实践指南 基于R语言
[英]尼格尔·刘易斯(N.D.Lewis) 著;沙灜 译
您可能感兴趣 / 更多
R大数据分析实用指南
福柯最后十年 《性史》计划的产生与转变 作者 :【英】斯图尔特·埃尔登 文津出版社 ISBN: 9787805548807 鲍磊、刘北成 译
[英]斯图尔特·埃尔登
R大数据分析实用指南
重启吧!我的健康人生:休息 + 饮食 + 运动 + 睡眠,风靡全球的4项健康微习惯打卡计划
[英]兰根·查特吉 博士(Dr Rangan Chatterjee) 著;王琳 译;[英]苏珊·贝尔(Susan Bell) 摄影
R大数据分析实用指南
《从天而降》2024百班千人暑期书目小学生1年级名师推荐全新正版现货速发
[英]克里斯·奈勒-巴列斯特罗斯
R大数据分析实用指南
心世界-天生不理性(如何识别无处不在的非理性陷阱)
[英]斯图尔特·萨瑟兰
R大数据分析实用指南
第二次世界大战战史(平装)利德尔哈特 二战世界战争史 军事历史书籍
[英]利德尔·哈特 后浪
R大数据分析实用指南
新民说·诗歌小史
[英]约翰·凯里,新民说出品
R大数据分析实用指南
查泰莱夫人的情人(特装刷边珍藏版,原著未删节全译本。轰动世界的情爱经典,定制异形函套,附赠精美藏书票)
[英]戴维·赫伯特·劳伦斯
R大数据分析实用指南
生成学习策略/新学习/新教学译丛
[英]马克·恩舍(Mark Enser) 著;[英]佐伊·恩舍(Zoe Enser)
R大数据分析实用指南
如何驱动一座核反应堆
[英]科林·塔克 后浪
R大数据分析实用指南
宇宙体系(精装典藏版) 世界科普名著经典译丛
[英]牛顿
R大数据分析实用指南
不断晋升:识别晋升“拦路虎”,实现事业持续进阶(精装典藏版) 企鹅管理能力提升“口袋课“
[英]尼亚姆·奥基夫(Niamh O’Keeffe)
R大数据分析实用指南
DK影像博物馆:摄影名作全景导读
[英]汤姆·昂