Greenplum构建实时数据仓库实践

Greenplum构建实时数据仓库实践
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2022-07
版次: 1
ISBN: 9787302611653
定价: 89.00
装帧: 其他
开本: 16开
纸张: 胶版纸
1人买过
  • Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。
      本书详解Greenplum数据仓库构建与数据分析技术,配套示例源码。 本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。
      本书适合Greenplum初学者、大数据分析系统设计与开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。 王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Greenplum构建实时数据仓库实践》《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。 第1章  数据仓库简介 1

    1.1  什么是数据仓库 1

    1.1.1  数据仓库的定义 2

    1.1.2  建立数据仓库的原因 3

    1.2  操作型系统与分析型系统 5

    1.2.1  操作型系统 5

    1.2.2  分析型系统 7

    1.2.3  操作型系统和分析型系统的对比 8

    1.3  抽取—转换—装载 10

    1.3.1  数据抽取 10

    1.3.2  数据转换 12

    1.3.3  数据装载 13

    1.3.4  开发ETL系统的方法 13

    1.4  数据仓库架构 14

    1.4.1  基本架构 14

    1.4.2  主要数据仓库架构 15

    1.4.3  操作型数据存储 19

    1.5  实时数据仓库 19

    1.5.1  流式处理 20

    1.5.2  实时计算 21

    1.5.3  实时数据仓库解决方案 24

    1.6  小结 26

    第2章  数据仓库设计基础 27

    2.1  关系数据模型 27

    2.1.1  关系数据模型中的结构 27

    2.1.2  关系完整性 30

    2.1.3  关系数据库语言 31

    2.1.4  规范化 32

    2.1.5  关系数据模型与数据仓库 34

    2.2  维度数据模型 36

    2.2.1  维度数据模型建模过程 36

    2.2.2  维度规范化 37

    2.2.3  维度数据模型的特点 38

    2.2.4  星型模式 39

    2.2.5  雪花模式 41

    2.3  Data Vault模型 43

    2.3.1  Data Vault模型简介 43

    2.3.2  Data Vault模型的组成部分 43

    2.3.3  Data Vault模型的特点 45

    2.3.4  Data Vault模型的构建 45

    2.3.5  Data Vault模型实例 46

    2.4  数据集市 50

    2.5  数据仓库实施步骤 51

    2.6  小结 54

    第3章  Greenplum与数据仓库 55

    3.1  Greenplum简介 55

    3.1.1  历史与现状 55

    3.1.2  MPP——一切皆并行 56

    3.2  Greenplum系统架构 57

    3.2.1  Greenplum与PostgreSQL 57

    3.2.2  Master 58

    3.2.3  Segment 58

    3.2.4  Interconnect 59

    3.3  Greenplum功能特性 59

    3.3.1  存储模式 59

    3.3.2  事务与并发控制 63

    3.3.3  并行查询 69

    3.3.4  并行数据装载 72

    3.3.5  冗余与故障转移 73

    3.3.6  数据库统计 76

    3.4  为什么选择Greenplum 79

    3.4.1  Greenplum还是SQL-on-Hadoop 79

    3.4.2  适合DBA的解决方案 82

    3.4.3  Greenplum的局限 86

    3.5  小结 87

    第4章  Greenplum安装部署 88

    4.1  平台需求 88

    4.1.1  操作系统 88

    4.1.2  硬件和网络 89

    4.1.3  文件系统 90

    4.2  容量评估 90

    4.2.1  可用磁盘空间 91

    4.2.2  用户数据容量 91

    4.2.3  元数据和日志空间 92

    4.2.4  RAID划分最佳实践 92

    4.3  操作系统配置 93

    4.3.1  安装操作系统 94

    4.3.2  禁用SELinux和防火墙 95

    4.3.3  操作系统推荐配置 95

    4.3.4  时钟同步 99

    4.3.5  创建Greenplum管理员账号 100

    4.3.6  安装JDK(可选) 101

    4.4  安装Greenplum软件 101

    4.4.1  安装软件包 101

    4.4.2  配置免密SSH 102

    4.4.3  确认软件安装 103

    4.5  初始化Greenplum数据库系统 103

    4.5.1  创建数据存储区 103

    4.5.2  验证系统 104

    4.5.3  初始化数据库 106

    4.5.4  设置Greenplum环境变量 108

    4.6  允许客户端连接 109

    4.7  修改Greenplum配置参数 110

    4.8  后续步骤 112

    4.8.1  创建临时表空间 112

    4.8.2  创建数据库用户 113

    4.9  Greenplum升级 114

    4.9.1  升级条件 114

    4.9.2  升级步骤 114

    4.10  小结 114

    第5章  实时数据同步 116

    5.1  数据抽取方式 116

    5.1.1  基于源数据的CDC 117

    5.1.2  基于触发器的CDC 118

    5.1.3  基于快照的CDC 119

    5.1.4  基于日志的CDC 119

    5.2  MySQL数据复制 120

    5.2.1  复制的用途 121

    5.2.2  二进制日志binlog 121

    5.2.3  复制的步骤 122

    5.3  使用Kafka 124

    5.3.1  Kafka基本概念 124

    5.3.2  Kafka消费者与分区 127

    5.4  选择主题分区数 129

    5.4.1  使用单分区 129

    5.4.2  如何选定分区数量 131

    5.5  Maxwell   Kafka   Bireme 132

    5.5.1  总体架构 132

    5.5.2  Maxwell安装配置 135

    5.5.3  Bireme安装配置 137

    5.5.4  如何保证数据的顺序消费 141

    5.5.5  实时CDC 142

    5.6  Canal Server   Kafka   Canal ClientAdapter 148

    5.6.1  总体架构 148

    5.6.2  Canal Server安装配置 150

    5.6.3  Canal ClientAdapter安装配置 152

    5.6.4  配置HA模式 154

    5.6.5  实时CDC 157

    5.6.6  消费延迟监控 158

    5.7  小结 161

    第6章  实时数据装载 162

    6.1  建立数据仓库示例模型 163

    6.1.1  业务场景 163

    6.1.2  建立数据库表 165

    6.1.3  生成日期维度数据 173

    6.2  初始装载 173

    6.2.1  数据源映射 174

    6.2.2  确定SCD处理方法 174

    6.2.3  实现代理键 175

    6.2.4  执行初始装载 175

    6.3  实时装载 178

    6.3.1  识别数据源与装载类型 178

    6.3.2  配置增量数据同步 179

    6.3.3  在Greenplum中创建规则 180

    6.3.4  启动实时装载 183

    6.3.5  测试 184

    6.4  动态分区滚动 187

    6.5  小结 189

    第7章  维度表技术 190

    7.1  增加列 190

    7.2  维度子集 197

    7.3  角色扮演维度 200

    7.4  层次维度 205

    7.4.1  固定深度的层次 205

    7.4.2  多路径的层次 207

    7.4.3  参差不齐的层次 209

    7.5  退化维度 211

    7.6  杂项维度 215

    7.7  维度合并 220

    7.8  分段维度 225

    7.9  小结 230

    第8章  事实表技术 231

    8.1  事实表概述 231

    8.2  周期快照 232

    8.3  累积快照 236

    8.4  无事实的事实表 245

    8.5  迟到的事实 248

    8.6  累积度量 256

    8.7  小结 262

    第9章  Greenplum运维与监控 263

    9.1  权限与角色管理 263

    9.1.1  Greenplum中的角色与权限 263

    9.1.2  管理角色及其成员 264

    9.1.3  管理对象权限 266

    9.1.4  口令加密 267

    9.2  数据导入导出 268

    9.2.1  file://协议及其外部表 268

    9.2.2  gpfdist及其外部表 270

    9.2.3  基于Web的外部表 271

    9.2.4  外部表错误处理 274

    9.2.5  使用gpload导入数据 274

    9.2.6  使用COPY互拷数据 276

    9.2.7  导出数据 278

    9.2.8  格式化数据文件 280

    9.3  性能优化 281

    9.3.1  常用优化手段 281

    9.3.2  控制溢出文件 283

    9.3.3  查询剖析 283

    9.4  例行监控 287

    9.4.1  检查系统状态 287

    9.4.2  检查磁盘空间使用 289

    9.4.3  检查数据分布倾斜 290

    9.4.4  查看数据库对象的元数据信息 292

    9.4.5  查看会话的内存使用信息 292

    9.4.6  查看工作文件使用信息 293

    9.4.7  查看服务器日志文件 293

    9.5  例行维护 296

    9.5.1  定期VACUUM 296

    9.5.2  定期维护系统目录 297

    9.5.3  加强的系统目录维护 297

    9.5.4  为查询优化执行VACUUM与ANALYZE 298

    9.5.5  自动收集统计信息 299

    9.5.6  重建索引 299

    9.5.7  管理数据库日志文件 299

    9.6  推荐的监控与维护任务 300

    9.6.1  数据库实例状态监控 300

    9.6.2  硬件和操作系统监控 301

    9.6.3  系统目录表监控 302

    9.6.4  数据库维护 302

    9.6.5  补丁与升级 303

    9.7  小结 304

    第10章  集成机器学习库MADlib 305

    10.1  MADlib的基本概念 305

    10.1.1  MADlib是什么 305

    10.1.2  MADlib的设计思想 306

    10.1.3  MADlib的工作原理 307

    10.1.4  MADlib的执行流程 308

    10.1.5  MADlib的基础架构 308

    10.2  MADlib的功能 309

    10.2.1  MADlib支持的模型类型 309

    10.2.2  MADlib主要的功能模块 310

    10.3  MADlib的安装与卸载 313

    10.3.1  确定安装平台 313

    10.3.2  安装MADlib 314

    10.3.3  卸载MADlib 315

    10.4  MADlib示例——使用矩阵分解实现用户推荐 316

    10.4.1  低秩矩阵分解 316

    10.4.2  奇异值分解 325

    10.5  模型评估 339

    10.5.1  交叉验证 340

    10.5.2  MADlib的交叉验证相关函数 342

    10.5.3  交叉验证示例 344

    10.6  小结 346

     
  • 内容简介:
    Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。
      本书详解Greenplum数据仓库构建与数据分析技术,配套示例源码。 本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。
      本书适合Greenplum初学者、大数据分析系统设计与开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。
  • 作者简介:
    王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Greenplum构建实时数据仓库实践》《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。
  • 目录:
    第1章  数据仓库简介 1

    1.1  什么是数据仓库 1

    1.1.1  数据仓库的定义 2

    1.1.2  建立数据仓库的原因 3

    1.2  操作型系统与分析型系统 5

    1.2.1  操作型系统 5

    1.2.2  分析型系统 7

    1.2.3  操作型系统和分析型系统的对比 8

    1.3  抽取—转换—装载 10

    1.3.1  数据抽取 10

    1.3.2  数据转换 12

    1.3.3  数据装载 13

    1.3.4  开发ETL系统的方法 13

    1.4  数据仓库架构 14

    1.4.1  基本架构 14

    1.4.2  主要数据仓库架构 15

    1.4.3  操作型数据存储 19

    1.5  实时数据仓库 19

    1.5.1  流式处理 20

    1.5.2  实时计算 21

    1.5.3  实时数据仓库解决方案 24

    1.6  小结 26

    第2章  数据仓库设计基础 27

    2.1  关系数据模型 27

    2.1.1  关系数据模型中的结构 27

    2.1.2  关系完整性 30

    2.1.3  关系数据库语言 31

    2.1.4  规范化 32

    2.1.5  关系数据模型与数据仓库 34

    2.2  维度数据模型 36

    2.2.1  维度数据模型建模过程 36

    2.2.2  维度规范化 37

    2.2.3  维度数据模型的特点 38

    2.2.4  星型模式 39

    2.2.5  雪花模式 41

    2.3  Data Vault模型 43

    2.3.1  Data Vault模型简介 43

    2.3.2  Data Vault模型的组成部分 43

    2.3.3  Data Vault模型的特点 45

    2.3.4  Data Vault模型的构建 45

    2.3.5  Data Vault模型实例 46

    2.4  数据集市 50

    2.5  数据仓库实施步骤 51

    2.6  小结 54

    第3章  Greenplum与数据仓库 55

    3.1  Greenplum简介 55

    3.1.1  历史与现状 55

    3.1.2  MPP——一切皆并行 56

    3.2  Greenplum系统架构 57

    3.2.1  Greenplum与PostgreSQL 57

    3.2.2  Master 58

    3.2.3  Segment 58

    3.2.4  Interconnect 59

    3.3  Greenplum功能特性 59

    3.3.1  存储模式 59

    3.3.2  事务与并发控制 63

    3.3.3  并行查询 69

    3.3.4  并行数据装载 72

    3.3.5  冗余与故障转移 73

    3.3.6  数据库统计 76

    3.4  为什么选择Greenplum 79

    3.4.1  Greenplum还是SQL-on-Hadoop 79

    3.4.2  适合DBA的解决方案 82

    3.4.3  Greenplum的局限 86

    3.5  小结 87

    第4章  Greenplum安装部署 88

    4.1  平台需求 88

    4.1.1  操作系统 88

    4.1.2  硬件和网络 89

    4.1.3  文件系统 90

    4.2  容量评估 90

    4.2.1  可用磁盘空间 91

    4.2.2  用户数据容量 91

    4.2.3  元数据和日志空间 92

    4.2.4  RAID划分最佳实践 92

    4.3  操作系统配置 93

    4.3.1  安装操作系统 94

    4.3.2  禁用SELinux和防火墙 95

    4.3.3  操作系统推荐配置 95

    4.3.4  时钟同步 99

    4.3.5  创建Greenplum管理员账号 100

    4.3.6  安装JDK(可选) 101

    4.4  安装Greenplum软件 101

    4.4.1  安装软件包 101

    4.4.2  配置免密SSH 102

    4.4.3  确认软件安装 103

    4.5  初始化Greenplum数据库系统 103

    4.5.1  创建数据存储区 103

    4.5.2  验证系统 104

    4.5.3  初始化数据库 106

    4.5.4  设置Greenplum环境变量 108

    4.6  允许客户端连接 109

    4.7  修改Greenplum配置参数 110

    4.8  后续步骤 112

    4.8.1  创建临时表空间 112

    4.8.2  创建数据库用户 113

    4.9  Greenplum升级 114

    4.9.1  升级条件 114

    4.9.2  升级步骤 114

    4.10  小结 114

    第5章  实时数据同步 116

    5.1  数据抽取方式 116

    5.1.1  基于源数据的CDC 117

    5.1.2  基于触发器的CDC 118

    5.1.3  基于快照的CDC 119

    5.1.4  基于日志的CDC 119

    5.2  MySQL数据复制 120

    5.2.1  复制的用途 121

    5.2.2  二进制日志binlog 121

    5.2.3  复制的步骤 122

    5.3  使用Kafka 124

    5.3.1  Kafka基本概念 124

    5.3.2  Kafka消费者与分区 127

    5.4  选择主题分区数 129

    5.4.1  使用单分区 129

    5.4.2  如何选定分区数量 131

    5.5  Maxwell   Kafka   Bireme 132

    5.5.1  总体架构 132

    5.5.2  Maxwell安装配置 135

    5.5.3  Bireme安装配置 137

    5.5.4  如何保证数据的顺序消费 141

    5.5.5  实时CDC 142

    5.6  Canal Server   Kafka   Canal ClientAdapter 148

    5.6.1  总体架构 148

    5.6.2  Canal Server安装配置 150

    5.6.3  Canal ClientAdapter安装配置 152

    5.6.4  配置HA模式 154

    5.6.5  实时CDC 157

    5.6.6  消费延迟监控 158

    5.7  小结 161

    第6章  实时数据装载 162

    6.1  建立数据仓库示例模型 163

    6.1.1  业务场景 163

    6.1.2  建立数据库表 165

    6.1.3  生成日期维度数据 173

    6.2  初始装载 173

    6.2.1  数据源映射 174

    6.2.2  确定SCD处理方法 174

    6.2.3  实现代理键 175

    6.2.4  执行初始装载 175

    6.3  实时装载 178

    6.3.1  识别数据源与装载类型 178

    6.3.2  配置增量数据同步 179

    6.3.3  在Greenplum中创建规则 180

    6.3.4  启动实时装载 183

    6.3.5  测试 184

    6.4  动态分区滚动 187

    6.5  小结 189

    第7章  维度表技术 190

    7.1  增加列 190

    7.2  维度子集 197

    7.3  角色扮演维度 200

    7.4  层次维度 205

    7.4.1  固定深度的层次 205

    7.4.2  多路径的层次 207

    7.4.3  参差不齐的层次 209

    7.5  退化维度 211

    7.6  杂项维度 215

    7.7  维度合并 220

    7.8  分段维度 225

    7.9  小结 230

    第8章  事实表技术 231

    8.1  事实表概述 231

    8.2  周期快照 232

    8.3  累积快照 236

    8.4  无事实的事实表 245

    8.5  迟到的事实 248

    8.6  累积度量 256

    8.7  小结 262

    第9章  Greenplum运维与监控 263

    9.1  权限与角色管理 263

    9.1.1  Greenplum中的角色与权限 263

    9.1.2  管理角色及其成员 264

    9.1.3  管理对象权限 266

    9.1.4  口令加密 267

    9.2  数据导入导出 268

    9.2.1  file://协议及其外部表 268

    9.2.2  gpfdist及其外部表 270

    9.2.3  基于Web的外部表 271

    9.2.4  外部表错误处理 274

    9.2.5  使用gpload导入数据 274

    9.2.6  使用COPY互拷数据 276

    9.2.7  导出数据 278

    9.2.8  格式化数据文件 280

    9.3  性能优化 281

    9.3.1  常用优化手段 281

    9.3.2  控制溢出文件 283

    9.3.3  查询剖析 283

    9.4  例行监控 287

    9.4.1  检查系统状态 287

    9.4.2  检查磁盘空间使用 289

    9.4.3  检查数据分布倾斜 290

    9.4.4  查看数据库对象的元数据信息 292

    9.4.5  查看会话的内存使用信息 292

    9.4.6  查看工作文件使用信息 293

    9.4.7  查看服务器日志文件 293

    9.5  例行维护 296

    9.5.1  定期VACUUM 296

    9.5.2  定期维护系统目录 297

    9.5.3  加强的系统目录维护 297

    9.5.4  为查询优化执行VACUUM与ANALYZE 298

    9.5.5  自动收集统计信息 299

    9.5.6  重建索引 299

    9.5.7  管理数据库日志文件 299

    9.6  推荐的监控与维护任务 300

    9.6.1  数据库实例状态监控 300

    9.6.2  硬件和操作系统监控 301

    9.6.3  系统目录表监控 302

    9.6.4  数据库维护 302

    9.6.5  补丁与升级 303

    9.7  小结 304

    第10章  集成机器学习库MADlib 305

    10.1  MADlib的基本概念 305

    10.1.1  MADlib是什么 305

    10.1.2  MADlib的设计思想 306

    10.1.3  MADlib的工作原理 307

    10.1.4  MADlib的执行流程 308

    10.1.5  MADlib的基础架构 308

    10.2  MADlib的功能 309

    10.2.1  MADlib支持的模型类型 309

    10.2.2  MADlib主要的功能模块 310

    10.3  MADlib的安装与卸载 313

    10.3.1  确定安装平台 313

    10.3.2  安装MADlib 314

    10.3.3  卸载MADlib 315

    10.4  MADlib示例——使用矩阵分解实现用户推荐 316

    10.4.1  低秩矩阵分解 316

    10.4.2  奇异值分解 325

    10.5  模型评估 339

    10.5.1  交叉验证 340

    10.5.2  MADlib的交叉验证相关函数 342

    10.5.3  交叉验证示例 344

    10.6  小结 346

     
查看详情
相关图书 / 更多
Greenplum构建实时数据仓库实践
Green Chemistry——Process Technology and Sustainable Development(绿色化学技术及可持续发展)
陆胤
Greenplum构建实时数据仓库实践
Grasshopper形式解析案例与模式
付汉东 著
Greenplum构建实时数据仓库实践
GraalVM与Java静态编译:原理与应用
林子熠
Greenplum构建实时数据仓库实践
Grails技术精解与开发实战
郭宏宸 王永超 贺大庆
Greenplum构建实时数据仓库实践
Grant解剖学操作指南(第17版)
欧阳钧 译;[美]阿朗·德东(Alan Detton)
Greenplum构建实时数据仓库实践
Graphite监控
[美]Jason Dixon(杰森·迪克森)
Greenplum构建实时数据仓库实践
Grasshopper参数化技术:从基础建模到数字设计
燕海南;杨艳;曹雅男;王军
Greenplum构建实时数据仓库实践
Gromov 的数学世界(下册)
M. 格罗莫夫 著;季理真 选文;梅加强
Greenplum构建实时数据仓库实践
GraphPad Prism科技绘图与数据分析
丁金滨;宗敏
Greenplum构建实时数据仓库实践
Gregory儿科麻醉学(原书第6版)
[美]Dean B. Andropoulos;[美]George A. Gregory
Greenplum构建实时数据仓库实践
Grace说感恩——Grace系列第四册!
廖树清 文/图
Greenplum构建实时数据仓库实践
GraphPad Prism学术图表(全彩)
张敏(@如图所示
您可能感兴趣 / 更多
Greenplum构建实时数据仓库实践
Kettle构建HadoopETL系统实践(大数据技术丛书)
王雪迎 著
Greenplum构建实时数据仓库实践
MySQL高可用实践
王雪迎 著
Greenplum构建实时数据仓库实践
SQL机器学习库MADlib技术解析
王雪迎 著
Greenplum构建实时数据仓库实践
HAWQ数据仓库与数据挖掘实战
王雪迎
Greenplum构建实时数据仓库实践
Hadoop构建数据仓库实践
王雪迎 著