Kudu:构建高性能实时数据分析存储系统(博文视点出品)

Kudu:构建高性能实时数据分析存储系统(博文视点出品)
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2019-04
版次: 1
ISBN: 9787121295416
定价: 69.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 192页
字数: 160.6千字
  • 要在Hadoop生态系统中实现快速的数据输入、服务和分析,一直以来只有几个可用但是不够完美的解决方案,要么以缓慢的数据输入为代价实现快速分析,要么以缓慢的分析为代价实现快速的数据输入。这个问题现在有了解决办法,使用Apache Kudu基于列的数据存储,你可以很容易地对快速输入的数据进行快速的分析。这就是本书的内容。在这本书中,你将学习Kudu设计中的关键概念,以及如何用它构建快速、可扩展和可靠的应用程序。通过实际的示例,你将了解Kudu如何与其他Hadoop生态系统组件(如Apache Spark、SparkSQL和Impala)集成。 Jean-Marc Spaggiari,Kudu的早期用户,是Cloudera的主任解决方案架构师,为Hadoop、Kudu、HBase和其他工具提供技术支持和咨询服务。Jean-Marc对HBase和HDFS有深入的了解,这也使他能够更好地理解Kudu及其应用。
    常冰琳,现任小米云平台软件工程师,曾在百度和VMWare工作,多年从事分布式系统、大数据和深度学习相关工作。Kudu PPMC及Committer。 前言 ............................................................................... XIII 

    第 1 章 为什么会有 Kudu ..................................................1 

    Kudu 为什么重要 .................................................................. 1 

    易用性驱动接纳度 .................................................................................. 2 

    新的应用场景 ......................................................................................... 5 

    物联网 ...........................................................................................................5 

    现有的实时分析方案 .....................................................................................7 

    实时处理 .....................................................................................................13 

    硬件环境 ............................................................................................... 15 

    Kudu 在大数据生态中的独特位置 ........................................................ 17 

    与其他生态系统的组件对比 .......................................................................19 

    与大数据组件对比DDHDFS、HBase 和 Cassandra ..................................24 

    小结 ...................................................................................................... 26 

    第 2 章 Kudu 简介 ..........................................................27 

    Kudu 的高层设计 .................................................................................. 29 

    Kudu 中的角色 ............................................................................................29 

    master 服务器 ..............................................................................................31 

    tablet 服务器................................................................................................32 

    Kudu 中的概念与机制 .......................................................................... 42 

    热点 .............................................................................................................42 

    分区 .............................................................................................................44 

    第 3 章 安装与运行 .........................................................49 

    安装 ...................................................................................................... 49 

    使用 Kudu Quickstart VM ...........................................................................49 

    使用 Cloudera Manager ...............................................................................51 

    从源代码构建 ..............................................................................................52 

    软件包 .........................................................................................................53 

    Cloudera Quickstart VM ..............................................................................53 

    快速安装 :3 分钟或者更短 .................................................................. 54 

    小结 ...................................................................................................... 58 

    第 4 章 Kudu 的管理 .......................................................59 

    为 Kudu 做规划 ..................................................................................... 59 

    master 服务器和 tablet 服务器 .....................................................................60 

    预写日志 .....................................................................................................65 

    数据服务器和存储 ......................................................................................68 

    复制策略(replication strategy) ..................................................................69 

    部署时的注意事项 :是采用新集群还是现有集群 ................................ 70 

    全新的仅有 Kudu 的集群 ............................................................................70 

    全新的包含 Kudu 的 Hadoop 集群 ..............................................................71 

    在现有的 Hadoop 集群中添加 Kudu ...........................................................77 

    tablet 服务器和 master 服务器的 Web UI .............................................. 81 

    master 服务器 UI 和 tablet 服务器 UI ..........................................................82 

    master 服务器 UI .........................................................................................83 

    tablet 服务器 UI ...........................................................................................83 

    Kudu 命令行接口 .................................................................................. 84 

    集群 .............................................................................................................84 

    文件系统 .....................................................................................................86 

    tablet 副本 ...................................................................................................92 

    与 Raft 一致性相关的元数据.....................................................................106 

    添加和删除 tablet 服务器 .................................................................... 107 

    添加 tablet 服务器 .....................................................................................107 

    删除 tablet 服务器 .....................................................................................108 

    安全 .................................................................................................... 109 

    一个简单的类比 ........................................................................................ 110 

    Kudu 的安全功能 ...................................................................................... 112 

    基本的性能调优 .................................................................................. 117 

    Kudu 的内存限制 ...................................................................................... 117 

    维护管理器的线程 .................................................................................... 118 

    监控性能 ................................................................................................... 119 

    未雨绸缪,远离麻烦 .......................................................................... 119 

    避免耗尽磁盘空间 .................................................................................... 119 

    容忍磁盘故障 ............................................................................................120 

    备份 ...........................................................................................................120 

    小结 .................................................................................................... 121 

    第 5 章 Kudu 常用的开发接口 .......................................123 

    客户端 API .......................................................................................... 124 

    Kudu Client(客户端)...............................................................................124 

    Kudu Table ................................................................................................125 

    Kudu DDL .................................................................................................125 

    Kudu 扫描器(Scanner)读取模式 ...........................................................126 

    C++ API .............................................................................................. 127 

    Python API .......................................................................................... 130 

    准备 Python 开发环境 ...............................................................................131 

    使用 Python 开发 Kudu 应用 .....................................................................131 

    Java ..................................................................................................... 135 

    Java 应用 ...................................................................................................137 

    Spark ................................................................................................... 140 

    在 Impala 中使用 Kudu ....................................................................... 145 

    第 6 章 表和模式设计 ...................................................149 

    模式设计基础 ..................................................................................... 150 

    在线事务处理 / 在线分析处理混合的模式设计 .................................. 151 

    Lambda 架构 .............................................................................................151 

    OLTP/OLAP 拆分 ......................................................................................152 

    主键和列的设计 .................................................................................. 153 

    列模式的其他注意事项 .............................................................................154 

    分区的基础知识 .................................................................................. 160 

    范围分区 ...................................................................................................161 

    哈希分区 ...................................................................................................161 

    模式的更改 ......................................................................................... 162 

    最佳实践和提示 .................................................................................. 163 

    分区 ...........................................................................................................163 

    大对象 .......................................................................................................164 

    decimal(十进制数)..................................................................................164 

    不重复的字符串 ........................................................................................165 

    压缩 ...........................................................................................................165 

    对象的命名 ................................................................................................165 

    列的数量 ...................................................................................................165 

    二进制类型 ................................................................................................166 

    网络包示例 ......................................................................................... 166 

    小结 .................................................................................................... 168 

    第 7 章 Kudu 用例 ........................................................169 

    实时物联网分析 .................................................................................. 169 

    预测建模 ............................................................................................. 173 

    多平台混合方案 .................................................................................. 176 

    关于作者 ........................................................................180 

    封面图片 ........................................................................182
  • 内容简介:
    要在Hadoop生态系统中实现快速的数据输入、服务和分析,一直以来只有几个可用但是不够完美的解决方案,要么以缓慢的数据输入为代价实现快速分析,要么以缓慢的分析为代价实现快速的数据输入。这个问题现在有了解决办法,使用Apache Kudu基于列的数据存储,你可以很容易地对快速输入的数据进行快速的分析。这就是本书的内容。在这本书中,你将学习Kudu设计中的关键概念,以及如何用它构建快速、可扩展和可靠的应用程序。通过实际的示例,你将了解Kudu如何与其他Hadoop生态系统组件(如Apache Spark、SparkSQL和Impala)集成。
  • 作者简介:
    Jean-Marc Spaggiari,Kudu的早期用户,是Cloudera的主任解决方案架构师,为Hadoop、Kudu、HBase和其他工具提供技术支持和咨询服务。Jean-Marc对HBase和HDFS有深入的了解,这也使他能够更好地理解Kudu及其应用。
    常冰琳,现任小米云平台软件工程师,曾在百度和VMWare工作,多年从事分布式系统、大数据和深度学习相关工作。Kudu PPMC及Committer。
  • 目录:
    前言 ............................................................................... XIII 

    第 1 章 为什么会有 Kudu ..................................................1 

    Kudu 为什么重要 .................................................................. 1 

    易用性驱动接纳度 .................................................................................. 2 

    新的应用场景 ......................................................................................... 5 

    物联网 ...........................................................................................................5 

    现有的实时分析方案 .....................................................................................7 

    实时处理 .....................................................................................................13 

    硬件环境 ............................................................................................... 15 

    Kudu 在大数据生态中的独特位置 ........................................................ 17 

    与其他生态系统的组件对比 .......................................................................19 

    与大数据组件对比DDHDFS、HBase 和 Cassandra ..................................24 

    小结 ...................................................................................................... 26 

    第 2 章 Kudu 简介 ..........................................................27 

    Kudu 的高层设计 .................................................................................. 29 

    Kudu 中的角色 ............................................................................................29 

    master 服务器 ..............................................................................................31 

    tablet 服务器................................................................................................32 

    Kudu 中的概念与机制 .......................................................................... 42 

    热点 .............................................................................................................42 

    分区 .............................................................................................................44 

    第 3 章 安装与运行 .........................................................49 

    安装 ...................................................................................................... 49 

    使用 Kudu Quickstart VM ...........................................................................49 

    使用 Cloudera Manager ...............................................................................51 

    从源代码构建 ..............................................................................................52 

    软件包 .........................................................................................................53 

    Cloudera Quickstart VM ..............................................................................53 

    快速安装 :3 分钟或者更短 .................................................................. 54 

    小结 ...................................................................................................... 58 

    第 4 章 Kudu 的管理 .......................................................59 

    为 Kudu 做规划 ..................................................................................... 59 

    master 服务器和 tablet 服务器 .....................................................................60 

    预写日志 .....................................................................................................65 

    数据服务器和存储 ......................................................................................68 

    复制策略(replication strategy) ..................................................................69 

    部署时的注意事项 :是采用新集群还是现有集群 ................................ 70 

    全新的仅有 Kudu 的集群 ............................................................................70 

    全新的包含 Kudu 的 Hadoop 集群 ..............................................................71 

    在现有的 Hadoop 集群中添加 Kudu ...........................................................77 

    tablet 服务器和 master 服务器的 Web UI .............................................. 81 

    master 服务器 UI 和 tablet 服务器 UI ..........................................................82 

    master 服务器 UI .........................................................................................83 

    tablet 服务器 UI ...........................................................................................83 

    Kudu 命令行接口 .................................................................................. 84 

    集群 .............................................................................................................84 

    文件系统 .....................................................................................................86 

    tablet 副本 ...................................................................................................92 

    与 Raft 一致性相关的元数据.....................................................................106 

    添加和删除 tablet 服务器 .................................................................... 107 

    添加 tablet 服务器 .....................................................................................107 

    删除 tablet 服务器 .....................................................................................108 

    安全 .................................................................................................... 109 

    一个简单的类比 ........................................................................................ 110 

    Kudu 的安全功能 ...................................................................................... 112 

    基本的性能调优 .................................................................................. 117 

    Kudu 的内存限制 ...................................................................................... 117 

    维护管理器的线程 .................................................................................... 118 

    监控性能 ................................................................................................... 119 

    未雨绸缪,远离麻烦 .......................................................................... 119 

    避免耗尽磁盘空间 .................................................................................... 119 

    容忍磁盘故障 ............................................................................................120 

    备份 ...........................................................................................................120 

    小结 .................................................................................................... 121 

    第 5 章 Kudu 常用的开发接口 .......................................123 

    客户端 API .......................................................................................... 124 

    Kudu Client(客户端)...............................................................................124 

    Kudu Table ................................................................................................125 

    Kudu DDL .................................................................................................125 

    Kudu 扫描器(Scanner)读取模式 ...........................................................126 

    C++ API .............................................................................................. 127 

    Python API .......................................................................................... 130 

    准备 Python 开发环境 ...............................................................................131 

    使用 Python 开发 Kudu 应用 .....................................................................131 

    Java ..................................................................................................... 135 

    Java 应用 ...................................................................................................137 

    Spark ................................................................................................... 140 

    在 Impala 中使用 Kudu ....................................................................... 145 

    第 6 章 表和模式设计 ...................................................149 

    模式设计基础 ..................................................................................... 150 

    在线事务处理 / 在线分析处理混合的模式设计 .................................. 151 

    Lambda 架构 .............................................................................................151 

    OLTP/OLAP 拆分 ......................................................................................152 

    主键和列的设计 .................................................................................. 153 

    列模式的其他注意事项 .............................................................................154 

    分区的基础知识 .................................................................................. 160 

    范围分区 ...................................................................................................161 

    哈希分区 ...................................................................................................161 

    模式的更改 ......................................................................................... 162 

    最佳实践和提示 .................................................................................. 163 

    分区 ...........................................................................................................163 

    大对象 .......................................................................................................164 

    decimal(十进制数)..................................................................................164 

    不重复的字符串 ........................................................................................165 

    压缩 ...........................................................................................................165 

    对象的命名 ................................................................................................165 

    列的数量 ...................................................................................................165 

    二进制类型 ................................................................................................166 

    网络包示例 ......................................................................................... 166 

    小结 .................................................................................................... 168 

    第 7 章 Kudu 用例 ........................................................169 

    实时物联网分析 .................................................................................. 169 

    预测建模 ............................................................................................. 173 

    多平台混合方案 .................................................................................. 176 

    关于作者 ........................................................................180 

    封面图片 ........................................................................182
查看详情
相关图书 / 更多
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubeflow:云计算和机器学习的桥梁
何金池 著
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes修炼手册
[英]奈吉尔·波尔顿(Nigel Poulton)
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes进阶实战(第2版)
马永亮
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes编程
[美]迈克尔·豪森布拉斯(Michael Hausenblas) 著;李凡希、任震宇 译
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes微服务实战
[印度]吉吉·赛凡(Gigi Sayfan) 著;史天 张媛 楼炜 肖力 译
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes权威指南:从Docker到Kubernetes实践全接触(第5版)
龚正
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes实战
[美]布兰登·伯恩斯(Brendan Burns);[美]埃
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes从入门到实践
赵卓 著
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes设计模式
比尔金伊卜亚姆;罗兰胡贝塔
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes即学即用(第二版)
布兰登·柏恩思;乔·贝达;凯尔西·海托华;马晶慧
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes零基础快速入门
张春晓
Kudu:构建高性能实时数据分析存储系统(博文视点出品)
Kubernetes生产化实践之路
孟凡杰 苏菲 谢文利 李建强 著