面向现代服务业大数据的高效数据管理研究

面向现代服务业大数据的高效数据管理研究
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2021-09
版次: 1
ISBN: 9787513666251
定价: 68.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 306页
字数: 296.000千字
分类: 经济
  •   大数据需要满足基本的3V特性,即数据容量大(价值密度较低)、数据类型繁杂和时效性要求高。大容量和低价值密度特性决定了存储系统在通过分布式架构提升存储能力的同时也要格外注重数据存储的性价比,具有较低单位数据量存储价格的磁盘类设备仍旧极具竞争力。较高的时效性要求和大数据类型繁杂特性则对存储系统的高性能和适应性方面提出了更大的挑战,也预示着存储级别大数据管理在存储系统性能提升过程中的地位愈加重要。总体而言,自人类进入大数据时代,大数据存储在高性能研究领域正发生着深刻的变革,主要体现在两个大的方面:一方面是存储系统基础设施本身的性能提升,主要包括存储介质和存储体系结构的进化与改善,以及紧密依附于具体介质和架构的缓存管理、预取等核心存储技术的优化。存储系统基础设施的高性能优化体现出一种通用性和底层依赖性的特征,其核心是面向底层存储设备和存储系统的,缺乏对大数据本身结构优化的相关研究。另一方面则从大数据本身及其管理出发,研究提升存储系统性能和效率的模型与方法,由于此类研究更具针对性,其涉及的大数据种类繁多、应用类型广泛,为此本书采用具有典型大数据特征的轨迹大数据作为研究对象,并从轨迹大数据压缩和轨迹大数据检索(访问)两个与存储性能直接相关的方面出发,研究了云架构下高性能轨迹大数据压缩框架和时空融合检索算法。通过相关研究,本书构建了大数据背景下高性能存储系统与管理技术的核心研究内容体系,并给出了相应的典型研究成果,为高性能大数据存储系统的研究领域和研究方向提供了有益的借鉴。   史晓东,博士,毕业于华中科技大学计算机体系结构专业,现工作于河南财经政法大学电子商务与物流管理学院,教研室副主任。主要研究方向包括:大数据存储、大数据挖掘与机器学习。先后在国内外重要期刊和国际会议发表论文十余篇,主持教育部和河南省重点研发与推广专项(科技攻关)等省部级项目2项,主持河南省高等学校重点科研项目1项,参与国家“973”计划项目1项,参与国家自然科学基金和社会科学基金项目多项,作为主要人员参与河南省重点研发与推广专项(科技攻关)4项,参与专著与教材撰写共4项。  

    1  大数据概述 1

    1.1 大数据概述 2

    1.2 大数据相关概念 4

    1.3 大数据处理 8

    1.4 大数据相关技术 10

    1.4.1 物联网技术 10

    1.4.2 云技术 11

    1.4.3 移动互联技术 13

    1.4.4 人工智能技术 15

    1.5 大数据应用 16

     

    2 大数据存储 21

    2.1 高性能存储技术 21

    2.1.1 存储介质 22

    2.1.2 并行存储技术 36

    2.1.3 缓存技术 48

    2.1.4 预取技术 57

    2.1.5 高速数据通道技术 63

    2.2 云计算与云存储技术 64

    2.2.1 云计算 65

    2.2.2 云存储 75

     

    3 大数据环境下高性能预取加权图模型 80

    3.1 大数据存储系统中的顺序访问模式 81

    3.1.1 顺序访问流长度信息的使用 84

    3.1.2 不断增加的顺序访问 87

    3.2 加权图模型 89

    3.2.1 加权图的构建方法 91

    3.2.2 及时更新加权图模型 96

    3.3 模型有效性评估 99

    3.3.1 基于加权图模型的预取算法 99

    3.3.2 实验结果 100

    3.3.3 模型敏感性研究 102

    3.4 本章小结 104

     

    4 多层存储系统中自适应顺序预取技术 105

    4.1 第二层(底层)缓存特点 106

    4.2 第二层缓存的管理 109

    4.3 不同层级缓存下的顺序预取算法 114

    4.4 自适应顺序预取 116

    4.4.1 活动时间点缺失的评估 116

    4.4.2 预测预取请求的精确度 119

    4.4.3 自适应顺序预取算法及其实现 120

    4.5 实验结果与性能分析 125

    4.5.1 实验设置及其方法 126

    4.5.2 顺序预取算法性能评估 127

    4.5.3 页面活动时间点缺失评估的准确性 131

    4.5.4 不同缓存管理算法下的顺序预取 134

    4.6 本章小结 136

     

    5 分布式大数据存储中条带化预取技术 138

    5.1 并行磁盘系统的访问特点 139

    5.2 预取算法及空间局部性 144

    5.2.1 各种预取算法 144

    5.2.2 空间局部性 147

    5.3 基于空间局部性的条带化预取算法 148

    5.3.1 确认预取数据区域 149

    5.3.2 LSP算法描述 152

    5.3.3 算法实现过程中的问题 155

    5.4 性能评估 157

    5.4.1 实验结果 158

    5.4.2 不同配置下的预取性能 161

    5.4.3 关于预取磁盘独立性的探讨 164

    5.5 本章小结 167

    6 面向存储并行性的缓存管理算法 169

    6.1 并行磁盘系统缓存管理中的问题 169

    6.2 并行磁盘系统中的并行性 172

    6.2.1 并行性挖掘 172

    6.2.2 说明示例 173

    6.2.3 PCAR算法中的挑战 175

    6.3 基于并行性缓存管理算法 176

    6.3.1 如何形成并行队列以及顺序段 177

    6.3.2 PCAR缓存替换算法 179

    6.4 性能评估 182

    6.4.1 不同日志下的实验结果 182

    6.4.2 不同系统配置下的性能 185

    6.5 本章小结 187

     

    7 面向轨迹大数据的高性能大数据压缩技术 188

    7.1 轨迹大数据概述 189

    7.1.1 轨迹大数据问题定义 191

    7.1.2 大数据管理 193

    7.2 轨迹大数据压缩 195

    7.2.1 轨迹大数据压缩国内外研究现状 195

    7.2.2 基于SPARK的轨迹大数据压缩框架 200

    7.3 时、空融合的轨迹大数据压缩 208

    7.3.1 轨迹分解 209

    7.3.2 空间路径压缩 211

    7.3.3 时间序列压缩 217

    7.4 实验与验证 221

    7.5 本章小结 227

     

    8 高性能轨迹大数据访问与检索 228

    8.1 轨迹大数据研究现状 231

    8.2 TSE高性能轨迹大数据检索 243

    8.2.1 问题与挑战 244

    8.2.2 问题模型与符号定义 246

    8.2.3 基于路段的相似性度量 248

    8.2.4 轻量级边与顶点索引 250

    8.2.5 面向相似性搜索的剪枝技术 252

    8.2.6 实验与验证 255

    8.3 TSE检索并行优化 262

    8.4 本章小结 271

     

    参考文献/ 272

    索 引/ 304

     
  • 内容简介:
      大数据需要满足基本的3V特性,即数据容量大(价值密度较低)、数据类型繁杂和时效性要求高。大容量和低价值密度特性决定了存储系统在通过分布式架构提升存储能力的同时也要格外注重数据存储的性价比,具有较低单位数据量存储价格的磁盘类设备仍旧极具竞争力。较高的时效性要求和大数据类型繁杂特性则对存储系统的高性能和适应性方面提出了更大的挑战,也预示着存储级别大数据管理在存储系统性能提升过程中的地位愈加重要。总体而言,自人类进入大数据时代,大数据存储在高性能研究领域正发生着深刻的变革,主要体现在两个大的方面:一方面是存储系统基础设施本身的性能提升,主要包括存储介质和存储体系结构的进化与改善,以及紧密依附于具体介质和架构的缓存管理、预取等核心存储技术的优化。存储系统基础设施的高性能优化体现出一种通用性和底层依赖性的特征,其核心是面向底层存储设备和存储系统的,缺乏对大数据本身结构优化的相关研究。另一方面则从大数据本身及其管理出发,研究提升存储系统性能和效率的模型与方法,由于此类研究更具针对性,其涉及的大数据种类繁多、应用类型广泛,为此本书采用具有典型大数据特征的轨迹大数据作为研究对象,并从轨迹大数据压缩和轨迹大数据检索(访问)两个与存储性能直接相关的方面出发,研究了云架构下高性能轨迹大数据压缩框架和时空融合检索算法。通过相关研究,本书构建了大数据背景下高性能存储系统与管理技术的核心研究内容体系,并给出了相应的典型研究成果,为高性能大数据存储系统的研究领域和研究方向提供了有益的借鉴。
  • 作者简介:
      史晓东,博士,毕业于华中科技大学计算机体系结构专业,现工作于河南财经政法大学电子商务与物流管理学院,教研室副主任。主要研究方向包括:大数据存储、大数据挖掘与机器学习。先后在国内外重要期刊和国际会议发表论文十余篇,主持教育部和河南省重点研发与推广专项(科技攻关)等省部级项目2项,主持河南省高等学校重点科研项目1项,参与国家“973”计划项目1项,参与国家自然科学基金和社会科学基金项目多项,作为主要人员参与河南省重点研发与推广专项(科技攻关)4项,参与专著与教材撰写共4项。
  • 目录:
     

    1  大数据概述 1

    1.1 大数据概述 2

    1.2 大数据相关概念 4

    1.3 大数据处理 8

    1.4 大数据相关技术 10

    1.4.1 物联网技术 10

    1.4.2 云技术 11

    1.4.3 移动互联技术 13

    1.4.4 人工智能技术 15

    1.5 大数据应用 16

     

    2 大数据存储 21

    2.1 高性能存储技术 21

    2.1.1 存储介质 22

    2.1.2 并行存储技术 36

    2.1.3 缓存技术 48

    2.1.4 预取技术 57

    2.1.5 高速数据通道技术 63

    2.2 云计算与云存储技术 64

    2.2.1 云计算 65

    2.2.2 云存储 75

     

    3 大数据环境下高性能预取加权图模型 80

    3.1 大数据存储系统中的顺序访问模式 81

    3.1.1 顺序访问流长度信息的使用 84

    3.1.2 不断增加的顺序访问 87

    3.2 加权图模型 89

    3.2.1 加权图的构建方法 91

    3.2.2 及时更新加权图模型 96

    3.3 模型有效性评估 99

    3.3.1 基于加权图模型的预取算法 99

    3.3.2 实验结果 100

    3.3.3 模型敏感性研究 102

    3.4 本章小结 104

     

    4 多层存储系统中自适应顺序预取技术 105

    4.1 第二层(底层)缓存特点 106

    4.2 第二层缓存的管理 109

    4.3 不同层级缓存下的顺序预取算法 114

    4.4 自适应顺序预取 116

    4.4.1 活动时间点缺失的评估 116

    4.4.2 预测预取请求的精确度 119

    4.4.3 自适应顺序预取算法及其实现 120

    4.5 实验结果与性能分析 125

    4.5.1 实验设置及其方法 126

    4.5.2 顺序预取算法性能评估 127

    4.5.3 页面活动时间点缺失评估的准确性 131

    4.5.4 不同缓存管理算法下的顺序预取 134

    4.6 本章小结 136

     

    5 分布式大数据存储中条带化预取技术 138

    5.1 并行磁盘系统的访问特点 139

    5.2 预取算法及空间局部性 144

    5.2.1 各种预取算法 144

    5.2.2 空间局部性 147

    5.3 基于空间局部性的条带化预取算法 148

    5.3.1 确认预取数据区域 149

    5.3.2 LSP算法描述 152

    5.3.3 算法实现过程中的问题 155

    5.4 性能评估 157

    5.4.1 实验结果 158

    5.4.2 不同配置下的预取性能 161

    5.4.3 关于预取磁盘独立性的探讨 164

    5.5 本章小结 167

    6 面向存储并行性的缓存管理算法 169

    6.1 并行磁盘系统缓存管理中的问题 169

    6.2 并行磁盘系统中的并行性 172

    6.2.1 并行性挖掘 172

    6.2.2 说明示例 173

    6.2.3 PCAR算法中的挑战 175

    6.3 基于并行性缓存管理算法 176

    6.3.1 如何形成并行队列以及顺序段 177

    6.3.2 PCAR缓存替换算法 179

    6.4 性能评估 182

    6.4.1 不同日志下的实验结果 182

    6.4.2 不同系统配置下的性能 185

    6.5 本章小结 187

     

    7 面向轨迹大数据的高性能大数据压缩技术 188

    7.1 轨迹大数据概述 189

    7.1.1 轨迹大数据问题定义 191

    7.1.2 大数据管理 193

    7.2 轨迹大数据压缩 195

    7.2.1 轨迹大数据压缩国内外研究现状 195

    7.2.2 基于SPARK的轨迹大数据压缩框架 200

    7.3 时、空融合的轨迹大数据压缩 208

    7.3.1 轨迹分解 209

    7.3.2 空间路径压缩 211

    7.3.3 时间序列压缩 217

    7.4 实验与验证 221

    7.5 本章小结 227

     

    8 高性能轨迹大数据访问与检索 228

    8.1 轨迹大数据研究现状 231

    8.2 TSE高性能轨迹大数据检索 243

    8.2.1 问题与挑战 244

    8.2.2 问题模型与符号定义 246

    8.2.3 基于路段的相似性度量 248

    8.2.4 轻量级边与顶点索引 250

    8.2.5 面向相似性搜索的剪枝技术 252

    8.2.6 实验与验证 255

    8.3 TSE检索并行优化 262

    8.4 本章小结 271

     

    参考文献/ 272

    索 引/ 304

     
查看详情