数据清洗

数据清洗
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2020-04
版次: 1
ISBN: 9787302550877
定价: 49.80
装帧: 其他
开本: 16开
纸张: 胶版纸
133人买过
  • 数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。本书讲解数据清洗的理论知识和实际应用,全书共8章: 第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的基本使用;第4章主要讲解数据清洗的*步——数据抽取;第5章主要讲解数据清洗与检验;第6章主要讲解数据转换相关的知识;第7章主要讲解数据加载相关的知识;第8章利用前面章节所学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,*后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本专科计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。 江苏传智播客教育科技股份有限公司(简称传智播客)是一家致力于培养高素质软件开发人才的科技公司,“黑马程序员”是传智播客旗下高端IT教育品牌。 第1章数据清洗概述1

    1.1数据清洗的背景1

    1.1.1数据质量概述1

    1.1.2数据质量的评价指标2

    1.1.3数据质量的问题分类3

    1.2数据清洗的定义6

    1.3数据清洗的原理6

    1.4数据清洗的基本流程7

    1.5数据清洗的策略8

    1.6常见的数据清洗方法8

    1.7本章小结9

    1.8本章习题9

    第2章初识ETL11

    2.1基于ETL的数据清洗11

    2.1.1ETL的概念11

    2.1.2ETL的体系结构12

    2.2ETL关键技术12

    2.2.1数据的抽取12

    2.2.2数据的清洗转换13

    2.2.3数据的加载15

    2.3ETL常见工具介绍16

    2.4本章小结17

    2.5本章习题17

    第3章Kettle工具的基本使用19

    3.1Kettle简介19

    3.1.1Kettle概述19

    3.1.2Kettle的设计原则203.2Kettle的下载安装21

    3.3Kettle的基本概念23

    3.3.1转换24

    3.3.2作业28

    3.4Kettle的基本功能32

    3.4.1转换管理32

    3.4.2作业管理42

    3.4.3数据库连接48

    3.5本章小结51

    3.6本章习题52

    目录数据清洗第4章数据抽取53

    4.1抽取文本数据53

    4.1.1TSV文件的抽取53

    4.1.2CSV文件的抽取61

    4.2抽取Web数据68

    4.2.1HTML网页的数据抽取68

    4.2.2XML文件的数据抽取75

    4.2.3JSON文件的数据抽取84

    4.3抽取数据库数据92

    4.3.1抽取关系型数据库的数据92

    4.3.2抽取非关系型数据库的数据98

    4.4本章小结106

    4.5本章习题106

    第5章数据的清洗与检验108

    5.1数据去重108

    5.1.1完全去重108

    5.1.2不完全去重113

    5.2缺失值处理119

    5.2.1缺失值清洗策略119

    5.2.2去除缺失值120

    5.2.3填充缺失值130

    5.3异常值142

    5.3.1出现异常值的原因142

    5.3.2检测异常值142

    5.3.3删除包含异常值的记录144

    5.3.4修补异常值150

    5.4数据检验160

    5.4.1数据一致性处理160

    5.4.2数据规范化处理169

    5.5本章小结177

    5.6本章习题177

    第6章数据转换179

    6.1多数据源的合并179

    6.2不一致数据转换192

    6.3数据粒度的转换203

    6.4数据的商务规则计算239

    6.5本章小结251

    6.6本章习题251

    第7章数据加载253

    7.1数据的加载机制253

    7.1.1全量加载253

    7.1.2增量加载258

    7.2数据的批量加载264

    7.3本章小结271

    7.4本章习题271

    第8章综合案例——构建DVD租赁商店数据仓库273

    8.1案例概述273

    8.1.1案例背景介绍273

    8.1.2数据仓库的架构模型273

    8.1.3数据仓库效果预览274

    8.2数据准备276

    8.2.1数据库sakila的下载和安装276

    8.2.2数据库sakila简介276

    8.2.3数据表简介278

    8.3案例实现283

    8.3.1构建DVD租赁商店数据仓库283

    8.3.2加载日期数据至日期维度表284

    8.3.3加载时间数据至时间维度表294

    8.3.4加载员工数据至员工维度表302

    8.3.5加载用户数据至用户维度表310

    8.3.6加载商店数据至商店维度表326

    8.3.7加载演员数据至演员维度表335

    8.3.8加载电影数据至电影维度表341

    8.3.9加载租赁数据至租赁事实表366

    8.3.10加载数据库sakila中的数据至数据仓库sakila_dw385

    8.4本章小结394
  • 内容简介:
    数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。本书讲解数据清洗的理论知识和实际应用,全书共8章: 第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的基本使用;第4章主要讲解数据清洗的*步——数据抽取;第5章主要讲解数据清洗与检验;第6章主要讲解数据转换相关的知识;第7章主要讲解数据加载相关的知识;第8章利用前面章节所学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,*后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本专科计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
  • 作者简介:
    江苏传智播客教育科技股份有限公司(简称传智播客)是一家致力于培养高素质软件开发人才的科技公司,“黑马程序员”是传智播客旗下高端IT教育品牌。
  • 目录:
    第1章数据清洗概述1

    1.1数据清洗的背景1

    1.1.1数据质量概述1

    1.1.2数据质量的评价指标2

    1.1.3数据质量的问题分类3

    1.2数据清洗的定义6

    1.3数据清洗的原理6

    1.4数据清洗的基本流程7

    1.5数据清洗的策略8

    1.6常见的数据清洗方法8

    1.7本章小结9

    1.8本章习题9

    第2章初识ETL11

    2.1基于ETL的数据清洗11

    2.1.1ETL的概念11

    2.1.2ETL的体系结构12

    2.2ETL关键技术12

    2.2.1数据的抽取12

    2.2.2数据的清洗转换13

    2.2.3数据的加载15

    2.3ETL常见工具介绍16

    2.4本章小结17

    2.5本章习题17

    第3章Kettle工具的基本使用19

    3.1Kettle简介19

    3.1.1Kettle概述19

    3.1.2Kettle的设计原则203.2Kettle的下载安装21

    3.3Kettle的基本概念23

    3.3.1转换24

    3.3.2作业28

    3.4Kettle的基本功能32

    3.4.1转换管理32

    3.4.2作业管理42

    3.4.3数据库连接48

    3.5本章小结51

    3.6本章习题52

    目录数据清洗第4章数据抽取53

    4.1抽取文本数据53

    4.1.1TSV文件的抽取53

    4.1.2CSV文件的抽取61

    4.2抽取Web数据68

    4.2.1HTML网页的数据抽取68

    4.2.2XML文件的数据抽取75

    4.2.3JSON文件的数据抽取84

    4.3抽取数据库数据92

    4.3.1抽取关系型数据库的数据92

    4.3.2抽取非关系型数据库的数据98

    4.4本章小结106

    4.5本章习题106

    第5章数据的清洗与检验108

    5.1数据去重108

    5.1.1完全去重108

    5.1.2不完全去重113

    5.2缺失值处理119

    5.2.1缺失值清洗策略119

    5.2.2去除缺失值120

    5.2.3填充缺失值130

    5.3异常值142

    5.3.1出现异常值的原因142

    5.3.2检测异常值142

    5.3.3删除包含异常值的记录144

    5.3.4修补异常值150

    5.4数据检验160

    5.4.1数据一致性处理160

    5.4.2数据规范化处理169

    5.5本章小结177

    5.6本章习题177

    第6章数据转换179

    6.1多数据源的合并179

    6.2不一致数据转换192

    6.3数据粒度的转换203

    6.4数据的商务规则计算239

    6.5本章小结251

    6.6本章习题251

    第7章数据加载253

    7.1数据的加载机制253

    7.1.1全量加载253

    7.1.2增量加载258

    7.2数据的批量加载264

    7.3本章小结271

    7.4本章习题271

    第8章综合案例——构建DVD租赁商店数据仓库273

    8.1案例概述273

    8.1.1案例背景介绍273

    8.1.2数据仓库的架构模型273

    8.1.3数据仓库效果预览274

    8.2数据准备276

    8.2.1数据库sakila的下载和安装276

    8.2.2数据库sakila简介276

    8.2.3数据表简介278

    8.3案例实现283

    8.3.1构建DVD租赁商店数据仓库283

    8.3.2加载日期数据至日期维度表284

    8.3.3加载时间数据至时间维度表294

    8.3.4加载员工数据至员工维度表302

    8.3.5加载用户数据至用户维度表310

    8.3.6加载商店数据至商店维度表326

    8.3.7加载演员数据至演员维度表335

    8.3.8加载电影数据至电影维度表341

    8.3.9加载租赁数据至租赁事实表366

    8.3.10加载数据库sakila中的数据至数据仓库sakila_dw385

    8.4本章小结394
查看详情
相关图书 / 更多
数据清洗
数据管理十讲 袁野 崔斌 李战怀 等
袁野 崔斌 李战怀 等
数据清洗
数据要素教程
杨东 白银 著
数据清洗
数据资本及其对中国经济高质量发展的驱动效应研究
景杰
数据清洗
数据要素市场化:“数据宝模式”研究
李海舰 等
数据清洗
数据确权的理论基础探索
彭诚信、史晓宇 著
数据清洗
数据经济学
赵昌文,戎珂
数据清洗
数据采集与处理:基于Python(新编21世纪数据科学与大数据技术系列教材)
付东普
数据清洗
数据要素估值
刘赛红、吕颖毅、王连军
数据清洗
数据存储架构与技术(第2版)
舒继武
数据清洗
数据定价策略与优化研究
喻海飞
数据清洗
数据与人工智能驱动型公司:用数据和人工智能升级企业
(西) 理查德·本杰明(Richard Benjamins)
数据清洗
数据库管理系统原理与实现
杜小勇、陈红、卢卫
您可能感兴趣 / 更多
数据清洗
Java程序设计任务驱动教程
黑马程序员
数据清洗
Android移动应用基础教程(Android Studio)(第3版)
黑马程序员
数据清洗
Hadoop大数据技术原理与应用(第2版)
黑马程序员
数据清洗
Linux网络操作系统项目化教程
黑马程序员
数据清洗
MySQL数据库原理、设计与应用(第2版)
黑马程序员
数据清洗
Hive数据仓库应用
黑马程序员
数据清洗
Python快速编程入门(第2版)
黑马程序员
数据清洗
NoSQL数据库技术与应用
黑马程序员
数据清洗
微信小程序开发实战
黑马程序员
数据清洗
Kotlin从基础到实战
黑马程序员
数据清洗
Java基础入门(第2版)
黑马程序员
数据清洗
基于Swift语言的iOS App 商业实战教程
黑马程序员