数据采集与预处理
出版时间:
2022-02
版次:
1
ISBN:
9787115580634
定价:
59.80
装帧:
平装
开本:
16开
纸张:
胶版纸
页数:
250页
字数:
404千字
220人买过
-
本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书在第3章至第8章中安排了丰富的实践操作,以便读者更好地学习和掌握数据采集与预处理的关键技术。 本书可以作为高等院校大数据专业的大数据课程教材,也可供相关技术人员参考。 林子雨 博士,国内高校知名大数据教师,厦门大学计算机科学系副教授,厦门大学信息学院实验教学中心主任,厦门大学数据库实验室负责人,中国高校**“数字教师”提出者和建设者。2013年开始在厦门大学开设大数据课程,建设了国内高校**大数据课程公共服务平台,平台累计网络访问量超过1000万次,成为全国高校大数据教学****,并荣获“2018年福建省教学成果二等奖”和“2018年厦门大学教学成果特等奖”,主持的课程“大数据技术原理与应用”获评“2018年国家精品在线开放课程”和“2020年***线上一流本科课程”。 第 1 章概述.
1.1 数据
1.1.1 数据的概念.
1.1.2 数据类型
1.1.3 数据的组织形式.
1.1.4 数据的价值
1.1.5 数据爆炸.
1.2 数据分析过程.
1.3 数据采集与预处理的任务
1.4 数据采集
1.4.1 数据采集的概念
1.4.2 数据采集的三大要点
1.4.3 数据采集的数据源.
1.4.4 数据采集方法.
1.5 数据清洗
1.5.1 数据清洗的应用领域
1.5.2 数据清洗的实现方式.
1.5.3 数据清洗的内容.
1.5.4 数据清洗的注意事项
1.5.5 数据清洗的基本.流.程.
1.5.6 数据清洗的评价标.
1.6 数据集成.
1.7 数据转换.
1.7.1 数据转换策略.
1.7.2 平滑处理
1.7.3 规范化处理.
1.8 数据脱敏.
1.8.1 数据脱敏原则.
1.8.2 数据脱敏方法.
1.9 本章小结.
1.10 习题
第 2 章 大数据实验环境搭建.
2.1 Python 的安装和使用.
2.1.1 Python 简介
2.1.2 Python 的安装
2.1.3 Python 的基本使用方法
2.1.4 Python 基础语法知识
2.1.5 Python 第三方模块的安装。
2.2 JDK 的安装.
2.3 MySQL 数据库的安装和使用
2.3.1 关系数据库
2.3.2 关系数据库标准语言SQL
2.3.3 安装MySQL
2.3.4 MySQL 数据库的使用方法
2.3.5 使用 Ppython操作MySQL数据库
2.4 Hadoop的安装和使用
2.4.1 Hadoop简介
2.4.2分布式系统HDFS
2.4.3 Hadoop安装
2.4.4 Hadoop的基本使用方法
第 3 章网络数据采集.
3.1 网络爬虫概述.
3.1.1 什么是网络爬虫
3.1.2网络爬虫的类型
3.1.3反爬机制
3.2 网页基础知识
3.2.1超文本和HTML
3.2.2 HTTP.
3.3 用 Python 实现HTTP请求
3.3.1 urllib模块
3.3.2 urllib3 模块.
3.3.3 requests 模块.
3.4 定制 request.s.
3.4.1 传递 URL参数,
3.4.2 定制请求头,
3.4.3 网络超时
3.5 解析网页
3.5.1 BeautifulSoup 简介.
3.5.2 BeautifulSoup 四大对象
3.5.3 遍历文件树
3.5.4 搜索文档树
3.5.5 CSS选择器
3.6 综合实例
实例1:采集网页数据保存到文本
实例2:采集网页数据保存到MYSQL数据库
3.7 Scrapy 框架
3.7.1 Scrapy 框架概述
3.7.2 XPath 语言
3.7.3 Scrapy 框架应用实例,
3.8 本章小结
3.9 习题.
实验 2 网络爬虫初级实践
第 4 章分布式消息系统 afu.a .
4.1 Kafka 简介
4.1.1 Kafk的特性
4.1.2 Kafka 的应用场景.
4.1.3 Kafka 的消息传递模式….
4.2 Kafka 在大数据生态系统中的作-用
4.3 Kafka 与 Flume 的区别与联
4.4 Kafka 相关概念
4.5 Kafka 的安装和使用
4.5.1 安装Kafk
4.5.2 使用 Kafka
4.6 使用 Python 操作 Kafka
4.7 Kafka 与 MysQL 的组合使用,
4.8 本章小结
4.9 习题
实验 3 熟悉 Kafka 的基本使用方法
第 5 章日志采集统Flume
5.1 Flume 简介.
5.2 Flume 的安装和使用
5.2.1 Flume 的安装.
5.2.2 Flume 的使用.
5.3 Flume 和 Kafka 的组合使用.
5.4 采集日志文件到 HDFS.
5.4.1 采集目录到 HDFS
5.4.2 采集文件到 HDFS.
5.5 采集 MySQL 数据到 HDFS
5.5.1 准备工作
5.5.2 创建 MysQL 数据库.
5.6 本章小结.
5.7 习题
实验 4熟悉 Flume 的基本使用方法
第 6 章 数据仓库中的数据集成
6.1数据仓库的概念
6.1.1传统的数据仓库
6.1.2 实时主动数据仓库
6.2 数据集成
6.2.1 数据集成方式
6.2.2 数据分发方式
6.2.3 数据集成技术
6.3 ETL.
6.3.1 ETL 简介.
6.3.2 ETL基本模块
6.3.3 ETL工具
6.4 CDC .
6.4.1 CDC 的特性
6.4.2 CDC 的组成
6.4.3 CDC 的应用场景
6.4.4 CDC 需要考虑的问题
6.5 本章小结
6.6 习题
第7章 ETL工具的Kettle
7.1 Kettle 的基本概念!
7.2 Kettle 的基本功能
7.3 安装 Kettle. .
7.4 数据抽取
7.4.1 把文本文件导入Excel 文件
7.4.2 把文本文件导入 MySQL 数据库
7.4.3 把 Excel 文件导入MySQL数据库
7.5 数据清洗与转换
7.5.1 使用 Kettle 实现数据排序
7.5.2 在 Kettle 中用正则表达式清洗数据
7.5.3 使用 Kettle 去除缺失值
7.5.4 使用 Kettle 转化 MySQL 数据库中的数据
7.6 数据加载
7.6.1 把本地文件加载到 HDFS 中
7.6.2 把 HDFS 文件加载到 MySQL 数库
7.7 本章.小结.
7.8 习题
实验 5 熟悉 Kettle 的基本使用方法
第 8 章 使用 pandas 进行数据清洗
8.1 NumPy 的基本使用方法
8.1.1 数组创建
8.1.2数组索引和切片
8.1.3 数组运算
8.2 pandas的数据结构
8.2.2 Series
8.2.2 DataFrame
8.2.3索引对象
8.3 pandas的基本功能
8.3.1 重新索引.
8.3.2 丢弃指定轴上的项
8.3.3 索引、选取和滤.
8.3.4 算术运算.
8.3.5 DataFrame 和 Series 之间的运算.
8.3.6 函数应用和映射
8.3.7 排序和排名
8.3.8 分组
8.3.9 shape函数
8.3.10 info()函数
8.3.11 cut()函数
8.4 汇总和描述统计
8.4.1 与描述统计相关的函数
8.4.2 唯一值、值计数以及成员资格,
8.5 处理缺失数据
8.5.1 检查缺失值
8.5.2 清理 填充缺失值.
8.5.3 排除缺少的值
8.6 综合实例
8.6.1 Matplotlib 的使用方法
8.6.2 实例 1:对一个数据集进行基本操作
8.6.3 实例 2:百度搜索指数分析
8.6.4 实例 3:电影评分数据分析
8.6.5 实例 4:App行为数据预处理
8.7 本章小结
8.8 习题
实验6 pandas数据清洗初级实践
参考文献
-
内容简介:
本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书在第3章至第8章中安排了丰富的实践操作,以便读者更好地学习和掌握数据采集与预处理的关键技术。 本书可以作为高等院校大数据专业的大数据课程教材,也可供相关技术人员参考。
-
作者简介:
林子雨 博士,国内高校知名大数据教师,厦门大学计算机科学系副教授,厦门大学信息学院实验教学中心主任,厦门大学数据库实验室负责人,中国高校**“数字教师”提出者和建设者。2013年开始在厦门大学开设大数据课程,建设了国内高校**大数据课程公共服务平台,平台累计网络访问量超过1000万次,成为全国高校大数据教学****,并荣获“2018年福建省教学成果二等奖”和“2018年厦门大学教学成果特等奖”,主持的课程“大数据技术原理与应用”获评“2018年国家精品在线开放课程”和“2020年***线上一流本科课程”。
-
目录:
第 1 章概述.
1.1 数据
1.1.1 数据的概念.
1.1.2 数据类型
1.1.3 数据的组织形式.
1.1.4 数据的价值
1.1.5 数据爆炸.
1.2 数据分析过程.
1.3 数据采集与预处理的任务
1.4 数据采集
1.4.1 数据采集的概念
1.4.2 数据采集的三大要点
1.4.3 数据采集的数据源.
1.4.4 数据采集方法.
1.5 数据清洗
1.5.1 数据清洗的应用领域
1.5.2 数据清洗的实现方式.
1.5.3 数据清洗的内容.
1.5.4 数据清洗的注意事项
1.5.5 数据清洗的基本.流.程.
1.5.6 数据清洗的评价标.
1.6 数据集成.
1.7 数据转换.
1.7.1 数据转换策略.
1.7.2 平滑处理
1.7.3 规范化处理.
1.8 数据脱敏.
1.8.1 数据脱敏原则.
1.8.2 数据脱敏方法.
1.9 本章小结.
1.10 习题
第 2 章 大数据实验环境搭建.
2.1 Python 的安装和使用.
2.1.1 Python 简介
2.1.2 Python 的安装
2.1.3 Python 的基本使用方法
2.1.4 Python 基础语法知识
2.1.5 Python 第三方模块的安装。
2.2 JDK 的安装.
2.3 MySQL 数据库的安装和使用
2.3.1 关系数据库
2.3.2 关系数据库标准语言SQL
2.3.3 安装MySQL
2.3.4 MySQL 数据库的使用方法
2.3.5 使用 Ppython操作MySQL数据库
2.4 Hadoop的安装和使用
2.4.1 Hadoop简介
2.4.2分布式系统HDFS
2.4.3 Hadoop安装
2.4.4 Hadoop的基本使用方法
第 3 章网络数据采集.
3.1 网络爬虫概述.
3.1.1 什么是网络爬虫
3.1.2网络爬虫的类型
3.1.3反爬机制
3.2 网页基础知识
3.2.1超文本和HTML
3.2.2 HTTP.
3.3 用 Python 实现HTTP请求
3.3.1 urllib模块
3.3.2 urllib3 模块.
3.3.3 requests 模块.
3.4 定制 request.s.
3.4.1 传递 URL参数,
3.4.2 定制请求头,
3.4.3 网络超时
3.5 解析网页
3.5.1 BeautifulSoup 简介.
3.5.2 BeautifulSoup 四大对象
3.5.3 遍历文件树
3.5.4 搜索文档树
3.5.5 CSS选择器
3.6 综合实例
实例1:采集网页数据保存到文本
实例2:采集网页数据保存到MYSQL数据库
3.7 Scrapy 框架
3.7.1 Scrapy 框架概述
3.7.2 XPath 语言
3.7.3 Scrapy 框架应用实例,
3.8 本章小结
3.9 习题.
实验 2 网络爬虫初级实践
第 4 章分布式消息系统 afu.a .
4.1 Kafka 简介
4.1.1 Kafk的特性
4.1.2 Kafka 的应用场景.
4.1.3 Kafka 的消息传递模式….
4.2 Kafka 在大数据生态系统中的作-用
4.3 Kafka 与 Flume 的区别与联
4.4 Kafka 相关概念
4.5 Kafka 的安装和使用
4.5.1 安装Kafk
4.5.2 使用 Kafka
4.6 使用 Python 操作 Kafka
4.7 Kafka 与 MysQL 的组合使用,
4.8 本章小结
4.9 习题
实验 3 熟悉 Kafka 的基本使用方法
第 5 章日志采集统Flume
5.1 Flume 简介.
5.2 Flume 的安装和使用
5.2.1 Flume 的安装.
5.2.2 Flume 的使用.
5.3 Flume 和 Kafka 的组合使用.
5.4 采集日志文件到 HDFS.
5.4.1 采集目录到 HDFS
5.4.2 采集文件到 HDFS.
5.5 采集 MySQL 数据到 HDFS
5.5.1 准备工作
5.5.2 创建 MysQL 数据库.
5.6 本章小结.
5.7 习题
实验 4熟悉 Flume 的基本使用方法
第 6 章 数据仓库中的数据集成
6.1数据仓库的概念
6.1.1传统的数据仓库
6.1.2 实时主动数据仓库
6.2 数据集成
6.2.1 数据集成方式
6.2.2 数据分发方式
6.2.3 数据集成技术
6.3 ETL.
6.3.1 ETL 简介.
6.3.2 ETL基本模块
6.3.3 ETL工具
6.4 CDC .
6.4.1 CDC 的特性
6.4.2 CDC 的组成
6.4.3 CDC 的应用场景
6.4.4 CDC 需要考虑的问题
6.5 本章小结
6.6 习题
第7章 ETL工具的Kettle
7.1 Kettle 的基本概念!
7.2 Kettle 的基本功能
7.3 安装 Kettle. .
7.4 数据抽取
7.4.1 把文本文件导入Excel 文件
7.4.2 把文本文件导入 MySQL 数据库
7.4.3 把 Excel 文件导入MySQL数据库
7.5 数据清洗与转换
7.5.1 使用 Kettle 实现数据排序
7.5.2 在 Kettle 中用正则表达式清洗数据
7.5.3 使用 Kettle 去除缺失值
7.5.4 使用 Kettle 转化 MySQL 数据库中的数据
7.6 数据加载
7.6.1 把本地文件加载到 HDFS 中
7.6.2 把 HDFS 文件加载到 MySQL 数库
7.7 本章.小结.
7.8 习题
实验 5 熟悉 Kettle 的基本使用方法
第 8 章 使用 pandas 进行数据清洗
8.1 NumPy 的基本使用方法
8.1.1 数组创建
8.1.2数组索引和切片
8.1.3 数组运算
8.2 pandas的数据结构
8.2.2 Series
8.2.2 DataFrame
8.2.3索引对象
8.3 pandas的基本功能
8.3.1 重新索引.
8.3.2 丢弃指定轴上的项
8.3.3 索引、选取和滤.
8.3.4 算术运算.
8.3.5 DataFrame 和 Series 之间的运算.
8.3.6 函数应用和映射
8.3.7 排序和排名
8.3.8 分组
8.3.9 shape函数
8.3.10 info()函数
8.3.11 cut()函数
8.4 汇总和描述统计
8.4.1 与描述统计相关的函数
8.4.2 唯一值、值计数以及成员资格,
8.5 处理缺失数据
8.5.1 检查缺失值
8.5.2 清理 填充缺失值.
8.5.3 排除缺少的值
8.6 综合实例
8.6.1 Matplotlib 的使用方法
8.6.2 实例 1:对一个数据集进行基本操作
8.6.3 实例 2:百度搜索指数分析
8.6.4 实例 3:电影评分数据分析
8.6.5 实例 4:App行为数据预处理
8.7 本章小结
8.8 习题
实验6 pandas数据清洗初级实践
参考文献
查看详情
-
八五品
四川省成都市
平均发货9小时
成功完成率91.31%
-
八五品
河南省鹤壁市
平均发货9小时
成功完成率94.96%
-
八五品
河南省鹤壁市
平均发货9小时
成功完成率94.96%
-
数据采集与预处理
买书,就上二手书海官方企业店,清仓处理,真实库存,特价旧书,收藏店铺,优先发货! ps:下午三点之前的订单当天发货,之后明天发货,特殊情况除外。
八五品
河南省鹤壁市
平均发货10小时
成功完成率96.21%
-
全新
广东省广州市
平均发货17小时
成功完成率96.14%
-
全新
广东省广州市
平均发货17小时
成功完成率96.54%
-
全新
广东省广州市
平均发货18小时
成功完成率95.62%
-
特价现货!数据采集与预处理
买书,就上织馆萝图书店,特价现货,清仓处理,真实库存,正版书籍,收藏店铺,优先发货! ps:下午三点之前的订单当天发货,之后明天发货,特殊情况除外。
八五品
河南省鹤壁市
平均发货11小时
成功完成率92.93%
-
全新
广东省广州市
平均发货18小时
成功完成率95.98%
-
全新
广东省广州市
平均发货18小时
成功完成率96.32%
-
九品
北京市海淀区
平均发货13小时
成功完成率91.01%
-
九五品
河北省廊坊市
平均发货13小时
成功完成率92.38%
-
九品
北京市海淀区
平均发货9小时
成功完成率89.29%
-
数据采集与预处理、
全新正版书籍,假一罚十(图片为标准图,仅供参考。以标题为准,不了解的可以询问客服。)
全新
北京市朝阳区
平均发货15小时
成功完成率94.91%
-
数据采集与预处理、
全新正版书籍,假一罚十(图片为标准图,仅供参考。以标题为准,不了解的可以询问客服。)
全新
北京市朝阳区
平均发货16小时
成功完成率95.02%
-
九品
北京市东城区
平均发货12小时
成功完成率91.5%
-
九品
北京市昌平区
平均发货14小时
成功完成率91.43%
-
数据采集与预处理!
全新正版书籍,假一罚十(图片为标准图,仅供参考。以标题为准,不了解的可以询问客服。)
全新
北京市朝阳区
平均发货15小时
成功完成率94.91%
-
八品
山西省临汾市
平均发货12小时
成功完成率93.14%
-
全新
天津市西青区
平均发货8小时
成功完成率96.6%
-
2
全新
河北省保定市
平均发货21小时
成功完成率85.89%
-
全新
北京市海淀区
平均发货15小时
成功完成率91.49%
-
数据采集与预处理
正版二手书籍,有少量笔记,套装书先咨询客服再下单,无光盘,无册
八五品
山东省枣庄市
平均发货8小时
成功完成率92.81%
-
全新
江苏省无锡市
平均发货9小时
成功完成率93.66%
-
全新
广东省广州市
平均发货9小时
成功完成率91.13%
-
全新
浙江省嘉兴市
平均发货10小时
成功完成率94.86%
-
全新
江苏省无锡市
平均发货7小时
成功完成率95.98%
-
全新
江苏省无锡市
平均发货11小时
成功完成率91.77%
-
八品
河南省郑州市
平均发货8小时
成功完成率93.7%
-
八五品
广西南宁市
平均发货13小时
成功完成率89.08%
-
八五品
湖南省长沙市
平均发货10小时
成功完成率92.11%
-
全新
广东省东莞市
平均发货17小时
成功完成率93.57%
-
八五品
上海市黄浦区
平均发货8小时
成功完成率93.86%
-
全新
四川省成都市
平均发货8小时
成功完成率98.31%
-
数据采集与预处理
新华书店全新正版,极速发货,假一罚十,可开电子发票,请放心购买。
全新
天津市西青区
平均发货16小时
成功完成率94.58%
-
九品
北京市丰台区
平均发货16小时
成功完成率91.12%
-
全新
河北省保定市
平均发货29小时
成功完成率83.14%
-
全新
河北省保定市
平均发货29小时
成功完成率83.14%
-
全新
河北省保定市
平均发货28小时
成功完成率85.03%
-
2
全新
河北省廊坊市
平均发货22小时
成功完成率82.38%
-
2
全新
河北省保定市
平均发货21小时
成功完成率84.19%
-
全新
河北省保定市
平均发货23小时
成功完成率91.37%
-
2
全新
河北省保定市
平均发货15小时
成功完成率92.85%
-
5
全新
北京市丰台区
平均发货26小时
成功完成率87.76%
-
全新
江苏省南京市
平均发货9小时
成功完成率87.77%
-
全新
江苏省无锡市
平均发货15小时
成功完成率91.49%
-
八五品
陕西省西安市
平均发货15小时
成功完成率84.82%
-
八五品
山西省晋中市
平均发货9小时
成功完成率91.77%
-
全新
四川省成都市
平均发货52小时
成功完成率79.38%
-
13
八五品
重庆市沙坪坝区
平均发货9小时
成功完成率85.54%