基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
出版时间:
2016-03
版次:
1
ISBN:
9787111527503
定价:
99.00
装帧:
平装
开本:
16开
纸张:
胶版纸
页数:
366页
字数:
455千字
正文语种:
简体中文
-
本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和*佳实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。 作者:(德国)西蒙·蒙策尔特(Simon Munzert) (德国)克里斯蒂安·鲁巴(Christian Rubba) (德国)彼得·迈博纳(Peter Meipner) (德国)多米尼克·尼胡斯(Dominic Nyhuis) 译者:吴今朝 译者序
前 言
第1章概述
1.1案例研究:濒危世界遗产地
1.2有关网络数据质量的一些讨论
1.3传播、提取和保存网络数据的技术
1.3.1在网络上传播内容的技术
1.3.2从Web文档中提取信息的
技术
1.3.3 数据保存的技术
1.4本书的结构
第一部分网络和数据技术入门
第2章HTML
2.1浏览器显示及源代码
2.2语法规则
2.2.1标签、元素和属性
2.2.2树形结构
2.2.3注释
2.2.4保留字符和特殊字符
2.2.5文档类型定义
2.2.6 空格和换行
2.3标签和属性
2.3.1 锚标签
2.3.6 标题标签、、
等
2.3.7 通过、和
列举内容
2.3.8组织型标签和
2.3.9 标签及其同伴
2.3.10 外部脚本标签
-
内容简介:
本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和*佳实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
-
作者简介:
作者:(德国)西蒙·蒙策尔特(Simon Munzert) (德国)克里斯蒂安·鲁巴(Christian Rubba) (德国)彼得·迈博纳(Peter Meipner) (德国)多米尼克·尼胡斯(Dominic Nyhuis) 译者:吴今朝
-
目录:
译者序
前 言
第1章概述
1.1案例研究:濒危世界遗产地
1.2有关网络数据质量的一些讨论
1.3传播、提取和保存网络数据的技术
1.3.1在网络上传播内容的技术
1.3.2从Web文档中提取信息的
技术
1.3.3 数据保存的技术
1.4本书的结构
第一部分网络和数据技术入门
第2章HTML
2.1浏览器显示及源代码
2.2语法规则
2.2.1标签、元素和属性
2.2.2树形结构
2.2.3注释
2.2.4保留字符和特殊字符
2.2.5文档类型定义
2.2.6 空格和换行
2.3标签和属性
2.3.1 锚标签
2.3.6 标题标签、、
等
2.3.7 通过、和
列举内容
2.3.8组织型标签和
2.3.9 标签及其同伴
2.3.10 外部脚本标签
查看详情
-
八五品
北京市昌平区
平均发货17小时
成功完成率96.16%
-
九五品
上海市闵行区
平均发货5小时
成功完成率96.71%
-
九品
北京市朝阳区
平均发货10小时
成功完成率93.63%
-
2016-07 印刷
印次: 2
九品
河南省信阳市
平均发货10小时
成功完成率97.08%
-
八五品
四川省成都市
平均发货8小时
成功完成率95.21%
-
九品
北京市昌平区
平均发货12小时
成功完成率96.53%
-
九五品
北京市大兴区
平均发货7小时
成功完成率93.3%
-
九品
北京市昌平区
平均发货22小时
成功完成率94.58%
-
八五品
北京市海淀区
平均发货14小时
成功完成率91.45%
-
九五品
北京市朝阳区
平均发货10小时
成功完成率93.63%
-
八五品
四川省成都市
平均发货10小时
成功完成率95.64%
-
八五品
山东省菏泽市
平均发货7小时
成功完成率97.06%
-
九五品
河北省保定市
平均发货14小时
成功完成率95.91%
-
八五品
四川省成都市
平均发货6小时
成功完成率94.83%
-
九品
甘肃省定西市
平均发货27小时
成功完成率91.75%
-
八五品
四川省成都市
平均发货8小时
成功完成率94.75%
-
八五品
北京市海淀区
平均发货30小时
成功完成率91.51%
-
八品
北京市通州区
平均发货10小时
成功完成率92.67%
-
九品
河北省廊坊市
平均发货7小时
成功完成率97.23%
-
2016-07 印刷
印次: 2
八五品
安徽省蚌埠市
平均发货16小时
成功完成率97.29%
-
九五品
北京市海淀区
平均发货9小时
成功完成率96.69%
-
九品
重庆市沙坪坝区
平均发货14小时
成功完成率93.7%
-
八五品
北京市通州区
平均发货45小时
成功完成率86.49%
-
九品
广东省广州市
平均发货18小时
成功完成率94.52%
-
九五品
江苏省徐州市
平均发货19小时
成功完成率92.62%
-
九品
北京市丰台区
平均发货16小时
成功完成率97.28%
-
九品
安徽省马鞍山市
平均发货10小时
成功完成率95.64%
-
九五品
四川省成都市
平均发货11小时
成功完成率93.39%
-
九品
河北省衡水市
平均发货8小时
成功完成率96.84%
-
九品
河南省郑州市
平均发货10小时
成功完成率91.94%
-
八五品
江西省南昌市
平均发货11小时
成功完成率92.07%
-
九五品
江苏省徐州市
平均发货15小时
成功完成率86.62%
-
九品
北京市海淀区
平均发货12小时
成功完成率79.07%
-
九品
湖北省襄阳市
平均发货6小时
成功完成率97.34%
-
八五品
北京市朝阳区
平均发货12小时
成功完成率59.49%
-
九品
广东省东莞市
平均发货10小时
成功完成率95.89%
-
九品
河北省沧州市
平均发货19小时
成功完成率96.66%
-
八五品
重庆市沙坪坝区
平均发货7小时
成功完成率95.85%
-
九品
北京市昌平区
平均发货23小时
成功完成率86.35%
-
八五品
江西省南昌市
平均发货13小时
成功完成率77.84%
-
九品
湖北省襄阳市
平均发货6小时
成功完成率97.34%
-
九品
北京市朝阳区
平均发货18小时
成功完成率73.12%
-
九品
江苏省南京市
平均发货25小时
成功完成率89.45%
-
八五品
重庆市沙坪坝区
平均发货11小时
成功完成率84.87%
-
2016-07 印刷
印次: 2
九五品
山西省晋城市
平均发货4小时
成功完成率97.78%
-
八五品
河南省郑州市
平均发货10小时
成功完成率94.78%
-
2016-07 印刷
印次: 2
九品
北京市昌平区
平均发货23小时
成功完成率95.21%
-
九五品
北京市海淀区
平均发货18小时
成功完成率94.49%
-
九品
河北省衡水市
平均发货24小时
成功完成率93.09%
-
八五品
江苏省南京市
平均发货19小时
成功完成率82.08%