基于R语言的自动数据收集：网络抓取和文本挖掘实用指南

作者: [德] 西蒙·蒙策尔特著 , 吴今朝译

出版社: 机械工业出版社

出版时间: 2016-03

版次: 1

ISBN: 9787111527503

定价: 99.00

装帧: 平装

开本: 16开

纸张: 胶版纸

页数: 366页

字数: 455千字

正文语种: 简体中文

丛书: 数据科学与工程技术丛书

分类: 计算机与互联网

本书由资深社会科学家撰写，从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和*佳实践。作者深入剖析自动化数据抓取和分析各个层面的问题，从网络和数据技术到网络抓取和文本挖掘的实用工具箱，重点阐释利用R语言进行自动化数据抓取和分析，能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共17章，第1章是概述，阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识，内容涉及互联网上通信、交换、保存和显示信息的基础技术（如HTTP、HTML、XML、JSON、AJAX、SQL等），并讲解用于查询网络文档和数据集的基本技术（XPath和正则表达式）。第9~11章介绍网络抓取和文本挖掘的实用工具箱，其中第9章讲解多种网络抓取技术，涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术；第10章深入介绍用于统计性文本处理的技术；第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析，涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。作者：（德国）西蒙·蒙策尔特（Simon Munzert）（德国）克里斯蒂安·鲁巴（Christian Rubba）（德国）彼得·迈博纳（Peter Meipner）（德国）多米尼克·尼胡斯（Dominic Nyhuis）译者：吴今朝译者序
前  言
第1章概述
1.1案例研究：濒危世界遗产地
1.2有关网络数据质量的一些讨论
1.3传播、提取和保存网络数据的技术
1.3.1在网络上传播内容的技术
1.3.2从Web文档中提取信息的
技术
1.3.3  数据保存的技术
1.4本书的结构
第一部分网络和数据技术入门
第2章HTML
2.1浏览器显示及源代码
2.2语法规则
2.2.1标签、元素和属性
2.2.2树形结构
2.2.3注释
2.2.4保留字符和特殊字符
2.2.5文档类型定义
2.2.6  空格和换行
2.3标签和属性
2.3.1  锚标签
2.3.6  标题标签、、
等
2.3.7  通过、和
列举内容
2.3.8组织型标签和

2.3.9 标签及其同伴
2.3.10  外部脚本标签
内容简介:
本书由资深社会科学家撰写，从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和*佳实践。作者深入剖析自动化数据抓取和分析各个层面的问题，从网络和数据技术到网络抓取和文本挖掘的实用工具箱，重点阐释利用R语言进行自动化数据抓取和分析，能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共17章，第1章是概述，阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识，内容涉及互联网上通信、交换、保存和显示信息的基础技术（如HTTP、HTML、XML、JSON、AJAX、SQL等），并讲解用于查询网络文档和数据集的基本技术（XPath和正则表达式）。第9~11章介绍网络抓取和文本挖掘的实用工具箱，其中第9章讲解多种网络抓取技术，涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术；第10章深入介绍用于统计性文本处理的技术；第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析，涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
作者简介:
作者：（德国）西蒙·蒙策尔特（Simon Munzert）（德国）克里斯蒂安·鲁巴（Christian Rubba）（德国）彼得·迈博纳（Peter Meipner）（德国）多米尼克·尼胡斯（Dominic Nyhuis）译者：吴今朝
目录:
译者序
前  言
第1章概述
1.1案例研究：濒危世界遗产地
1.2有关网络数据质量的一些讨论
1.3传播、提取和保存网络数据的技术
1.3.1在网络上传播内容的技术
1.3.2从Web文档中提取信息的
技术
1.3.3  数据保存的技术
1.4本书的结构
第一部分网络和数据技术入门
第2章HTML
2.1浏览器显示及源代码
2.2语法规则
2.2.1标签、元素和属性
2.2.2树形结构
2.2.3注释
2.2.4保留字符和特殊字符
2.2.5文档类型定义
2.2.6  空格和换行
2.3标签和属性
2.3.1  锚标签
2.3.6  标题标签、、
等
2.3.7  通过、和
列举内容
2.3.8组织型标签和

2.3.9 标签及其同伴
2.3.10  外部脚本标签