基于R语言的自动数据收集:网络抓取和文本挖掘实用指南

基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [德] ,
2016-03
版次: 1
ISBN: 9787111527503
定价: 99.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 366页
字数: 455千字
正文语种: 简体中文
134人买过
  • 本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和*佳实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
    本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。 作者:(德国)西蒙·蒙策尔特(Simon Munzert) (德国)克里斯蒂安·鲁巴(Christian Rubba) (德国)彼得·迈博纳(Peter Meipner) (德国)多米尼克·尼胡斯(Dominic Nyhuis) 译者:吴今朝 译者序
    前  言
    第1章概述 
    1.1案例研究:濒危世界遗产地 
    1.2有关网络数据质量的一些讨论 
    1.3传播、提取和保存网络数据的技术
    1.3.1在网络上传播内容的技术 
    1.3.2从Web文档中提取信息的
    技术 
    1.3.3  数据保存的技术 
    1.4本书的结构 
    第一部分网络和数据技术入门
    第2章HTML
    2.1浏览器显示及源代码 
    2.2语法规则 
    2.2.1标签、元素和属性 
    2.2.2树形结构 
    2.2.3注释 
    2.2.4保留字符和特殊字符 
    2.2.5文档类型定义 
    2.2.6  空格和换行 
    2.3标签和属性 
    2.3.1  锚标签 
    2.3.6  标题标签、、
    等 
    2.3.7  通过、和
    列举内容 
    2.3.8组织型标签和
     
    2.3.9 标签及其同伴 
    2.3.10  外部脚本标签
  • 内容简介:
    本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和*佳实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
    本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
  • 作者简介:
    作者:(德国)西蒙·蒙策尔特(Simon Munzert) (德国)克里斯蒂安·鲁巴(Christian Rubba) (德国)彼得·迈博纳(Peter Meipner) (德国)多米尼克·尼胡斯(Dominic Nyhuis) 译者:吴今朝
  • 目录:
    译者序
    前  言
    第1章概述 
    1.1案例研究:濒危世界遗产地 
    1.2有关网络数据质量的一些讨论 
    1.3传播、提取和保存网络数据的技术
    1.3.1在网络上传播内容的技术 
    1.3.2从Web文档中提取信息的
    技术 
    1.3.3  数据保存的技术 
    1.4本书的结构 
    第一部分网络和数据技术入门
    第2章HTML
    2.1浏览器显示及源代码 
    2.2语法规则 
    2.2.1标签、元素和属性 
    2.2.2树形结构 
    2.2.3注释 
    2.2.4保留字符和特殊字符 
    2.2.5文档类型定义 
    2.2.6  空格和换行 
    2.3标签和属性 
    2.3.1  锚标签 
    2.3.6  标题标签、、
    等 
    2.3.7  通过、和
    列举内容 
    2.3.8组织型标签和
     
    2.3.9 标签及其同伴 
    2.3.10  外部脚本标签
查看详情
12
系列丛书 / 更多
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
大数据导论
彭智勇 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
统计学习导论 基于R应用
[美]加雷斯·詹姆斯、丹妮拉·威滕、特雷弗·哈斯帖 著;王星 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
大数据分析原理与实践
王宏志 著
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
机器学习与R语言(原书第2版)
李洪成、许金炜、李舰 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
Python机器学习
高明、徐莹、陶虎成 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
Python金融数据分析
Weiming 著;杰姆斯·马伟明(James、Ma、高明 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
机器学习与R语言
[美]Brett Lantz 著;李洪成、许金炜、李舰 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
基于MPI的大数据高性能计算导论
弗兰克·尼尔森(Frank Nielsen) 著;张伟哲 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
统计机器学习导论
[日]杉山将 著;谢宁 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
Python机器学习(原书第2版)
瓦希德·米 著;塞巴斯蒂安·拉施卡(Sebastian Raschka)、陈斌 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
Python文本分析
[印度]迪潘简·撒卡尔 著;闫龙川 高德荃 李君婷 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
社交媒体数据挖掘与分析
[美]加博尔·萨博(Gabor Szabo) 著;李凯、吕天阳 译
您可能感兴趣 / 更多
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
MBTI:潜能开发和人性攻略
[德]斯蒂芬妮·斯塔尔 著;磨铁文化 出品
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
叙事本能:大脑为什么爱编故事
[德]维尔纳·西费尔/著 李寒笑 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
英国文学的命运共同体表征与审美研究 文献卷:文学中的共同体——文学-政治介入的现实性
[德]玛戈·布林克;[德]西尔维亚·普里奇
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
后英雄时代:一幅时代画卷 德国弗莱堡大学社会学教授乌尔里希 布吕克林力作呈现
[德]乌尔里希·布吕克林(Ulrich Br.ckling) 著;张文奕 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
韩国流行音乐(西方韩国研究丛书)
[德]迈克尔·富尔(MichaelFuhr) 著;王丹丹 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
吹牛大王历险记 彩图注音版 一二三四年级5-6-7-8-9岁小学生课外阅读经典 儿童文学无障碍有声伴读世界名著童话故事
[德]埃·拉斯伯;[德]戈·毕尔格
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
法学中的体系思维与体系概念:以德国私法为例(第2版)法律人进阶译丛 经典阅读系列
[德]克劳斯-威廉·卡纳里斯(Claus-Wilhelm Canaris) 著;陈大创 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
为什么只见树木不见森林:从简单现象到复杂系统
[德]迪尔克·布罗克曼(Dirk Brockmann) 著
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
悉达多(诺贝尔文学奖得主赫尔曼·黑塞的代表作,一部关于人生信仰的救赎之作)
[德]赫尔曼·黑塞 著;周苇 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
在轮下(诺奖得主黑塞自传性作品,写给每一个不甘被世俗牵绊的年轻人)
[德]赫尔曼·黑塞 著;王秀莉 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
德米安:彷徨少年时《黑暗荣耀》推荐, 诺贝尔文学奖得主黑塞代表作
[德]赫尔曼·黑塞 著;周苇 译
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
荒原狼(诺贝尔文学奖得主黑塞代表作,一剂反击命运的良方,治愈一个社恐内心的焦虑)
[德]赫尔曼·黑塞 著;周苇 译