Python文本分析

Python文本分析
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
2018-05
版次: 1
ISBN: 9787111593249
定价: 79.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 273页
70人买过
  • 本书遵循结构化和综合性的方法,介绍了文本和语言语法、结构和语义的基础概念和高级概念。从自然语言和Python的基础开始,进而学习先进的分析理念和机器学习概念。全面提供了自然语言处理(NLP)和文本分析的主要概念和技术。包含了丰富的真实案例实现技术,例如构建分类新闻文章的文本分类系统,使用主题建模和文本摘要分析app或游戏评论,进行热门电影概要的聚类分析和电影评论的情感分析。介绍了基于Python和流行NLP开源库和文本分析实用工具,如自然语言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern。 目录 

    译者序 

    前言 

    第1章自然语言基础 

    1.1自然语言 

    1.1.1什么是自然语言 

    1.1.2语言哲学 

    1.1.3语言习得和用法 

    1.2语言学 

    1.3语言句法和结构 

    1.3.1词 

    1.3.2短语 

    1.3.3从句 

    1.3.4语法 

    1.3.5语序类型学 

    1.4语言语义 

    1.4.1词汇语义关系 

    1.4.2语义网络和模型 

    1.4.3语义表示 

    1.5文本语料库 

    1.5.1文本语料库标注及使用 

    1.5.2热门的语料库 

    1.5.3访问文本语料库 

    1.6自然语言处理 

    1.6.1机器翻译 

    1.6.2语音识别系统 

    1.6.3问答系统 

    1.6.4语境识别与消解 

    1.6.5文本摘要 

    1.6.6文本分类 

    1.7文本分析 

    1.8小结 

    第2章Python语言回顾 

    2.1了解Python 

    2.1.1Python之禅 

    2.1.2应用:何时使用Python 

    2.1.3缺点:何时不用Python 

    2.1.4Python实现和版本 

    2.2安装和设置 

    2.2.1用哪个Python版本 

    2.2.2用哪个操作系统 

    2.2.3集成开发环境 

    2.2.4环境设置 

    2.2.5虚拟环境 

    2.3Python句法和结构 

    2.4数据结构和类型 

    2.4.1数值类型 

    2.4.2字符串 

    2.4.3列表 

    2.4.4集合 

    2.4.5字典 

    2.4.6元组 

    2.4.7文件 

    2.4.8杂项 

    2.5控制代码流 

    2.5.1条件结构 

    2.5.2循环结构 

    2.5.3处理异常 

    2.6函数编程 

    2.6.1函数 

    2.6.2递归函数 

    2.6.3匿名函数 

    2.6.4迭代器 

    2.6.5分析器 

    2.6.6生成器 

    2.6.7itertools和functools模块 

    2.7类 

    2.8使用文本 

    2.8.1字符串文字 

    2.8.2字符串操作和方法 

    2.9文本分析框架 

    2.10小结 

    第3章处理和理解文本 

    3.1文本切分 

    3.1.1句子切分 

    3.1.2词语切分 

    3.2文本规范化 

    3.2.1文本清洗 

    3.2.2文本切分 

    3.2.3删除特殊字符 

    3.2.4扩展缩写词 

    3.2.5大小写转换 

    3.2.6删除停用词 

    3.2.7词语校正 

    3.2.8词干提取 

    3.2.9词形还原 

    3.3理解文本句法和结构 

    3.3.1安装必要的依赖项 

    3.3.2机器学习重要概念 

    3.3.3词性标注 

    3.3.4浅层分析 

    3.3.5基于依存关系的分析 

    3.3.6基于成分结构的分析 

    3.4小结 

    第4章文本分类 

    4.1什么是文本分类 

    4.2自动文本分类 

    4.3文本分类的蓝图 

    4.4文本规范化处理 

    4.5特征提取 

    4.5.1词袋模型 

    4.5.2TFIDF模型 

    4.5.3高级词向量模型 

    4.6分类算法 

    4.6.1多项式朴素贝叶斯 

    4.6.2支持向量机 

    4.7评估分类模型 

    4.8建立一个多类分类系统 

    4.9应用 

    4.10小结 

    第5章文本摘要 

    5.1文本摘要和信息提取 

    5.2重要概念 

    5.2.1文档 

    5.2.2文本规范化 

    5.2.3特征提取 

    5.2.4特征矩阵 

    5.2.5奇异值分解 

    5.3文本规范化 

    5.4特征提取 

    5.5关键短语提取 

    5.5.1搭配 

    5.5.2基于权重标签的短语提取 

    5.6主题建模 

    5.6.1隐含语义索引 

    5.6.2隐含Dirichlet分布 

    5.6.3非负矩阵分解 

    5.6.4从产品评论中提取主题 

    5.7自动文档摘要 

    5.7.1隐含语义分析 

    5.7.2TextRank算法 

    5.7.3生成产品说明摘要 

    5.8小结 

    第6章文本相似度和聚类 

    6.1重要概念 

    6.1.1信息检索 

    6.1.2特征工程 

    6.1.3相似度测量 

    6.1.4无监督的机器学习算法 

    6.2文本规范化 

    6.3特征提取 

    6.4文本相似度 

    6.5词项相似度分析 

    6.5.1汉明距离 

    6.5.2曼哈顿距离 

    6.5.3欧几里得距离 

    6.5.4莱文斯坦编辑距离 

    6.5.5余弦距离和相似度 

    6.6文档相似度分析 

    6.6.1余弦相似度 

    6.6.2海灵格-巴塔恰亚距离 

    6.6.3Okapi BM25排名 

    6.7文档聚类 

    6.8最佳影片聚类分析 

    6.8.1kmeans聚类 

    6.8.2近邻传播聚类 

    6.8.3沃德凝聚层次聚类 

    6.9小结 

    第7章语义与情感分析 

    7.1语义分析 

    7.2探索WordNet 

    7.2.1理解同义词集 

    7.2.2分析词汇的语义关系 

    7.3词义消歧 

    7.4命名实体识别 

    7.5分析语义表征 

    7.5.1命题逻辑 

    7.5.2一阶逻辑 

    7.6情感分析 

    7.7IMDb电影评论的情感分析 

    7.7.1安装依赖程序包 

    7.7.2准备数据集 

    7.7.3有监督的机器学习技术 

    7.7.4无监督的词典技术 

    7.7.5模型性能比较 

    7.8小结
  • 内容简介:
    本书遵循结构化和综合性的方法,介绍了文本和语言语法、结构和语义的基础概念和高级概念。从自然语言和Python的基础开始,进而学习先进的分析理念和机器学习概念。全面提供了自然语言处理(NLP)和文本分析的主要概念和技术。包含了丰富的真实案例实现技术,例如构建分类新闻文章的文本分类系统,使用主题建模和文本摘要分析app或游戏评论,进行热门电影概要的聚类分析和电影评论的情感分析。介绍了基于Python和流行NLP开源库和文本分析实用工具,如自然语言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern。
  • 目录:
    目录 

    译者序 

    前言 

    第1章自然语言基础 

    1.1自然语言 

    1.1.1什么是自然语言 

    1.1.2语言哲学 

    1.1.3语言习得和用法 

    1.2语言学 

    1.3语言句法和结构 

    1.3.1词 

    1.3.2短语 

    1.3.3从句 

    1.3.4语法 

    1.3.5语序类型学 

    1.4语言语义 

    1.4.1词汇语义关系 

    1.4.2语义网络和模型 

    1.4.3语义表示 

    1.5文本语料库 

    1.5.1文本语料库标注及使用 

    1.5.2热门的语料库 

    1.5.3访问文本语料库 

    1.6自然语言处理 

    1.6.1机器翻译 

    1.6.2语音识别系统 

    1.6.3问答系统 

    1.6.4语境识别与消解 

    1.6.5文本摘要 

    1.6.6文本分类 

    1.7文本分析 

    1.8小结 

    第2章Python语言回顾 

    2.1了解Python 

    2.1.1Python之禅 

    2.1.2应用:何时使用Python 

    2.1.3缺点:何时不用Python 

    2.1.4Python实现和版本 

    2.2安装和设置 

    2.2.1用哪个Python版本 

    2.2.2用哪个操作系统 

    2.2.3集成开发环境 

    2.2.4环境设置 

    2.2.5虚拟环境 

    2.3Python句法和结构 

    2.4数据结构和类型 

    2.4.1数值类型 

    2.4.2字符串 

    2.4.3列表 

    2.4.4集合 

    2.4.5字典 

    2.4.6元组 

    2.4.7文件 

    2.4.8杂项 

    2.5控制代码流 

    2.5.1条件结构 

    2.5.2循环结构 

    2.5.3处理异常 

    2.6函数编程 

    2.6.1函数 

    2.6.2递归函数 

    2.6.3匿名函数 

    2.6.4迭代器 

    2.6.5分析器 

    2.6.6生成器 

    2.6.7itertools和functools模块 

    2.7类 

    2.8使用文本 

    2.8.1字符串文字 

    2.8.2字符串操作和方法 

    2.9文本分析框架 

    2.10小结 

    第3章处理和理解文本 

    3.1文本切分 

    3.1.1句子切分 

    3.1.2词语切分 

    3.2文本规范化 

    3.2.1文本清洗 

    3.2.2文本切分 

    3.2.3删除特殊字符 

    3.2.4扩展缩写词 

    3.2.5大小写转换 

    3.2.6删除停用词 

    3.2.7词语校正 

    3.2.8词干提取 

    3.2.9词形还原 

    3.3理解文本句法和结构 

    3.3.1安装必要的依赖项 

    3.3.2机器学习重要概念 

    3.3.3词性标注 

    3.3.4浅层分析 

    3.3.5基于依存关系的分析 

    3.3.6基于成分结构的分析 

    3.4小结 

    第4章文本分类 

    4.1什么是文本分类 

    4.2自动文本分类 

    4.3文本分类的蓝图 

    4.4文本规范化处理 

    4.5特征提取 

    4.5.1词袋模型 

    4.5.2TFIDF模型 

    4.5.3高级词向量模型 

    4.6分类算法 

    4.6.1多项式朴素贝叶斯 

    4.6.2支持向量机 

    4.7评估分类模型 

    4.8建立一个多类分类系统 

    4.9应用 

    4.10小结 

    第5章文本摘要 

    5.1文本摘要和信息提取 

    5.2重要概念 

    5.2.1文档 

    5.2.2文本规范化 

    5.2.3特征提取 

    5.2.4特征矩阵 

    5.2.5奇异值分解 

    5.3文本规范化 

    5.4特征提取 

    5.5关键短语提取 

    5.5.1搭配 

    5.5.2基于权重标签的短语提取 

    5.6主题建模 

    5.6.1隐含语义索引 

    5.6.2隐含Dirichlet分布 

    5.6.3非负矩阵分解 

    5.6.4从产品评论中提取主题 

    5.7自动文档摘要 

    5.7.1隐含语义分析 

    5.7.2TextRank算法 

    5.7.3生成产品说明摘要 

    5.8小结 

    第6章文本相似度和聚类 

    6.1重要概念 

    6.1.1信息检索 

    6.1.2特征工程 

    6.1.3相似度测量 

    6.1.4无监督的机器学习算法 

    6.2文本规范化 

    6.3特征提取 

    6.4文本相似度 

    6.5词项相似度分析 

    6.5.1汉明距离 

    6.5.2曼哈顿距离 

    6.5.3欧几里得距离 

    6.5.4莱文斯坦编辑距离 

    6.5.5余弦距离和相似度 

    6.6文档相似度分析 

    6.6.1余弦相似度 

    6.6.2海灵格-巴塔恰亚距离 

    6.6.3Okapi BM25排名 

    6.7文档聚类 

    6.8最佳影片聚类分析 

    6.8.1kmeans聚类 

    6.8.2近邻传播聚类 

    6.8.3沃德凝聚层次聚类 

    6.9小结 

    第7章语义与情感分析 

    7.1语义分析 

    7.2探索WordNet 

    7.2.1理解同义词集 

    7.2.2分析词汇的语义关系 

    7.3词义消歧 

    7.4命名实体识别 

    7.5分析语义表征 

    7.5.1命题逻辑 

    7.5.2一阶逻辑 

    7.6情感分析 

    7.7IMDb电影评论的情感分析 

    7.7.1安装依赖程序包 

    7.7.2准备数据集 

    7.7.3有监督的机器学习技术 

    7.7.4无监督的词典技术 

    7.7.5模型性能比较 

    7.8小结
查看详情
12
系列丛书 / 更多
Python文本分析
大数据导论
彭智勇 译
Python文本分析
统计学习导论 基于R应用
[美]加雷斯·詹姆斯、丹妮拉·威滕、特雷弗·哈斯帖 著;王星 译
Python文本分析
大数据分析原理与实践
王宏志 著
Python文本分析
Python机器学习
高明、徐莹、陶虎成 译
Python文本分析
机器学习与R语言(原书第2版)
李洪成、许金炜、李舰 译
Python文本分析
Python机器学习(原书第2版)
瓦希德·米 著;塞巴斯蒂安·拉施卡(Sebastian Raschka)、陈斌 译
Python文本分析
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
[德]西蒙·蒙策尔特 著;吴今朝 译
Python文本分析
机器学习与R语言
[美]Brett Lantz 著;李洪成、许金炜、李舰 译
Python文本分析
Python金融数据分析
Weiming 著;杰姆斯·马伟明(James、Ma、高明 译
Python文本分析
基于MPI的大数据高性能计算导论
弗兰克·尼尔森(Frank Nielsen) 著;张伟哲 译
Python文本分析
统计机器学习导论
[日]杉山将 著;谢宁 译
Python文本分析
社交媒体数据挖掘与分析
[美]加博尔·萨博(Gabor Szabo) 著;李凯、吕天阳 译
您可能感兴趣 / 更多
Python文本分析
生如夏花:名家译本;插画版泰戈尔诗集;生如夏花之绚烂,死如秋叶之静美
[印度]泰戈尔著 郑振铎 译;小马过河 出品;有容书邦 发行
Python文本分析
无价的罗摩(梵语文学译丛)
[印度]牟罗利 著
Python文本分析
飞鸟集:泰戈尔诗选(诺贝尔奖得主泰戈尔代表作,郑振铎经典译本,赠精美书签)(创美文库)
[印度]泰戈尔 著;郑振铎 译;创美工厂 出品
Python文本分析
天猫文库:泰戈尔诗选(九年级上推荐阅读)
[印度]泰戈尔 著;王立 译;郑振铎
Python文本分析
短经典精选系列:两次暗杀之间(布克奖作家白老虎作者阿迪加短篇小说,一本书看懂印度前世今生)
[印度]阿拉文德·阿迪加
Python文本分析
简易宫腔镜操作手册
[印度]巴斯卡尔·帕尔 主编;胡元晶 李圃 主译;隋龙 主审;[印度]苏尼特·滕杜尔沃德卡
Python文本分析
广雅·波斯航海史(揭开丝绸、战舰、海港背后五千年的爱恨纠缠,述说一条海路勾连起的繁荣共生。)
[印度]哈迪·哈桑 广雅 出品
Python文本分析
新月集
[印度]泰戈尔
Python文本分析
数控机床可靠性与维修策略优化技术
[印度]布佩什·库马尔·拉德 迪维亚·什里瓦斯塔瓦 马克兰德·斯·库尔卡尼
Python文本分析
行动瑜伽(瑜伽哲学经典丛书)
[印度]斯瓦米·辨喜 著;闻中 译
Python文本分析
管理学精选案例(英文版)
[印度]王中(Prasad Siba BORAH);樊茗·h;[克罗地亚]德拉加纳·奥斯蒂奇(Dragana Ostic)
Python文本分析
记忆博物馆
[印度]阿伦·沃尔夫 编;马淑艳 译