文本挖掘中若干关键问题研究

文本挖掘中若干关键问题研究
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2008-12
版次: 1
ISBN: 9787312022807
定价: 20.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 117页
字数: 163千字
正文语种: 简体中文
丛书: 博士论丛
7人买过
  •   介绍了文本分类和偏最小二乘回归,提出了基于变量投影重要性指标的文本分类特征选择方法,论述了偏最小二乘Logistic文本分类模型,阐述了CHTC层次文本分类模型的研究工作,《文本挖掘中若干关键问题研究》可供相关领域科研工作者、大学高年级学生和研究生阅读。 前言
    第1章导论
    1.1研究背景
    1.2文本分类综述
    1.3本书的内容结构
    1.4本书的创新工作

    第2章文本分类概述
    2.1文本分类的数学定义
    2.2文本分类任务的特点
    2.3文本分类系统的组成
    2.4文档预处理
    2.5文档的表示
    2.6常用文本分类模型
    2.7文本分类器学习、测试和评价

    第3章偏最小二乘回归方法的基本理论
    3.1偏最小二乘回归的发展历史
    3.2偏最小二乘回归的基本原理
    3.3偏最小二乘回归的基本思想
    3.4数学原理
    3.5偏最小二乘回归的理论算法
    3.6成分数的确定

    第4章基于变量投影重要性指标的特征选择方法研究
    4.1维数约简技术
    4.2符号约定
    4.3常用的特征选择方法
    4.4常用的特征抽取方法
    4.5基于变量投影重要性指标的特征选择方法
    4.6实验结果和分析

    第5章偏最小二乘Logistic文本分类模型研究
    5.1Logistic回归模型
    5.2偏最小二乘Logistic回归模型
    5.3偏最小二乘Logistic文本分类模型
    5.4实验结果和分析

    第6章GHTC层次文本分类模型研究
    6.1层次分类概述
    6.2层次特征选择
    6.3GHTC层次文本分类模型
    6.4实验结果和分析

    第7章总结与展望
    7.1总结
    7.2研究展望
    附录1REUTERS-21578前10个常见类和前10个稀有类的前20个特征VIP值
    附录2复旦文本分类语料库部分类别的前20个特征VIP值
    附录3OHSUMED语料库层次结构
    附录420Newsgroups语料库各节点各特征维数的微平均F1值和宏平均F1值变化情况
    参考文献
    后记
  • 内容简介:
      介绍了文本分类和偏最小二乘回归,提出了基于变量投影重要性指标的文本分类特征选择方法,论述了偏最小二乘Logistic文本分类模型,阐述了CHTC层次文本分类模型的研究工作,《文本挖掘中若干关键问题研究》可供相关领域科研工作者、大学高年级学生和研究生阅读。
  • 目录:
    前言
    第1章导论
    1.1研究背景
    1.2文本分类综述
    1.3本书的内容结构
    1.4本书的创新工作

    第2章文本分类概述
    2.1文本分类的数学定义
    2.2文本分类任务的特点
    2.3文本分类系统的组成
    2.4文档预处理
    2.5文档的表示
    2.6常用文本分类模型
    2.7文本分类器学习、测试和评价

    第3章偏最小二乘回归方法的基本理论
    3.1偏最小二乘回归的发展历史
    3.2偏最小二乘回归的基本原理
    3.3偏最小二乘回归的基本思想
    3.4数学原理
    3.5偏最小二乘回归的理论算法
    3.6成分数的确定

    第4章基于变量投影重要性指标的特征选择方法研究
    4.1维数约简技术
    4.2符号约定
    4.3常用的特征选择方法
    4.4常用的特征抽取方法
    4.5基于变量投影重要性指标的特征选择方法
    4.6实验结果和分析

    第5章偏最小二乘Logistic文本分类模型研究
    5.1Logistic回归模型
    5.2偏最小二乘Logistic回归模型
    5.3偏最小二乘Logistic文本分类模型
    5.4实验结果和分析

    第6章GHTC层次文本分类模型研究
    6.1层次分类概述
    6.2层次特征选择
    6.3GHTC层次文本分类模型
    6.4实验结果和分析

    第7章总结与展望
    7.1总结
    7.2研究展望
    附录1REUTERS-21578前10个常见类和前10个稀有类的前20个特征VIP值
    附录2复旦文本分类语料库部分类别的前20个特征VIP值
    附录3OHSUMED语料库层次结构
    附录420Newsgroups语料库各节点各特征维数的微平均F1值和宏平均F1值变化情况
    参考文献
    后记
查看详情
您可能感兴趣 / 更多