Web数据挖掘:超文本数据的知识发现

Web数据挖掘:超文本数据的知识发现
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [印]
2009-02
版次: 1
ISBN: 9787115194046
定价: 59.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 344页
字数: 432千字
正文语种: 英语
原版书名: Mining the Web:Discovering Knowledge from Hypertext Data
  •   本书是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。本书为读者提供了坚实的技术背景和最新的知识。
      本书是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。   SoumenChakrabarti,Web搜索与挖掘领域的知名专家,ACMTransactionsontheWeb副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBMAlmaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。 INTRODUCTION
    1.1CrawlingandIndexing
    1.2TopicDirectories
    1.3ClusteringandClassification
    1.4HyperlinkAnalysis
    1.5ResourceDiscoveryandVerticalPortals
    1.6Structuredvs.UnstructuredDataMining
    1.7BibliographicNotes

    PARTⅠINFRASTRUCTURE
    2CRAWLINGTHEWEB
    2.1HTMLandHTTPBasics
    2.2CrawlingBasics
    2.3EngineeringLarge-ScaleCrawlers
    2.3.1DNSCaching,Prefetching,andResolution
    2.3.2MultipleConcurrentFetches
    2.3.3LinkExtractionandNormalization
    2.3.4RobotExclusion
    2.3.5EliminatingAlready-VisitedURLs
    2.3.6SpiderTraps
    2.3.7AvoidingRepeatedExpansionofLinksonDuplicatePages
    2.3.8LoadMonitorandManager
    2.3.9Per-ServerWork-Queues
    2.3.10TextRepository
    2.3.11RefreshingCrawledPages

    2.4PuttingTogetheraCrawler
    2.4.1DesignoftheCoreComponents
    2.4.2CaseStudy:Usingw3c-1ibwww
    2.5BibliographicNotes

    3WEBSEARCHANDINFORMATIONRETRIEVAL
    3.1BooleanQueriesandtheInvertedIndex
    3.1.1StopwordsandStemming
    3.1.2BatchIndexingandUpdates
    3.1.3IndexCompressionTechniques

    3.2RelevanceRanking
    3.2.1RecallandPrecision
    3.2.2TheVector-SpaceModel
    3.2.3RelevanceFeedbackandRocchiosMethod
    3.2.4ProbabilisticRelevanceFeedbackModels
    3.2.5AdvancedIssues

    3.3SimilaritySearch
    3.3.1Handling"Find-Similar"Queries
    3.3.2EliminatingNearDuplicatesviaShingling
    3.3.3DetectingLocallySimilarSubgraphsoftheWeb
    3.4BibliographicNotes

    PARTⅡLEARNING
    SIMILARITYANDCLUSTERING
    4.1FormulationsandApproaches
    4.1.1PartitioningApproaches
    4.1.2GeometricEmbeddingApproaches
    4.1.3GenerativeModelsandProbabilisticApproaches

    4.2Bottom-UpandTop-DownPartitioningParadigms
    4.2.1AgglomerativeClustering
    4.2.2Thek-MeansAlgorithm

    4.3ClusteringandVisualizationviaEmbeddings
    4.3.1Self-OrganizingMaps(SOMs)
    4.3.2MultidimensionalScaling(MDS)andFastMap
    4.3.3ProjectionsandSubspaces
    4.3.4LatentSemanticIndexing(LSI)

    4.4ProbabilisticApproachestoClustering
    4.4.1GenerativeDistributionsforDocuments
    4.4.2MixtureModelsandExpectationMaximization(EM)
    4.4.3MultipleCauseMixtureModel(MCMM)
    4.4.4AspectModelsandProbabilisticLSI
    4.4.5ModelandFeatureSelection

    4.5CollaborativeFiltering
    4.5.1ProbabilisticModels
    4.5.2CombiningContent-BasedandCollaborativeFeatures
    4.6BibliographicNotes

    5SUPERVISEDLEARNING
    5.1TheSupervisedLearningScenario
    5.2OverviewofClassificationStrategies
    5.3EvaluatingTextClassifiers
    5.3.1Benchmarks
    5.3.2MeasuresofAccuracy

    5.4NearestNeighborLearners
    5.4.1ProsandCons
    5.4.2IsTFIDFAppropriate?

    5.5FeatureSelection
    5.5.1GreedyInclusionAlgorithms
    5.5.2TruncationAlgorithms
    5.5.3ComparisonandDiscussion

    5.6BayesianLearners
    5.6.1NaiveBayesLearners
    5.6.2Small-DegreeBayesianNetworks

    5.7ExploitingHierarchyamongTopics
    5.7.1FeatureSelection
    5.7.2EnhancedParameterEstimation
    5.7.3TrainingandSearchStrategies

    5.8MaximumEntropyLearners
    5.9DiscriminativeClassification
    5.9.1LinearLeast-SquareRegression
    5.9.2SupportVectorMachines

    5.10HypertextClassification
    5.10.1RepresentingHypertextforSupervisedLearning
    5.10.2RuleInduction
    5.11BibliographicNotes

    6SEMISUPERVISEDLEARNING
    6.1ExpectationMaximization
    6.1.1ExperimentalResults
    6.1.2ReducingtheBeliefinUnlabeledDocuments
    6.1.3ModelingLabelsUsingManyMixtureComponents
    ……
    PARTⅢAPPLICATIONS
  • 内容简介:
      本书是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。本书为读者提供了坚实的技术背景和最新的知识。
      本书是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。
  • 作者简介:
      SoumenChakrabarti,Web搜索与挖掘领域的知名专家,ACMTransactionsontheWeb副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBMAlmaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。
  • 目录:
    INTRODUCTION
    1.1CrawlingandIndexing
    1.2TopicDirectories
    1.3ClusteringandClassification
    1.4HyperlinkAnalysis
    1.5ResourceDiscoveryandVerticalPortals
    1.6Structuredvs.UnstructuredDataMining
    1.7BibliographicNotes

    PARTⅠINFRASTRUCTURE
    2CRAWLINGTHEWEB
    2.1HTMLandHTTPBasics
    2.2CrawlingBasics
    2.3EngineeringLarge-ScaleCrawlers
    2.3.1DNSCaching,Prefetching,andResolution
    2.3.2MultipleConcurrentFetches
    2.3.3LinkExtractionandNormalization
    2.3.4RobotExclusion
    2.3.5EliminatingAlready-VisitedURLs
    2.3.6SpiderTraps
    2.3.7AvoidingRepeatedExpansionofLinksonDuplicatePages
    2.3.8LoadMonitorandManager
    2.3.9Per-ServerWork-Queues
    2.3.10TextRepository
    2.3.11RefreshingCrawledPages

    2.4PuttingTogetheraCrawler
    2.4.1DesignoftheCoreComponents
    2.4.2CaseStudy:Usingw3c-1ibwww
    2.5BibliographicNotes

    3WEBSEARCHANDINFORMATIONRETRIEVAL
    3.1BooleanQueriesandtheInvertedIndex
    3.1.1StopwordsandStemming
    3.1.2BatchIndexingandUpdates
    3.1.3IndexCompressionTechniques

    3.2RelevanceRanking
    3.2.1RecallandPrecision
    3.2.2TheVector-SpaceModel
    3.2.3RelevanceFeedbackandRocchiosMethod
    3.2.4ProbabilisticRelevanceFeedbackModels
    3.2.5AdvancedIssues

    3.3SimilaritySearch
    3.3.1Handling"Find-Similar"Queries
    3.3.2EliminatingNearDuplicatesviaShingling
    3.3.3DetectingLocallySimilarSubgraphsoftheWeb
    3.4BibliographicNotes

    PARTⅡLEARNING
    SIMILARITYANDCLUSTERING
    4.1FormulationsandApproaches
    4.1.1PartitioningApproaches
    4.1.2GeometricEmbeddingApproaches
    4.1.3GenerativeModelsandProbabilisticApproaches

    4.2Bottom-UpandTop-DownPartitioningParadigms
    4.2.1AgglomerativeClustering
    4.2.2Thek-MeansAlgorithm

    4.3ClusteringandVisualizationviaEmbeddings
    4.3.1Self-OrganizingMaps(SOMs)
    4.3.2MultidimensionalScaling(MDS)andFastMap
    4.3.3ProjectionsandSubspaces
    4.3.4LatentSemanticIndexing(LSI)

    4.4ProbabilisticApproachestoClustering
    4.4.1GenerativeDistributionsforDocuments
    4.4.2MixtureModelsandExpectationMaximization(EM)
    4.4.3MultipleCauseMixtureModel(MCMM)
    4.4.4AspectModelsandProbabilisticLSI
    4.4.5ModelandFeatureSelection

    4.5CollaborativeFiltering
    4.5.1ProbabilisticModels
    4.5.2CombiningContent-BasedandCollaborativeFeatures
    4.6BibliographicNotes

    5SUPERVISEDLEARNING
    5.1TheSupervisedLearningScenario
    5.2OverviewofClassificationStrategies
    5.3EvaluatingTextClassifiers
    5.3.1Benchmarks
    5.3.2MeasuresofAccuracy

    5.4NearestNeighborLearners
    5.4.1ProsandCons
    5.4.2IsTFIDFAppropriate?

    5.5FeatureSelection
    5.5.1GreedyInclusionAlgorithms
    5.5.2TruncationAlgorithms
    5.5.3ComparisonandDiscussion

    5.6BayesianLearners
    5.6.1NaiveBayesLearners
    5.6.2Small-DegreeBayesianNetworks

    5.7ExploitingHierarchyamongTopics
    5.7.1FeatureSelection
    5.7.2EnhancedParameterEstimation
    5.7.3TrainingandSearchStrategies

    5.8MaximumEntropyLearners
    5.9DiscriminativeClassification
    5.9.1LinearLeast-SquareRegression
    5.9.2SupportVectorMachines

    5.10HypertextClassification
    5.10.1RepresentingHypertextforSupervisedLearning
    5.10.2RuleInduction
    5.11BibliographicNotes

    6SEMISUPERVISEDLEARNING
    6.1ExpectationMaximization
    6.1.1ExperimentalResults
    6.1.2ReducingtheBeliefinUnlabeledDocuments
    6.1.3ModelingLabelsUsingManyMixtureComponents
    ……
    PARTⅢAPPLICATIONS
查看详情
系列丛书 / 更多
Web数据挖掘:超文本数据的知识发现
算法(英文版•第4版)
[美]塞奇威克(Robert Sedgewick)、[美]韦恩(Kevin Wayne) 著
Web数据挖掘:超文本数据的知识发现
计算机程序设计艺术,卷4A:组合算法(一)(英文版)
[美]Donald E.Knuth 著
Web数据挖掘:超文本数据的知识发现
计算机程序设计艺术(第2卷 英文版·第3版):半数值算法
[美]高德纳 著
Web数据挖掘:超文本数据的知识发现
计算机程序设计艺术(第3卷 英文版·第2版):排序与查找
[美]高德纳(Knuth D.E) 著
Web数据挖掘:超文本数据的知识发现
C++Primer(英文版)(第4版)
李普曼 著
Web数据挖掘:超文本数据的知识发现
数据结构与算法分析:C++描述(英文版)(第3版)
[美]维斯 著
Web数据挖掘:超文本数据的知识发现
UNIX环境高级编程
史蒂文斯、拉戈 著
Web数据挖掘:超文本数据的知识发现
信息检索:算法与启发式方法(英文版·第2版)
[美]格罗斯曼、[美]弗里德 著
Web数据挖掘:超文本数据的知识发现
系统分析与设计(英文版·第3版)
[美]瓦拉西奇 著
Web数据挖掘:超文本数据的知识发现
C++程序设计
[美]代特尔 著
Web数据挖掘:超文本数据的知识发现
数据库系统基础:高级篇(英文注释版·第4版)
[美]埃尔姆斯里(Elmasri R) 著;孙瑜 注
Web数据挖掘:超文本数据的知识发现
UML面向对象建模与设计:第2版.
[美]巴拉赫、[美]兰宝 著
相关图书 / 更多
Web数据挖掘:超文本数据的知识发现
Web前端技术项目教程(HTML5+CSS3)
卢秋锦
Web数据挖掘:超文本数据的知识发现
Web前端开发技术
朱立、刘瑞新、孙立友 编
Web数据挖掘:超文本数据的知识发现
Web前端开发基础(HTML+CSS+JavaScript)
鲍小忠
Web数据挖掘:超文本数据的知识发现
Web渗透攻防实战
陈小兵 主编;王忠儒
Web数据挖掘:超文本数据的知识发现
Web前端开发技术
胡耀民
Web数据挖掘:超文本数据的知识发现
Web代码安全漏洞深度剖析
曹玉杰;王乐;李家辉;孔韬循
Web数据挖掘:超文本数据的知识发现
Web前端开发
孙俏
Web数据挖掘:超文本数据的知识发现
Web安全漏洞及代码审计(微课版)
郭锡泉 著
Web数据挖掘:超文本数据的知识发现
Web网站自动化测试
邢颖
Web数据挖掘:超文本数据的知识发现
Web漏洞搜索
[美]彼得·亚沃斯基(Peter Yaworski)
Web数据挖掘:超文本数据的知识发现
Web页面布局--对接世界技能大赛技术标准创新系列教材/全国职业院校计算机网络应用专业教材
丁国明 著
Web数据挖掘:超文本数据的知识发现
Web开发者晋级之道:架构 模式和领域驱动设计
王西友
您可能感兴趣 / 更多
Web数据挖掘:超文本数据的知识发现
解决方案架构师修炼之道
[印]所罗伯·斯里瓦斯塔瓦(Saurabh Shrivastava);[印]内拉贾利·斯里瓦斯塔夫(Neelanjali Srivastav)
Web数据挖掘:超文本数据的知识发现
机器人系统设计与制作:Python语言实现(原书第2版)
[印]郎坦·约瑟夫(Lentin Joseph) 编;刘端阳 译
Web数据挖掘:超文本数据的知识发现
绿色化学对纺织技术的影响及应用前景
[印]B.S.布托拉 著;[印]沙希德-乌尔-斯兰、刘振东、孙志敏、王晓宁、马涛 译
Web数据挖掘:超文本数据的知识发现
自由空间光通信技术
[印]维兰德·库马尔·杰恩 著;[印]赫曼尼·考沙尔
Web数据挖掘:超文本数据的知识发现
新月集
[印]泰戈尔 著;郑振铎 译;史怡 绘
Web数据挖掘:超文本数据的知识发现
轻松学Python
[印]阿尔蒂·耶鲁玛莱(Aarthi Elumalai)著 周子衿 陈子鸥 译
Web数据挖掘:超文本数据的知识发现
绿色化学过程催化剂
[印]安贾利·帕特尔(Anjali Patel) 编;中国石化催化剂有限公司 译
Web数据挖掘:超文本数据的知识发现
瑜伽就是心灵修行
[印]斯瓦米韦达·帕若堤 著
Web数据挖掘:超文本数据的知识发现
功能梯度梁和板的振动
[印]斯内哈希什 查克拉瓦蒂 (印) 卡兰 库马尔 普拉丹 著
Web数据挖掘:超文本数据的知识发现
经典力学与微分几何(英文)
[印]娜姆.柯布拉加德
Web数据挖掘:超文本数据的知识发现
读读儿童故事 神笔马良+愿望的实现+金波讲故事+七色花(全4册)
[印]泰戈尔、[苏]瓦·卡达耶夫、洪汛涛、金波 著;究慈 编;赵保利、赵保利 译
Web数据挖掘:超文本数据的知识发现
泰戈尔抒情诗选/基础教育阅读工程
[印]泰戈尔 著;赵丹 译