Web数据挖掘:超文本数据的知识发现

Web数据挖掘:超文本数据的知识发现
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [印]
2009-02
版次: 1
ISBN: 9787115194046
定价: 59.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 344页
字数: 432千字
正文语种: 英语
原版书名: Mining the Web:Discovering Knowledge from Hypertext Data
19人买过
  •   本书是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。本书为读者提供了坚实的技术背景和最新的知识。
      本书是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。   SoumenChakrabarti,Web搜索与挖掘领域的知名专家,ACMTransactionsontheWeb副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBMAlmaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。 INTRODUCTION
    1.1CrawlingandIndexing
    1.2TopicDirectories
    1.3ClusteringandClassification
    1.4HyperlinkAnalysis
    1.5ResourceDiscoveryandVerticalPortals
    1.6Structuredvs.UnstructuredDataMining
    1.7BibliographicNotes

    PARTⅠINFRASTRUCTURE
    2CRAWLINGTHEWEB
    2.1HTMLandHTTPBasics
    2.2CrawlingBasics
    2.3EngineeringLarge-ScaleCrawlers
    2.3.1DNSCaching,Prefetching,andResolution
    2.3.2MultipleConcurrentFetches
    2.3.3LinkExtractionandNormalization
    2.3.4RobotExclusion
    2.3.5EliminatingAlready-VisitedURLs
    2.3.6SpiderTraps
    2.3.7AvoidingRepeatedExpansionofLinksonDuplicatePages
    2.3.8LoadMonitorandManager
    2.3.9Per-ServerWork-Queues
    2.3.10TextRepository
    2.3.11RefreshingCrawledPages

    2.4PuttingTogetheraCrawler
    2.4.1DesignoftheCoreComponents
    2.4.2CaseStudy:Usingw3c-1ibwww
    2.5BibliographicNotes

    3WEBSEARCHANDINFORMATIONRETRIEVAL
    3.1BooleanQueriesandtheInvertedIndex
    3.1.1StopwordsandStemming
    3.1.2BatchIndexingandUpdates
    3.1.3IndexCompressionTechniques

    3.2RelevanceRanking
    3.2.1RecallandPrecision
    3.2.2TheVector-SpaceModel
    3.2.3RelevanceFeedbackandRocchiosMethod
    3.2.4ProbabilisticRelevanceFeedbackModels
    3.2.5AdvancedIssues

    3.3SimilaritySearch
    3.3.1Handling"Find-Similar"Queries
    3.3.2EliminatingNearDuplicatesviaShingling
    3.3.3DetectingLocallySimilarSubgraphsoftheWeb
    3.4BibliographicNotes

    PARTⅡLEARNING
    SIMILARITYANDCLUSTERING
    4.1FormulationsandApproaches
    4.1.1PartitioningApproaches
    4.1.2GeometricEmbeddingApproaches
    4.1.3GenerativeModelsandProbabilisticApproaches

    4.2Bottom-UpandTop-DownPartitioningParadigms
    4.2.1AgglomerativeClustering
    4.2.2Thek-MeansAlgorithm

    4.3ClusteringandVisualizationviaEmbeddings
    4.3.1Self-OrganizingMaps(SOMs)
    4.3.2MultidimensionalScaling(MDS)andFastMap
    4.3.3ProjectionsandSubspaces
    4.3.4LatentSemanticIndexing(LSI)

    4.4ProbabilisticApproachestoClustering
    4.4.1GenerativeDistributionsforDocuments
    4.4.2MixtureModelsandExpectationMaximization(EM)
    4.4.3MultipleCauseMixtureModel(MCMM)
    4.4.4AspectModelsandProbabilisticLSI
    4.4.5ModelandFeatureSelection

    4.5CollaborativeFiltering
    4.5.1ProbabilisticModels
    4.5.2CombiningContent-BasedandCollaborativeFeatures
    4.6BibliographicNotes

    5SUPERVISEDLEARNING
    5.1TheSupervisedLearningScenario
    5.2OverviewofClassificationStrategies
    5.3EvaluatingTextClassifiers
    5.3.1Benchmarks
    5.3.2MeasuresofAccuracy

    5.4NearestNeighborLearners
    5.4.1ProsandCons
    5.4.2IsTFIDFAppropriate?

    5.5FeatureSelection
    5.5.1GreedyInclusionAlgorithms
    5.5.2TruncationAlgorithms
    5.5.3ComparisonandDiscussion

    5.6BayesianLearners
    5.6.1NaiveBayesLearners
    5.6.2Small-DegreeBayesianNetworks

    5.7ExploitingHierarchyamongTopics
    5.7.1FeatureSelection
    5.7.2EnhancedParameterEstimation
    5.7.3TrainingandSearchStrategies

    5.8MaximumEntropyLearners
    5.9DiscriminativeClassification
    5.9.1LinearLeast-SquareRegression
    5.9.2SupportVectorMachines

    5.10HypertextClassification
    5.10.1RepresentingHypertextforSupervisedLearning
    5.10.2RuleInduction
    5.11BibliographicNotes

    6SEMISUPERVISEDLEARNING
    6.1ExpectationMaximization
    6.1.1ExperimentalResults
    6.1.2ReducingtheBeliefinUnlabeledDocuments
    6.1.3ModelingLabelsUsingManyMixtureComponents
    ……
    PARTⅢAPPLICATIONS
  • 内容简介:
      本书是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。本书为读者提供了坚实的技术背景和最新的知识。
      本书是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。
  • 作者简介:
      SoumenChakrabarti,Web搜索与挖掘领域的知名专家,ACMTransactionsontheWeb副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBMAlmaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。
  • 目录:
    INTRODUCTION
    1.1CrawlingandIndexing
    1.2TopicDirectories
    1.3ClusteringandClassification
    1.4HyperlinkAnalysis
    1.5ResourceDiscoveryandVerticalPortals
    1.6Structuredvs.UnstructuredDataMining
    1.7BibliographicNotes

    PARTⅠINFRASTRUCTURE
    2CRAWLINGTHEWEB
    2.1HTMLandHTTPBasics
    2.2CrawlingBasics
    2.3EngineeringLarge-ScaleCrawlers
    2.3.1DNSCaching,Prefetching,andResolution
    2.3.2MultipleConcurrentFetches
    2.3.3LinkExtractionandNormalization
    2.3.4RobotExclusion
    2.3.5EliminatingAlready-VisitedURLs
    2.3.6SpiderTraps
    2.3.7AvoidingRepeatedExpansionofLinksonDuplicatePages
    2.3.8LoadMonitorandManager
    2.3.9Per-ServerWork-Queues
    2.3.10TextRepository
    2.3.11RefreshingCrawledPages

    2.4PuttingTogetheraCrawler
    2.4.1DesignoftheCoreComponents
    2.4.2CaseStudy:Usingw3c-1ibwww
    2.5BibliographicNotes

    3WEBSEARCHANDINFORMATIONRETRIEVAL
    3.1BooleanQueriesandtheInvertedIndex
    3.1.1StopwordsandStemming
    3.1.2BatchIndexingandUpdates
    3.1.3IndexCompressionTechniques

    3.2RelevanceRanking
    3.2.1RecallandPrecision
    3.2.2TheVector-SpaceModel
    3.2.3RelevanceFeedbackandRocchiosMethod
    3.2.4ProbabilisticRelevanceFeedbackModels
    3.2.5AdvancedIssues

    3.3SimilaritySearch
    3.3.1Handling"Find-Similar"Queries
    3.3.2EliminatingNearDuplicatesviaShingling
    3.3.3DetectingLocallySimilarSubgraphsoftheWeb
    3.4BibliographicNotes

    PARTⅡLEARNING
    SIMILARITYANDCLUSTERING
    4.1FormulationsandApproaches
    4.1.1PartitioningApproaches
    4.1.2GeometricEmbeddingApproaches
    4.1.3GenerativeModelsandProbabilisticApproaches

    4.2Bottom-UpandTop-DownPartitioningParadigms
    4.2.1AgglomerativeClustering
    4.2.2Thek-MeansAlgorithm

    4.3ClusteringandVisualizationviaEmbeddings
    4.3.1Self-OrganizingMaps(SOMs)
    4.3.2MultidimensionalScaling(MDS)andFastMap
    4.3.3ProjectionsandSubspaces
    4.3.4LatentSemanticIndexing(LSI)

    4.4ProbabilisticApproachestoClustering
    4.4.1GenerativeDistributionsforDocuments
    4.4.2MixtureModelsandExpectationMaximization(EM)
    4.4.3MultipleCauseMixtureModel(MCMM)
    4.4.4AspectModelsandProbabilisticLSI
    4.4.5ModelandFeatureSelection

    4.5CollaborativeFiltering
    4.5.1ProbabilisticModels
    4.5.2CombiningContent-BasedandCollaborativeFeatures
    4.6BibliographicNotes

    5SUPERVISEDLEARNING
    5.1TheSupervisedLearningScenario
    5.2OverviewofClassificationStrategies
    5.3EvaluatingTextClassifiers
    5.3.1Benchmarks
    5.3.2MeasuresofAccuracy

    5.4NearestNeighborLearners
    5.4.1ProsandCons
    5.4.2IsTFIDFAppropriate?

    5.5FeatureSelection
    5.5.1GreedyInclusionAlgorithms
    5.5.2TruncationAlgorithms
    5.5.3ComparisonandDiscussion

    5.6BayesianLearners
    5.6.1NaiveBayesLearners
    5.6.2Small-DegreeBayesianNetworks

    5.7ExploitingHierarchyamongTopics
    5.7.1FeatureSelection
    5.7.2EnhancedParameterEstimation
    5.7.3TrainingandSearchStrategies

    5.8MaximumEntropyLearners
    5.9DiscriminativeClassification
    5.9.1LinearLeast-SquareRegression
    5.9.2SupportVectorMachines

    5.10HypertextClassification
    5.10.1RepresentingHypertextforSupervisedLearning
    5.10.2RuleInduction
    5.11BibliographicNotes

    6SEMISUPERVISEDLEARNING
    6.1ExpectationMaximization
    6.1.1ExperimentalResults
    6.1.2ReducingtheBeliefinUnlabeledDocuments
    6.1.3ModelingLabelsUsingManyMixtureComponents
    ……
    PARTⅢAPPLICATIONS
查看详情
系列丛书 / 更多
Web数据挖掘:超文本数据的知识发现
算法(英文版•第4版)
[美]塞奇威克(Robert Sedgewick)、[美]韦恩(Kevin Wayne) 著
Web数据挖掘:超文本数据的知识发现
计算机程序设计艺术(第2卷 英文版·第3版):半数值算法
[美]高德纳 著
Web数据挖掘:超文本数据的知识发现
计算机程序设计艺术,卷4A:组合算法(一)(英文版)
[美]Donald E.Knuth 著
Web数据挖掘:超文本数据的知识发现
计算机程序设计艺术(第3卷 英文版·第2版):排序与查找
[美]高德纳(Knuth D.E) 著
Web数据挖掘:超文本数据的知识发现
C++Primer(英文版)(第4版)
李普曼 著
Web数据挖掘:超文本数据的知识发现
数据结构与算法分析:C++描述(英文版)(第3版)
[美]维斯 著
Web数据挖掘:超文本数据的知识发现
UNIX环境高级编程
史蒂文斯、拉戈 著
Web数据挖掘:超文本数据的知识发现
信息检索:算法与启发式方法(英文版·第2版)
[美]格罗斯曼、[美]弗里德 著
Web数据挖掘:超文本数据的知识发现
TCP/IP 详解(卷2):实现(英文版)
[美]赖特(Gary R.Wright)、[美]史蒂文斯(W.Richard Stevens) 著
Web数据挖掘:超文本数据的知识发现
IPv6详解,第1卷,核心协议实现:IPv6时代的《TCP/IP详解》!
[美]李清、[日]神明达哉、[日]岛庆一 著
Web数据挖掘:超文本数据的知识发现
UNIX网络编程 卷1
[美]史蒂文斯、[美]芬纳、[美]鲁道夫 著
Web数据挖掘:超文本数据的知识发现
文本挖掘
[以色列]费尔德曼、[美]桑格 著
相关图书 / 更多
Web数据挖掘:超文本数据的知识发现
Web前端开发与项目实践
魏慧;胡沁涵
Web数据挖掘:超文本数据的知识发现
Web前端设计
王珊
Web数据挖掘:超文本数据的知识发现
Web应用开发技术(微课版)
白磊
Web数据挖掘:超文本数据的知识发现
Web 3.0:打造良好体验的品牌方法论
施襄 著
Web数据挖掘:超文本数据的知识发现
Web API设计原则通过API和微服务实现价值交付
(美)詹姆斯·希金博特姆(James Higginbotham)
Web数据挖掘:超文本数据的知识发现
Weir & Abrahams 人体解剖影像图谱(第6版)
袁慧书 著
Web数据挖掘:超文本数据的知识发现
Web3.0:数字时代赋能与变革
贾新峰
Web数据挖掘:超文本数据的知识发现
Web3.0:构建数字经济新未来
翟振林
Web数据挖掘:超文本数据的知识发现
Web前端开发基础
韩少云、王春梅 著
Web数据挖掘:超文本数据的知识发现
Web3.0时代:创新思维赋能数字未来
徐俊
Web数据挖掘:超文本数据的知识发现
Web前端开发实战
郭凯;孔繁玉;张有宽
Web数据挖掘:超文本数据的知识发现
Web前端设计基础(第2版)
李立威;薛晓霞;王晓红;李丹丹;王艳娥
您可能感兴趣 / 更多
Web数据挖掘:超文本数据的知识发现
Python数据分析(第3版)
[印]阿维纳什·纳夫拉尼(Avinash Navlani)
Web数据挖掘:超文本数据的知识发现
PyTorch计算机视觉实战:目标检测、图像处理与深度学习
[印]V·基肖尔·阿耶德瓦拉 (印)耶什万斯·雷迪
Web数据挖掘:超文本数据的知识发现
超声引导下区域麻醉实用指南
[印]阿鲁南苏·查克拉博蒂
Web数据挖掘:超文本数据的知识发现
Python机器学习实战:基于Scikit-learn与PyTorch的神经网络解决方案
[印]阿什温·帕扬卡 (Ashwin Pajankar) 阿迪亚·乔希 (Aditya Joshi)著 欧拉 译
Web数据挖掘:超文本数据的知识发现
全栈测试
[印]加亚特里 默罕(Gayathri Mohan)
Web数据挖掘:超文本数据的知识发现
数字设计技术与解析
[印]瓦伊巴夫·塔拉特 著;慕意豪 译
Web数据挖掘:超文本数据的知识发现
泰戈尔诗选(成长读书课:名家公开课美绘版)
[印]泰戈尔 著;郑振铎 译
Web数据挖掘:超文本数据的知识发现
密码学与网络安全(第4版)
[印]阿图尔·卡哈特(Atul Kahate)著 葛秀慧 金名 译
Web数据挖掘:超文本数据的知识发现
MATLAB 图形学基础
[印]兰詹·帕雷克(Ranjan Parekh) 著;章毓晋 译
Web数据挖掘:超文本数据的知识发现
古老智慧的现代实践:辨喜论吠檀多(瑜伽奥义丛书)
[印]斯瓦米·维韦卡南达(辨喜)
Web数据挖掘:超文本数据的知识发现
从冥想到三摩地:辨喜论王瑜伽和《瑜伽经》(瑜伽奥义丛书)
[印]斯瓦米·维韦卡南达(辨喜)
Web数据挖掘:超文本数据的知识发现
被设想的未来
[印]普立梵(Prem Poddar) 【英】安德鲁·瓦特(Andrew Watt)