Web数据挖掘:超文本数据的知识发现

Web数据挖掘
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [印]
出版社: 人民邮电出版社
2009-02
版次: 1
ISBN: 9787115194046
定价: 59.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 344页
字数: 432千字
正文语种: 英语
原版书名: Mining the Web:Discovering Knowledge from Hypertext Data
  •   本书是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。本书为读者提供了坚实的技术背景和最新的知识。
      本书是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。   SoumenChakrabarti,Web搜索与挖掘领域的知名专家,ACMTransactionsontheWeb副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBMAlmaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。 INTRODUCTION
    1.1CrawlingandIndexing
    1.2TopicDirectories
    1.3ClusteringandClassification
    1.4HyperlinkAnalysis
    1.5ResourceDiscoveryandVerticalPortals
    1.6Structuredvs.UnstructuredDataMining
    1.7BibliographicNotes

    PARTⅠINFRASTRUCTURE
    2CRAWLINGTHEWEB
    2.1HTMLandHTTPBasics
    2.2CrawlingBasics
    2.3EngineeringLarge-ScaleCrawlers
    2.3.1DNSCaching,Prefetching,andResolution
    2.3.2MultipleConcurrentFetches
    2.3.3LinkExtractionandNormalization
    2.3.4RobotExclusion
    2.3.5EliminatingAlready-VisitedURLs
    2.3.6SpiderTraps
    2.3.7AvoidingRepeatedExpansionofLinksonDuplicatePages
    2.3.8LoadMonitorandManager
    2.3.9Per-ServerWork-Queues
    2.3.10TextRepository
    2.3.11RefreshingCrawledPages

    2.4PuttingTogetheraCrawler
    2.4.1DesignoftheCoreComponents
    2.4.2CaseStudy:Usingw3c-1ibwww
    2.5BibliographicNotes

    3WEBSEARCHANDINFORMATIONRETRIEVAL
    3.1BooleanQueriesandtheInvertedIndex
    3.1.1StopwordsandStemming
    3.1.2BatchIndexingandUpdates
    3.1.3IndexCompressionTechniques

    3.2RelevanceRanking
    3.2.1RecallandPrecision
    3.2.2TheVector-SpaceModel
    3.2.3RelevanceFeedbackandRocchiosMethod
    3.2.4ProbabilisticRelevanceFeedbackModels
    3.2.5AdvancedIssues

    3.3SimilaritySearch
    3.3.1Handling"Find-Similar"Queries
    3.3.2EliminatingNearDuplicatesviaShingling
    3.3.3DetectingLocallySimilarSubgraphsoftheWeb
    3.4BibliographicNotes

    PARTⅡLEARNING
    SIMILARITYANDCLUSTERING
    4.1FormulationsandApproaches
    4.1.1PartitioningApproaches
    4.1.2GeometricEmbeddingApproaches
    4.1.3GenerativeModelsandProbabilisticApproaches

    4.2Bottom-UpandTop-DownPartitioningParadigms
    4.2.1AgglomerativeClustering
    4.2.2Thek-MeansAlgorithm

    4.3ClusteringandVisualizationviaEmbeddings
    4.3.1Self-OrganizingMaps(SOMs)
    4.3.2MultidimensionalScaling(MDS)andFastMap
    4.3.3ProjectionsandSubspaces
    4.3.4LatentSemanticIndexing(LSI)

    4.4ProbabilisticApproachestoClustering
    4.4.1GenerativeDistributionsforDocuments
    4.4.2MixtureModelsandExpectationMaximization(EM)
    4.4.3MultipleCauseMixtureModel(MCMM)
    4.4.4AspectModelsandProbabilisticLSI
    4.4.5ModelandFeatureSelection

    4.5CollaborativeFiltering
    4.5.1ProbabilisticModels
    4.5.2CombiningContent-BasedandCollaborativeFeatures
    4.6BibliographicNotes

    5SUPERVISEDLEARNING
    5.1TheSupervisedLearningScenario
    5.2OverviewofClassificationStrategies
    5.3EvaluatingTextClassifiers
    5.3.1Benchmarks
    5.3.2MeasuresofAccuracy

    5.4NearestNeighborLearners
    5.4.1ProsandCons
    5.4.2IsTFIDFAppropriate?

    5.5FeatureSelection
    5.5.1GreedyInclusionAlgorithms
    5.5.2TruncationAlgorithms
    5.5.3ComparisonandDiscussion

    5.6BayesianLearners
    5.6.1NaiveBayesLearners
    5.6.2Small-DegreeBayesianNetworks

    5.7ExploitingHierarchyamongTopics
    5.7.1FeatureSelection
    5.7.2EnhancedParameterEstimation
    5.7.3TrainingandSearchStrategies

    5.8MaximumEntropyLearners
    5.9DiscriminativeClassification
    5.9.1LinearLeast-SquareRegression
    5.9.2SupportVectorMachines

    5.10HypertextClassification
    5.10.1RepresentingHypertextforSupervisedLearning
    5.10.2RuleInduction
    5.11BibliographicNotes

    6SEMISUPERVISEDLEARNING
    6.1ExpectationMaximization
    6.1.1ExperimentalResults
    6.1.2ReducingtheBeliefinUnlabeledDocuments
    6.1.3ModelingLabelsUsingManyMixtureComponents
    ……
    PARTⅢAPPLICATIONS
  • 内容简介:
      本书是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。本书为读者提供了坚实的技术背景和最新的知识。
      本书是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。
  • 作者简介:
      SoumenChakrabarti,Web搜索与挖掘领域的知名专家,ACMTransactionsontheWeb副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBMAlmaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。
  • 目录:
    INTRODUCTION
    1.1CrawlingandIndexing
    1.2TopicDirectories
    1.3ClusteringandClassification
    1.4HyperlinkAnalysis
    1.5ResourceDiscoveryandVerticalPortals
    1.6Structuredvs.UnstructuredDataMining
    1.7BibliographicNotes

    PARTⅠINFRASTRUCTURE
    2CRAWLINGTHEWEB
    2.1HTMLandHTTPBasics
    2.2CrawlingBasics
    2.3EngineeringLarge-ScaleCrawlers
    2.3.1DNSCaching,Prefetching,andResolution
    2.3.2MultipleConcurrentFetches
    2.3.3LinkExtractionandNormalization
    2.3.4RobotExclusion
    2.3.5EliminatingAlready-VisitedURLs
    2.3.6SpiderTraps
    2.3.7AvoidingRepeatedExpansionofLinksonDuplicatePages
    2.3.8LoadMonitorandManager
    2.3.9Per-ServerWork-Queues
    2.3.10TextRepository
    2.3.11RefreshingCrawledPages

    2.4PuttingTogetheraCrawler
    2.4.1DesignoftheCoreComponents
    2.4.2CaseStudy:Usingw3c-1ibwww
    2.5BibliographicNotes

    3WEBSEARCHANDINFORMATIONRETRIEVAL
    3.1BooleanQueriesandtheInvertedIndex
    3.1.1StopwordsandStemming
    3.1.2BatchIndexingandUpdates
    3.1.3IndexCompressionTechniques

    3.2RelevanceRanking
    3.2.1RecallandPrecision
    3.2.2TheVector-SpaceModel
    3.2.3RelevanceFeedbackandRocchiosMethod
    3.2.4ProbabilisticRelevanceFeedbackModels
    3.2.5AdvancedIssues

    3.3SimilaritySearch
    3.3.1Handling"Find-Similar"Queries
    3.3.2EliminatingNearDuplicatesviaShingling
    3.3.3DetectingLocallySimilarSubgraphsoftheWeb
    3.4BibliographicNotes

    PARTⅡLEARNING
    SIMILARITYANDCLUSTERING
    4.1FormulationsandApproaches
    4.1.1PartitioningApproaches
    4.1.2GeometricEmbeddingApproaches
    4.1.3GenerativeModelsandProbabilisticApproaches

    4.2Bottom-UpandTop-DownPartitioningParadigms
    4.2.1AgglomerativeClustering
    4.2.2Thek-MeansAlgorithm

    4.3ClusteringandVisualizationviaEmbeddings
    4.3.1Self-OrganizingMaps(SOMs)
    4.3.2MultidimensionalScaling(MDS)andFastMap
    4.3.3ProjectionsandSubspaces
    4.3.4LatentSemanticIndexing(LSI)

    4.4ProbabilisticApproachestoClustering
    4.4.1GenerativeDistributionsforDocuments
    4.4.2MixtureModelsandExpectationMaximization(EM)
    4.4.3MultipleCauseMixtureModel(MCMM)
    4.4.4AspectModelsandProbabilisticLSI
    4.4.5ModelandFeatureSelection

    4.5CollaborativeFiltering
    4.5.1ProbabilisticModels
    4.5.2CombiningContent-BasedandCollaborativeFeatures
    4.6BibliographicNotes

    5SUPERVISEDLEARNING
    5.1TheSupervisedLearningScenario
    5.2OverviewofClassificationStrategies
    5.3EvaluatingTextClassifiers
    5.3.1Benchmarks
    5.3.2MeasuresofAccuracy

    5.4NearestNeighborLearners
    5.4.1ProsandCons
    5.4.2IsTFIDFAppropriate?

    5.5FeatureSelection
    5.5.1GreedyInclusionAlgorithms
    5.5.2TruncationAlgorithms
    5.5.3ComparisonandDiscussion

    5.6BayesianLearners
    5.6.1NaiveBayesLearners
    5.6.2Small-DegreeBayesianNetworks

    5.7ExploitingHierarchyamongTopics
    5.7.1FeatureSelection
    5.7.2EnhancedParameterEstimation
    5.7.3TrainingandSearchStrategies

    5.8MaximumEntropyLearners
    5.9DiscriminativeClassification
    5.9.1LinearLeast-SquareRegression
    5.9.2SupportVectorMachines

    5.10HypertextClassification
    5.10.1RepresentingHypertextforSupervisedLearning
    5.10.2RuleInduction
    5.11BibliographicNotes

    6SEMISUPERVISEDLEARNING
    6.1ExpectationMaximization
    6.1.1ExperimentalResults
    6.1.2ReducingtheBeliefinUnlabeledDocuments
    6.1.3ModelingLabelsUsingManyMixtureComponents
    ……
    PARTⅢAPPLICATIONS
查看详情
好书推荐 / 更多
Web数据挖掘
金枝:跨越万年的人性进化故事(全两册)
[英]詹姆斯·乔治·弗雷泽
Web数据挖掘
未受学科训练的心智
[美]霍华德·加德纳(Howard Gardner) 著;张开冰 译
Web数据挖掘
打破玻璃盔甲:新形式主义电影分析
[美]克里斯汀·汤普森
Web数据挖掘
书事:近现代版本杂谈
薛冰
Web数据挖掘
狗夫200天
陈紫莲
Web数据挖掘
白色游泳衣
果麦文化 出品;徐皓峰
Web数据挖掘
乐道文库·斯文关天意
罗志田
Web数据挖掘
好奇心改变世界:月光社与英国工业革命
詹妮厄格洛 著;杨枭 译
Web数据挖掘
犹太人三千年简史(精装)
[美]雷蒙德·P.谢德林
Web数据挖掘
大分流重探:欧洲、印度与全球经济强权的兴起
[瑞士]罗曼·施图德 著;王文剑 译;赖建诚 校
Web数据挖掘
漫长的星期六:斯坦纳谈话录
[【美】]乔治•斯坦纳;[【法】]洛尔•阿德勒
Web数据挖掘
梦之囚徒:使命
徐峰 译者;[法]马克 · 安托万 · 马修