Web数据挖掘:超文本数据的知识发现

Web数据挖掘
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: [印]
出版社: 人民邮电出版社
2009-02
版次: 1
ISBN: 9787115194046
定价: 59.00
装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 344页
字数: 432千字
正文语种: 英语
原版书名: Mining the Web:Discovering Knowledge from Hypertext Data
  •   本书是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。本书为读者提供了坚实的技术背景和最新的知识。
      本书是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。   SoumenChakrabarti,Web搜索与挖掘领域的知名专家,ACMTransactionsontheWeb副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBMAlmaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。 INTRODUCTION
    1.1CrawlingandIndexing
    1.2TopicDirectories
    1.3ClusteringandClassification
    1.4HyperlinkAnalysis
    1.5ResourceDiscoveryandVerticalPortals
    1.6Structuredvs.UnstructuredDataMining
    1.7BibliographicNotes

    PARTⅠINFRASTRUCTURE
    2CRAWLINGTHEWEB
    2.1HTMLandHTTPBasics
    2.2CrawlingBasics
    2.3EngineeringLarge-ScaleCrawlers
    2.3.1DNSCaching,Prefetching,andResolution
    2.3.2MultipleConcurrentFetches
    2.3.3LinkExtractionandNormalization
    2.3.4RobotExclusion
    2.3.5EliminatingAlready-VisitedURLs
    2.3.6SpiderTraps
    2.3.7AvoidingRepeatedExpansionofLinksonDuplicatePages
    2.3.8LoadMonitorandManager
    2.3.9Per-ServerWork-Queues
    2.3.10TextRepository
    2.3.11RefreshingCrawledPages

    2.4PuttingTogetheraCrawler
    2.4.1DesignoftheCoreComponents
    2.4.2CaseStudy:Usingw3c-1ibwww
    2.5BibliographicNotes

    3WEBSEARCHANDINFORMATIONRETRIEVAL
    3.1BooleanQueriesandtheInvertedIndex
    3.1.1StopwordsandStemming
    3.1.2BatchIndexingandUpdates
    3.1.3IndexCompressionTechniques

    3.2RelevanceRanking
    3.2.1RecallandPrecision
    3.2.2TheVector-SpaceModel
    3.2.3RelevanceFeedbackandRocchiosMethod
    3.2.4ProbabilisticRelevanceFeedbackModels
    3.2.5AdvancedIssues

    3.3SimilaritySearch
    3.3.1Handling"Find-Similar"Queries
    3.3.2EliminatingNearDuplicatesviaShingling
    3.3.3DetectingLocallySimilarSubgraphsoftheWeb
    3.4BibliographicNotes

    PARTⅡLEARNING
    SIMILARITYANDCLUSTERING
    4.1FormulationsandApproaches
    4.1.1PartitioningApproaches
    4.1.2GeometricEmbeddingApproaches
    4.1.3GenerativeModelsandProbabilisticApproaches

    4.2Bottom-UpandTop-DownPartitioningParadigms
    4.2.1AgglomerativeClustering
    4.2.2Thek-MeansAlgorithm

    4.3ClusteringandVisualizationviaEmbeddings
    4.3.1Self-OrganizingMaps(SOMs)
    4.3.2MultidimensionalScaling(MDS)andFastMap
    4.3.3ProjectionsandSubspaces
    4.3.4LatentSemanticIndexing(LSI)

    4.4ProbabilisticApproachestoClustering
    4.4.1GenerativeDistributionsforDocuments
    4.4.2MixtureModelsandExpectationMaximization(EM)
    4.4.3MultipleCauseMixtureModel(MCMM)
    4.4.4AspectModelsandProbabilisticLSI
    4.4.5ModelandFeatureSelection

    4.5CollaborativeFiltering
    4.5.1ProbabilisticModels
    4.5.2CombiningContent-BasedandCollaborativeFeatures
    4.6BibliographicNotes

    5SUPERVISEDLEARNING
    5.1TheSupervisedLearningScenario
    5.2OverviewofClassificationStrategies
    5.3EvaluatingTextClassifiers
    5.3.1Benchmarks
    5.3.2MeasuresofAccuracy

    5.4NearestNeighborLearners
    5.4.1ProsandCons
    5.4.2IsTFIDFAppropriate?

    5.5FeatureSelection
    5.5.1GreedyInclusionAlgorithms
    5.5.2TruncationAlgorithms
    5.5.3ComparisonandDiscussion

    5.6BayesianLearners
    5.6.1NaiveBayesLearners
    5.6.2Small-DegreeBayesianNetworks

    5.7ExploitingHierarchyamongTopics
    5.7.1FeatureSelection
    5.7.2EnhancedParameterEstimation
    5.7.3TrainingandSearchStrategies

    5.8MaximumEntropyLearners
    5.9DiscriminativeClassification
    5.9.1LinearLeast-SquareRegression
    5.9.2SupportVectorMachines

    5.10HypertextClassification
    5.10.1RepresentingHypertextforSupervisedLearning
    5.10.2RuleInduction
    5.11BibliographicNotes

    6SEMISUPERVISEDLEARNING
    6.1ExpectationMaximization
    6.1.1ExperimentalResults
    6.1.2ReducingtheBeliefinUnlabeledDocuments
    6.1.3ModelingLabelsUsingManyMixtureComponents
    ……
    PARTⅢAPPLICATIONS
  • 内容简介:
      本书是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。本书为读者提供了坚实的技术背景和最新的知识。
      本书是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。
  • 作者简介:
      SoumenChakrabarti,Web搜索与挖掘领域的知名专家,ACMTransactionsontheWeb副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBMAlmaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。
  • 目录:
    INTRODUCTION
    1.1CrawlingandIndexing
    1.2TopicDirectories
    1.3ClusteringandClassification
    1.4HyperlinkAnalysis
    1.5ResourceDiscoveryandVerticalPortals
    1.6Structuredvs.UnstructuredDataMining
    1.7BibliographicNotes

    PARTⅠINFRASTRUCTURE
    2CRAWLINGTHEWEB
    2.1HTMLandHTTPBasics
    2.2CrawlingBasics
    2.3EngineeringLarge-ScaleCrawlers
    2.3.1DNSCaching,Prefetching,andResolution
    2.3.2MultipleConcurrentFetches
    2.3.3LinkExtractionandNormalization
    2.3.4RobotExclusion
    2.3.5EliminatingAlready-VisitedURLs
    2.3.6SpiderTraps
    2.3.7AvoidingRepeatedExpansionofLinksonDuplicatePages
    2.3.8LoadMonitorandManager
    2.3.9Per-ServerWork-Queues
    2.3.10TextRepository
    2.3.11RefreshingCrawledPages

    2.4PuttingTogetheraCrawler
    2.4.1DesignoftheCoreComponents
    2.4.2CaseStudy:Usingw3c-1ibwww
    2.5BibliographicNotes

    3WEBSEARCHANDINFORMATIONRETRIEVAL
    3.1BooleanQueriesandtheInvertedIndex
    3.1.1StopwordsandStemming
    3.1.2BatchIndexingandUpdates
    3.1.3IndexCompressionTechniques

    3.2RelevanceRanking
    3.2.1RecallandPrecision
    3.2.2TheVector-SpaceModel
    3.2.3RelevanceFeedbackandRocchiosMethod
    3.2.4ProbabilisticRelevanceFeedbackModels
    3.2.5AdvancedIssues

    3.3SimilaritySearch
    3.3.1Handling"Find-Similar"Queries
    3.3.2EliminatingNearDuplicatesviaShingling
    3.3.3DetectingLocallySimilarSubgraphsoftheWeb
    3.4BibliographicNotes

    PARTⅡLEARNING
    SIMILARITYANDCLUSTERING
    4.1FormulationsandApproaches
    4.1.1PartitioningApproaches
    4.1.2GeometricEmbeddingApproaches
    4.1.3GenerativeModelsandProbabilisticApproaches

    4.2Bottom-UpandTop-DownPartitioningParadigms
    4.2.1AgglomerativeClustering
    4.2.2Thek-MeansAlgorithm

    4.3ClusteringandVisualizationviaEmbeddings
    4.3.1Self-OrganizingMaps(SOMs)
    4.3.2MultidimensionalScaling(MDS)andFastMap
    4.3.3ProjectionsandSubspaces
    4.3.4LatentSemanticIndexing(LSI)

    4.4ProbabilisticApproachestoClustering
    4.4.1GenerativeDistributionsforDocuments
    4.4.2MixtureModelsandExpectationMaximization(EM)
    4.4.3MultipleCauseMixtureModel(MCMM)
    4.4.4AspectModelsandProbabilisticLSI
    4.4.5ModelandFeatureSelection

    4.5CollaborativeFiltering
    4.5.1ProbabilisticModels
    4.5.2CombiningContent-BasedandCollaborativeFeatures
    4.6BibliographicNotes

    5SUPERVISEDLEARNING
    5.1TheSupervisedLearningScenario
    5.2OverviewofClassificationStrategies
    5.3EvaluatingTextClassifiers
    5.3.1Benchmarks
    5.3.2MeasuresofAccuracy

    5.4NearestNeighborLearners
    5.4.1ProsandCons
    5.4.2IsTFIDFAppropriate?

    5.5FeatureSelection
    5.5.1GreedyInclusionAlgorithms
    5.5.2TruncationAlgorithms
    5.5.3ComparisonandDiscussion

    5.6BayesianLearners
    5.6.1NaiveBayesLearners
    5.6.2Small-DegreeBayesianNetworks

    5.7ExploitingHierarchyamongTopics
    5.7.1FeatureSelection
    5.7.2EnhancedParameterEstimation
    5.7.3TrainingandSearchStrategies

    5.8MaximumEntropyLearners
    5.9DiscriminativeClassification
    5.9.1LinearLeast-SquareRegression
    5.9.2SupportVectorMachines

    5.10HypertextClassification
    5.10.1RepresentingHypertextforSupervisedLearning
    5.10.2RuleInduction
    5.11BibliographicNotes

    6SEMISUPERVISEDLEARNING
    6.1ExpectationMaximization
    6.1.1ExperimentalResults
    6.1.2ReducingtheBeliefinUnlabeledDocuments
    6.1.3ModelingLabelsUsingManyMixtureComponents
    ……
    PARTⅢAPPLICATIONS
查看详情
好书推荐 / 更多
Web数据挖掘
为什么?:社会生活中的理由
[美]查尔斯·蒂利;李钧鹏
Web数据挖掘
走私:历史阴影中的隐秘交易
艾伦·L·卡拉斯(Allan L.Karras)
Web数据挖掘
文化失忆:写在时间的边缘
[澳]克莱夫·詹姆斯;丁骏;张楠;盛韵;冯洁音
Web数据挖掘
永不停歇的时钟:机器、生命动能与现代科学的形成
[美]杰西卡·里斯金
Web数据挖掘
新知文库127·智能简史
[韩]李大烈 著
Web数据挖掘
恐惧的政治——欧洲右翼民粹主义话语分析
[奥地利]露丝·沃达克 著;杨敏 徐文彬 符小丽 徐保华 译
Web数据挖掘
回鹘文契约文字结构与年代研究——于阗采花(精装)
刘戈 著
Web数据挖掘
思想会·抢救与杀戮:军医的战争回忆录
乔恩·科斯铁特尔(Jon Kerstetter) 著;黄开 译
Web数据挖掘
小农与农业的艺术:恰亚诺夫主义宣言
[荷]扬•杜威•范德普勒格(Jan、Douwe、van、der、Ploeg 著
Web数据挖掘
启微·民主与爱国:战后日本的民族主义与公共性(套装全2册)
小熊英二 著;黄大慧 译
Web数据挖掘
刻小说的人
比目鱼 著;新经典 出品
Web数据挖掘
春宵苦短,少女前进吧!
【日】森见登美彦;陈晶