搜索引擎技术基础

搜索引擎技术基础
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者: , ,
2010-07
版次: 1
ISBN: 9787302227960
定价: 26.00
装帧: 平装
开本: 16开
  •   面对浩瀚的万维网信息海洋,搜索引擎为人们提供了一条获取所需信息的捷径,而百度等中文搜索引擎在商业和技术领域的成功也使得越来越多的国内读者对搜索行业产生兴趣。作者长期从事搜索引擎领域的相关研究与工程实践,并实际参与了多个中文搜索引擎设计与实现的全过程,《搜索引擎技术基础/普通高等教育“十一五”国家级规划教材·计算机科学与技术系列教材·信息技术方向》从研究实践者的角度介绍了搜索引擎的相关技术及其产业,并引领读者成为搜索引擎领域的局内人。《搜索引擎技术基础/普通高等教育“十一五”国家级规划教材·计算机科学与技术系列教材·信息技术方向》最大的特色是将清华大学计算机系在搜索技术方面的研究成果与百度公司在搜索应用领域积累的丰富经验融合进内容中,向读者展示大规模商用搜索引擎的工作原理、核心技术与运营方式。
      刘子正,2001年以在校实习生身份加入创业时期的百度公司,2003年自北京理工大学硕士毕业后历任百度公司项目经理、技术经理、技术副总监,长期专注于百度公司商务搜索引擎研发。现任百度技术学院负责人,百度公司商务搜索部技术副总监。主持研发了百度公司最主要商业模式的竞价排名商务搜索引擎。2008年发起并创立百度技术学院,至今已经发展成为拥有数十位资深讲师、完善的课程体系的高级搜索技术人才培养基地。
      洪涛,1986年和1989年先后获得北京大学计算机学士学位和心理学硕士学位,1995年在纽约州立布法罗大学计算机系取得博士学位。长期从事自然语言处理、搜索引擎/信息检索、互联网广告技术、数据挖掘、模式识别和金融数据分析建模等方面的研发工作。2005年加盟百度公司,任高级科学家。
      马少平,1982年本科毕业于清华大学计算机系,1984年获清华大学计算机系硕士学位后留校任教,1991-1992年在日本学习,1997年获清华大学计算机系博士学位,1998年晋升为教授,1999年聘为博士生导师。现任清华大学智能技术与系统国家重点实验室主任、中国人工智能学会常务理事、知识工程专业委员会副主任、中国中文信息学会理事、信息检索与内容安全专业委员会副主任。主要从事智能信息处理方面的研究工作,包括汉字识别、文本信息检索、图像信息检索、中文古籍的数字化与检索等。
      刘奕群,2003年本科毕业于清华大学计算机系并免试推荐直接攻读博士学位,2007年获博士学位后留校任教至今,目前在清华大学计算机系教授“搜索引擎技术基础”与“搜索引擎产品设计与实践”等课程。主要从事与搜索引擎技术相关的互联网应用研究工作,包括网络信息检索、网络用户行为分析、网络产品性能评价等。发表相关领域学术论文40余篇,申请专利7项,并与百度公司、搜狐公司、微软亚洲研究院等单位开展多项搜索引擎技术方面的合作研究。
    第1章 为什么要关注搜索引擎
    1.1 互联网上最重要的应用系统
    1.2 人类历史上最大规模的信息集散平台
    1.3 学术界重要的技术研发平台
    1.4 经济领域能够盈利的“生意”
    第2章 搜索引擎的基本概念与发展历史
    2.1 互联网与万维网的发展
    2.2 英雄辈出:搜索引擎的发展历史回顾
    2.3 搜索引擎的定义与运行原理概述
    2.4 总结:我们能够从历史中学到什么?
    参考文献
    第3章 搜索引擎性能评价
    3.1 搜索引擎评价与Cranfield评价体系
    3.2 查询样例集合构建
    3.2.1 查询样例集合构建中的真实性
    3.2.2 查询样例集合构建中的代表性
    3.2.3 查询样例集合构建中信息需求表述的完整性
    3.3 正确答案集合构建
    3.4 搜索引擎评价指标
    3.5 搜索引擎性能评价的新进展
    参考文献
    第4章 搜索引擎体系结构概述
    4.1 数据抓取子系统的主要功能与性能需求
    4.1.1 及时性
    4.1.2 全面性
    4.1.3 高效性
    4.2 内容索引子系统的主要功能与性能需求
    4.2.1 内容索引子系统的主要功能
    4.2.2 倒排索引结构
    4.2.3 内容索引子系统的性能需求
    4.3 内容检索子系统的主要功能与性能需求
    4.3.1 内容检索子系统与文本信息检索系统
    4.3.2 内容检索子系统的相关性需求
    4.3.3 内容检索子系统的查询理解需求
    4.3.4 内容检索子系统的效率需求
    4.4 链接结构分析子系统的主要功能与性能需求
    4.4.1 基于链接结构分析评价数据质量
    4.4.2 基于链接结构分析扩展文档描述
    4.4.3 链接结构分析子系统的效率需求
    4.5 搜索引擎体系结构设计理念
    参考文献
    第5章 数据抓取子系统设计及核心算法
    5.1 抓取系统的基本架构
    5.2 数据抓取涉及的网络协议
    5.2.1 URL规范
    5.2.2 HTTP协议
    5.2.3 User-Agent
    5.2.4 robots协议
    5.3 网页抓取技术
    5.3.1 网页抓取的基本过程
    5.3.2 基于异步I/O模型的抓取器
    5.3.3 抓取压力控制
    5.3.4 对URL重定向的支持
    5.3.5 对HTTPS协议的支持
    5.4 链接选取策略
    5.4.1 爬虫的抓取方式
    5.4.2 抓取优先级策略
    5.4.3 网页的重访策略
    5.4.4 链接去重策略
    5.5 网页存储技术
    5.5.1 分布式哈希存储系统
    5.5.2 基于BigTable 的网页存储系统
    参考文献
    第6章 内容索引子系统设计及核心算法
    6.1 最小的语义单位——词项
    6.1.1 中文分词问题
    6.1.2 英文词干抽取
    6.1.3 停用词去除
    6.1.4 词项列表的构建
    6.2 索引的数据结构
    6.2.1 词项出现信息记录
    6.2.2 倒排索引和正排索引
    6.2.3 索引的并行存储结构
    6.3 索引子系统的运行方式
    6.3.1 预处理
    6.3.2 建立索引
    6.3.3 使用索引
    参考文献
    第7章 内容检索子系统设计及其核心算法
    7.1 文本信息检索模型
    7.1.1 布尔模型
    7.1.2 向量空间模型
    7.1.3 概率模型
    7.1.4 语言模型
    7.2 内容检索子系统运行方式
    7.2.1 内容相似程度
    7.2.2 数据质量评估结果
    7.2.3 用户偏好情况
    7.2.4 竞价排名情况
    7.2.5 合并排序依据
    参考文献
    第8章 链接结构分析子系统设计及核心算法
    8.1 万维网链接结构图
    8.1.1 万维网链接图的规模
    8.1.2 万维网链接图的连通情况
    8.1.3 万维网链接图的人度和出度分布
    8.2 超链接结构分析的基础
    8.3 HITS算法的基本思路及实现
    8.4 PageRank算法的基本思路及实现
    8.5 链接结构分析结果的应用与排序因素融合
    参考文献
    第9章 万维网数据质量评估
    9.1 万维网数据质量评估困境
    9.2 数据质量评估的解决思路
    9.2.1 宏观粒度网络数据质量评估技术
    9.2.2 微观粒度网络数据质量评估技术
    9.2.3 冗余页面识别技术
    9.2.4 网络数据质量评估方式总述
    9.3 面向搜索引擎需求的网络数据质量定义
    9.3.1 基于万维网链接结构分析的网页质量定义
    9.3.2 基于搜索引擎用户信息需求分析的网页质量定义
    9.4 基于万维网链接结构分析的网页质量评估
    9.4.1 PageRank在真实万维网环境中的困境
    9.4.2 用户访问数据与用户浏览关系图
    9.4.3 基于用户浏览关系图的页面质量评估
    9.5 基于搜索引擎用户信息需求分析的网页质量评估
    9.5.1 网页查询无关特征
    9.5.2 查询目标页面与普通页面的差异分析
    9.5.3 查询目标页面与普通页面的长度特征差异
    9.5.4 查询目标页面与普通页面的PageRank特征差异
    9.5.5 基于用户信息需求分析的网页质量评估方法
    9.5.6 基于用户信息需求分析的网页质量评估效果
    参考文献
    第10章 万维网垃圾网页识别
    10.1 垃圾网页作弊方式
    10.1.1 基于内容的作弊方式
    10.1.2 基于链接的作弊方式
    10.1.3 垃圾网页作弊与搜索引擎优化
    10.2 垃圾网页盈利方式
    10.2.1 垃圾网页作弊目的及其分类
    10.2.2 促进广告浏览及点击
    10.2.3 促进移动增值服务订制
    10.2.4 促进站点访问流量提升
    10.2.5 欺诈和违法信息宣传
    10.2.6 软件产品推广
    10.2.7 垃圾网页作弊目的分布情况
    10.3 垃圾网页识别方法
    10.3.1 垃圾网页识别的效果评价
    10.3.2 基于网页内容的垃圾网页识别
    10.3.3 基于链接结构的垃圾网页识别
    10.3.4 基于用户行为的垃圾网页识别
    参考文献
    第11章 搜索引擎广告技术
    11.1 引言
    11.2 历史、现状和未来
    11.3 搜索引擎付费搜索原理
    11.4 搜索引擎广告的检索和匹配算法
    11.5 计算广告学
    参考文献
    第12章 中文搜索引擎的现状与未来
    12.1 国内外搜索引擎市场的发展现状
    12.2 搜索引擎的未来发展展望
    12.2.1 手持设备搜索
    12.2.2 暗网数据与用户产生内容(UGC)的获取
    12.2.3 搜索引擎将成为社会和自然科学研究的重要平台?
    12.2.4 搜索引擎向其他产业进军
    本书特色
  • 内容简介:
      面对浩瀚的万维网信息海洋,搜索引擎为人们提供了一条获取所需信息的捷径,而百度等中文搜索引擎在商业和技术领域的成功也使得越来越多的国内读者对搜索行业产生兴趣。作者长期从事搜索引擎领域的相关研究与工程实践,并实际参与了多个中文搜索引擎设计与实现的全过程,《搜索引擎技术基础/普通高等教育“十一五”国家级规划教材·计算机科学与技术系列教材·信息技术方向》从研究实践者的角度介绍了搜索引擎的相关技术及其产业,并引领读者成为搜索引擎领域的局内人。《搜索引擎技术基础/普通高等教育“十一五”国家级规划教材·计算机科学与技术系列教材·信息技术方向》最大的特色是将清华大学计算机系在搜索技术方面的研究成果与百度公司在搜索应用领域积累的丰富经验融合进内容中,向读者展示大规模商用搜索引擎的工作原理、核心技术与运营方式。
  • 作者简介:
      刘子正,2001年以在校实习生身份加入创业时期的百度公司,2003年自北京理工大学硕士毕业后历任百度公司项目经理、技术经理、技术副总监,长期专注于百度公司商务搜索引擎研发。现任百度技术学院负责人,百度公司商务搜索部技术副总监。主持研发了百度公司最主要商业模式的竞价排名商务搜索引擎。2008年发起并创立百度技术学院,至今已经发展成为拥有数十位资深讲师、完善的课程体系的高级搜索技术人才培养基地。
      洪涛,1986年和1989年先后获得北京大学计算机学士学位和心理学硕士学位,1995年在纽约州立布法罗大学计算机系取得博士学位。长期从事自然语言处理、搜索引擎/信息检索、互联网广告技术、数据挖掘、模式识别和金融数据分析建模等方面的研发工作。2005年加盟百度公司,任高级科学家。
      马少平,1982年本科毕业于清华大学计算机系,1984年获清华大学计算机系硕士学位后留校任教,1991-1992年在日本学习,1997年获清华大学计算机系博士学位,1998年晋升为教授,1999年聘为博士生导师。现任清华大学智能技术与系统国家重点实验室主任、中国人工智能学会常务理事、知识工程专业委员会副主任、中国中文信息学会理事、信息检索与内容安全专业委员会副主任。主要从事智能信息处理方面的研究工作,包括汉字识别、文本信息检索、图像信息检索、中文古籍的数字化与检索等。
      刘奕群,2003年本科毕业于清华大学计算机系并免试推荐直接攻读博士学位,2007年获博士学位后留校任教至今,目前在清华大学计算机系教授“搜索引擎技术基础”与“搜索引擎产品设计与实践”等课程。主要从事与搜索引擎技术相关的互联网应用研究工作,包括网络信息检索、网络用户行为分析、网络产品性能评价等。发表相关领域学术论文40余篇,申请专利7项,并与百度公司、搜狐公司、微软亚洲研究院等单位开展多项搜索引擎技术方面的合作研究。
  • 目录:
    第1章 为什么要关注搜索引擎
    1.1 互联网上最重要的应用系统
    1.2 人类历史上最大规模的信息集散平台
    1.3 学术界重要的技术研发平台
    1.4 经济领域能够盈利的“生意”
    第2章 搜索引擎的基本概念与发展历史
    2.1 互联网与万维网的发展
    2.2 英雄辈出:搜索引擎的发展历史回顾
    2.3 搜索引擎的定义与运行原理概述
    2.4 总结:我们能够从历史中学到什么?
    参考文献
    第3章 搜索引擎性能评价
    3.1 搜索引擎评价与Cranfield评价体系
    3.2 查询样例集合构建
    3.2.1 查询样例集合构建中的真实性
    3.2.2 查询样例集合构建中的代表性
    3.2.3 查询样例集合构建中信息需求表述的完整性
    3.3 正确答案集合构建
    3.4 搜索引擎评价指标
    3.5 搜索引擎性能评价的新进展
    参考文献
    第4章 搜索引擎体系结构概述
    4.1 数据抓取子系统的主要功能与性能需求
    4.1.1 及时性
    4.1.2 全面性
    4.1.3 高效性
    4.2 内容索引子系统的主要功能与性能需求
    4.2.1 内容索引子系统的主要功能
    4.2.2 倒排索引结构
    4.2.3 内容索引子系统的性能需求
    4.3 内容检索子系统的主要功能与性能需求
    4.3.1 内容检索子系统与文本信息检索系统
    4.3.2 内容检索子系统的相关性需求
    4.3.3 内容检索子系统的查询理解需求
    4.3.4 内容检索子系统的效率需求
    4.4 链接结构分析子系统的主要功能与性能需求
    4.4.1 基于链接结构分析评价数据质量
    4.4.2 基于链接结构分析扩展文档描述
    4.4.3 链接结构分析子系统的效率需求
    4.5 搜索引擎体系结构设计理念
    参考文献
    第5章 数据抓取子系统设计及核心算法
    5.1 抓取系统的基本架构
    5.2 数据抓取涉及的网络协议
    5.2.1 URL规范
    5.2.2 HTTP协议
    5.2.3 User-Agent
    5.2.4 robots协议
    5.3 网页抓取技术
    5.3.1 网页抓取的基本过程
    5.3.2 基于异步I/O模型的抓取器
    5.3.3 抓取压力控制
    5.3.4 对URL重定向的支持
    5.3.5 对HTTPS协议的支持
    5.4 链接选取策略
    5.4.1 爬虫的抓取方式
    5.4.2 抓取优先级策略
    5.4.3 网页的重访策略
    5.4.4 链接去重策略
    5.5 网页存储技术
    5.5.1 分布式哈希存储系统
    5.5.2 基于BigTable 的网页存储系统
    参考文献
    第6章 内容索引子系统设计及核心算法
    6.1 最小的语义单位——词项
    6.1.1 中文分词问题
    6.1.2 英文词干抽取
    6.1.3 停用词去除
    6.1.4 词项列表的构建
    6.2 索引的数据结构
    6.2.1 词项出现信息记录
    6.2.2 倒排索引和正排索引
    6.2.3 索引的并行存储结构
    6.3 索引子系统的运行方式
    6.3.1 预处理
    6.3.2 建立索引
    6.3.3 使用索引
    参考文献
    第7章 内容检索子系统设计及其核心算法
    7.1 文本信息检索模型
    7.1.1 布尔模型
    7.1.2 向量空间模型
    7.1.3 概率模型
    7.1.4 语言模型
    7.2 内容检索子系统运行方式
    7.2.1 内容相似程度
    7.2.2 数据质量评估结果
    7.2.3 用户偏好情况
    7.2.4 竞价排名情况
    7.2.5 合并排序依据
    参考文献
    第8章 链接结构分析子系统设计及核心算法
    8.1 万维网链接结构图
    8.1.1 万维网链接图的规模
    8.1.2 万维网链接图的连通情况
    8.1.3 万维网链接图的人度和出度分布
    8.2 超链接结构分析的基础
    8.3 HITS算法的基本思路及实现
    8.4 PageRank算法的基本思路及实现
    8.5 链接结构分析结果的应用与排序因素融合
    参考文献
    第9章 万维网数据质量评估
    9.1 万维网数据质量评估困境
    9.2 数据质量评估的解决思路
    9.2.1 宏观粒度网络数据质量评估技术
    9.2.2 微观粒度网络数据质量评估技术
    9.2.3 冗余页面识别技术
    9.2.4 网络数据质量评估方式总述
    9.3 面向搜索引擎需求的网络数据质量定义
    9.3.1 基于万维网链接结构分析的网页质量定义
    9.3.2 基于搜索引擎用户信息需求分析的网页质量定义
    9.4 基于万维网链接结构分析的网页质量评估
    9.4.1 PageRank在真实万维网环境中的困境
    9.4.2 用户访问数据与用户浏览关系图
    9.4.3 基于用户浏览关系图的页面质量评估
    9.5 基于搜索引擎用户信息需求分析的网页质量评估
    9.5.1 网页查询无关特征
    9.5.2 查询目标页面与普通页面的差异分析
    9.5.3 查询目标页面与普通页面的长度特征差异
    9.5.4 查询目标页面与普通页面的PageRank特征差异
    9.5.5 基于用户信息需求分析的网页质量评估方法
    9.5.6 基于用户信息需求分析的网页质量评估效果
    参考文献
    第10章 万维网垃圾网页识别
    10.1 垃圾网页作弊方式
    10.1.1 基于内容的作弊方式
    10.1.2 基于链接的作弊方式
    10.1.3 垃圾网页作弊与搜索引擎优化
    10.2 垃圾网页盈利方式
    10.2.1 垃圾网页作弊目的及其分类
    10.2.2 促进广告浏览及点击
    10.2.3 促进移动增值服务订制
    10.2.4 促进站点访问流量提升
    10.2.5 欺诈和违法信息宣传
    10.2.6 软件产品推广
    10.2.7 垃圾网页作弊目的分布情况
    10.3 垃圾网页识别方法
    10.3.1 垃圾网页识别的效果评价
    10.3.2 基于网页内容的垃圾网页识别
    10.3.3 基于链接结构的垃圾网页识别
    10.3.4 基于用户行为的垃圾网页识别
    参考文献
    第11章 搜索引擎广告技术
    11.1 引言
    11.2 历史、现状和未来
    11.3 搜索引擎付费搜索原理
    11.4 搜索引擎广告的检索和匹配算法
    11.5 计算广告学
    参考文献
    第12章 中文搜索引擎的现状与未来
    12.1 国内外搜索引擎市场的发展现状
    12.2 搜索引擎的未来发展展望
    12.2.1 手持设备搜索
    12.2.2 暗网数据与用户产生内容(UGC)的获取
    12.2.3 搜索引擎将成为社会和自然科学研究的重要平台?
    12.2.4 搜索引擎向其他产业进军
    本书特色
查看详情
您可能感兴趣 / 更多
搜索引擎技术基础
搜索引擎营销实战教程(SEO/SEM)(附微课视频)
纪伟娟、贾昆霖 著
搜索引擎技术基础
搜索营销 理解关键字广告之核心
[美]伯纳德·吉姆·詹森(Bernard Jim Jansen)
搜索引擎技术基础
搜索引擎技术与发展
罗刚
搜索引擎技术基础
搜索引擎中的实体推荐关键技术研究
黄际洲 著
搜索引擎技术基础
搜索引擎优化
孙新杰、蒋绍玲 著
搜索引擎技术基础
搜索引擎技术应用实训指南
沙旭 徐虹 李拥军
搜索引擎技术基础
搜索力:帮你解决90%人生难题的思维能力
刘Sir 著
搜索引擎技术基础
搜索引擎技术与应用开发
李群;袁津生
搜索引擎技术基础
搜索引擎与程序化广告:原理、设计与实战
杨敏
搜索引擎技术基础
搜索营销/网络营销系列·电子商务职业细分化岗位导向型规划教材
京慧越商学院 编
搜索引擎技术基础
搜索引擎优化
俞国红 主编
搜索引擎技术基础
搜索引擎优化基础与实训/高等职业教育“十三五”规划教材·网络工程课程群
黄源、徐受蓉、蒋文豪、刘源 编
系列丛书 / 更多
搜索引擎技术基础
搜索引擎营销实战教程(SEO/SEM)(附微课视频)
纪伟娟、贾昆霖 著
搜索引擎技术基础
搜索营销 理解关键字广告之核心
[美]伯纳德·吉姆·詹森(Bernard Jim Jansen)
搜索引擎技术基础
搜索引擎技术与发展
罗刚
搜索引擎技术基础
搜索引擎中的实体推荐关键技术研究
黄际洲 著
搜索引擎技术基础
搜索引擎优化
孙新杰、蒋绍玲 著
搜索引擎技术基础
搜索引擎技术应用实训指南
沙旭 徐虹 李拥军
搜索引擎技术基础
搜索力:帮你解决90%人生难题的思维能力
刘Sir 著
搜索引擎技术基础
搜索引擎技术与应用开发
李群;袁津生
搜索引擎技术基础
搜索引擎与程序化广告:原理、设计与实战
杨敏
搜索引擎技术基础
搜索营销/网络营销系列·电子商务职业细分化岗位导向型规划教材
京慧越商学院 编
搜索引擎技术基础
搜索引擎优化
俞国红 主编
搜索引擎技术基础
搜索引擎优化基础与实训/高等职业教育“十三五”规划教材·网络工程课程群
黄源、徐受蓉、蒋文豪、刘源 编
相关图书 / 更多
搜索引擎技术基础
搜索引擎营销实战教程(SEO/SEM)(附微课视频)
纪伟娟、贾昆霖 著
搜索引擎技术基础
搜索营销 理解关键字广告之核心
[美]伯纳德·吉姆·詹森(Bernard Jim Jansen)
搜索引擎技术基础
搜索引擎技术与发展
罗刚
搜索引擎技术基础
搜索引擎中的实体推荐关键技术研究
黄际洲 著
搜索引擎技术基础
搜索引擎优化
孙新杰、蒋绍玲 著
搜索引擎技术基础
搜索引擎技术应用实训指南
沙旭 徐虹 李拥军
搜索引擎技术基础
搜索力:帮你解决90%人生难题的思维能力
刘Sir 著
搜索引擎技术基础
搜索引擎技术与应用开发
李群;袁津生
搜索引擎技术基础
搜索引擎与程序化广告:原理、设计与实战
杨敏
搜索引擎技术基础
搜索营销/网络营销系列·电子商务职业细分化岗位导向型规划教材
京慧越商学院 编
搜索引擎技术基础
搜索引擎优化
俞国红 主编
搜索引擎技术基础
搜索引擎优化基础与实训/高等职业教育“十三五”规划教材·网络工程课程群
黄源、徐受蓉、蒋文豪、刘源 编