深度学习视频理解(博文视点出品)

深度学习视频理解(博文视点出品)
分享
扫描下方二维码分享到微信
打开微信,点击右上角”+“,
使用”扫一扫“即可将网页分享到朋友圈。
作者:
2021-10
ISBN: 9787121419805
定价: 128.00
11人买过
  • 视频理解是计算机视觉和深度学习的一个重要分支。本书对视频理解的3个重要领域进行介绍,对于每个领域,本书不仅解释了相关算法的原理,还梳理了算法演进的脉络。全书共分6章,第1章简要介绍视频行业的发展历程;第2章回顾经典图像分类模型和RNN;第3章和第4章介绍动作识别的重要算法;第5章介绍时序动作定位的重要算法;第6章介绍视频Embedding的重要算法。最后总结了常用的一些视频处理工具。 
    本书既适合高等院校人工智能相关专业的本科生和研究生阅读,也可供视频理解、推荐系统、搜索引擎和计算广告等领域的研究人员和从业者参考。 

    张皓,毕业于南京大学计算机系周志华教授领导的机器学习与数据挖掘研究所(LAMDA),导师为吴建鑫教授,研究方向为深度学习和计算机视觉,曾获国家奖学金、江苏省三好学生等荣誉。发表论文累计被引超过 190 次,合译《模式识别》一书,曾获 2016 年ECCV视频表象性格分析竞赛世界冠军。 
    现任腾讯在线视频研究员,专注于腾讯视频等场景下的相关视频理解任务。曾任腾讯优图实验室研究员,为“微信看一看”等场景提供相关视频理解能力。 
    知乎号“张皓”,担任多个自媒体作者或专栏作者。 

    第1章  绪论          1 
    1.1  引言        1 
    1.2  本书内容        5 
    1.3  本章小结        15 
    第2章  经典网络结构回顾          16 
    2.1  经典图像分类网络        16 
    2.1.1  LetNet-5      16 
    2.1.2  AlexNet        18 
    2.1.3  VGGNet       22 
    2.1.4  GoogLeNet  24 
    2.1.5  Inception V2/V3  27 
    2.1.6  ResNet         28 
    2.1.7  preResNet   31 
    2.1.8  WRN    32 
    2.1.9  随机深度网络    33 
    2.1.10  DenseNet  35 
    2.1.11  ResNeXt    36 
    2.1.12  SENet         39 
    2.1.13  MobileNet 41 
    2.1.14  MobileNet V2/V3       44 
    2.1.15  ShuffleNet 46 
    2.1.16  ShuffleNet V2    49 
    2.2  RNN、LSTM和GRU      51 
    第3章  基于2D卷积的动作识别       62 
    3.1  平均汇合        62 
    3.2  NetVLAD和NeXtVLAD  64 
    3.3  利用RNN融合各帧特征       77 
    3.4  利用3D卷积融合各帧特征 81 
    3.5  双流法   87 
    3.6  时序稀疏采样        95 
    3.7  利用iDT轨迹         104 
    第4章  基于3D卷积的动作识别       110 
    4.1  3D卷积基础网络结构  110 
    4.2  I3D 118 
    4.4  TSM         135 
    4.5  3D卷积 + RNN      137 
    4.6  ARTNet   139 
    4.7  Non-Local        141 
    4.8  SlowFast 148 
    4.9  3D卷积神经网络超参数设计      152 
    第5章  时序动作定位          159 
    5.1  基于滑动窗的算法        160 
    5.2  基于候选时序区间的算法   171 
    5.3  自底向上的时序动作定位算法   183 
    5.4  对时序结构信息建模的算法        197 
    5.5  逐帧预测的算法   202 
    5.6  单阶段算法   208 
    第6章  视频Embedding      219 
    6.1  基于视频内容的无监督 Embedding   220 
    6.2  Word2Vec        229 
    6.2.1  CBOW和Skip-Gram   229 
    6.2.2  分层 Softmax     234 
    6.2.3  负采样         239 
    6.3  Item2Vec         247 
    6.3.1  Item2Vec 基本形式   247 
    6.3.2  Item2Vec的改进         249 
    6.4  基于图的随机游走        252 
    6.5  结合一二阶相似度        257 
    6.6  基于图的邻居结点        265 
    6.7  基于多种信息学习视频Embedding     274 
    附录A  视频处理常用工具 281 
    参考文献         296 

  • 内容简介:
    视频理解是计算机视觉和深度学习的一个重要分支。本书对视频理解的3个重要领域进行介绍,对于每个领域,本书不仅解释了相关算法的原理,还梳理了算法演进的脉络。全书共分6章,第1章简要介绍视频行业的发展历程;第2章回顾经典图像分类模型和RNN;第3章和第4章介绍动作识别的重要算法;第5章介绍时序动作定位的重要算法;第6章介绍视频Embedding的重要算法。最后总结了常用的一些视频处理工具。 
    本书既适合高等院校人工智能相关专业的本科生和研究生阅读,也可供视频理解、推荐系统、搜索引擎和计算广告等领域的研究人员和从业者参考。 

  • 作者简介:
    张皓,毕业于南京大学计算机系周志华教授领导的机器学习与数据挖掘研究所(LAMDA),导师为吴建鑫教授,研究方向为深度学习和计算机视觉,曾获国家奖学金、江苏省三好学生等荣誉。发表论文累计被引超过 190 次,合译《模式识别》一书,曾获 2016 年ECCV视频表象性格分析竞赛世界冠军。 
    现任腾讯在线视频研究员,专注于腾讯视频等场景下的相关视频理解任务。曾任腾讯优图实验室研究员,为“微信看一看”等场景提供相关视频理解能力。 
    知乎号“张皓”,担任多个自媒体作者或专栏作者。 

  • 目录:
    第1章  绪论          1 
    1.1  引言        1 
    1.2  本书内容        5 
    1.3  本章小结        15 
    第2章  经典网络结构回顾          16 
    2.1  经典图像分类网络        16 
    2.1.1  LetNet-5      16 
    2.1.2  AlexNet        18 
    2.1.3  VGGNet       22 
    2.1.4  GoogLeNet  24 
    2.1.5  Inception V2/V3  27 
    2.1.6  ResNet         28 
    2.1.7  preResNet   31 
    2.1.8  WRN    32 
    2.1.9  随机深度网络    33 
    2.1.10  DenseNet  35 
    2.1.11  ResNeXt    36 
    2.1.12  SENet         39 
    2.1.13  MobileNet 41 
    2.1.14  MobileNet V2/V3       44 
    2.1.15  ShuffleNet 46 
    2.1.16  ShuffleNet V2    49 
    2.2  RNN、LSTM和GRU      51 
    第3章  基于2D卷积的动作识别       62 
    3.1  平均汇合        62 
    3.2  NetVLAD和NeXtVLAD  64 
    3.3  利用RNN融合各帧特征       77 
    3.4  利用3D卷积融合各帧特征 81 
    3.5  双流法   87 
    3.6  时序稀疏采样        95 
    3.7  利用iDT轨迹         104 
    第4章  基于3D卷积的动作识别       110 
    4.1  3D卷积基础网络结构  110 
    4.2  I3D 118 
    4.4  TSM         135 
    4.5  3D卷积 + RNN      137 
    4.6  ARTNet   139 
    4.7  Non-Local        141 
    4.8  SlowFast 148 
    4.9  3D卷积神经网络超参数设计      152 
    第5章  时序动作定位          159 
    5.1  基于滑动窗的算法        160 
    5.2  基于候选时序区间的算法   171 
    5.3  自底向上的时序动作定位算法   183 
    5.4  对时序结构信息建模的算法        197 
    5.5  逐帧预测的算法   202 
    5.6  单阶段算法   208 
    第6章  视频Embedding      219 
    6.1  基于视频内容的无监督 Embedding   220 
    6.2  Word2Vec        229 
    6.2.1  CBOW和Skip-Gram   229 
    6.2.2  分层 Softmax     234 
    6.2.3  负采样         239 
    6.3  Item2Vec         247 
    6.3.1  Item2Vec 基本形式   247 
    6.3.2  Item2Vec的改进         249 
    6.4  基于图的随机游走        252 
    6.5  结合一二阶相似度        257 
    6.6  基于图的邻居结点        265 
    6.7  基于多种信息学习视频Embedding     274 
    附录A  视频处理常用工具 281 
    参考文献         296 

查看详情
相关图书 / 更多
深度学习视频理解(博文视点出品)
深度:潜入隐藏的世界
杰斯-麦吉辛
深度学习视频理解(博文视点出品)
深度教学研究(第二辑)
郭元祥 主编
深度学习视频理解(博文视点出品)
深度对话茅奖作家(1-11届)
舒晋瑜
深度学习视频理解(博文视点出品)
深度关系
武志红
深度学习视频理解(博文视点出品)
深度阅读训练册 3年级b版 小学同步阅读 新华正版
深度阅读教学研究中心
深度学习视频理解(博文视点出品)
深度学习在复杂系统健康监测中的应用
吴军;程一伟;邓超;朱海平
深度学习视频理解(博文视点出品)
深度阅读训练册4年级B版
深度阅读教学研究中心 编
深度学习视频理解(博文视点出品)
深度学习教程 杨小远 刘建伟著
杨小远;刘建伟
深度学习视频理解(博文视点出品)
深度学习——模型、算法优化与实战
张洪朋
深度学习视频理解(博文视点出品)
深度陪伴RAP养育法
张杨
深度学习视频理解(博文视点出品)
深度思维
隋继周
深度学习视频理解(博文视点出品)
深度财务分析报告案例示范
本书编委会
您可能感兴趣 / 更多
深度学习视频理解(博文视点出品)
现代机电控制工程
张皓 续明进
深度学习视频理解(博文视点出品)
艺术与传播(新媒体时代下的中国当代艺术)
张皓 著
深度学习视频理解(博文视点出品)
幼儿英语分级阅读第二辑(全12册)
张皓 著
深度学习视频理解(博文视点出品)
派系斗争与国民党政府运转关系研究(修订版)/北京师范大学史学文库
张皓 著
深度学习视频理解(博文视点出品)
民国时期藏事问题英文档案选编
张皓 张双智
深度学习视频理解(博文视点出品)
新编会计综合实训
张皓 主编
深度学习视频理解(博文视点出品)
千古一帝——秦始皇
张皓 编著;金开诚 主编
深度学习视频理解(博文视点出品)
轮台罪已——汉武帝
张皓 编著;金开诚 主编
深度学习视频理解(博文视点出品)
中国现代政治制度史
张皓 著
深度学习视频理解(博文视点出品)
新编基础会计
张皓 主编
深度学习视频理解(博文视点出品)
雅思考试(IELTS)(全新版):听力理解
张皓 编
深度学习视频理解(博文视点出品)
中国现代政治制度史
张皓 著