基于深度学习的人体行为识别算法研究

中国水利水电出版社

【作者】陈华锋著

【I S B N 】978-7-5226-2834-9

【责任编辑】贾润姿

【适用读者群】本专通用

【出版时间】2024-12-11

【开本】16开

【装帧信息】平装（光膜）

【版次】第1版第1次印刷

【页数】164

【千字数】193

【印张】10.25

【定价】￥62

【丛书】

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

视频人体行为识别技术可满足网络视频检索与分析、智能视频监控分析、智能视频监护等应用领域对自动分析及智能化的需求，引起学术界的广泛关注。虽然目前国内外学者在行为识别领域已取得一定研究成果，但由于人体行为在动作速率、相机视角、运动场景等方面存在多样性，基于视频的人体行为识别仍是一个极具挑战性的研究课题。本书对人体行为识别技术进行了综述，介绍了几种人体行为识别方法，并对此进行了总结。

本书研究内容是机器学习、深度学习与计算机视觉等交叉学科知识在人体行为识别领域的具体应用，既适合本领域的研究者了解前沿，也适合人工智能相关专业的本科生、研究生作为学习参考资料。

人体行为识别是计算机视觉与模式识别领域中的一项重要研究课题。在智能监控领域，行为识别技术可以帮助监控系统自动识别和分析异常行为，提高监控效率和准确性；在智能交通领域，该技术可以识别和分析交通参与者的行为，为交通管理提供有力支持；在健康监测领域，该技术可以实时监测和分析人的行为模式，为个性化健康监护服务提供数据支持；此外，该技术还在虚拟现实、人机交互、环境控制和监测等多个领域中发挥着重要作用。随着智能监控、智能交通、健康监测等应用场景的不断发展，如何有效地识别人类行为，已经成为学术界与工业界共同关注的焦点。在深度学习技术迅猛发展的背景下，基于深度学习的行为识别方法显示出了强大的潜力和广泛的应用前景。

本书从传统的手工特征到现代的深度学习特征，从行为数据集的选择到算法的设计与优化，综述了人体行为识别领域的技术演进与发展趋势，并介绍了几种基于深度学习的人体行为识别算法。

本书主要研究内容包括：

（1）基于动作分解的行为识别。针对人体行为时间尺度的鲁棒性问题，分析了动作与视频帧相似性之间的关系，介绍了通过动作分解将视频分解为多个视频子段的方法，并提出了视频子段中代表帧采样的数据模型，给出了代表帧的卷积特征学习过程及特征融合方法。然后介绍了基于LSTM网络的行为时序特征学习过程，最后结合实验分析了所提算法的有效性。

（2）基于运动显著性的行为识别。针对现在图像采样方法不能聚焦行为运动问题，介绍了视频中运动显著性检测算法，并给出了多个运动显著区域合成方法。然后提出了基于运动显著区域的图像块采样方法。最后在行为识别数据集上对所提算法进行实验验证。

（3）基于多模态特征的行为识别。研究了运动边界卷积特征和梯度边界卷积特征的提取方法。然后介绍了几种多模态特征的融合方法，最后通过实验验证了运动边界卷积特征和梯度边界卷积特征的有效性，并比较了几种多模态特征融合方法对人体识别率的影响。

（4）基于实时全局运动补偿的行为识别。针对传统实时行为识别算法中没有区分运动矢量中的全局运动信息和人体行为信息的问题，提出了基于运动矢量的实时全局运动参数估计方法，然后参照估计的全局运动参数进行运动补偿。最后通过实验证明了基于全局运动补偿的行为识别算法能够满足行为识别的实时性要求，在识别性能方面较MF和EMV-CNN算法有明显提升。

（5）基于局部最大池化特征时空向量的行为识别。为了有效解决视频理解中的一个重要问题：如何构建一个视频表示（其中包含整个视频上的CNN特征），我们提出了局部最大池化特征时空向量（ST-VLMPF）的超向量编码方法，用于人体行为的局部深度特征编码。特征分配通过相似性和时空信息在两个层级上完成。对于每个分配，我们构建了一个特定的编码，专注于深度特征的性质，旨在捕获网络最高神经元激活的最高特征响应。ST-VLMPF明显比一些广泛使用且强大的编码方法（改进的Fisher向量和局部聚合描述符向量）拥有更可靠的视频表示，同时保持了较低的计算复杂度。

（6）基于姿态运动表示的行为识别。不少行为识别方法依赖于two-stream结构独立处理外观和运动信息。我们将这两个模态信息流融合起来为行为识别提供丰富的信息。该方法引入新方法以编码一些语义关键点的运动，我们使用人体关节作为这些关键点，并将姿态运动表示称为PoTion。具体来说，我们首先基于目前效果最好的人体姿态估计器在每一帧中提取人体关节的热图，再通过时间聚合这些概率图来获得PoTion表示。这是通过根据视频剪辑中帧的相对时间“着色”每个概率图并对它们进行求和来实现的。这种针对整个视频剪辑的固定大小表示适合使用浅卷积神经网络对行为进行分类。

（7）基于动态运动表示的行为识别。在许多最近的研究工作中，研究人员使用外观和运动信息作为独立的输入来推断给出视频中正在发生的行为。我们提出了人体行为的最新表示方法，同时从外观和运动信息中获益，以实现更好的动作识别性能。我们从姿势估计器开始，从每一帧中提取身体关节的位置和热图，使用动态编码器从这些身体关节热图中生成固定大小的表示。实验结果表明，使用动态运动表示训练卷积神经网络优于目前最好的行为识别模型。

（8）基于运动增强RGB流的人体行为识别。虽然将光流与RGB信息结合可以提高行为识别性能，但准确计算光流的时间成本很高，增加了行为识别的延迟。这限制了在需要低延迟的实际应用中使用two-stream方法。我们给出了两种学习方法来训练一个标准的3D CNN，它在RGB帧上运行，模拟了运动流，因此避免了在测试阶段进行光流计算。首先，将基于特征的损失最小化并与Flow流进行比较，所提深度神经网络以高保真度再现了运动流信息。其次，为了有效利用外观和运动信息，我们通过特征损失和标准的交叉熵损失的线性组合进行训练，用于行为识别。

本书研究内容是机器学习、深度学习与计算机视觉等交叉学科知识在人体行为识别领域的具体应用，既适合本领域的研究者了解前沿，也适合人工智能相关专业的本科生、研究生作为学习参考资料。本书由作者独撰，全书约19万字。本书的编写得到了湖北省高等学校优秀中青年科技创新团队计划项目“行为识别技术研究及开发”（编号：T201923）、荆门市科学技术研究与开发计划重点项目“基于视觉引导的焊机伺服系统关键技术研发”（编号：2021ZDYF024）、荆门市重大科技计划项目“基于人工智能和边缘计算融合的自动化生产线关键技术研究与应用”（编号：2022ZDYF019）和荆楚理工学院智联网应用创新研究中心的资助。在此一并表示感谢！

由于作者水平有限，加工时间仓促，书中难免存在疏漏与不妥之处，恳请读者批评指正。

第1章绪论 1
1.1 研究背景 1
1.2 国内外研究现状 3
1.2.1 手工特征 5
1.2.2 深度特征 11
1.2.3 行为识别数据集 16
1.3 存在的问题 19
1.4 行为识别研究内容 20
第2章基于动作分解的行为识别 22
2.1 引言 22
2.2 基于动作分解的行为识别框架 23
2.2.1 动作分解与代表帧采样 23
2.2.2 CNN特征学习与融合 25
2.2.3 动作时序建模 27
2.3 实验及结果分析 28
2.3.1 实验数据集及设置 28
2.3.2 算法参数分析 29
2.3.3 采样策略比较 30
2.3.4 与前沿算法比较 31
2.4 本章小结 32
第3章基于运动显著性的行为识别 33
3.1 引言 33
3.2 H-FCN算法及其改进 36
3.2.1 全卷积网络模型 36
3.2.2 H-FCN算法 37
3.2.3 H-FCN算法改进 38
3.3 基于运动显著性的图像块采样 39
3.4 实验及结果分析 40
3.4.1 实验数据集及设置 40
3.4.2 改进的H-FCN算法分析 41
3.4.3 图像块采样方法比较 42
3.5 本章小结 43
第4章基于多模态特征的行为识别 44
4.1 引言 44
4.2 运动边界CNN特征 46
4.3 梯度边界CNN特征 47
4.4 多模态特征融合 49
4.5 实验结果及分析 50
4.5.1 实验数据集及设置 50
4.5.2 多模态特征比较 51
4.5.3 多模态特征融合评估 53
4.6 本章小结 56
第5章基于实时全局运动补偿的行为识别 57
5.1 引言 57
5.2 实时全局运动补偿算法 59
5.2.1 全局运动参数模型 59
5.2.2 全局运动估计 60
5.2.3 全局运动补偿 63
5.3 实验及结果分析 64
5.3.1 实验数据集及设置 64
5.3.2 CGME算法评估 64
5.3.3 与前沿算法比较 66
5.4 本章小结 68
第6章基于局部最大池化特征时空向量的行为识别 69
6.1 引言 69
6.2 特征编码相关工作 71
6.3 ST-VLMPF编码方法 72
6.4 局部深度特征提取 74
6.5 ST-VLMPF算法有效性验证 76
6.5.1 实验数据集 76
6.5.2 实验设置 76
6.5.3 参数调优 77
6.5.4 与其他编码方法比较 79
6.5.5 融合策略 81
6.5.6 与前沿算法比较 82
6.6 本章小结 83
第7章基于姿态运动表示的行为识别 84
7.1 引言 84
7.2 与本章相关的研究现状 86
7.3 PoTion编码表示 87
7.3.1 提取人体关节热图 87
7.3.2 时序依赖的热图着色 88
7.3.3 着色热图融合 89
7.4 基于PoTion编码表示运行CNN 90
7.4.1 网络结构 90
7.4.2 网络实现细节 91
7.5 PoTion表示的实验分析 92
7.5.1 数据集与评价标准 92
7.5.2 PoTion编码表示参数实验 92
7.5.3 CNN参数实验 93
7.5.4 姿态估计算法的影响 95
7.5.5 PoTion与前沿算法比较 95
7.6 本章小结 99
第8章基于动态运动表示的行为识别 100
8.1 引言 100
8.2 相关研究工作 101
8.3 动态运动表示（DynaMotion） 103
8.3.1 肢体关节提取与热图 103
8.3.2 仿射鲁棒的运动编码 104
8.3.3 外观与动态信息聚合 105
8.4 DynaMotion实现细节 105
8.4.1 动态编码 105
8.4.2 网络结构 106
8.5 消融实验 107
8.5.1 数据集 107
8.5.2 姿态编码 107
8.5.3 动态运动CNN 108
8.5.4 DynaMotion的影响 109
8.5.5 与前沿算法比较 110
8.6 本章小结 111
第9章基于运动增强RGB流的人体行为识别 112
9.1 引言 112
9.2 相关研究工作 114
9.3 学习替代光流 116
9.3.1 MERS算法 116
9.3.2 MARS算法 117
9.4 实验设置 118
9.4.1 数据集与评价方法 118
9.4.2 算法实现细节 118
9.5 实验结果讨论 119
9.5.1 运动光流 119
9.5.2 行为识别准确率 121
9.5.3 α对识别准确率的影响 122
9.5.4 运动对识别准确率的影响 123
9.5.5 与前沿算法比较 124
9.6 本章小结 126
第10章人体行为识别的进一步研究 127
10.1 已取得的研究成果 127
10.2 人体行为识别待研究的问题 129
参考文献 130

关闭

打印