热门关键字:  听力密码  听力密码  新概念美语  单词密码  巧用听写练听力
图书信息

基于多模态的人脸图像生成算法与关键技术

中国水利水电出版社
    【作 者】罗晓东 著 【I S B N 】978-7-5226-3838-6 【责任编辑】张玉玲 【适用读者群】本专通用 【出版时间】2025-12-01 【开 本】16开 【装帧信息】平装(光膜) 【版 次】第1版第1次印刷 【页 数】188 【千字数】191 【印 张】11.75 【定 价】78 【丛 书】暂无分类 【备注信息】
图书详情

    本书旨在对多模态人脸图像生成这一蓬勃发展的领域进行一次系统性梳理与前瞻性剖析。我们并不满足于对现有模型的简单罗列,而是试图深入技术机理,构建一个从理论根基、核心方法到实践应用与责任治理的完整知识体系。在内容安排上,本书共分7章。第1章和第2章简要介绍人脸图像生成研究领域的研究背景、人脸图像生成算法及理论基础、存在的关键问题及解决思路。从第3章到第6章,每章都围绕一个关键问题展开介绍,对关键问题进行了深入探索,并提出了创新性解决方案。第7章对本书的内容进行了总结。

    人脸图像生成是计算机视觉领域的新兴研究课题,其在公共安全、刑事犯罪侦查、考古研究、多媒体娱乐和计算辅助设计等领域有广阔的应用前景。例如,在社会公共安全和刑事犯罪的案件侦办中,执法人员对犯罪嫌疑人进行身份判别时,会遇到蒙面犯罪嫌疑人的身份识别和根据目击者描述对犯罪嫌疑人画像等业务难点。近年来,深度学习技术极大地促进了图像生成的发展,其中人脸图像生成可为以上业务难点提供技术支持。本书围绕公共安全和刑事犯罪案件侦办中犯罪嫌疑人身份鉴别面对的业务难点,展开了人脸图像生成技术的研究。

    本书依托生成对抗网络技术,以人脸图像生成为中心任务,将工作人员对犯罪嫌疑人身份鉴别时面对的业务难点作为主要背景,先后重点研究了文本生成人脸图像、属性单词生成人脸图像、人眼生成人脸图像、联合人眼和属性单词生成人脸图像等任务。具体地,本书的主要创新和贡献可概括为以下四部分:①基于双通道的文本生成人脸图像方法;②基于跨模态注意力的属性单词生成人脸图像方法;③基于自注意力机制的人眼生成人脸图像方法;④联合人眼图像和属性单词生成人脸图像方法。所取得的研究成果对本领域的研究人员具有参考意义和实际应用价值。本书的研究成果也可以应用于考古研究、多媒体娱乐和计算辅助设计等相关领域。

    本书提出了双通道的文本生成人脸图像方法。文本生成人脸图像任务主要有两个目标:一是生成逼真的人脸图像,二是让生成的人脸图像与输入文本保持语义一致。文本生成人脸图像的研究尚处于起步阶段,现有方法生成的人脸图像质量还有较大的提升空间。为了进一步提升从文本生成人脸图像的质量,本书提出了基于双通道的生成对抗网络来提升生成的人脸图像与输入文本语义的一致性,同时引入基于图像特征的损失函数来提升生成人脸与目标人脸的相似性。大量对比实验结果表明,本书提出的算法在文本生成人脸图像任务上优于当前最优算法,同时在文本生成图像的公开数据集(Caltech-UCSD Birds 200,CUB)上达到了当前最优水平。本书所提出的方法生成的图像与输入文本语义的一致性、多样性和逼真度等较出色。

    本书提出了基于跨模态注意力的属性单词生成人脸图像方法。文本生成人脸图像是通过完整结构的语句生成人脸图像,当前该任务还面临两大挑战:第一,缺乏大规模的文本生成人脸图像的数据集;第二,生成图像质量易受输入文本句式及非属性词汇的影响。针对这两个问题,本书研究了基于属性单词的人脸图像生成方法,其输入是面部属性描述的单词序列不受句式和非属性词汇的干扰。本书基于两个大规模公开人脸数据集CelebA和LFW新构建了属性单词生成人脸图像的数据集。为了探究属性单词与人脸图像的映射关系,本书设计了一种基于跨模态交叉注意力融合的生成对抗网络,其中主要包含单词特征转换和跨模态交叉注意力融合两个创新模块。丰富的对比实验表明,本书提出的方法不仅在属性单词生成人脸图像任务上达到当前最优,应用于文本生成图像任务时也达到了当前先进水平。

    本书提出了基于自注意力机制的人眼生成人脸图像方法。人眼图像生成人脸图像任务的目标是根据眼部图像生成与原始人脸相似的人脸图像。根据局部的眼部特征预测全局的人脸特征是一项具有挑战性的工作,现有方法根据眼睛生成的人脸图像还存在面部特征残缺、与目标人脸相似度低和模糊等情况。针对这些问题,本书提出了一种基于自注意力机制的生成对抗网络,以构建人眼到人脸图像的映射,并引入感知损失函数以进一步提升生成人脸与原人脸的相似性。定量和定性的实验结果表明,本书提出的方法优于现有算法。

    本书提出了联合人眼图像和属性单词生成人脸图像方法。现有方法表明能够根据人眼图像生成较为真实的人脸图像,但难以准确预测出与眼部关联度低的嘴型、胡须、发型和鼻子等面部特征。针对现有人眼图像生成人脸图像方法不具备对生成人脸图像再次编辑和优化功能的问题,本书提出了联合人眼和属性单词生成人脸图像的方案。该方案是一个包含两阶段生成任务的生成对抗网络,第一阶段仅根据人眼图像生成一个初始人脸图像;第二阶段引入属性单词,对生成的初始人脸图像进行编辑和优化。为了开展相关研究工作,本书基于公开的人脸数据集新构建了一个包含13万个人眼图像、属性单词和人脸图像的三元组数据集。大量实验结果表明,相比现有人眼生成人脸图像方法,所设计的引入属性单词来优化从人眼图像生成的人脸图像方法能够有效提升重构人脸图像的质量。此外,可再次编辑和优化的功能符合实际业务的流程和需求,且更具实际应用价值。

    在撰写本书的过程中,作者得到了很多专家、学者的支持与帮助,尤其感谢何小海教授、卿粼波教授、陈祥博士、李一平博士等。同时,作者衷心希望本书能够得到广大读者的认可与喜爱,并期待在未来的研究与实践中共同推动人脸图像生成领域的发展与进步。

    作 者

    2025年3月

    前言
    第1章 绪论 1
    1.1 研究背景及意义 1
    1.2 研究现状 4
    1.2.1 基于图像到图像翻译的人脸图像生成 4
    1.2.2 文本和属性生成人脸图像 7
    1.3 关键问题及解决思路 8
    1.4 本书的主要研究内容 11
    1.5 本书的组织结构 14
    第2章 人脸图像生成相关算法及理论基础 17
    2.1 生成对抗网络基本原理 17
    2.1.1 生成对抗网络 17
    2.1.2 条件生成对抗生成网络 19
    2.1.3 自注意力生成对抗网络 19
    2.2 图像到图像转换原理及算法 21
    2.3 文本生成图像原理及算法 23
    2.3.1 单生成器网络的文本生成图像方法 24
    2.3.2 多生成器网络堆叠的文本生成图像方法 25
    2.4 人脸图像生成原理及算法 27
    2.4.1 人脸图像属性编辑 27
    2.4.2 人脸风格迁移 28
    2.4.3 人脸图像补全 28
    2.4.4 文本生成人脸 29
    2.5 本章小结 31
    第3章 基于孪生通道的文本生成人脸图像算法 32
    3.1 引言 32
    3.2 基于孪生通道的从文本生成人脸图像方法 35
    3.2.1 文本编码器 37
    3.2.2 孪生通道生成器 37
    3.2.3 鉴别器 41
    3.2.4 损失函数 41
    3.3 实现细节 44
    3.3.1 数据准备 44
    3.3.2 评价指标 45
    3.3.3 实验设置 48
    3.4 实验结果及分析 49
    3.4.1 文本生成人脸实验 49
    3.4.2 文本生成图像实验 55
    3.4.3 消融实验 60
    3.5 本章小结 62
    第4章 基于交叉注意力的属性单词生成人脸图像算法 64
    4.1 引言 64
    4.2 基于交叉注意力的属性单词生成人脸图像方法 67
    4.2.1 三阶段生成基础网络 69
    4.2.2 单词特征变换模块 70
    4.2.3 交叉注意力融合模块 72
    4.2.4 损失函数 74
    4.3 实现细节 76
    4.3.1 数据准备 77
    4.3.2 评价指标 78
    4.3.3 实验设置 79
    4.4 实验结果及分析 80
    4.4.1 属性单词生成人脸图像实验 80
    4.4.2 属性向量生成人脸图像实验 85
    4.4.3 文本与属性单词生成人脸图像对比实验 87
    4.4.4 文本生成图像实验 89
    4.4.5 消融实验 91
    4.5 面部属性优化及实验结果分析 94
    4.6 本章小结 98
    第5章 基于自注意力双循环的人眼生成人脸图像算法 100
    5.1 引言 100
    5.2 基于自注意力双循环的人眼生成人脸图像方法 103
    5.2.1 基线网络:BicycleGAN 104
    5.2.2 基于自注意力双循环的人眼生成人脸图像生成网络 105
    5.3 实现细节 110
    5.3.1 数据准备 111
    5.3.2 评价指标 112
    5.3.3 实验设置 113
    5.4 实验结果及分析 114
    5.4.1 可视化对比分析 114
    5.4.2 定量对比分析 118
    5.4.3 计算时间和综合性能分析 121
    5.4.4 蒙面人脸重建分析 123
    5.5 本章小结 124
    第6章 属性引导可编辑的人眼生成人脸图像算法 126
    6.1 引言 126
    6.2 属性引导可编辑的人眼生成人脸图像方法 129
    6.2.1 基于AU-Net的人眼生成人脸图像(阶段Ⅰ) 130
    6.2.2 基于属性单词的人脸图像优化与编辑(阶段Ⅱ) 133
    6.2.3 总损失函数 137
    6.3 实现细节 137
    6.3.1 数据准备 138
    6.3.2 评价指标 140
    6.3.3 实验设置 142
    6.4 实验结果及分析 143
    6.4.1 属性引导可编辑的人眼生成人脸图像实验 143
    6.4.2 目标属性生成的可视化分析实验 145
    6.4.3 EA2FGAN工作原理的可视化分析实验 146
    6.4.4 消融实验 149
    6.5 本章小结 150
    第7章 总结与展望 152
    7.1 研究总结 152
    7.2 研究展望 155
    附录A 缩略语对照表 157
    附录B 符号对照表 159
    参考文献 160
    作者科研成果简介 178





最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
注册