燃文小说 > 玄幻小说 > 该书审核已经通过fxl > Cascade CNN包含三级全文阅读

Cascade CNN包含三级

这是一个“看脸”的时代,一谈人脸技术,大家最为熟知就是人脸识别。该技术在金融、社保、教育、安防等领域表现活跃,成为AI技术领域的明星。优图微信公众号之前也重点介绍过优图人脸识别,本文主要介绍一些背后默默支持人脸识别的技术。

一般而言,一个完整的人脸识别系统包含三大主要组成部分,即人脸检测、人脸配准以及人脸识别。三者流水线操作:人脸检测在图像中找到人脸的位置,接着人脸配准在人脸上找到眼睛、鼻子、嘴巴等面部器官的位置,最后人脸识别抽取特征与既有人脸比对计算相似度,确认人脸对应的身份。

解密:智能美妆和动效自拍背后的技术

图1 人脸识别流程

1. 人脸配准简介

人脸配准(Face Alignment)又称人脸特征点检测与定位。人脸特征点不同于角点或SIFT特征点等通常意义上的图像特征点,人脸特征点通常是一组由人工事先定义的点(见图2)。根据不同应用场景,特征点有不同的数目,例如5点,68点,82点等。

解密:智能美妆和动效自拍背后的技术

图2 人脸特征点检测与定位中常用的目标检测点

除了在人脸识别系统中起关键作用之外,人脸配准技术也在3D人脸建模,人脸动画,人脸表情分析,人脸美化与虚拟化妆,人脸自拍动效等领域得到了广泛的应用。打个小广告,优图人脸配准跟踪技术性能卓越,主流手机单帧处理速度可达到3ms以内,已经在“天天p图-动效自拍”、“手机QQ-短视频”、“手机QQ-视频聊天”“手机Qzone-动效相机”等应用场景落地。

解密:智能美妆和动效自拍背后的技术

图3 人脸美化与虚拟化妆

2.人脸配准研究现状

传统人脸配准研究

和其他人脸技术类似,光照、头部姿态、表情等的变化,以及遮挡都会很大程度影响人脸配准的精度。但是人脸配准也具有自身特点,首先特征点描述了人脸的结构(轮廓和五官),人脸结构是完整稳定的,五官相对位置固定;其次,头部姿态、表情等变化造成的特征点位置变化明显。传统人脸配准研究需要一直尝试寻找更加精准的特征描述来表达这种既确定又变化的点的组合,再根据描述符选择适当的优化求解方法,从而定位人脸特征点。

最直接被采用的特征描述符是颜色、灰度,利用肤色的不同对人脸各部分进行检测定位。 稍复杂些可选择各种纹理特征描述,如基于类Haar纹理特征和Adaboost训练级联分类器的人脸配准。以上特征描述都没有考虑特征点之间的位置关系,因此不具备维持合理的人脸结构。主动形状模型(Active Shape Models, ASM)和主动外观模型(Active Appearance Model, AAM)可以同时表达纹理和形状(shape)两种特征。

二者的形状特征都由点分布模型(Point Distribution Model, PDM)来表达。图4为600张人脸图像中人脸特征点的统计分布图,红点表示各特征点的均值。ASM的每个特征点的纹理特征是分别表示的,通过计算特征点周围邻域纹理信息生成每个特征点对应的响应图(Response Map)。图5中蓝色圈定区域用于计算响应图,红点指示实际人脸特征点位置。AAM使用整体人脸来描述纹理特征,通过将人脸特征点位置变换到标准形状上,得到与形状无关的人脸纹理,并基于主元分析方法对形状无关的人脸纹理进行建模。

解密:智能美妆和动效自拍背后的技术

深度人脸配准研究

从2006年开始,深度神经网络已经逐步在计算机视觉、语音识别和自然语言处理等多个领域取得了前所未有的成功,同样也给人脸配准研究带来了习习春风。学者们无需再挖空心思构建各种繁琐复杂的人脸描述符了。目前学术界工业界比较认可的深度人脸配准方法有两类:级联卷积网络人脸配准(Cascade CNN) 和多任务深度人脸配准。

如图6所示,Cascade CNN包含三级,每级包含多个卷积网络。第一级给出一个初始点位置估计,在此基础上后两级精细调整特征点位置。多任务配准将配准与其他相关人脸属性的训练同时进行。与脸部特征点相关的属性包含头部姿态,表情等,比如笑脸的嘴部很可能是张开的,正面脸特征点则对称分布。多任务有助于提升特征点检测定位精度。然而不同的任务会有不同的收敛速度和难度,训练难度加大。目前学界提供了两种解决方案调整不同的任务的训练进程:任务提早终止准则(task-wise early stopping criterion)和参数动态控制机制。

解密:智能美妆和动效自拍背后的技术

图6 Cascade CNN 网络模型

3.优图人脸配准

不同应用场景的人脸配准

学术界人脸配准的研究日新月异,工业界产品应用对技术的要求也越来越高,且不同应用场景对人脸配准提出了不同的要求。

人脸识别业务的核心问题是人脸图像像素之间高层语义的对齐,即人脸关键特征点的定位。错误的特征定位会导致提取的人脸描述特征严重变形,进而导致识别性能下降。为了更好地支持人脸识别,我们加大了人脸框的变化的范围,以减少对人脸检测框大小的依赖。人脸特征点我们选择五点,既保证一定的人脸结构描述能力,又减小了配准误差对人脸识别的影响。这是一个“看脸”的时代,一谈人脸技术,大家最为熟知就是人脸识别。该技术在金融、社保、教育、安防等领域表现活跃,成为AI技术领域的明星。优图微信公众号之前也重点介绍过优图人脸识别,本文主要介绍一些背后默默支持人脸识别的技术。

一般而言,一个完整的人脸识别系统包含三大主要组成部分,即人脸检测、人脸配准以及人脸识别。三者流水线操作:人脸检测在图像中找到人脸的位置,接着人脸配准在人脸上找到眼睛、鼻子、嘴巴等面部器官的位置,最后人脸识别抽取特征与既有人脸比对计算相似度,确认人脸对应的身份。

解密:智能美妆和动效自拍背后的技术

图1 人脸识别流程

1. 人脸配准简介

人脸配准(Face Alignment)又称人脸特征点检测与定位。人脸特征点不同于角点或SIFT特征点等通常意义上的图像特征点,人脸特征点通常是一组由人工事先定义的点(见图2)。根据不同应用场景,特征点有不同的数目,例如5点,68点,82点等。

解密:智能美妆和动效自拍背后的技术

图2 人脸特征点检测与定位中常用的目标检测点

除了在人脸识别系统中起关键作用之外,人脸配准技术也在3D人脸建模,人脸动画,人脸表情分析,人脸美化与虚拟化妆,人脸自拍动效等领域得到了广泛的应用。打个小广告,优图人脸配准跟踪技术性能卓越,主流手机单帧处理速度可达到3ms以内,已经在“天天p图-动效自拍”、“手机QQ-短视频”、“手机QQ-视频聊天”“手机Qzone-动效相机”等应用场景落地。

解密:智能美妆和动效自拍背后的技术

图3 人脸美化与虚拟化妆

2.人脸配准研究现状

传统人脸配准研究

和其他人脸技术类似,光照、头部姿态、表情等的变化,以及遮挡都会很大程度影响人脸配准的精度。但是人脸配准也具有自身特点,首先特征点描述了人脸的结构(轮廓和五官),人脸结构是完整稳定的,五官相对位置固定;其次,头部姿态、表情等变化造成的特征点位置变化明显。传统人脸配准研究需要一直尝试寻找更加精准的特征描述来表达这种既确定又变化的点的组合,再根据描述符选择适当的优化求解方法,从而定位人脸特征点。

最直接被采用的特征描述符是颜色、灰度,利用肤色的不同对人脸各部分进行检测定位。 稍复杂些可选择各种纹理特征描述,如基于类Haar纹理特征和Adaboost训练级联分类器的人脸配准。以上特征描述都没有考虑特征点之间的位置关系,因此不具备维持合理的人脸结构。主动形状模型(Active Shape Models, ASM)和主动外观模型(Active Appearance Model, AAM)可以同时表达纹理和形状(shape)两种特征。

二者的形状特征都由点分布模型(Point Distribution Model, PDM)来表达。图4为600张人脸图像中人脸特征点的统计分布图,红点表示各特征点的均值。ASM的每个特征点的纹理特征是分别表示的,通过计算特征点周围邻域纹理信息生成每个特征点对应的响应图(Response Map)。图5中蓝色圈定区域用于计算响应图,红点指示实际人脸特征点位置。AAM使用整体人脸来描述纹理特征,通过将人脸特征点位置变换到标准形状上,得到与形状无关的人脸纹理,并基于主元分析方法对形状无关的人脸纹理进行建模。

解密:智能美妆和动效自拍背后的技术

深度人脸配准研究

从2006年开始,深度神经网络已经逐步在计算机视觉、语音识别和自然语言处理等多个领域取得了前所未有的成功,同样也给人脸配准研究带来了习习春风。学者们无需再挖空心思构建各种繁琐复杂的人脸描述符了。目前学术界工业界比较认可的深度人脸配准方法有两类:级联卷积网络人脸配准(Cascade CNN) 和多任务深度人脸配准。

如图6所示,Cascade CNN包含三级,每级包含多个卷积网络。第一级给出一个初始点位置估计,在此基础上后两级精细调整特征点位置。多任务配准将配准与其他相关人脸属性的训练同时进行。与脸部特征点相关的属性包含头部姿态,表情等,比如笑脸的嘴部很可能是张开的,正面脸特征点则对称分布。多任务有助于提升特征点检测定位精度。然而不同的任务会有不同的收敛速度和难度,训练难度加大。目前学界提供了两种解决方案调整不同的任务的训练进程:任务提早终止准则(task-wise early stopping criterion)和参数动态控制机制。

解密:智能美妆和动效自拍背后的技术

图6 Cascade CNN 网络模型

3.优图人脸配准

不同应用场景的人脸配准

学术界人脸配准的研究日新月异,工业界产品应用对技术的要求也越来越高,且不同应用场景对人脸配准提出了不同的要求。

人脸识别业务的核心问题是人脸图像像素之间高层语义的对齐,即人脸关键特征点的定位。错误的特征定位会导致提取的人脸描述特征严重变形,进而导致识别性能下降。为了更好地支持人脸识别,我们加大了人脸框的变化的范围,以减少对人脸检测框大小的依赖。人脸特征点我们选择五点,既保证一定的人脸结构描述能力,又减小了配准误差对人脸识别的影响。(未完待续)