_Sugarless: May 2011

May 12, 2011

[论文笔记] Real-Time Human Pose Recognition in Parts from Single Depth Images

Paper：J. Shotton, A. Fitzgibbon, M. Cook, T. Sharp, M. Finocchio, R. Moore, A. Kipman, and A. Blake. Real-Time Human Pose Recognition in Parts from a Single Depth Image. In CVPR 2011. http://research.microsoft.com/apps/pubs/default.aspx?id=145347

问题描述：文章提出了一种从单张深度图中提取3D骨架节点的方法。这种方法并不使用动作的时序信息，但是快速有效，识别帧率在200fps左右（GPU加速后），精度不逊于现有算法。这也是Kinect动作识别的核心算法。
文章最主要的贡献在于：将Pose estimation作为Object recognition看待，提出了一种新颖的识别方法——将Body part segmentation问题作为基于像素的分类问题来处理，这样就不需要对不同节点组合进行搜索，但同时单一部位很可能在局部剧烈地变化。算法的计算复杂度低，精度高。文章的实验部分还论证了以下观点：1）作为训练用的深度数据，合成数据可以很好地代替真实数据；2）获得高精度的重要一步是扩大并丰富训练数据；3）文章中提出的基于部位的识别方法比模糊的精确最近相邻节点更具有通用性。

数据：
数据来源是几乎所有机器学习相关算法的头痛问题。对于动作识别，首先，出于对人物的着装、发型、材质等因素的多样性考虑，使用图形技术合成的训练图片在色彩和材质等方面均有很大的变数，使用深度图片虽然能避免一部分变数，但由着装和发型等带来的形状差异却无法规避；其次，驱动人物的动作数据本身均不可避免地来自Motion capture，这使得获取大量动作的工作量变得很大，虽然有一些技术致力于模拟人物动作，但至今尚不能解决人物主动运动的问题。
文章的真实深度图片来自于Kinect深度相机，由Primesense提供技术支持，是一种基于不可见近红外光的结构光深度恢复技术。这种深度摄像头可以在低光强度的环境下工作，提供一种标定尺度的深度估计，对色彩和纹理不敏感，可以天然地应对轮廓中的遮挡，最重要的是使得前背景分离问题变得简单，并且合成深度训练图也是相对直接简单的。文章的训练深度图片使用Mocap数据绑定多种不同的模型渲染生成。为了保证数据的多样性，在从大规模采集的数据中随机时，定义姿势之间的最小距离；对应人体部位识别的方法，训练数据的纹理也根据既定的分块着色，如下图所示。最终生成约100k frame训练数据。

部位标识 / 部位识别 / 骨架生成：
部位标识的精度是可以根据需求自由定义的。文章中使用31个部分的部位标识：头4部分、脖子、2个肩膀等。
部位识别基于像素，即对每一个像素识别其所属部位。特征选择和识别算法引用了Lepetit等05年的工作（点我）：特征选用简单的深度比较特征，识别算法使用多类随机决策树，树节点test为特征值是否大于某一阈值。训练过程微软采用了10million张图片，每张均匀随机2000个样本像素，训练了3棵20-depth的树，训练过程采用分布式实现，在1000核cluster上运行了约一天。（这个time consumption +_+）
骨架生成是基于像素部位分类和像素深度的聚类，使用加权高斯核的Mean-shift算法。这样得到的骨架节点在人体表面，之后需要有一个z值的向后偏移，才能得到正确的3D骨架节点。这个偏移值可以通过各个部位的分别学习获得。

效果：
简单的说，算法效率实时，效果不错。至少这是做了这么多年，第一次实时又有效的几乎万能动作识别算法。
像素级部位标识的精度在50-60%之间，整体骨架的精度大多部位在90%以上，wrist和hand的识别率较低，在80%以上。算法表现出样本越多，精度越高的现象（废话），且在大样本前提下over-fit的现象也能被避免。

这个文章的工作在本年会完全follow一次，末了再写个详细的算法评价。

May 10, 2011

[论文笔记] Randomized Trees for Real-Time Keypoint Recognition

Paper：V. Lepetit, P. Lagger, and P. Fua. Randomized Trees for Real-Time Keypoint Recognition. In Proceedings of the Conference on Computer Vision and Pattern Recognition, San Diego, CA, June 2005.

问题描述：文章是作者在前作基础上（04年ICCV）的完善之作，研究广泛意义上的特征点匹配问题，应用于相机定标、目标检测等各种领域。特征点匹配算法发展到现在，虽然对形状、视点、光照等变化及遮挡等逐渐变得鲁棒，但是没有算法引入过目标的三维信息和可能可以获得的训练图片等，匹配效果还有较大的提升空间。文章提出的算法引入了这些额外的信息，离线合成目标稳定特征点的各个视角，实时通过多类随机决策树将检测到的特征点分类（识别对应视角），最终使用RANSAC-method估计目标的3D姿态，达到匹配的目的。算法有效、实时、鲁棒。

训练数据的获取
对于立体目标，至少需要2张训练图片；对于平面目标，至少1张。对于目标的每一个特征点，生成其在各个视点下以其为中心的patch合集，如下图所示。假设目标是平面的，简单的仿射变换即可，定义缩放、选择、扭曲等参数，通过随机参数的方式生成样例；但对于立体的目标，至少需要2张不同视角的图片，用于重建目标的三维模型，再通过渲染技术生成样例（或者像google街景一样使用基于图像的渲染技术）。注：只适用于非凹体。所有的样本在训练之前还会进行高斯化、2D朝向估计与对齐的预处理，作为归一化的手段，使得分类更为容易。

特征点的选择和识别
在众多样本及实时数据中，由于目标的扭曲、视点遮挡等原因，特征点并不一直保持统一。出于鲁棒性的考虑，需要选择其中最稳定的特征点，即在大多数视点下都能被检测到的特征点。另外，合成的样本图片被加入白噪声（接近真实的相机拍摄结果）和噪声背景，使得训练结果天然地对图像噪声鲁棒。
特征点的识别，文章中使用的多类随机决策树（或随机决策森林），相对于前作中的KNN算法更为高效，而且天然地适用于多类分类的问题。决策树节点的test使用简单的像素亮度对比。在实时识别中，图像的每个特征点patch的分类，由从每棵决策树获得的分类置信分布的平均值决定（取其最大者）。当置信值小于某一阈值时，认为该特征点不与任一目标特征点匹配。

结果
文章称，训练20棵10-depth的决策树森林，在普通PC上需要约15min，能够达到至少80%的识别率。实时的识别速度能够达到camera frame的速度，也就是约30fps。微软在kinect的核心算法中也借鉴了这篇文章的思路，并使用GPU加速识别过程，最后加上基于mean-shift的骨架生成，也是实时的速度，因此文章所称的实时效率是可信的。在效果上，文章对比了SIFT算法，称在高distort的情况下，SIFT只能检测到很少的匹配特征点，而此算法依旧；但在处理Scale情况时没有SIFT鲁棒，但这与算法框架本身无关，只是因为在选择特征点时没有使用多scale的特征。

文章的亮点在于其算法框架，即将特征点匹配问题转化为特征点的分类问题。其次，通过渲染技术生成特征点在各个视点下的Patch，也很有新意。是一种逆问题与正问题的结合思路。而且，此算法的效率也十分美。不过，相对于其他特征点匹配算法，需要训练，即是它的创新，也是它的弱点。毕竟，想要获得好的结果，一两张训练数据总是不太让人信任的；况且，需要训练的算法，其通用性往往受到制约，其易用性也自然比不上拈来即可用的算法。但不可否认，这是一个很有意思的算法。