5月23日,国际权威杂志international journal of computer vision(ijcv)在线发表了信息科学与技术学院刘博老师题为“group collaborative representation for image set classification”的研究论文,刘博为论文的第一作者。ijcv为计算机视觉领域顶级期刊之一(影响因子11.541,属于一区top期刊)。本研究针对图像集数据的结构特点提出了完整的图像集分类算法框架,并通过理论分析和实验对比验证了该框架的有效性。该研究成果可用于视频人脸识别,多角度物体识别等任务。
随着图像获取和传输技术的发展,大量数据以集合形式存在。图像集分类任务是在给定一定数量的训练集合的前提下,预测每一个测试集合的类标。图像集数据来源多样(图1),如一段人脸视频可以认为是一个图像集,集合由视频中的若干帧组成,此时的图像集分类任务被特化为基于视频的人脸识别问题。不仅如此,只要内在具有某种关联性的数据都可以构成一个集合,如某一物体多角度的图片,或者某一用户的个人相册等。与单幅图像相比,图像集在提供待分类对象丰富信息的同时,还可以简化分类流程,降低标注负担,但复杂的集合内变化也提升了分类难度。图像集分类的主要挑战在于两点,一是如何建模图像集,二是如何度量集合间的相似性。
刘博提出了基于组协作表示(gcr)的图像集分类框架(图2)。该框架首先利用子空间聚类算法从训练集合中抽取多个子空间结构,进而获得单幅训练图像到多个训练集合的表示(point-to-sets representation,pssr)及单个测试集合到多个训练集合的表示(set-to-sets representation, sssr)。与已有的集合分类方法相比,gcr可以更有效的捕捉集合结构并减少信息损失。特别是pssr使用所有数据参与训练,可有效处理集合内含有图像不足的情况。而sssr一方面可以改善对测试集合分类投票的鲁棒性,另一方面可以提升测试阶段的效率。
文章截图
图1图像集数据样例
图2图像集分类整体框架
作者:信息科学与技术学院韩宪忠 编辑:宣传部