ICCV 2023:基础医学八年制博士生邵世豪(崔庆华课题组)与合作者提出图像检索领域革新性方法


计算机视觉是一门让计算机理解“看到的信息”的科学,是人工智能的热点领域,在各种视觉任务包括医学影像的智能分析中有重要应用。图像检索 (Image Retrieval) 是计算机视觉领域中的一个热点方向。所谓“图像检索”是匹配一个物体的特定实例而不是以往简单识别出所属类别的计算机视觉任务,其在广泛性图像检索与配对领域(如百度识图、谷歌识图)中有巨大的应用前景,此外该类计算机视觉算法在医学影像智能分析领域也有巨大的潜在应用价值。

2023年7月18日,北京大学基础医学院基础医学八年制博士生邵世豪(崔庆华教授课题组)与谷歌研究部 (Google Research) 由首席软件工程师 (Principal Software Engineer) 周臻颢 (Howard Zhou) 领导的团队进行了合作,共同提出了图像检索的新范式,达到了在Revisited Oxford & Paris及Google Landmark Datasets上的世界最领先水平 (State-Of-The-Art),同时还带来了万倍级的速度提升。相应论文 “Global Features are All You Need for Image Retrieval and Reranking” 已被世界公认的计算机视觉三大顶级会议之一的International Conference of Computer Vision (ICCV 2023) 所接收。在计算机与信息科学领域,ICCV等顶级会议在学界与工业界被广泛高度认可。

图像检索的传统范式包含两阶段,分别是利用全局特征进行的粗分,以及后续利用局部特征进行的重排序。重排序能够很好地在粗分的基础上提升模型的准确率,但是局部特征的处理带来了巨大的计算压力,让完整的模型推理过程效率不佳。本研究提出了一种仅依靠全局特征进行上述两阶段高性能处理的新范式,命名为SuperGlobal。其灵感源于对于图像检索领域GeM pooling的再思考,通过对其中范数计算思想的改造,提出了诸多模块优化了现有的粗分和重排序阶段。

4af8fcf0615a4d699580295e5f42c037.jpg


图1. SuperGlobal的大体结构,左侧标注的GeM+, Regional-GeM, Scale-GeM优化了图像检索的粗分阶段,右侧的绿色部分概括地描述了作者提出的重排序过程。

该研究通过分析GeM参数p不能优化到最优点的性质,进行了原因分析,提出了两点命题与相应备注进行解释,如下所示(请参考arXiv v1版本):

b52b496fea9b4c5699074f9ffc49a8f5.jpg

bb6d36f3c2e942c2a04e87110603d2d6.jpg



上述命题根据正负样本对应logits的梯度关系揭示了CurricularFace中的margin部分对于p值下降的异常推动。并提出了推理时优化参数p的解决方案,命名为GeM+。 此外,研究还通过GeM的思想更好地处理局部信息获取以及多尺度推理过程,分别提出了Regional-GeM以及Scale-GeM。其中,为了更好的融合局部信息,作者结合了Lp pooling,通过对Lp pooling与GeM的跳远连接来对局部和全局信息进行融合。而对于多尺度推理,本研究利用范数式平均来替换算术平均,使得特征融合过程更加激进,并通过引入偏移量ζ来规避负值下某些范数未定义问题,如下:

a25c9ea67a4f44619fff17c548cdfeb6.jpg


作者们还通过对常见激活函数ReLU在分段函数视角下的性质分析提出了推理时优化ReLU阈值的方案。针对重排序过程,该研究通过计算每个输入图像的靠前相近图像构建迷你数据库,并将GeM pooling的范数计算思想融入其中进行嵌入特征更新,如下图:


34319487d9394fba9419fc73367bdf81.jpg

图2. 重排序过程,SuperGlobal针对每一个查询图像构建迷你数据库,在将查询图像本身也加入的前提下,在每一个迷你数据集上进行DataBase-side Augmentation (DBA)过程,同时利用加权平均进行特征融合,之后查询图像特征在更新后的迷你数据集上进行Query Expansion (QE)过程,并将经过QE与之前的相似度计算结果进行平均。


实验结果表明,SuperGlobal达到了在Revisited Oxford & Paris及Google Landmark Datasets上的世界最领先水平 (State-Of-The-Art),同时还带来了六万倍级的速度提升。

1e7157c9164f46b1a95a0be8a3204b5e.jpg

表1. SuperGlobal(加入或不加入重排序部分)在ROxford, RParis上的表现,评价指标是mean Average Precision (mAP).

邵世豪博士生的个人方向主攻深度学习领域的研究,目前的兴趣主要集中在计算机视觉。本次合作研究由邵世豪博士生进行算法构思,课题设计,并统筹团队一同合作进行实验,崔庆华教授课题组提供的4枚A100 80G GPU以及谷歌方提供的21枚P100 GPU对实验的进行提供了硬件支持。本研究由邵世豪博士生与谷歌方的软件工程师Bingyi Cao共同担任第一作者与通讯作者,其他共同作者还包括北京大学基础医学院崔庆华教授、谷歌研究部的陈锴沣 (Kaifeng Chen)、Arjun Karpur以及Andre de Araujo,他们也都为本研究做出了贡献。其中,邵世豪博士生做出的课题设计,实验,写作的贡献被所有作者所认可并感谢,因此被排于共同第一作者和共同通讯作者的首位。针对于此,谷歌方面的作者们致以了感谢信:


7d3b2d6637934713a3c8e72f51ba42b1.jpg

论文链接:https://arxiv.org/abs/2308.06954

开源代码(以及Demo):https://github.com/ShihaoShao-GH/SuperGlobal


(基础医学院)