崔庆华团队提出通用图像嵌入新算法在谷歌通用图像嵌入研究竞赛中获得冠军

计算机视觉是一门让计算机理解“看到的信息”的科学，是人工智能的热点领域，在各种视觉任务中包括医学影像的智能分析有重要应用。近年来，实例级识别（Instance-Level Recognition，ILR）是计算机视觉领域新的研究热点。所谓“实例级识别”是识别一个物体的特定实例而不是以往简单识别出所属类别的计算机视觉任务，其在广泛性图像搜索与配对领域（如百度识图、谷歌识图）有巨大的应用前景，此外该类计算机视觉算法在医学影像智能分析领域也有潜在应用价值。其中，通用图像嵌入计算是实例级识别的基础，其性能直接影响识别效果。

近日，北京大学基础医学院医学生物信息学系崔庆华教授与博士生邵世豪同学在通用图像嵌入计算方法领域提出了新的算法，他们提出基于Laion-2B下CLIP预训练VIT-H的方案，建立了新的训练及微调方法，分析了特征向量空间不统一情境下模型融合方案和可行性，并且该算法在刚刚结束的Google Universal Image Embedding Competition（谷歌通用图像嵌入研究竞赛)中获得冠军。本次大赛是国际计算机视觉领域顶级会议之一的欧洲计算机视觉会议（European Conference on Computer Vision, ECCV）的指定竞赛，是每年一度的实例级识别的系列比赛，吸引了来自美国、德国、法国、日本、澳大利亚等多个国家的1022支队伍参赛。

本次竞赛的主页面

在本次比赛中，崔庆华教授与邵世豪同学所提出来的新算法最终以0.732和0.728的得分在公开数据与盲测数据排行榜中均获得第一名，方法细节公布在https://www.kaggle.com/competitions/google-universal-image-embedding/discussion/359316。鉴于以上优异成绩，二人还受邀参加将在以色列特拉维夫举办的欧洲计算机视觉会议，并在“实例级识别分会场（Instance-Level Recognition Workshop，ECCV）”进行现场口头演讲。所提出的算法对实例级图像目标识别任务有显著提升，并有望应用于医学影像的智能分析。

邵世豪是北京大学2017级基础医学八年制博士生，在崔庆华教授指导下，致力于提出新的人工智能算法解决计算机视觉领域的难题，并应用于医学影像智能分析与处理，其所提出的算法先后在阿尔茨海默病诊断（华为云阿尔茨海默病AI挑战赛冠军）和胃肠道肿瘤图像分割（University of Wisconsin UW-Madison GI Tract Image Segmentation竞赛金牌）有成功应用。该工作受到了国家杰出青年科学基金、国家自然科学基金委创新群体等基金的支持。

本次比赛成绩排名页面截图

（北京大学基础医学院）