我校教师团队在图像/视频特征学习方向取得系列研究成果

发布时间:2024-02-20 供稿单位:信息科学与技术学院、科学技术处 撰稿:孔俊、孙艳辉 点击次数:

  近日,信息科学与技术学院孔俊教授团队通过对图像进行多尺度、多频率特征学习的策略,提出了一种去除图像模糊的方法。该方法利用深度学习神经网络框架,将图像不同尺度和高低频特征作为学习的目标,并设计了不同的损失函数对学习到的图像特征进行指导和监督,实现了高效的模糊图像复原任务。

  图像去模糊(Image Deblurring)的目的是从模糊图像中恢复图像的详细纹理信息或结构,是许多计算机视觉任务中不可缺少的步骤。目前大多数方法将重心放在处理不同尺度的图像特征上,并将模糊图像作为一个整体进行处理,忽略了区分图像频率,导致网络性能受到了一定限制。为了解决此问题,研究组提出了一种基于对比学习的多尺度分频去模糊网络(MSFS-Net),旨在学习图像的多尺度空间和频率信息,实现更加精细的图像去模糊任务。首先,MSFS-Net提出了特征频率分离模块(FSM),将图像特征分为低频和高频分量。通过将FSM模块嵌入编-解码网络结构中,MSFS-Net可以同时捕获不同频率和尺度的多种图像特征。其次,MSFS-Net提出了循环一致性策略和多尺度对比学习模块(CLM)来分别约束低频和高频特征。对于低频特征,MSFS-Net使用循环一致性损失进行监督。对于高频特征,使用基于对比学习的监督方式,逐步恢复不同尺度的特征。最后,MSFS-Net提出了一种跨尺度特征融合模块(CSFFM)以融合不同阶段的不同尺度特征,从而更好地利用多尺度信息进行去模糊。本项工作为高效的图像去模糊和其它图像复原任务提供了新颖的解决方案,相关成果以“Multi-Scale Frequency Separation Network for Image Deblurring”为题发表在工程技术领域著名期刊《IEEE Transactions on Circuits and Systems for Video Technology》(DOI: 10.1109/TCSVT.2023.3259393)上。第一作者博士生张燕妮还以该工作为主体参加吉林省研究生智慧城市技术与创意设计大赛,荣获一等奖。本文通讯作者王建中副教授获该项赛事“优秀指导教师”。

图:MSFS-Net网络结构图

  多年来,孔俊教授研究团队一直致力于面向图像/视频数据的特征学习研究。结合我校计算机科学与技术、数学、统计学等多专业融合的指导方向,围绕计算机视觉领域的核心问题,取得了系列重要科研成果:(1)构建了面向图像/视频等高维数据的低冗余特征选择准则并基于该准则设计了特征选择方法。解决了特征选择过程中的信息冗余问题,增强了高维数据特征选择的实用性和灵活性(Pattern Recognition, DOI: 10.1016/j.patcog.2012.11.025)。(2) 解决了图像/视频等高维数据特征提取过程中的图构建和图优化问题,丰富和完善了高维数据特征学习的理论模型 (IEEE T CSTV, DOI: 10.1109/TCSVT.2019.2892971; Neurocomputing, DOI: /10.1016/j.neucom.2017.03.046)。(3) 给出了半监督条件下图像/视频数据的特征学习方法,并将其应用于识别分析任务,有效提高了识别分析模型的准确性 (Neurocomputing,DOI:10.1016/j.neucom.2014.07.031)。

  研究团队先后在IEEE T CSTV, Pattern Recognition, Information Sciences, Neurocomputing, Multimedia Tools and Applications,ICASSP,ICIP,ICIC 等具有国际影响力和中国计算机学会推荐的国际期刊和会议上发表系列科研成果,培养博士研究生5名,授权发明专利4项(ZL202010716230.3,ZL201911333260.X,ZL201510777140.4等),博士生张燕妮,硕士生司雨获得校长奖学金,硕士生唐瑞获得国家奖学金和小米特等奖学金,部分科研成果获2023年度吉林省科学技术奖自然科学奖二等奖。