2024年10月28日至11月1日,第32届ACM国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM)在澳大利亚墨尔本举行。ACM MM会议是展示多媒体领域科学成就和创新工业产品的重要世界盛会,是多媒体处理、分析与计算领域具有影响力的国际会议,也是我国计算机学会(CCF)推荐的A类国际学术会议,该会议由国际计算机协会(ACM)发起。ACM MM 2024共收到4385份论文投稿,接收1150篇,录用率为26.23%。我院智能系刘袁缘,唐厂老师及团队两篇论文《Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting》、《Heterogeneous Graph Guided Contrastive Learning for Spatially Resolved Transcriptomics Data》被ACM MM2024接收并参会。
图1 刘袁缘老师(左)与其研究生黄玙璇(右)在参会现场合影
《Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting》引入了一个具有挑战性的基于开放集视频的面部表情识别(OV-FER)任务,旨在识别已知和新的,未见过的面部表情。提出了一种新的人类表达敏感提示(HESP)机制,以显着提高CLIP有效模拟基于视频的面部表情细节的能力。HESP包括三个部分:1)文本提示模块,包含可学习的提示,增强CLIP对已知和未知情绪的文本表示;2)视觉提示模块,利用表情敏感注意对视频帧的时间情感信息进行编码,为CLIP提供新的视觉建模能力,以提取丰富的情感信息;3)开放集多任务学习方案,促进文本和视觉模块之间的交互。提高对视频序列中新的人类情感的理解。在四种OV-FER任务设置上进行的大量实验表明,HESP可以显著提高CLIP的性能(AUROC上的相对提高17.93%,OSCR上的相对提高106.18%),并且大大优于其他最先进的开放集视频理解方法。代码可从https://github.com/cosinehuang/HESP获得。
图2 黄玙璇同学为参会者进行poster讲解
《Heterogeneous Graph Guided Contrastive Learning for Spatially Resolved Transcriptomics Data》构建了一个异构图引导对比学习(stGCL)来聚合空间转录组学数据。空间转录组学通过结合高通量基因测序和空间分辨率成像技术来分析与空间可变组织基因自然相关的基因,为细胞相互作用和疾病发展机制提供了革命性的见解。然而,现有的方法通常将聚合的多视图特征映射到一个统一的表示中,忽略了基因和空间信息的异质性和视图独立性。该方法利用细胞分子固有的异质性,通过跨视图域分布的比较学习损失来动态协调三级节点属性,从而在聚合过程中保持视图独立性。此外,还引入了一个跨视图分层特征对齐模块,该模块采用并行方法对分子结构的空间和遗传视图进行解耦,同时根据信息论对多视图特征进行聚合,从而增强了视图间和视图内的完整性。严格的实验表明,stGCL在各种任务和相关的下游应用中优于现有方法。
图3 唐厂老师团队论文Poster展示
黄玙璇同学参会后感悟良多:这是我第一次出国参加学术会议,ACM MM是国际上的顶级会议,我们的论文能被录用是我们的荣幸更是我们付出心血的回应,非常感谢刘老师指导我们完成这篇论文并带我出国看看外面的世界。在本次会议中我也认识了很多来自各大高校的硕博研究生们,在和他们交流的过程中,更感受到了我与他们之间的差距,当然这也是我今后学习工作中的动力,我会继续发扬勇于创新的精神,以顽强的毅力,攀登科研高峰,为学校为国家为社会贡献出自己的力量。另一方面,我感受到走出去进行学习交流是很有必要的,假如只是闷在实验室中大概率不会有理想的产出。希望之后可以参与更多的学术会议,提升自己各方面的能力,打开科研视野。
通讯员:李显巨
审核:李国昌