祝贺公司2篇论文获ACM MM 2025录用

时间:2025-07-09作者:张冕琳 宋晨玮文章来源:世俱杯买球官网网站浏览:10

近日,世俱杯买球官网网站大数据科学团队2篇论文获第33届国际多媒体大会(ACM MM 2025)录用,会议将于20251027-31日在爱尔兰都柏林举行。ACM MM是计算机科学领域顶级学术会议,为CCF推荐A类会议。

题目:WFF: Wavelet-based Information Fusion for Multimodal Knowledge Graph Link Prediction


作者:徐晓迪,李丽洁,王也,任涛,乔天


工作简介:多模态链接预测是一种融合结构化知识与非结构化信息的知识图谱推理任务,旨在利用多个模态信息提高实体、关系预测的准确性。然而,现有多模态知识图谱链接预测方法聚焦于在空间域中对实体的文本、图像与结构三种模态信息进行建模,针对模态间原始信号所呈现的高度异质性,通常依赖于复杂的跨态交互机制以实现知识融合。为解决上述问题,本文提出一种基于小波变换的多模态知识图谱链接预测方法WFFWavelet-based Filter&Fusion),该方法在时频域中将原始信号分解为正交的时频分量,不同模态特征被映射至正交函数空间中具有差异性的分布表示,通过对不同模态的多尺度时频信息进行自适应滤波以抑制模态内无关成分,有效避免了空间域中复杂的噪声抑制过程;该方法同时结合可学习门控机制与多模态时频最大绝对值选择策略,在时频域内高效融合结构、文本、图像、音频与视频等多种模态间的互补信息,从函数空间层面解决多模态融合过程中的分布对齐难题。在实现单模态时频知识增强与多模态时频知识融合的基础上,该方法进一步通过逆离散小波变换将单模态与融合后的时频表示重构至空间域,并基于其空间嵌入完成决策融合。


本论文首次提出的多模态时频域知识表示学习模型在降低模态融合复杂度的同时,提升了链接预测方法的可解释性与模态扩展性,为多模态知识建模提供了更为简洁且泛化性强的解决方案。在多个公开数据集上的大量实验表明,WFF在链接预测任务上的性能显著优于现有最先进方法。


该项成果支持结构化知识与非结构化信息共存的复杂多模态场景,可广泛应用于航空装配工艺知识挖掘、船舶系统故障诊断、工业设备智能运维等关键任务,能为多源异构数据驱动的智能分析与决策提供可靠的技术支撑。

题目:CrosSTCross Swin 4D Transformer for Multi-modal Alzheimer's Detection


作者:王昊,李瀚霄,徐丽


工作简介:多模态高维脑成像数据的时空动态建模任务给神经科学领域带来了巨大的挑战。近期的工作通常结合注意力机制进行层次化建模,但时空特征的逐步提取存在特征孤立问题,且基于注意力的融合机制(如Cross attentionCA)更倾向于学习不同模态间的自相似性信息,对差异化模态之间的互补性信息挖掘不足。为了应对这些挑战,本文提出了Cross Swin 4D TransformerCrosST),可以通过端到端的方式高效的学习多模态高维脑成像数据的时空模式。CrosST独有的Diffusion Cross attention融合机制在计算注意力的过程中,通过扩散策略连接不同模态的特征,传递模态间的差异信息,从而实现多模态耦合特征的深层次融合。同时,采用对应体素交互策略减轻了融合过程中的计算负担。此外,CrosST采用4D移动窗口技术有效结合了局部和全局信息,并设计了创新性的4D-Mamba算法提升了计算效率。本文采用了大规模阿尔兹海默症数据集,并设计了多粒度的认知阶段任务进行验证,结果证明了CrosST的有效性。


该项成果支持具有差异化的高维多模态数据间耦合信息的高效提取,不仅突破了传统注意力机制在模态互补性挖掘方面的局限性,还显著提升了多模态数据建模的表达能力与泛化性能。该方法可广泛应用于生物医学工程、脑疾病智能诊断、医学影像分析、个体化认知评估等关键任务场景,有助于推动复杂疾病的精准识别与分型。同时,CrosST所提出的Diffusion Cross attention等创新机制为多模态学习理论与算法的发展提供了全新思路和技术路径,对未来多模态数据深度融合、异构信息耦合及跨领域智能分析等研究方向具有重要的参考价值和推广意义。

Baidu
sogou