计算机学院（软件学院）刘瑞、张怀文研究员团队3篇论文被多媒体领域国际顶级会议录用

发布时间：2024-07-27 01:35:02 发布人：小编浏览量：

　　近日，我校计算机学院（软件学院）刘瑞、张怀文研究员团队3篇论文被ACM MM 2024录用。ACM MM 2024也称为第32届ACM国际多媒体大会，英文全称The 32nd ACM International Conference on Multimedia (ACM MM)是CCF推荐的A类国际会议。ACM MM 2024将于2024年10月28日至11月1日在澳大利亚墨尔本举行。本次录用的3篇论文研究内容涵盖对话语音合成、跨模态检索和模态增强语义建模等，以下为论文简述。

　　对话语音合成（CSS）旨在在用户-代理（User-Agent）对话设置中以适当的说话风格表达目标话语。现有的CSS方法采用有效的多模态上下文建模技术来实现移情、理解和表达。为了解决上述问题，论文提出了一种新颖的生成式表达式CSS大模型系统，称为GPT-Talker，将多轮对话历史的多模态信息转换为离散的标记序列，并将它们无缝集成，形成一个全面的用户-代理对话上下文。利用 GPT 的强大功能，预测代理响应的标记序列，其中包括语义和风格知识。之后，富有表现力的对话语音由对话丰富的 VITS 合成，以向用户提供反馈。

　　制作了一个名为NCSSD的大规模自然CSS数据集，包括即兴风格的自然录制的对话语音和从电视节目中提取的对线 NCSSD数据集构建过程

　　主观和客观评估都表明，这一模型在自然性和表现力方面明显优于其他最先进的CSS系统。代码、数据集和预训练模型可在以下网址获得：

　　文本三维运动序列检索是一项重要的跨模态任务，它旨在检索语义上与给定查询文本相似的运动序列。现有的方法主要利用单个嵌入来表示和对齐文本和运动序列。然而，运动序列通常包含多个具有复杂语义的原子运动，其语义很难通过单个全局嵌入精确捕获。此外，原子运动还会同时发生，耦合在一起。这进一步对有效对齐文本和运动序列提出了重大挑战。

　　为了解决多实例多标签学习问题，论文提出了一种新的多粒度语义交互方法，该方法可以在不同层级对齐文本和运动序列。利用图神经网络显式地建模它们的语义相关性，并在这些各自的层级上进行语义交互，精确地捕获多个粒度的语义。为了识别和建模同时发生的原子运动，测量运动之间的帧语义一致性，然后融合和交互一致的运动以改进它们的表示。最后，利用字符、实例和包级的语义交互来全面对齐文本和动作序列。所提出的方法在两个广泛使用的基准数据集取得了显著的改进。

　　文本到三维人体运动检索是一项重要的跨模态检索任务，旨在通过自然语言描述检索出语义相似的运动序列。传统方法在训练和测试阶段依赖于原始的粗粒度文本描述，这种描述缺乏对动作细节和相关身体部位的精确描述，导致跨模态对齐困难。此外，运动序列中包含连续的细微动作，这些动作往往发生在身体的局部，且变化幅度较小，传统方法难以准确识别和分辨这些细微的动作。

　　论文提出了“模态增强的语义建模”（MESM）方法，该方法分别从文本和人体运动两个模态进行语义增强。具体来说，在文本表示方面，MESM利用大语言模型将原始的粗粒度文本扩展成细粒度的文本描述，并通过设计合适的提示信息，确保文本描述按照动作的发生顺序详细描述相关身体部位的运动。在运动表示方面，MESM采用图卷积网络来对人体关节点进行建模，增强不同关节之间的空间依赖关系，同时聚合有代表性的运动特征，从而提升了模型对细微动作的捕捉能力。最终，通过对增强后的多模态特征进行细粒度对齐，实现高效的检索性能。实验结果表明，该方法有效地对齐了文本和运动模态的数据，显著提升了文本和三维人体运动的检索性能。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　社保入税动真格了！已有企业被警告！2024年，企业这些行为，再不收手就晚了！

　　语出惊人！美国总统候选人：若胜选将购买6150亿美元比特币与黄金国家储备相当

　　特朗普可能批准向乌克兰提供5000亿美元军事援助。他对乌克兰有何计划？

　　探索数字化转型与项目式学习——中国教师报课改中国行（英语）公益教研会在贵州兴义落幕！

　　与中坚力量共成长，2024建信信托艺术大奖评委会特别奖获奖艺术家凌海鹏IM电竞网站 IM电竞网站

原创文章地址：http://www.masydzp.com/news2/3310.html

上一篇：上海佳克计算机软件有限公司

下一篇：像素软件取得一种密钥管理方法、装置、计算机设备及可读存储介质专利能够在降低系统内存的同时生成并下发密钥