对话式语音合成(Conversational Speech Synthesis,CSS)旨在在对话环境中以适当的语调、语气和情感进行语音表达。然而,由于情感对话语音数据集的缺乏和情感建模的困难,之前的研究对于情感理解和情感表达问题的研究还不够深入。我校计算机学院(软件学院)刘瑞研究员团队联合字节跳动(新加坡)公司研究团队,提出了一种新颖的情感对话语音合成模型,名为ECSS,显著提升了对话场景下合成语音的自然度以及情感表现力。
首先,对于对话情感理解,引入了一种基于异构图的情感上下文建模机制,以对话文本、语音、说话人身份、情感类别和情感强度等多源对话历史知识作为输入,对对话上下文进行建模,以准确的理解对话上下文中的情感线索。其次,对于对话情感表达,提出基于对比学习的情感渲染器模块,以准确推断目标话语的情感风格,从而实现准确的对话情感渲染。实验结果表明,我们的模型在对话语音自然度和情感表现力方面明显优于基线模型,为对话式人工智能的发展提供了新的思路。
文章作者包括:刘瑞研究员(第一作者),2023级博士生胡一帆(导师外第一作者),以及新加坡字节跳动公司青年科学家任意。这项研究得到了国家自然科学基金青年基金、内蒙古自治区“草原英才”工程项目、自治区留学人员创新创业启动支持计划、广东省数字孪生人重点实验室(华南理工大学)开放课题、内蒙古大学骏马计划高层次人才引进项目、内蒙古自治区本级引进高层次人才科研支持等项目的支持。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
星舰造型还有智驾 十一代索纳塔将于29日下线V健康大空间极狐阿尔法T5
肉嘟嘟的小女孩练舞视频好治愈,谁说只有瘦瘦的女孩才好看,你看肉嘟嘟也超可爱。
萌娃雪地里“婴儿婴语” ,噼里啪啦说一堆把妈妈说懵了,网友帮忙翻译出来了
地址:马鞍山经济技术开发区湖东南路555号众一创意街区4栋201-202
电话:15955552931
邮箱:admin@masydzp.com