致远魔术家庭场景中文语音数据集挑战
浏览:338 时间:2022-2-11

随着智能设备的兴起,如手机语音助手、智能扬声器、车载语音助手和陪伴机器人,语音交互技术正惠及我们生活的越来越多的方面。人工智能和机器学习也为家庭生活提供了更多的可能性。在可预见的未来,人们将逐渐习惯于解放他们的双手,并且可以通过一些语音命令远程控制扬声器、电视、空调和其他设备。近年来,许多公司开始规划与智能家居相关的业务,这极大地促进了家庭场景中语音识别技术的研究。相关领域的一些比赛也吸引了越来越多的关注。近日,北京致远人工智能研究所和艾数字智慧联合举办了首届“致远-魔法科技网中文语音数据集挑战赛”。本次比赛由biendata人工智能竞赛平台主办。致远-Magicspeechnet家庭场景中文语音数据集挑战赛的原创设计源于智能家居中的语音交互场景。由于噪声、混响、多说话人混叠等复杂因素的影响,这种场景下的语音识别一直是识别领域的一大难点,也是语音识别技术产品化过程中亟待解决的问题。多亏了kaldi、espnet、OpenTransformer和其他开源工具,对语音识别领域不熟悉的学生可以找到解决这场竞争的办法。然而,如果我们想在数据处理、系统框架选择、模型选择和优化方面找到更好的解决方案,即使是在这一领域有一定经验的研究人员和工程师也需要花费一些时间和精力。本次比赛使用的“致远MagicSpeechNet家庭场景中文语音数据集”是由艾数码智慧提供的,其中包括两个人在真实环境中的数十次对话,每次对话都是基于不同的平台进行录制的,比如不同的手机和录音机。这些数据模拟了真实的家庭对话场景,说话者以一种轻松、无脚本的方式围绕选定的话题自由交谈。因此,语音中会存在一些非平稳噪声和多说话人混叠。为了确保丰富而均衡的声音特征,录制该数据集的扬声器来自中国大陆的不同地区,同时保持扬声器年龄和性别的平衡。参与者需要利用比赛提供的数据对模型进行训练和优化,从而提高模型在家庭场景中的语音识别准确率。家庭场景中的语音识别会受到复杂环境因素的影响:语音中可能存在多种噪声干扰,如电视声、音乐声、水流声等;远场空间混响的影响;当有许多家庭成员时,多说话人的影响会使声音走样;用户个性化差异的影响,其中比较明显的问题是口音或广场