实时音视频通信 RTC 在成为人们生活和工作中不可或缺的基础设施后,其中所涉及的各类技术也在不断演进以应对处理复杂多场景问题,比如音频场景中,如何在多设备、多人、多噪音场景下,为用户提供听得清、听得真的体验。
作为语音信号处理研究领域的旗舰国际会议,ICASSP (International Conference on Acoustics, Speech and Signal Processing) 一直代表着声学领域技术最前沿的研究方向。ICASSP 2023 收录了多篇和音频信号语音增强算法相关的文章,其中,火山引擎RTC音频团队共有4篇研究论文被大会接收,论文方向包括特定说话人语音增强、回声消除、多通道语音增强、音质修复主题。本文将介绍这 4 篇论文解决的核心场景问题和技术方案,分享火山引擎 RTC 音频团队在语音降噪、回声消除、干扰人声消除领域的思考与实践。
《基于频带分割循环神经网络的特定说话人增强》论文地址:
(相关资料图)
https://ieeexplore.ieee.org/abstract/document/10097252
实时特定说话人语音增强任务有许多问题亟待解决。首先,采集声音的全频带宽度提高了模型的处理难度。其次,相比非实时场景,实时场景下的模型更难定位目标说话人,如何提高说话人嵌入向量和语音增强模型的信息交互是实时处理的难点。受到人类听觉注意力的启发,火山引擎提出了一种引入说话人信息的说话人注意力模块(Speaker Attentive Module,SAM),并将其和单通道语音增强模型-频带分割循环神经网络(Band-split Recurrent Neural Network,BSRNN) 融合,构建特定人语音增强系统来作为回声消除模型的后处理模块,并对两个模型的级联进行优化。
模型框架结构频带分割循环神经网络(BSRNN)频带分割循环神经网络(Band-split RNN, BSRNN)是全频带语音增强和音乐分离的 SOTA 模型,其结构如上图所示。BSRNN 由三个模块组成,分别是频带分割模块(Band-Split Module)、频带序列建模模块(Band and Sequence Modeling Module)和频带合并模块(Band-Merge Module)。频带分割模块首先将频谱分割为 K 个频带,每个频带的特征通过批归一化(BN)后,被 K 个全连接层(FC)压缩到相同的特征维度 C 。随后,所有频带的特征被拼接为一个三维张量并由频带序列建模模块进一步处理,该模块使用 GRU 交替建模特征张量的时间和频带维度。经过处理的特征最后经过频带合并模块得到最后的频谱掩蔽函数作为输出,将频谱掩蔽和输入频谱相乘即可得到增强语音。我们在每一个频带序列建模模块后添加了说话人注意力模块以构建特定人语音增强模型。
说话人注意力机制模块 (SAM)说话人注意力模块(Speaker Attentive Module)的结构如上图。其核心思想是使用说话人嵌入向量 e作为语音增强模型中间特征的吸引子,计算其和中间特征所有时间和频带上的相关度 s,称作注意力值。该注意力值将被用于对中间特征 h进行缩放规整。其具体公式如下:
首先通过全连接和卷积将 e 和 h 变换为 k 和 q:
k 和 q 相乘得到注意力值:
最后通过该注意力值缩放原始特征:
模型训练数据关于模型训练数据,我们采用了第五届 DNS 特定说话人语音增强赛道的数据以及 DiDispeech 的高质量语音数据,通过数据清洗,得到约 3500 个说话人的清晰语音数据。在数据清洗方面,我们使用了基于 ECAPA-TDNN[1]说话人识别的预训练模型来去除语音数据中残留的干扰说话人语音,同时使用第四届 DNS 挑战赛第一名的预训练模型来去除语音数据中的残留噪声。在训练阶段,我们生成了超过 10 万条 4s 的语音数据,对这些音频添加混响以模拟不同信道,并随机和噪声、干扰人声混合,设置成一种噪声、两种噪声、噪声和干扰说话人以及仅有干扰说话人 4 种干扰场景。同时,为了模拟不同大小的输入,含噪语音和目标语音电平也会被随机缩放。
《融合特定说话人提取与回声消除技术方案》论文地址:
https://ieeexplore.ieee.org/abstract/document/10096411
回声消除一直是外放场景中一个极其复杂且至关重要的问题。为了能够提取出高质量的近端干净语音信号,火山引擎提出了一种结合信号处理与深度学习技术的轻量化回声消除系统。在特定说话人降噪(Personalized Deep Noise Suppression, pDNS ) 基础上,我们进一步构建了特定说话人回声消除(Personalized Acoustic Echo Cancellation, pAEC)系统,其包括一个基于数字信号处理的前处理模块、一个基于深度神经网络的两阶段模型和一个基于 BSRNN 和 SAM 的特定说话人语音提取模块。
特定说话人回声消除总体框架
基于数字信号处理线性回声消除的前处理模块前处理模块主要包含两部分:时延补偿(TDC)和线性回声消除(LAEC),该模块均在子带特征上进行。
基于信号处理子带线性回声消除算法框架
时延补偿TDC 基于子带互相关,其首先分别在每个子带中估计出一个时延,然后使用投票方法来确定最终时间延迟。
线性回声消除LAEC 是一种基于 NLMS 的子带自适应滤波方法,由两个滤波器组成:前置滤波器(Pre-filter)和后置滤波器(Post-filter),后置滤波器使用动态步长进行自适应更新参数,前置滤波器是状态稳定的后置滤波器的备份。通过比较前置滤波器和后置滤波器的输出的残余能量,最终选择误差信号。
LAEC 处理流程图
基于多级卷积-循环卷积神经网络(CRN)的两阶段模型为了减轻模型建模负担,我们主张将 pAEC 任务解耦为“回声抑制”和“特定说话人提取”两个任务。因此,后处理网络主要由两个神经网路模块组成:用于初步回声消除和噪声抑制的基于 CRN 的轻量级模块,以及用于更好的近端语音信号重建的基于 pDNS 的后处理模块。
第一阶段:基于CRN的轻量级模块基于 CRN 的轻量级模块由一个频带压缩模块、一个编码器、两个双路径 GRU、一个解码器和一个频带分解模块组成。同时,我们还引入了一个语音活动检测(Voice Activity Detection, VAD)模块用于多任务学习,有助于提高对近端语音的感知。CRN 以压缩幅度作为输入,并输出初步的目标信号复数理想比掩码(cIRM)和近端 VAD 概率。
第二阶段:基于pDNS的后处理模块这个阶段的 pDNS 模块包括了上述介绍的频带分割循环神经网络 BSRNN 和说话人注意力机制模块 SAM,级联模块以串联的方式接在轻量级 CRN 模块之后。由于我们的 pDNS 系统在特性说话人语音增强任务上达到了较为优异的性能,我们将一个预训练好的 pDNS 模型参数作为模型的第二阶段初始化参数,对前一阶段的输出进一步处理。
级联系统训练优化损失函数我们对两阶段模型进行级联优化,让模型在第一阶段预测近端语音,在第二阶段预测近端特定说话人语音。同时,我们还引入了一个近端 VAD 罚项,增强模型对近端语音的感知。具体损失函数定义如下:
其中,
分别对应模型第一阶段和第二阶段预测的 STFT 特征, 分别表示近端语音和近端特定说话人语音的 STFT 特征,
分别表示模型预测和目标 VAD 状态。
模型训练数据为了使回声消除系统可以处理多设备,多混响,多噪音采集场景的回声,我们通过混合回声和干净语音,得到 2000+ 小时的训练数据,其中,回声数据使用 AEC Challenge 2023 远端单讲数据,干净语音来自 DNS Challenge 2023 和 LibriSpeech,用于模拟近端混响的 RIR 集合来自 DNS Challenge。由于 AEC Challenge 2023 远端单讲数据中的回声存在少量噪声数据,直接用这些数据作为回声容易导致近端语音失真,为了缓解这个问题,我们采用了一种简单但有效的数据清理策略,使用预训练的一个 AEC 模型处理远端单讲数据,将具有较高残余能量的数据识别为噪声数据,并反复迭代下图清洗流程。
级联优化方案系统效果这样的一套基于融合回声消除与特定说话人提取的语音增强系统在 ICASSP 2023 AEC Challenge 盲测试集 [2] 上验证了它在主客观指标上的优势——取得了 4.44 的主观意见分(Subjective-MOS)和 82.2%的语音识别准确率(WAcc)。
《基于傅立叶卷积注意力机制的多通道语音增强》
论文地址:
https://ieeexplore.ieee.org/document/10095716
基于深度学习的波束权值估计是目前解决多通道语音增强任务的主流方法之一,即通过网络求解波束权值来对多通道信号进行滤波从而获得纯净语音。与传统波束形成算法求解空间协方差矩阵的原理类似,频谱信息和空间信息在波束权值的估计中也起着重要作用。然而,现有许多神经波束形成器都无法对波束权值进行最优估计。为处理这一挑战,火山引擎提出了一种傅里叶卷积注意力编码器(Fourier Convolutional Attention Encoder, FCAE),该编码器能在频率特征轴上提供全局感受野,加强对频率轴上下文特征的提取。同时,我们也提出了一种基于 FCAE 的卷积循环编解码器(Convolutional Recurrent Encoder-Decoder, CRED)的结构用来从输入特征中捕捉频谱上下文特征和空间信息。
模型框架结构波束权值估计网络该网络借助嵌入波束网络(Embedding and Beamforming Network,EaBNet)的结构范式,将网络分为嵌入模块和波束模块两个部分,嵌入模块用来提取聚合频谱和空间信息的嵌入向量,并将该嵌入向量送入波束部分导出波束权值。这里采用一个 CRED 结构来学习嵌入张量,多通道输入信号经过 STFT 变换后,送入一个 CRED 结构提取嵌入张量,该嵌入张量类似传统波束形成中的空间协方差矩阵,包含可区分语音和噪声的特征。嵌入张量经过 LayerNorm2d 结构,再经过两层堆叠的 LSTM 网络,最后通过一个线性层导出波束权值。我们对该波束权值作用于多通道输入频谱特征上,进行滤波求和操作,最后得到纯净语音谱,经过 ISTFT 变换即可得到目标时域波形。
CRED结构我们采用的 CRED 结构如上图所示。其中,FCAE 为傅里叶卷积注意力编码器,FCAD 为与 FCAE 对称的解码器;循环模块采用深度前馈顺序记忆网络(Deep Feedward Sequential Memory Network,DFSMN)对序列的时序依赖进行建模,在不影响模型性能的基础上减小模型尺寸;跳连接部分采用串联的通道注意力(Channel Attention)和空间注意力(Spatial Attention)模块,用来进一步提取跨通道间的空间信息,并连接深层特征与浅层特征,方便信息在网路中的传输。
FCAE结构傅里叶卷积注意力编码器(FCAE)的结构如上图所示。该模块受傅里叶卷积算子[3]的启发,利用离散傅里叶变换在变换域上的任意一点的更新将会对原始域的信号产生全局影响的特点,对频率轴特征进行一维 FFT 变换,即可在频率轴上获得全局感受野,进而加强对频率轴上下文特征的提取。此外,我们引入了空间注意力模块和通道注意力模块,进一步增强卷积表达能力,提取有利的频谱-空间联合信息,增强网络对纯净语音和噪声可区分特征的学习。在最终表现上,该网络以仅 0.74M 的参数量取得了优异的多通道语音增强效果。
模型训练数据数据集方面,我们采用了 ConferencingSpeech 2021 比赛提供的开源数据集,纯净语音数据包含 AISHELL-1、AISHELL-3、VCTK 以及 LibriSpeech(train-clean-360),挑选其中信噪比大于 15dB 的数据用于生成多通道混合语音,噪声数据集采用 MUSAN、AudioSet。同时,为了模拟实际多房间混响场景,通过模拟改变房间尺寸、混响时间、发声源,噪声源位置等方式将开源的数据与超过 5000 个房间脉冲响应进行卷积,最终生成 6 万条以上多通道训练样本。
《基于两阶段神经网络模型的音质修复系统》论文地址:
https://ieeexplore.ieee.org/document/10094827
除了特定说话人增强,回声消除及多通道语音增强几个方向,火山引擎也在音质修复方向上做了一些尝试。实时通信过程中存在的各种失真会影响语音信号的质量,使语音信号的清晰度和可懂度下降。火山引擎提出了一个两阶段模型,该模型使用阶段性的分治策略来修复影响语音质量的多种失真。
模型框架结构下图为两阶段模型整体框架构图,其中,第一阶段模型主要修复频谱缺失的部分,第二阶段模型则主要抑制噪声、混响以及第一阶段模型可能产生的伪影。
第一阶段模型:Repairing Net整体采用深度复数卷积循环神经网络 (Deep Complex Convolution Recurrent Network, DCCRN)[4]架构,包括 Encoder、时序建模模块和 Decoder 三个部分。受图像修复的启发,我们引入了 Gate 复值卷积和 Gate 复值转置卷积代替 Encoder 和 Decoder 中的复值卷积和复值转置卷积。为了进一步提升音频修补部分的自然度,我们引入了 Multi-Period Discriminator和 Multi-Scale Discriminator 用于辅助训练。
第二阶段模型:Denoising Net整体采用 S-DCCRN 架构,包括 Encoder、两个轻量级 DCCRN 子模块和 Decoder 三个部分,其中两个轻量级 DCCRN 子模块分别进行子带和全带建模。为了提升模型在时域建模方面的能力,我们将 DCCRN子 模块中的 LSTM 替换为 Squeezed Temporal Convolutional Module(STCM)。
模型训练数据这里用来训练来音质修复的干净音频、噪声、混响均来自 2023 DNS 竞赛数据集,其中干净音频总时长为 750 小时,噪声总时长为 170 小时。在第一阶段模型的数据增广时,我们一方面利用全带音频与随机生成的滤波器进行卷积, 20ms 为窗长将音频采样点随机置零和对音频随机进行降采样来模拟频谱缺失缺陷,另一方面在音频幅度频与音频采集点上分别乘以随机尺度;在第二阶段的数据增广时,我们利用第一阶段已经生成的数据,再卷积各种类型的房间冲激响应得到不同混响程度的音频数据。
音频处理效果在 ICASSP 2023 AEC Challenge中,火山引擎 RTC 音频团队,在通用回声消除 (Non-personalized AEC) 与特定说话人回声消除 (Personalized AEC) 两个赛道上荣获冠军,并在双讲回声抑制,双讲近端语音保护、近端单讲背景噪声抑制、综合主观音频质量打分及最终语音识别准确率等多项指标上显著优于其他参赛队伍,达到国际领先水平。
我们来看一下经过上述技术方案后,火山引擎 RTC 在不同场景下的语音增强处理效果。
不同信噪回声比场景下的回声消除下面两个例子分别展示了回声消除算法在不同信号回声能量比例场景下处理前后的对比效果。
中等信回声比场景
超低信回比场景对回声消除的挑战性最大,此时我们不仅需要有效去除大能量的回声,还需要同时最大程度保留微弱的目标语音。如下样本中,女声为目标说话人语音,男生为非目标说话人语音(回声),目标语音几乎被非目标语音完全覆盖了。
超低信回声比场景
不同背景干扰说话人场景下的说话人提取下面两个例子分别展示了特定说话人提取算法在噪音与背景人干扰场景下处理前后的对比效果。
如下样本中,特定说话人既有类似门铃的噪声干扰,又有背景人说话噪声干扰,仅使用 AI 降噪只能去除门铃噪声,因此还需要针对特定说话人进行人声消除。
目标说话人与背景干扰人声及噪音
当目标说话人声和背景干扰人声的声纹特征很接近时,此时对于特定说话人提取算法的挑战更大,更能考验特定说话人提取算法鲁棒性。如下样本中,目标说话人和背景干扰人声是两个相似的女声。
目标女声与干扰女声混合
总结与展望上述介绍了火山引擎 RTC 音频团队基于深度学习在特定说话人降噪,回声消除,多通道语音增强等方向做出的一些方案及效果,未来场景依然面临着多个方向的挑战,如语音降噪如何自适应噪音场景,音质修复如何在更广范围对音频信号进行多类型修复以及怎么样各类终端上运行轻量低复杂度模型,这些挑战点也将会是我们后续重点的研究方向。
标签:
背景介绍实时音视频通信RTC在成为人们生活和工作中不可或缺的基础设施
在华为强大人因工程的赋能下,车辆二排座椅的右侧搭载了业界首款商用零
中国经济网北京6月日讯拓维信息(SZ:002261)今日股价涨停,截至收盘报16
6月8日是第十五个“世界海洋日”和第十六个“全国海洋宣传日”,今...
天眼查App显示,近日,杭州网易云音乐科技有限公司与完美青春(成都)
1、竹席。2、多适于年轻人或身体强壮的人使用。3、竹席一般用于没有空
曾经千亿地产、西南龙头金科股份,股价持续大跌后5月26日来到0 77元,
一键扫码双城共享鄂州的士在汉加气不再人工录入信息---6月3日下午,鄂
消息面上,宁德时代针对和特斯拉北美的供应链合作生变的传闻,于6月5日
要说大衣哥一家,网友们的关注还真是从来没有断过。作为一名农民歌手,
6月7日,据百姓关注报道,6月6日,有网友在社交平台上发布称,海南省人
高艺创展VR数字展厅——助力商企实现数字化营销展示
从6月8日起可以购买端午节假期首日的车票啦准备出行的小伙伴↓↓赶紧收
英国房价出现了自2012年以来的首次年度下跌,突显出随着英国央行继续加
亨迪药业06月07日主力资金净流出2014 98万元,涨跌幅为-4 74%,主力净
同花顺金融研究中心6月7日讯,有投资者向信濠光电提问,请问公司有无在
世界职业台球和斯诺克协会(世台联)北京时间7日正式宣布了对此前被指
搜狐娱乐讯6月7日,据多方消息,《山河令》制片人马韬去世。多位《山河
Q1:股票做T成本是怎么计算的。刚开始19 45买入200股,18 94又买入100
6月6日晚,广州地铁3号线嘉禾望岗站上行扶梯发生故障断裂。地铁方回应
【渤海化学:拟22 5亿元投建丙烯酸酯和树脂新材料项目】渤海化学(60080
摩通:放宽一线城市限购料对内房销售影响轻微,限购,房市,内房,升浪,摩
塞尔达传说王国之泪飞弛之物在哪?游戏中,斯斯亚伊-飞弛之物神庙位于鸟
今日, 国企负责人与异性牵手逛街被拍 这一话题冲上了微博热搜,引发大
东方网记者熊芳雨6月7日报道:“兰亭奖”是中国书坛最高荣誉,当11...
【欧盟将对实施“经济勒索”的国家加征关税是针对中国?外交部回应...
中国经济网北京6月7日讯苏利股份(603585 SH)今日收报14 85元,跌幅3
行情表现6月7日收盘价当日涨跌幅五日涨跌幅PVC5655 00元 吨-1 40%-0 33
抖音电商5月16日在广州举办了第三届生态大会,公布了一系列的数据。在
PumpTechnologySolutionsPSGmbH(以下简称PTS集团)自2021年2月从罗伯