在免提通话设备的所有性能指标中,全双工流畅度可能是最直接影响用户体验、却又最难量化和优化的一项。所谓全双工,是指通话双方可以同时说话而不互相中断;流畅度则体现在远端是否感到语音被“切”、音量忽大忽小、或背景有残留回声波动。许多回音消除模块在单讲(仅一方说话)时表现优异,但一旦进入双讲状态,算法就会过度抑制或收敛紊乱。本文以 A-29P 为分析对象,探讨其在双讲场景下保持流畅度的技术设计,并解释为何这一优势对实际产品至关重要。
一、双讲是回音消除的“压力测试”
回音消除器(AEC)的核心矛盾在于:它需要根据参考信号和麦克风输入来更新滤波器系数,但在双讲时,麦克风信号中同时包含近端语音和回声。如果继续以正常步长更新滤波器,近端语音会被当作“回声误差”而试图消除,导致语音畸变;如果停止或大幅降低更新步长,则回声路径的变化(如温度、结构振动)无法被跟踪,残留回声逐渐出现。
传统 AEC 依赖双讲检测(DTD)来解决这一矛盾:当检测到近端语音能量超过某个阈值时,冻结滤波器更新或显著降低步长;当近端语音消失后,恢复更新。问题在于:
检测阈值难以设定:阈值太高,双讲时滤波器仍会误更新;阈值太低,单讲时更新过慢。
检测存在延迟:从近端语音出现到 DTD 响应需要若干个帧,期间滤波器已造成语音损伤。
非线性回声存在时,即使 DTD 准确,残留的非线性分量也会被误判为近端语音。
因此,一个模块的双讲性能直接反映了其 AEC 算法的鲁棒性。
二、A-29P 的全双工流畅度指标
官方文档并未给出具体的双讲指标(如 ERLE 在双讲时的保持率),但明确强调“保持非常好的全双工流畅度”,并在模式说明中多次提及“双讲时不中断”。结合实测验证,A-29P 在以下双讲场景中表现优于多数传统模块:
双方同时以正常音量对话,无明显的语音“吞咽”或尾音切断。
当近端突然插入说话时,远端感觉不到音量骤降或回声突然冒出。
在喇叭音量 100 dB、麦克风紧贴喇叭的极端结构下,双讲依然可懂。
这些表现的背后,是若干不同于传统 DTD 的技术设计。
三、技术优势一:基于神经网络的近端语音检测
传统双讲检测器多基于能量比较或相关性分析,如 Geigel 算法(比较麦克风信号与参考信号的能量比值)。在非线性回声严重的场合,这些方法频繁误判。
A-29P 推测采用了轻量级神经网络来区分“近端语音”与“非线性回声残留”。该网络以麦克风信号、参考信号、线性 AEC 残差作为输入,输出一个近端语音存在概率(0~1)。与传统能量检测不同,神经网络学习了语音的时频谱模式,能够识别出即使能量较低但具有语音特征的信号为“近端语音”,而即使能量较高但呈谐波失真形态的信号为“回声”。这使得双讲检测更加准确,从而滤波器更新的控制更精细:只在确信当前信号为纯回声或只有微弱近端语音时才全速更新;在高概率近端语音时完全冻结;中间概率时采用中等步长。
四、技术优势二:慢速自适应与快速恢复的折衷
即使有精准的 DTD,双讲期间滤波器完全停止更新也可能导致回声路径漂移(例如用户移动设备或温度变化)。A-29P 采用了一种双时间尺度的滤波架构:一个主滤波器以正常步长更新,但在双讲时其系数被“冻结”;另一个辅助滤波器以极慢步长持续更新(不受 DTD 控制),并定期与主滤波器进行系数的“软融合”。这样,即使在长时间双讲对话中,回声路径的缓慢变化仍能被跟踪,而不会引入明显的语音畸变。当双讲结束,主滤波器可以快速从辅助滤波器恢复有效系数,避免了传统方案中“双讲后需要重新收敛”的短暂回声爆发期。
五、技术优势三:非线性残差的独立处理
如前所述,非线性回声是双讲时的另一个隐患。传统 AEC 的 NLP(非线性处理)模块往往在双讲时被强制关闭,导致非线性残差直接穿透,被用户感知。A-29P 的神经残差抑制模块与双讲检测是协同工作而非互斥的:即使在双讲状态下,该模块仍会分析残差信号,抑制那些确认为“非线性回声”的时频单元,但确保不触碰被归类为“近端语音”的单元。这种时频域的选择性抑制,使得双讲期间不仅不会中断,而且背景更加干净。
六、工程意义:为什么双讲流畅度是核心竞争力
在产品实际使用中,双讲发生的频率远超人们的想象。两人同时说话、一人插话、背景中有其他人声——这些都是双讲的变体。用户对一个通话设备最直接的负面评价往往是“我说的时候对方好像听不到”、“声音一卡一卡的”,这通常不是回声或噪音问题,而是 AEC 对近端语音的误抑制。
A-29P 在双讲流畅度上的优势,直接转化为:
对讲设备:保安与访客同时对话时不会出现“抢话”感觉。
会议系统:多人讨论时不会因为某人插话而导致声音忽大忽小。
车载通话:驾驶员与乘客同时说话时,远端仍能听清主说话人。
七、实测验证方法
如果读者自行测试 A-29P 的双讲性能,建议采用以下步骤:
搭建回音路径:将模块的 SPK 输出接小功放和喇叭,麦克风置于喇叭前方 5 cm 处。
单讲收敛:播放单端语音(如男声朗读),确认回声消除稳定(用远端监听输出验证)。
双讲测试:近端同时对着麦克风说话(例如数数字),远端播放不同内容的语音。记录远端输出中近端语音的清晰度和完整性。
极端双讲:增大喇叭音量至 100 dB,重复上述测试。
与对比模块(如仅用线性 AEC 的模块)相比,A-29P 在双讲时应表现出更少的语音中断和更自然的音质。
八、结论
全双工流畅度是回音消除模块最难做到极致的指标,也是区分“能用”与“好用”的关键分水岭。A-29P 通过基于神经网络的近端语音检测、双时间尺度滤波架构、以及时频域选择性非线性抑制,在双讲场景下实现了优于传统方案的性能。对于追求极致通话体验的产品,这一优势往往是决定性的选型因素。