ICASSP前沿：多领域AI与语音技术研究概览-酒店常州论坛

对话式AI

声学事件分类

FedRPO：用于声学事件分类的联邦松弛帕累托优化
- Meng Feng, Chieh-Chi Kao, Qingming Tang, Amit Solomon, Viktor Rozgic, Chao Wang
用于高效音频分类的多尺度音频频谱图Transformer
- Wentao Zhu, Mohamed Omar
基于Transformer的少样本学习任务生物声学声音事件检测
- Liwen You, Erika Pelaez Coyotl, Suren Gunturu, Maarten Van Segbroeck
权重共享超网络：在设备限制下搜索专用的声学事件分类网络
- Guan-Ting Lin, Qingming Tang, Chieh-Chi Kao, Viktor Rozgic, Chao Wang

自动语音识别

基于图的标签传播的跨话语ASR重打分
- Srinath Tankasala, Long Chen, Andreas Stolcke, Anirudh Raju, Shally Deng, Chander Chandak, Aparna Khare, Roland Maas, Venkatesh Ravichandran
用于统一流式和非流式Conformer ASR的动态分块卷积
- Xilai Li, Goeric Huybrechts, Srikanth Ronanki, Jeff Farris, Sravan Bodapati
利用外部非策略声学目录进行领域自适应，以实现可扩展的上下文端到端自动语音识别
- David M. Chan, Shalini Ghosh, Ariya Rastrow, Björn Hoffmeister
门控上下文适配器：用于神经转换器中的选择性上下文偏置
- Anastasios Alexandridis, Kanthashree Mysore Sathyendra, Grant Strimel, Feng-Ju (Claire) Chang, Ariya Rastrow, Nathan Susanj, Athanasios Mouchtaris
屏蔽偏置：利用内部语言模型估计改进基于CTC的ASR的领域自适应泛化能力
- Nilaksh Das, Monica Sunkara, Sravan Bodapati, Jason Cai, Devang Kulshreshtha, Jeff Farris, Katrin Kirchhoff
用于端到端ASR自适应的动态文本检索
- Bolaji Yusuf, Aditya Gourav, Ankur Gandhe, Ivan Bulyko
语音识别神经转换器中稳健的声学和语义上下文偏置
- Xuandi Fu, Kanthashree Mysore Sathyendra, Ankur Gandhe, Jing Liu, Grant Strimel, Ross McGowan, Athanasios Mouchtaris

代码生成

对话式文本到SQL：现状探索与未来挑战
- Sree Hari Krishnan Parthasarathi, Lu Zeng, Dilek Hakkani-Tür

常识推理

CLICKER：基于注意力的跨语言常识知识迁移
- Ruolin Su, Zhongkai Sun, Sixing Lu, Chengyuan Ma, Chenlei Guo

持续学习

量化持续联邦学习中的灾难性遗忘
- Christophe Dupuy, Jimit Majmudar, Jixuan Wang, Tanya Roosta, Rahul Gupta, Clement Chung, Jie Ding, Salman Avestimehr

端点检测

利用深度上下文多臂老虎机进行自适应端点检测
- Do June Min, Andreas Stolcke, Anirudh Raju, Colin Vaz, Di He, Venkatesh Ravichandran, Viet Anh Trinh
实现准确实时的语音结束估计
- Yifeng Fan, Colin Vaz, Di He, Jahn Heymann, Viet Anh Trinh, Zhe Zhang, Venkatesh Ravichandran

关键词唤醒

用于语音识别中高效唤醒词检测的双注意力神经转换器
- Saumya Sahai, Jing Liu, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Anastasios Alexandridis, Grant Strimel, Ross McGowan, Ariya Rastrow, Feng-Ju Chang, Athanasios Mouchtaris, Siegfried Kunzmann
用于设备端关键词检测的定点量化感知训练
- Sashank Macha, Om Oza, Alex Escott, Francesco Caliva, Robbie Armitano, Santosh Kumar Cheekatmalla, Sree Hari Krishnan Parthasarathi, Yuzong Liu
用于轻量级Transformer关键词检测的自监督语音表征学习
- Chenyang Gao, Yue Gu, Francesco Caliva, Yuzong Liu
用于关键词检测的小型可瘦身网络
- Zuhaib Akhtar, Mohammad Omar Khursheed, Dongsu Du, Yuzong Liu

语言学习

用于发音错误诊断的音素RNN转换器
- Daniel Zhang, Soumya Saha, Sarah Campbell

机器学习

先剪枝后蒸馏：基于重要性采样的数据集蒸馏
- Anirudh Sundar, Gokce Keskin, Chander Chandak, I-Fan Chen, Pegah Ghahremani, Shalini Ghosh
偏置项在点积注意力机制中的作用
- Mahdi Namazifar, Devamanyu Hazarika, Dilek Hakkani-Tür

自然语言理解

蒸馏-量化-微调：利用大型教师模型实现设备端高效多语言NLU的低占用空间
- Pegah Kharazmi, Zhewei Zhao, Clement Chung, Samridhi Choudhary
金字塔动态推理：通过早期退出加速推理
- Ershad Banijamali, Pegah Kharazmi, Sepehr Eghbali, Jixuan Wang, Clement Chung, Samridhi Choudhary

个性化语音识别

对话行为引导的上下文适配器用于个性化语音识别
- Feng-Ju (Claire) Chang, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Kai Wei, Grant Strimel, Ross McGowan
PROCTER：神经转换器中用于个性化语音识别的发音感知上下文适配器
- Rahul Pandey, Roger Ren, Qi Luo, Jing Liu, Ariya Rastrow, Ankur Gandhe, Denis Filimonov, Grant Strimel, Andreas Stolcke, Ivan Bulyko
用于神经转换器个性化语音识别的槽触发上下文偏置
- Sibo Tong, Philip Harding, Simon Wiesler

查询重写

KG-ECO：用于查询重写的知识图谱增强实体校正
- Jason Cai, Mingda Li, Ziyan Jiang, Eunah Cho, Zheng Chen, Yang Liu, Xing Fan, Chenlei Guo

自学习

用于语音识别的联邦弱监督自学习
- Milind Rao, Gopinath Chennupati, Gautam Tiwari, Anit Kumar Sahu, Anirudh Raju, Ariya Rastrow, Jasha Droppo
通过错误检测、归因和再训练实现自我修复
- Ansel MacLaughlin, Anna Rumshisky, Rinat Khaziev, Anil Ramakrishna, Yuval Merhav, Rahul Gupta

信号处理

统一实时个性化和非个性化语音增强的框架
- Zhepei Wang, Ritwik Giri, Devansh Shah, Jean-Marc Valin, Michael M. Goodwin, Paris Smaragdis
用于人类活动识别的增强鲁棒自监督学习
- Cong Xu, Yuhang Li, Dae Lee, Andrew Park, Hongda Mao, Huyen Do, Jonathan Chung, Dinesh Nair
基于生成建模的流形学习，用于自适应滤波指导
- Karim Helwani, Paris Smaragdis, Michael M. Goodwin
SPADE：用于声学解缠结的自监督预训练
- John Harvill, Jarred Barber, Arun Nair, Ramin Pishehvar

口语理解

使用联合CTC损失和自监督预训练声学编码器的端到端口语理解
- Jixuan Wang, Martin Radfar, Kai Wei, Clement Chung
探索端到端语音模型中的子群性能
- Alkis Koudounas, Eliana Pastor, Giuseppe Attanasio, Vittorio Mazzia, Manuel Giollo, Thomas Gueudre, Luca Cagliero, Luca de Alfaro, Elena Baralis, Daniele Amberti
用于超低占用空间应用的多语言端到端口语理解
- Markus Mueller, Anastasios Alexandridis, Zach Trozenski, Joel Whiteman, Grant Strimel, Nathan Susanj, Athanasios Mouchtaris, Siegfried Kunzmann

文本到语音

逐帧WaveGAN：具有极低计算复杂度的时域高速对抗声码器
- Ahmed Mustafa, Jean-Marc Valin, Jan Buethe, Paris Smaragdis, Mike Goodwin
无需特定口音TTS前端的口音低资源建模
- Georgi Tinchev, Marta Czarnowska, Kamil Deja, Kayoko Yanagisawa, Marius Cotescu

视频

ModEFormer：使用Transformer保持模态的音频-视频同步嵌入
- Akash Gupta, Rohun Tripathi, Wondong Jang
用于视频表示学习的多尺度组合约束
- Georgios Paraskevopoulos, Chandrashekhar Lavania, Lovish Chum, Shiva Sundaram

语音通信

使用率失真优化变分自编码器进行语音的低比特率冗余编码
- Jean-Marc Valin, Jan Buethe, Ahmed Mustafa
  更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
  对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

企业官网建设流程全解析

对话式AI

声学事件分类

自动语音识别

代码生成

常识推理

持续学习

端点检测

关键词唤醒

语言学习

机器学习

自然语言理解

个性化语音识别

查询重写

自学习

信号处理

口语理解

文本到语音

视频

语音通信

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

对话式AI

声学事件分类

自动语音识别

代码生成

常识推理

持续学习

端点检测

关键词唤醒

语言学习

机器学习

自然语言理解

个性化语音识别

查询重写

自学习

信号处理

口语理解

文本到语音

视频

语音通信

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？