“AI 未来说”语音论坛,看这期又来了哪些大咖
2024-6-1 14:24:39发布次查看发布人:
2019年 4 月 27 日下午,“ai 未来说·青年学术论坛”的第四期语音技术专场,在北京市中国科学院大学中关村校区 3 号教学楼 s101 阶梯教室举行。
“ai未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。本次承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。
让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中听、说都是语音技术的范畴。智能语音技术也因此产生了最为茂盛的两大分支:语音识别技术和语音合成技术。语音识别不仅包括语音转文字,语音下命令这样的应用场景,还包括声纹识别、情绪识别、声学事件监测等更有挑战性的情感与特征信息识别任务。语音合成从最早的波形拼接和很明显的机械合成音,到现在能够以假乱真、自然流利的真人发音,甚至能表达出方言、口音、情绪,技术上有了质的飞跃。
现在,我们能够轻松地通过手机、智能音箱等设备与百度小度、苹果siri 等智能助理对话,日常生活中也更加经常地见到各种 ai 技术以语音交互的方式落地,智能语音技术已经飞入寻常百姓家,成为我们生活的一部分。
本次论坛包括 5 场嘉宾报告分享。包括来自中国科学院自动化研究所的陶建华研究员、来自清华大学电子工程系的吴及教授、来自小米的语音技术总监王育军博士、来自百度的主任架构师康永国博士和来自中国科学院自动化研究所的刘斌博士。
陶建华研究员作“语音技术现状与未来”的报告
作为中国科学院自动化研究所所长助理、研究员、博士生导师,模式识别国家重点实验室副主任,中国科学院大学首席教授和人工智能学院院长助理,国家杰出青年基金获得者,国家万人计划领军人才,陶建华研究员的报告主要包括语音技术的发展历史,现有语音技术的特点,现有语音技术的应用形式和面临的挑战,以及未来的发展思路。报告陈述了语音技术在c 端、b 端的应用,并指出虽然现阶段的语音理解只是机器做出符合期望的反馈,但是机器的拟人化反馈确实获得了极大的突破。报告指出,语音识别在方言和多语言处理上仍然不够好,语音识别结合表情等多模态的数据还可以有更好的表现,其中语音的情感识别以及带有情感语气的语音合成也是一项挑战,语音合成可以推广到音效场景的生成等实际应用中。
吴及教授作“音频信号的深度学习处理方法”的报告
作为清华大学电子工程系副系主任、长聘教授、博士生导师,清华-讯飞联合实验室主任,中国语音产业联盟技术工作组组长,认知智能国家重点实验室学术委员会委员,中国计算机学会语音对话与听觉专业组委员,吴及教授的报告主要包括音频信号领域的研究方向介绍和将深度学习方法引入音频信号处理中的尝试。报告给出了音频信号处理的基本框架,包括音频特征提取和特征序列建模两部分。在特征提取上,一是可以构造频域滤波器组的神经网络,根据需要引入形状约束;二是改进端到端的音频特征提取方法,提出了可学习频点、可学习基函数的采样傅里叶变换模块。在特征序列建模上,提出了基于傅里叶变换的时间转移模块,并通过数据分段重组、随机跳帧等方法进行数据增广,还提出了时间注意力和记忆注意力的lstm 模型。
王育军博士作“小爱背后的小米语音技术”的报告
作为小米人工智能部门人工智能实验室语音技术总监,王育军博士的报告主要围绕 ai 助手小爱同学的发展过程,介绍了一系列在小米内部探索语音技术的经验和感悟。报告提到了电视是小米做语音识别的突破口,儿童手表与儿童语料是重要的应用场景。在技术细节上,报告提到了通过热启动项目获得数据,通过自动识别和人工标注辅助训练,通过数据增广和引入注意力机制来提高识别率等指标。
康永国博士作“ai 时代的百度语音技术”的报告
作为百度主任架构师,ccf 语音对话与听觉专业组常委,康永国博士的报告包括百度语音的进展与落地应用、百度语音在识别技术上的创新和在工业界解决问题与在学术界的区别等三部分。百度语音不仅在百度app、百度输入法、百度地图、度秘以及合作厂商中得到应用,还提供了开放平台供开发者使用。主要应用包括语音唤醒、语音识别、语音合成三块。在语音识别上引入分段的流式处理、多级注意力模型等技术提高了准确度。在语音合成上引入emphasis 建模等技术,应用到语音播报、有声阅读、音响助手、虚拟人物等方面。
“ai未来说·青年学术论坛”系列讲座以贯彻落实国家人工智能发展规划和推动我国人工智能技术水平进步为目标,通过业界专家、青年学者和优秀学生介绍领域前沿技术成果和分享教学、科研和产业化经验,促进产、学、研结合,助力我国人工智能行业的蓬勃发展。
刘斌博士作“基于联合对抗增强训练的鲁棒性端到端语音识别”的报告
作为中国科学院自动化研究所语音方向的博士、icassp 2018 最佳学生论文获得者,刘斌博士首先介绍了端到端的声学建模技术,介绍了常见的ctc 、注意力模型等方法,并介绍了语音识别所面临的噪声和语音畸变问题,以及 gan 应用于语音增强、鲁棒性语音识别的模型。然后,刘博士提出了一种语音增强与识别模型联合对抗训练的框架,该框架将以往分开进行的语音增强和语音识别两个模块进行联合优化,并通过生成式对抗网络提升模型的鲁棒性。刘博士给出了该模型的实验参数与结果,表示未来将在更大的数据集上进行实验,以及探索基于麦克风阵列的前后端融合在鲁棒性端到端声学建模上的应用。
该用户其它信息