每个人都能听懂你的话:Google为语言障碍者开发专属ASR模型,错误率下降76%
新智元报道来源:GoogleAI编辑:LRS【新智元导读】在AI时代,残障人士也受到了更多来自技术上的关怀,例如专属的聊天训练机器人、手语翻译机器、自闭症患者VR训练等等,最近Google针对语言障碍人士开发了专属的语音识别模型,让你说的话可以被更多人听懂!目前有数百万人遭受语
新智元报道
来源:Google AI
编辑:LRS
【新智元导读】在 AI 时代,残障人士也受到了更多来自技术上的关怀,例如专属的聊天训练机器人、手语翻译机器、自闭症患者 VR 训练等等,最近 Google 针对语言障碍人士开发了专属的语音识别模型,让你说的话可以被更多人听懂!
目前有数百万人遭受语言障碍(speech impairments)的影响,根本原因主要是神经或遗传疾病导致的身体损伤、脑损伤或听力丧失。
由此产生的症状也各有不同,包括口吃、构音障碍、失用症等,这些症状也会对自我表达、参与社会活动产生不利影响。
自动语音识别(ASR)技术能够通过语音助手帮助用户改善听写以及加强沟通,来帮助患有此类语音障碍的人训练。但 ASR 技术在显示应用中仍然有一个障碍,就是准确率仍然不够。
虽然深度学习系统计算能力相比和数据集的规模相比以往已经有很大提升,并且 ASR 系统的准确性也提高了很多,但对于许多患有言语障碍的人来说,性能仍然不够,在演讲的场景等都无法被语言障碍的人使用。
2019 年时,谷歌推出了 Project Euphonia,并讨论了如何使用个性化的、定制的无序语音 ASR 模型来实现更精确的性能,并且和通用 ASR 模型的性能已经相差无几。
2021 年,Google 又在 Interspeech 2021 上发表了两项研究成果,这两项研究旨在将个性化 ASR 模型的可用性扩展到更多用户群体。
第一篇论文主要展示了一个数据集,包括了从 Project Euphonia 中大规模收集到的 100 多万次语音组成的无序语音数据。
第二篇论文主要讨论了如何基于该语料库生成个性化的 ASR 模型。与通用语音模型开箱即用的能力相比,定制 ASR 模型可以产生更高精度的模型,并在选定的域中可以实现高达 85% 的字错误率改进。
自 2019 年以来,在各种情况下患有不同程度严重言语障碍的演讲者为 Project Euphonia 提供了语音样本,这项工作已经将 Euphonia 的语料库增加到 100 多万个样本,包括 1330 名发言者的长达 1400 多个小时语音记录。
为了简化数据收集过程,实验参与者在他们的个人笔记本电脑或电话(带耳机和不带耳机的情况都有)上使用了一个家庭录音系统,而非采用一个理想化的、基于实验室的环境来收集工作室级别超高质量的录音数据。
为了降低转录成本,同时保持高转录的一致性,在保存数据时优先考虑使用脚本的演讲。
参与者阅读基于浏览器的录制工具上显示的提示,短语提示涵盖了家居自动化的指令,例如「打开电视」、和护理工作人员的对话,如「我饿了」,或者是和其他人的非正式对话,如「你好吗?今天过得愉快吗?」等内容。
大多数参与者收到了一个列表,包含超过 1500 个短语,其中有 1100 个短语只出现一次以及 100 个重复四次以上的短语。
语音专家在为每个说话人听语音的同时进行全面的听觉感知和语音评估,根据语音障碍类型(例如口吃、构音障碍、失用症)为每个说话人定级,总共包含 24 种异常语音特征的评级(例如,鼻音亢进、发音不精确、迷糊),以及技术上的问题(例如,信号丢失、分割问题)和声学问题(例如,环境噪声、次级扬声器串扰)相关记录质量评估。
有了数据才能训模型,这些新增的语音障碍的数据集也是开发新模型的基础:无序语音(disordered speech)的个性化的 ASR 模型。每个定制模型都使用标准的端到端 RNN-T ASR 模型,且仅使用目标说话者的数据进行微调。
RNN-T 的模型架构中,编码器网络由 8 层组成,预测网络由 2 层单向 LSTM 单元组成。
个性化 ASR 模型重点调整编码网络,也就是模型中处理给定说话人声学数据的部分。研究人员发现,在固定住前三个编码层(同时固定他们的连接层和解码层)的同时,只更新底部五个编码层,可以获得最佳结果,并能够有效避免过度拟合。
为了使这些模型对背景噪声和其他声学效应更具鲁棒性,还用了一种专门针对无序语音的主要特征进行调整的 SpecAugment 配置。此外研究人员还发现,选择预训练的基础模型至关重要,最后他们选了一个在大型的通用语音语料库上训练的基础模型。
目前 Google 总共为大约 430 名演讲者训练了专属他们的个性化 ASR 模型 ,这些演讲者每人录了至少 300 条语音,把其中 10% 的话语作为一个测试集(训练和测试之间没有短语重叠),在这个测试集上计算个性化模型和通用语音模型的单词错误率(WER)作为评估标准。
实验结果表明,Google 提出的个性化方法在所有严重语言障碍条件下都有显著的改进。即使对于严重受损的言语,家居自动化领域短语的 WER 中位数也从 89% 左右下降到 13%。在其他领域,如会话和护理人员交流下,准确性也有显著提高。
在进行消融实验时,将实验分为几组:
1、HighWER 和 LowWER: 将说话人按照具有基于 WER 分布的第 1 和第 5 个五分位数的高和低划分个性化模型。
2、SurpHighWER: 具有特别高 WER 的说话人(在 HighWER 组具有典型的或轻度言语障碍的参与者)。
可以预见到,不同的病理和语言障碍表现会不均匀地影响 ASR。根据 HighWER 组中言语障碍类型的分布表明,由于脑瘫引起的构音障碍特别难以建模。该组的中位语言受损程度也更高。
为了确定影响 ASR 准确性的说话人特定和技术因素,研究人员检查了 ASR 性能较差 ( HighWER ) 和优秀 ( LowWER )的参与者之间评级数据的差异。
和预期相同,LowWER 组的总体言语受损程度显着低于 HighWER 组(p < 0.01)。清晰度是 HighWER 组中最突出的非典型语音特征,还包括异常的韵律、发音和发声。而这些语音特征在日常生活中也会降低整体语音清晰度。
SurpHighWER 与比较组 LowWER 组(p <0.01)具有较少训练数据和更低的 SNR ,除了速度外,其他所有的因素都对结果有较小的影响。相比之下,HighWER 组在所有因素上表现出比较大的影响。
最后研究人员将个性化 ASR 模型与人类听众进行了比较。三位演讲专家独立地为每位演讲者转录了 30 句话。可以发现,与人类听众的 WER 相比,个性化 ASR 模型的 WER 平均较低,并且随着语言受损严重程度的增加而增加。
AI 人工智能时代,残疾人士也能享受到科技带来的人文关怀,AI 技术的发展可以给残障人士加上耳朵、说话加上字幕、让盲人借助 CV 技术重新“看“到世界,愿科技真正向善。
参考资料:
https://ai.googleblog.com/2021/09/personalized-asr-models-from-large-and.html
相关文章:
- 信用卡 PIN 码很容易猜测
- 神经元簇发能模拟 AI 学习策略
- 蜘蛛丝可能根本不具有抗菌性质
- 佳能因禁止无墨水打印机扫描被起诉
- DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
- 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
- 格芯提交上市申请IPO,筹资约26亿美元
- 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
- 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
- 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
- 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
- DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
- 多位游戏巨头联合希望美国政府监管盗版和作弊网站
- Google Play Data Safety开始接受开发者申请:2022年将强制执行
- 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
发表回复