设计工具
应用

AI 助力残障人士

美光科技 | 2023 年 9 月

当 Eric Booth 90 岁的祖母来探望他时,她的听力已经严重衰退,即使佩戴了助听器,也很难听懂别人在说什么。他看着她凑近说话的人,试图读懂他们的唇语,努力理解他们所说的话。当不止一个人说话时,她常常会听不清对话内容。

这时,美光云计算高级业务开发经理 Eric 萌生了一个想法。他祖母有部智能手机,为什么不用智能手机帮她“听懂”对话呢? 他打开她的笔记应用程序,按下麦克风按钮,向她展示了如何将他说的话转录成屏幕上的文字。

他表示:“祖母非常兴奋,笑得合不拢嘴。现在,她可以参与对话了,而在过去,她是做不到的。就这样,这项技术可以切实改善言语、语言和听力障碍患者的生活质量。”

将语音转录为文字的技术看似简单,容易被忽视,但过程复杂,经过几十年的发展才达到现有水平。

快速发展的技术

自第一款语音识别 (SR) 设备 Audrey 问世以来,已经过去了很长时间。贝尔实验室于 1962 年推出了 Audrey。这台六英尺高的计算机只能识别一位数的数字,也不生成文字,而是根据说出的数字闪烁灯光,例如,闪烁 9 次代表“9”。

即使在几年前,SR 技术对于用户来说也不方便,它经常出错,连最轻微的环境声音也无法过滤掉,转录速度也很慢,所以说 SR 要想真正派上用场,还有很长的路要走。

如今,SR 迎来了 AI、虚拟助手技术、5G 蜂窝技术以及内存、存储和计算机处理技术的进步。这使我们能够实现许多以前做不到的事情,比如用从未说过的语言进行交流,几乎即时地转录长录音,以及只需通过语音即可订购几乎任何想要的东西,且送货上门。

现在,生成式 AI 进一步提升了这项技术。语音识别将音频解析为文本,而生成式 AI 则负责处理文本,真正理解其含义。不仅识别说了什么话,而且理解这些话的意思。这些话是在提问吗? 如果是,要如何回答?

这种机器学习可以根据用户提示或对话生成文本、视频、图像、计算机代码和其他内容。基于语音识别的生成式 AI 将学习提升到了新的水平,为这项技术进一步帮助有语言或听力障碍的人提供了可能。

虽然灵活的语音识别会接收可能不符合正常语音模式的语言,但生成式 AI 和自然语言处理 (NLP) 可以理解这些语言,并将其转化为相关的建议。这一过程使全面、高度个性化的语言治疗成为可能。

Eric 的女儿曾参加过语言治疗,因此他对需要耗费的时间和精力有切身体会。这些经历激励他攻读爱达荷州博伊西州立大学的博士课程,研究用技术帮助语言障碍患儿的方法。

Eric 解释道:“在语言治疗中,我们过去认为治疗师会给学生提供阅读内容,然后用工具对他们的发音和吐字评分。但是,有了生成式 AI,就有希望开发出可以处理整个过程的工具。这种工具擅长识别语音模式,因此可以判断出某个学生是否总是发错 O 的音。”

大语言模型

直到最近,语音识别还离不开搭载大量内存的大型服务器支持,而且收集到的任何数据都必须上传到云端。但现在,语音识别功能已内置在手机中。计算速度变得更快,内存也变得更快,以前需要在数据中心处理的任务现在用手机就可以实现。

很快,生成式 AI 也将出现在手机或其他终端设备上。因为 AI 模型的训练过程不仅仅是制作更复杂的模型,还要将其简化,以便在手机或个人电脑等终端设备上运行。随着这些大型语言模型的增长,在云环境之外训练是不可能的。但是这些模型经过训练和简化后,就可以迁移到终端设备上。

过去几年,大语言模型取得了巨大进步:

Eric 表示:“这些模型是生成式 AI 聊天机器人和高级搜索功能的关键。大型语言模型有数万亿个参数。几年前,万亿级参数还很难以想象,根本无法处理。如今,万亿级成为了基准线。当然,模型越大,智能化程度就越高。而这正是计算和内存需求的驱动因素。”

NLP 和生成式 AI 需要大量的大语言模型训练,参数越多,所需的内存容量就越大(见图 1)。

自然语言生成 AI 模型图 图 1

 

为了应对这些不断扩大的模型,迁移学习变得越来越流行。它是指,在给定上下文中使用大量数据训练模型,然后再使用较小的数据集针对另一个上下文微调模型参数。假设大数据集是成人语音,小数据集是儿童语音。迁移学习将提供能准确识别两者的模型。如果试图训练以成人语音为主、夹杂少量儿童语音的模型,其准确性就会大打折扣。在一个上下文中使用可靠的数据集训练数据,然后将其迁移到另一个上下文,用较少的数据进行微调,这种组合非常有效。Eric 在他的论文《评估和改进针对儿童的自动语音识别》(Evaluating and Improving Child-Directed Automatic Speech Recognition) 中记录了很多这方面的进展。

神经网络的预训练也遵循同样的思路。(ChatGPT™ 中的“P”代表预训练。) 它也是指在一个任务或数据集上训练一个模型,然后用这些参数在另一个任务或数据集上训练另一个模型。以 ChatGPT 为例,该模型已利用互联网上的大量对话数据预训练过,因此可以回答一般问题,然后根据从提示中获得的额外上下文来适应当前对话。这给模型提供了一个良好的开端,让它们无需从零开始。现在只需少量数据就能建立强大的模型。

如今,许多 AI 研究人员都在关注生成式 AI。这不仅是因为 ChatGPT 带动的热潮,还因为生成式 AI 在医疗保健和其他行业的深远潜在应用。

帮助亟需帮助的人

根据美国言语语言听力协会 (American Speech-Language-Hearing Association) 的数据,美国有 100 多万儿童在学校接受专业的言语和语言障碍帮助。Eric 表示,总体而言,8% 的儿童存在语言发育迟缓或障碍问题

他指出:“我们无法在公开市场上买到儿童语言治疗技术包。这样的产品不存在。这项技术很有必要,尤其是对低收入家庭的孩子而言。儿童评估工作至少需要两个小时,但政府计划可能只支付 30 分钟的费用。”

“很多事情可以通过电脑来完成,这样治疗师就可以腾出时间来做更长远的规划和更有针对性的治疗。”

学习障碍资源基金会认为,患有学习障碍(如阅读障碍)的儿童也可以受益于语音转文字技术。就像巧妙地利用语音转文字技术帮助 Eric 的祖母参与到交谈中一样,这项基础 AI 技术还有许多尚待开发和探索的用例。

助力生成式 AI 和 SR 发展

如今,美光正在开发密度更高、速度更快的内存和存储,助力普及直接在手机端而不是在云端进行数据处理,从而节省数据传输时间。

为了提升这些终端设备的性能,美光低功耗 5X (LPDDR5X) 内存具有双倍数据传输速率,可实现功耗和性能平衡,为用户带来流畅体验。LPDDR5X 是目前速度和技术均引领业界的内存,峰值速度可达 8.533 GB/秒,较上一代产品提升多达 33%。LPDDR5X 的高速与高带宽对于实现高性能终端生成式 AI 至关重要。

借助生成式 AI,SR 技术的处理速度和准确度越来越接近人脑,但要真正达到人脑的水平仍然存在巨大障碍,尤其是在处理儿童语音、口音以及听力或语言障碍患者的语音方面。Eric 正在研究的这类项目,可以切实改变生成式 AI 技术丰富所有人生活的方式。

但是,生成式 AI 正利用深度学习将越来越自然的语音(更接近人类语音)转换为文字。过去,AI 模型擅长摄入大量数据、识别模式并从诊断的角度找出根本原因。如今,生成式 AI 可以“读取”文本,利用这些数据推断人类交流的语境。从本质上讲,这是生成式 AI 在“训练”自己。为了做到这一点,AI 需要访问且需要能够同时摄入大量数据,从海量内存中提取数据来确定适当的回应。美光技术正在助力实现这些进步。

美光高密度 DDR5 DRAM 模块和 TB 级 SSD 存储可提供高速度与大容量,满足在数据中心训练生成式 AI 模型的需求。新发布的 HBM3E 进一步提升了性能,容量扩大了 50%,带宽超过 1.2 TB/s,可将百万亿级参数的 AI 模型训练时间缩短 30% 以上。随着这些技术的速度和准确度不断提高,未来,更多的语言障碍人士将能正常沟通,发出自己的声音。

Eric 预测:“在不久的将来,我们将看到生成式 AI 和 SR 技术取得性能上的飞跃式发展。能看到这项技术丰富全人类的生活,我觉得是一件非常酷的事情。”