设计工具
公司

案例研究:美光利用数据和人工智能来监测

人工智能为行业带来的诸多优势,内存芯片制造商美光科技对于不只是说说而已。公司说到做到,不仅通过下一代内存存储和处理解决方案支持 AI 的发展,还在自己的制造过程中积极使用数据分析和 AI,为公司的业务创造了重要价值。AI 的应用大有裨益,不仅可以提高良率、确保工作环境安全,还有助于改善效率。

美光的制造工厂在基于硅晶圆开发内存技术时需要使用高度复杂和精密的工艺。出现错误和浪费的几率很高,但数据和 AI 正在助力降低这种几率。如果仅依靠人类警觉性来发现和跟踪缺陷、机械问题和其他潜在问题领域,企业将会损失金钱。而要是利用了当今的前沿技术,这些损失就可以避免。

制造过程

硅晶圆通常用作计算机芯片的基础,由硅砂制成。硅砂必须经过过滤和精炼,以达到 99.999% 的纯度。这种电子级硅料被熔化并压缩成硅锭,然后切割成 0.67 毫米厚的极薄晶圆。

晶圆经过抛光去除切割痕迹,然后涂覆一层薄薄的光刻胶,最后通过类似于摄影的过程将设计好的电路蚀刻上去。电路越复杂,印在晶圆上的图像就越多,层层叠加,每一层都需要单独处理,例如用电离等离子体喷射,这一过程称为“掺杂”,或浸没在金属中。

然后,给晶圆成品涂上一层薄薄的保护膜,随后进行测试(“探测”),以确保其按预期工作。

整个制造过程包含约 1,500 个步骤,在无菌洁净制造室中进行,以防止微小的灰尘落在原始晶圆上。但损坏仍时有发生。这些易脆裂的晶圆可能会受到刮擦、划伤或刺穿,也可能会在保护膜下形成气泡。

这些瑕疵通常很微小,肉眼完全看不见。即使可见,检测人员在扫视每个晶圆的 30 到 40 张照片时,也可能会因为眼睛疲劳或暂时走神而未注意到缺陷。稍不留神,就错过了。

如果到“探测”阶段才发现问题,就会浪费很多时间和金钱。这些瑕疵的根源问题不仅仅只影响一片晶圆,而可能影响成千上万片晶圆。

在生产中还有其他方面也可能会出现问题。零件磨损;管道危险化学品泄漏或滴落到产品或员工身上。据美光专家称,及早发现和纠正这些问题迫在眉睫:停机成本高昂,平均每小时为 25 万美元,而鉴于半导体制造过程复杂,恢复所花费的大量时间使得实际成本高达数百万美元。并且,还存在多种与员工受伤相关的风险。

及时检测出产品和机械问题,对于生产效率、效能和安全至关重要。遗憾的是,人难免会犯错。即使是最专业的员工也未必能准确无误地察觉出细微的问题迹象。

而 AI 技术可以在极短的时间内以极高的精度完成这些任务。美光从全球 8,000 多个数据源和 500 多台服务器收集 PB 级的内部制造数据,并将这些信息添加到 Apache Hadoop 中两个不同的环境图中,以进行数据挖掘。美光数据科学家在这些制造网络中搜索这些数据以获取见解,从而开发 AI 和机器学习模型,改进和提升工厂流程。

模仿人类视觉、听觉和触觉所取得的这些结果令人印象深刻,并在 2018 年为美光赢得了令人羡慕的 CIO 100 大奖,以表彰其在 IT 领域的领导地位。

视觉:晶圆成像

晶圆缺陷有多种形式。不过,它们大多属于这些常见类型:晶圆边缘附近有小孔,外层薄膜上有划痕和气泡。在晶圆制造过程中,光刻机在晶圆上蚀刻电路时,其摄像头会捕获一些图像,美光的 AI 系统使用“计算机视觉”技术在这些图像上识别上述缺陷。

工程师可能会指示系统扫描晶圆边缘的小点(孔)或者连续/轻微断开的线条(划痕),也可以根据深浅不同的斑点或图案来找出颜色变化。其中一些瑕疵几乎可以实时发现,系统在拍摄图像后 10 秒钟内就会发出警报。在照片存储 15 分钟后的二次扫描中可能会发现其他缺陷。所有这些过程都依赖于 AI 系统对 Hadoop 环境中存储的 200 万张图像进行比较和对照。

美光 IT 总监 Tim Long 表示:“事实证明,这些结果比工程师的评估要准确得多。

计算机视觉具有高准确性和高效率,提升了工程师的能力。工程师们可以专注于研究问题和收集数据。”

美光 IT 总监 Tim Long 表示:“事实证明,这些结果比工程师的评估要准确得多。计算机视觉具有高准确性和高效率,提升了工程师的能力。工程师们可以专注于研究问题和收集数据。”

此外,借助美光的 AI 自动缺陷分类 (ADC) 系统,技术人员和工程师不再需要在 Hadoop 中手动对晶圆缺陷进行分类。AI-ADC 系统使用深度学习技术,每年可以对数百万个缺陷进行排序和分类。美光创建的这个系统采用了当今市场上前沿的成像技术,包括神经网络技术,这是一种受生物学启发的编程范式,使计算机能够从观察数据中学习。

这种形式的机器学习根据图像中的缺陷对图像进行分类,然后将它们放在离散的 Hadoop“集群”中。这个过程不仅可以帮助工程师发现制造中出现的问题,以便尽早修复,避免更多缺陷,还可以让 AI 系统自行发现缺陷,并在每次迭代中完善结果。

美光晶圆厂数据科学经理 Ted Doros 表示:“不必告诉系统检测位置或缺陷类型,只需提供一些例子,告诉神经网络‘这就是需要检测的缺陷。’

这个过程通过微调方法来提高良率。微调越多,问题就越少。”

听觉:声学监听

汽车出现机械故障的第一信号是什么? 通常,引擎盖下会发出异常噪音。工厂里也是如此,听到异常的声音可能表示零件磨损或即将发生故障。

不过,生产车间可能非常嘈杂,有问题的声音会被噪音掩盖。或者员工在一个位置停留的时间很短,无法辨别哪些声音是“正常”的,哪些是“不正常”的。

美光的 AI 系统可以通过声学传感器监听工厂机械的异常情况。这些传感器通常安装在机器人执行装置或泵设备附近。这些麦克风可以连续数周对正常工作状况录音,软件将检测到的频率转换为图形或图表,以视觉数据来描述声音。当出现新的音高或频率时,系统会发出警报。很多情况下,系统甚至可以辨别出发生异常的原因。

Doros 将工厂及其中的各种声音比作管弦乐团,而具有声学监听功能的机器则比作指挥家。

“有了所有这些乐器,当察觉到生产线上化学物质的细微变化时,就好比说,如果有法国号,音乐家稍微打开一个阀门,就会改变音高和整体声音。” 听众可能会忽视这一变化,但指挥官不会。

为了建立这种“声学监听”AI 系统,美光工程师使用在初始监控阶段收集的数据在 Hadoop 中创建了基准。接下来,他们扫描文件寻找异常声音,并根据原因加以分类,将其放置在离散组或“集群”中。收集、检查和排序的文件越多,结果就越准确,系统检测和诊断异常声音及其原因的能力就越强。

搜索这些庞大的数据库可能非常耗时。当机器有可能发生故障时,工厂经理需要立即知晓情况。

相比基于 CPU 的系统,将数据发送到由美光的高性能内存和存储设备组成的 GPU 系统,其中拥有 48,000 个处理内核和 TB 级内存,可以更快获得及时、智能的结果。所有这些 GPU 内核和内存同时协同工作,几乎不需要人工干预,就可以在眨眼间优化结果,并在每次迭代时改进诊断结果,类似于人脑的工作方式。

美光高级研究员 Mark Helm 表示:“GPU 的主要优势之一是,可以在单个芯片上拥有两到四个处理器内核,每个内核一次可以处理一个任务。GPU 将拥有数千个内核。GPU 可以并行处理成千上万个任务。对于 AI 工作负载来说,这正是你想要的。

你不会想让 CPU 来完成非常复杂的机器学习算法。GPU 会将任务分解成非常小的部分,然后并行处理所有部分,成千上万个这种内核同时工作。GPU 处理在执行决策所需的时间方面具有令人难以置信的优势。”

盯着电脑屏幕的人员

热成像:监测温度变化

并不是每种故障都会发出声响。在制造环境中,寂静无声也可能隐藏着致命危险。许多情况下,温度会发生变化。机器可能会升温,泵或管道可能会降温,热量会在发生泄漏的地方因蒸发冷却而散失。

直到最近,人们检测温度骤升的方法仍然只有观察红光、火花或烟雾。当这些状况出现时,意味着事态已进入危险阶段,工厂需要尽快疏散员工。如前所述,停产的代价极其高昂,但比冒着员工人身安全的风险更可取。

有的位置温度下降也可能表明有问题,但都没有明显的迹象。用手去感觉温度波动既不现实,也很危险。

不过,人工智能越来越多地通过分析产生工厂环境“热图”的红外照片来发现温度异常。美光将在正常工作条件下创建的图像叠加在晶圆厂的数字孪生上,数字孪生是工厂的虚拟复制品。这些地图为 AI 系统提供了基准,用于比较红外图像。当系统检测到偏差时,会发出警报。

美光采用热成像技术不久,但由于其能够在机器故障或严重损坏发生之前及早发现,因此在节约成本方面具有巨大的潜力。及早检测出问题,只需要简单维修就可以解决,从而避免了更换整台昂贵的设备。

更重要的是,可以在保护员工方面发挥关键作用,这是美光的一大要务。美光将团队成员的安全看得比利润更重要。这也是公司继续大力投资相关技术的主要原因,目的是在问题演变成危险之前提高检测能力。

Doros 表示:“如果检测系统显示‘这边的泵存在高风险’,如果泵急剧升温或冒火花,我想马上知道情况,然后通知该区域员工撤离。” 及早检测出机械问题是部署热成像装置的主要目标,但公司也利用该技术来优化制造系统和工艺。Doros 表示,系统利用率是美光在晶圆生产中产生的最大成本之一。系统关闭后,可用于晶圆制造的工具就会更少。当生产的晶圆数量减少时,晶圆厂的总体运营成本就会上升。工具出现故障后,如果未检测出来,也会对晶圆造成损坏,从而增加成本。

Doros 表示,理想情况下,美光将为每个晶圆厂中的每个工具创建热图像,并实时检测出所有温度过高或过低的位置。随后的微调很可能会提高良率,从而降低每片晶圆的生产成本。

多种优势

迄今为止,美光利用 AI 监测工厂,已经取得了显著的效果:

  • 实现成熟良率的时间缩短了 25%;
  • 产量提升了 10%;
  • 质量事件减少了 35%。

数据分析和 AI 的优势不仅限于晶圆厂,还延伸到美光运营的各个方面,包括销售和营销、人力资源、业务运营、研发等。

Doros 表示:“这是整个企业层面的转型,而不仅仅是车间改造。我们可以将这些技术和方法应用到公司内部的所有业务流程。”

Doros 表示:“这是整个企业层面的转型,而不仅仅是车间改造。我们可以将这些技术和方法应用到公司内部的所有业务流程。”

他还举例说明,深度学习大大改进了产品需求预测,将准确率提高了 10% 到 20%。

不过,美光应用人工智能和数据分析的主要焦点在于优化工业流程,并承诺将其晶圆厂打造成真正的“智能”物理网络系统,尽量减少人工干预。

随着 5G 蜂窝网络、虚拟和增强现实、物联网以及 AI 和数据分析等技术在美光内存和存储解决方案助力下,发展速度越来越快,实现这一承诺指日可待。

Long 表示:“AI 涵盖范围广泛,比如诊断功能,以及如何利用机器学习算法来创建这些功能。我们通过为算法提供数据,并以历史数据为语境来训练系统,从而模拟人类感官,实现声学监听、温度和视觉监测。然后,机器将观察和学习模式,以便可以自行得出结论。”