各种数据的形态是什么样的? 美光业务开发经理 Eric Caward 将海量数据想象成一座山,每块泥土和岩石代表一条信息。乍看之下,这座山只是大量数据堆积在一起,对有些人来说就像是一堆泥土。然而,精明的矿工知道,有些山中蕴藏着金粒。
在堆积如山的数据中,每个金粒都代表一条有价值的信息,可用于获得更深入的洞察。家庭温度读数数据集看似平常,但其中蕴含的趋势可能非常有价值。家中可能经常在一天中的特定时段温度较高,跟踪这种趋势可以帮助业主更好地优化供暖系统,节省能源开支。
在采砂金矿中,黄金积聚在松散物质中,需要在淘金过程中用水淘洗,矿工们开始使用淘金盘来获取金粒。虽然淘金技术比较简单,但并不是从大矿藏中提取黄金的最佳方法(就像从堆积如山的大数据中获取正确的信息一样)。这正是寻求更高效率的矿工转而使用淘金槽和筛选机,来加快从大矿藏中找宝藏的原因。
如何让计算机像熟练的矿工一样,高效地从“数据山”中筛选出“金粒”? 这依赖于通过快速的数据分析来有效提取关键内容。虽然云中的温度读数列表乍看起来没有价值,但如果计算机系统能够扫描数据、发现趋势并提供解决方案,就相当于找到了黄金。发现金子了!
要高效处理这些快数据,计算机系统必须配备高效内存以尽量降低延迟。否则,将难以发现和利用数据中隐藏的趋势。值得庆幸的是,超快动态随机存取存储器(DRAM)能够快速在系统中移动数据,没有什么比这更快的了。
用大数据为快数据提供信息
《企业家》杂志 2016 年的一篇文章指出,数据收集的增长速度快得令人难以置信。到 2020 年,每个在线用户每秒将产生 1.7 兆字节新数据,让届时的 44 泽字节数据量达到更庞大的规模。
随着技术的发展,我们能够每天监测身体健康状态(包括使用检测心率和睡眠模式的小型可穿戴设备,以及监测血糖水平和血压的医疗创新),这让医疗机构能够以创新的方式推动开展预防性医疗。随着物联网设备(无线连接到网络并传输数据的非标准计算设备)的普及,以及更多患者健康监测工具的出现,每分钟产生的大数据越来越多。
广告公司在决定向用户的社交媒体新闻 Feed 推送哪条赞助帖子时,需要从大量数据中挑选出相关度最高的信息,以便更好地触及用户。如果选择得当,广告商可以由此取得显著收益。
人工智能(AI)程序在查看个人资料时,会看到各种浏览数据,比如亚马逊的浏览记录、YouTube 的订阅内容和大量谷歌搜索内容。快数据能将这些信息迅速串联起来,找到在线购物车中的汽车商品,记录之前浏览过的“如何更换 2012 年福特探险者刹车片”YouTube 视频,并登记相关的 DIY 项目文章。这样,程序可以轻松地为当地的汽车配件商店制作广告。随着 AI 越来越智能,数据处理越来越快,在数据显示您购买了刹车片后,广告会转而重点宣传您在拆装刹车片时可能会用到的扳手和千斤顶。
Caward 表示:“如果程序能够利用极快的内存系统迅速捕捉和分析数据,并在网站上即时推送相关广告,那带来击率和销售的可能性会很大。”
为了快速捕捉数据集合,运行这些 AI 和机器学习程序的设备需要具备足够带宽,来处理存储在云中的大数据,如特定社交媒体资料和浏览历史记录,识别重要“金粒”信息,并在靠近处理单元的地方进行分析。Caward 提到,重要信息即“我们通常所说的‘热数据’”,越靠近系统处理单元,用户所取得回报的价值就越高。这就是美光大力投资开发更快速、更高效内存解决方案的原因。
从传统硬盘到固态硬盘:提升速度的秘诀
加快系统内数据传输并非完全仰赖可靠的 DRAM。将传统硬盘(HDD)升级为固态硬盘(SSD)后,系统能够获得宝贵的毫秒级速度。标准硬盘在获取信息时需要更多技术操作,然后必须通过物理旋转来读取数据,从而浪费宝贵时间。
“使用闪存(SSD)内存时,不需要物理移动任何部件,因此数据访问速度更快。” ——美光业务开发经理 Eric Caward
根据 Caward 的说法,“使用闪存(SSD)内存时,不需要物理移动任何部件,因此数据访问速度更快”。
现代处理器不断突破速度极限,将标准的 3 千兆赫或 4 千兆赫提升到 4.5 千兆赫甚至 5 千兆赫。Caward 表示,“如果数据处理速度达到纳秒级别,而获取数据的等待时间却是毫秒级而非微秒级,那么就表示 CPU 在这段时间什么都没做”。为了减少获得结果之前的这零点几秒等待时间,内存正在被设计得越来越接近处理单元,并采用高性能计算形式,如 GDDR5、GDDR5X 和 GDDR6。
Caward 解释说,为了以尽可能低的延迟和高带宽快速移动数据,内存实际上“直接焊接在计算单元旁边”。
将快速数据应用于当今技术
随着快速内存解决方案的出现和日益改进,机器学习和 AI 的应用前景几乎无穷无尽,包括 Caward 口中的“圣杯”,即自动驾驶汽车。这些车辆中的传感器不断监测输入(包括交通信号、位置感知、与其他物体 [尤其是汽车和人] 的接近程度),并分析在特定情况下应采取的行动。
Caward 说:“您只需要将大量信息输入到车载超级计算机,然后计算机会对这些数据进行处理。通过筛选掉不必要的数据让处理流程更为高效。然后进行一些内部处理。通过各种网络连接到云进行更多的处理,最后根据处理结果做出反应,从而安全到达目的地。”
快数据在医疗领域同样发挥着重要作用。与其将 CAT 扫描结果分发给 3,000 位医生来逐一对细胞进行分析,不如把结果上传到一个在识别恶性细胞和非恶性细胞已经有多年学习经验的神经网络来快速识别恶性细胞。
Caward 指出:“检测率会大幅提升。只要将数据输入计算机,快数据就能自动进行处理。”
美光正在开发能够提高数据处理速度的产品,从而帮助扩展这些应用领域。处理器越来越快,能够处理的信息越来越多。但是,如果一个 26 核处理器接收到的数据只需要一个核心就足以处理,那么其他核心就会闲置。大数据和快数据的潜力巨大,但只有得到充分利用才能真正体现它们的价值。
Caward 说:“您的这块芯片负责逻辑处理,确保系统运行流畅。它的处理速度非常快,您必须尽快将数据传输给它。否则,您就是在浪费它的潜力。”
通过使用美光的 DRAM 和 SSD,可以快速将数据传输到 CPU,确保潜力不会浪费。系统可以从堆积如山的大数据中筛选出隐藏的“金粒”数据,挖掘出有价值的洞察和结论。