个性化服务是用户参与度的神器。这也难怪:《哈佛商业评论》曾有报告指出,就市场营销而言,用户体验的个性化可以让投资回报率提升五至八倍,并将销售额提高 10% 以上。
虽然个性化的内容可以建立更深的客户关系并更好地了解用户,但要实现有效的推荐背后需要超乎寻常的海量数据作为支撑。如今,借助先进的数据中心基础架构以及高性能内存和存储解决方案,人工智能 (AI) 引擎正在发挥作用。
这些推荐引擎现在主导着在线体验,最大的例子是 Amazon。根据麦肯锡的报告,这家零售巨头超过 35% 的销售额来自推荐。这些引擎的作用不仅仅是引导购物:流媒体网站会显示用户可能感兴趣的电影或节目,求职搜索会显示用户符合条件的机会,新闻和社交信息源会填充相关内容。
对于流媒体,四分之三的 Netflix® 用户会选择其推荐引擎推荐的电影,而 Netflix 80% 的总流媒体观看时间是由这些推荐带来的。Hulu™ 等服务增加了“喜欢”和“不喜欢”功能,让用户可以更好地控制看到的推荐内容。
以上一切的背后,是数据中心在创建这种高度个性化的互联网,而先进的算法促成了系统推荐,从而成就了卓越的用户体验。当然,与许多其他的先进技术一样,推荐引擎也离不开内存和存储,而美光正是内存和存储解决方案的主要提供商。
何为推荐引擎?
简言之,推荐引擎是一种系统,该系统能够基于用户在某个内容上的评分或偏好设置来推荐信息。
这些引擎的出现是非常必要的。人们每天产生 2.5 艾字节的数据,(1 艾是 1 的后面加 18 个零) 而全球 90% 的数据是在过去两年中产生的。仅 Facebook® 和 WhatsApp™ 每天就处理 600 亿条消息,而 Instagram™ 每天上传的照片超过 9500 万张。
要筛选这些数据的难度可想而知——不仅数量庞大,数据的种类和质量也是多种多样。每个人都多少有过经验,感觉购物网站推荐的产品跟自己毫不相关或完全没有吸引力。
那么,不好的推荐会有什么后果? 为什么会发生这样的情况?
一切都与数据有关。就推荐引擎而言,数据越多,结果就越准确。用户所收到的推荐通常是通过以下方式生成的:
- 通用推荐:这是最简单的筛选方式,推荐与用户过往搜索类似或最热门的内容。
- 内容推荐:该类筛选会检索用户的浏览历史、识别用户曾经选择过的内容的关键词,然后推荐类似的内容。
- 协同推荐:根据用户的浏览历史,将其划归至某个群体,然后向用户推荐该群体其他成员喜欢的内容。
- 综合推荐:结合多种方式进行推荐。
每种推荐都日益复杂。组合方法最精确,需要的数据量最大,运行起来也最难。
以视频平台为例,为了做出精确的推荐,推荐引擎需要电影的类型、概要、演员和导演等各方面的数据、用户的观影记录,以及与该用户具有相似观影习惯的一个庞大的用户群的所有数据,还要考虑评论、社交平台上的留言、甚至屏幕上显示何种语言等等因素。数据量如此巨大,因此需要大量的内存和存储来处理这些工作负载。
1. 数据收集
推荐的精确程度与数据量的大小成正比。在海量数据中筛选出数以亿计的用户行为并收集在一起。这需要具有灵活扩展能力的存储产品,如四层单元 (QLC) SSD。得益于 QLC NAND 内存技术的 SSD 能够在容量、速度和成本之间实现平衡,帮助云服务供应商很好地控制总拥有成本 (TCO)。
2. 筛选和预处理
机器学习系统会保存数以百万计的用户历史记录和行为,且系统会不断更新。这些数据通常是以非结构化的形式被捕获。要使用这些数据,首先必须对它们进行筛选,提炼出关键信息,然后以有效的方式进行组织。在非结构化数据中寻找所需的数据点非常困难,这就像在流行的《寻找沃尔多》(“Where’s Waldo?”) 儿童书籍中搜索沃尔多一样,但糟糕的是,人群是移动的。可怜的沃尔多可能永远也找不到了。现在想象一下,沃尔多周围的所有人都站着不动,整理成网格状。找到沃尔多会更容易(虽然趣味性稍差)。筛选和预处理数据本质上是将混乱的移动人群整理成有序的线和网格。整理数据这个难题通常是由 CPU 来完成,由服务器 DRAM(如 DDR5)提供支持。服务器 DRAM 会临时保存正在预处理的数据,然后将其快速送入处理器。高速 NVMe™ SSD 会在数据得到处理并结构化后存储这些数据,之后将其用于 AI 训练。
3. 训练
在这个阶段,AI 将训练推荐引擎对内容进行识别。例如,系统在“认识”小狗之前可能要分析几十亿张图片。这需要训练系统成百上千次地传递各个数据片段。随着新的数据流入以及用户的交互行为,系统会定期对模型进行再训练。这个过程需要极其强大、灵活的数据中心来运行复杂的训练算法。高带宽的内存,如美光的超带宽解决方案,能够以超高速度不断地将数据传输给 GPU(图形处理器)或 CPU,后者通过逻辑连接创建 AI 算法。在训练过程中,随着数据量的增长和 AI 算法变得复杂,系统也需要更多的内存。此外,系统需要的不仅仅是更多的内存容量,为了实现更智能、更高速的 AI,它还需要新型的内存,例如,每次可以传输 2 比特数据或者可进行 3D 堆叠并放置到非常靠近处理器,甚至封装在同一芯片中。美光正是开创这类新型存储器创新技术的先锋。
4. 推荐
接下来是推理。假设一个被训练过的系统被问及电影里是否有小狗时,一旦识别到小狗,它就会做出推荐。可能会有不同的用户在一分钟内提出数百万次这样的需求,可能发生在数据中心,也可能发生在接近终端用户的地方,或就在他们的手机或笔记本电脑上。高性能内存可以确保系统更快地做出对用户有意义的推荐,同时为服务提供商带来商机。
5. 优化
用户与推荐之间的交互行为会被反馈到数据收集环节,被用以优化未来的推荐,使推荐引擎能够学习并变得更加精确。
内存和存储在推荐引擎处理程序的每个阶段都发挥着作用,它们能缩短检索和传输数据的时间、确保处理单元获得所需的数据,以及存储每天生成且不断增长的海量数据。如果没有像美光提供的这类先进的内存和存储产品,推荐引擎就无从谈起。
推荐引擎的未来
推荐引擎改变了在线服务的用户体验和商业模式。因此,各网站纷纷寻找新方法在其平台上部署推荐引擎。
例如,亚马逊机器学习科学家 Ben Allison 指出,用户的每个浏览历史并非同等重要。亚马逊深知用户的行为极为复杂,现在开始用神经网络来辨别用户行为的重要性(例如通过考虑上下文和发生的时间等因素),并为它们打一个“注意力分”。这些注意力分又成为一个更加复杂的推荐算法的关键组成部分。
此外,亚马逊发现“可预测的”的预测结果并不理想,因此增加了一些“随机性”功能,从而实现了让所有购物者都能有“意外发现”。所以,亚马逊现在给出的建议更多是来自人工智能的“决策”,并非只是原始的预测。
为了使算法更加精确,有些网站会让人工与推荐引擎进行协作。例如,美国视频网站 Hulu™ 就有一个专门的内容专家团队密切地合作,为观众创造更多个性化的精选系列。
Netflix 正在利用推荐算法,通过学习帮助推荐内容获得成功的特性来定义其电影和电视节目目录:“我们利用推荐算法,来优化 Netflix 快速发展的工作室中原创电影和电视节目的制作过程。推荐算法还为我们的广告支出、渠道组合和广告创意提供支持,以便我们可以找到喜欢 Netflix 的新会员。
对于当前和未来的推荐功能而言,提升数据量和数据速度至关重要。推荐引擎的数据存储、AI 训练和推理都需要高性能和低功耗的内存和存储。
美光丰富的解决方案组合可以满足推荐引擎的各种需求——从密集训练所需的高带宽内存和加速器,到用于推理的标准内存,再到应对各种数据的高容量存储。当您在购物网站看到一件正合心意的商品,或在视频网站被看到一个非常感兴趣的节目,这背后很可能就有美光的内存和存储解决方案在发挥作用。
了解有关使推荐引擎成为可能的美光产品的更多信息。
Micron 美光 是 Micron Technology, Inc. (美光科技股份有限公司)的注册商标。本文提及的所有其他商标和注册商标分别为其各自所有者所有,仅供参考之用。尽管本文可能提及,其他商标、注册商标或品牌并不构成美光的背书或推广,也不表示存在商业关系。