设计工具
公司

利用基因组测序实现个体化医学

美光科技 | 2019 年 9 月

激励下一代科学和医学发现

在众多数据密集型应用中,一些非常成功的案例当属来自生命科学,其中大规模数据分析的创新为人类基因组计划带来了助力。国际研究人员花了 13 年时间,投入了 27 亿美元,使用一系列超级计算机对人类基因组中的所有 30 亿个碱基对进行了测序。2003 年 4 月,他们完成了人类 DNA 图谱的绘制,使之成为当时最大的大数据项目。

这一惊人的成就开创了医疗保健的一个新分支,即精准医学。如今,基因组测序业务继续推动着人们开发更快速、更简单、成本更低的技术,以便编译、存储、共享、移动和分析大量数据,揭示其中的奥秘。

什么奥秘!精准医学衍生出了精准肿瘤学,它是指,医生和科学家通过根据个体患者的基因组、生活方式和环境定制医疗计划和治疗方案来消除癌症的负担,或者至少“终结我们今天所知道的癌症”。

数据密集型精准医学

精准医学,也称为个性化医学,在很大程度上依赖于人工智能或机器学习算法,是一个极度需要数据的行业。每个人的基因组包含 30 亿个碱基对,它们在完全测序后将产生大约 6 GB 的存储数据。经过过采样或覆盖(多次处理 DNA 的同一位置以提高准确性)等处理后,这些数据集可能会达到 30 或 35 倍,在某些应用中甚至可能达到 800 倍。现在,样本大小已经增长到 200 GB(测序过程中的中间数据处理可能会使数据增长到 700 GB)。这还只是单个患者的数据!

OmniTier 是一家致力于开发以内存为中心的专用高性能数据产品的开发商,其联合创始人兼首席执行官 Hemant Thapar 表示:“这是一场从基因组合测序到全外显子组测序再到全基因组测序的转变。当朝着这个方向前进时,需要处理的数据量会变得非常庞大。” 但它的潜力也很大:随着更多基因变异(例如个体基因组中的点替换、插入、缺失和结构变异)的发现,个性化医学有望实现蓬勃发展。

这种以数据为中心且依赖数据的应用的现代爆炸式增长对新的内存和存储技术、接口以及软件堆栈提出了需求。例如,研究人员正在努力让全基因组测序惠及更多患者,以便进行更广泛的研究和开发。Thapar 表示:“这里的关键在于,大众市场不能依赖超级计算。对于像医疗保健这样的大众市场,必须有非常高效的方法来分析数据集。这就是为什么 OmniTier 要重点关注:我们可以如何支持精准医学计划?”

分层内存和现成服务器

OmniTier 此前宣布了 CompStor Novos®,一款以内存为中心的、用于通过从头基因组组装技术进行全 DNA 测序的计算机集群解决方案。目前,该解决方案正处于 beta 测试阶段。从头组装意味着从零开始完成全基因组测序。测序(将多个 DNA 片段组装成更长的序列)是 DNA 分析的前期工作之一。标准方法是遵循 DNA 模板,通常是上述人类基因组序列。但这种方法往往会隐藏患者个人基因组变异的地方,而这是预测医学研究的关键数据。基因组从头测序由于不使用模板,因此在检测结构变异方面特别有用。

该公司还为生命科学开发了一款软硬件解决方案,可以克服当今充斥着内存瓶颈的计算范式的局限性。这些局限性会导致应用性能降低、服务器功耗增加以及空间需求增加。它们和其他低效现象一起推动了成本的上升,这是阻碍系统实现大规模应用的主要因素。

Omnitier 测序图 OmniTier 测序解决方案部署在 VMware 云中,不管是数据中心还是本地

相反,CompStor 组装设备使用了 OmniTier 独特的专有分层内存算法。该解决方案可帮助提高研究人员的速度和效率,具体而言,它会通过布置设备来告知系统并非所有信息都同等地对时间敏感,由此,信息的访问速率可以有所不同。

OmniTier 的新算法和数据流可优化各个数据中心服务器的多线程流。CompStor Novos 通过使用由两层内存组成的子系统,即 DRAM 和(更实惠、容量更大的)NAND 闪存 NVMe™ 固态硬盘 (SSD),实现了可与 DRAM 大容量内存子系统媲美的性能。目前,OmniTier 正直接与美光接洽,探索潜在的合作机会。他们已获得美光创投 (Micron Ventures) 的投资,这笔投资旨在帮助他们从新的计算架构以及应用 AI 和机器学习解决方案中创造价值。

与现有组装算法相比,Novos 组装更加精确,并且速度达到了 10 至 20 倍。实验还表明,使用 OmniTier 算法和设备(而不是仅通过主机 CPU 执行任务)可以将某些应用的能耗最多降低至原来的三分之一。Thapar 表示:“与标准组装工具相比,研究人员现在可以用更少的时间和成本对生物体进行从头基因组组装。突变 DNA 和疾病的诊断时间缩短后,患者和医疗保健从业人员都将受益。”

速度媲美超级计算机

它有多快? 人类基因组计划在使用超级计算机的情况下,耗时了 13 年。OmniTier 的 CompStor 组装解决方案将基因组测序时间缩短至约 8 分钟,并使用配置了由 DRAM 和 NVMe SSD 组成的分层内存的商用现成 (COTS) 服务器,以及跨不同内存类型的专有算法和数据流。

在通过测试比较了 8 个 CompStor 组装服务器节点上的短读下一代测序数据后,结果表明,在 COTS 服务器上运行的人类基因组从头组装与先前使用先进超级计算机花费的组装时间相当。

加快精准医学发展

精准医学的目标是帮助医疗专业人员更好地治疗疾病和改善患者预后。面向大众的基因组测序解决方案必须经济实惠、可扩展且同时支持本地部署和云端部署。这类解决方案要想取得成功,内存至关重要。Thapar 表示:“我们目前使用的是硬件解决方案,但我们非常重视内存。我们正在利用自己对不同内存技术(如固态硬盘、机械硬盘或其他替代技术)的知识来解决这些特定问题。”

医疗保健和生命科学信息学需要高性能的支持,特别是当神经网络必须处理多组学模型时,例如对基因组学、环境和生活方式的巨大数据集进行交叉索引,以确定效果最好的个性化治疗。Thapar 表示:“通过以低成本提供近乎超级计算的性能,我们可以帮助那些面临诊断和治疗困难的患者以及这一领域的研究人员更容易实现全基因组测序。”

通过在系统内对内存分层来提高性能效率,这是将美光内存和存储解决方案用于进一步推动精准医学发展的一种方式。请访问 Micron.com/Insight,了解美光通过改变世界使用信息的方式来丰富全人类生活的其他方式。