设计工具
应用

DNA 有着存储全球数据的巨大潜力

美光科技 | 2020 年 3 月

人类正处于前所未有的信息爆炸时代。我们该如何处理产生的所有数据?

这个问题并非无关紧要。计算机、智能设备、电视、温控器、家居安全系统、个人数字助理、可穿戴设备、汽车、机器人以及其他设备都在产生和使用数据,而且这些数据正呈指数级增长。

五年前,数字技术产生的数据总量为 4.4 泽字节 (ZB)。相当于 4.4 十万亿亿字节——信息规模相当庞大。如今,数据量已远远超过这个数字:我们现在每年产生大约 16ZB 数据,到 2025 年,这个数字预计会增加十倍。

我们使用以硅(从沙子中提炼出来)为主要元素制成的微芯片来收集、处理和存储数据。虽然硅是地壳中含量第二丰富的元素,但高纯度硅(很多种计算机芯片的制造都需要这种硅)却很稀少,占据的硅供应总量不足 10%。

而且,这种物质将很快消耗殆尽。一项研究显示,到 2040 年,数据洪流可能会耗尽全球计算机用硅的供应,这是新技术和数字化进程面临的重大挑战。

解决这个挑战的方法之一是改进硅的提炼工艺。此外,研究人员正在寻找可用于数据处理和存储的替代材料,例如氧化镓、二硒化铪、二硒化锆和石墨烯。

除了上述材料, 脱氧核糖核酸 (DNA) 也带来了新的可能。

自然界的数据处理器

世界上的每个生物自身都携带了某些信息。我们的头发颜色、眼睛颜色、惯用右手还是左手、易患的疾病,甚至可能我们的气质都被编码在遗传特质之中,而这些遗传特质来自基因。基因由 DNA 组成,DNA 承载的信息决定了我们是谁,我们是什么。

分子形态的 DNA 为双螺旋结构,即两股分子(一股糖分子和一股磷酸盐分子)互相缠绕。这两股分子之间是含氮碱基,它们的形状类似于横杆,每个含氮碱基的化学成分各不相同。有四种碱基:

  • 腺嘌呤 (A)
  • 胸腺嘧啶 (T)
  • 鸟嘌呤 (G)
  • 胞嘧啶 (C)

美光科技高级研究员兼副总裁 Gurtej Sandhu 说:“人体是最复杂的信息存储器。”Sandhu 在广泛的技术领域中拥有超过 1,300 项技术专利。他的个人兴趣和研究领域之一是使用 DNA 进行数据存储。

他说,他意识到人体中相当于单个细胞的 DNA 包含“大量”信息,由此得到启发。

“自然界以非常惊人的规模进行数据压缩,人类尚未完全了解这些数据压缩方式,”Sandhu 介绍道,“所以我就想,为什么我们不能将 DNA 作为介质用来存储信息呢?”

Gurtej Sandhu

“人体是最复杂的信息存储器。”

美光科技高级研究员兼副总裁

如何将数据存储在 DNA 上

DNA 存储的众多优势

随着科学家对 DNA 分子的了解日益深入,并找到创造合成 DNA 的方法,他们看到了无限的可能。未来一种称为核酸存储器 (NAM) 的存储器可能会带来许多好处。

密度:Sandhu 表示,一个人的 DNA 中存储着大量的信息。我们的身体包含 5TB(相当于 5 万亿字节)信息。Sandhu 认为,DNA 的数据存储密度远远高于如今已知的任何其他存储技术。

一个系统下,1 克的 DNA 可存储 2.15 亿千兆字节的数据,重量不到一块方糖的 DNA 可存储世界上所有的电影。一辆两座厢式货车大小的 DNA 可容纳世界上产生的所有数据。

Sandhu 表示,DNA 之所以有如此高的存储密度,其中一个原因是 DNA 有四种碱基(A、T、G 和 C),而计算系统目前使用的是基于 0 和 1 的二进制系统。这种倍增使存储的信息量呈“指数级增长”。NAM 存储器对分子中的信息进行编码,将信息打包成非常小的数据包。

耐久性:DNA 可保存很长时间——如果冷冻在永久冻土中,可保存 150 万年左右。作为数据存储介质,DNA 的使用寿命可长达数千年甚至数百万年。相比之下,常用的长期存储介质——磁带,在使用 10 年后就必须被更换。

可持续性:DNA(即使是用于 NAM 中的合成 DNA)在存储、处理和读取过程中所需的能耗非常低。DNA 自身能再生,因此完全可循环利用。而且,DNA 容易大量复制。

2016 年,Sandhu 以及 George M. Church、Victor Zhirnov 等研究人员在《Nature Materials》期刊发表了一篇详细讲述其研究结果的文章,他们在文章中写道:“NAM 可为子孙后代存储这个世界上的信息,而且这种内存所需的空间和能耗远远少于现在的存储技术。”

技术面临的挑战

研究人员在探索 DNA 的利用,首先,他们希望将 DNA 作为长期存储技术,用于存储病历、监控视频、历史文献及其他档案资料。相对少量的 NAM 即可取代磁带所用的陈旧方法(填充大量数据库),而且更加持久耐用。最终,他们希望开发的 NAM 技术能够完全取代计算机中硅的使用。

Gurtej Sandhu

“所以我就想,为什么我们不能将 DNA 作为介质用来存储信息呢?”

实现这个目标的主要障碍是成本。

Sandhu 说:“要使用 DNA 读取、写入、封装和存储数据,需要大幅降低成本。” 在某一个项目中,合成 2MB 数据的成本是 7,000 美元,而读取数据又需要 2,000 美元。而且,在 DNA 中读取和写入数据的速度慢于其他类型的存储技术。

Sandhu 对此持乐观态度,他认为,假以时日,这些难题将会得到解决。他指出,DNA 测序的费用已大幅下降,从 2002 年的 31,250 美元/兆碱基(即 100 万对 DNA 碱基)下降至 2016 年的 63 美分/兆碱基。针对 NAM 的研究正在推进。在资金支持下,哈佛大学、欧洲分子生物学实验室和半导体研究联盟(又称为 Symbio)等研究小组正在开发基于 DNA 的数据存储技术。博伊西州立大学和微软也在开展 NAM 项目。

光明的未来

如果计算机等级的硅现在消耗殆尽,可能会使世界陷入停滞。鉴于我们产生数据的速度,耗尽世界上的硅供应是一个令人堪忧的问题;好消息是,美光科技正在加快步伐应对这一挑战。作为一家领先的计算机内存方案制造商,我们处于一个非常有利的位置,可以引领业界开发更好、更快、更加可持续的数字内存解决方案。

Sandhu 认为,基于 DNA 的 NAM 有可能很快会成为美光 DRAM、NAND 以及其他基于硅的内存技术的补充。有朝一日,这种存储可能会变得十分普遍,完全取代硅芯片。

Gurtej Sandhu

“为了让我们的应用能够使用 DNA 来读取、写入、打包和存储数据,需要大幅降低成本。”

与此同时,开发 NAM 的过程可能会取得其他同样重要的成果,Sandhu 说到:

“设想 100 年前的内存,那时使用的是磁芯,后来使用电子存储器、磁盘、小型磁存储器等。对于这些存储器,我们需要掌握机械方面的知识。

DNA 比这些存储技术复杂 10 倍。我们需要具备多方面的知识,包括内存、微流控、化学、分子生物学等方面。为了使这种技术发挥作用,需要由不同领域的人才开展广泛、紧密的技术与科学合作。要做到这一点,需要有完备的技能。”

美光科技是内存制造商,因此,我们在想象和创造新的内存技术方面处于行业领先地位。然而,要使这些技术成为现实,各个领域的专家应携手合作。

“无论在我们行业还是任何其他行业,还未有这样的范例,”Sandhu 说,“这将是一次绝好的合作机会。而我们尚处于初步阶段,有待进一步深入探究。”