从大型池中标记和检索 DNA 数据文件的技术有助于使 DNA 数据存储变得可行。
目前在地球上,大约有 10 万亿字节的数字数据,每天,人类产生的电子邮件、照片、推文和其他数字文件加起来又增加了 2.5 万字节的数据。 大部分数据存储在称为艾字节数据中心(1 艾字节为 1 亿千兆字节)的巨大设施中,这些数据中心可能有几个足球场那么大,建设和维护成本约为 XNUMX 亿美元。
许多科学家认为,另一种解决方案在于包含我们遗传信息的分子:DNA,它进化为以非常高的密度存储大量信息。 麻省理工学院生物工程教授 Mark Bathe 说,一个装满 DNA 的咖啡杯理论上可以存储世界上所有的数据。
“我们需要新的解决方案来存储世界正在积累的这些海量数据,尤其是档案数据,”同时也是麻省理工学院和哈佛大学博德研究所的准成员的 Bathe 说。 “DNA 的密度甚至是闪存的千倍,另一个有趣的特性是,一旦你制造出 DNA 聚合物,它就不会消耗任何能量。 你可以写下 DNA,然后永远存储它。”
科学家们已经证明他们可以将图像和文本页面编码为 DNA。 然而,还需要一种从许多 DNA 片段的混合物中挑选出所需文件的简单方法。 现在,Bathe 和他的同事们展示了一种方法,将每个数据文件封装到一个 6 微米的二氧化硅颗粒中,并用可揭示内容的短 DNA 序列进行标记。
使用这种方法,研究人员证明他们可以准确地从一组 20 张图像中提取存储为 DNA 序列的单个图像。 鉴于可以使用的可能标签的数量,这种方法可以扩展到 1020 文件。
巴斯是该研究的资深作者,该研究今天发表于 自然材料. 该论文的主要作者是麻省理工学院高级博士后 James Banal、前麻省理工学院研究助理 Tyson Shepherd 和麻省理工学院研究生 Joseph Berleant。
稳定存储
数字存储系统将文本、照片或任何其他类型的信息编码为一系列 0 和 1。 可以使用构成遗传密码的四个核苷酸在 DNA 中编码相同的信息:A、T、G 和 C。例如,G 和 C 可用于表示 0,而 A 和 T 表示 1。
DNA 有几个其他特性使其成为理想的存储介质:它非常稳定,合成和测序相当容易(但成本昂贵)。 此外,由于其高密度——每个核苷酸相当于多达两个比特,大约为 1 立方纳米——以 DNA 形式存储的 EB 数据可以放在你的手掌中。
这种数据存储的一个障碍是合成如此大量 DNA 的成本。 目前,写入 1 PB 数据(1 万 GB)将花费 XNUMX 万亿美元。 为了与通常用于存储档案数据的磁带竞争,Bathe 估计 DNA 合成的成本需要下降大约六个数量级。 Bathe 说,他预计这将在一两年内发生,类似于过去几十年在闪存驱动器上存储信息的成本大幅下降。
除了成本之外,使用 DNA 存储数据的另一个主要瓶颈是难以从所有其他文件中挑选出您想要的文件。
“假设写入 DNA 的技术达到了在 DNA 中写入 EB 或 Zettabyte 数据具有成本效益的地步,然后呢? 你将拥有一堆 DNA,这是无数的文件、图像或电影和其他东西,你需要找到你正在寻找的图片或电影,”Bathe 说。 “这就像大海捞针。”
目前,通常使用 PCR(聚合酶链反应)来检索 DNA 文件。 每个 DNA 数据文件都包含一个与特定 PCR 引物结合的序列。 为了提取特定文件,将该引物添加到样本中以查找和扩增所需序列。 然而,这种方法的一个缺点是引物和脱靶 DNA 序列之间可能存在串扰,导致不需要的文件被拉出。 此外,PCR 检索过程需要酶,最终消耗了池中的大部分 DNA。
“你有点像大海捞针才能找到针头,因为所有其他的 DNA 都没有被放大,你基本上就是把它扔掉,”Bathe 说。
文件检索
作为替代方法,麻省理工学院团队开发了一种新的检索技术,该技术涉及将每个 DNA 文件封装到一个小的二氧化硅颗粒中。 每个胶囊都标有与文件内容相对应的单链 DNA“条形码”。 为了以经济高效的方式证明这种方法,研究人员将 20 个不同的图像编码到大约 3,000 个核苷酸长的 DNA 片段中,相当于大约 100 个字节。 (他们还表明,胶囊可以容纳高达 XNUMX GB 的 DNA 文件。)
每个文件都标有与“猫”或“飞机”等标签相对应的条形码。 当研究人员想要提取特定图像时,他们会移除 DNA 样本并添加与他们正在寻找的标签相对应的引物——例如,图像的“猫”、“橙色”和“野生”老虎,或“猫”、“橙色”和“家猫”的“家猫”。
引物用荧光或磁性粒子标记,便于从样本中提取和识别任何匹配项。 这允许删除所需的文件,同时保留其余 DNA 完好无损,以便将其放回存储中。 他们的检索过程允许布尔逻辑语句,例如“总统与 18th 世纪”生成乔治·华盛顿作为结果,类似于通过谷歌图像检索到的内容 搜索、.
“在我们概念验证的当前状态下,我们处于每秒 1 KB 的搜索速率。 我们的文件系统的搜索率取决于每个胶囊的数据大小,目前这受到在 DNA 上写入甚至 100 兆字节数据的高昂成本以及我们可以并行使用的分拣机数量的限制。 如果 DNA 合成变得足够便宜,我们将能够使用我们的方法最大化每个文件可以存储的数据大小,”Banal 说。
对于他们的条形码,研究人员使用了由哈佛医学院遗传学和医学教授斯蒂芬·埃利奇开发的 100,000 个序列库中的单链 DNA 序列,每个序列长约 25 个核苷酸。 如果您在每个文件上放置其中两个标签,则可以唯一地标记 1010 (10 亿) 个不同的文件,每个文件上有四个标签,您可以唯一标记 10 个20 文件。
哈佛医学院遗传学教授 George Church 将这项技术描述为“知识管理和搜索技术的一次巨大飞跃”。
“在 DNA 形式的写入、复制、读取和低能量档案数据存储方面的快速进步为从巨大的 (10) 数据文件中精确检索数据文件留下了很少的探索机会。21 字节、zetta 级)数据库,”没有参与这项研究的 Church 说。 “这项新研究使用完全独立的 DNA 外层并利用 DNA 的不同特性(杂交而不是测序),此外还使用现有仪器和化学物质,引人注目地解决了这个问题。”
Bathe 设想这种 DNA 封装可用于存储“冷”数据,即保存在档案中且不经常访问的数据。 他的实验室正在创建一家名为 Cache DNA 的初创公司,该公司目前正在开发长期存储 DNA 的技术,既用于长期 DNA 数据存储,也用于近期临床和其他预先存在的 DNA 样本。
“虽然 DNA 作为数据存储介质可能还需要一段时间,但今天已经迫切需要低成本、海量的存储解决方案,用于来自 Covid-19 测试、人类基因组测序和其他领域的预先存在的 DNA 和 RNA 样本。基因组学领域,”Bathe 说。
参考:James L. Banal、Tyson R. Shepherd、Joseph Berleant、Hellen Huang、Miguel Reyes、Cheri M. Ackerman、Paul C. Blainey 和 Mark Bathe 的“在档案文件存储系统中使用布尔搜索的随机存取 DNA 内存”, 10 年 2021 月 XNUMX 日, 自然材料.
DOI: 10.1038/s41563-021-01021-3
该研究由海军研究办公室、美国国家科学基金会和美国陆军研究办公室资助。