Инженеры-биологи Массачусетского технологического института продемонстрировали способ легко извлекать файлы данных, хранящиеся в виде ДНК. Это может быть шагом к использованию архивов ДНК для хранения огромного количества фотографий, изображений и другого цифрового контента. Кредит: Изображение: MIT News. Маленькие значки любезно предоставлены исследователями

Метод маркировки и извлечения файлов данных ДНК из большого пула может помочь сделать хранение данных ДНК возможным.

На Земле сейчас существует около 10 триллионов гигабайт цифровых данных, и каждый день люди создают электронные письма, фотографии, твиты и другие цифровые файлы, которые в сумме составляют еще 2.5 миллиона гигабайт данных. Большая часть этих данных хранится в огромных объектах, известных как эксабайтные центры обработки данных (эксабайт составляет 1 миллиард гигабайт), которые могут быть размером с несколько футбольных полей и стоить около 1 миллиарда долларов на строительство и обслуживание.

Многие ученые считают, что альтернативное решение заключается в молекуле, которая содержит нашу генетическую информацию: ДНК, которая эволюционировала для хранения огромных объемов информации с очень высокой плотностью. По словам Марка Бата, профессора биологической инженерии Массачусетского технологического института, в кофейной кружке, полной ДНК, теоретически могут храниться все данные мира.

«Нам нужны новые решения для хранения огромных объемов данных, которые накапливаются в мире, особенно архивных данных», - говорит Бат, который также является ассоциированным членом Института Броуда Массачусетского технологического института и Гарварда. «ДНК в тысячу раз плотнее, чем даже флеш-память, и еще одно интересное свойство заключается в том, что, как только вы создаете полимер ДНК, он не потребляет энергии. Вы можете записать ДНК и хранить ее вечно ».

Фотография «файлов» ДНК. Каждая сфера из диоксида кремния содержит последовательности ДНК, которые кодируют конкретное изображение, а внешняя сторона сферы покрыта нуклеотидными штрих-кодами, которые описывают содержимое изображения. Предоставлено: любезно предоставлено исследователями.

Ученые уже продемонстрировали, что они могут кодировать изображения и страницы текста как ДНК. Однако также потребуется простой способ выбрать нужный файл из множества фрагментов ДНК. Батх и его коллеги продемонстрировали один способ сделать это, заключив каждый файл данных в 6-микрометровую частицу кремнезема, которая помечена короткими последовательностями ДНК, раскрывающими содержимое.

Используя этот подход, исследователи продемонстрировали, что они могут точно извлекать отдельные изображения, хранящиеся в виде последовательностей ДНК, из набора из 20 изображений. Учитывая количество возможных меток, которые можно использовать, этот подход можно масштабировать до 10²⁰ файлы.

Батх - старший автор исследования, которое публикуется сегодня в Природа материалы. Ведущими авторами статьи являются старший постдок MIT Джеймс Банал, бывший научный сотрудник MIT Тайсон Шеперд и аспирант MIT Джозеф Берлеант.

Стабильное хранение

Цифровые системы хранения кодируют текст, фотографии или любую другую информацию как последовательность нулей и единиц. Эта же информация может быть закодирована в ДНК с использованием четырех нуклеотидов, составляющих генетический код: A, T, G и C. Например, G и C могут использоваться для обозначения 0, в то время как A и T представляют 1.

ДНК имеет несколько других особенностей, которые делают ее желательной в качестве носителя информации: она чрезвычайно стабильна, ее довольно легко (но дорого) синтезировать и секвенировать. Кроме того, из-за его высокой плотности - каждый нуклеотид, эквивалентный двум битам, составляет около 1 кубического нанометра - экзабайт данных, хранящихся в виде ДНК, может уместиться на вашей ладони.

Исследователи сохранили подобные изображения в ДНК. Предоставлено: любезно предоставлено исследователями.

Одним из препятствий для такого типа хранения данных является стоимость синтеза таких больших объемов ДНК. В настоящее время запись одного петабайта данных (1 миллион гигабайт) будет стоить 1 триллион долларов. По оценке Бата, чтобы стать конкурентоспособным с магнитной лентой, которая часто используется для хранения архивных данных, стоимость синтеза ДНК должна снизиться примерно на шесть порядков. Бат говорит, что он ожидает, что это произойдет в течение одного-двух десятилетий, подобно тому, как стоимость хранения информации на флеш-накопителях резко упала за последние пару десятилетий.

Помимо стоимости, другим серьезным узким местом при использовании ДНК для хранения данных является сложность выбора нужного файла среди всех остальных.

«Если предположить, что технологии записи ДНК достигнут точки, когда экономически выгодно записать экзабайт или зеттабайт данных в ДНК, что тогда? У вас будет куча ДНК, которая представляет собой миллионы файлов, изображений, фильмов и прочего, и вам нужно будет найти ту картинку или фильм, который вы ищете », - говорит Бат. «Это похоже на попытку найти иголку в стоге сена».

В настоящее время файлы ДНК обычно получают с помощью ПЦР (полимеразной цепной реакции). Каждый файл данных ДНК включает последовательность, которая связывается с конкретным праймером ПЦР. Чтобы извлечь конкретный файл, этот праймер добавляется к образцу, чтобы найти и амплифицировать желаемую последовательность. Однако одним из недостатков этого подхода является то, что между праймером и последовательностями ДНК вне мишени может возникать перекрестное взаимодействие, что приводит к удалению нежелательных файлов. Кроме того, процесс получения ПЦР требует ферментов и в конечном итоге потребляет большую часть ДНК, которая была в пуле.

«Вы как бы сжигаете стог сена, чтобы найти иголку, потому что вся остальная ДНК не усиливается, и вы, по сути, выбрасываете ее», - говорит Бат.

Получение файла

В качестве альтернативного подхода команда Массачусетского технологического института разработала новую технику извлечения, которая включает в себя инкапсуляцию каждого файла ДНК в небольшую частицу кремнезема. Каждая капсула помечена одноцепочечными «штрих-кодами» ДНК, соответствующими содержимому файла. Чтобы продемонстрировать этот подход экономически эффективным способом, исследователи закодировали 20 различных изображений в фрагменты ДНК длиной около 3,000 нуклеотидов, что эквивалентно примерно 100 байтам. (Они также показали, что в капсулы помещаются файлы ДНК размером до гигабайта.)

Каждый файл был помечен штрих-кодами, соответствующими таким ярлыкам, как «кошка» или «самолет». Когда исследователи хотят извлечь конкретное изображение, они удаляют образец ДНК и добавляют праймеры, соответствующие искомым ярлыкам, например «кошка», «оранжевый» и «дикий» для изображения. тигра, или «кошка», «апельсин» и «домашний» для домашней кошки.

Праймеры помечены флуоресцентными или магнитными частицами, что позволяет легко извлечь и идентифицировать любые совпадения из образца. Это позволяет удалить нужный файл, оставив остальную часть ДНК нетронутой, чтобы вернуть ее в хранилище. Их процесс поиска допускает логические утверждения, такие как «президент И 18^th век», чтобы в результате сгенерировать Джорджа Вашингтона, аналогично тому, что получается с изображением Google. по области применения.

«На текущем этапе проверки нашей концепции скорость поиска составляет 1 килобайт в секунду. Скорость поиска нашей файловой системы определяется размером данных на капсулу, который в настоящее время ограничен непомерно высокой стоимостью записи даже 100 мегабайт данных на ДНК, и количеством сортировщиков, которые мы можем использовать параллельно. Если синтез ДНК станет достаточно дешевым, мы сможем максимально увеличить объем данных, которые мы можем хранить в файле с нашим подходом », - говорит Банал.

Для своих штрих-кодов исследователи использовали одноцепочечные последовательности ДНК из библиотеки из 100,000 25 последовательностей, каждая длиной около 10 нуклеотидов, разработанных Стивеном Элледжем, профессором генетики и медицины Гарвардской медицинской школы. Если вы поместите две такие метки на каждый файл, вы можете уникально пометить XNUMX¹⁰ (10 миллиардов) разных файлов, и с четырьмя ярлыками на каждом вы можете однозначно пометить 10²⁰ файлы.

Джордж Черч, профессор генетики Гарвардской медицинской школы, описывает эту технику как «гигантский скачок в области управления знаниями и поисковых технологий».

«Быстрый прогресс в написании, копировании, чтении и хранении архивных данных с низким энергопотреблением в форме ДНК оставил плохо изученные возможности для точного извлечения файлов данных из огромных (10²¹ байт, зетта-шкала) баз данных », - говорит Черч, который не принимал участия в исследовании. «Новое исследование эффективно решает эту проблему, используя полностью независимый внешний слой ДНК и различные свойства ДНК (гибридизация, а не секвенирование), и, более того, с использованием существующих инструментов и химического состава».

Бат предполагает, что этот вид инкапсуляции ДНК может быть полезен для хранения «холодных» данных, то есть данных, которые хранятся в архиве и к которым редко обращаются. Его лаборатория создает стартап Cache DNA, который сейчас разрабатывает технологию для долгосрочного хранения ДНК, как для хранения данных ДНК в долгосрочной перспективе, так и для клинических и других ранее существовавших образцов ДНК в ближайшем будущем.

«Хотя может пройти некоторое время, прежде чем ДНК станет жизнеспособной в качестве носителя данных, сегодня уже существует острая потребность в недорогих, массивных решениях для хранения уже существующих образцов ДНК и РНК, полученных при тестировании на Covid-19, геномном секвенировании человека и т. Д. области геномики », - говорит Бат.

Ссылка: «Память ДНК с произвольным доступом с использованием логического поиска в системе хранения архивных файлов» Джеймса Л. Банала, Тайсона Р. Шеперда, Джозефа Берлеанта, Хеллен Хуанг, Мигеля Рейеса, Чери М. Акерман, Пола С. Блейни и Марка Бата, 10 июня 2021 г., Природа материалы.
DOI: 10.1038/s41563-021-01021-3

Исследование финансировалось Управлением военно-морских исследований, Национальным научным фондом и Исследовательским офисом армии США.

Хранение данных ДНК большой емкости: могут ли все ваши цифровые фотографии храниться в виде ДНК?

Стабильное хранение

Получение файла

Еще от автора

То, что вы едите, влияет на опухоли: диета может замедлить рост рака

Взвешивание раковых клеток для принятия решения о лечении

Экологические потери одноразовых масок – и как уменьшить...

Должен прочитать

Многосторонние банки развития углубляют сотрудничество, чтобы стать единой системой

Священные ордена под судом: французская правовая система против Ватикана

ОБСЕ заявляет, что необходимы более решительные усилия по борьбе с антимусульманскими предрассудками на фоне всплеска ненависти

50 экспертов по религиозным меньшинствам исследуют в Наварре серьезную законодательную дискриминацию в Испании

Последние статьи

На фоне репрессий в университетских городках война в Газе спровоцировала кризис свободы слова

Виртуальные датчики помогают летательным аппаратам оставаться в воздухе при выходе из строя несущих винтов

Волна растущего отсутствия продовольственной безопасности захлестнула Западную и Центральную Африку

Буркина-Фасо: Управление ООН по правам человека глубоко встревожено сообщениями об убийстве 220 жителей деревни

Изнасилования, убийства и голод: наследие года войны в Судане

Члены/Партнеры

Новости Google

О Нас

Популярная категория

Выбор редакции

На фоне репрессий в университетских городках война в Газе спровоцировала кризис свободы слова

Виртуальные датчики помогают летательным аппаратам оставаться в воздухе при выходе из строя несущих винтов