14 C
Брюссель
Воскресенье, апреля 28, 2024
НовостиХранение данных ДНК большой емкости: можно ли хранить все ваши цифровые фотографии ...

Хранение данных ДНК большой емкости: могут ли все ваши цифровые фотографии храниться в виде ДНК?

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Информация и мнения, воспроизведенные в статьях, принадлежат тем, кто их излагает, и они несут ответственность за это. Публикация в The European Times автоматически означает не одобрение точки зрения, а право на ее выражение.

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ ПЕРЕВОД: Все статьи на этом сайте опубликованы на английском языке. Переведенные версии выполняются с помощью автоматизированного процесса, известного как нейронные переводы. Если сомневаетесь, всегда обращайтесь к оригинальной статье. Спасибо за понимание.

Хранение данных ДНК

Инженеры-биологи Массачусетского технологического института продемонстрировали способ легко извлекать файлы данных, хранящиеся в виде ДНК. Это может быть шагом к использованию архивов ДНК для хранения огромного количества фотографий, изображений и другого цифрового контента. Кредит: Изображение: MIT News. Маленькие значки любезно предоставлены исследователями

Метод маркировки и извлечения файлов данных ДНК из большого пула может помочь сделать хранение данных ДНК возможным.

На Земле сейчас существует около 10 триллионов гигабайт цифровых данных, и каждый день люди создают электронные письма, фотографии, твиты и другие цифровые файлы, которые в сумме составляют еще 2.5 миллиона гигабайт данных. Большая часть этих данных хранится в огромных объектах, известных как эксабайтные центры обработки данных (эксабайт составляет 1 миллиард гигабайт), которые могут быть размером с несколько футбольных полей и стоить около 1 миллиарда долларов на строительство и обслуживание.

Многие ученые считают, что альтернативное решение заключается в молекуле, которая содержит нашу генетическую информацию: ДНК, которая эволюционировала для хранения огромных объемов информации с очень высокой плотностью. По словам Марка Бата, профессора биологической инженерии Массачусетского технологического института, в кофейной кружке, полной ДНК, теоретически могут храниться все данные мира.

«Нам нужны новые решения для хранения огромных объемов данных, которые накапливаются в мире, особенно архивных данных», - говорит Бат, который также является ассоциированным членом Института Броуда Массачусетского технологического института и Гарварда. «ДНК в тысячу раз плотнее, чем даже флеш-память, и еще одно интересное свойство заключается в том, что, как только вы создаете полимер ДНК, он не потребляет энергии. Вы можете записать ДНК и хранить ее вечно ».

Фото файлов ДНК

Фотография «файлов» ДНК. Каждая сфера из диоксида кремния содержит последовательности ДНК, которые кодируют конкретное изображение, а внешняя сторона сферы покрыта нуклеотидными штрих-кодами, которые описывают содержимое изображения. Предоставлено: любезно предоставлено исследователями.

Ученые уже продемонстрировали, что они могут кодировать изображения и страницы текста как ДНК. Однако также потребуется простой способ выбрать нужный файл из множества фрагментов ДНК. Батх и его коллеги продемонстрировали один способ сделать это, заключив каждый файл данных в 6-микрометровую частицу кремнезема, которая помечена короткими последовательностями ДНК, раскрывающими содержимое.

Используя этот подход, исследователи продемонстрировали, что они могут точно извлекать отдельные изображения, хранящиеся в виде последовательностей ДНК, из набора из 20 изображений. Учитывая количество возможных меток, которые можно использовать, этот подход можно масштабировать до 1020 файлы.

Батх - старший автор исследования, которое публикуется сегодня в Природа материалы. Ведущими авторами статьи являются старший постдок MIT Джеймс Банал, бывший научный сотрудник MIT Тайсон Шеперд и аспирант MIT Джозеф Берлеант.

Стабильное хранение

Цифровые системы хранения кодируют текст, фотографии или любую другую информацию как последовательность нулей и единиц. Эта же информация может быть закодирована в ДНК с использованием четырех нуклеотидов, составляющих генетический код: A, T, G и C. Например, G и C могут использоваться для обозначения 0, в то время как A и T представляют 1.

ДНК имеет несколько других особенностей, которые делают ее желательной в качестве носителя информации: она чрезвычайно стабильна, ее довольно легко (но дорого) синтезировать и секвенировать. Кроме того, из-за его высокой плотности - каждый нуклеотид, эквивалентный двум битам, составляет около 1 кубического нанометра - экзабайт данных, хранящихся в виде ДНК, может уместиться на вашей ладони.

Изображения, хранящиеся в ДНК

Исследователи сохранили подобные изображения в ДНК. Предоставлено: любезно предоставлено исследователями.

Одним из препятствий для такого типа хранения данных является стоимость синтеза таких больших объемов ДНК. В настоящее время запись одного петабайта данных (1 миллион гигабайт) будет стоить 1 триллион долларов. По оценке Бата, чтобы стать конкурентоспособным с магнитной лентой, которая часто используется для хранения архивных данных, стоимость синтеза ДНК должна снизиться примерно на шесть порядков. Бат говорит, что он ожидает, что это произойдет в течение одного-двух десятилетий, подобно тому, как стоимость хранения информации на флеш-накопителях резко упала за последние пару десятилетий.

Помимо стоимости, другим серьезным узким местом при использовании ДНК для хранения данных является сложность выбора нужного файла среди всех остальных.

«Если предположить, что технологии записи ДНК достигнут точки, когда экономически выгодно записать экзабайт или зеттабайт данных в ДНК, что тогда? У вас будет куча ДНК, которая представляет собой миллионы файлов, изображений, фильмов и прочего, и вам нужно будет найти ту картинку или фильм, который вы ищете », - говорит Бат. «Это похоже на попытку найти иголку в стоге сена».

В настоящее время файлы ДНК обычно получают с помощью ПЦР (полимеразной цепной реакции). Каждый файл данных ДНК включает последовательность, которая связывается с конкретным праймером ПЦР. Чтобы извлечь конкретный файл, этот праймер добавляется к образцу, чтобы найти и амплифицировать желаемую последовательность. Однако одним из недостатков этого подхода является то, что между праймером и последовательностями ДНК вне мишени может возникать перекрестное взаимодействие, что приводит к удалению нежелательных файлов. Кроме того, процесс получения ПЦР требует ферментов и в конечном итоге потребляет большую часть ДНК, которая была в пуле.

«Вы как бы сжигаете стог сена, чтобы найти иголку, потому что вся остальная ДНК не усиливается, и вы, по сути, выбрасываете ее», - говорит Бат.

Получение файла

В качестве альтернативного подхода команда Массачусетского технологического института разработала новую технику извлечения, которая включает в себя инкапсуляцию каждого файла ДНК в небольшую частицу кремнезема. Каждая капсула помечена одноцепочечными «штрих-кодами» ДНК, соответствующими содержимому файла. Чтобы продемонстрировать этот подход экономически эффективным способом, исследователи закодировали 20 различных изображений в фрагменты ДНК длиной около 3,000 нуклеотидов, что эквивалентно примерно 100 байтам. (Они также показали, что в капсулы помещаются файлы ДНК размером до гигабайта.)

Каждый файл был помечен штрих-кодами, соответствующими таким ярлыкам, как «кошка» или «самолет». Когда исследователи хотят извлечь конкретное изображение, они удаляют образец ДНК и добавляют праймеры, соответствующие искомым ярлыкам, например «кошка», «оранжевый» и «дикий» для изображения. тигра, или «кошка», «апельсин» и «домашний» для домашней кошки.

Праймеры помечены флуоресцентными или магнитными частицами, что позволяет легко извлечь и идентифицировать любые совпадения из образца. Это позволяет удалить нужный файл, оставив остальную часть ДНК нетронутой, чтобы вернуть ее в хранилище. Их процесс поиска допускает логические утверждения, такие как «президент И 18th век», чтобы в результате сгенерировать Джорджа Вашингтона, аналогично тому, что получается с изображением Google. по области применения.

«На текущем этапе проверки нашей концепции скорость поиска составляет 1 килобайт в секунду. Скорость поиска нашей файловой системы определяется размером данных на капсулу, который в настоящее время ограничен непомерно высокой стоимостью записи даже 100 мегабайт данных на ДНК, и количеством сортировщиков, которые мы можем использовать параллельно. Если синтез ДНК станет достаточно дешевым, мы сможем максимально увеличить объем данных, которые мы можем хранить в файле с нашим подходом », - говорит Банал.

Для своих штрих-кодов исследователи использовали одноцепочечные последовательности ДНК из библиотеки из 100,000 25 последовательностей, каждая длиной около 10 нуклеотидов, разработанных Стивеном Элледжем, профессором генетики и медицины Гарвардской медицинской школы. Если вы поместите две такие метки на каждый файл, вы можете уникально пометить XNUMX10 (10 миллиардов) разных файлов, и с четырьмя ярлыками на каждом вы можете однозначно пометить 1020 файлы.

Джордж Черч, профессор генетики Гарвардской медицинской школы, описывает эту технику как «гигантский скачок в области управления знаниями и поисковых технологий».

«Быстрый прогресс в написании, копировании, чтении и хранении архивных данных с низким энергопотреблением в форме ДНК оставил плохо изученные возможности для точного извлечения файлов данных из огромных (1021 байт, зетта-шкала) баз данных », - говорит Черч, который не принимал участия в исследовании. «Новое исследование эффективно решает эту проблему, используя полностью независимый внешний слой ДНК и различные свойства ДНК (гибридизация, а не секвенирование), и, более того, с использованием существующих инструментов и химического состава».

Бат предполагает, что этот вид инкапсуляции ДНК может быть полезен для хранения «холодных» данных, то есть данных, которые хранятся в архиве и к которым редко обращаются. Его лаборатория создает стартап Cache DNA, который сейчас разрабатывает технологию для долгосрочного хранения ДНК, как для хранения данных ДНК в долгосрочной перспективе, так и для клинических и других ранее существовавших образцов ДНК в ближайшем будущем.

«Хотя может пройти некоторое время, прежде чем ДНК станет жизнеспособной в качестве носителя данных, сегодня уже существует острая потребность в недорогих, массивных решениях для хранения уже существующих образцов ДНК и РНК, полученных при тестировании на Covid-19, геномном секвенировании человека и т. Д. области геномики », - говорит Бат.

Ссылка: «Память ДНК с произвольным доступом с использованием логического поиска в системе хранения архивных файлов» Джеймса Л. Банала, Тайсона Р. Шеперда, Джозефа Берлеанта, Хеллен Хуанг, Мигеля Рейеса, Чери М. Акерман, Пола С. Блейни и Марка Бата, 10 июня 2021 г., Природа материалы.
DOI: 10.1038/s41563-021-01021-3

Исследование финансировалось Управлением военно-морских исследований, Национальным научным фондом и Исследовательским офисом армии США.

- Реклама -

Еще от автора

- ЭКСКЛЮЗИВНЫЙ СОДЕРЖАНИЕ -Spot_img
- Реклама -
- Реклама -
- Реклама -Spot_img
- Реклама -

Должен прочитать

Последние статьи

- Реклама -