Техніка маркування та отримання файлів даних ДНК із великого пулу може допомогти зробити зберігання даних ДНК можливим.
Зараз на Землі є близько 10 трильйонів гігабайт цифрових даних, і щодня люди створюють електронні листи, фотографії, твіти та інші цифрові файли, які надають ще 2.5 мільйона гігабайт даних. Велика частина цих даних зберігається у величезних об’єктах, відомих як ексабайтні центри обробки даних (екзабайт становить 1 мільярд гігабайт), розміром з кілька футбольних полів, а будівництво та обслуговування яких коштує близько 1 мільярда доларів.
Багато вчених вважають, що альтернативне рішення полягає в молекулі, яка містить нашу генетичну інформацію: ДНК, яка еволюціонувала для зберігання величезної кількості інформації з дуже високою щільністю. Кухля кави, наповнена ДНК, теоретично може зберігати всі дані світу, каже Марк Бат, професор біологічної інженерії Массачусетського технологічного інституту.
«Нам потрібні нові рішення для зберігання цих величезних обсягів даних, які накопичує світ, особливо архівних», — каже Бат, який також є асоційованим членом Широкого інституту Массачусетського технологічного інституту та Гарварду. «ДНК у тисячу разів щільніше навіть флеш-пам’яті, і ще одна цікава властивість полягає в тому, що як тільки ви робите ДНК-полімер, він не споживає жодної енергії. Ви можете написати ДНК, а потім зберігати її назавжди».
Вчені вже продемонстрували, що вони можуть кодувати зображення та сторінки тексту як ДНК. Однак також знадобиться простий спосіб вибрати потрібний файл із суміші багатьох фрагментів ДНК. Бат і його колеги продемонстрували один із способів зробити це, інкапсулювавши кожен файл даних у 6-мікрометрову частинку кремнезему, яка позначена короткими послідовностями ДНК, які розкривають вміст.
Використовуючи цей підхід, дослідники продемонстрували, що вони можуть точно витягувати окремі зображення, збережені у вигляді послідовностей ДНК, із набору з 20 зображень. З огляду на кількість можливих міток, які можна використовувати, цей підхід можна масштабувати до 1020 файли.
Бате є старшим автором дослідження, яке з'являється сьогодні в Матеріали природи. Провідними авторами статті є старший постдок Массачусетського технологічного інституту Джеймс Банал, колишній науковий співробітник MIT Тайсон Шеперд і аспірант Массачусетського технологічного інституту Джозеф Берлент.
Стабільне зберігання
Цифрові системи зберігання кодують текст, фотографії або будь-яку іншу інформацію у вигляді серії 0 і 1. Цю саму інформацію можна закодувати в ДНК за допомогою чотирьох нуклеотидів, які складають генетичний код: A, T, G і C. Наприклад, G і C можуть використовуватися для позначення 0, а A і T представляють 1.
ДНК має кілька інших особливостей, які роблять її бажаною як носій інформації: вона надзвичайно стабільна, її досить легко (але дорого) синтезувати та послідовно. Крім того, через його високу щільність — кожен нуклеотид, еквівалентний до двох бітів, становить близько 1 кубічного нанометра — ексабайт даних, що зберігаються у вигляді ДНК, може поміститися на долоні.
Однією з перешкод для такого типу зберігання даних є вартість синтезу такої великої кількості ДНК. Зараз записати один петабайт даних (1 мільйон гігабайт) коштуватиме 1 трильйон доларів. Щоб стати конкурентоспроможним з магнітною стрічкою, яка часто використовується для зберігання архівних даних, Бат оцінює, що вартість синтезу ДНК повинна знизитися приблизно на шість порядків. Бат каже, що він очікує, що це станеться протягом десятиліття або двох, подібно до того, як вартість зберігання інформації на флеш-накопичувачах різко впала за останні кілька десятиліть.
Крім вартості, інше серйозне вузьке місце у використанні ДНК для зберігання даних — це труднощі з вибором потрібного вам файлу з усіх інших.
«Якщо припустити, що технології запису ДНК досягають точки, коли записати ексабайт або зеттабайт даних в ДНК буде економічно вигідно, то що? У вас буде купа ДНК, яка складається з мільйонів файлів, зображень чи фільмів та інших речей, і вам потрібно знайти ту картинку чи фільм, які ви шукаєте», – каже Бат. «Це все одно, що намагатися знайти голку в копиці сіна».
В даний час файли ДНК традиційно отримують за допомогою ПЛР (полімеразної ланцюгової реакції). Кожен файл даних ДНК містить послідовність, яка зв’язується з певним праймером ПЛР. Щоб витягти певний файл, цей праймер додається до зразка, щоб знайти та посилити потрібну послідовність. Однак одним із недоліків цього підходу є перехресні перешкоди між праймером і нецільовими послідовностями ДНК, що призведе до вилучення небажаних файлів. Крім того, процес отримання ПЛР вимагає ферментів і в кінцевому підсумку споживає більшу частину ДНК, яка була в пулі.
«Ви спалюєте копу сіна, щоб знайти голку, тому що вся інша ДНК не ампліфікується, і ви в основному викидаєте її», — каже Бат.
Пошук файлів
В якості альтернативного підходу команда Массачусетського технологічного інституту розробила нову техніку пошуку, яка передбачає інкапсуляцію кожного файлу ДНК у невелику частинку кремнезему. Кожна капсула позначена одноланцюговими ДНК «штрих-кодами», які відповідають вмісту файлу. Щоб продемонструвати цей підхід економічно ефективним способом, дослідники закодували 20 різних зображень у фрагменти ДНК довжиною близько 3,000 нуклеотидів, що еквівалентно приблизно 100 байтам. (Вони також показали, що капсули можуть вмістити файли ДНК розміром до гігабайта.)
Кожен файл був позначений штрих-кодами, що відповідають міткам, наприклад «кіт» або «літак». Коли дослідники хочуть отримати конкретне зображення, вони видаляють зразок ДНК і додають праймери, які відповідають міткам, які вони шукають, наприклад, «кіт», «апельсин» і «дикий» для зображення. тигра, або «кішка», «апельсин» і «домашній» для домашнього кота.
Праймери маркуються флуоресцентними або магнітними частинками, що дозволяє легко витягнути та ідентифікувати будь-які збіги із зразка. Це дозволяє видалити потрібний файл, залишаючи решту ДНК неушкодженою, щоб повернути її в сховище. Їх процес пошуку дозволяє використовувати логічні твердження, такі як «президент І 18th століття», щоб у результаті створити Джорджа Вашингтона, подібно до того, що отримується за допомогою зображення Google пошук.
«За поточного стану нашої перевірки концепції ми знаходимося на швидкості пошуку 1 кілобайт в секунду. Швидкість пошуку нашої файлової системи визначається розміром даних на капсулу, який наразі обмежений надмірною вартістю запису навіть 100 мегабайт даних в ДНК, а також кількістю сортувальників, які ми можемо використовувати паралельно. Якщо синтез ДНК стане досить дешевим, ми зможемо максимізувати розмір даних, які ми зможемо зберігати в одному файлі, за допомогою нашого підходу», – говорить Банал.
Для своїх штрих-кодів дослідники використовували одноланцюгові послідовності ДНК з бібліотеки з 100,000 25 послідовностей, кожна довжиною близько 10 нуклеотидів, розроблених Стівеном Елледжем, професором генетики та медицини Гарвардської медичної школи. Якщо ви поставите дві такі мітки до кожного файлу, ви зможете унікально позначити XNUMX10 (10 мільярдів) різних файлів, і маючи чотири мітки на кожному, ви можете унікально позначити 1020 файли.
Джордж Черч, професор генетики Гарвардської медичної школи, описує цю техніку як «гігантський стрибок для управління знаннями та пошукових технологій».
«Швидкий прогрес у записі, копіюванні, читанні та низькоенергетичному зберіганні архівних даних у формі ДНК залишив погано вивчені можливості для точного отримання файлів даних із величезних (1021 байт, дзетта-масштабу)», — каже Черч, який не брав участі в дослідженні. «Нове дослідження вражаюче вирішує це з використанням абсолютно незалежного зовнішнього шару ДНК і використанням різних властивостей ДНК (гібридизація, а не секвенування), а також використання існуючих інструментів і хімії».
Bathe передбачає, що такий вид інкапсуляції ДНК може бути корисним для зберігання «холодних» даних, тобто даних, які зберігаються в архіві та доступні не дуже часто. Його лабораторія створює стартап Cache DNA, який зараз розробляє технологію для довгострокового зберігання ДНК, як для довгострокового зберігання даних ДНК, так і для клінічних та інших попередніх зразків ДНК у найближчій перспективі.
«Хоча може пройти деякий час, перш ніж ДНК стане життєздатною як носій для зберігання даних, сьогодні вже існує нагальна потреба в недорогих, масивних рішеннях для зберігання вже існуючих зразків ДНК і РНК з тестування на Covid-19, секвенування генома людини та інших. області геноміки», – каже Бат.
Довідка: «ДНК-пам'ять із випадковим доступом за допомогою логічного пошуку в архівній системі зберігання файлів» Джеймс Л. Банал, Тайсон Р. Шеперд, Джозеф Берлеант, Хеллен Хуанг, Мігель Рейес, Чері М. Аккерман, Пол К. Блейні та Марк Бат, 10 червня 2021 року, Матеріали природи.
DOI: 10.1038/s41563-021-01021-3
Дослідження профінансували Управління військово-морських досліджень, Національний науковий фонд і Дослідницький офіс армії США.