Egy nagy adatbázisból származó DNS-adatfájlok címkézésére és lekérésére szolgáló technika segítheti a DNS-adatok tárolását.
A Földön jelenleg körülbelül 10 billió gigabájt digitális adat található, és az emberek minden nap e-maileket, fényképeket, tweeteket és egyéb digitális fájlokat készítenek, amelyek további 2.5 millió gigabájt adatot tesznek ki. Ezen adatok nagy részét hatalmas, exabájtos adatközpontoknak nevezett létesítményekben tárolják (egy exabájt 1 milliárd gigabájt), amelyek mérete több futballpálya mérete is lehet, és körülbelül 1 milliárd dollárba kerül a felépítése és fenntartása.
Sok tudós úgy véli, hogy egy alternatív megoldás a genetikai információinkat tartalmazó molekulában rejlik: a DNS-ben, amely úgy fejlődött ki, hogy hatalmas mennyiségű információt tároljon nagyon nagy sűrűségben. Egy DNS-sel teli kávésbögre elméletileg a világ összes adatát tárolhatja – mondja Mark Bathe, az MIT biológiai mérnöki professzora.
„Új megoldásokra van szükségünk a világ által felhalmozott hatalmas mennyiségű adat tárolására, különösen az archív adatokra” – mondja Bathe, aki a MIT és a Harvard Broad Institute-jának is társult tagja. „A DNS ezerszer sűrűbb, mint akár a flash memória, és egy másik érdekes tulajdonság, hogy ha egyszer elkészítjük a DNS polimert, az nem fogyaszt energiát. Leírhatod a DNS-t, majd örökre tárolhatod."
A tudósok már bebizonyították, hogy képesek DNS-ként kódolni képeket és szövegoldalakat. Szükség lesz azonban egy egyszerű módszerre is, amellyel kiválasztható a kívánt fájl sok DNS-darab keverékéből. Bathe és munkatársai most bemutatták ennek az egyik módját: minden adatfájlt egy 6 mikrométeres szilícium-dioxid részecskébe kapszuláztak, amelyet rövid DNS-szekvenciákkal jelölnek meg, amelyek felfedik a tartalmát.
Ezzel a megközelítéssel a kutatók bebizonyították, hogy egy 20 képből álló sorozatból pontosan ki tudják húzni a DNS-szekvenciákként tárolt egyedi képeket. Tekintettel a felhasználható lehetséges címkék számára, ez a megközelítés akár 10-re is skálázható20 fájlokat.
Bathe a tanulmány vezető szerzője, amely ma jelenik meg Természeti anyagok. A tanulmány vezető szerzői: James Banal, az MIT vezető posztdoktora, az MIT egykori kutatója, Tyson Shepherd és Joseph Berleant, az MIT végzős hallgatója.
Stabil tárolás
A digitális tárolórendszerek szöveget, fényképeket vagy bármilyen más információt kódolnak 0-k és 1-ek sorozataként. Ugyanez az információ kódolható a DNS-ben a genetikai kódot alkotó négy nukleotid használatával: A, T, G és C. Például G és C 0, míg A és T 1 jelölésére használható.
A DNS-nek számos egyéb tulajdonsága is van, amelyek kívánatossá teszik tárolási közegként: Rendkívül stabil, és meglehetősen könnyű (de költséges) szintetizálni és szekvenálni. Ezenkívül nagy sűrűsége miatt – minden egyes nukleotid, amely legfeljebb két bitnek felel meg, körülbelül 1 köb nanométer –, a DNS-ként tárolt adatok egy exabájtja elfér a tenyerében.
Az ilyen típusú adattárolás egyik akadálya az ilyen nagy mennyiségű DNS szintetizálásának költsége. Jelenleg 1 billió dollárba kerülne egy petabájt adat (1 millió gigabájt) írása. Ahhoz, hogy versenyképessé váljon az archív adatok tárolására gyakran használt mágnesszalaggal, Bathe becslése szerint a DNS-szintézis költségének körülbelül hat nagyságrenddel kellene csökkennie. Bathe azt várja, hogy ez egy-két évtizeden belül megtörténik, hasonlóan ahhoz, ahogyan az információ flash meghajtókon való tárolásának költsége drámaian csökkent az elmúlt néhány évtizedben.
A költségek mellett a másik nagy szűk keresztmetszet a DNS adattárolásra való felhasználásában az, hogy nehéz kiválasztani a kívánt fájlt a többi közül.
„Feltételezve, hogy a DNS-írás technológiái eljutnak arra a pontra, ahol költséghatékony egy exabájt vagy zettabájt adatot írni a DNS-be, akkor mi van? Egy halom DNS-t fog kapni, ami egy csomó fájl, kép vagy film és egyéb dolgok, és meg kell találnia azt az egyetlen képet vagy filmet, amelyet keres” – mondja Bathe. „Olyan ez, mintha tűt akarnánk találni a szénakazalban.”
Jelenleg a DNS-fájlokat hagyományosan PCR-rel (polimeráz láncreakció) nyerik ki. Minden DNS adatfájl tartalmaz egy szekvenciát, amely egy adott PCR primerhez kötődik. Egy adott fájl kihúzásához ezt a primert hozzá kell adni a mintához, hogy megtalálja és felerősítse a kívánt szekvenciát. Ennek a megközelítésnek azonban az egyik hátránya, hogy áthallás léphet fel a primer és a nem cél DNS-szekvenciák között, ami a nem kívánt fájlok eltávolításához vezethet. Ezenkívül a PCR-visszanyerési folyamathoz enzimekre van szükség, és végül elfogyasztja a készletben lévő DNS nagy részét.
„Elégeted a szénakazalt, hogy megtaláld a tűt, mert az összes többi DNS nem erősödik fel, és gyakorlatilag kidobod” – mondja Bathe.
Fájlok visszakeresése
Alternatív megközelítésként az MIT csapata kifejlesztett egy új visszakeresési technikát, amely magában foglalja az egyes DNS-fájlok kis szilícium-dioxid-részecskékbe zárását. Minden kapszulát egyszálú DNS „vonalkódokkal” látnak el, amelyek megfelelnek a fájl tartalmának. Ennek a megközelítésnek a költséghatékony bemutatása érdekében a kutatók 20 különböző képet kódoltak körülbelül 3,000 nukleotid hosszúságú DNS-darabokba, ami körülbelül 100 bájtnak felel meg. (Azt is kimutatták, hogy a kapszulákba akár egy gigabájt méretű DNS-fájlok is beleférnek.)
Minden fájl vonalkóddal volt ellátva, amelyek megfeleltek a „macska” vagy a „repülőgép” címkéknek. Amikor a kutatók ki akarnak húzni egy adott képet, eltávolítanak egy mintát a DNS-ből, és a keresett címkéknek megfelelő primereket adnak hozzá – például „macska”, „narancs” és „vad” egy képhez. tigris, vagy „macska”, „narancs” és „házi” házimacska számára.
A primerek fluoreszcens vagy mágneses részecskékkel vannak megjelölve, így könnyen ki lehet húzni és azonosítani az egyezéseket a mintából. Ez lehetővé teszi a kívánt fájl eltávolítását, miközben a DNS többi része érintetlen marad, és visszakerül a tárolóba. A visszakeresési folyamatuk lehetővé teszi az olyan logikai logikai utasításokat, mint például a „president AND 18th században” generálni George Washingtont ennek eredményeként, hasonlóan ahhoz, amit egy Google-képpel lekérnek keresés.
„Elképzelésünk jelenlegi állása szerint az 1 kilobájt/másodperc keresési sebességnél tartunk. Fájlrendszerünk keresési sebességét a kapszulánkénti adatméret határozza meg, aminek jelenleg még a 100 megabájtnyi adat DNS-re való írásának túl magas költsége és a párhuzamosan használható válogatók száma korlátozza. Ha a DNS-szintézis elég olcsó lesz, akkor a mi megközelítésünkkel maximalizálhatjuk a fájlonként tárolható adatméretet” – mondja Banal.
Vonalkódjukhoz a kutatók egy 100,000 25 szekvenciát tartalmazó, egyenként körülbelül 10 nukleotid hosszúságú szekvenciából álló egyszálú DNS-szekvenciákat használtak, amelyeket Stephen Elledge, a Harvard Medical School genetikai és orvostudományi professzora fejlesztett ki. Ha ezekből a címkék közül kettőt helyez el minden fájlon, egyedileg címkézheti fel a XNUMX-et10 (10 milliárd) különböző fájl, és mindegyiken négy címkével egyedileg címkézheti fel a 10-et20 fájlokat.
George Church, a Harvard Medical School genetikai professzora úgy írja le a technikát, mint „óriási ugrást a tudásmenedzsment és a keresési technológia terén”.
„Az írás, a másolás, az olvasás és az alacsony energiaigényű archiválási adatok DNS-formátumú tárolása terén elért gyors előrehaladás kevéssé feltárt lehetőségeket hagyott maga után az adatfájlok precíz lekérésére hatalmas (10)21 bájt, zetta-méretű) adatbázisok” – mondja Church, aki nem vett részt a vizsgálatban. "Az új tanulmány látványosan foglalkozik ezzel a teljesen független külső DNS-réteggel, és a DNS különböző tulajdonságait (inkább hibridizációt, mint szekvenálást), valamint meglévő műszereket és kémiákat használ."
Bathe elképzelése szerint ez a fajta DNS-beágyazás hasznos lehet „hideg” adatok, vagyis olyan adatok tárolására, amelyeket archívumban tárolnak, és amelyekhez nem nagyon fér hozzá. Laboratóriuma egy induló vállalkozást, a Cache DNA-t fejleszti ki, amely jelenleg technológiát fejleszt a DNS hosszú távú tárolására, mind a DNS-adatok hosszú távú tárolására, mind pedig a klinikai és más, már meglévő DNS-mintákra rövid távon.
„Bár eltarthat egy ideig, amíg a DNS életképes lesz adathordozóként, már ma is sürgető igény van alacsony költségű, hatalmas tárolási megoldásokra a Covid-19-tesztekből, humán genomi szekvenálásból és egyéb, már meglévő DNS- és RNS-minták számára. a genomika területén” – mondja Bathe.
Hivatkozás: James L. Banal, Tyson R. Shepherd, Joseph Berleant, Hellen Huang, Miguel Reyes, Cheri M. Ackerman, Paul C. Blainey és Mark Bathe: „Véletlen hozzáférésű DNS-memória Boole-kereséssel egy archív fájltároló rendszerben”, 10. június 2021, Természeti anyagok.
DOI: 10.1038/s41563-021-01021-3
A kutatást a Haditengerészeti Kutatási Hivatal, a Nemzeti Tudományos Alapítvány és az Egyesült Államok Hadsereg Kutatási Hivatala finanszírozta.