O.S.E.L. - Syntetická DNA v roli média pro gigantická úložiště dat
 Syntetická DNA v roli média pro gigantická úložiště dat
Genetici předvedli, jak se dají pomocí kódu, který příroda stvořila k zachování života, uchovat Shakespearovy sonety, fotografie i hlas Martina Lutera Kinga. Do šálku od kávy se vejde 100 milionů hodin videozáznamu v HD rozlišení. Vysušená DNA nevyžaduje žádné náklady na údržbu, chybovost čtení dat je minimální. Během několika let by tato metoda měla být ekonomicky konkurenceschopná.



Je tomu deset let, co jsme poněkud rozpačitě jásali nad rozluštěním tří miliard párů bází lidského genomu. To proto, že se ukázalo, že čtení trvalo dlouho a ti, co se o to zasloužili, shodně se Sydney Brennerem (pozdějším laureátem ceny jistého Nobela) prohlašovali, že takovou práci by příště měli dělat zločinci. „Čím horší zločin by kdo spáchal, tím větší kus dědičné informace by musel přečíst.“ Dnes otrockou práci dělají automaty a genomů je přečtených tolik, že už to nikoho ani nezajímá. Do médií se taková zpráva dostane, jen když se dá spojit s nějakým dalším rekordem, třeba když koncem loňského roku zvládli v Kanadě během padesáti hodin přečíst genom hned dvěma pacientům současně.
Bez přehánění můžeme říci, že čtení nám začalo jít dobře. S psaním to je zatím horší. Ne, že bychom to nedovedli, ukázkou je sestavení genomu mikroorganismu v dílně Craiga Ventera. Před časem jeho čtyřiadvacet genetiků syntetizovalo dědičnou informaci bakterie Mycoplasma mycoides. I když  se okolo toho děly velké reklamní tanečky s přeháněním o stvoření syntetického života, ve skutečnosti šlo jen o genom primitivní bakterie o délce pouhého milionu písmen. 

 

Pokus Venterova týmu na bakterii ukázal, že jsme zvládli nejen čtení, ale i sestavování genetického kódu, který je funkční a bakteriální buňku dokáže zcela přeprogramovat. (Kredit: J. Craig Venter Institute)

Jakoby nás kód života fascinoval a zaslepil zároveň. Všichni se honili za odhalováním zákonitostí života, funkcemi genů, případně se vrhli na lukrativní určování otcovství. Vše se ale dělo ve stejném směru, k čemuž tento systém vytvořila příroda. Našli se sice i tací, kteří geny začali různě modifikovat, ale i to je de facto v souladu s principy nastolenými přírodou. Vizionářů, kteří poukázali na další možnosti využití genetického kódu bylo poskrovnu a navíc tak činili poněkud nešťastně, za což si vysloužili všeobecné opovržení.


Transgenní náhrobky 

SPUSTIT VIDEO
Interview s Georgem Tremmelem o hnutí „kódovaná kultura“. Tremmel je jedním z průkopníků kontroverzního využití genetické informace k jiným účelům, než k jakým ho stvořila příroda. Do povědomí veřejnosti se dostal projektem památníků v podobě živých stromů nesoucích charakteristické geny milované osoby.

Průkopníky využití genetického kódu k něčemu jinému než příroda zamýšlela se poněkud paradoxně stali umělci. Výtvarníci Georg Tremmel s kolegou Shiho Fukuharou z londýnské Royal College of Art před časem představili projekt, jehož podstatou bylo vložení DNA z milované (mrtvé) osoby do genomu stromu. Podle nich šlo o symboliku. Každá buňka takto geneticky modifikovaného stromu se měla stát jakousi genetickou ozvěnou milované osoby a stromy se měly stát skutečným živým odkazem s jedinečnými prvky milované osoby. Umělci v tom dodnes nevidí nic zvrhlého a argumentují, že jde jen jiný způsob uchování památky na jedinečnost člověka, tedy o něco o co se snaží i jejich kolegové, kteří k témuž - vystižení typického a jedinečného rysu člověka volí jiné prostředky, hlínu, kámen , bronz, a nebo sádru v případě posmrtné masky. Britská nadace National Endowment for Science Technology and the Arts (NESTA) na jejich počin tehdy vyčlenila 35 000 Liber, aby společnost Biopresence mohla jejich úmysl ztvárnit. Pak ale veřejnost začala proti tomu brojit a o jejich zamýšlenému počinu se začalo hanlivě psát jako o transgenních náhrobcích. Zájem o jedinečně upravené jabloně podle požadavků a přání zákazníka, jejichž cena byla stanovena v přepočtu na 1 400 000 korun, upadl a celý projekt nakonec vyšuměl.


Přešlo několik let a máme tu vizi „jiného“ využití DNA a v mnohem robustnější formě. I když myšlenka oprostit genetický kód od života a zapisovat jím věci s ním nesouvisející zůstala, o nemorálnosti se už nehovoří. Možná i proto, že cílem je něco, co by nám nahradilo cédéčka, dévédéčka, flešky, externí harddisky, vlastně všechno, co má ohledně zápisu dat omezenou životnost a nebo co potřebuje na provoz hodně energie. Cílem je využít DNA vlákna jako gigantická úložiště dat, která by získala cennou devizu, kterou se může DNA chlubit - její trvanlivostí. Zatímco u dnešních médií se počítá s životností v desítkách let, načež je třeba data někam překopírovat, u DNA nějaká ta desítka tisíc let nehraje roli. Ostatně, čtení DNA neandrtálců a mamutů je toho hmatatelným dokladem.

 

Problém
Číst i syntetizovat molekulu DNA dovedeme. Pokus Craiga Ventera se syntézou genomu jeho bakterie ale ukázal na achillovu patu úvah většího rozšíření takové činnosti. Problémy s výrobou dlouhé molekuly DNA a to i v případě bakteriálního genomu, se ukázaly být tak velké, že si s nimi laboratorní technika nebyla schopna poradit. Finální kompletaci bakteriální DNA proto genetici museli potupně svěřit obyčejným kvasinkám. Teprve tak získali úplný genom bakterie, který po vnesení do jiné, vykuchané bakterie, tedy spíše jen jakéhosi bakteriálního těla bez „duše“ v ní  provedl revoluci a začal tuto buňku přetvářet k obrazu svému. Úspěch to bezpochyby byl. Nicméně se také ukázalo, že tudy cesta k syntéze dlouhých bezchybných zápisů nevede. Bohužel právě to je pro  uchovávání dat klíčové. Angličanovi Niku Goldmanovi z European Bioinformatics Institute a jeho týmu se ale nyní podařilo s tímto problémem elegantně vypořádat. A to je důvod, proč byl tento článek napsán. 

 

Zvětšit obrázek
Pomocí huffmanova algoritmu se klasické bajty převádí do zápisu pomocí sledu bází. Syntetická DNA ale s životem a přirozeností nemá nic společného. Je jen médiem k uložení dat.


Jednoduché jako facka
Aby se Goldmanovi podařilo zapsat na DNA vlákno velké množství dat, provedl s těmi uloženými v počítači, které hodlal uložit, nejprve jisté frajkumšty. Využil k tomu přístup jenž v roce 1952 popsal David Huffman. Někdy se postup označuje jako huffmanův algoritmus. Využívá různé četnosti znaků v daném souboru. Používá se například při bezeztrátové kompresi dat. Konvertuje znaky vstupního souboru do bitových řetězců různé délky. Znaky, které se ve vstupním souboru vyskytují nejčastěji, jsou přetransformovány do bitových řetězců s nejkratší délkou (to znamená, že nejfrekventovanější znak může být zapsán jako jediný bit). Znaky, které se vyskytují  zřídka, jsou konvertovány jako delší řetězce (i delší než 8 bitů).
Převod dat probíhá ve dvou krocích. Nejprve se soubor projde z pohledu statistiky četností každého znaku v něm obsaženém. Pak se vytvoří takzvaný huffmanův strom. Ten je již binární a dovoluje provést kompresi vstupních dat. Ukázka převodu psaného textu a vytvoření stromu je zde.

 

Chybovost

Zvětšit obrázek
Dr Nick Goldman se chce přesvědčit, zda na dně zkumavky je titěrné „smítko“ - syntetická DNA s prakticky neomezenou životností, bez nutnosti o do ní vložená data pečovat. (Kredit: EMBL Photolab)

Proč se dnes o zápisu dat do DNA zmiňujeme, když je to stará věc a mnohá z fanynek nosí  ampulky s geny spolu s úryvky textu svých idolů jako šperky? Protože všechny dřívější snahy zapsat informace do DNA měly jeden vážný hendikep. Jejich tvůrci nemohli kvůli chybovosti garantovat věrnost čteného zápisu. A právě to Goldmanův tým vyřešil. Jejich syntetická DNA se nevyrábí jako dlouhé vlákno v celku, ale jako krátké úseky DNA. Dlouhá informace je ze segmentů, které se překrývají. Všechny jsou stejně dlouhé.  Největší vymyšlenost spočívá v tom, že každý následný úsek je na začátku a konci označen značkami. Ty říkají kde je začátek a kde konec. Ten je něco málo delší. Obsahuje také index prozrazující kam v tom dlouhém řetězci informací daná část patří (o kolikátý segment v pořadí jde). Tím, že se úseky překrývají, vytváří něco jako stránky papíru s tímtéž textem jen je o několik řádků posunut. Každý nový „list“ má na začátku kousek nového textu a na konci mu zase kousek chybí. Teoreticky by šly přes sebe poskládat do podoby dlouhého hada v jehož „šupinách“ je každá část zápisu čtyřnásobně jištěna. Pokud se na jednom z „listů“ tvořících šupiny text rozmaže, nic se neděje, protože zůstává čitelný na spodnějších vrstvách. Generování takového zápisu má čtyřnásobnou redundanci, což v překladu do lidštiny znamená, že zápis je v podstatě blbuvzdorný. (viz Obrázek 1 v doplňujících informacích časopisu Nature). Ve skutečnosti tedy zapsaný soubor dat nemá podobu dlouhého nepřerušovaného vlákna, ale stejně dlouhých kousků DNA o 117 nukleotidech (75 bází ze sta se překrývá, zbylé jsou koordináty místa (pořadí v zápisu). Čtení lze dělat jakkoliv na přeskáčku a jednoduchý počítačový program podle indexů útržky sestaví do finální verze. Text se dá přečíst i když z nějakého důvodu vypadnou tři z po sobě indexovaných úseků. Odolnost vůči nechtěným zásahům je u tohoto zápisu dána ještě jednou věcí. Na rozdíl od přirozené DNA se v té syntetické nevyskytují takzvané homopolymery. Tak se odborně nazývají opakující se motivy. S těmi evoluce a příroda pracuje ráda a často. V praxi to znamená, že pokud se při čtení zápisu objeví, je hned jasné, že čtecí automat přečetl nějakou špínu. Ať už se dostala do vzorku DNA s homopolymery jakkoliv,  počítač to snadno pozná a falešné údaje vyhodí. Zápis, respektive vzorek z něhož se čte, se tak stává odolný proti kontaminaci. Ta je velkým strašákem všech laboratoří světa, neboť cizorodá DNA je častou příčinou chyb a mnohá pracoviště se s nimi vypořádávají jen za cenu přestěhování techniky a personálu do zcela nových, nezamořených budov. Po jisté době provozu se problém s nezvládanou DNA kontaminací prostředí zákonitě objevuje znovu. Vědci s nadsázkou říkají, že špinavé ruce jejich dokumentům nevadí.

 

Zvětšit obrázek
Budova EMBL-European Bioinformatics Institute posloužila pro demonstraci uchovávání obrazového materiálu. Do DNA vědci zapsali a zase restaurovali obrázek průčelí svého pracoviště.

Technika, kterou vědci nyní použili k syntéze a zabudování vzkazu do DNA, se mýlí v průměru jednou na každých 500 bází. To ale při při čtyřnásobném jištění zápisu, činí tuto metodu velmi  přesnou. Aby to výzkumníci veřejně deklarovali trvanlivost svého zápisu, přepsané soubory (obrázek, proslov a text) přetransformované do zlomků DNA a v suché (lyofilizované) formě nažloutlé titěrné nanogramové šupinky poslali z USA přes Británii do Německa. Když ji pak znovu přečetli. Potvrdilo se, že chybovost čtení do DNA uloženého zápisu je 0,0036% (10 bytů na každých 280 864), což je podle nich lepší, než je údaj pro stávající způsob uchování dat, při němž z důvodu konce životnosti nosiče dat se provede jejich přesun.

Jako suchý prášek ve zkumavce by takto uložená data měla mít trvanlivost delší, než jakou prokazuje DNA z kostí uchovaných uchovaných v zemi a jeskyních, kde řádí vlhkost, plísně,...     


 

 
V takovém šálku lze uchovávat sto milionů hodin videozáznamu o vysokém rozlišení. Navíc bez rizika, že bychom o ně během nejbližších desítek tisíc let mohli přijít.

Ukázky
S přepisem zápisu do DNA výzkumníci tak trochu taktizovali. Aby veřejnost nevystrašili, zvolili k demonstraci Shakespearovy sonety (154 sonetů zapsaných v ASCII kódu). Jako druhou ukázku zvolili převod vědeckého článku s vloženým černobílým obrázkem.
Šlo o práci nestorů genetiky - Watsona a Cricka a jejich přelomový článek o molekulární struktuře nukleové kyseliny (PDF formát). Jako třetí ukázku použili barevnou fotografii průčelí svého ústavu - Evropského institutu bioinformatiky (formát JPEG 2000).  A konečně do podoby DNA převedli i zvukový záznam formátu MP3. Nejznámější z projevů Martina Luthera Kinga z roku 1963 „Měl jsem sen“, namířený proti rasové diskriminaci, jak lid zvedne hlavu. 

 

Proč
Autoři na otázku - proč se o nepřirozené užití DNA pokoušejí, odpovídají: "Protože jsme nabyli dojmu, že tak, jak ukládají informace naše buňky, ani zdaleka není hloupé a bylo by škoda, něco, co tu spolehlivě funguje už miliony let, nevyužít i kněčemu dalšímu." Další inspirací jim jistě byl prudký rozvoj techniky čtení genomu. To co napoprvé (přečtení člověka) zabralo deset let, zvládne automat za den. Třetím důvodem je fakt, že zálohování dat se stává problémem. V našem virtuálním světě jich koluje asi tři zettabajty, neboli tři miliardy terabajtů, což lze pro lepší představu napsat také takto: 3 000 000 000 000 miliard bajtů. Do konce desetiletí se jejich objem má zvětšit 44krát a v roce 2020 již bude třeba se starat o 132 zettabajtů dat. Příští generace IT manažerů prý se zálohováním dat a jejich obnovováním po haváriích se stávajícmi technikami moc neuspěje. Nynější pravidla a řešení úložišť mají podle prognostiků přestat dostačovat dříve, než se nám to bude líbit. A v tom by nám schopnost vláken DNA „si pamatovat“, měla být nápomocna. 
 

Rozhodovat budou náklady
Tak, jak nyní vědci pokus prováděli, by uložení informace o objemu jednoho MB přišlo na 12 400 dolarů. To je cena, která jejich snažení vyloučila ze hry. Když ale ekonomové začali kouzlit s fixními náklady na uložení dat a vzali v úvahu trend automatizace čtení a syntézy DNA kódu, tak během několika málo let náklady klesnou na desetinu těch stávajících. A v takovém případě začíná být nová technologie pro uložení dat na dobu i kratší než padesát let zajímavá. Provedený pokus se stažením dat z hardisku počítače (soubor  o 739 kilobajtech), který byl přepsán jako 523106 bitů do syntetické DNA a později se stoprocentní přesností zrekonstruován, je podle mnohých argumentem, který svědčí o tom, že se s takovým zálohováním můžeme časem setkat, například u vládních dokumentů, lékařských záznamů, zkrátka tam, kde je žádoucí dlouhodobá životnost a zamezení možnosti provádět výmazy, začerňování, či hrubější zásahy typu vytrhávání celých listů. Zatímco skeptikové si myslí, že tato metoda je naprosto nevhodná, optimisté, že tak časté, široké a účelové amnestie musí někdy skončit.   


Literatura
: Nick Goldman, et al.: Towards practical, high-capacity, low-maintenance information storage in synthesized DNA,  Nature doi:10.1038/nature11875


Autor: Josef Pazdera
Datum:28.01.2013 04:35