Překladatelský software umožňuje efektivní ukládání obrovského množství dat v molekulách DNA

Datum 28.08.2021

Foto: CanStock Photo

ADS Codex překládá binární data do nukleotidů, které lze sekvenovat v molekulách jako soubory pro pozdější vyhledání, což přináší potenciální úsporu nákladů a kompaktní “trvalé úložiště”.

Na podporu velkého společného projektu ukládání obrovského množství dat v molekulách DNA vyvinul tým pod vedením Národní laboratoře Los Alamos klíčovou technologii, která překládá digitální binární soubory do čtyřpísmenné genetické abecedy potřebné pro molekulární ukládání.

“Náš software, Adaptive DNA Storage Codec (ADS Codex), překládá datové soubory z toho, čemu rozumí počítač, do toho, čemu rozumí biologie,” řekl Latchesar Ionkov, počítačový vědec v Los Alamos a hlavní řešitel projektu. “Je to jako překládat z angličtiny do čínštiny, jen je to těžší.”

Práce je klíčovou součástí programu MIST (Molecular Information Storage) agentury IARPA (Intelligence Advanced Research Projects Activity), který má přinést levnější, větší a trvanlivější úložiště pro práci s velkými objemy dat ve vládním a soukromém sektoru. Krátkodobým cílem programu MIST je zapsat 1 TB dat (1.000 GB) a přečíst 10 TB za 24 hodin za cenu nepřesahující 1 000 USD.

“DNA nabízí slibné řešení ve srovnání s páskami, což je převládající metoda dlouhodobého úložiště dat, která pochází z roku 1951,” řekl Bradley Settlemyer, výzkumník v oblasti úložných systémů a systémový programátor specializující se na vysoce výkonné počítače v Los Alamos. “Ukládání DNA by mohlo změnit způsob, jakým uvažujeme o archivním ukládání. Celý YouTube byste mohli ukládat do prostoru o velikosti ledničky, místo abyste ho ukládali do několika hektarů datových center. Výzkumníci však nejprve musí překonat několik obtížných technologických překážek spojených s integrací různých technologií.”

V porovnání s tradiční metodou dlouhodobého ukládání, je ukládání do DNA potenciálně levnější, fyzicky mnohem kompaktnější, energeticky účinnější a trvanlivější. DNA navíc vydrží stovky let a nevyžaduje údržbu. Soubory uložené v DNA lze také velmi snadno kopírovat za zanedbatelné náklady.

Zakódování binárního souboru do molekuly se provádí syntézou DNA. Syntéza, která je poměrně dobře známou technologií, uspořádává stavební kameny DNA do různých uspořádání, která jsou označena sekvencemi písmen A, C, G a T. Ty jsou základem veškerého kódu DNA a poskytují instrukce pro stavbu všech živých tvorů na Zemi.

Tým vědců v Kodex ADS v Los Alamos přesně popisuje, jak převést binární data – všechny nuly a jedničky – na sekvence čtyř kombinací písmen A, C, G a T. Kodex také zvládá dekódování zpět do binární soustavy. DNA lze syntetizovat několika způsoby a ADS Codex je umí všechny. Tým z Los Alamos dokončil verzi 1.0 systému ADS Codex a v listopadu 2021 plánuje jeho použití k vyhodnocení systémů pro ukládání a vyhledávání dat vyvinutých ostatními týmy MIST. Zatím má jít o testovací fázi.

Provoz obrovských datových center stojí obrovské peníze a potřeba ukládání dat stále exponenciálně roste. Ukládání do DNA je pro trh, kde sa dá takto ušetřit miliardy dolarů jen na nákladné energetice spojené s těmito obrovskými datacentry, obrovskou výzvou.

Radim Ptáček,
zdroj: codexdna.com

Volty 700 x 200 px

Komentáře