Abstract:

DNA sequencing is a process of determining the precise sequence of nucleotides in the DNA molecule. It includes all methods or technologies that are used to determine the order of the four bases – adenine (A), guanine (G), cytosine (C) and thymine (T) in a strand of DNA. In the 21st century, a new technology titled next generation sequencing (NGS) was developed. In many aspects, it exceeds the conventional sequencing methods. New technology is specified by high performance, speed and low cost per base. Currently, NGS is one of the most rapidly advancing methods in molecular genetics and has the potential to usher in a breakthrough in the field of personalized medicine in the near future. In this review, we briefly describe basic principles and the most common NGS technologies.

Key words: DNA sequencing, next generation sequencing, massive parallel sequencing, NGS applications.

*All tables, charts, graphs and pictures that are featured in this article can be found in the .pdf 
 attachment at the end of the paper. 

 

Klasické metódy sekvenovania

Prvé pokusy sekvenovania sa datujú do 70. rokov minulého storočia, kedy boli realizované nepriamo – sekvenovaním molekúl RNA alebo proteínov. Prvú sekvenciu DNA získal v roku 1968 Ray Wu z Cornellskej univerzity. Bol to reťazec z okrajovej oblasti genómu fága Lamda dlhý 12 nukleotidov. V  roku 1977 dva  pracovné tímy nezávisle na sebe predstavili dva odlišné prístupy sekvenovania, čo znamenalo prelom vtedajších techník. Boli to: chemická Maxam-Gilbertova metóda a enzymatická metóda popísaná Frederickom Sangerom.

Maxam-Gilbertova metóda funguje na princípe chemických reakcií štiepiacich terminálne značené nukleotidové bázy, následnom rozdelení vzniknutých značených DNA fragmentov v polyakrylamidovom géli a ich autorádiografickej vizualizácii.

Sangerova enzymatická metóda využíva modifikované (ddNTP, 2´,3´-dideoxynukleozid-trifosfát) analógy normánych stavebných jednotiek (dNTP, 2′-deoxyribonukleozid-trifosfát) pôsobiacich ako špeciálne inhibítory DNA polymerázy. Prvou priekopníckou technikou tohto sekvenovania DNA bola v roku 1975 metóda „plus-mínus“, ktorou bol o dva roky neskôr kompletne prečítaný celý genóm bakteriofága фX174 s 5386 nukleotidmi. Sangerovo sekvenovanie bolo postupne modifikované, a tak pôvodné radioaktívne značenie ddNTP vystriedalo fluorescenčné značenie, polyakrylamidová elektroforéza na rozdelenie fragmentov nových molekúl DNA bola nahradená kapilárovou a manuálne odčítavanie poradia báz vystriedali sofistikované automatizované počítačové softvéry. Zdokonaľovaním technológií sa proces sekvenovania plne zautomatizoval. Sangerova metóda sa stala zlatým štandardom a aj napriek svojej prácnosti a časovej náročnosti desaťročia patrila k najpoužívanejším a najspoľahlivejším sekvenačným metódam [1].

Tejto popularite do veľkej miery napomohol Projekt sekvenovania ľudského genómu (HGP, Human Genome Project) (1990-2003) s cieľom určiť kompletnú nukleotidovú sekvenciu ľudskej DNA. Projekt trval 13 rokov a stál takmer 3 miliardy dolárov. Bola to zdĺhavá mravčia práca. Výsledkom bolo osekvenovanie 99% ľudského genómu s veľkosťou 3,3 miliardy bázových párov (bp). Použité technológie vychádzali z metodického princípu práve Sangerovej metódy, avšak boli doplnené prístupmi umožňujúcimi analyzovať dlhšie úseky DNA [1]. Jednou z možností bolo tzv. „shotgun“  sekvenovanie, pri ktorom je DNA náhodne štiepená na krátke úseky, klonovaná do vektorov a potom následne osekvenovaná z oboch koncov. Získané úseky sa vzájomne prekrývajú, a tým umožňujú zostavenie celej sekvencie. Ďalší rozvoj sekvenovania individuálnych ľudských genómov bol nutne podmienený vznikom nových lacnejších a výkonnejších technológií [2]:

 

Sekvenovanie novej generácie (NGS; next generation sequencing)

Dopyt po nízkonákladovom sekvenovaní mal za následok tlak na vývoj vysoko výkonných tzv. „high-throughput“ technológií. Princíp spočíva v paralelizácii tohto procesu a produkcii tisícov až miliónov sekvencií súčasne, preto sa NGS označuje aj ako masívne paralelné sekvenovanie. Sekvenátory prvej generácie detegovali jednotlivé DNA bázy v rade jednu za druhou a zvýšenie sekvenačnej kapacity dosahovali v zásade iba pridávaním kapilár v jednom prístroji.

Výstupom NGS je obrovský objem dát, ktoré je nutné roztriediť a spracovať. Problém teda nie je (snáď prvýkrát v histórii) v získaní dostatočného množstva údajov, ale v ich zmysluplnej interpretácii. Štatistické modely a výpočtové algoritmy, ktoré mali doteraz viac-menej akademický význam, tým získali praktický rozmer. Nastal čas na etablovanie bioinformatiky.

V súčasnosti môžu byť  NGS technológie rozdelené do dvoch základných kategórií. Prvú skupinu predstavujú platformy založené na PCR amplifikácii templátu (PCR-based technologies), nazývajú sa aj sekvenátory druhej generácie. Druhú skupinu tvoria technológie bez nutnosti amplifikačného kroku pred vlastnou sekvenáciou, ktoré využívajú tzv. Single-molecule sequencing a sú označované za sekvenátory tretej generácie [3, 4].

 

Sekvenátory druhej generácie

V priebehu posledných rokov sa objavujú na trhu rôzne prístupy NGS technológií ponúkané niekoľkými  firmami, ktoré si navzájom konkurujú. V dôsledku patentovej ochrany zvolili navzájom mierne odlišné prístupy avšak so všeobecne podobným princípom. Väčšina vychádza z pomerne krátkych fragmentov DNA, z prípravy templátu a vytvorenia knižníc amplikónov emulznou PCR (emPCR) alebo PCR v zhlukoch (cluster PCR), nazývanou tiež tzv. „bridge“ PCR. Stručný popis princípu oboch metód PCR znázorňuje obrázok číslo 1. Nasleduje samotné sekvenovanie založené na syntéze alebo ligácii s detekciou inkorporovaných nukleotidov a analýza získaných dát [5].

Každý výrobca rieši tieto základné kroky inou kombináciou uvedených možností, z čoho vyplýva rozdielna špecificita, senzitivita a rôzna miera chybovosti. Pri porovnávaní rovnakej sekvencie tak môžu vzniknúť rozdiely v type a množstve produkovaných dát a ich rôznej interpretácii [6]. Hlavnými protagonistami NGS revolúcie sú štyri platformy.

Obr. 1 (A) Emulzná PCR (emPCR, emulsionPCR): Amplifikácia DNA fragmentov na partikulách (beads). K fragmentom DNA sa z oboch strán ligujú adaptéry. Jeden obsahuje väzobné miesto pre primer a druhý  biotínovú značku, ktorou sa DNA viaže k povrchu partikuly. Amplifikácia prebieha v emulzii vody a oleja s obsahom potrebných PCR reagencií, čo zabezpečuje optimálne prostredie. V každej kvapke tejto emulzie sa tak nachádza vždy len jedna partikula s niekoľko sto kópiami rovnakého DNA fragmentu. Pri tejto metóde dochádza k paralelnej amplifikácii miliónov jednotlivých fragmentov na partikulách. Výsledkom je DNA knižnica pripravená pre sekvenovanie.

(B) PCR v zhlukoch (cluster PCR, bridge PCR): DNA fragment sa oboma koncami pomocou adaptérov komplementárne viaže na povrch prietokovej komôrky (Flow cell), ktorá je pokrytá oligonukleotidmi. Dochádza k jeho ohybu /pripomína most/ a k jednovláknovému fragmentu je syntetizované druhé vlákno, následne je dvojvláknová DNA denaturovaná. Proces amplifikácie sa opakuje až kým nevznikne približne 1000 kópií daného DNA fragmentu v tesnej blízkosti, čím sa vytvorí zhluk/klaster funkčne ekvivalentný jednej partikule (bead). Túto techniku používajú výhradne sekvenátory Illuminy [5].

 

454 LifeScience / Roche

Prvá NGS platforma bola komerčne dostupná v roku 2005. Princípom technológie je kombinácia emPCR a pyrosekvenovania. Pyrosekvenovanie možno zjednodušene definovať ako real-time sekvenovanie, pri ktorom sa sledom enzymatických reakcií deteguje svetelný signál uvoľnený pri zabudovaní dNTP do vznikajúceho reťazca DNA. Množstvo uvoľneného svetla je úmerné počtu začlenených nukleotidov. Výhodou tejto metódy je rýchlosť a dĺžka prečítanej sekvencie. Technológia 454 začínala s dĺžkou sekvencie 400 bp a v roku 2013 sa pohybuje na úrovni 1000 bp. Optimálna dĺžka čítanej sekvencie je 700 bp, čo je porovnateľné so Sangerovou metódou. V roku 2007 bol touto NGS technológiou prvýkrát prečítaný genóm Jamesa Watsona a trvalo to dva mesiace [7].

 

Illumina (Solexa)

Druhou NGS platformou uvedenou na verejnosť v roku 2006 bol sekvenátor firmy Solexa, ktorý o rok neskôr odkúpila spoločnosť Illumina. Metóda je založená na  sekvenačnej reakcii  syntézou s využitím fluorescenčne značených reverzibilných terminátorov a bridge PCR. Pri sekvenovaní možno postupovať dvoma spôsobmi, buď sa sekvencia prečíta v jednom smere (single long reed) alebo sa postupuje proti sebe z oboch koncov (pair end read). Spoločnosť Illumina v dnešnej dobe dominuje na NGS poli a  ponúka niekoľko prístrojov rôznej výkonnosti: MiSeq (2×300 bp), MiSeqDx (2×125 bp), NextSeq 500 (2×150 bp), HiSeq2500 (2×250 bp) a HiSeq X Ten. HiSeq X Ten  sa skladá z 10 ultra vysokokapacitných sekvenátorov a v súčasnosti je najvýkonnejšou sekvenačnou platformou, ktorá  prekonáva cenovú bariéru 1 000 $ dolárov za osekvenovanie jedného ľudského genómu.  Zameraná je najmä na populačné štúdie. Illumina platformy ovládajú trh najmä vďaka vysokej výkonnosti sekvenátorov, robustnosti prevedenia, kapacite a priaznivej cenovej relácii prevádzky [8].

 

SOLiD System (Life Technologies)

Teretí typ sekvenátora predstavila v roku 2007 vtedy ešte spoločnosť Applied Biosystems (dnes Life Technologies). SOLiD systém (Sequencing by Oligonucleotide Ligation and Detection) pracuje na princípe emPCR a sekvenovaní DNA ligázou. Využívajú sa fluorescenčne značené oktamérové  úseky s dvoma definovanými bázami [9]. Tento dvojbázový kódovací systém zaručuje prečítanie každého nukleotidu dvakrát, čím sa zvyšuje presnosť, s akou je určené poradie nukleotidov danej sekvencie. Medzi vyššie uvedenými NGS platformami má teda SOLiD systém najnižšiu chybovosť. V súčasnosti sú v ponuke dva varianty sekvenátora: 5500 System a 5500xl System, ktorý výrazne zvýšil dĺžku čítania z pôvodných 35 bp na 75 bp a tiež zlepšil presnosť meraní na 99,99%. Z prvých troch spomenutých NGS technológii Illumina HiSeq generuje najviac dát za najnižšiu cenu, SOLiD System má najvyššiu presnosť a Roche 454 poskytuje najväčšiu dĺžku čítania.

 

Ion Torrent (Life Technologies)

Technológia Ion Torrent sa objavila na scéne v roku 2010 a ako jediná využíva namiesto optického/svetelného spôsobu zaznamenávania jednotlivých nukleotidov detekciu elektrochemického signálu. Inkorporácia nukleotidu do rastúceho reťazca DNA spôsobí uvoľnenie vodíkového iónu (H+), čím dôjde k zmene pH. Proces prebieha na polovodičovom čipe husto pokrytom mikrojamkami, pod ktorými je umiestnený senzor citlivý na zmenu pH. Samotná príprava knižnice prebieha podobne ako v predchádzajúcich metódach napojením adaporov s následnou emPCR a sekvenačnou reakciou synézou.

Ion Torrent aktuálne ponúka Ion PGM Sequencer (314/316/318 chips) a Ion Proton System (I, II, III), pričom  model Ion Proton Sequencer s mikročipom Ion PII Chip je schopný prečítať celý genóm človeka v priebehu jedného dňa. Celkové množstvo produkovaných dát je určené hustotou jamiek na čipe. Prvý ľudský genóm osekvenovaný technológiou Ion Torrent bol genóm Gordona Moora [9, 10].

 

Sekvenátory tretej generácie.

Výraznú zmenu predstavujú metódy, ktoré nie sú založené na nutnom namnožení sekvenovaných úsekov. Nevyužívajú tak amplifikačný krok, čo znižuje výskyt spontánnych mutácií vzniknutých chybovosťou DNA-polymerázy. Pri klonovaní DNA pomocou PCR môže dôjsť k zámene niektorých báz a tým aj k rôznemu počtu výskytu jednotlivých fragmentov, čo môže ovplyvniť výsledok experimentu.

Prvý prístroj, ktorý stál na prahu treťogeneračnej technológie sekvenovania predstavila firma Helicos Bioscience v roku 2007. Metóda využíva jednotlivé individuálne molekuly DNA (tSMS, True Single Molecule Sequencing, tSMS) pevne fixované k povrchu. Sekvenačná reakcia prebieha syntézou s fluorescenčne značenými nukleotidmi. Zavedeniu tohto analzyátora do praxe bránila vysoká cena prístrojov a dĺžka čítanej sekvencie (30-35 bp). V súčasnosti nie je technológia ďalej vyvíjaná [11].

 

SMRT (Pacific Bioscience)

V roku 2009 prichádza na trh nová technológia, ktorá sekvenuje jednotlivé molekuly DNA v reálnom čase (SMRT, single-molecule real-time). Systém využíva čipy pokryté nanoštruktúrovým materiálom, ktorý vytvára jamky (ZMW, Zero Mode Waveguide) na dne s DNA polymerázou. Sekvenačný proces prebieha syntézou fluorescenčne značených nukleotidov. Vzhľadom na to, že tento prístup nevyžaduje premývacie kroky pri začleňovaní jednotlivých typov nukleotidov (wash-and-scan), nevyhnutných pri analyzátoroch druhej generácie, celý proces sekvenovania sa zrýchľuje. Súčasným lídrom v tejto oblasti je systém PacBio RS a v porovnaní so sekvenátormi druhej generácie dosahuje priemernú dĺžku čítania 5500-8500 bp. Okrem toho môže tiež priamo detegovať epigenetické modifikácie, ako je 4-metylcytozín, 5-metylcytozín a 6-metyladenín [12].

 

Nanopor (Oxford Nanopor)

Sekvenovanie pomocou nanopórov je založené na meraní elektrického prúdu prechádzajúceho cez biologický proteín tvoriaci pór v nevodivej membráne. Analytom je jednoreťazová molekula DNA, pri jej prechode nanopórom dôjde k detekcii jednotlivých nukleotidov, pričom pre každý typ nukleotidu je vopred určená modulácia prúdu. Technológia má minimálne požiadavky na reagencie i prípravu vzorky, je lacná, rýchla a ponúka analýzu DNA v reálnom čase. V súčasnosti firma Oxford Nanopor  ponúka analyzátory MinION™ , PromethION™ a GridION™ [12, 13].

NGS technológie sekvenovania sa neustále modifikujú a prudko napredujú. Dnes vieme s istotou povedať, že sú výrazne rýchlejšie ako v roku minulom a pomalšie ako v roku budúcom.

 

Aplikácia a využitie NGS technológií

Vysoký výkon súčasných sekvenátorov je možné použiť v širokom spektre aplikácií, od pokrytia rozsiahlej oblasti  celého genómu (ultraširoké sekvenovanie), po sekvenovanie iba jednej oblasti s vysokým počtom čítaní (ultrahlboké sekvenovanie). Výhoda ultrahlbokého sekvenovania je detekcia variantov, ktoré sa vo vzorke vyskytujú s nízkou frekvenciou a prínos ultraširokého sekvenovania spočíva v  analýze vzoriek viacero pacientov v kratšom čase. Pre špecifické účely môžeme teda využiť celogenómové sekvenovanie zahŕňajúce de novo sekvenovanie a resekvenovanie, exomové sekvenovanie kódujúcich častí DNA, sekvenovanie transkriptomu, ktorý predstavuje súbor všetkých molekúl RNA (mRNA, rRNA, tRNA a ďalšie nekódujúca RNA molekuly) a cielené sekvenovanie (targeted sequencing) umožňuje sekvenovať iba vybrané gény alebo vymedzenú oblasť genómu [14].

NGS technológie ponúkajú celú plejádu možností ich využitia nielen v medicíne, ale aj v rôznych vedných odboroch. Významné uplatnenie nachádzajú napríklad v metagenomike zaoberajúcej sa genomickými analýzami mikroorganizmov, kde umožňuje definovať napr. mikrobiom človeka, stanoviť všetky druhy baktérií vyskytujúcich sa vo vzorkách pôdy, vody. Vo forenznej genetike rezonuje potenciálny prínos epigenetických štúdií zameraných na odlíšenie monozygotných (jednovaječných) dvojčiat, ktoré majú rovnakú sekvenciu DNA a klasickými metódami sa nedali doposiaľ rozoznať. Vo fylogenetike NGS umožňuje študovať evolučný vývoj a vzťahy medzi organizmami. Antropológia zase využíva porovnávanie DNA k zisťovaniu migrácie ľudských rás (podľa mitochondriálnej DNA a Y-chromozómovej DNA) [1-5, 15-17].

Odborom, do ktorého NGS sekvenovanie prinieslo doslova revolúciu, je nádorová genomika. Realizovali sa rozsiahle vedecké projekty, ktoré prispeli ku komplexnejšej a podrobnejšej charakteristike molekulovej podstaty nádorových ochorení. Tieto štúdie dopomohli k objaveniu nových génov asociovaných s daným ochorením a k stanoveniu genetického profilu nádoru [18].   Obrázok č. 2 znázorňuje prehľad novoobjavených somatických mutácií v niektorých onkohematologických malignitách.

Obr. 2 Najčastejšie somatické mutácie de novo detegované metódami NGS v génoch hematologických malignít.

(HCL-vlasatobunková leukémia, WM-Waldenströmova makroglobulinémia, FL-folikulový lymfóm, MCL-lymfóm z plášťových buniek, CLL-chronická lymfocytová leukémia, MM-mnohopočetný myelóm, ETP ALL- prekurzorová T-bunková  akútna lymfoblastová leukémia, DLBCL-difúzny veľkobunkový B-lymfóm) [18].

Z klinického hľadiska sú NGS technológie sľubným nástrojom s priamym dopadom pri nahradení alebo doplnení existujúcich laboratórnych algoritmov: napríklad detekcia chromozómových aneuploidií DNA plodu pri neinvázivnej prenatálnej diagnostike,  identifikácia vzácnych genetických variantov ochorení s mendelovskou dedičnosťou, pri identifikácii zárodočných mutácií pri familiárnych syndrómoch. Potenciálne využitie je aj pri včasnej diagnostike širokého spektra tumorov, analýzou voľne cirkulujúcej nádorovej DNA v plazme napr. detekcia mutácií pri kolorektálnom karcinóme, mutačný status tumor- supresorových génov a chromozómových prestavieb pri lymfómoch alebo leukémiách, detekcia DNA vírusov asociovaných s určitým typom nádoru (EBV–nazofaryngeálny karcinóm, HPV- cervikálne lézie) [16, 18-20].

 

Záver

Technológie NGS od svojho zavedenia takmer ovládli oblasť základného i aplikovaného výskumu a začínajú vstupovať na pôdu klinickej diagnostiky. Pokiaľ skutočne dospejeme k rutinnému používaniu NGS, bude nevyhnutné vyriešiť niekoľko prekážok a otázok. Vygenerované množstvo primárnych dát je nutné správnym spôsobom uchovať a anotovať, efektívne analyzovať, ale predovšetkým správne interpretovať. Určenie kvality sekvenačných výstupov komplikuje aj absencia medzinárodných štandardov a súčasná rýchlosť regulačných orgánov, ktoré sú prekonané tempom vývoja NGS technológií. Musíme aktívne pristúpiť k edukácii nielen lekárskej obce, ale aj širokej verejnosti, s cieľom správne pochopiť, vysvetliť a použiť získané informácie.  Snáď do doby, kedy sa táto vyhliadka stane reálnou, budeme mať aj náležitý progresívny zákon o DNA, nakoľko ide o dáta nielen citlivé, ale najmä cenné z viacerých aspektov.

 

Literatúra

  1. Hutchison, C. A. (2007) DNA sequencing: bench to bedside and beyond., Nucleic Acids Res.,  35(18): 6227–6237.
  2. Pospíšilová Š., Tichý B., Mayer J. (2009) Sekvenování lidského genomu – technologie nové generace aneb budeme rutinně sekvenovat lidské genomy?, Čas Lék čes., 148: 296-302.
  3. Metzker M. L. (2010) Sequencing technologies – the next generation.,  Nat Rew Genet., 11: 31-46.
  4. Anderson M., Schrijver I. (2010) Next Generation DNA Sequencing and the Future of Genomic Medicine., Genes, 1(1): 38-69.
  5. Shendure J., Ji H. (2008) Next-generation DNA sequencing., Nature Biotechnology, 26: 1135 – 114.
  6. Liu L., Li Y., Li S. et al. (2012) Comparison of next-generation sequencing systems., J Biomed Biotechnol., 251364. doi: 10.1155/2012/251364.
  7. www.roche.com
  8.  www.illumina.com
  9.  www.lifetechnologies.com
  10. Rothberg J. M., Hinz W., Rearick T. M., et al.(2011)An integrated semiconductor device enabling non-optical genome sequencing., Nature, 457: 348-352.
  11. Schadt E. E. et al. (2010) A window into third-generation sequencing., Hum Mol Genet.,  19(R2): R227.
  12. van Dijk . E. L.,. Auger H., Jaszczyszyn Y., C. Thermes C. (2014) Ten years of next-generation sequencing technology., Trends Genet, 30 (2014), pp. 418–426
  13. www.nanoprotech.com
  14. Travis C., Glenn. (2011) Field guide to next-generation DNA sequencers., Molecular Ecology Resources., 11: 759–769.
  15. Yang Y., Xie B., Yan J. (2014) Application of Next-generation Sequencing Technology in Forensic Science., Genomics Proteomics Bioinformatics, 12: 190–197.
  16. Desai A. N., Jere A. (2012) Next-generation sequencing: ready for the clinics?, Clin Genet., 81: 503-510.
  17.  www.sciencedaily.com
  18. Braggio E., Egan J. B., Fonseca R., Stewart A., K. (2013) Lessons from next-generation sequencing analysis in hematological malignancies., 3, e127; doi:10.1038/bcj.2013.26
  19. Yu J., Gu  G., Ju S. (2014) Recent Advances in Clinical Applications of Circulating Cell-free DNA Integrity., Lab Med., 45(1): 6-12.
  20. Chan M., , Lee CH. W-H., Wu M. (2013) Integrating Next-Generation Sequencing Into Clinical Cancer Diagnostics,. Expert Rev Mol Diagn., 13(7): 647-650.