Abstract:

The revolutionary method of next generation sequencing (NGS) is based on parallel sequencing analysis of a large number of DNA fragments. The chemical principle of currently most widely used NGS technologies includes sequencing during synthesis or ligation followed by the detection of fluorescence, chemiluminescence or changes in pH. Huge amount of data arising from NGS analyses must be effectively processed and correctly evaluated by various bioinformatic algorithms that put high requirements on laboratory’s hardware and software equipment as well as staff trained in bioinformatics. Routine clinical diagnostic implementation of NGS methods requires precise validation

of individual tests and standardization of the entire analytical procedure. Considering the amount of acquired data, genetic testing by NGS yields a lot of results with varying informative value. If a pathological variant (mutation) is found in a known or a gene that is very likely to be associated with the disease, the cause of patient’s phenotype can be diagnostically ascertained. On the other hand, incidental findings identified by exome or whole genome sequencing present us with interpretative and ethical challenges and their reporting must fulfil strict criteria. Various NGS applications are already used in research and clinical diagnosis of many genetically determined diseases. Long-term experience proved clear efficacy of gene-panel and exome sequencing particularly in the diagnosis of rare syndromes and genetically heterogeneous diseases. However, it is apparent that gradual integration of NGS into the clinical practice could lead to the individually tailored patient management even in more common, multifactorial diseases.

 

Key words: next generation sequencing (NGS), gene panels, exome sequencing (ES), whole genome sequencing (WGS), genetically heterogeneous diseases, rare syndromes

*All tables, charts, graphs and pictures that are featured in this article can be found in the .pdf 
 attachment at the end of the paper. 

 

Sekvenačné technológie prvej a druhej generácie

Metóda DNA sekvenovania publikovaná F. Sangerom koncom 70. rokov minulého storočia (1) označovaná aj ako dideoxynukleotidové sekvenovanie, priniesla nové a v čase svojho vzniku ešte netušené možnosti analýzy jednotlivých génov a neskôr celých genómov. Prvogeneračná Sangerova metóda sa postupne vyvinula na výkonnú automatizovanú technológiu využívajúcu polymerázovú reťazovú reakciu (PCR), fluorescenčné značenie dideoxynukleotidov, kapilárnu elektroforézu a komplexné počítačové spracovanie dát a metodicky stále predstavuje tzv. zlatý štandard. Napriek určitým obmedzeniam automatizácia Sangerovho postupu umožnila úspešnú realizáciu projektu sekvenovania ľudského genómu a etablovanie sekvenačnej analýzy v rutinnej molekulovo-genetickej diagnostike. Program sekvenovania celého ľudského genómu však dramaticky zvýšil nároky na kapacitu sekvenačných technológií. Projekt sa realizoval v „továrensky“ organizovaných sekvenačných centrách so špecifickou infraštruktúrou, ktorá zahŕňala stovky veľkokapacitných sekvenátorov, ďalších automatizovaných prístrojov a počítačov, ako aj veľké množstvo personálu. Takýto typ zvýšenia výkonnosti sekvenovania ale nebol perspektívne postačujúci pre nové výskumné a diagnostické výzvy v humánnej genetike a genomike a postupne dochádzalo k vývoju nových, čoraz komplexnejších sekvenačných postupov.

Technológie sekvenovania novej generácie (NGS) sa od automatizovanej Sangerovej metódy odlišujú najmä svojou vysokou výkonnosťou. Podstata zvýšenej efektivity spočíva v masívnej paralelizácii biochemických a meracích krokov, ako aj výraznom zvýšení rýchlosti sekvenovania. Nové metódy umožňujú simultánnu analýzu miliónov sekvenačných „čítaní“ v jednej vzorke. Ďalšie rozdiely zahŕňajú odlišnú formu východiskového templátu (tzv. fragmentové knižnice, viď nižšie) a o niečo kratšiu dĺžku sekvenovania analyzovaných fragmentov v porovnaní so Sangerovou metódou. Obmedzenia spôsobené kratšími čítaniami ale kompenzuje masívna hĺbka pokrytia a paralelizácia, t.j. mnohonásobné opakovanie analýzy tej istej cieľovej oblasti genómu v  zmesi obrovského množstva súbežne zoradených DNA fragmentov rôzneho typu (Obr.1).

V súčasnosti používané NGS technológie druhej generácie (popis metód tretej generácie, ktoré sa stále ešte len profilujú, je nad rámec tohto prehľadového článku) z chemického hľadiska využívajú DNA syntézu alebo ligáciu. Detekcia signálu z miliónov chemických reakcií, ktorý je následne transformovaný do sekvenčných dát, je zabezpečená snímaním emitovanej fluorescencie (z fluorescenčne značených nukleotidov), enzymaticky vyvolanej chemiluminiscencie (pri degradácii pyrofosfátu) a pH zmien (pri uvoľňovaní protónov počas inkorporácie nukleotidov do DNA reťazca). Bez ohľadu na chemickú podstatu sekvenovania, všetky NGS metódy vyžadujú komplexnú predsekvenačnú prípravu DNA templátu  a následnú bioinformatickú analýzu sekvenačných dát (Obr.2). Predsekvenačné kroky zahŕňajú prípravu tzv. sekvenačnej (fragmentovej) knižnice, podľa potreby aj vrátane tzv. cieleného obohatenia (target enrichment) a následne klonálnu amplifikáciu pripravenej sekvenačnej knižnice. Príprava knižnice sa zvyčajne skladá z dvoch krokov, fragmentácie východiskovej DNA na veľkosť 150-500 bp fyzikálnym (napr. sonikáciou) alebo enzymatickým spôsobom (nukleázou, transpozónami) a ligácie adaptorových primerov na fragmenty. Cielené obohatenie, t.j. špecifická selekcia želaných DNA fragmentov sa vykonáva v prípade potreby sekvenovať len určité oblasti genómu v sumárne menšom rozsahu (napr. len niektoré exóny alebo sady génov ap.) a najčastejšie sa realizuje pomocou PCR alebo hybridizácie so špecifickými oligonukleotidovými próbami. Klonálna amplifikácia knižnice prebieha pomocou špecifických typov PCR – najčastejšie tzv. emulznej alebo mostíkovej (bridge) PCR. Posekvenačná bioinformatická analýza zahŕňa spracovanie nasnímaného signálu, jeho transformáciu do čiastkových nukleotidových sekvencií a  porovnanie výslednej „poskladanej“ DNA sekvencie s referenčnou za účelom záverečnej identifikácie a anotácie variantných nukleotidov (2).

Počas sekvenačnej reakcie sa vygenerujú milióny až miliardy tzv. čítaní. Čítanie (read) je nukleotidová sekvencia určitej dĺžky (read length) získaná z DNA fragmentu nachádzajúceho sa v sekvenačnej knižnici. Pre presnosť NGS analýzy a správnu interpretáciu dát je nevyhnutné dosiahnuť dostatočnú hĺbku pokrytia (depth of coverage). Hĺbka pokrytia je počet čítaní, ktorý pokrýva konkrétny cieľový nukleotid a bežne sa vyjadruje vo forme Nx (napr. 40x, 100x, t.j. štyridsať, sto čítaní cieľového nukleotidu). Ďalším dôležitým parametrom je hĺbka sekvenovania (sequencing depth), t.j. celkové množstvo sekvenačných dát (prečítaných nukleotidov), ktoré vyžaduje daná vzorka, aby sa dosiahla požadovaná priemerná hĺbka pokrytia. Najčastejšie sa udáva ako počet potrebných čítaní na vzorku (napr. 40 miliónov, 1 miliarda) alebo počet nukleotidov (báz), ktoré je nutné sekvenovať (napr. 100 Mb, 4 Gb).

Proces analýzy NGS dát môžeme všeobecne rozdeliť na tri stupne (Obr.3). Primárna analýza, tzv. stanovenie báz (base-calling) zahŕňa konvertovanie biochemických signálov, čiže hrubých dát, ktoré boli získané snímaním zmien svetelnej intenzity (fluoresencia, chemiluminiscencia) alebo zmien pH, do krátkych nukleotidových sekvencií – čítaní. Sekundárna analýza zabezpečuje porovnanie (alignment) sekvencií s referenciou a stanovenie variantných nukleotidov a ich anotáciu. Terciárna analýza znamená interpretáciu, t.j. analýzu zistených variantov z hľadiska pôvodu, jedinečnosti a funkčného dopadu. Každý z týchto krokov vyžaduje špeciálne vytvorené databázy, algoritmy, softvér a skúsenosti. Procesy primárnej analýzy sú už v súčasnosti úspešne zvládnuté a postupne sa automatizujú. Aj v rámci sekundárnej analýzy sa štandardizujú metódy mapovania čítaní ku najnovšej referenčnej sekvencii ľudského genómu. Limitáciu širšej klinickej aplikácie NGS predstavuje práve biomedicínska interpretácia identifikovaných variant, ktorá sa zatiaľ ešte len vyvíja čo sa týka algoritmov, analytických postupov a  identifikácie či predikcie kauzálnych genotypovo-fenotypových korelácií (3).

V súčasnosti dostupné NGS technológie využívané v klinických aplikáciách sú Roche GS, Solid, Illumina a IonTorrent, pričom posledné dve zmienené sú najrozšírenejšie. Základná charakteristika konkrétnych NGS platforiem druhej generácie je uvedená v Tab.1.

 

Aplikácie NGS

Sekvenovanie tzv. génových panelov (panelové sekvenovanie, PS) je zamerané na konkrétne ochorenia, nakoľko sa analyzuje stanovená sada známych, klinicky významných génov. Dosahuje sa tým väčšia hĺbka pokrytia (t.j. viac čítaní v želaných oblastiach) a následne aj vyššia analytická senzitivita a špecificita. Keďže PS analyzuje len gény so známou asociáciou s konkrétnymi ochoreniami, umožňuje lepšiu interpretáciu nálezov v klinickom kontexte. V porovnaní s exómovým a genómovým sekvenovaním (viď nižšie) je PS kompatibilné s ekonomicky a časovo výhodnejším využitím menších stolových sekvenátorov (nižšia cena prístroja, možnosť analýzy viacerých vzoriek v jednom behu) a jednoduchším manažovaním objemu dát. V Tab.2 sú uvedené príklady génových panelov, ktoré v súčasnosti komerčne ponúkajú výrobcovia dvoch NGS platforiem (Illumina, Life Technologies) na priame použitie v diagnostike.

Exómové sekvenovanie (ES) znamená stanovenie DNA sekvencie exómu, teda väčšiny z približne 160.000 proteín-kódujúcich exónov, ktoré síce predstavujú len 1-2% ľudského genómu (~30-60 Mb), ale zahŕňajú ~85% známych kauzálnych mutácií (8). ES sa používa na detekciu variantov (mutácií) v už známych, s ochoreniami asociovaných génoch, ako aj na zisťovanie nových etiopatogenetických asociácií. Objavovanie a charakterizácia „nových“ génov boli ešte donedávna doménou výskumných laboratórií, ale postupne dochádza k presunu identifikácie kandidátnych kauzálnych génov aj do klinicko-diagnostických laboratórií, hoci na jednoznačné potvrdenie asociácie sú zvyčajne potrebné ďalšie štúdie, často v spolupráci s výskumnými pracoviskami.

Celogenómové sekvenovanie (whole genome sequencing, WGS) stanovuje DNA sekvenciu prakticky celého genómu a pokrýva teda kódujúce aj nekódujúce oblasti. Výhodou tohto prístupu je relatívne nekomplikovaná predsekvenačná príprava vzoriek, ktorá nevyžaduje PCR amplifikáciu alebo obohacovanie cieľových oblastí. Kvôli obmedzeniam pri interpretácii variantov v nekódujúcich oblastiach sa často volí stratégia, pri ktorej sa najprv analyzujú kódujúce regióny (t.j. exóm). V prípade, že sa nenájdu kauzálne mutácie, dáta sa reanalyzujú a hľadajú sa varianty v regulačných nekódujúcich oblastiach, ktoré by mohli ovplyvňovať expresiu klinicky významných génov. WGS pri porovnaní s cieleným PS vyžaduje rádovo desaťnásobky hĺbky sekvenovania (sequencing depth), t.j. množstva sekvenovania, ktoré vyžaduje daná vzorka, a to pri podstatne nižšej hĺbke pokrytia (depth of coverage), čo prináša veľké nároky na kvalitu a kapacitu technológie (konkrétneho prístroja) aj dátovej analýzy. Keďže sekvenačná hĺbka analyzovanej vzorky je násobkom objemu sekvenovanej DNA a želanej hĺbky pokrytia, tak pri veľkosti génového panela napr. 3 Mb (3 x 106 bp) a hĺbke pokrytia 100x je sekvenačná hĺbka 0,3 Gb (3 Mb x 100), zatiaľčo pri sekvenovaní celého genómu s veľkosťou 3 Gb (3 x 109 bp) a hĺbke pokrytia 30x je požadovaná sekvenačná hĺbka až 90 Gb (3 Gb x 30). Celogenómové sekvenovanie tak v súčasnosti predstavuje finančne najviac náročnú NGS aplikáciu s najnižšou priemernou hĺbkou pokrytia, hoci v budúcnosti sa tieto nevýhody budú postupne redukovať.

 

Klinické aspekty implementácie NGS

Vzhľadom na pomerne nedávne etablovanie NGS technológií a rôznorodosť klinických aplikácií sa NGS testovanie (najmä panelové) vykonáva prevažne pomocou vlastných testov vyvinutých v  jednotlivých laboratóriách. Využívajú sa najrozličnejšie kombinácie prístrojov, chemikálií a  postupov dátovej analýzy. Niekedy sú jednotlivé časti analýzy (napr. zostava predsekvenačného postupu od jedného výrobcu alebo softvéry pre terciárnu analýzu dát) komerčne, resp. verejne dostupné, ale následne musia byť validované pre diagnostické použitie (9).

Pri tradičnom diagnostickom testovaní je úlohou klinického genetika stanoviť diagnózu založenú na klinickom obraze, objektívnom vyšetrení a rodinnej anamnéze. Genetický test býva indikovaný na potvrdenie, resp. vylúčenie diagnózy. Vyšetrujúce laboratórium vo výsledkovej správe uvedie všetky potenciálne patologické varianty (mutácie) v analyzovanom géne, ako aj základný popis použitých metód vrátane analytických parametrov (senzitivita, špecificita, detekčný limit ap.). Panelové sekvenovanie predstavuje z pohľadu klinického genetika logické rozšírenie súčasných sekvenačných testov v prípade tzv. geneticky heterogénnych ochorení. Indikáciou PS je teda klinická diagnóza ochorenia, ktorého genetická etiológia je veľmi heterogénna, konkrétny kauzálny gén sa nedá nijakým spôsobom vyselektovať a súbežná analýza veľkého počtu asociovaných génov preto predstavuje najefektívnejší diagnostický postup. Korektná indikácia PS tak môže prispieť k podstatnému zrýchleniu identifikácie kauzálnej mutácie u novodiagnostikovaných pacientov, resp. úspešnému zavŕšeniu diagnostického procesu u dlhodobo nedoriešených prípadov. Testovanie pomocou PS tiež najlepšie vyhovuje súčasným modelom finančnej úhrady (zdravotnými poisťovňami i samoplatcovsky) za molekulárne diagnostické testy. Z týchto dôvodov je pre laboratóriá aj indikujúcich klinických genetikov najvýhodnejšie začať zo získavaním skúseností najprv prostredníctvom PS pred postupným prechodom k ES a WGS aplikáciám.

Použitie ES alebo WGS umožňuje voľnejší prístup k testovaniu pacientov, bez nutnosti presnej iniciálnej diagnózy, ale na korektnú interpretáciu dát vyžadujú obe aplikácie úzku spoluprácu klinického genetika s laboratóriom, najmä pri voľbe vhodnej stratégie filtrovania variantov a následnej interpretácii výsledkov. Indikáciou ES, resp. WGS sú prípady, pri ktorých je klinicky veľmi pravdepodobné genetické ochorenie, ale dostupné cielené testy pre konkrétny gén alebo gény asociované s daným fenotypom (napr. aj pomocou PS) neidentifikovali kauzálnu mutáciu, alebo ak klinický obraz, resp. údaje z rodinnej anamnézy silne suponujú genetickú etiológiu, ale fenotyp nekorešponduje so špecifickým ochorením, pre ktoré je dostupný cielený genetický test. Pred indikáciou ES/WGS testovania musí klinický genetik dôkladne zvážiť aj potenciálny dopad tzv. náhodných nálezov (viď nižšie).

Predtestová konzultácia klinickým genetikom má zahŕňať formálny informovaný súhlas a pacienti majú byť podrobne informovaní o očakávanom výsledku testovania, pravdepodobnosti a type potenciálnych náhodných nálezov a kategóriách výsledkov, ktoré budú, resp. nebudú uvedené vo výsledkovej správe. Takisto je potrebné pacientom jasne vysvetliť rozdiel medzi výlučne klinicko-diagnostickým a (potenciálne) výskumne orientovaným testovaním, hoci oba typy sa často prekrývajú, resp. dopĺňajú. Nevyhnutným dôsledkom testovania pomocou ES/WGS je identifikácia sekvenčných variantov, ktoré sa nevzťahujú priamo k pôvodnému zámeru testu. Za tzv. primárny nález sa považuje patogénny variant (mutácia) v géne, ktorý je relevantný k diagnostickej indikácii NGS testu. Naopak, náhodný alebo sekundárny nález znamená nečakané zistenie patogénnej zmeny v géne zjavne nesúvisiacom s pôvodnou indikáciou. Určité typy náhodných nálezov je možné považovať za dostatočne závažné a ich uvedenie vo výsledkovej správe sa jednoznačne doporučuje (10). Medzi významné náhodné nálezy patrí najmä identifikácia variantu asociovaného s predispozíciou k určitému ochoreniu (t.j. vysokým rizikom rozvoja ochorenia v budúcnosti), resp. zistenie mutácie pre doteraz klinicky sa neprejavujúce ochorenie a nález nosičstva heterozygotnej mutácie pre recesívne ochorenie. Diagnostické laboratórium poskytujúce ES/WGS analýzy by preto malo mať vypracovaný podrobný postup ohľadom posudzovania a uvádzania (reportovania) náhodných nálezov vo výsledkovej správe.

 

Diagnostické využitie NGS v klinicko-genetickej praxi

            Jednotlivé NGS aplikácie sa v súčasnosti efektívne využívajú v genetickej laboratórnej diagnostike zriedkavých syndrómov, heterogénnych ochorení a pri neinvazívnom prenatálnom testovaní plodu. Za zriedkavé (raritné) ochorenia sa na základe konsenzu považujú choroby s individuálnou populačnou incidenciou menej ako 1:2000, čiže vyskytujúce sa menej ako u 500 jedincov z milióna. Extrémne zriedkavé (ultrararitné) ochorenia majú incidenciu menšiu ako 1:50.000, zisťujú sa teda u menej ako 20 jedincov z milióna. Predpokladá sa, že kauzálne mutácie pre raritné ochorenia sa vyskytujú so zodpovedajúcou nízkou frekvenciou, resp. výlučne u postihnutých jedincov. Tento predpoklad platí najmä pre vysokopenetrantné mutácie, t.j. varianty veľkého účinku asociované s typickým fenotypom, ktoré sa nevyskytujú bežne v populácii a preto ani v databázach celogenómových analýz alebo polymorfizmov (napr. dbSNP, HapMap, 1000 Genomes ap.). Neprítomnosť v týchto databázach predstavuje dôležité kritérium pri hľadaní zriedkavého alebo de novo variantu pri ES/WGS analýzach. Od uverejnenia pilotnej práce, ktorá pomocou ES identifikovala mutáciu v géne SLC26A3 a potvrdila pôvodne klinicky nesuponovanú diagnózu vrodenej chloridovej diarey (11) bolo publikovaných viac ako 150 ďalších štúdií, ktoré úspešne využili ES/WGS na detekciu recesívnych, dominantných aj de novo mutácií.

Geneticky heterogénne ochorenia, ktoré predstavujú jednoznačných kandidátov na využitie PS môžeme rozdeliť do niekoľkých základných skupín: špecifické genetické syndrómy s historicky známou heterogenitou, syndrómy s mentálnou retardáciou a/alebo autizmom, dedičné metabolické poruchy a ochorenia primárne diagnostikované inými medicínskymi odbormi (neurológia, kardiológia, oftalmológia, ORL). Konkrétne príklady sú uvedené v Tab.3.

Zavedenie NGS metód prinieslo potrebnú technológiu aj na vyriešenie technických problémov neinvazívnej detekcie trizómie 21 a ďalších častých aneuploídií plodu z voľnej fetálnej DNA cirkulujúcej v periférnej krvi matky. Po pilotných menších prácach principiálne testujúcich NGS analýzu ďalšie štúdie potvrdili vysokú špecificitu a senzitivitu takéhoto neinvazívneho prenatálneho testovania (NIPT) na rozsiahlych súboroch tehotných žien (12,13). Pri skríningu najčastejších fetálnych aneuploídií NIPT predstavuje alternatívu a perspektívne náhradu multimarkerových biochemických testov a  invazívneho odberu fetálnej vzorky. V súčasnosti je už v ponuke viacero komerčne dostupných NIPT testov a ich široké použitie je zatiaľ limitované finančnou náročnosťou pre tehotné probandky. Len ďalší vývoj ukáže, či tento typ testov úspešne nahradí doterajšie postupy prenatálnej genetickej diagnostiky.

            Postupné rozšírenie NGS analýz v klinicko-diagnostickej praxi bude predstavovať zmenu paradigmy v medicíne a veľmi pravdepodobne prinesie skutočne „na mieru šitú“ lekársku starostlivosť založenú na poznaní individuálneho rizika. Už dnes je zrejmé, že aplikácie NGS budú mať veľký význam nielen u genetických ochorení s mendelským typom dedičnosti, ale aj u polygénových a multifaktoriálnych chorôb (14). Preto je potrebné, aby klinickí genetici postupne pomohli integrácii „genomického“ myslenia aj v iných medicínskych špecializáciách.

 

 

Literatúra

(1) Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci USA. 1977;74(12):5463-7.

(2) Metzker ML. Sequencing technologies – the next generation. Nat Rev Genet. 2010;11(1):31-46.

(3) Moorthie S, Hall A, Wright CF. Informatics and clinical genome sequencing: opening the black box. Genet Med. 2013;15(3):165-71.

(4) Margulies M, Egholm M, Altman WE, et al. Genome sequencing in microfabricated high-density picolitre reactors. Nature. 2005;437(7057):376–80.

(5) Shendure J, Porreca GJ, Reppas NB, et al. Accurate multiplex polony sequencing of an evolved bacterial genome. Science. 2005;309(5741):1728–32

(6) Bentley DR, Balasubramanian S, Swerdlow HP, et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 2008; 456(7218):53–9.

(7) Rothberg JM, Hinz W, Rearick TM, et al. An integrated semiconductor device enabling nonoptical genome sequencing. Nature. 2011; 475(7356):348–52.

(8) Majewski J, Schwartzentruber J, Lalonde E, et al. What can exome sequencing do for you? J Med Genet. 2011;48(9):580–9.

(9) Rehm HL, Bale SJ, Bayrak-Toydemir P, et al. ACMG clinical laboratory standards for next-generation sequencing. Genet Med. 2013;15(9):733-47.

(10) Green RC, Berg JS, Grody WW, et al. ACMG recommendations for reporting of incidental findings in clinical exome and genome sequencing. Genet Med. 2013;15(7):565-74.

(11) Choi M, Scholl UI, Ji W, et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 2009;106(45):19096–101.

(12) Bianchi DW, Platt LD, Goldberg JD, et al. Genome-wide fetal aneuploidy detection by maternal plasma DNA sequencing. Obstet Gynecol. 2012;119(5):890–901.

(13) Palomaki GE, Kloza EM, Lambert-Messerlian GM, et al. DNA sequencing of maternal plasma to detect Down syndrome: an international clinical validation study. Genet Med. 2011;13(11):913–20.

(14) Thakuria JV, Zaranek AW, Church GM, et al. Back to the future: from genome to metabolome. Hum Mutat. 2012;33(5):809-12.