alternatieve strategieën voor DNA-sequencing kunnen worden gegroepeerd in verschillende categorieën (zoals eerder besproken in ref. 4). Deze omvatten i) micro-elektroforetische methoden9 (Kader 1), ii) sequencing door hybridisatie10 (kader 2), iii) real-time observatie van afzonderlijke moleculen11,12 (kader 3) en iv) cyclic-array sequencing (J. S. et al.13 en ref. 14)., Hier gebruiken we’ second-generation ‘ in verwijzing naar de verschillende implementaties van cyclic-array sequencing die recent zijn gerealiseerd in een commercieel product (bijvoorbeeld, 454 sequencing (gebruikt in de 454 Genome Sequencers, Roche Applied Science; Bazel), Solexa technologie (gebruikt in de Illumina (San Diego) Genome Analyzer), het SOLiD platform (Applied Biosystems; Foster City, CA, USA), de Polonator (Dover/Harvard) en de HeliScope Single Molecule Sequencer technologie (Helicos; Cambridge, MA, USA)., Het concept van cyclisch-serie het rangschikken kan als het rangschikken van een dichte reeks van eigenschappen van DNA door iteratieve cycli van enzymatische manipulatie en beeldvorming-gebaseerde gegevensverzameling15 (Shendure en colleagues16) worden samengevat. Twee rapporten in 2005 beschreven de eerste geïntegreerde implementaties van cyclisch-array strategieën die zowel praktisch en kosten-concurrerend met conventionele sequencing waren (J. S. et al.13 en ref. 14), en andere groepen zijn snel gevolgd 17, 18.,
hoewel deze platforms vrij divers zijn in de sequencing van de biochemie en in de manier waarop de array wordt gegenereerd, zijn hun werkstromen conceptueel vergelijkbaar (Fig. 1 ter). De bibliotheekvoorbereiding wordt bereikt door willekeurige fragmentatie van DNA, door in vitro afbinding van gemeenschappelijke adapteropeenvolgingen wordt gevolgd. Alternatieve protocollen kunnen worden gebruikt om springbibliotheken van partner-gepaarde tags met controleerbare afstandsverdelingen13,19 te genereren., De generatie van clonally geclusterde amplicons om als het rangschikken eigenschappen te dienen kan door verscheidene benaderingen, met inbegrip van in situ polonies15, emulsie PCR20 of brug PCR21,22 (Fig. 2). Wat gemeenschappelijk is aan deze methodes is dat PCR amplicons die van om het even welke één bibliotheekmolecule worden afgeleid ruimtelijk geclusterd eindigen, hetzij aan één enkele plaats op een vlakke substraat (in situ polonies, brugpcr), of aan het oppervlak van micron-schaal parels, die kunnen worden teruggewonnen en opgesteld (emulsie PCR)., Het sequencing proces zelf bestaat uit afwisselende cycli van enzym-gedreven biochemie en beeldvorming-gebaseerde data acquisitie (Fig. 3). De platforms die hier worden besproken vertrouwen allemaal op het rangschikken door synthese, dat wil zeggen, seriële uitbreiding van geprimed templates,maar het enzym dat de synthese drijft kan ofwel een polymerase16,23 of een ligase13, 24 zijn. De gegevens worden verkregen door weergave van de volledige reeks bij elke cyclus (B.V., van fluorescently geëtiketteerde nucleotiden die door een polymerase worden opgenomen).
globale voordelen van tweede generatie of cyclische array-strategieën ten opzichte van Sanger-sequencing zijn onder meer de volgende: (i) in vitro constructie van een sequencingbibliotheek, gevolgd door in vitro klonale amplificatie om sequencingfuncties te genereren, omzeilt verscheidene knelpunten die het parallellisme van conventionele sequencing beperken (dat wil zeggen transformatie van E. coli en koloniepluk). (ii) het Array-gebaseerde rangschikken laat een veel hogere graad van parallellisme toe dan het conventionele capillaire-gebaseerde rangschikken., Aangezien de efficiënte grootte van het rangschikken van eigenschappen op de Orde van 1 µm kan zijn, kunnen honderden miljoenen het rangschikken leest potentieel parallel door rastered weergave van een redelijk grootte oppervlakte worden verkregen. (iii) omdat de eigenschappen van de array aan een vlak oppervlak worden geïmmobiliseerd, kunnen zij enzymatisch door één enkel reagensvolume worden gemanipuleerd. Hoewel microliter-schaal reagensvolumes in de praktijk worden gebruikt, worden deze hoofdzakelijk geamortiseerd over de volledige reeks het rangschikken eigenschappen op de reeks, die het efficiënte reagensvolume per eigenschap aan de schaal van picoliters of femtoliters laten vallen., Gezamenlijk vertalen deze verschillen zich in dramatisch lagere kosten voor de productie van DNA-sequenties.
De voordelen van DNA-sequencing van de tweede generatie worden momenteel gecompenseerd door een aantal nadelen. De meest prominente van deze omvatten lees-lengte (voor alle nieuwe platforms, zijn lees-lengtes momenteel veel korter dan het conventionele rangschikken) en ruwe nauwkeurigheid (gemiddeld, zijn basis-gesprekken die door de nieuwe platforms worden gegenereerd minstens vertienvoudigd minder nauwkeurig dan basis-gesprekken die door sanger worden gegenereerd rangschikken)., Hoewel deze beperkingen belangrijke algoritmische uitdagingen voor de nabije toekomst creëren, moeten we in gedachten houden dat deze technologieën zullen blijven verbeteren met betrekking tot deze parameters, net zoals conventionele sequencing geleidelijk vorderde in drie decennia om zijn huidige niveau van technische prestaties te bereiken.
454 pyrosequencing. Het 454-systeem was het eerste sequencingplatform van de volgende generatie dat beschikbaar was als commercieel product14. In deze benadering, bibliotheken kunnen worden geconstrueerd door elke methode die leidt tot een mengsel van korte, adaptor-flanked fragmenten., Het klonen rangschikken eigenschappen worden geproduceerd door emulsie PCR20, met amplicons gevangen aan de oppervlakte van 28 µm parels (Fig. 2 bis). Na het breken van de emulsie worden parels behandeld met denatureringsmiddel om ongebonden strengen te verwijderen en vervolgens onderworpen aan een op hybridisatie gebaseerde verrijking voor Amplicon-dragende parels (dat wil zeggen, die aanwezig waren in een emulsiecompartiment dat een productieve PCR-reactie ondersteunt). Een het rangschikken inleiding wordt gekruist aan de universele adapter bij de aangewezen positie en oriëntatie, dat wil zeggen, onmiddellijk grenzend aan het begin van onbekende opeenvolging.,
Sequencing wordt uitgevoerd met behulp van de pyrosequencing methode25 (Fig. 3a). In het kort, zijn de amplicon-dragende parels preincubated met Bacillus stearothermophilus (BST) polymerase en single-stranded bindende proteã ne, en dan gedeponeerd op een microfabricated array van picoliter-schaal putten (met afmetingen zodanig dat slechts één parel per goed past) om deze biochemie compatibel met array-gebaseerde sequencing te maken. Kleinere parels worden ook toegevoegd, met geïmmobiliseerde enzymen die ook worden vereist voor pyrosequencing (ATP sulfurylase en luciferase)., Tijdens het rangschikken, functioneert één kant van de semi-geordende reeks als stroomcel voor het introduceren en het verwijderen van rangschikkende reagentia, terwijl de andere kant aan een vezeloptische bundel voor CCD (Last-coupled device)-gebaseerde signaalopsporing wordt gebonden. Bij elk van enkele honderden cycli, wordt één enkele species van niet geëtiketteerd nucleotide geà ntroduceerd. Op templates waar dit resulteert in een incorporatie event, pyrofosfaat wordt vrijgegeven., Via ATP sulfurylase en luciferase, incorporatiegebeurtenissen drijven onmiddellijk de generatie van een uitbarsting van licht, die door CCD wordt ontdekt die aan de array coördinaten van specifieke putten corresponderen. In tegenstelling tot andere platforms, daarom moet de sequencing door synthese worden gecontroleerd ‘live (dat wil zeggen, de camera beweegt niet ten opzichte van de array). Over meerdere cycli (bijvoorbeeld A-G-C-T-A-G-C-T…), het patroon van gedetecteerde incorporatie gebeurtenissen onthult de volgorde van sjablonen vertegenwoordigd door individuele kralen., Net als de Heliscoop (hieronder besproken), is het rangschikken ‘asynchroon’ in die zin dat sommige eigenschappen vooruit of achter andere eigenschappen kunnen komen afhankelijk van hun opeenvolging ten opzichte van de Orde van basistoevoeging.
een belangrijke beperking van de 454-technologie heeft betrekking op homopolymeren (dat wil zeggen opeenvolgende gevallen van dezelfde basis, zoals AAA of GGG). Omdat er geen eindigend deel is dat meerdere opeenvolgende incorporaties bij een bepaalde cyclus verhindert, moet de lengte van alle homopolymeren worden afgeleid uit de signaalintensiteit., Dit kan leiden tot een hoger foutenpercentage dan de discriminatie tussen incorporatie en niet-incorporatie. Als gevolg daarvan is het dominante fouttype voor het 454-platform invoegen-verwijderen, in plaats van vervangen. Ten opzichte van andere platforms van de volgende generatie is het belangrijkste voordeel van het 454-platform leeslengte. Bijvoorbeeld, het 454 FLX instrument genereert ∼400.000 reads per instrument-run op lengtes van 200 tot 300 bp. Momenteel zijn de per-base kosten van sequencing met het 454 platform veel hoger dan die van andere platforms (bijv.,, Vast en Solexa) maar het kan de methode van keus voor bepaalde toepassingen zijn waar de lange read-lengtes kritiek zijn (b.v., De novo assemblage en metagenomics).
Illumina Genome Analyzer. Algemeen aangeduid als ‘de Solexa’, dit platform heeft zijn oorsprong in het werk van Turcatti en collega ‘ S22, 23 en de fusie van vier bedrijven—Solexa (Essex, UK), Lynx Therapeutics (Hayward, CA, USA), Manteia Predictive Medicine (Coinsins, Zwitserland) en Illumina., Bibliotheken kunnen worden geconstrueerd door elke methode die leidt tot een mengsel van adaptor-flanked fragmenten tot enkele honderden basenparen (bp) in lengte. Het versterkte rangschikken eigenschappen worden geproduceerd door brug PCR21, 22 (Fig. 2b). In deze benadering, worden zowel de voorwaartse als de omgekeerde PCR-inleidingen aan een stevig substraat door een flexibele linker gebonden, zodanig dat alle amplicons die van om het even welke enige malplaatjemolecule tijdens de versterking voortvloeien geïmmobiliseerd blijven en aan één enige fysieke plaats op een reeks worden geclusterd., Op het Illumina-platform, is de brugpcr enigszins onconventioneel in het vertrouwen op afwisselende cycli van uitbreiding met BST-polymerase en denaturatie met formamide. De resulterende ‘clusters’ bestaan elk uit ∼1.000 klonale ampliconen. Enkele miljoenen clusters kunnen worden versterkt tot verschillende locaties binnen elk van de acht onafhankelijke ‘rijstroken’ die zich op een enkele stroomcel bevinden (zodat acht onafhankelijke bibliotheken parallel kunnen worden gesequenced tijdens hetzelfde instrument run)., Na clustergeneratie, zijn de amplicons enkel vastgelopen (linearisatie) en wordt een het rangschikken inleiding gekruist aan een universele opeenvolging flankerend het gebied van belang. Elke cyclus van sequentie ondervraging bestaat uit single-base uitbreiding met een gemodificeerde DNA polymerase en een mengsel van vier nucleotiden (Fig. 3b). Deze nucleotiden worden op twee manieren gewijzigd., Zij zijn ‘reversibele terminatoren’, in die zin dat een chemisch splitsbaar deel op de 3 ‘ -hydroxylpositie slechts in elke cyclus een opname met één base mogelijk maakt, en dat één van de vier fluorescerende etiketten, ook chemisch splitsbaar, overeenkomt met de identiteit van elk nucleotide23. Na single-base uitbreiding en acquisitie van beelden in vier kanalen, chemische splitsing van beide groepen op te zetten voor de volgende cyclus. Leeslengtes tot 36 bp zijn momenteel routinematig; langer lezen is mogelijk, maar kan een hoger foutenpercentage oplopen.,
Leeslengtes worden beperkt door meerdere factoren die signaalverval en-dephasing veroorzaken, zoals onvolledige splitsing van fluorescerende labels of eindigende delen. Het dominante fouttype is substitutie, in plaats van inserties of verwijderingen (en homopolymeren zijn zeker Minder een probleem dan met andere platforms zoals 454). De gemiddelde ruwe foutenpercentages liggen in de Orde van 1-1, 5%, maar hogere nauwkeurigheidsbasissen met foutenpercentages van 0,1% of minder kunnen worden geïdentificeerd door middel van kwaliteitsmetrics die aan elke basisaanroep zijn gekoppeld., Zoals met andere systemen, hebben de wijzigingen onlangs mate-in paren gerangschikt leest toegelaten; bijvoorbeeld, elke rangschikkende eigenschap die 2 × 36 BP onafhankelijke leest van elk eind van een bepaalde bibliotheekmolecule enkele honderden basissen in lengte wordt afgeleid.
AB SOLiD. Dit platform heeft zijn oorsprong in het systeem beschreven door J. S. en collega ‘S13 in 2005 en in werk van McKernan en collega’ S26 bij Agencourt Personal Genomics (Beverly, MA, USA) (overgenomen door Applied Biosystems (Foster City, CA, USA) in 2006)., Bibliotheken kunnen worden geconstrueerd volgens elke methode die aanleiding geeft tot een mengsel van korte, adaptor-flanked fragmenten, hoewel veel inspanning met dit systeem is gezet in protocollen voor mate-gepaarde tag bibliotheken met controleerbare en zeer flexibele afstand distributies 13,19. Het klonen rangschikken eigenschappen worden geproduceerd door emulsie PCR, met amplicons gevangen aan de oppervlakte van 1-µM paramagnetische parels20 (Fig. 2 bis). Na het breken van de emulsie worden kralen met amplificatieproducten selectief teruggewonnen en vervolgens geïmmobiliseerd tot een stevig vlak substraat om een dichte, wanordelijke array te genereren., Het rangschikken door synthese wordt gedreven door ligase13,24,26,27,28 van DNA, eerder dan een polymerase. Een universele primer complementair aan adapteropeenvolging wordt gekruist aan de reeks amplicon-dragende parels. Elke cyclus van het rangschikken impliceert de afbinding van een gedegenereerde bevolking van fluorescently geëtiketteerde octamers (Fig. 3c). Het octamermengsel is gestructureerd, in die zin dat de identiteit van specifieke positie(s) binnen de octamer (b.v., Basis 5) correleren met de identiteit van het fluorescente etiket., Na afbinding worden beelden verkregen in vier kanalen, effectief verzamelen van gegevens voor dezelfde basisposities over alle template-dragende kralen. Dan, wordt de octamer chemisch gespleten tussen posities 5 en 6, verwijderend het fluorescente etiket. De progressieve rondes van octamer ligation laten het rangschikken van elke 5e basis toe (b. v., basissen 5, 10, 15, 20). Bij het voltooien van verscheidene dergelijke cycli, wordt de uitgebreide inleiding gedenatureerd om het systeem terug te stellen. Volgende iteraties van dit proces kunnen worden gericht op een andere set van posities (bijv.,, bases 4, 9, 14, 19) hetzij door een primer te gebruiken die één of meer bases van de Adapter-insert junction wordt teruggezet, of door verschillende mengsels van octamers te gebruiken waarbij een andere positie (bijvoorbeeld base 2) met het etiket wordt gecorreleerd. Een extra functie van dit platform omvat het gebruik van twee-base codering, dat is een fout-correctie schema waarin twee aangrenzende bases, in plaats van een enkele base, zijn gecorreleerd met de label26., Elke basispositie wordt dan tweemaal opgevraagd (eenmaal als eerste base, en eenmaal als tweede base, in een set van 2 bp ondervraagd op een bepaalde cyclus) zodat miscalls gemakkelijker kunnen worden geïdentificeerd.
een verwant systeem aan de vaste stof is de Polonator, ook gedeeltelijk gebaseerd op het systeem ontwikkeld door J. S. en de Church group13 op Harvard. Dit platform gebruikt ook het rangschikken van eigenschappen die door emulsie PCR worden geproduceerd en het rangschikken door afbinding. De kosten van het instrument zijn echter aanzienlijk lager dan die van andere sequentieinstrumenten van de tweede generatie., Daarnaast is het instrument open source en programmeerbaar, waardoor gebruikersinnovatie mogelijk is (bijvoorbeeld het gebruik van alternatieve biochemie). De huidige afleeslengtes kunnen echter aanzienlijk beperkend zijn.
een bijkomend nadeel, gemeenschappelijk aan 454, vaste en Polonator, is dat emulsie PCR omslachtig en technisch uitdagend kan zijn., Aan de andere kant, is het mogelijk dat het rangschikken op een high-density array van zeer kleine (1 µm) parels (met rangschikking door ligatie, polymeraseuitbreiding, of een andere biochemie) de meest eenvoudige mogelijkheid kan vertegenwoordigen om extreem hoge gegevensdichtheden te bereiken, simpelweg omdat 1-µm parels elkaar fysiek uitsluiten op een afstand die op de Orde van de diffractiegrens ligt. Bovendien kan de rangschikking met hoge resolutie van 1-µm-parelarrays, zoals onlangs beschreven29, de limiet van één pixel per sequencingfunctie nauwkeurig benaderen.
HeliScope., De Helicos sequencer18, gebaseerd op werk van Quake ‘ s group30, vertrouwt ook op cyclische ondervraging van een dichte reeks sequencingfuncties. Een uniek aspect van dit platform is echter dat er geen klonale versterking nodig is. In plaats daarvan, wordt een hoogst gevoelig systeem van de fluorescentieopsporing gebruikt om enige molecules van DNA via het rangschikken door synthese direct te ondervragen., Template bibliotheken, voorbereid door willekeurige fragmentatie en poly-a tailing (dat wil zeggen, geen PCR-versterking), worden gevangen door hybridisatie aan oppervlakte-gebonden poly-T oligomers om een wanordelijke serie van geprepareerd enig-molecuul rangschikkend templates op te brengen. Bij elke cyclus, worden de polymerase van DNA en één enkele species van fluorescently geëtiketteerd nucleotide toegevoegd, resulterend in malplaatje-afhankelijke uitbreiding van de oppervlakte-geà mmobiliseerde inleiding-malplaatje duplexen (Fig. 3d)., Na verwerving van beelden die de volledige serie betegelen, staat de chemische splitsing en de versie van het fluorescente etiket de volgende cyclus van uitbreiding en weergave toe. Zoals beschreven in een recent rapport18, enkele honderden cycli van single-base extension (dat wil zeggen, A, G, C, T, A, G, C, T…) opbrengst gemiddelde afleeslengtes van 25 bp of meer. Opmerkelijke aspecten van dit systeem zijn onder meer de volgende. Eerst, zoals het 454 platform, is het rangschikken asynchroon, aangezien sommige bundels vooruit of achter anderen in een opeenvolgingsafhankelijke manier zullen vallen., Kans speelt ook een rol, als sommige templates gewoon niet op te nemen op een bepaalde cyclus ondanks het hebben van de juiste basis op de volgende positie. Nochtans, omdat deze enige molecules zijn, is dephasing geen probleem, en dergelijke gebeurtenissen niet in en van zichzelf leiden tot fouten.
ten tweede is er geen eindigend deel aanwezig op de geëtiketteerde nucleotiden. Net als bij het 454-systeem zijn homopolymeren daarom een belangrijk probleem. Nochtans, omdat de enige molecules worden gerangschikt, kan het probleem door het tarief van integratiegebeurtenissen te beperken worden beperkt. Bovendien, Harris et al.,18 merkten op dat opeenvolgende incorporaties van geëtiketteerde nucleotide bij homopolymeren een het doven interactie produceerden die de auteurs toeliet om het discrete aantal incorporaties (B.V., A versus AA versus AAA) af te leiden.
ten derde kan de ruwe sequentienauwkeurigheid aanzienlijk worden verbeterd door een two-pass-strategie waarbij de array van single-molecule templates (hier met adapters aan beide uiteinden) wordt gesequenced zoals hierboven beschreven, en vervolgens volledig wordt gekopieerd. Aangezien de nieuw gesynthetiseerde bundel oppervlakte-gebonden is, kan het originele malplaatje door denaturering worden verwijderd., Het rangschikken van geprepareerd van de distale adapter levert dan een tweede opeenvolging voor het zelfde malplaatje op, die in de tegenovergestelde richting wordt verkregen. Posities die overeenkomen tussen de twee lezingen hebben phred-achtige kwaliteitsscores naderen 30 (refs. 8,18).
en tot slot, grotendeels secundair aan de integratie van contaminerende, niet–geëtiketteerde of niet-emitting bases, is het dominante fouttype verwijdering (2-7% foutenpercentage met één doorgang; 0,2-1% met twee gangen). Het percentage substitutiefouten is echter aanzienlijk lager (0,01–1% met één doorgang)., Met twee passes is het foutenpercentage voor ruwe substitutie per basis (bijna 0,001%) momenteel het laagste van alle platforms van de tweede generatie.