alternativa strategier för DNA-sekvensering kan grupperas i flera kategorier (som diskuterats tidigare i ref. 4). Dessa inkluderar (i) mikroelektroforetiska metoder9 (ruta 1), (ii) sekvensering genom hybridization10 (Ruta 2), (iii) realtidsobservation av enkla molekyler11,12 (ruta 3) och (iv) cyklisk array-sekvensering (J. S. et al.13 och ref. 14)., Här använder vi ”den andra generationen” i förhållande till de olika implementationer av cykliska-array-sekvensering som nyligen genomförts i en kommersiell produkt (t ex, 454-sekvensering (används i 454 Genomet Sequencers, Roche Tillämpad Vetenskap, Basel), Solexa teknik (som används i Illumina (San Diego) Genomet Analyzer), SOLiD plattform (Applied Biosystems; Foster City, CA, USA), den Polonator (Dover/Harvard) och HeliScope Enda Molekyl Sequencer teknik (Helicos; Cambridge, MA, USA)., Begreppet cyklisk array-sekvensering kan sammanfattas som sekvensering av ett tätt utbud av DNA-funktioner genom iterativa cykler av enzymatisk manipulation och bildbaserad datasamling15 (Shendure och colleagues16). Två rapporter under 2005 beskrev de första integrerade implementeringarna av cykliska array-strategier som var både praktiska och kostnadseffektiva med konventionell sekvensering (J. S. et al.13 och ref. 14), och andra grupper har snabbt följt17, 18.,
även om dessa plattformar är ganska olika i sekvensering biokemi samt i hur matrisen genereras, är deras arbetsflöden konceptuellt likartade (Fig. 1b). Biblioteksberedning sker genom slumpmässig fragmentering av DNA, följt av in vitro ligering av vanliga adaptersekvenser. Alternativa protokoll kan användas för att generera hoppbibliotek av mate-Parade taggar med kontrollerbara avståndsfördelningar13, 19., Generering av klonalt klustrade ampliconer för att fungera som sekvenseringsfunktioner kan uppnås genom flera tillvägagångssätt, inklusive in situ polonies15, emulsion PCR20 eller bridge PCR21, 22 (Fig. 2). Vad som är vanligt med dessa metoder är att PCR-amplikoner som härrör från en given enskild biblioteksmolekyl hamnar rumsligt klustrade, antingen till en enda plats på ett plant substrat (in situ polonies, bridge PCR) eller till ytan av mikron-skala pärlor, som kan återvinnas och arrayed (emulsion PCR)., Sekvenseringsprocessen i sig består av alternerande cykler av enzymdriven biokemi och avbildningsbaserad datainsamling (Fig. 3). Plattformarna som diskuteras här är alla beroende av sekvensering genom syntes, det vill säga seriell förlängning av primerade mallar,men enzymet som driver syntesen kan vara antingen en polymerase16,23 eller en ligase13, 24. Data förvärvas genom avbildning av hela matrisen vid varje cykel (t.ex. av fluorescently märkta nukleotider som ingår i ett polymeras).
globala fördelar med andra generationens eller cykliska array-strategier, i förhållande till Sanger-sekvensering, inkluderar följande: (i) in vitro-konstruktion av ett sekvenseringsbibliotek, följt av in vitro-klonförstärkning för att generera sekvensegenskaper, kringgår flera flaskhalsar som begränsar parallellismen hos konventionell sekvensering (det vill säga omvandling av E. coli och plockning). (ii) Array-baserad sekvensering möjliggör en mycket högre grad av parallellitet än konventionell kapillärbaserad sekvensering., Eftersom den effektiva storleken på sekvenseringsfunktioner kan vara i storleksordningen 1 µm, kan hundratals miljoner sekvenseringsläsningar potentiellt erhållas parallellt med rastered imaging av en rimligt stor yta. (iii) eftersom array-funktioner är immobiliserade till en plan yta kan de manipuleras enzymatiskt med en enda reagensvolym. Även om mikroliterskalans reagensvolymer används i praktiken, avskrivs dessa väsentligen över hela uppsättningen sekvensegenskaper på matrisen och släpper den effektiva reagensvolymen per funktion till skalan av picoliters eller femtoliters., Sammantaget leder dessa skillnader till dramatiskt lägre kostnader för DNA-sekvensproduktion.
fördelarna med andra generationens DNA-sekvensering kompenseras för närvarande av flera nackdelar. De mest framträdande av dessa inkluderar läslängd (för alla nya plattformar är läslängder för närvarande mycket kortare än konventionell sekvensering) och rå noggrannhet (i genomsnitt är bassamtal som genereras av de nya plattformarna minst tiofaldigt mindre exakta än bassamtal som genereras av Sanger-sekvensering)., Även om dessa begränsningar skapar viktiga algoritmiska utmaningar för den närmaste framtiden, bör vi komma ihåg att denna teknik kommer att fortsätta att förbättras med avseende på dessa parametrar, mycket som konventionell sekvensering fortskred gradvis under tre decennier för att nå sin nuvarande nivå av teknisk prestanda.
454-pyrosekvensering. 454-systemet var den första nästa generations sekvenseringsplattform som var tillgänglig som en kommersiell produkt14. I detta tillvägagångssätt kan bibliotek konstrueras med vilken metod som helst som ger upphov till en blandning av korta adapterflankade fragment., Klonal sekvense funktioner genereras av emulsion PCR20, med amplicons fångas till ytan av 28-µm pärlor (Fig. 2a). Efter att ha brutit emulsionen behandlas pärlor med denaturant för att avlägsna untethered strängar och utsätts sedan för en hybridiseringsbaserad anrikning för ampliconbärande pärlor (det vill säga de som var närvarande i ett emulsionsfack som stöder en produktiv PCR-reaktion). En sekvenseringsprimer hybridiseras till universaladaptern i lämplig position och orientering, det vill säga omedelbart intill början av okänd sekvens.,
sekvensering utförs med pyrosequencing metod25 (Fig. 3a). I korthet preinkuberas de amplikonbärande pärlorna med Bacillus stearotermophilus (BST) polymeras och enkelsträngat bindningsprotein och deponeras sedan på en mikrofabricerad array av picoliterskala brunnar (med dimensioner så att endast en pärla passar per brunn) för att göra denna biokemi kompatibel med array-baserad sekvensering. Mindre pärlor tillsätts också, med immobiliserade enzymer som också krävs för pyrosequencing (ATP-sulfurylas och luciferas)., Under sekvenseringen fungerar den ena sidan av den halvbeställda matrisen som en flödescell för införande och avlägsnande av sekvenseringsreagenser, medan den andra sidan är bunden till en fiberoptisk bunt för CCD (charge-coupled device)-baserad signaldetektering. Vid var och en av flera hundra cykler introduceras en enda art av omärkt nukleotid. På mallar där detta resulterar i en införlivande händelse släpps pyrofosfat., Via ATP-sulfurylas och luciferas Driver inkorporeringshändelser omedelbart generering av en ljusbrist, som detekteras av CCD som motsvarar matriskoordinaterna för specifika brunnar. I motsats till andra plattformar måste därför sekvenseringen genom syntes övervakas ” live (det vill säga kameran rör sig inte i förhållande till matrisen). Över flera cykler (t. ex. A-G-C-T-A-G-C-T…), mönstret av upptäckta inkorporeringshändelser avslöjar sekvensen av mallar som representeras av enskilda pärlor., Liksom HeliScope (diskuteras nedan) är sekvenseringen ”asynkron” eftersom vissa funktioner kan komma framåt eller bakom andra funktioner beroende på deras sekvens i förhållande till bastilläggets ordning.
en stor begränsning av 454-tekniken avser homopolymerer (det vill säga på varandra följande fall av samma bas, till exempel AAA eller GGG). Eftersom det inte finns någon avslutande del som förhindrar flera på varandra följande införlivningar vid en given cykel, måste längden på alla homopolymerer härledas från signalintensiteten., Detta är utsatt för en större felprocent än diskriminering av införlivande kontra icke-införlivande. Följaktligen är den dominerande feltypen för 454-plattformen införande-radering, snarare än substitution. I förhållande till andra nästa generations plattformar är den viktigaste fördelen med 454-plattformen läslängd. Till exempel genererar 454 FLX-instrumentet trip 400,000 läser per instrument-kör på längder av 200 till 300 bp. För närvarande är kostnaden per bas för sekvensering med 454-plattformen mycket större än för andra plattformar (t. ex.,, Fast och Solexa) men det kan vara den metod som valts för vissa tillämpningar där långa avläsningslängder är kritiska (t.ex. de novo montering och metagenomics).
Illumina Genomanalysator. Ofta kallad ”Solexa’, denna plattform har sitt ursprung i arbete med Turcatti och colleages22,23 och sammanslagning av fyra företag—Solexa (Essex, STORBRITANNIEN), Lynx Therapeutics (Hayward, CA, USA), och Manteia Automatisk Medicin (Coinsins, Schweiz) och Illumina., Bibliotek kan konstrueras med vilken metod som helst som ger upphov till en blandning av adapterflankade fragment upp till flera hundra baspar (bp) i längd. Förstärkta sekvenseringsfunktioner genereras av bridge PCR21, 22 (Fig. 2b). I detta tillvägagångssätt, både framåt och bakåt PCR primers är bundna till ett fast substrat av en flexibel linker, så att alla amplicons som härrör från en enda mall molekyl under förstärkningen förblir immobiliserade och klustrade till en enda fysisk plats på en array., På Illumina-plattformen är bridge PCR något okonventionell för att förlita sig på alternerande förlängningscykler med bst-polymeras och denaturering med formamid. De resulterande ”klustren” består av 1 000 klonala ampuller. Flera miljoner kluster kan förstärkas för att urskiljbara platser inom var och en av åtta oberoende ”körfält” som finns på en enda flödescell (så att åtta oberoende bibliotek kan sekvenseras parallellt under samma instrumentkörning)., Efter klustergenerering är amplikonerna enkla strandade (linearisering) och en sekvenseringsprimer hybridiseras till en universell sekvens som flankerar regionen av intresse. Varje cykel av sekvensförhör består av enbasförlängning med ett modifierat DNA-polymeras och en blandning av fyra nukleotider (Fig. 3b). Dessa nukleotider modifieras på två sätt., De är ”reversibla terminatorer”, eftersom en kemiskt klyvbar del vid 3′ hydroxylpositionen endast tillåter en enkelbasinkorporering i varje cykel; och en av fyra fluorescerande etiketter, även kemiskt klyvbara, motsvarar identiteten hos varje nukleotid23. Efter enkelbasförlängning och förvärv av bilder i fyra kanaler, kemisk klyvning av båda grupperna sätter upp för nästa cykel. Läs-längder upp till 36 bp är för närvarande rutin; längre läsningar är möjliga men kan medföra en högre felfrekvens.,
Läslängder begränsas av flera faktorer som orsakar signalförfall och avfasning, såsom ofullständig klyvning av fluorescerande etiketter eller avslutande delar. Den dominerande feltypen är substitution, snarare än Infogningar eller raderingar (och homopolymerer är verkligen mindre av ett problem än med andra plattformar som 454). Genomsnittliga rå felfrekvenser är i storleksordningen 1-1, 5%, men högre noggrannhetsbaser med felfrekvenser på 0,1% eller mindre kan identifieras genom kvalitetsmått som är associerade med varje bassamtal., Som med andra system har modifieringar nyligen aktiverat mate-Parade läsningar; till exempel, varje sekvenseringsfunktion som ger 2 × 36 bp oberoende läsningar som härrör från varje ände av en given biblioteksmolekyl flera hundra baser i längd.
ab fast. Denna plattform har sitt ursprung i det system som beskrivs av J. S. och colleagues13 2005 och i arbetet med McKernan och colleagues26 på Agencourt Personliga Genomik (Beverly, MA, USA) (förvärvat av Applied Biosystems (Foster City, CA, USA) under 2006)., Bibliotek kan konstrueras med vilken metod som helst som ger upphov till en blandning av korta adapterflankade fragment, men mycket ansträngning med detta system har lagts i protokoll för mate-Parade taggbibliotek med kontrollerbara och mycket flexibla avståndsfördelningar13, 19. Klonsekvensegenskaper genereras av emulsion PCR, med ampliconer fångade till ytan av 1-µM paramagnetiska pärlor20 (Fig. 2a). Efter att ha brutit emulsionen återvinns pärlor med förstärkningsprodukter selektivt och immobiliseras sedan till ett fast plant substrat för att generera en tät, oordnad array., Sekvensering genom syntes drivs av en DNA-ligas13,24,26,27, 28, snarare än ett polymeras. En universell primer som kompletterar adaptersekvensen hybridiseras till matrisen av ampliconbärande pärlor. Varje cykel av sekvensering innebär ligering av en degenererad population av fluorescently märkta oktamerer (Fig. 3C). Oktamerblandningen är uppbyggd, eftersom identiteten hos specifika positioner inom oktameren (t.ex. bas 5) korrelerar med identiteten hos den fluorescerande etiketten., Efter ligering förvärvas bilder i fyra kanaler, som effektivt samlar in data för samma baspositioner över alla mallbärande pärlor. Därefter klyvs oktamern kemiskt mellan positionerna 5 och 6 och tar bort fluorescerande etiketten. Progressiva omgångar av octamer ligering möjliggör sekvensering av varje 5: e bas (t. ex. baser 5, 10, 15, 20). Efter att ha slutfört flera sådana cykler denatureras den förlängda primern för att återställa systemet. Efterföljande iterationer av denna process kan riktas mot en annan uppsättning positioner (t. ex.,, baser 4, 9, 14, 19) antingen genom att använda en primer som är inställd tillbaka en eller flera baser från adapterinsatsen, eller genom att använda olika blandningar av oktamerer där en annan position (t.ex. bas 2) är korrelerad med etiketten. En ytterligare egenskap hos denna plattform innebär användning av tvåbaskodning, vilket är ett felkorrigeringsschema där två intilliggande baser, snarare än en enda bas, är korrelerade med märket26., Varje basposition frågas sedan två gånger (en gång som den första basen, och en gång som den andra basen, i en uppsättning 2 bp förhör på en given cykel) så att Diverse kan lättare identifieras.
Ett liknande system Fast är Polonator, också delvis baserad på system som utvecklats av J. S. och Kyrkan group13 vid Harvard. Denna plattform använder också sekvenseringsfunktioner som genereras av emulsion PCR och sekvensering genom ligering. Kostnaden för instrumentet är dock betydligt lägre än för andra generationens sekvenseringsinstrument., Dessutom är instrumentet öppen källkod och programmerbart, vilket potentiellt möjliggör användarinnovation (t.ex. användning av alternativa biokemister). De nuvarande läslängderna kan dock vara avsevärt begränsande.
en ytterligare nackdel, gemensam för 454, fast och Polonatorn, är att emulsion PCR kan vara besvärlig och tekniskt utmanande., Å andra sidan är det möjligt att sekvensering på en högdensitetsmatris av mycket små (1 µm) pärlor (med sekvensering genom ligering, polymerasförlängning eller annan biokemi) kan representera den enklaste möjligheten att uppnå extremt höga datatätheter, helt enkelt för att 1-µm pärlor fysiskt utesluter varandra vid ett avstånd som ligger i storleksordningen diffraktionsgränsen. Dessutom kan högupplösande beställning av 1-µm pärla arrays, som nyligen beskrivet29, göra det möjligt att nära närma sig gränsen för en pixel per sekvenseringsfunktion.
HeliScope., Helicos sequencer18, baserat på quakes group30-arbete, bygger också på cyklisk förhör av ett tätt utbud av sekvenseringsfunktioner. En unik aspekt av denna plattform är dock att ingen klonal förstärkning krävs. Istället används ett mycket känsligt fluorescensdetekteringssystem för att direkt förhöra enskilda DNA-molekyler via sekvensering genom syntes., Mallbibliotek, som framställs genom slumpmässig fragmentering och poly-A-tailing (det vill säga ingen PCR-förstärkning), fångas av hybridisering till yttetrerade poly-t-oligomerer för att ge en oordnad rad primerade enmolekylära sekvenseringsmallar. Vid varje cykel tillsätts DNA-polymeras och en enda art av fluorescentmärkt nukleotid, vilket resulterar i mallberoende förlängning av yt immobiliserade primer-Mall duplexer (Fig. 3d)., Efter förvärv av bilder tiling hela arrayen, kemisk klyvning och frisättning av den fluorescerande etiketten tillåter den efterföljande cykeln av förlängning och bildbehandling. Som beskrivs i en ny rapport18, flera hundra cykler av enkelbasförlängning (det vill säga A, G, C, T, A, G, C, T…) utbyte genomsnittliga avlästa längder av 25 bp eller större. Anmärkningsvärda aspekter av detta system inkluderar följande. Först, som 454-plattformen, är sekvenseringen asynkron, eftersom vissa strängar kommer att falla framåt eller bakom andra på ett sekvensberoende sätt., Chance spelar också en roll, eftersom vissa mallar helt enkelt kan misslyckas med att införliva på en viss cykel trots att ha lämplig bas vid nästa position. Men eftersom dessa är enskilda molekyler är dephasing inte ett problem, och sådana händelser leder inte in och av sig själva till fel.
För det andra finns ingen avslutande del på de märkta nukleotiderna. Precis som med 454-systemet är homopolymer-körningar därför en viktig fråga. Men eftersom enskilda molekyler sekvenseras kan problemet mildras genom att begränsa inkorporationshastigheten. Dessutom Harris et al.,18 noterade att på varandra följande inkorporationer av märkt nukleotid vid homopolymerer producerade en släckningsinteraktion som gjorde det möjligt för författarna att dra slutsatsen det diskreta antalet inkorporationer (t.ex. A mot AA kontra AAA).
För det tredje kan den råa sekvenseringsnoggrannheten förbättras väsentligt genom en tvåpassstrategi där matrisen av enmolekylmallar (här med adaptrar i båda ändarna) sekvenseras enligt beskrivningen ovan och sedan kopieras helt. Eftersom den nyligen syntetiserade strängen är ytbindad kan den ursprungliga mallen avlägsnas genom denaturering., Sekvensering grundad från den distala adaptern ger sedan en andra sekvens för samma mall, erhållen i motsatt riktning. Positioner som är konkordant mellan de två läsarna har phred-liknande kvalitetsresultat närmar sig 30 (refs. 8,18).
och slutligen, till stor del sekundärt till införlivandet av förorenande, omärkta eller icke-spottande baser, är den dominerande feltypen radering (2-7% felfrekvens med ett pass; 0,2-1% med två pass). Felprocentsatserna för substitution är dock betydligt lägre (0,01–1% med ett pass)., Med två pass kan felprocenten per bas rå substitutionsfel (närmar sig 0,001%) för närvarande vara den lägsta av alla andra generationens plattformar.