Alternative Strategien für die DNA-Sequenzierung können in mehrere Kategorien eingeteilt werden(wie zuvor in ref. 4). Dazu gehören (i) mikroelektrophoretische Methoden9 (Kasten 1), (ii) Sequenzierung durch Hybridisierung10 (Kasten 2), (iii) Echtzeitbeobachtung einzelner Moleküle11,12 (Kasten 3) und (iv) zyklisch-Array-Sequenzierung (J. S. et al.13 und ref. 14)., Hier verwenden wir „Second-Generation“ in Bezug auf die verschiedenen Implementierungen der zyklischen Array-Sequenzierung, die kürzlich in einem kommerziellen Produkt realisiert wurden (z. B. 454 Sequenzierung (verwendet in den 454 Genomsequenzern, Roche Applied Science; Basel), Solexa-Technologie (verwendet im Illumina (San Diego) Genomanalysator), die SOLiD Platform (Applied Biosystems; Foster City, CA, USA), der Polonator (Dover/Harvard) und die HeliScope Single Molecule Sequencer-Technologie (Helicos; Cambridge, MA, USA)., Das Konzept der zyklischen Array-Sequenzierung kann als Sequenzierung eines dichten Arrays von DNA-Merkmalen durch iterative Zyklen enzymatischer Manipulation und bildgebungsbasierter Datenerfassung15 (Shendure und colleagues16) zusammengefasst werden. In zwei Berichten im Jahr 2005 wurden die ersten integrierten Implementierungen zyklischer Array-Strategien beschrieben, die sowohl praktisch als auch kostengünstig mit konventioneller Sequenzierung konkurrierten (J. S. et al.13 und ref. 14), und andere Gruppen folgten schnell17, 18.,
Obwohl diese Plattformen sowohl in der Sequenzierungsbiochemie als auch in der Generierung des Arrays sehr unterschiedlich sind, sind ihre Arbeitsabläufe konzeptionell ähnlich (Abb. 1b). Die Bibliotheksvorbereitung wird durch zufällige Fragmentierung der DNA, gefolgt von in vitro Ligation von gemeinsamen Adaptersequenzen erreicht. Alternative Protokolle können verwendet werden,um Sprungbibliotheken von mate-gepaarten Tags mit steuerbaren Distanzverteilungen13, 19 zu generieren., Die Erzeugung von klonal geclusterten Amplicons, die als Sequenzierungsmerkmale dienen, kann durch mehrere Ansätze erreicht werden, darunter in situ Polonies15, Emulsion PCR20 oder Bridge PCR21, 22 (Abb. 2). Was diesen Methoden gemeinsam ist, ist, dass PCR-Amplikons, die von einem gegebenen einzelnen Bibliotheksmolekül abgeleitet sind, räumlich gruppiert werden, entweder an einer einzigen Stelle auf einem planaren Substrat (in situ Polonies, Bridge PCR) oder an der Oberfläche von Mikronskala Perlen, die zurückgewonnen und angeordnet werden können (Emulsion PCR)., Der Sequenzierungsprozess selbst besteht aus wechselnden Zyklen enzymgetriebener Biochemie und bildgebender Datenerfassung (Abb. 3). Die Plattformen, die hier diskutiert werden, verlassen sich alle auf die Sequenzierung durch Synthese, dh die serielle Erweiterung von grundierten Vorlagen, aber das Enzym, das die Synthese antreibt,kann entweder eine Ligase16,23 oder eine Ligase13, 24 sein. Die Daten werden durch Bildgebung des vollständigen Arrays bei jedem Zyklus erfasst (z. B. von fluoreszenzmarkierten Nukleotiden, die durch eine Polymerase eingebaut werden).
Zu den globalen Vorteilen von Strategien der zweiten Generation oder zyklischer Arrays in Bezug auf die Sanger-Sequenzierung gehören folgende: (i) Der In-vitro-Aufbau einer Sequenzierungsbibliothek, gefolgt von einer In-vitro-Klonamplifikation zur Erzeugung von Sequenzierungsmerkmalen, umgeht mehrere Engpässe, die die Parallelität herkömmlicher Sequenzierung einschränken (dh Transformation von E. coli und Kolonie Kommissionierung). (ii) Array-basierte Sequenzierung ermöglicht einen viel höheren Grad an Parallelität als herkömmliche kapillarbasierte Sequenzierung., Da die effektive Größe der Sequenzierungsmerkmale in der Größenordnung von 1 µm liegen kann, können möglicherweise Hunderte von Millionen von Sequenzierungslesevorgängen parallel durch Rastered-Bildgebung einer angemessen großen Oberfläche erhalten werden. (iii) Da Array-Merkmale auf einer ebenen Oberfläche immobilisiert sind, können sie enzymatisch durch ein einzelnes Reagenzvolumen manipuliert werden. Obwohl Reagenzvolumina im Mikrolitermaßstab in der Praxis verwendet werden, werden diese im Wesentlichen über den gesamten Satz von Sequenzierungsmerkmalen auf dem Array amortisiert, wodurch das effektive Reagenzvolumen pro Merkmal auf die Skala von Picolitern oder Femtolitern gesenkt wird., Zusammen führen diese Unterschiede zu dramatisch niedrigeren Kosten für die DNA-Sequenzproduktion.
Die Vorteile der DNA-Sequenzierung der zweiten Generation werden derzeit durch mehrere Nachteile ausgeglichen. Die bekanntesten davon sind die Leselänge (für alle neuen Plattformen sind die Leselängen derzeit viel kürzer als bei herkömmlichen Sequenzierungen) und die Rohgenauigkeit (im Durchschnitt sind die von den neuen Plattformen generierten Basisaufrufe mindestens zehnmal weniger genau als die durch Sanger-Sequenzierung generierten Basisaufrufe)., Obwohl diese Einschränkungen wichtige algorithmische Herausforderungen für die unmittelbare Zukunft darstellen, sollten wir bedenken, dass sich diese Technologien in Bezug auf diese Parameter weiter verbessern werden, da die konventionelle Sequenzierung über drei Jahrzehnte schrittweise fortschreitete, um das derzeitige technische Leistungsniveau zu erreichen.
454 Pyrosequenzierung. Das 454-System war die erste Sequenzierplattform der nächsten Generation, die als kommerzielles Produkt verfügbar war14. Bei diesem Ansatz können Bibliotheken mit jeder Methode konstruiert werden, die zu einer Mischung aus kurzen, nicht flankierenden Fragmenten führt., Klonale Sequenzierungsmerkmale werden durch Emulsion PCR20 erzeugt, wobei Amplicons an der Oberfläche von 28-µm-Perlen eingefangen werden (Abb. 2a). Nach dem Brechen der Emulsion werden die Perlen mit Denaturierungsmittel behandelt, um ungebundene Stränge zu entfernen, und dann einer hybridisierungsbasierten Anreicherung für amplikontragende Perlen unterzogen (dh solchen, die in einem Emulsionsfach vorhanden waren, das eine produktive PCR-Reaktion unterstützt). Ein Sequenzierprimer wird an der entsprechenden Position und Orientierung, dh unmittelbar neben dem Beginn einer Sequenz, mit dem Universaladapter hybridisiert.,
Die Sequenzierung wird mit der Pyrosequenzierungsmethode durchgeführt25 (Abb. 3a). Kurz gesagt, die Amplicon-tragenden Perlen werden mit Bacillus Stearothermophilus (Bst)-Polymerase und einzelsträngigem Bindungsprotein vorinkubiert und dann auf einem mikrofabrizierten Array von Vertiefungen im Picoliter-Maßstab abgelagert (mit Abmessungen, so dass nur eine Perle pro Vertiefung passt), um diese Biochemie mit Array-basierter Sequenzierung kompatibel zu machen. Es werden auch kleinere Perlen hinzugefügt, die immobilisierte Enzyme tragen, die ebenfalls für die Pyrosequenzierung erforderlich sind (ATP-Sulfurylase und Luciferase)., Während der Sequenzierung fungiert eine Seite des halbgeordneten Arrays als Durchflusszelle zum Einbringen und Entfernen von Sequenzierreagenzien, während die andere Seite an ein faseroptisches Bündel zur CCD-basierten Signalerkennung (Charge-Coupled Device) gebunden ist. Bei jedem von mehreren hundert Zyklen wird eine einzelne Art von nicht markiertem Nukleotid eingeführt. Bei Vorlagen, bei denen dies zu einem Inkorporationsereignis führt, wird Pyrophosphat freigesetzt., Über ATP-Sulfurylase und Luciferase treiben diese Ereignisse sofort die Erzeugung eines Lichtausbruchs an, der vom CCD entsprechend den Array-Koordinaten bestimmter Vertiefungen detektiert wird. Im Gegensatz zu anderen Plattformen muss daher die Sequenzierung durch Synthese live überwacht werden (dh die Kamera bewegt sich nicht relativ zum Array). Über mehrere Zyklen (z.B. A-G-C-T-A-G-C-T…) zeigt das Muster der erfassten Eingliederungsereignisse die Reihenfolge der Vorlagen, die durch einzelne Perlen dargestellt werden., Wie das Heliskop (siehe unten) ist die Sequenzierung „asynchron“, da einige Merkmale abhängig von ihrer Sequenz relativ zur Reihenfolge der Basisaddition vor oder hinter anderen Merkmalen auftreten können.
Eine wesentliche Einschränkung der 454-Technologie bezieht sich auf Homopolymere (dh aufeinanderfolgende Instanzen derselben Basis wie AAA oder GGG). Da es keine abschließende Moiety gibt, die mehrere aufeinanderfolgende Einbauungen bei einem gegebenen Zyklus verhindert, muss die Länge aller Homopolymere aus der Signalintensität abgeleitet werden., Dies ist anfällig für eine größere Fehlerquote als die Diskriminierung von Inkorporation gegenüber Nicht-Inkorporation. Infolgedessen ist der dominierende Fehlertyp für die 454-Plattform das Einfügen-Löschen und nicht das Ersetzen. Im Vergleich zu anderen Plattformen der nächsten Generation ist der Hauptvorteil der 454-Plattform die Leselänge. Zum Beispiel erzeugt das 454 FLX-Instrument ∼400,000 Lesevorgänge pro Instrumentenlauf bei Längen von 200 bis 300 bp. Derzeit sind die Kosten pro Basis für die Sequenzierung mit der 454-Plattform viel höher als die anderer Plattformen (z.,, SOLiD und Solexa), aber es kann die Methode der Wahl für bestimmte Anwendungen sein, bei denen lange Leselängen kritisch sind (z. B. de Novo Assembly und Metagenomics).
Illumina Genome Analyzer. Diese Plattform, die allgemein als „Solexa“ bezeichnet wird,hat ihren Ursprung in der Arbeit von Turcatti und Kollegen 22, 23 und der Fusion von vier Unternehmen—Solexa (Essex, UK), Lynx Therapeutics (Hayward, CA, USA), Manteia Predictive Medicine (Coinsins, Schweiz) und Illumina., Bibliotheken können mit jeder Methode konstruiert werden, die zu einer Mischung von flankierenden Fragmenten mit einer Länge von bis zu mehreren hundert Basenpaaren (bp) führt. Verstärkte Sequenzierungsmerkmale werden durch Bridge PCR21,22 erzeugt (Abb. 2b). Bei diesem Ansatz werden sowohl Vorwärts-als auch Rückwärts-PCR-Primer durch einen flexiblen Linker an ein festes Substrat gebunden, so dass alle Amplicons, die während der Amplifikation aus einem einzelnen Template-Molekül entstehen, immobilisiert und an einer einzigen physikalischen Stelle auf einem Array gruppiert bleiben., Auf der Illumina-Plattform ist die Bridge PCR etwas unkonventionell, wenn es um abwechselnde Verlängerungszyklen mit Bst-Polymerase und Denaturierung mit Formamid geht. Die resultierenden „Cluster“ bestehen jeweils aus ∼1.000 klonalen Amplikonen. Mehrere Millionen Cluster können zu unterscheidbaren Orten innerhalb jeder von acht unabhängigen „Bahnen“, die sich auf einer einzigen Flusszelle befinden, verstärkt werden (so dass acht unabhängige Bibliotheken während desselben Instrumentenlaufs parallel sequenziert werden können)., Nach der Clustergenerierung sind die Amplicons einzelsträngig (Linearisierung) und ein Sequenzierprimer wird zu einer universellen Sequenz hybridisiert, die den interessierenden Bereich flankiert. Jeder Zyklus der Sequenzabfrage besteht aus einer Einzelbasisenverlängerung mit einer modifizierten DNA-Polymerase und einer Mischung aus vier Nukleotiden (Abb. 3b). Diese Nukleotide werden auf zwei Arten modifiziert., Sie sind „reversible Terminatoren“, insofern, als ein chemisch spaltbares Moiety an der 3′ Hydroxylposition in jedem Zyklus nur einen einbasigen Einbau zulässt; und eine von vier fluoreszierenden Etiketten, ebenfalls chemisch spaltbar, entspricht der Identität jedes Nukleotids23. Nach Single-Base-Erweiterung und Aufnahme von Bildern in vier Kanälen wird die chemische Spaltung beider Gruppen für den nächsten Zyklus eingerichtet. Leselängen bis zu 36 bp sind derzeit Routine; Längere Lesevorgänge sind möglich, können jedoch zu einer höheren Fehlerrate führen.,
Die Leselängen sind durch mehrere Faktoren begrenzt, die den Signalabfall und die Dephasierung verursachen, wie z. B. unvollständige Spaltung fluoreszierender Etiketten oder das Beenden von Moities. Der dominierende Fehlertyp ist die Substitution anstelle von Einfügungen oder Löschungen (und Homopolymere sind sicherlich weniger ein Problem als bei anderen Plattformen wie 454). Durchschnittliche Rohfehlerraten liegen in der Größenordnung von 1-1, 5%, aber Basen mit höherer Genauigkeit mit Fehlerraten von 0,1% oder weniger können durch Qualitätsmetriken identifiziert werden, die jedem Basisaufruf zugeordnet sind., Wie bei anderen Systemen haben Modifikationen kürzlich mate-gepaarte Lesevorgänge ermöglicht; Zum Beispiel ergibt jedes Sequenzierungsmerkmal 2 × 36 bp unabhängige Lesevorgänge, die von jedem Ende einer gegebenen Bibliothek mit mehreren hundert Basen Länge abgeleitet werden.
Solide AB. Diese Plattform hat ihren Ursprung in dem von J. S. und colleagues13 im Jahr 2005 beschriebenen System und in der Arbeit von McKernan und colleagues26 bei Agencourt Personal Genomics (Beverly, MA, USA) (erworben von Applied Biosystems (Foster City, CA, USA) im Jahr 2006)., Bibliotheken können mit jeder Methode konstruiert werden, die zu einer Mischung aus kurzen, adapterflankierenden Fragmenten führt,obwohl mit diesem System viel Aufwand in Protokolle für mate-gepaarte Tag-Bibliotheken mit steuerbaren und hochflexiblen Abstandsverteilungen gesteckt wurde13, 19. Klonale Sequenzierungsmerkmale werden durch Emulsions-PCR erzeugt, wobei Amplikons an der Oberfläche von 1-µM-paramagnetischen Beads20 erfasst werden (Abb. 2a). Nach dem Brechen der Emulsion werden Perlen, die Amplifikationsprodukte tragen, selektiv zurückgewonnen und dann zu einem festen planaren Substrat immobilisiert, um ein dichtes, ungeordnetes Array zu erzeugen., Die Sequenzierung durch Synthese wird von einer DNA-Ligase13,24,26,27,28 und nicht von einer Polymerase angetrieben. Ein universeller Primer, der die Sequenz ergänzt, wird mit der Anordnung der Amplicon-tragenden Perlen hybridisiert. Jeder Sequenzierungszyklus beinhaltet die Ligation einer degenerierten Population fluoreszenzmarkierter Octamer (Abb. 3c). Das Octamer-Gemisch ist so strukturiert, dass die Identität bestimmter Positionen innerhalb des Octamers(z. B. Basis 5) mit der Identität des fluoreszierenden Etiketts korreliert., Nach der Ligatur werden Bilder in vier Kanälen erfasst, wodurch effektiv Daten für die gleichen Basispositionen über alle vorlagenführenden Perlen gesammelt werden. Dann wird der Octamer zwischen den Positionen 5 und 6 chemisch gespalten, wobei das fluoreszierende Etikett entfernt wird. Progressive Runden der Octamer-Ligation ermöglichen die Sequenzierung jeder 5. Base (z. B. Basen 5, 10, 15, 20). Nach Abschluss mehrerer solcher Zyklen wird der erweiterte Primer denaturiert, um das System zurückzusetzen. Nachfolgende Iterationen dieses Prozesses können auf einen anderen Satz von Positionen gerichtet sein (z.,, Basen 4, 9, 14, 19) entweder durch Verwendung einer Grundierung, die eine oder mehrere Basen von der Adapter-Insert-Verbindung zurückgesetzt wird, oder durch Verwendung verschiedener Mischungen von Oktameren, bei denen eine andere Position (z. B. Basis 2) mit dem Etikett korreliert. Ein zusätzliches Merkmal dieser Plattform ist die Verwendung einer Zwei-Basen-Codierung, bei der es sich um ein Fehlerkorrekturschema handelt, bei dem zwei benachbarte Basen anstelle einer einzelnen Basis mit dem label26 korreliert sind., Jede Basisposition wird dann zweimal abgefragt (einmal als erste Basis und einmal als zweite Basis in einem Satz von 2 bp, der in einem bestimmten Zyklus abgefragt wird), so dass Miscalls leichter identifiziert werden können.
Ein verwandtes System zum Feststoff ist der Polonator, der zum Teil auch auf dem von J. S. und der Church group13 in Harvard entwickelten System basiert. Diese Plattform verwendet auch Sequenzierungsfunktionen, die durch Emulsions-PCR und Sequenzierung durch Ligation generiert werden. Die Kosten für das Instrument sind jedoch wesentlich niedriger als bei anderen Sequenzierungsinstrumenten der zweiten Generation., Darüber hinaus ist das Instrument Open Source und programmierbar und ermöglicht möglicherweise Benutzerinnovationen (z. B. den Einsatz alternativer Biochemien). Die aktuellen Leselängen können jedoch erheblich einschränkend sein.
Ein weiterer Nachteil, der 454, SOLiD und dem Polonator gemeinsam ist, ist, dass Emulsions-PCR umständlich und technisch anspruchsvoll sein kann., Andererseits ist es möglich, dass die Sequenzierung auf einem Array mit hoher Dichte von sehr kleinen (1 µm) Perlen (mit Sequenzierung durch Ligation, Polymeraseverlängerung oder eine andere Biochemie) die einfachste Möglichkeit darstellt, extrem hohe Datendichten zu erreichen, einfach weil sich 1-µm-Perlen in einem Abstand, der in der Größenordnung der Beugungsgrenze liegt, physikalisch gegenseitig ausschließen. Darüber hinaus kann eine hochauflösende Anordnung von 1-µm-Bead-Arrays, wie kürzlich beschrieben29, es ermöglichen, die Grenze von einem Pixel pro Sequenzierungsmerkmal genau anzugehen.
Heliskop., Der Helicos Sequencer18, basierend auf Arbeiten von Quakes group30, stützt sich auch auf die zyklische Abfrage einer dichten Reihe von Sequenzierungsmerkmalen. Ein einzigartiger Aspekt dieser Plattform ist jedoch, dass keine klonale Verstärkung erforderlich ist. Stattdessen wird ein hochempfindliches Fluoreszenzdetektionssystem verwendet, um einzelne DNA-Moleküle direkt über Sequenzierung durch Synthese abzufragen., Template-Bibliotheken, die durch zufällige Fragmentierung und Poly-A-Tailing (dh keine PCR-Amplifikation) hergestellt werden, werden durch Hybridisierung mit oberflächengebundenen Poly-T-Oligomeren erfasst, um ein ungeordnetes Array von grundierten Einzelmolekül-Sequenzierungsvorlagen zu erhalten. Bei jedem Zyklus werden DNA-Polymerase und eine einzelne Spezies fluoreszenzmarkierter Nukleotide zugegeben, was zu einer Template-abhängigen Erweiterung der oberflächenimmobilisierten Primer-Template-Duplexe führt (Abb. dreidimensional)., Nach der Aufnahme von Bildern, die das gesamte Array kacheln, ermöglicht die chemische Spaltung und Freisetzung des fluoreszierenden Etiketts den nachfolgenden Zyklus der Erweiterung und Bildgebung. Wie in einem aktuellen Bericht beschrieben18, mehrere hundert Zyklen der Single-Base-Erweiterung (das heißt, A, G, C, T, A, G, C, T…) ergeben durchschnittliche Leselängen von 25 bp oder mehr. Bemerkenswerte Aspekte dieses Systems sind die folgenden. Erstens ist die Sequenzierung wie bei der 454-Plattform asynchron, da einige Stränge sequenzabhängig vor oder hinter anderen liegen., Der Zufall spielt auch eine Rolle, da einige Vorlagen in einem bestimmten Zyklus einfach nicht integriert werden können, obwohl sie an der nächsten Position die entsprechende Basis haben. Da es sich jedoch um einzelne Moleküle handelt, ist das Dephasing kein Problem, und solche Ereignisse führen an und für sich nicht zu Fehlern.
Zweitens ist auf den markierten Nukleotiden keine abschließende Sättigung vorhanden. Wie beim 454-System sind daher Homopolymerläufe ein wichtiges Thema. Da jedoch einzelne Moleküle sequenziert werden, kann das Problem durch Begrenzung der Rate der Inkorporationsereignisse gemildert werden. Zusätzlich, Harris et al.,18 stellte fest, dass aufeinanderfolgende Einbauungen von markiertem Nukleotid bei Homopolymeren eine abschreckende Wechselwirkung hervorriefen, die es den Autoren ermöglichte, auf die diskrete Anzahl von Einbauungen (z. B. A versus AA versus AAA) zu schließen.
Drittens kann die rohe Sequenziergenauigkeit durch eine Zwei-Pass-Strategie wesentlich verbessert werden, bei der das Array von Einzelmolekülvorlagen (hier mit Adaptern an beiden Enden) wie oben beschrieben sequenziert und dann vollständig kopiert wird. Da der neu synthetisierte Strang oberflächengebunden ist, kann die ursprüngliche Schablone durch Denaturierung entfernt werden., Die vom distalen Adapter grundierte Sequenzierung ergibt dann eine zweite Sequenz für dieselbe Vorlage, die in der entgegengesetzten Ausrichtung erhalten wird. Positionen, die zwischen den beiden Lesevorgängen übereinstimmen, weisen Phred-ähnliche Qualitätswerte auf, die sich 30 nähern (refs. 8,18).
Und schließlich, weitgehend sekundär zum Einbau von kontaminierenden, unmarkierten oder nicht emittierenden Basen, ist der dominierende Fehlertyp das Löschen (2-7% Fehlerrate mit einem Durchgang; 0.2–1% mit zwei Durchgängen). Substitutionsfehlerraten sind jedoch wesentlich niedriger (0,01–1% mit einem Durchgang)., Mit zwei Durchläufen kann die Pro-Basis-Rohsubstitutionsfehlerrate (Annäherung an 0.001%) derzeit die niedrigste aller Plattformen der zweiten Generation sein.