Rysunek 2: clonal amplification of sequencing features.,
(a) 454, polonator i solidne platformy opierają się na emulsji PCR20, aby wzmocnić funkcje sekwencjonowania klonów. W skrócie, zbudowana in vitro biblioteka strzelby z adapterem (pokazana jako złote i turkusowe Adaptery flankujące unikalne wkładki) jest wzmacniana PCR (to znaczy multi-template PCR, a nie multipleks PCR, ponieważ używana jest tylko jedna para podkładów, odpowiadająca złotym i turkusowym adapatorom) w kontekście emulsji woda w oleju., Jeden z podkładów PCR jest przymocowany do powierzchni (5 ' -dołączonych) kulek w skali mikronowej, które również są zawarte w reakcji. Niskie stężenie szablonu powoduje, że większość przedziałów zawierających koraliki ma zero lub jedną cząsteczkę szablonu. W wydajnych komorach emulsji (gdzie zarówno koralik i cząsteczka szablonu jest obecny), AMPLIKONY PCR są przechwytywane do powierzchni koralika. Po rozbiciu emulsji, koraliki z produktami wzmacniającymi mogą być selektywnie wzbogacane., Każdy klonalnie amplifikowany koralik będzie nosił na swojej powierzchni produkty PCR odpowiadające amplifikacji pojedynczej cząsteczki z biblioteki szablonów. (b) technologia Solexa opiera się na mostku PCR21, 22 (aka „klaster PCR”) w celu wzmocnienia funkcji sekwencjonowania klonów. W skrócie, wbudowana w in vitro biblioteka flankowana adapterem jest wzmacniana PCR, ale oba podkłady gęsto pokrywają powierzchnię stałego podłoża, przymocowanego na końcach 5′ elastycznym łącznikiem., W związku z tym produkty wzmocnienia pochodzące od dowolnego członka biblioteki szablonów pozostają lokalnie uwięzione w pobliżu miejsca pochodzenia. Na zakończenie PCR, każdy klaster klonów zawiera ∼1,000 kopii pojedynczego członka biblioteki szablonów. Dokładny pomiar stężenia biblioteki szablonów ma kluczowe znaczenie dla zmaksymalizowania gęstości klastra, jednocześnie unikając przeludnienia.
Rysunek 3: strategie sekwencjonowania tablicy cyklicznej.,
(a) z platformą 454, klonalnie wzmocnione 28-µm kulki generowane przez emulsję PCR służą jako funkcje sekwencjonowania i są losowo osadzane do mikrofabrykowanej tablicy odwiertów w skali pikoliterowej. W przypadku pirosekwencji każdy cykl polega na wprowadzeniu jednego gatunku nukleotydu, a następnie dodaniu substratu (lucyferyny, 5 ' – fosfosiarczanu adenozyny) do napędzania produkcji światła w studniach, w których doszło do inkorporacji tego nukleotydu przez polimerazę., Następnie następuje przemywanie apirazy w celu usunięcia nieinkorporowanego nukleotydu. Obraz z Margulies et al. (2005)14. (b) z solexa technologia, gęsty szereg clonally amplified sekwencjonowanie cechy jest generowany bezpośrednio na powierzchni przez most PCR (aka klastra PCR). Każdy cykl sekwencjonowania obejmuje jednoczesne dodanie mieszaniny czterech zmodyfikowanych gatunków deoksynukleotydów, z których każdy nosi jedną z czterech etykiet fluorescencyjnych i odwracalnie kończącą się cząstką w pozycji hydroksylowej 3′. Zmodyfikowana polimeraza DNA napędza synchroniczne rozszerzenie pierwotnych funkcji sekwencjonowania., Po tym następuje obrazowanie w czterech kanałach, a następnie rozszczepienie zarówno etykiet fluorescencyjnych, jak i kończącej się części. (c) w przypadku platform litych i Polonator, klonalnie wzmocnione kulki 1-µm są używane do generowania nieuporządkowanego, gęstego zestawu sekwencjonowych13. Sekwencjonowanie przeprowadza się za pomocą ligazy, a nie polimerazy13,24,26, 27, 28. W przypadku ciała stałego każdy cykl sekwencjonowania wprowadza częściowo zdegenerowaną populację fluorescencyjnie oznakowanych oktamerów., Populacja jest tak skonstruowana, że etykieta koreluje z tożsamością centralnego 2 bp w oktamerze (korelacja z 2 bp, a nie 1 bp, jest podstawą kodowania dwu-bazowego)26. Po ligacji i obrazowaniu w czterech kanałach, oznaczona część oktameru (czyli 'zzz') jest rozcinana poprzez zmodyfikowane połączenie między podstawami 5 i 6, pozostawiając wolny koniec dla kolejnego cyklu ligacji. Kilka takich cykli będzie iteracyjnie przesłuchiwać równomiernie rozmieszczone, niezadowolony zestaw baz., System jest następnie resetowany (przez denaturację rozszerzonego podkładu), a proces powtarza się z innym przesunięciem (np. Grunt Cofnięty od pierwotnego położenia o jedną lub kilka baz), tak że podczas następnej rundy ligacji szeregowych przesłuchuje się inny zestaw niezgodnych baz. (d) dzięki platformie Heliskopowej pojedyncze cząsteczki kwasu nukleinowego są sekwencjonowane bezpośrednio, to znaczy nie jest wymagany etap wzmocnienia klonalnego., Poli-a-tailed template molekuły są przechwytywani przez hybrydyzację do powierzchni tethered poly-T oligomery dawać nieuporządkowany array zagruntować jednocząsteczkowy sekwencjonowanie szablony. Szablony są oznaczone Cy3, tak, że obrazowanie może zidentyfikować podzbiór współrzędnych tablicy, gdzie oczekuje się odczytu sekwencyjnego. Każdy cykl składa się z polymerase-napędzane włączenie pojedynczego gatunku fluorescencyjnie znakowanego nukleotydu w podzbiorze szablonów, a następnie fluorescencji obrazowania pełnej tablicy i chemicznego rozszczepienia etykiety. Obraz z Braslavsky et al. (2003)30.,
Global advantages of second-generation or cyclic-array strategies, related to Sanger sequencing, include the following: (i) in vitro construction of a sequencing library, followed by in vitro clonal amplification to generate sequencing features, omija kilka wąskich gardeł, które ograniczają równoległość konwencjonalnego sekwencjonowania (to jest transformacja E. coli i Colony picking). (ii) uporządkowanie oparte na tablicy umożliwia znacznie wyższy stopień równoległości niż konwencjonalne sekwencjonowanie oparte na kapilarach., Jako efektywny rozmiar sekwencjonowanie cechy mogą być na porządku 1 µm, setki miliony sekwencjonowanie czyta mogą potencjalnie otrzymać równolegle rastered obrazowania rozsądnie wielkości powierzchni. (iii) ponieważ cechy układu są unieruchomione na płaskiej powierzchni, mogą być enzymatycznie manipulowane przez pojedynczą objętość reagentu. Chociaż objętości odczynników w skali mikrolitrów są stosowane w praktyce, są one zasadniczo amortyzowane przez pełny zestaw funkcji sekwencjonowania na tablicy, upuszczając efektywną objętość odczynnika na funkcję do skali pikoliterów lub femtolitów., Łącznie różnice te przekładają się na znacznie niższe koszty produkcji sekwencji DNA.
zalety sekwencjonowania DNA drugiej generacji są obecnie kompensowane przez kilka wad. Najbardziej znane z nich to długość odczytu (dla wszystkich nowych platform, długości odczytu są obecnie znacznie krótsze niż konwencjonalne sekwencjonowanie) i surowa dokładność (średnio, połączenia bazowe generowane przez nowe platformy są co najmniej dziesięć razy mniej dokładne niż połączenia bazowe generowane przez sekwencjonowanie Sangera)., Chociaż ograniczenia te stwarzają ważne wyzwania algorytmiczne w najbliższej przyszłości, powinniśmy pamiętać, że technologie te będą nadal ulepszać w odniesieniu do tych parametrów, podobnie jak konwencjonalne sekwencjonowanie postępowało stopniowo w ciągu trzech dekad, aby osiągnąć obecny poziom wydajności technicznej.
454 pyrosequencing. System 454 był pierwszą platformą sekwencjonowania nowej generacji dostępną jako produkt komercyjny14. W tym podejściu biblioteki mogą być konstruowane dowolną metodą, która daje początek mieszaninie krótkich, otoczonych Adaptorami fragmentów., Cechy sekwencjonowania klonalnego są generowane przez emulsję PCR20, z amplikonami uchwyconymi na powierzchni kulek 28 µm (rys. 2A). Po rozbiciu emulsji perełki są poddawane obróbce denaturantem w celu usunięcia nieutwardzonych pasm, a następnie poddawane hybrydyzacji opartej na wzbogacaniu dla paciorków nośnych amplikonu (czyli tych, które były obecne w komorze emulsji wspierającej produktywną reakcję PCR). Podkład sekwencyjny jest hybrydyzowany z uniwersalnym adapterem w odpowiedniej pozycji i orientacji, czyli bezpośrednio przylegającym do początku nieznanej sekwencji.,
sekwencjonowanie wykonuje się metodą pyrosekwencji25 (rys. 3a). W skrócie, amplikon łożyska kulki są preincubated z Bacillus stearothermophilus (Bst) polimerazy i jednoniciowego białka wiążącego, a następnie osadzone na mikrofabrycznej tablicy pikoliter skali studni (o wymiarach takich, że tylko jeden koralik zmieści się na dobrze) do renderowania tej biochemii kompatybilny z tablicy oparte sekwencjonowania. Dodaje się również mniejsze kulki, zawierające unieruchomione enzymy również potrzebne do pirosekwencji (ATP sulfurylase i luciferase)., Podczas sekwencjonowania, jedna strona pół uporządkowanej tablicy działa jako komórka przepływowa do wprowadzania i usuwania odczynników sekwencjonowania, podczas gdy druga strona jest związana z wiązką światłowodową do CCD (charge-coupled device) – based signal detection. W każdym z kilkuset cykli wprowadza się pojedynczy gatunek nieoznakowanego nukleotydu. Na szablonach, w których prowadzi to do zdarzenia inkorporacji, uwalniany jest Pirofosforan., Za pośrednictwem ATP sulfurylazy i lucyferazy, zdarzenia inkorporacyjne natychmiast napędzają generowanie rozbłysku światła, które jest wykrywane przez CCD jako odpowiadające współrzędnym tablicy określonych studni. W przeciwieństwie do innych platform, dlatego sekwencjonowanie przez syntezę musi być monitorowane ” na żywo (to znaczy, kamera nie porusza się w stosunku do tablicy). W wielu cyklach (np. A-G-C-T-A-G-C-T…), wzór wykrytych zdarzeń inkorporacyjnych ujawnia sekwencję szablonów reprezentowanych przez poszczególne koraliki., Podobnie jak Heliskop (omówiony poniżej), sekwencjonowanie jest 'asynchroniczne', ponieważ niektóre funkcje mogą wyprzedzać lub wyprzedzać inne funkcje w zależności od ich sekwencji w stosunku do kolejności dodawania bazy.
główne ograniczenie technologii 454 odnosi się do homopolimerów (czyli kolejnych instancji tej samej bazy, takich jak AAA lub GGG). Ponieważ nie ma cząsteczek kończących uniemożliwiających wielokrotne kolejne inkorporacje w danym cyklu, Długość wszystkich homopolimerów należy wywnioskować z natężenia sygnału., Jest to podatne na większy poziom błędu niż dyskryminacja inkorporacji w stosunku do nieinkorporowania. W konsekwencji dominującym typem błędu dla platformy 454 jest wstawianie-usuwanie, a nie zastępowanie. W porównaniu z innymi platformami nowej generacji, kluczową zaletą platformy 454 jest długość odczytu. Na przykład przyrząd 454 FLX generuje ∼400 000 odczytów na instrument-Uruchom przy długościach od 200 do 300 bp. Obecnie koszt bazowy sekwencjonowania z platformą 454 jest znacznie większy niż w przypadku innych platform (np.,, SOLiD i Solexa), ale może to być metoda wyboru dla niektórych zastosowań, w których Duże długości odczytu są krytyczne (np. montaż de novo i metagenomika).
Analizator genomu Illumina. Platforma ta, powszechnie określana jako „Solexa”, ma swoje początki w pracy Turcatti i kolegi22, 23 i fuzji czterech firm—Solexa (Essex, Wielka Brytania), Lynx Therapeutics (Hayward, CA, USA), Manteia Predictive Medicine (Coinsins, Szwajcaria) i Illumina., Biblioteki mogą być konstruowane dowolną metodą, która powoduje powstanie mieszaniny fragmentów o długości do kilkuset par bazowych (bp). Amplifikowane funkcje sekwencjonowania są generowane przez most PCR21 ,22 (rys. 2b). W tym podejściu, zarówno forward jak i reverse PCR primers są przywiązane do stałego podłoża przez elastyczny łącznik, tak że wszystkie amplikony pochodzące z dowolnej pojedynczej cząsteczki szablonu podczas amplifikacji pozostają unieruchomione i zgrupowane w jednej fizycznej lokalizacji na tablicy., Na platformie Illumina most PCR jest nieco niekonwencjonalny, polegając na naprzemiennych cyklach przedłużania z polimerazą Bst i denaturacji z formamidem. Powstałe „klastry” składają się z ∼1000 amplikonów klonalnych. Kilka milionów klastrów może być wzmocnionych do rozpoznawalnych lokalizacji w obrębie każdego z ośmiu niezależnych „pasów”, które znajdują się na jednej komórce przepływowej (tak, że osiem niezależnych bibliotek może być zsekwencjonowanych równolegle podczas tego samego biegu instrumentu)., Po wygenerowaniu klastra amplikony są jednotarczowe (linearyzacja), a podkład sekwencyjny jest hybrydyzowany z uniwersalną sekwencją flankującą region zainteresowania. Każdy cykl sekwencji składa się z pojedynczego rozszerzenia o zmodyfikowaną polimerazę DNA i mieszaninę czterech nukleotydów (rys. 3b). Nukleotydy te są modyfikowane na dwa sposoby., Są one „odwracalnymi terminatorami”, ponieważ chemicznie rozszczepialna cząsteczka w pozycji hydroksylowej 3′ umożliwia tylko włączenie jednej zasady w każdym cyklu; a jedna z czterech fluorescencyjnych etykiet, również chemicznie rozszczepialnych, odpowiada tożsamości każdego nukleotydu23. Po rozbudowie pojedynczej bazy i pozyskaniu obrazów w czterech kanałach, chemiczne rozszczepienie obu grup ustawia się do następnego cyklu. Długości odczytu do 36 bp są obecnie rutynowe; dłuższe odczyty są możliwe, ale mogą wiązać się z wyższym poziomem błędu.,
długości odczytu są ograniczone przez wiele czynników, które powodują zanik sygnału i dephasing, takich jak niekompletne rozszczepienie etykiet fluorescencyjnych lub kończących się cząsteczek. Dominującym typem błędu jest substytucja, a nie wstawianie lub usuwanie (a homopolimery są z pewnością mniej problemem niż w przypadku innych platform, takich jak 454). Średnie surowe wskaźniki błędów są rzędu 1-1, 5%, ale wyższe bazy dokładności ze wskaźnikami błędów wynoszącymi 0,1% lub mniej można zidentyfikować za pomocą wskaźników jakości związanych z każdym wywołaniem bazowym., Podobnie jak w przypadku innych systemów, modyfikacje umożliwiły ostatnio odczyty w parach mate; na przykład każda funkcja sekwencjonowania daje 2 × 36 bp niezależnych odczytów pochodzących z każdego końca danej cząsteczki biblioteki kilkaset zasad o długości.
AB SOLiD. Platforma ta ma swoje początki w systemie opisanym przez J. S. i współpracowników13 w 2005 r. oraz w pracy Mckernana i współpracowników26 w Agencourt Personal Genomics (Beverly, MA, USA) (nabytym przez Applied Biosystems (Foster City, CA, USA) w 2006 r.)., Biblioteki mogą być konstruowane za pomocą dowolnej metody, która daje początek mieszance krótkich fragmentów otoczonych adapterem, chociaż wiele wysiłku w ten system włożyliśmy w protokoły dla sparowanych przez mate bibliotek znaczników z kontrolowanymi i bardzo elastycznymi rozkładami odległości13, 19. Cechy sekwencjonowania klonalnego są generowane przez emulsję PCR, z amplikonami wychwytywanymi do powierzchni paciorków paramagnetycznych 1-µM 20 (rys. 2A). Po rozbiciu emulsji, kulki z produktami wzmacniającymi są selektywnie odzyskiwane,a następnie unieruchamiane do stałego płaskiego podłoża, aby wygenerować gęsty, nieuporządkowany układ., Sekwencjonowanie przez syntezę jest napędzane przez ligazę DNA 13,24,26,27,28, a nie polimerazę. Uniwersalny podkład uzupełniający sekwencję adaptera jest hybrydyzowany z szeregiem kulek nośnych amplikonu. Każdy cykl sekwencjonowania obejmuje ligację zdegenerowanej populacji fluorescencyjnie oznakowanych oktamerów (rys. 3c). Mieszanina oktamerów jest skonstruowana w ten sposób, że tożsamość określonych pozycji w oktamerze (np. baza 5) koreluje z tożsamością etykiety fluorescencyjnej., Po podwiązaniu obrazy są pozyskiwane w czterech kanałach, skutecznie zbierając dane dla tych samych pozycji bazowych we wszystkich koralikach łożyskowanych szablonem. Następnie oktamer jest chemicznie rozcinany między pozycjami 5 i 6, usuwając Etykietę fluorescencyjną. Progresywne rundy ligacji oktamerów umożliwiają sekwencjonowanie każdej piątej bazy (np. bazy 5, 10, 15, 20). Po wykonaniu kilku takich cykli Rozszerzony podkład jest denaturowany w celu zresetowania systemu. Kolejne iteracje tego procesu mogą być skierowane na inny zestaw pozycji (np.,, podstawy 4, 9, 14, 19) albo przez zastosowanie podkładu, który jest ustawiony z powrotem jedną lub więcej podstaw ze złącza Adapter-insert, albo przez zastosowanie różnych mieszanek oktamerów, w których inna pozycja (np. baza 2) jest skorelowana z etykietą. Dodatkową cechą tej platformy jest użycie kodowania dwu-bazowego, które jest schematem korekcji błędów, w którym dwie sąsiednie bazy, a nie jedna baza, są skorelowane z label26., Każda pozycja bazowa jest następnie dwukrotnie sprawdzana (raz jako pierwsza baza, a raz jako druga baza, w zbiorze 2 bp przesłuchiwanym w danym cyklu), tak aby łatwiej było zidentyfikować błędne dane.
pokrewnym systemem do bryły jest Polonator, również oparty częściowo na systemie opracowanym przez J. S. i Church group13 na Harvardzie. Platforma ta wykorzystuje również funkcje sekwencjonowania generowane przez PCR emulsji i sekwencjonowania przez ligacji. Koszt instrumentu jest jednak znacznie niższy niż koszt innych instrumentów sekwencyjnych drugiej generacji., Ponadto instrument jest open source i programowalny, co potencjalnie umożliwia Innowacje użytkowników (np. wykorzystanie alternatywnych biochemii). Obecne długości odczytu mogą jednak znacznie ograniczać.
dodatkową wadą, wspólną dla 454, SOLiD i Polonatora, jest to, że emulsja PCR może być uciążliwa i technicznie trudna., Z drugiej strony jest możliwe, że sekwencjonowanie na tablicy o wysokiej gęstości bardzo małych (1 µm) kulek (z sekwencjonowaniem przez ligację, rozszerzenie polimerazy lub inną biochemię) może stanowić najprostszą okazję do osiągnięcia bardzo wysokiej gęstości danych, po prostu dlatego, że kulki 1-µm fizycznie wykluczają się nawzajem w odstępie, który jest na porządku granicy dyfrakcji. Ponadto, uporządkowanie matryc o wysokiej rozdzielczości 1 µm, jak ostatnio opisane29, może umożliwić ścisłe zbliżenie się do limitu jednego piksela na funkcję sekwencjonowania.
Heliskop., Sekwencer Helicos18, oparty na pracy grupy Quake ' A30, opiera się również na cyklicznym przesłuchaniu gęstej tablicy funkcji sekwencjonowania. Jednak unikalnym aspektem tej platformy jest to, że nie jest wymagane wzmocnienie klonalne. Zamiast tego, wysoce czuły fluorescencyjny system detekcji używa bezpośrednio przesłuchiwać pojedyncze cząsteczki DNA poprzez sekwencjonowanie przez syntezę., Biblioteki szablonów, przygotowane przez przypadkową fragmentację i śledzenie poly-a (to znaczy, bez amplifikacji PCR), są przechwytywane przez hybrydyzację do powierzchniowo uwięzionych oligomerów poly-T, aby uzyskać nieuporządkowany zestaw zagruntowanych jednocząsteczkowych szablonów sekwencjonujących. W każdym cyklu dodaje się polimerazę DNA i pojedynczy gatunek fluorescencyjnie znakowanego nukleotydu, co powoduje zależne od szablonu rozszerzenie dupleksów unieruchomionych powierzchniowo podkład-szablon (rys. 3d)., Po pozyskaniu obrazów w pełnej tablicy, chemiczne rozszczepienie i uwolnienie etykiety fluorescencyjnej pozwala na kolejny cykl rozszerzenia i obrazowania. Jak opisano w niedawnym sprawozdaniu18, kilkaset cykli rozszerzenia o jedną bazę (tj. A, G, C, T, A, G, C, T…) średnia długość odczytu wynosi 25 bp lub więcej. Do najważniejszych aspektów tego systemu należą: Po pierwsze, podobnie jak Platforma 454, sekwencjonowanie jest asynchroniczne, ponieważ niektóre pasma spadną przed lub za innymi w sposób zależny od sekwencji., Szansa również odgrywa rolę, ponieważ niektóre szablony mogą po prostu nie włączyć do danego cyklu, pomimo posiadania odpowiedniej bazy na następnej pozycji. Jednakże, ponieważ są to pojedyncze cząsteczki, dephasing nie jest problemem, a takie zdarzenia same w sobie nie prowadzą do błędów.
Po Drugie, na oznaczonych nukleotydach nie występuje cząsteczka kończąca. Podobnie jak w przypadku systemu 454, więc biegi homopolimerowe są ważną kwestią. Jednakże, ponieważ pojedyncze cząsteczki są sekwencjonowane, problem można złagodzić poprzez ograniczenie szybkości zdarzeń inkorporacji. Dodatkowo, Harris et al.,18 zauważył, że kolejne incorporacje oznaczonego nukleotydu w homopolimerach wytwarzały reakcję gaszenia, która umożliwiła autorom wywnioskowanie dyskretnej liczby incorporacji(np. A versus AA versus AAA).
Po Trzecie, surowa dokładność sekwencjonowania może być znacznie poprawiona przez dwustopniową strategię, w której tablica szablonów jednocząsteczkowych (tutaj z Adaptorami na obu końcach) jest sekwencjonowana jak opisano powyżej, a następnie w pełni skopiowana. Ponieważ nowo zsyntetyzowana nić jest na uwięzi, oryginalny szablon może zostać usunięty przez denaturowanie., Sekwencjonowanie zagruntowane z adaptera dystalnego daje następnie drugą sekwencję dla tego samego szablonu, uzyskaną w odwrotnej orientacji. Pozycje, które są zgodne między dwoma czytaniami, mają podobne wyniki jakości phred Zbliżające się do 30 (ref. 8,18).
i wreszcie, w dużej mierze wtórny do włączenia zanieczyszczających, nieoznakowanych lub nieemitujących baz, dominującym typem błędu jest usuwanie (2-7% błędu przy jednym przejściu; 0,2-1% przy dwóch przejściach). Jednak wskaźniki błędu substytucyjnego są znacznie niższe(0,01-1% przy jednym przebiegu)., Przy dwóch przejazdach wskaźnik błędu substytucji surowej (zbliżający się do 0,001%) może być obecnie najniższy ze wszystkich platform drugiej generacji.