Figura 3: Strategie per il sequenziamento di array ciclici.,
(a) Con la piattaforma 454, le perle da 28 µm amplificate clonalmente generate dalla PCR a emulsione fungono da funzioni di sequenziamento e vengono depositate casualmente in una matrice microfabbricata di pozzetti in scala picolitrica. Con pyrosequencing, ogni ciclo consiste dell’introduzione di una singola specie del nucleotide, seguita dall’aggiunta del substrato (luciferina, adenosina 5′-phosphosulphate) per guidare la produzione leggera ai pozzi in cui l’incorporazione polimerasi-guidata di quel nucleotide ha avvenuto., Questo è seguito da un lavaggio apirasi per rimuovere nucleotide non incorporato. Immagine da Margulies et al. (2005)14. (b) Con la tecnologia Solexa, una serie densa di funzioni di sequenziamento amplificate clonalmente viene generata direttamente su una superficie mediante PCR bridge (aka cluster PCR). Ogni ciclo di sequenziamento include l’aggiunta simultanea di una miscela di quattro specie di desossinucleotidi modificati, ciascuna recante una delle quattro etichette fluorescenti e una porzione reversibilmente terminante nella posizione 3′ idrossile. Una DNA polimerasi modificata spinge estensione sincrona delle caratteristiche di sequenziamento innescato., Questo è seguito da imaging in quattro canali e quindi scissione di entrambe le etichette fluorescenti e la porzione di terminazione. c) Con le piattaforme Solido e Polonatore, si utilizzano perline da 1 µm amplificate clonalmente per generare una serie disordinata e densa di funzioni di sequenza13. Il sequenziamento viene eseguito con una ligasi, piuttosto che una polimerase13,24,26,27,28. Con solido, ogni ciclo di sequenziamento introduce una popolazione parzialmente degenerata di ottameri fluorescenti etichettati., La popolazione è strutturata in modo tale che l’etichetta correla con l’identità del 2 bp centrale nell’ottamero (la correlazione con 2 bp, piuttosto che 1 bp, è la base della codifica a due basi)26. Dopo la legatura e l’imaging in quattro canali, la porzione etichettata dell’ottamero (cioè “zz”) viene scissa tramite un legame modificato tra le basi 5 e 6, lasciando un’estremità libera per un altro ciclo di legatura. Molti di questi cicli interrogheranno iterativamente un insieme di basi uniformemente distanziate e discontigue., Il sistema viene quindi resettato (mediante denaturazione del primer esteso) e il processo viene ripetuto con un diverso offset (ad esempio, un primer arretrato dalla posizione originale di una o più basi) in modo tale che un diverso insieme di basi discontigue venga interrogato sul successivo ciclo di legature seriali. (d) Con la piattaforma dell’eliscopio, le singole molecole dell’acido nucleico sono ordinate direttamente, cioè non c’è punto clonale di amplificazione richiesto., Le molecole del modello Poli-A-coda sono catturate dall’ibridazione agli oligomeri poli-T superficie-tethered per produrre una matrice disordinata dei modelli innescati di sequenziamento della singola molecola. I modelli sono etichettati con Cy3, in modo tale che l’imaging possa identificare il sottoinsieme di coordinate dell’array in cui è prevista una lettura di sequenziamento. Ogni ciclo consiste nell’incorporazione guidata dalla polimerasi di una singola specie di nucleotide etichettato fluorescentemente in un sottoinsieme di modelli, seguita dall’imaging a fluorescenza dell’array completo e dalla scissione chimica dell’etichetta. Immagine da Braslavsky et al. (2003)30.,
vantaggi Globali di seconda generazione o ciclico-matrice di strategie, relativi al sequenziamento di Sanger, sono i seguenti: (i) in vitro costruzione di un sequenziamento biblioteca, seguita da clonale in vitro di amplificazione per generare il sequenziamento caratteristiche, elude diversi colli di bottiglia che limitano il parallelismo dei convenzionali sequenziamento (che è, la trasformazione di E. coli e di raccolta colonia). (ii) Il sequenziamento basato su array consente un grado di parallelismo molto più elevato rispetto al sequenziamento convenzionale basato su capillari., Poiché la dimensione effettiva delle funzioni di sequenziamento può essere dell’ordine di 1 µm, centinaia di milioni di letture di sequenziamento possono potenzialmente essere ottenute in parallelo mediante imaging rasterizzato di un’area di superficie di dimensioni ragionevoli. (iii) Poiché le caratteristiche di matrice sono immobilizzate ad una superficie planare, possono essere manipolate enzimaticamente da un singolo volume del reagente. Sebbene i volumi di reagenti in scala di microlitri siano utilizzati nella pratica, questi sono essenzialmente ammortizzati sull’intero set di funzioni di sequenziamento sull’array, lasciando cadere il volume di reagente effettivo per caratteristica sulla scala di picolitri o femtolitri., Collettivamente, queste differenze si traducono in costi notevolmente inferiori per la produzione di sequenze di DNA.
I vantaggi del sequenziamento del DNA di seconda generazione sono attualmente compensati da diversi svantaggi. I più importanti di questi includono read-length (per tutte le nuove piattaforme, read-length sono attualmente molto più brevi del sequenziamento convenzionale) e raw accuracy (in media, le chiamate di base generate dalle nuove piattaforme sono almeno dieci volte meno accurate delle chiamate di base generate dal sequenziamento Sanger)., Sebbene queste limitazioni creino importanti sfide algoritmiche per l’immediato futuro, dovremmo tenere presente che queste tecnologie continueranno a migliorare rispetto a questi parametri, tanto quanto il sequenziamento convenzionale è progredito gradualmente nell’arco di tre decenni per raggiungere il suo attuale livello di prestazioni tecniche.
454 pyrosequencing. Il sistema 454 è stata la prima piattaforma di sequenziamento di nuova generazione disponibile come prodotto commerciale14. In questo approccio, le librerie possono essere costruite con qualsiasi metodo che dia origine a una miscela di frammenti brevi e affiancati dall’adattatore., Le caratteristiche di sequenziamento clonale sono generate dall’emulsione PCR20, con ampliconi catturati sulla superficie di perline da 28 µm (Fig. 2 bis). Dopo aver rotto l’emulsione, le perline vengono trattate con denaturante per rimuovere i fili non legati e quindi sottoposte ad un arricchimento basato sull’ibridazione per le perline amplicon-bearing (cioè quelle che erano presenti in un compartimento di emulsione che supporta una reazione PCR produttiva). Un primer di sequenziamento viene ibridato all’adattatore universale nella posizione e nell’orientamento appropriati, cioè immediatamente adiacente all’inizio della sequenza sconosciuta.,
Il sequenziamento viene eseguito con il metodo di pirosequenza25 (Fig. 3 bis). In breve, i beads amplicon-bearing sono preincubati con Bacillus stearothermophilus (Bst) polimerasi e single-stranded binding protein, e quindi depositati su una matrice microfabbricata di pozzi in scala picoliter (con dimensioni tali che solo un bead si adatta per pozzetto) per rendere questa biochimica compatibile con il sequenziamento basato su array. Vengono aggiunte anche perle più piccole, con enzimi immobilizzati necessari anche per la pirosequenziamento (ATP sulfurilasi e luciferasi)., Durante il sequenziamento, un lato dell’array semi-ordinato funziona come una cella di flusso per l’introduzione e la rimozione dei reagenti di sequenziamento, mentre l’altro lato è legato a un fascio di fibre ottiche per il rilevamento del segnale basato su CCD (charge-coupled device). A ciascuno di diverse centinaia di cicli, viene introdotta una singola specie di nucleotide non etichettato. Nei modelli in cui ciò si traduce in un evento di incorporazione, il pirofosfato viene rilasciato., Tramite ATP sulfurilasi e luciferasi, gli eventi di incorporazione guidano immediatamente la generazione di una raffica di luce, che viene rilevata dal CCD come corrispondente alle coordinate dell’array di pozzi specifici. A differenza di altre piattaforme, quindi, il sequenziamento per sintesi deve essere monitorato ‘ live (cioè, la fotocamera non si muove rispetto alla matrice). In più cicli (ad esempio, A-G-C-T-A-G-C-T…), il modello di eventi di incorporazione rilevati rivela la sequenza di modelli rappresentati da singole perle., Come l’ElisCopio (discusso di seguito), il sequenziamento è ‘asincrono’ in quanto alcune caratteristiche possono andare avanti o dietro altre caratteristiche a seconda della loro sequenza relativa all’ordine di aggiunta di base.
Una limitazione importante della tecnologia 454 riguarda gli omopolimeri (cioè le istanze consecutive della stessa base, come AAA o GGG). Poiché non esiste una porzione di terminazione che impedisca più incorporazioni consecutive in un dato ciclo, la lunghezza di tutti gli omopolimeri deve essere dedotta dall’intensità del segnale., Ciò è soggetto a un tasso di errore maggiore rispetto alla discriminazione dell’incorporazione rispetto alla non incorporazione. Di conseguenza, il tipo di errore dominante per la piattaforma 454 è l’inserimento-eliminazione, piuttosto che la sostituzione. Rispetto ad altre piattaforme di nuova generazione, il vantaggio chiave della piattaforma 454 è la lunghezza di lettura. Ad esempio, lo strumento 454 FLX genera reads 400.000 letture per strumento-eseguito a lunghezze da 200 a 300 bp. Attualmente, il costo per base del sequenziamento con la piattaforma 454 è molto maggiore di quello di altre piattaforme (ad es.,, solido e Solexa) ma può essere il metodo di scelta per determinate applicazioni in cui le lunghe lunghezze di lettura sono critiche (ad esempio, assemblaggio de novo e metagenomica).
Illumina Genome Analyzer. Comunemente denominata “Solexa”, questa piattaforma ha le sue origini nel lavoro di Turcatti e colleages22, 23 e nella fusione di quattro società: Solexa (Essex, Regno Unito), Lynx Therapeutics (Hayward, CA, USA), Manteia Predictive Medicine (Coinsins, Svizzera) e Illumina., Le librerie possono essere costruite con qualsiasi metodo che dia origine a una miscela di frammenti fiancheggiati da adattatori fino a diverse centinaia di coppie di basi (bp) di lunghezza. Le funzioni di sequenziamento amplificate sono generate da bridge PCR21, 22 (Fig. 2 ter). In questo approccio, sia i primer per PCR avanti che indietro sono legati a un substrato solido da un linker flessibile, in modo tale che tutti gli ampliconi derivanti da una singola molecola di modello durante l’amplificazione rimangano immobilizzati e raggruppati in una singola posizione fisica su un array., Sulla piattaforma Illumina, la PCR bridge è in qualche modo non convenzionale nell’affidarsi a cicli alternati di estensione con polimerasi Bst e denaturazione con formammide. I “cluster” risultanti consistono ciascuno di ampl 1.000 ampliconi clonali. Diversi milioni di cluster possono essere amplificati in posizioni distinguibili all’interno di ciascuna delle otto “corsie” indipendenti che si trovano su una singola cella di flusso (in modo tale che otto librerie indipendenti possano essere sequenziate in parallelo durante la stessa esecuzione dello strumento)., Dopo la generazione del cluster, gli ampliconi sono single stranded (linearizzazione) e un primer di sequenziamento viene ibridato in una sequenza universale che fiancheggia la regione di interesse. Ogni ciclo di interrogatori di sequenza consiste in un’estensione a base singola con una DNA polimerasi modificata e una miscela di quattro nucleotidi (Fig. 3 ter). Questi nucleotidi sono modificati in due modi., Sono “terminatori reversibili”, in quanto una porzione chimicamente scindibile nella posizione 3′ idrossile consente solo un’incorporazione a base singola in ciascun ciclo; e una delle quattro etichette fluorescenti, anch’esse chimicamente scindibili, corrisponde all’identità di ciascun nucleotide23. Dopo l’estensione a base singola e l’acquisizione di immagini in quattro canali, la scissione chimica di entrambi i gruppi si prepara per il ciclo successivo. Leggi-lunghezze fino a 36 bp sono attualmente di routine; letture più lunghe sono possibili, ma possono incorrere in un tasso di errore più elevato.,
Le lunghezze di lettura sono limitate da molteplici fattori che causano il decadimento e la dephasing del segnale, come la scissione incompleta di etichette fluorescenti o parti terminanti. Il tipo di errore dominante è la sostituzione, piuttosto che le inserzioni o le eliminazioni (e gli omopolimeri sono certamente meno un problema rispetto ad altre piattaforme come 454). I tassi di errore non elaborati medi sono dell’ordine di 1-1, 5%, ma basi di precisione più elevate con tassi di errore dello 0,1% o meno possono essere identificate tramite metriche di qualità associate a ciascuna chiamata di base., Come con altri sistemi, le modifiche hanno recentemente abilitato accoppiati accoppiati; ad esempio, ogni funzione di sequenziamento che produce letture indipendenti 2 × 36 bp derivate da ciascuna estremità di una determinata molecola di libreria diverse centinaia di basi di lunghezza.
AB Solido. Questa piattaforma ha le sue origini nel sistema descritto da J. S. e colleghi13 nel 2005 e nel lavoro di McKernan e colleghi26 presso Agencourt Personal Genomics (Beverly, MA, USA) (acquisita da Applied Biosystems (Foster City, CA, USA) nel 2006)., Le librerie possono essere costruite con qualsiasi metodo che dia origine a una miscela di frammenti brevi e fiancheggiati da adattatori, anche se molti sforzi con questo sistema sono stati messi in protocolli per librerie di tag accoppiate a mate con distribuzioni a distanza controllabili e altamente flessibili13, 19. Le caratteristiche di sequenziamento clonale sono generate dalla PCR in emulsione, con ampliconi catturati sulla superficie di 1-µM di sfere paramagnetiche20 (Fig. 2 bis). Dopo la rottura dell’emulsione, i prodotti di amplificazione del cuscinetto delle perle selettivamente sono recuperati e poi immobilizzati ad un substrato planare solido per generare una matrice densa e disordinata., Il sequenziamento per sintesi è guidato da un DNA ligase13,24,26,27,28, piuttosto che da una polimerasi. Un fondo universale complementare alla sequenza dell’adattatore è ibridato alla matrice dei branelli amplicon-cuscinetto. Ogni ciclo di sequenziamento comporta la legatura di una popolazione degenerata di ottameri fluorescenti etichettati (Fig. 3 quater). La miscela di ottameri è strutturata, in quanto l’identità delle posizioni specifiche all’interno dell’ottamero(ad esempio, base 5) è correlata con l’identità dell’etichetta fluorescente., Dopo la legatura, le immagini vengono acquisite in quattro canali, raccogliendo in modo efficace i dati per le stesse posizioni di base su tutte le perline modello-cuscinetto. Quindi, l’ottamero viene scisso chimicamente tra le posizioni 5 e 6, rimuovendo l’etichetta fluorescente. I turni progressivi di legatura dell’ottamero consentono il sequenziamento di ogni 5a base (ad esempio, basi 5, 10, 15, 20). Dopo aver completato diversi cicli di questo tipo, il primer esteso viene denaturato per ripristinare il sistema. Le iterazioni successive di questo processo possono essere indirizzate a un diverso insieme di posizioni (ad es.,, basi 4, 9, 14, 19) utilizzando un primer che viene arretrato di una o più basi dalla giunzione adattatore-inserto, o utilizzando diverse miscele di ottameri in cui una posizione diversa (ad esempio, base 2) è correlata con l’etichetta. Una caratteristica aggiuntiva di questa piattaforma prevede l’uso della codifica a due basi, che è uno schema di correzione degli errori in cui due basi adiacenti, piuttosto che una singola base, sono correlate con l’etichetta26., Ogni posizione di base viene quindi interrogata due volte (una volta come prima base e una volta come seconda base, in un insieme di 2 bp interrogati su un dato ciclo) in modo tale che le chiamate errate possano essere identificate più facilmente.
Un sistema correlato al solido è il Polonatore, anch’esso basato in parte sul sistema sviluppato da J. S. e dal gruppo church13 ad Harvard. Questa piattaforma utilizza anche funzioni di sequenziamento generate da PCR emulsione e sequenziamento per legatura. Il costo dello strumento, tuttavia, è sostanzialmente inferiore a quello di altri strumenti di sequenziamento di seconda generazione., Inoltre, lo strumento è open source e programmabile, consentendo potenzialmente l’innovazione degli utenti (ad esempio, l’uso di biochimiche alternative). Le attuali lunghezze di lettura, tuttavia, potrebbero essere significativamente limitanti.
Un ulteriore svantaggio, comune a 454, SOLiD e Polonator, è che la PCR a emulsione può essere ingombrante e tecnicamente impegnativa., D’altra parte, è possibile che il sequenziamento su una matrice ad alta densità di perline molto piccole (1 µm) (con sequenziamento per legatura, estensione della polimerasi o altra biochimica) possa rappresentare l’opportunità più semplice per ottenere densità di dati estremamente elevate, semplicemente perché le perline da 1 µm si escludono fisicamente l’un l’altro a una distanza che è nell’ordine del limite di diffrazione. Inoltre, l’ordinamento ad alta risoluzione di array di perline da 1 µm, come recentemente descritto29, può consentire di avvicinarsi strettamente al limite di un pixel per funzione di sequenziamento.
ElisCopio., Il sequencer18 di Helicos, basato sul lavoro del gruppo di Quake 30, si basa anche sull’interrogazione ciclica di una fitta serie di funzioni di sequenziamento. Tuttavia, un aspetto unico di questa piattaforma è che non è richiesta alcuna amplificazione clonale. Invece, un sistema di rilevamento a fluorescenza altamente sensibile viene utilizzato per interrogare direttamente singole molecole di DNA tramite sequenziamento per sintesi., Le librerie di modelli, preparate mediante frammentazione casuale e tailing poli-A (cioè senza amplificazione PCR), vengono catturate dall’ibridazione in oligomeri poli-T legati alla superficie per produrre una serie disordinata di modelli di sequenziamento a singola molecola innescati. Ad ogni ciclo, la DNA polimerasi ed una singola specie di nucleotide fluorescently marcato sono aggiunti, con conseguente estensione modello-dipendente dei duplex superficie-immobilizzati del primer-modello (Fig. 3d)., Dopo l’acquisizione delle immagini che piastrellano l’intero array, la scissione chimica e il rilascio dell’etichetta fluorescente consentono il successivo ciclo di estensione e imaging. Come descritto in una recente relazione18, diverse centinaia di cicli di estensione a base singola (cioè A, G, C, T, A, G, C, T…) resa media di lettura-lunghezze di 25 bp o superiore. Aspetti notevoli di questo sistema includono quanto segue. Innanzitutto, come la piattaforma 454, il sequenziamento è asincrono, poiché alcuni fili cadranno avanti o dietro gli altri in modo dipendente dalla sequenza., Anche il caso gioca un ruolo, poiché alcuni modelli potrebbero semplicemente non riuscire a incorporare in un dato ciclo pur avendo la base appropriata nella posizione successiva. Tuttavia, poiché si tratta di singole molecole, la dephasing non è un problema e tali eventi non portano di per sé a errori.
In secondo luogo, nessuna porzione di terminazione è presente sui nucleotidi etichettati. Come con il sistema 454, quindi, le corse di omopolimeri sono un problema importante. Tuttavia, poiché le singole molecole vengono sequenziate, il problema può essere mitigato limitando il tasso di eventi di incorporazione. Inoltre, Harris et al.,18 ha osservato che incorporazioni consecutive di nucleotidi marcati a omopolimeri hanno prodotto un’interazione di tempra che ha permesso agli autori di dedurre il numero discreto di incorporazioni (ad esempio, A contro AA contro AAA).
In terzo luogo, l’accuratezza del sequenziamento grezzo può essere sostanzialmente migliorata da una strategia a due passaggi in cui la matrice di modelli a singola molecola (qui con adattatori ad entrambe le estremità) viene sequenziata come descritto sopra e quindi copiata completamente. Poiché il filo appena sintetizzato è legato alla superficie, il modello originale può essere rimosso denaturando., Il sequenziamento innescato dall’adattatore distale produce quindi una seconda sequenza per lo stesso modello, ottenuta nell’orientamento opposto. Le posizioni concordanti tra le due letture hanno punteggi di qualità simili a phred che si avvicinano a 30 (ref. 8,18).
E infine, in gran parte secondario all’incorporazione di basi contaminanti, non etichettate o non emettenti, il tipo di errore dominante è la cancellazione (tasso di errore del 2-7% con un passaggio; 0,2–1% con due passaggi). Tuttavia, i tassi di errore di sostituzione sono sostanzialmente inferiori (0,01-1% con un passaggio)., Con due passaggi, il tasso di errore di sostituzione raw per base (che si avvicina allo 0,001%) potrebbe essere attualmente il più basso di tutte le piattaforme di seconda generazione.