Figura 2: amplificación Clonal de las características de secuenciación.,
(a) las plataformas 454, Polonator y SOLiD confían en emulsion PCR20 para amplificar las funciones de secuenciación clonal. En resumen, una biblioteca de escopetas construida in vitro con adaptador flanqueado (mostrada como adaptadores gold y turquoise flanqueando insertos únicos) es amplificada por PCR (es decir, PCR multi-plantilla, no PCR multiplex, ya que solo se usa un solo par de imprimación, correspondiente a los adaptadores gold y turquoise) en el contexto de una emulsión de agua en aceite., Uno de los cebadores de PCR está atado a la superficie (5′-conectado) de las perlas de escala de micrones que también se incluyen en la reacción. Una baja concentración de plantilla da como resultado que la mayoría de los compartimentos que contienen perlas tengan cero o una molécula de plantilla presente. En los compartimentos productivos de emulsión (donde están presentes tanto una molécula de grano como una molécula de plantilla), los amplicones de PCR se capturan en la superficie de la perla. Después de romper la emulsión, los productos de amplificación de cojinetes de perlas se pueden enriquecer selectivamente., Cada perla amplificada clonalmente llevará en su superficie productos de PCR correspondientes a la amplificación de una sola molécula de la biblioteca de plantillas. b) La tecnología Solexa se basa en el puente pcr21,22 (también conocido como «cluster PCR») para amplificar las características de secuenciación clonal. En resumen, una biblioteca de escopetas con flanqueado por adaptador construida in vitro está amplificada por PCR, pero ambos cebadores cubren densamente la superficie de un sustrato sólido, Unidos en sus extremos de 5′ por un enlazador flexible., Como consecuencia, los productos de amplificación procedentes de cualquier miembro dado de la biblioteca de plantillas permanecen atados localmente cerca del punto de origen. Al final de la PCR, cada cluster clonal contiene copies 1,000 copias de un solo miembro de la biblioteca de plantillas. La medición precisa de la concentración de la biblioteca de plantillas es fundamental para maximizar la densidad del clúster y, al mismo tiempo, evitar el hacinamiento.
Figura 3: Estrategias para cíclica de la matriz de secuenciación.,
(a) Con la plataforma 454, clonalmente amplificado de 28 µm perlas generados por la emulsión de PCR servir como funciones de secuenciación y aleatoriamente se depositan en un microfabricated de picolitros escala de wells. Con la pirosecuenciación, cada ciclo consiste en la introducción de una sola especie de nucleótido, seguido de la adición de sustrato (luciferina, adenosina 5′-fosfosulfato) para impulsar la producción de luz en los pozos donde la incorporación impulsada por la polimerasa de ese nucleótido tuvo lugar., Esto es seguido por un lavado de apirasa para eliminar el nucleótido no incorporado. Imagen de Margulies et al. (2005)14. b) con la tecnología Solexa, una densa serie de características de secuenciación amplificadas clonalmente se genera directamente en una superficie mediante PCR puente (también conocida como PCR cluster). Cada ciclo de secuenciación incluye la adición simultánea de una mezcla de cuatro especies de desoxinucleótidos modificadas, cada una de las cuales lleva una de las cuatro etiquetas fluorescentes y una fracción reversible que termina en la posición 3′ hidroxilo. Una polimerasa de ADN modificada impulsa la extensión síncrona de las características de secuenciación cebadas., Esto es seguido por imágenes en cuatro canales y luego escisión de las etiquetas fluorescentes y la mitad terminal. c) con las plataformas sólida y Polonator, se utilizan perlas de 1 µm amplificadas clonalmente para generar un conjunto desordenado y denso de características de secuenciación13. La secuenciación se realiza con una ligasa, en lugar de una polimerasa13,24,26,27,28. Con SOLiD, cada ciclo de secuenciación introduce una población parcialmente degenerada de octámeros marcados fluorescentemente., La población está estructurada de tal manera que la etiqueta se correlaciona con la identidad del 2 pb central en el octámero (la correlación con 2 pb, en lugar de 1 pb, es la base de la codificación de dos bases)26. Después de la ligadura y la imagen en cuatro canales, la porción etiquetada del octámero (es decir, ‘zzz’) se escinde a través de un enlace modificado entre las bases 5 y 6, dejando un extremo libre para otro ciclo de ligadura. Varios de estos ciclos interrogarán iterativamente un conjunto de bases uniformemente espaciadas y discontiguas., El sistema se restablece (por desnaturalización de la imprimación extendida), y el proceso se repite con un desplazamiento diferente (por ejemplo, una imprimación retrocedida desde la posición original por una o varias bases) de modo que un conjunto diferente de bases no contiguas se interroga en la siguiente ronda de ligaciones en serie. d) con la plataforma de Heliscopio, las moléculas de ácido nucleico único se secuencian directamente, es decir, no se requiere una etapa de amplificación clonal., Las moléculas de plantilla poli-a-cola son capturadas por hibridación a oligómeros poli-T anclados en la superficie para producir una matriz desordenada de plantillas de secuenciación de una sola molécula cebadas. Las plantillas están etiquetadas con Cy3, de modo que la imagen puede identificar el subconjunto de coordenadas de matriz donde se espera una lectura de secuenciación. Cada ciclo consiste en la incorporación impulsada por la polimerasa de una sola especie de nucleótido marcado fluorescentemente en un subconjunto de plantillas, seguido de imágenes de fluorescencia de la matriz completa y la escisión química de la etiqueta. Imagen de Braslavsky et al. (2003)30.,
las ventajas globales de las estrategias de segunda generación o de arreglo cíclico, en relación con la secuenciación de Sanger, incluyen lo siguiente: (i) la construcción in vitro de una biblioteca de secuenciación, seguida de la amplificación clonal in vitro para generar características de secuenciación, evita varios cuellos de botella que restringen el paralelismo de la secuenciación convencional (es decir, la transformación de E. coli y la selección de colonias). ii) la secuenciación basada en matrices permite un grado de paralelismo mucho mayor que la secuenciación basada en capilares convencional., Como el tamaño efectivo de las características de secuenciación puede ser del orden de 1 µm, se pueden obtener potencialmente cientos de millones de lecturas de secuenciación en paralelo mediante imágenes rasterizadas de un área de superficie de tamaño razonable. (iii) debido a que las características del conjunto están inmovilizadas a una superficie plana, pueden ser manipuladas enzimáticamente por un solo volumen de reactivo. Aunque los volúmenes de reactivos a escala de microlitros se utilizan en la práctica, estos se amortizan esencialmente sobre el conjunto completo de características de secuenciación en la matriz, bajando el volumen de reactivo efectivo por característica a la escala de picolitros o femtolitros., Colectivamente, estas diferencias se traducen en costos dramáticamente más bajos para la producción de secuencias de ADN.
las ventajas de la secuenciación de ADN de segunda generación están actualmente compensadas por varias desventajas. Los más destacados de estos incluyen la longitud de lectura (para todas las nuevas plataformas, las longitudes de lectura son actualmente mucho más cortas que la secuenciación convencional) y la precisión bruta (en promedio, las llamadas base generadas por las nuevas plataformas son al menos diez veces menos precisas que las llamadas base generadas por la secuenciación de Sanger)., Aunque estas limitaciones crean importantes desafíos algorítmicos para el futuro inmediato, debemos tener en cuenta que estas tecnologías seguirán mejorando con respecto a estos parámetros, al igual que la secuenciación convencional avanzó gradualmente durante tres décadas hasta alcanzar su nivel actual de rendimiento técnico.
454 pirosecuenciación. El sistema 454 fue la primera plataforma de secuenciación de última generación disponible como producto comercial14. En este enfoque, las bibliotecas pueden construirse por cualquier método que dé lugar a una mezcla de fragmentos cortos, flanqueados por el adaptador., Las características de secuenciación Clonal son generadas por la emulsión PCR20, con amplicones capturados a la superficie de perlas de 28 µm (Fig. 2a). Después de romper la emulsión, las perlas se tratan con desnaturalizante para eliminar las hebras sin ataduras, y luego se someten a un enriquecimiento basado en la hibridación para las perlas que contienen amplicón (es decir, las que estaban presentes en un compartimiento de emulsión que soporta una reacción de PCR productiva). Una imprimación de secuenciación se hibrida con el adaptador universal en la posición y orientación apropiadas, es decir, inmediatamente adyacente al inicio de la secuencia desconocida.,
la secuenciación se realiza mediante el método de pirosecuencia25 (Fig. 3a). En resumen, las perlas portadoras de amplicón se preincuban con Bacillus stearothermophilus (BST) polimerasa y proteína de unión monocatenaria, y luego se depositan en una matriz microfabricada de pozos a escala de picolitro (con dimensiones tales que solo una perla cabrá por pozo) para hacer que esta bioquímica sea compatible con la secuenciación basada en matrices. También se agregan perlas más pequeñas, con enzimas inmovilizadas que también se requieren para la pirosecuenciación (ATP sulfurilasa y luciferasa)., Durante la secuenciación, un lado de la matriz semiordenada funciona como una celda de flujo para introducir y eliminar reactivos de secuenciación, mientras que el otro lado está unido a un haz de fibra óptica para la detección de señal basada en CCD (dispositivo de carga acoplada). En cada uno de varios cientos de ciclos, se introduce una sola especie de nucleótido no etiquetado. En las plantillas donde esto da lugar a un evento de incorporación, se libera pirofosfato., A través de ATP sulfurilasa y luciferasa, los eventos de incorporación impulsan inmediatamente la generación de una ráfaga de luz, que es detectada por el CCD como correspondiente a las coordenadas del conjunto de pozos específicos. En contraste con otras plataformas, por lo tanto, la secuenciación por síntesis debe ser monitoreada ‘en vivo (es decir, la cámara no se mueve en relación con la matriz). A través de múltiples ciclos (por ej., A-G-C-T-A-G-C-T…), el patrón de eventos de incorporación detectados revela la secuencia de plantillas representadas por cuentas individuales., Al igual que el Heliscopio (discutido más adelante), la secuenciación es ‘asíncrona’ en el sentido de que algunas características pueden adelantarse o retrasarse en otras dependiendo de su secuencia relativa al orden de adición de base.
una limitación importante de la tecnología 454 se refiere a los homopolímeros (es decir, instancias consecutivas de la misma base, como AAA o GGG). Debido a que no hay una fracción de terminación que impida múltiples incorporaciones consecutivas en un ciclo dado, la longitud de todos los homopolímeros debe inferirse de la intensidad de la señal., Esto es propenso a una tasa de error mayor que la discriminación de la incorporación frente a la no incorporación. Como consecuencia, el tipo de error dominante para la plataforma 454 es inserción-eliminación, en lugar de sustitución. En comparación con otras plataformas de próxima generación, la ventaja clave de la plataforma 454 es la longitud de lectura. Por ejemplo, el instrumento 454 FLX genera reads 400,000 lecturas por instrumento, Corridas a longitudes de 200 a 300 bp. Actualmente, el costo por base de la secuenciación con la plataforma 454 es mucho mayor que el de otras plataformas (p.ej.,, SOLiD y Solexa), pero puede ser el método de elección para ciertas aplicaciones donde las longitudes de lectura largas son críticas (por ejemplo, ensamblaje de novo y metagenómica).
Illumina Genome Analyzer. Comúnmente conocida como ‘la Solexa’, esta plataforma tiene sus orígenes en el trabajo de Turcatti y colleages22, 23 y la fusión de cuatro empresas: Solexa (Essex, Reino Unido), Lynx Therapeutics (Hayward, CA, EE.UU.), Manteia Predictive Medicine (Coinsins, Suiza) e Illumina., Las bibliotecas se pueden construir por cualquier método que dé lugar a una mezcla de fragmentos flanqueados por el adaptador de hasta varios cientos de pares de bases (bp) de longitud. Las características de secuenciación amplificada son generadas por bridge pcr21, 22 (Fig. 2b). En este enfoque, tanto los cebadores de PCR hacia adelante como hacia atrás están atados a un sustrato sólido por un enlazador flexible, de modo que todos los amplicones que surgen de cualquier molécula de plantilla única durante la amplificación permanecen inmovilizados y agrupados en una sola ubicación física en un arreglo., En la plataforma Illumina, la PCR del puente es algo poco convencional al confiar en ciclos alternos de extensión con polimerasa Bst y desnaturalización con formamida. Los ‘clústeres’ resultantes consisten cada uno en ∼1,000 amplicones clonales. Varios millones de clústeres se pueden amplificar para distinguir ubicaciones dentro de cada uno de los ocho «carriles» independientes que están en una sola celda de flujo (de modo que ocho bibliotecas independientes se pueden secuenciar en paralelo durante la misma ejecución del instrumento)., Después de la generación de cúmulos, los amplicones son de cadena simple (linealización) y una imprimación de secuenciación se hibrida a una secuencia universal que flanquea la región de interés. Cada ciclo de interrogación de secuencias consiste en una extensión de base única con una polimerasa de ADN modificada y una mezcla de cuatro nucleótidos (Fig. 3b). Estos nucleótidos se modifican de dos maneras., Son «terminadores reversibles», en el sentido de que una fracción químicamente clivable en la posición hidroxilo 3′ solo permite la incorporación de una sola base en cada ciclo; y una de las cuatro etiquetas fluorescentes, también químicamente clivables, corresponde a la identidad de cada nucleótido 23. Después de la extensión de una sola base y la adquisición de imágenes en cuatro canales, la escisión química de ambos grupos se establece para el siguiente ciclo. Las longitudes de lectura de hasta 36 PB son actualmente rutinarias; las lecturas más largas son posibles, pero pueden incurrir en una tasa de error más alta.,
Las longitudes de lectura están limitadas por múltiples factores que causan decaimiento y Desfase de la señal, como la escisión incompleta de las etiquetas fluorescentes o las mitades terminales. El tipo de error dominante es la sustitución, en lugar de inserciones o eliminaciones (y los homopolímeros son ciertamente menos problemáticos que con otras plataformas como 454). Las tasas de error bruto promedio están en el orden de 1-1.5%, pero las bases de mayor precisión con tasas de error de 0.1% o menos se pueden identificar a través de métricas de calidad asociadas con cada llamada base., Al igual que con otros sistemas, las modificaciones han permitido recientemente lecturas apareadas; por ejemplo, cada característica de secuenciación que produce 2 × 36 bp lecturas independientes derivadas de cada extremo de una molécula de biblioteca dada varios cientos de bases de longitud.
AB sólido. Esta plataforma tiene sus orígenes en el sistema descrito por J. S. y collagues13 en 2005 y en el trabajo de McKernan y collagues26 en Agencourt personal Genomics (Beverly, MA, USA) (adquirido por Applied Biosystems (Foster City, CA, USA) en 2006)., Las bibliotecas pueden ser construidas por cualquier método que dé lugar a una mezcla de fragmentos cortos, flanqueados por el adaptador, aunque mucho esfuerzo con este sistema se ha puesto en protocolos para bibliotecas de etiquetas apareadas con distribuciones de distancia controlables y altamente flexibles 13,19. Las características de secuenciación Clonal son generadas por PCR de emulsión, con amplicones capturados a la superficie de cuentas paramagnéticas de 1 µm20 (Fig. 2a). Después de romper la emulsión, los productos de amplificación de cojinetes de perlas se recuperan selectivamente y luego se inmovilizan en un sustrato plano sólido para generar una matriz densa y desordenada., La secuenciación por síntesis es impulsada por una liga de DNA 13,24,26,27,28, en lugar de una polimerasa. Una imprimación universal complementaria a la secuencia del adaptador se hibrida con la matriz de perlas portadoras de amplicón. Cada ciclo de secuenciación implica la ligadura de una población degenerada de octámeros marcados fluorescentemente (Fig. 3c). La mezcla de octámeros está estructurada, en que la identidad de la posición específica(s) dentro del octámero (por ejemplo, base 5) se correlaciona con la identidad de la etiqueta fluorescente., Después de la ligadura, las imágenes se adquieren en cuatro canales, recolectando efectivamente datos para las mismas posiciones de base en todas las cuentas de soporte de plantilla. Luego, el octámero se divide químicamente entre las posiciones 5 y 6, eliminando la etiqueta fluorescente. Las rondas progresivas de ligadura de octámeros permiten la secuenciación de cada 5ta base (e.g., bases 5, 10, 15, 20). Al completar varios de estos ciclos, la imprimación extendida se desnaturaliza para restablecer el sistema. Las iteraciones posteriores de este proceso se pueden dirigir a un conjunto diferente de posiciones (p.ej.,, bases 4, 9, 14, 19) ya sea mediante el uso de una imprimación que se retrasa una o más bases de la Unión adaptador-inserción, o mediante el uso de diferentes mezclas de octámeros donde una posición diferente (por ejemplo, base 2) se correlaciona con la etiqueta. Una característica adicional de esta plataforma implica el uso de codificación de dos bases, que es un esquema de corrección de errores en el que dos bases adyacentes, en lugar de una sola base, están correlacionadas con la label26., Cada posición de base es entonces interrogada dos veces (una vez como la primera base, y una vez como la segunda base, en un conjunto de 2 pb interrogado en un ciclo dado) de tal manera que las llamadas erróneas pueden ser más fácilmente identificadas.
un sistema relacionado con el sólido es el Polonator, también basado en parte en el sistema desarrollado por J. S. y el grupo de la Iglesia13 en Harvard. Esta plataforma también utiliza funciones de secuenciación generadas por PCR de emulsión y secuenciación por ligadura. Sin embargo, el costo del instrumento es considerablemente inferior al de otros instrumentos de secuenciación de segunda generación., Además, el instrumento es de código abierto y programable, lo que potencialmente permite la innovación del usuario (por ejemplo, el uso de bioquímicas alternativas). Sin embargo, las longitudes de lectura actuales pueden ser significativamente limitantes.
una desventaja adicional, común a 454, SOLiD y el Polonator, es que la emulsión PCR puede ser engorrosa y técnicamente desafiante., Por otro lado, es posible que la secuenciación en una matriz de alta densidad de perlas muy pequeñas (1 µm) (con secuenciación por ligadura, extensión de la polimerasa u otra bioquímica) pueda representar la oportunidad más sencilla de lograr densidades de datos extremadamente altas, simplemente porque las perlas de 1 µm se excluyen físicamente entre sí en un espaciamiento que está en el orden del límite de difracción. Además, la ordenación de alta resolución de matrices de esferas de 1 µm, como se ha descrito recientemente29, puede permitir acercarse al límite de un píxel por función de secuenciación.
HeliScope., El Helicos sequencer18, basado en el trabajo del group30 de Quake, también se basa en la interrogación cíclica de una densa serie de características de secuenciación. Sin embargo, un aspecto único de esta plataforma es que no se requiere amplificación clonal. En su lugar, un sistema de detección de fluorescencia altamente sensible se utiliza para interrogar directamente moléculas de ADN individuales a través de la secuenciación por síntesis., Las bibliotecas de plantillas, preparadas por fragmentación aleatoria y cola poli-a (es decir, sin amplificación de PCR), son capturadas por hibridación a oligómeros poli-T anclados en la superficie para producir una matriz desordenada de plantillas de secuenciación de una sola molécula cebadas. En cada ciclo, la polimerasa de ADN y una sola especie de nucleótido marcado fluorescentemente se agregan, lo que resulta en la extensión dependiente de la plantilla de los dúplex de la plantilla de imprimación inmovilizada en la superficie (Fig. 3d)., Después de la adquisición de imágenes alicatado de la matriz completa, la escisión química y la liberación de la etiqueta fluorescente permite el ciclo posterior de extensión e imágenes. Como se describe en un informe reciente18, varios cientos de ciclos de extensión de base única (es decir, A, G, C, T, A, G, C, T…) rendimiento de longitudes de lectura promedio de 25 pb o superior. Entre los aspectos notables de este sistema figuran los siguientes. Primero, al igual que la plataforma 454, la secuenciación es asincrónica, ya que algunos hilos caerán por delante o detrás de otros de una manera dependiente de la secuencia., El azar también juega un papel, ya que algunas plantillas pueden simplemente no incorporar en un ciclo dado a pesar de tener la base adecuada en la siguiente posición. Sin embargo, debido a que estas son moléculas individuales, la desfase no es un problema, y tales eventos no conducen en sí mismos a errores.
en segundo lugar, no hay fracción terminal presente en los nucleótidos marcados. Al igual que con el sistema 454, por lo tanto, las carreras de homopolímeros son un tema importante. Sin embargo, debido a que las moléculas individuales se están secuenciando, el problema puede mitigarse limitando la tasa de eventos de incorporación. Además, Harris et al.,18 señaló que las incorporaciones consecutivas de nucleótidos Etiquetados en homopolímeros produjeron una interacción de enfriamiento que permitió a los autores inferir el número discreto de incorporaciones (por ejemplo, a versus AA versus AAA).
En tercer lugar, la precisión de secuenciación en bruto puede mejorarse sustancialmente mediante una estrategia de dos pasadas en la que la matriz de plantillas de una sola molécula (aquí con adaptadores en ambos extremos) se secuencian como se describió anteriormente, y luego se copian completamente. Como la hebra recién sintetizada está atada a la superficie, la plantilla original se puede eliminar mediante desnaturalización., La secuenciación imprimada desde el adaptador distal produce una segunda secuencia para la misma plantilla, obtenida en la orientación opuesta. Las posiciones que son concordantes entre las dos lecturas tienen puntuaciones de calidad similares a phred que se acercan a 30 (refs. 8,18).
y finalmente, en gran parte secundario a la incorporación de bases contaminantes, no etiquetadas o no tóxicas, el tipo de error dominante es la eliminación (tasa de error del 2-7% con una pasada; 0.2–1% con dos pasadas). Sin embargo, las tasas de error de sustitución son sustancialmente más bajas (0,01–1% con una sola aprobación)., Con dos pasadas, la tasa de error de sustitución bruta por base (cercana al 0,001%) puede ser actualmente la más baja de todas las plataformas de segunda generación.