Figura 2: amplificação Clonal das características sequenciadoras.,
(a) The 454, The Polonator and SOLiD platforms rely on emulsion PCR20 to amplify clonal sequencing features. Em resumo, uma biblioteca de caçadeira flanqueada por adaptadores in vitro (mostrada como adaptadores de ouro e turquesa flanqueando inserções únicas) é amplificada por PCR (isto é, PCR multi-template, não PCR multiplex, como apenas um par de iniciadores é usado, correspondendo aos adaptadores de ouro e turquesa) no contexto de uma emulsão água-em-óleo., Um dos iniciadores PCR é amarrado à superfície (5′-ligado) de esferas de escala micron que também estão incluídos na reação. A concentração de um modelo baixo resulta na maioria dos compartimentos que contêm contas com zero ou uma molécula-modelo presente. Em compartimentos de emulsão produtiva (onde uma molécula de conta e modelo estão presentes), amplicons PCR são capturados à superfície da conta. Após quebrar a emulsão, as esferas com produtos de amplificação podem ser seletivamente enriquecidas., Cada bico clonalmente amplificado terá em sua superfície produtos PCR correspondentes à amplificação de uma única molécula a partir da biblioteca template. b) A tecnologia Solexa depende da bridge PCR21,22 (Também conhecida por “cluster PCR”) para amplificar as características de sequenciação clonal. Em resumo, uma biblioteca de caçadeira flanqueada por adaptador in vitro é amplificada por PCR, mas ambos os iniciadores densamente revestem a superfície de um substrato sólido, fixado em suas extremidades de 5′ por um linker flexível., Como consequência, os produtos de amplificação provenientes de qualquer membro da biblioteca modelo permanecem presos localmente perto do ponto de origem. Na conclusão da PCR, cada cluster clonal contém ∼1.000 cópias de um único membro da biblioteca modelo. A medição precisa da concentração da biblioteca template é fundamental para maximizar a densidade do aglomerado, evitando simultaneamente a sobrelotação.
Figura 3: Estratégias para cíclica matriz de seqüenciamento.,
(a) Com a plataforma 454, clonally amplificado de 28 µm esferas gerados por PCR em emulsão servir como sequenciamento de recursos e são depositados aleatoriamente para um microfabricated matriz de picoliter escala de poços. Com a pirosequenciação, cada ciclo consiste na introdução de uma única espécie de nucleótido, seguida pela adição de substrato (luciferina, adenosina 5′-fosfossulfato) para conduzir a produção de luz em poços onde a incorporação desse nucleótido pela polimerase ocorreu., Isto é seguido por uma lavagem de apirase para remover nucleótido não incorporado. Imagem de Margulies et al. (2005)14. b) com a tecnologia Solexa, uma densa gama de características sequenciadas clonalmente amplificadas é gerada directamente numa superfície pela PCR bridge (também conhecida por PCR cluster). Cada ciclo de sequenciação inclui a adição simultânea de uma mistura de quatro espécies de desoxinucleótidos modificados, cada uma contendo um dos quatro rótulos fluorescentes e uma fracção de terminação reversível na posição 3′ hidroxil. Uma polimerase de ADN modificada conduz a extensão síncrona das características de sequenciamento., Isto é seguido por imagens em quatro canais e, em seguida, clivagem de ambos os rótulos fluorescentes ea metade terminante. (c) With the SOLiD and the Polonator platforms, clonally amplified 1-µm beads are used to generate a disordered, dense array of sequencing features13. A sequenciação é realizada com uma ligase, ao invés de um polimerase13,24,26,27,28. Com sólido, cada ciclo de sequenciação introduz uma população parcialmente degenerada de octamers fluorescentemente rotulados., A população está estruturada de tal forma que o rótulo correlaciona-se com a identidade do 2 bp central no octâmero (a correlação com 2 bp, ao invés de 1 bp, é a base da codificação de duas bases)26. Após a ligaçãoe imagem em quatro canais, a porção rotulada do octamer (ou seja, “zzz”) é clivada através de uma ligação modificada entre as bases 5 e 6, deixando um fim livre para outro ciclo de ligação. Vários desses ciclos interroga um conjunto de bases uniformemente espaçadas e discontínuas., O sistema é então reset (por desnaturação da extensão primer), e o processo é repetido com diferentes deslocamento (por exemplo, um conjunto de primers de volta a partir da posição inicial através de uma ou várias bases) de tal forma que um conjunto diferente de descontínua bases é interrogado na próxima rodada da série litigação. (d) With The HeliScope platform, single nucleic acid molecules are sequenced directly, that is, there is no clonal amplification step required., Moléculas modelo de cauda Poli-A são capturadas por hibridação a oligómeros poli-T ligados à superfície para produzir um conjunto desordenado de modelos de sequenciação de moléculas simples preparadas. Modelos são rotulados com Cy3, de modo que a imagem pode identificar o subconjunto de coordenadas de array onde uma leitura sequenciada é esperada. Cada ciclo consiste na incorporação por polimerase de uma única espécie de nucleótido marcado fluorescentemente num subconjunto de modelos, seguido por imagens por fluorescência do conjunto completo e clivagem química do rótulo. Imagem de Braslavsky et al. (2003)30.,
Global vantagens de segunda geração ou cíclica-matriz de estratégias, em relação à sequenciação Sanger, incluem o seguinte: (i) in vitro construção de um sequenciamento de biblioteca, seguido por clonal in vitro de amplificação para gerar o seqüenciamento de recursos, contorna vários gargalos que limitam o paralelismo das convencional de seqüenciamento (isto é, a transformação de E. coli e colônia de picking). (ii) a sequenciação Array-based permite um grau muito mais elevado de paralelismo do que a sequenciação capilar convencional., Como o tamanho efetivo das características de sequenciamento pode ser da ordem de 1 µm, centenas de milhões de leituras de sequenciamento podem potencialmente ser obtidas em paralelo por imagens rasgadas de uma área de superfície razoavelmente dimensionada. (iii) porque as características do array são imobilizadas a uma superfície planar, elas podem ser manipuladas enzimaticamente por um único volume de reagente. Embora os volumes de reagente em escala de microlitros sejam usados na prática, estes são essencialmente amortizados sobre o conjunto completo de características sequenciadoras na matriz, deixando cair o volume de reagente efetivo por característica para a escala de picolitros ou femtolitros., Colectivamente, estas diferenças traduzem-se em custos dramaticamente mais baixos para a produção de sequências de ADN.
As vantagens da sequenciação de DNA de segunda geração são atualmente compensadas por várias desvantagens. Os mais proeminentes destes incluem comprimento de leitura (para todas as novas plataformas, comprimento de leitura são atualmente muito mais curtos do que a sequenciação convencional) e precisão bruta (em média, as chamadas de base geradas pelas novas plataformas são pelo menos dez vezes menos precisas do que as chamadas de base geradas pela sequenciação de Sanger)., Embora essas limitações criem importantes desafios algorítmicos para o futuro imediato, devemos ter em mente que essas tecnologias continuarão a melhorar em relação a esses parâmetros, tanto quanto sequenciamento convencional progrediu gradualmente ao longo de três décadas para atingir o seu atual nível de desempenho técnico.454 pirosequenciação. O sistema 454 foi a primeira plataforma de sequenciamento de próxima geração disponível como um produto comercial 14. Nesta abordagem, as bibliotecas podem ser construídas por qualquer método que dê origem a uma mistura de fragmentos curtos e flanqueados pelo adaptador., As características de sequenciamento Clonal são geradas pela emulsão PCR20, com amplicons capturados na superfície de esferas de 28 µm (Fig. 2a). Depois de quebrar a emulsão, as esferas são tratadas com desnaturante para remover as cadeias não amarradas e, em seguida, submetidas a um enriquecimento baseado em hibridização para as esferas que suportam amplicões (isto é, aquelas que estavam presentes num compartimento de emulsão que suporta uma reacção de PCR produtiva). Um iniciador de sequenciamento é hibridizado para o adaptador universal na posição e orientação apropriadas, ou seja, imediatamente adjacente ao início da sequência desconhecida.,a sequenciação é realizada pelo método de pirosequenciação25 (Fig. 3a). Em resumo, as esferas de amplicon são pré-incubadas com Bacillus stearothermophilus (Bst) polimerase e proteína de ligação de cadeia única, e, em seguida, depositados em um conjunto microfabricado de poços de escala picoliterada (com dimensões tais que apenas um bead irá caber por poço) para tornar esta bioquímica compatível com sequenciação em matriz. Contas menores também são adicionadas, com enzimas imobilizadas também necessárias para pirosequenciamento (ATP sulfurilase e luciferase)., Durante a sequenciação, um lado da matriz semi-ordenada funciona como uma célula de fluxo para introduzir e remover reagentes de sequenciamento, enquanto o outro lado Está ligado a um feixe de fibra ótica para detecção de sinal com base em CCD (dispositivo de acoplamento de carga). Em cada um de várias centenas de ciclos, uma única espécie de nucleótido não marcado é introduzida. Nos modelos em que tal resulta numa incorporação, o pirofosfato é libertado., Via ATP sulfurilase e luciferase, os eventos de incorporação imediatamente impulsionam a geração de uma explosão de luz, que é detectada pelo CCD como correspondendo às coordenadas array de poços específicos. Em contraste com outras plataformas, portanto, a sequenciação por síntese deve ser monitorada ‘ao vivo (ou seja, a câmera não se move em relação ao array). Em ciclos múltiplos (por exemplo, A-G-C-T-A-G-C-T…), o padrão de eventos de incorporação detectados revela a sequência de modelos representados por contas individuais., Como o Heliscópio (discutido abaixo), o sequenciamento é “assíncrono” na medida em que algumas características podem chegar à frente ou atrás de outras características, dependendo de sua sequência em relação à ordem de adição de base.
uma grande limitação da tecnologia 454 relaciona-se com homopolímeros (isto é, instâncias consecutivas da mesma base, como AAA ou GGG). Uma vez que não há fracção terminal que impeça múltiplas incorporações consecutivas num determinado ciclo, o comprimento de todos os homopolímeros deve ser inferido a partir da intensidade do sinal., Isto é propenso a uma taxa de erro maior do que a discriminação da incorporação versus não-incorporação. Como consequência, o tipo de erro dominante para a plataforma 454 é inserção-exclusão, em vez de substituição. Em relação a outras plataformas de próxima geração, a principal vantagem da plataforma 454 é o comprimento de leitura. Por exemplo, o instrumento 454 FLX gera ∼400.000 leituras por instrumento-executado em comprimentos de 200 a 300 bp. Atualmente, o custo por base da sequenciação com a plataforma 454 é muito maior do que o de outras plataformas (ex.,* Solexa), mas pode ser o método de escolha para certas aplicações onde o comprimento de leitura longo é crítico (por exemplo, montagem de novo e metagenômica).
analisador do genoma da iluminação. Esta plataforma tem as suas origens no trabalho de Turcatti e colegas 22, 23 e na fusão de quatro empresas—Solexa (Essex, Reino Unido), Lynx Therapeutics (Hayward, CA, EUA), Manteia preditiva Medicine (Coinsins, Suíça) e Illumina., As bibliotecas podem ser construídas por qualquer método que dê origem a uma mistura de fragmentos flanqueados pelo adaptador até várias centenas de pares de bases (bp) de comprimento. Recursos de sequenciamento amplificados são gerados pela bridge PCR21, 22 (Fig. 2b). Nesta abordagem, os iniciadores PCR para a frente e para trás são amarrados a um substrato sólido por um linker flexível, de tal forma que todos os amplificadores decorrentes de qualquer molécula de modelo único durante a amplificação permanecem imobilizados e agrupados a uma única localização física em um array., Na plataforma Illumina, a PCR de ponte é algo pouco convencional em confiar em ciclos alternados de extensão com BST polimerase e desnaturação com formamida. Os “clusters” resultantes consistem cada um de ∼1.000 amplicons clonais. Vários milhões de clusters podem ser amplificados para locais distinguíveis dentro de cada uma das oito “faixas” independentes que estão em uma única célula de fluxo (tal que oito bibliotecas independentes podem ser sequenciadas em paralelo durante a mesma execução de instrumentos)., Após a geração de clusters, os amplicons são uma única cadeia (linearização) e um iniciador de sequenciamento é hibridizado a uma sequência universal que flanqueia a região de interesse. Cada ciclo de interrogação de sequência consiste numa extensão de base única com uma polimerase de ADN modificada e uma mistura de quatro nucleótidos (Fig. 3b). Estes nucleótidos são modificados de duas maneiras., São “terminadores reversíveis”, na medida em que uma fracção quimicamente clivável na posição 3′ hidroxila apenas permite a ocorrência de uma incorporação de base única em cada ciclo; e uma das quatro etiquetas fluorescentes, também quimicamente cliváveis, corresponde à identidade de cada nucleotídeo23. Após a extensão de base única e aquisição de imagens em quatro canais, a clivagem química de ambos os grupos se configura para o próximo ciclo. Lad-lengths up to 36 bp are currently routine; longer reads are possible but may incur a higher error rate.,
read-lengths are limited by multiple factors that cause signal decay and dephasing, such as incomplete clivage of fluorescent labels or terminating moieties. O tipo de erro dominante é a substituição, ao invés de inserções ou supressões (e homopolímeros são certamente menos um problema do que com outras plataformas como 454). As taxas médias de erro bruto são da ordem de 1-1, 5%, mas bases de maior precisão com taxas de erro de 0,1% ou menos podem ser identificadas através de métricas de qualidade associadas a cada chamada de base., Como com outros sistemas, modificações recentemente habilitada mate-emparelhado lê; por exemplo, cada seqüenciamento recurso produzindo 2 × 36 bp independente lê-se derivada de cada extremidade de uma determinada biblioteca molécula de várias centenas de bases de comprimento.sólido. Esta plataforma tem as suas origens no sistema descrito por J. S. e colegas 13 em 2005 e no trabalho de McKernan e colegas 26 na Agencourt Personal Genomics (Beverly, MA, USA) (adquirida pela Applied Biosystems (Foster City, CA, USA) em 2006)., As bibliotecas podem ser construídas por qualquer método que dê origem a uma mistura de fragmentos curtos e flanqueados pelo adaptador, embora muito esforço com este sistema tenha sido colocado em protocolos para bibliotecas de tag emparelhadas com distribuições de distância controláveis e altamente flexíveis 13, 19. Características de sequenciamento Clonal são geradas pela emulsão PCR, com amplicons captados para a superfície de uma pérola paramagnética de 1 µM (Fig. 2a). Depois de quebrar a emulsão, esferas com produtos de amplificação são seletivamente recuperados, e então imobilizados em um substrato plano sólido para gerar uma matriz densa e desordenada., A sequenciação por síntese é impulsionada por um ligase13,24,26,27,28, ao invés de uma polimerase. Um iniciador universal complementar à sequência do adaptador é hibridizado para a matriz de contas de amplicon-beads. Cada ciclo de sequenciação envolve a ligação de uma população degenerada de octâmeros fluorescentemente rotulados (Fig. 3c). A mistura de octâmeros está estruturada, na medida em que a identidade da(S) Posição (ões) específica (s) dentro do octâmero (por exemplo, base 5) está correlacionada com a identidade do rótulo fluorescente., Após a ligação, as imagens são adquiridas em quatro canais, efetivamente coletando dados para as mesmas posições de base em todas as contas de porta-modelo. Em seguida, o octâmero é quimicamente clivado entre as posições 5 e 6, removendo o rótulo fluorescente. Rodadas progressivas de ligação octamer permitem sequenciamento de cada 5ª base (por exemplo, bases 5, 10, 15, 20). Ao completar vários desses ciclos, o primer estendido é desnaturado para reiniciar o sistema. Iterações subsequentes deste processo podem ser direcionadas para um conjunto diferente de posições (e.g.,, bases 4, 9, 14, 19) ou usando um iniciador que é ajustado para trás uma ou mais bases da junção adaptador-inserção, ou usando diferentes misturas de octamers onde uma posição diferente (por exemplo, base 2) é correlacionada com o rótulo. Uma característica adicional desta plataforma envolve o uso de codificação de duas bases, que é um esquema de correção de erros no qual duas bases adjacentes, ao invés de uma única base, estão correlacionadas com o label26., Cada posição de base é então questionada duas vezes (uma Como a primeira base, e uma Como a segunda base, em um conjunto de 2 bp interrogado em um determinado ciclo) de modo que miscalls pode ser mais facilmente identificado.
um sistema relacionado ao sólido é o Polonador, também baseado em parte no sistema desenvolvido por J. S. e o Church group13 em Harvard. Esta plataforma também usa recursos sequenciadores gerados pela emulsão PCR e sequenciação por ligação. No entanto, o custo do instrumento é substancialmente inferior ao de outros instrumentos de sequenciação de segunda geração., Além disso, o instrumento é de código aberto e programável, possibilitando a inovação do usuário (por exemplo, o uso de bioquímicos alternativos). Os comprimentos de leitura atuais, no entanto, podem ser significativamente limitados.
uma desvantagem adicional, comum a 454, sólido e o Polonador, é que a emulsão PCR pode ser pesada e tecnicamente desafiadora., Por outro lado, é possível que a sequenciação em uma matriz de alta densidade de esferas muito pequenas (1 µm) (com sequenciação por ligação, extensão de polimerase, ou outra bioquímica) pode representar a oportunidade mais direta de alcançar densidades de dados extremamente elevadas, simplesmente porque as esferas de 1 µm fisicamente excluem-se umas às outras em um espaçamento que está na ordem do limite de difração. Além disso, ordenação de alta resolução de matrizes de contas de 1 µm, como descrito recentemente 29, pode permitir que o limite de um pixel por característica sequenciadora seja aproximado de perto.Heliscópio., O Helicos sequencer18, baseado no trabalho do grupo 30 de Quake, também se baseia na interrogação cíclica de uma densa variedade de características de sequenciamento. No entanto, um aspecto único desta plataforma é que não é necessária amplificação clonal. Em vez disso, um sistema de detecção de fluorescência altamente sensível é usado para interrogar diretamente moléculas de DNA individuais através da sequenciação por síntese., Bibliotecas Template, preparadas por fragmentação aleatória E Poly-a (isto é, sem amplificação PCR), são capturadas por hibridação a oligômeros poli-T ligados à superfície para produzir um conjunto desordenado de modelos de sequenciação de moléculas simples preparadas. Em cada ciclo, a DNA polimerase e uma única espécie de nucleótido marcado fluorescentemente são adicionados, resultando na extensão dependente de template da superfície-imobilized primer-template duplexes (Fig. 3d)., Após a aquisição de imagens que tiling o conjunto completo, a clivagem química e a liberação do rótulo fluorescente permite o ciclo subsequente de extensão e imagem. Como descrito em um relatório recente 18, várias centenas de ciclos de extensão de base única (isto é, A, G, C, T, A, G, C, T…) yield average read-lengths of 25 bp or greater. Aspectos notáveis deste sistema incluem o seguinte. Em primeiro lugar, como a plataforma 454, o sequenciamento é assíncrono, como algumas cadeias vão cair para a frente ou para trás de outras de uma forma sequencial-dependente., Chance também desempenha um papel, como alguns modelos podem simplesmente falhar em incorporar em um determinado ciclo, apesar de ter a base apropriada na posição seguinte. No entanto, como estas são moléculas únicas, o despasamento não é um problema, e tais eventos não em si mesmos e por si mesmos levam a erros.
Second, no termination metade is present on the labeled nucleotides. Como no sistema 454, portanto, as corridas de homopolímero são uma questão importante. No entanto, como moléculas individuais estão sendo sequenciadas, o problema pode ser mitigado através da limitação da taxa de eventos de incorporação. Além disso, Harris et al.,18 observou que incorporações consecutivas de nucleótidos rotulados em homopolímeros produziram uma interação de atenuação que permitiu aos autores inferir o número discreto de incorporações (por exemplo, A versus AA versus AAA).
Em terceiro lugar, a precisão de sequenciamento bruto pode ser substancialmente melhorada por uma estratégia de duas passagens na qual o conjunto de modelos de moléculas únicas (aqui com adaptadores em ambas as extremidades) é sequenciado como descrito acima, e então totalmente copiado. Como a nova cadeia sintetizada é ligada à superfície, o modelo original pode ser removido por desnaturação., Sequenciamento feito a partir do adaptador distal então produz uma segunda sequência para o mesmo modelo, obtida na orientação oposta. Posições que são concordantes entre as duas leituras têm pontuações de qualidade parecidas com phred aproximando-se de 30 (refs. 8,18).
E, finalmente, em grande parte secundária à incorporação de bases contaminantes, não marcadas ou não, o tipo de erro dominante é a exclusão (taxa de erro de 2-7% com uma passagem; 0,2–1% com duas passagens). No entanto, as taxas de erro de substituição são substancialmente mais baixas (0,01–1% com uma passagem)., Com dois passes, a taxa de erro de substituição raw por base (aproximando-se de 0,001%) pode ser atualmente a mais baixa de todas as plataformas de segunda geração.