Les stratégies alternatives pour le séquençage de l’ADN peuvent être regroupées en plusieurs catégories (comme discuté précédemment dans ref. 4). Il s’agit notamment (i) des méthodes microélectrophorétiques9 (encadré 1), (ii) du séquençage par hybridation10 (Encadré 2), (iii) de l’observation en temps réel de molécules uniques11,12 (encadré 3) et (iv) du séquençage en réseau cyclique (J. S. et al.13 et Réf. 14)., Ici, nous utilisons la « deuxième génération » en référence aux différentes implémentations du séquençage cyclique qui ont récemment été réalisées dans un produit commercial (par exemple, le séquençage 454 (utilisé dans les séquenceurs du génome 454, Roche Applied Science; Bâle), la technologie Solexa (utilisée dans L’Analyseur de Génome Illumina (San Diego)), la plate-forme SOLiD (Applied Biosystems; Foster City, CA, USA), le Polonator (Dover/Harvard) et la technologie HeliScope single Molecule Sequencer (Helicos; Cambridge, MA, USA)., Le concept de séquençage en réseau cyclique peut être résumé comme le séquençage d’un réseau dense de caractéristiques de l’ADN par des cycles itératifs de manipulation enzymatique et de collecte de données basées sur l’image15 (Shendure et collègues 16). Deux rapports en 2005 ont décrit les premières mises en œuvre intégrées de stratégies à matrice cyclique qui étaient à la fois pratiques et concurrentielles par rapport au séquençage conventionnel (J. S. et al.13 et Réf. 14), et d’autres groupes ont rapidement suivi17, 18.,
bien que ces plates-formes soient très diverses en biochimie de séquençage ainsi que dans la façon dont le tableau est généré, leurs flux de travail sont conceptuellement similaires (Fig. 1b). La préparation de la Bibliothèque est réalisée par fragmentation aléatoire de l’ADN, suivie d’une ligature in vitro de séquences d’adaptation communes. Des protocoles alternatifs peuvent être utilisés pour générer des bibliothèques de sauts de balises appariées avec des distributions de distance contrôlables13,19., La génération d’amplicons clonalement groupés pour servir de fonctions de séquençage peut être réalisée par plusieurs approches, notamment les polonies15 in situ, la pcr20 en émulsion ou la pcr21,22 en pont (Fig. 2). Ce qui est commun à ces méthodes, c’est que les amplicons de PCR dérivés d’une molécule de bibliothèque unique donnée se retrouvent groupés spatialement, soit à un seul endroit sur un substrat plan (polonies in situ, PCR pont), soit à la surface de perles à l’échelle du micron, qui peuvent être récupérées et rangées (PCR émulsion)., Le processus de séquençage lui – même consiste en une alternance de cycles de biochimie enzymatique et d’acquisition de données par imagerie (Fig. 3). Les plates-formes qui sont discutées ici reposent toutes sur le séquençage par synthèse, c’est-à-dire l’extension en série de gabarits amorcés, mais l’enzyme conduisant la synthèse Peut être soit un polymérase16, 23,soit un ligase13,24. Les données sont acquises par imagerie du réseau complet à chaque cycle (par exemple, des nucléotides marqués fluorescemment incorporés par une polymérase).
Les avantages globaux des stratégies de deuxième génération ou de réseau cyclique, par rapport au séquençage Sanger, sont les suivants: (i) la construction in vitro d’une bibliothèque de séquençage, suivie d’une amplification clonale in vitro pour générer des caractéristiques de séquençage, contourne plusieurs goulots d’étranglement qui limitent le parallélisme du séquençage conventionnel (c’est-à-dire la transformation d’E. coli et la cueillette de colonies). (ii) le séquençage par réseau permet un degré de parallélisme beaucoup plus élevé que le séquençage capillaire classique., Étant donné que la taille effective des fonctions de séquençage peut être de l’ordre de 1 µm, des centaines de millions de lectures de séquençage peuvent potentiellement être obtenues en parallèle par imagerie pixellisée d’une surface de taille raisonnable. (iii) étant donné que les éléments du réseau sont immobilisés sur une surface plane, ils peuvent être manipulés enzymatiquement par un seul volume de réactif. Bien que les volumes de réactifs à l’échelle des microlitre soient utilisés dans la pratique, ceux-ci sont essentiellement amortis sur l’ensemble complet des caractéristiques de séquençage sur le réseau, abaissant le volume de réactif effectif par caractéristique à l’échelle des picolitres ou des femtolitres., Collectivement, ces différences se traduisent par des coûts considérablement inférieurs pour la production de séquences D’ADN.
Les avantages du séquençage de L’ADN de deuxième génération sont actuellement compensés par plusieurs inconvénients. Les plus importants d’entre eux comprennent la longueur de lecture (pour toutes les nouvelles plates-formes, les longueurs de lecture sont actuellement beaucoup plus courtes que le séquençage conventionnel) et la précision brute (en moyenne, les appels de base générés par les nouvelles plates-formes sont au moins dix fois moins précis que les appels de base générés par le séquençage Sanger)., Bien que ces limitations créent des défis algorithmiques importants pour l’avenir immédiat, nous devons garder à l’esprit que ces technologies continueront de s’améliorer par rapport à ces paramètres, tout comme le séquençage conventionnel a progressé progressivement sur trois décennies pour atteindre son niveau actuel de performance technique.
pyroséquençage 454. Le système 454 a été la première plate-forme de séquençage de nouvelle génération disponible en tant que produit commercial14. Dans cette approche, les bibliothèques peuvent être construites par n’importe quelle méthode qui donne lieu à un mélange de courts fragments flanqués d’adaptateur., Les caractéristiques de séquençage Clonal sont générées par PCR20 en émulsion, avec des amplicons capturés à la surface de perles de 28 µm (Fig. 2a). Après la rupture de l’émulsion, les billes sont traitées avec un dénaturant pour éliminer les brins non attachés, puis soumises à un enrichissement basé sur l’hybridation pour les billes porteuses d’amplicon (c’est-à-dire celles qui étaient présentes dans un compartiment d’émulsion supportant une réaction PCR productive). Une amorce de séquençage est hybridée à l’adaptateur universel à la position et à l’orientation appropriées, c’est-à-dire immédiatement adjacentes au début de la séquence inconnue.,
Le séquençage est effectué par la méthode de pyroséquence25 (Fig. 3a). En bref, les billes portant l’amplicon sont préincubées avec la polymérase Bacillus stearothermophilus (Bst) et la protéine de liaison simple brin, puis déposées sur un réseau microfabriqué de puits à l’échelle de picolitre (avec des dimensions telles qu’une seule perle s’adapte par puits) pour rendre cette biochimie compatible avec le séquençage basé sur un réseau. Des billes plus petites sont également ajoutées, portant des enzymes immobilisées également nécessaires pour le pyroséquençage (ATP sulfurylase et luciférase)., Au cours du séquençage, un côté du réseau semi-ordonné fonctionne comme une cellule d’écoulement pour introduire et retirer des réactifs de séquençage, tandis que l’autre côté est lié à un faisceau de fibres optiques pour la détection de signaux à base de CCD (dispositif à couplage de charge). À chacun de plusieurs centaines de cycles, une seule espèce de nucléotide non étiqueté est introduite. Sur les modèles où cela entraîne un événement d’incorporation, le pyrophosphate est libéré., Via L’ATP sulfurylase et la luciférase, les événements d’incorporation entraînent immédiatement la génération d’un éclat de lumière, qui est détecté par le CCD comme correspondant aux coordonnées du réseau de puits spécifiques. Contrairement à d’autres plates-formes, le séquençage par synthèse doit donc être surveillé en direct (c’est-à-dire que la caméra ne bouge pas par rapport au tableau). À travers plusieurs cycles (par exemple, A-G-C-T-A-G-C-T…), le modèle d’événements d’incorporation détectés révèle la séquence de modèles représentés par des perles individuelles., Comme L’Héliscope (discuté ci-dessous), le séquençage est « asynchrone » en ce sens que certaines fonctionnalités peuvent avancer ou reculer d’autres fonctionnalités en fonction de leur séquence par rapport à l’ordre d’addition de base.
une limitation majeure de la technologie 454 concerne les homopolymères (c’est-à-dire les instances consécutives de la même base, telles que AAA ou GGG). Comme il n’y a pas de fraction de terminaison empêchant plusieurs incorporations consécutives à un cycle donné, la longueur de tous les homopolymères doit être déduite de l’intensité du signal., Cela est sujet à un taux d’erreur plus élevé que la discrimination entre la constitution en société et la non-constitution en société. En conséquence, le type d’erreur dominant pour la plate-forme 454 est l’insertion-suppression, plutôt que la substitution. Par rapport aux autres plates-formes de nouvelle génération, le principal avantage de la plate-forme 454 est la longueur de lecture. Par exemple, l’instrument 454 FLX génère 400 000 reads de lectures par instrument-exécuté à des longueurs de 200 à 300 bp. Actuellement, le coût par base du séquençage avec la plate-forme 454 est beaucoup plus élevé que celui des autres plates-formes (par exemple,, SOLiD et Solexa) mais il peut être la méthode de choix pour certaines applications où de longues longueurs de lecture sont critiques (par exemple, l’assemblage de novo et la métagénomique).
Analyseur de Génome Illumina. Communément appelée « Solexa », cette plate—forme trouve son origine dans les travaux de Turcatti et de colleages22,23 et dans la fusion de quatre sociétés-Solexa (Essex, Royaume-Uni), Lynx Therapeutics (Hayward, CA, États-Unis), Manteia Predictive Medicine (Coinsins, Suisse) et Illumina., Les bibliothèques peuvent être construites par n’importe quelle méthode qui donne lieu à un mélange de fragments flanqués d’adaptateur jusqu’à plusieurs centaines de paires de bases (bp) de longueur. Les fonctions de séquençage amplifiées sont générées par bridge PCR21, 22 (fig. 2b). Dans cette approche, les amorces de PCR avant et arrière sont attachées à un substrat solide par un lieur flexible, de sorte que tous les amplicons provenant d’une molécule de modèle unique pendant l’amplification restent immobilisés et regroupés à un seul emplacement physique sur un réseau., Sur la plate-forme Illumina, la PCR pont est quelque peu non conventionnelle en s’appuyant sur des cycles alternés d’extension avec la polymérase Bst et de dénaturation avec le formamide. Les « clusters » résultants se composent chacun de ampl 1,000 amplicons clonaux. Plusieurs millions de clusters peuvent être amplifiés à des emplacements distinguables dans chacune des huit « voies » indépendantes qui se trouvent sur une seule cellule de flux (de sorte que huit bibliothèques indépendantes peuvent être séquencées en parallèle pendant la même exécution de l’instrument)., Après la génération de grappes, les amplicons sont monocaténaire (linéarisation) et une amorce de séquençage est hybridée à une séquence universelle flanquant la région d’intérêt. Chaque cycle d’interrogation de séquence consiste en une extension à base unique avec une ADN polymérase modifiée et un mélange de quatre nucléotides (Fig. 3b). Ces nucléotides sont modifiés de deux manières., Ce sont des « terminateurs réversibles », en ce sens qu’une fraction chimiquement clivable à la position 3′ hydroxyle ne permet qu’une incorporation d’une seule base à chaque cycle; et l’une des quatre étiquettes fluorescentes, également chimiquement clivables, correspond à l’identité de chaque nucléotide23. Après l’extension à base unique et l’acquisition d’images dans quatre canaux, le clivage chimique des deux groupes se met en place pour le cycle suivant. Les longueurs de lecture jusqu’à 36 PB sont actuellement routinières; des lectures plus longues sont possibles mais peuvent entraîner un taux d’erreur plus élevé.,
Les longueurs de lecture sont limitées par de multiples facteurs qui provoquent la décroissance et le déphasage du signal, tels que le clivage incomplet des étiquettes fluorescentes ou des fractions terminales. Le type d’erreur dominant est la substitution, plutôt que les insertions ou les suppressions (et les homopolymères sont certainement moins problématiques qu’avec d’autres plates-formes telles que 454). Les taux d’erreur bruts moyens sont de l’ordre de 1 à 1,5%, mais des bases de plus grande précision avec des taux d’erreur de 0,1% ou moins peuvent être identifiées grâce à des mesures de qualité associées à chaque appel de base., Comme avec d’autres systèmes, des modifications ont récemment permis des lectures appariées par Compagnon; par exemple, chaque caractéristique de séquençage produisant des lectures indépendantes de 2 × 36 bp dérivées de chaque extrémité d’une molécule de bibliothèque donnée de plusieurs centaines de bases de longueur.
AB solide. Cette plateforme trouve son origine dans le système décrit par J. S. et ses collaborateurs13 en 2005 et dans les travaux de McKernan et ses collaborateurs26 chez Agencourt Personal Genomics (Beverly, MA, USA) (acquis par Applied Biosystems (Foster City, CA, USA) en 2006)., Les bibliothèques peuvent être construites par n’importe quelle méthode qui donne lieu à un mélange de fragments courts et flanqués d’adaptateur, bien que beaucoup d’efforts aient été déployés avec ce système dans des protocoles pour les bibliothèques de balises appariées par compagnon avec des distributions de distance contrôlables et très flexibles.13, 19. Les caractéristiques de séquençage Clonal sont générées par PCR en émulsion, avec des amplicons capturés à la surface de perles paramagnétiques de 1 µm20 (Fig. 2a). Après la rupture de l’émulsion, des billes portant des produits d’amplification sont récupérées sélectivement, puis immobilisées sur un substrat plan solide pour générer un réseau dense et désordonné., Le séquençage par synthèse est piloté par une ligase D’ADN 13,24,26,27,28, plutôt qu’une polymérase. Une amorce universelle complémentaire à la séquence d’adaptateur est hybridée au réseau de billes de roulement d’amplicon. Chaque cycle de séquençage implique la ligature d’une population dégénérée d’octamères marqués fluorescemment (Fig. 3c). Le mélange d’octamères est structuré, en ce que l’identité de la ou des positions spécifiques à l’intérieur de l’octamère (par exemple, la base 5) est corrélée à l’identité de l’étiquette fluorescente., Après la ligature, les images sont acquises dans quatre canaux, ce qui permet de collecter efficacement des données pour les mêmes positions de base sur toutes les billes portant le gabarit. Ensuite, l’octamère est clivé chimiquement entre les positions 5 et 6, en supprimant l’étiquette fluorescente. Les rondes progressives de ligature octamère permettent le séquençage de chaque 5ème base (par exemple, bases 5, 10, 15, 20). Après avoir terminé plusieurs de ces cycles, l’amorce étendue est dénaturée pour réinitialiser le système. Les itérations suivantes de ce processus peuvent être dirigées vers un ensemble différent de positions (par exemple,, bases 4, 9, 14, 19) soit en utilisant une amorce qui est en retrait d’une ou plusieurs bases de la jonction Adaptateur-insert, soit en utilisant différents mélanges d’octamères où une position différente (par exemple, base 2) est corrélée avec l’étiquette. Une caractéristique supplémentaire de cette plate-forme implique l’utilisation d’un codage à deux bases, qui est un schéma de correction d’erreur dans lequel deux bases adjacentes, plutôt qu’une seule base, sont corrélées avec le label26., Chaque position de base est ensuite interrogée deux fois (une fois en tant que première base, et une fois en tant que deuxième base, dans un ensemble de 2 bp interrogé sur un cycle donné) de sorte que les erreurs d’appels peuvent être plus facilement identifiées.
un système apparenté au solide est le Polonator, également basé en partie sur le système développé par J. S. et le Church group13 à Harvard. Cette plateforme utilise également des fonctions de séquençage générées par PCR émulsion et de séquençage par ligature. Le coût de l’instrument est toutefois nettement inférieur à celui des autres instruments de séquençage de deuxième génération., De plus, l’instrument est open source et programmable, ce qui peut permettre l’innovation des utilisateurs (par exemple, l’utilisation de biochimies alternatives). Les longueurs de lecture actuelles, cependant, peuvent être considérablement limitatives.
un inconvénient supplémentaire, commun au 454, SOLiD et au Polonator, est que la PCR à émulsion peut être lourde et techniquement difficile., D’autre part, il est possible que le séquençage sur un réseau à haute densité de très petites billes (1 µm) (avec séquençage par ligature, extension de la polymérase ou autre biochimie) puisse représenter l’opportunité la plus simple d’obtenir des densités de données extrêmement élevées, simplement parce que les billes de 1 µm s’excluent physiquement les unes les autres à un espacement de l’ordre de la limite de diffraction. En outre, l’ordonnancement haute résolution des réseaux de billes de 1 µm, tel que décrit récemment29, peut permettre d’approcher de près la limite d’un pixel par fonction de séquençage.
Héliscope., Le séquenceur Helicos18, basé sur les travaux du groupe Quake 30, repose également sur l’interrogation cyclique d’un ensemble dense de fonctions de séquençage. Cependant, un aspect unique de cette plate-forme est qu’aucune amplification clonale n’est requise. Au lieu de cela, un système de détection de fluorescence très sensible est utilisé pour interroger directement des molécules D’ADN uniques via le séquençage par synthèse., Les bibliothèques de modèles, préparées par fragmentation aléatoire et tailing poly-A (c’est-à-dire sans amplification par PCR), sont capturées par hybridation en oligomères poly-T attachés en surface pour donner un réseau désordonné de modèles de séquençage à molécule unique amorcés. À chaque cycle, L’ADN polymérase et une seule espèce de nucléotide marqué par fluorescence sont ajoutés, ce qui entraîne une extension dépendante du gabarit des duplexes primer-gabarit immobilisés en surface (Fig. 3d)., Après l’acquisition d’images en mosaïque du réseau complet, le clivage chimique et la libération de l’étiquette fluorescente permettent le cycle ultérieur d’extension et d’imagerie. Comme décrit dans un rapport récent18, plusieurs centaines de cycles d’extension à base unique (C’est-à-dire A, G, C, T, A, G, C, T…) produire des longueurs de lecture moyennes de 25 pb ou plus. Aspects notables de ce système sont les suivantes. Tout d’abord, comme la plate-forme 454, le séquençage est asynchrone, car certains brins tomberont en avant ou en arrière d’autres de manière dépendante de la séquence., Le hasard joue également un rôle, car certains modèles peuvent simplement ne pas intégrer sur un cycle donné malgré la base appropriée à la position suivante. Cependant, comme il s’agit de molécules uniques, le déphasage n’est pas un problème et de tels événements ne conduisent pas en eux-mêmes à des erreurs.
Deuxièmement, aucune fraction terminante n’est présente sur les nucléotides marqués. Comme pour le système 454, les essais d’homopolymères sont donc un problème important. Cependant, étant donné que des molécules uniques sont séquencées, le problème peut être atténué en limitant le taux d’événements d’incorporation. De plus, Harris et coll.,18 a noté que les incorporations consécutives de nucléotides marqués au niveau des homopolymères produisaient une interaction de trempe qui permettait aux auteurs de déduire le nombre discret d’incorporations (p. ex., A VERSUS AA versus AAA).
Troisièmement, la précision du séquençage brut peut être considérablement améliorée par une stratégie à deux passes dans laquelle le réseau de modèles à molécule unique (ici avec des adaptateurs aux deux extrémités) est séquencé comme décrit ci-dessus, puis entièrement copié. Comme le brin nouvellement synthétisé est attaché à la surface, le gabarit d’origine peut être retiré par dénaturation., Le séquençage amorcé à partir de l’adaptateur distal donne alors une seconde séquence pour le même gabarit, obtenue dans l’orientation opposée. Les Positions qui sont concordantes entre les deux lectures ont des scores de qualité de type phred approchant 30 (réfs. 8,18).
et enfin, largement secondaire à l’incorporation de bases contaminantes, non étiquetées ou non émettrices, le type d’erreur dominant est la délétion (taux d’erreur de 2 à 7% avec une passe; 0,2 à 1% avec deux passes). Cependant, les taux d’erreur de substitution sont nettement plus faibles (0,01–1% avec un passage)., Avec deux passes, le taux d’erreur de substitution brute par base (approchant 0,001%) peut actuellement être le plus bas de toutes les plates-formes de deuxième génération.