AntoineForum11
2021-06-10 14:41:59
NGS = new generation sequencing
Les coûts de séquençage d'un génome humain complet (WGS) ont drastiquement diminués ces 20 dernières années grâce au NGShttps://image.noelshack.com/fichiers/2021/23/3/1623222755-cost-per-genome.png
Cette technique consiste à utiliser la stratégie shotgun, en gros on casse l'ADN en de nombreux petits morceaux, soit par ultra-sons à une bonne fréquence, soit par une enzyme de restriction, et on les lit
Comme le cadre de lecture ne peut pas tout lire en une seule fois, il faut recommencer des millions de fois (un cadre de lecture NGS lit généralement de 100 à 300 paires de bases)
C'est totalement aléatoire, on ne sait pas quelle région du génome va être séquencée à l'avance par le cadre de lecture
Donc on a inventé la notion de profondeur (depth), qui représente statistiquement combien de lectures on aura besoin pour séquencer le génome en entier
Cela peut être 1X, mais plus souvent 20X, 30X ; voir plus...
*La profondeur ne doit pas être confondue avec la couverture, qui représente soit le nombre de lectures effectives pour un nucléotide donné, soit le % de nucléotides du génome atteints par rapport à un génome de référence, dans tous les cas, la couverture précise ne peut être connue qu'après le séquençage complet du génome
Pourquoi le faire 30 fois quand on peut le faire en une fois ?
Pour trois raisons, déjà c'est statistique, si on veut atteindre une couverture totale du génome, une profondeur de 1x ne sera pas suffisante car la répartition est aléatoire, on aurait sûrement plus de chances de gagner au loto
Avec 30x, on atteint déjà une couverture de 99,9%
Ensuite, il y a un risque d'erreur sur des nucléotides (par exemple le cadre de lecture renvoi G au lieu de A)
Le risque d'erreur par paire de base est plutôt faible, généralement inférieur à 0,1%, mais il peut varier plus ou moins selon les régions du génome
Hors, si vous séquencez tout le génome avec un taux d'erreur de 1% par paire de base, vous aurez beaucoup d'erreurs
Pour définir le risque d'erreur, on assigne un score Phred à chaque read (il est automatiquement calculé par le séquenceur et contenu dans le fichier FASTQ, fichier de sortie des séquenceurs avant alignement)
L'intérêt de séquencer en plusieurs fois est donc de réduire ce risque d'erreur, et plus on augmente en couverture, plus le risque est diminué, jusqu'à atteindre un risque ridicule (les probabilités de mal appeler un nucléotide 30x est très faible)
Ensuite, si vous voulez faire la distinction entre les allèles des gènes, il vous faudra une bonne profondeur, car vous avez besoin de plusieurs séquences d'alignement
Mais vous ne comprenez pas encore ce que ça veut dire car une fois que l'on a fini de séquencer, tout n'est pas terminé
Il faut ensuite aligner les séquences, ça veut dire se repérer dans le génome, et je rappel que l'on a des millions de lectures de par exemple 200 paires de bases, c'est sûrement l'un des puzzles les plus compliqués au monde
Pour ça, on a deux techniques au choix, la plus utilisée (et la plus simple) est de l'aligner sur un génome de référence (GRCh37, GRCh38...)
En gros, on essaye de trouver des séquences des reads similaires à celles du génome de référence, puis on arrive à dire où est situé dans le génome une séquence
La deuxième, que l'on appel scaffolding, consiste à faire tourner des serveurs afin de trouver des séquences similaires (par exemple, sans prendre en compte la longueur du cadre de lecture, si j'ai un read avec TTGATAAAGCACCCCGCTCGGGTATGGC, et un autre avec TATGGCTAGGGCTCCGGACTG, je pourrais potentiellement les relier)
Cette technique demande énormément de temps et de puissance de calcul, donc peu utilisée
Aucune technique n'est parfaite mais on arrive à aligner 99% du génome de cette façon
C'est donc dont cela que je parle quand je dis qu'il faut plusieurs séquences d'alignement pour faire la distinction entre les allèles (soit des reads qu'on a aligné par rapport à un génome de référence), vous ne pouvez pas savoir à l'avance si le read concerne le premier ou deuxième allèle
Exemple ici avec mon génome sous IGVhttps://image.noelshack.com/fichiers/2021/23/4/1623326972-capture.png
Vous voyez ici plusieurs séquences d'alignement (des reads), si à un endroit j'avais eu par exemple un génotype G ; A, vous aurez vu la moitié des séquences d'alignement G, et l'autre moitié A
Maintenant que vous avez un peu compris ce que c'est, sachez que le séquençage NGS peut parfois poser problèmes, par exemple nous ne pouvons pas aligner les télomères, qui sont des séquences très répétitives et non codantes à l'extrémité des chromosomes
Nous ne pouvons pas non plus aligner les autres séquences répétées trop grandes pour le cadre de lecture, comme les expansion trinucléotidiques qui peuvent causer des maladies comme le X fragile (caractérisé par une répétition de la séquence CGG plus de 200 fois sur le gène FMR1)
Heureusement, la plupart (au moins plus de 95%) des maladies génétiques sont facilement détectables avec le NGS car elles se caractérisent par des indels (insertions / deletions) ou duplications généralement inférieures à 50 paires de bases, et dans l'écrasante majorité de cas ne concerne la variation que d'un seul nucléotide (appelé SNP et SNV), donc cela ne pose aucun problème pour aligner les séquences
Les duplications ou deletions peuvent être plus compliquées à détecter si elles sont suffisamment larges, mais on peut quand même les détecter
Il existe 4 techniques couramment utilisées, mais je vais n'en parler que d'une pour ne pas m'étaler car le topic est déjà long et aussi car c'est celle que je préfère utiliser
En cas de deletion, aucune séquence d'alignement ne sera présente à la région parcourue sur un logiciel, car il n'aura pas été possible de l'aligner sur le génome de référence étant donné qu'elle n'existe pas
Pour les duplications, la couverture de la région dupliquée sera doublée (c'est-à-dire qu'il y aura environ deux fois plus de séquences d'alignement que la normale), car cela veut dire qu'elle aura été lue deux fois par le cadre de lecture, et donc alignée deux fois
Un schéma simple (A)https://image.noelshack.com/fichiers/2021/23/4/1623327666-strategies-for-structural-variant-sv-detection-a-read-depth-reads-are-aligned.png
https://www.researchgate.net/figure/Strategies-for-structural-variant-SV-detection-A-Read-depth-Reads-are-aligned_fig2_275053925
Par exemple, en cas de microduplication 22q11.2, en moyenne de 3Mb (mégabases, soit 3 millions de nucléotides, alors que le cadre de lecture ne lit généralement pas plus de 300 paires de bases), on aura sur 3Mb deux fois plus de séquences d'alignement que par rapport à la moyenne du reste du génome