Le SÉQUENÇAGE expliqué aux GOLEMS

2021-06-10 14:41:59

NGS = new generation sequencing

Les coûts de séquençage d'un génome humain complet (WGS) ont drastiquement diminués ces 20 dernières années grâce au NGShttps://image.noelshack.com/fichiers/2021/23/3/1623222755-cost-per-genome.png

Cette technique consiste à utiliser la stratégie shotgun, en gros on casse l'ADN en de nombreux petits morceaux, soit par ultra-sons à une bonne fréquence, soit par une enzyme de restriction, et on les lit

Comme le cadre de lecture ne peut pas tout lire en une seule fois, il faut recommencer des millions de fois (un cadre de lecture NGS lit généralement de 100 à 300 paires de bases)

C'est totalement aléatoire, on ne sait pas quelle région du génome va être séquencée à l'avance par le cadre de lecture
Donc on a inventé la notion de profondeur (depth), qui représente statistiquement combien de lectures on aura besoin pour séquencer le génome en entier
Cela peut être 1X, mais plus souvent 20X, 30X ; voir plus...

*La profondeur ne doit pas être confondue avec la couverture, qui représente soit le nombre de lectures effectives pour un nucléotide donné, soit le % de nucléotides du génome atteints par rapport à un génome de référence, dans tous les cas, la couverture précise ne peut être connue qu'après le séquençage complet du génome

Pourquoi le faire 30 fois quand on peut le faire en une fois ?
Pour trois raisons, déjà c'est statistique, si on veut atteindre une couverture totale du génome, une profondeur de 1x ne sera pas suffisante car la répartition est aléatoire, on aurait sûrement plus de chances de gagner au loto
Avec 30x, on atteint déjà une couverture de 99,9%

Ensuite, il y a un risque d'erreur sur des nucléotides (par exemple le cadre de lecture renvoi G au lieu de A)
Le risque d'erreur par paire de base est plutôt faible, généralement inférieur à 0,1%, mais il peut varier plus ou moins selon les régions du génome
Hors, si vous séquencez tout le génome avec un taux d'erreur de 1% par paire de base, vous aurez beaucoup d'erreurs
Pour définir le risque d'erreur, on assigne un score Phred à chaque read (il est automatiquement calculé par le séquenceur et contenu dans le fichier FASTQ, fichier de sortie des séquenceurs avant alignement)
L'intérêt de séquencer en plusieurs fois est donc de réduire ce risque d'erreur, et plus on augmente en couverture, plus le risque est diminué, jusqu'à atteindre un risque ridicule (les probabilités de mal appeler un nucléotide 30x est très faible)

Ensuite, si vous voulez faire la distinction entre les allèles des gènes, il vous faudra une bonne profondeur, car vous avez besoin de plusieurs séquences d'alignement

Mais vous ne comprenez pas encore ce que ça veut dire car une fois que l'on a fini de séquencer, tout n'est pas terminé
Il faut ensuite aligner les séquences, ça veut dire se repérer dans le génome, et je rappel que l'on a des millions de lectures de par exemple 200 paires de bases, c'est sûrement l'un des puzzles les plus compliqués au monde

Pour ça, on a deux techniques au choix, la plus utilisée (et la plus simple) est de l'aligner sur un génome de référence (GRCh37, GRCh38...)
En gros, on essaye de trouver des séquences des reads similaires à celles du génome de référence, puis on arrive à dire où est situé dans le génome une séquence

La deuxième, que l'on appel scaffolding, consiste à faire tourner des serveurs afin de trouver des séquences similaires (par exemple, sans prendre en compte la longueur du cadre de lecture, si j'ai un read avec TTGATAAAGCACCCCGCTCGGGTATGGC, et un autre avec TATGGCTAGGGCTCCGGACTG, je pourrais potentiellement les relier)
Cette technique demande énormément de temps et de puissance de calcul, donc peu utilisée

Aucune technique n'est parfaite mais on arrive à aligner 99% du génome de cette façon

C'est donc dont cela que je parle quand je dis qu'il faut plusieurs séquences d'alignement pour faire la distinction entre les allèles (soit des reads qu'on a aligné par rapport à un génome de référence), vous ne pouvez pas savoir à l'avance si le read concerne le premier ou deuxième allèle

Exemple ici avec mon génome sous IGVhttps://image.noelshack.com/fichiers/2021/23/4/1623326972-capture.png

Vous voyez ici plusieurs séquences d'alignement (des reads), si à un endroit j'avais eu par exemple un génotype G ; A, vous aurez vu la moitié des séquences d'alignement G, et l'autre moitié A

Maintenant que vous avez un peu compris ce que c'est, sachez que le séquençage NGS peut parfois poser problèmes, par exemple nous ne pouvons pas aligner les télomères, qui sont des séquences très répétitives et non codantes à l'extrémité des chromosomes
Nous ne pouvons pas non plus aligner les autres séquences répétées trop grandes pour le cadre de lecture, comme les expansion trinucléotidiques qui peuvent causer des maladies comme le X fragile (caractérisé par une répétition de la séquence CGG plus de 200 fois sur le gène FMR1)

Heureusement, la plupart (au moins plus de 95%) des maladies génétiques sont facilement détectables avec le NGS car elles se caractérisent par des indels (insertions / deletions) ou duplications généralement inférieures à 50 paires de bases, et dans l'écrasante majorité de cas ne concerne la variation que d'un seul nucléotide (appelé SNP et SNV), donc cela ne pose aucun problème pour aligner les séquences

Les duplications ou deletions peuvent être plus compliquées à détecter si elles sont suffisamment larges, mais on peut quand même les détecter
Il existe 4 techniques couramment utilisées, mais je vais n'en parler que d'une pour ne pas m'étaler car le topic est déjà long et aussi car c'est celle que je préfère utiliser

En cas de deletion, aucune séquence d'alignement ne sera présente à la région parcourue sur un logiciel, car il n'aura pas été possible de l'aligner sur le génome de référence étant donné qu'elle n'existe pas

Pour les duplications, la couverture de la région dupliquée sera doublée (c'est-à-dire qu'il y aura environ deux fois plus de séquences d'alignement que la normale), car cela veut dire qu'elle aura été lue deux fois par le cadre de lecture, et donc alignée deux fois

Un schéma simple (A)https://image.noelshack.com/fichiers/2021/23/4/1623327666-strategies-for-structural-variant-sv-detection-a-read-depth-reads-are-aligned.png
https://www.researchgate.net/figure/Strategies-for-structural-variant-SV-detection-A-Read-depth-Reads-are-aligned_fig2_275053925

Par exemple, en cas de microduplication 22q11.2, en moyenne de 3Mb (mégabases, soit 3 millions de nucléotides, alors que le cadre de lecture ne lit généralement pas plus de 300 paires de bases), on aura sur 3Mb deux fois plus de séquences d'alignement que par rapport à la moyenne du reste du génome

AntoineForum11

2021-06-10 14:43:46

Des questions ?

Grilladmerguez

2021-06-10 14:44:24

Oui une question le golem

Quand va tu arrêter de nous faire chier avec tes topics ?

https://image.noelshack.com/fichiers/2021/17/7/1619981810-ahiiiiii.png

canon2verre

2021-06-10 14:47:06

Palu + ok le golemhttps://image.noelshack.com/fichiers/2021/23/4/1623329224-126088-full.png

ma_bosse

2021-06-10 14:48:53

On s'en fout + boucle

GemeauxDeter5

2021-06-10 14:49:03

Bon et donc ?

AntoineForum11

2021-06-10 14:49:22

Le 10 juin 2021 à 14:49:03 :
Bon et donc ?

Si t'as tout lu, t'as des questions ?

Efla122

2021-06-10 14:49:37

Ta raison pour ne pas modifier tes gènes le golem ?https://image.noelshack.com/fichiers/2017/11/1489684815-8496846854658468546489.png

FionDeLesquen

2021-06-10 14:51:49

Ok, mais quand je me perds sur wikipédia j'en fais pas un topichttps://image.noelshack.com/fichiers/2021/05/1/1612200443-0toutforum.png

AnjouAstraI28

2021-06-10 14:52:27

"Un schéma simple"

Kh4r0n

2021-06-10 14:53:30

« Antoine-forum »

Retour à la liste des sujets.

AntoineForum11

2021-06-10 14:55:46

Le 10 juin 2021 à 14:52:27 :
"Un schéma simple"

Oui il est simple + j'ai dit de regarder la partie A
La partie deux c'est sur les lectures appariées (par exemple les machines de séquençages peuvent faire PE150, ça signifie PE = paired-ended / lecture appariée, 150 cadre de lecture par paires de bases)
Lecture appariée = lire dans les deux sens

L'autre c'est split reads = quand la couverture du génome n'est pas optimale, il peut y avoir des trous

Et le D de novo assembly, par exemple en utilisant le scaffolding dont j'ai parlé, quand tu ne te bases pas sur un génome de référence déjà existant

GemeauxDeter5

2021-06-10 15:00:23

Ca sert à quoi tout ça?

Hubert_Ponceur

2021-06-10 15:00:32

Arrête de forcer avec ton séquençage d'ADN.

Ça fait 4 jours que tu nous en parle je pense qu'on a fait le tour.

Également ton pavé n'incite pas a la lecture.

Tu peux disposax et deletent

https://image.noelshack.com/fichiers/2021/21/3/1622061287-2cf39e07-2c51-43bb-b252-5346cacddcfc.png

Hubert_Ponceur

2021-06-10 15:00:46

Le 10 juin 2021 à 15:00:23 :
Ca sert à quoi tout ça?

Donner un sens à sa vie.

rednik

2021-06-10 15:01:46

Pourquoi tu t’es donné la peine d’écrire ça ?

TheSteakachier

2021-06-10 15:02:34

Le 10 juin 2021 à 14:51:49 :
Ok, mais quand je me perds sur wikipédia j'en fais pas un topichttps://image.noelshack.com/fichiers/2021/05/1/1612200443-0toutforum.png

Ceci

Ton introduction à la bio-informatique est bonne mais concrètement on s'en bat les couilles

AntoineForum11

2021-06-10 15:03:27

Le 10 juin 2021 à 15:02:58 :
Le 10 juin 2021 à 15:01:46 :
Pourquoi tu t’es donné la peine d’écrire ça ?
Pour expliquer aux golems

Ce que je voulais dire, c'est que ça les rendras un peu moins golems

ritsuXyui

2021-06-10 15:03:35

Le 10 juin 2021 à 14:43:46 :
Des questions ?

Tu veux pas aller en parler sur Futura science ou avec des spécialistes ?

Là ce n'est pas si impressionnant tant que tu n'a pas fabriqué ton propre séquenceur.

Tu devrais monter ta boîte car pleins de pays ont besoin de tests PCR. C'est le bon filon.

AntoineForum11

2021-06-10 15:03:54

Le 10 juin 2021 à 15:03:35 :
Le 10 juin 2021 à 14:43:46 :
Des questions ?
Tu veux pas aller en parler sur Futura science ou avec des spécialistes ?
Là ce n'est pas si impressionnant tant que tu n'a pas fabriquer ton propre séquenceur.
Tu devrais monter ta boîte car pleins de pays ont besoin de tests PCR. C'est le bon filon.

Regarde les séquenceurs par nanopores d'Oxford style le séquenceur MinIon