Qu'est-ce que le génome humain : décodage. Vyacheslav TarantulLe génome humain : une encyclopédie écrite en quatre lettres Le génome humain contient des gènes

Cette section décrit les caractéristiques génétiques de divers organismes vivants.

informations générales

Avec paradoxe- la longueur des génomes ne dépend pas de la complexité de l'organisme.
Tailles comparatives du génome dans différents groupes d'organismes.

Tailles du génome et nombre de gènes

Un objet taille du génome, pb
Mycoplasmes 10 4 -10 6
Eubactéries (E.coli) 10 5 -10 7
Champignons (2-5)x10 7
Voir Nombre de gènes Longueur du génome, pb
Eubactéries
Mycoplasme génital 477 580.070
Synéchocystis sp. 3168 3573 mille
E. coli 4280 4.639.221
Helicobacter pylori 1590 1667 mille
Bacillus subtilis 4099 4214 mille
Aquifex aelolicus 1544 1551 mille
Mycobacterium tuberculosis 4402 4447 mille
Treponema pallidum 1041 1138 mille
Rickettsia prowazekii 834 1111 mille
Thermotoga maritima 1877 1860 mille
Archées
Méthanococcus sannaschii 1750 1664 mille
Archéoglobus fulgidus 2493 2178 mille
Aéropyrum pernix 2620 669 mille
Eucaryotes
Saccharomyces cerevisiae ~6300 12 069 mille
Arabidopsis thaliana ~26000 142 000 mille
Caenorhabditis elegans ~19000 97 000 mille
Drosophile melanogaster ~14000 137 000 mille
X. laevis
Homo sapiens ~30000 3.200.000 mille
Algue (5-7)x10 Vers ~10 8 Fruits de mer 5x10 8 -5x10 9 Insectes 10 8 -5x10 9 Crustacés ~10 9 Échinodermes 2x10 8 -2x10 9 Poisson 3x10 8 -10 10 Amphibiens 7x10 8 -7x10 10 Reptiles (2-3)10 9 Des oiseaux 10 9 Mammifères 3x10 9 Plantes à fleurs 2x10 8 -10 11

Génome eucaryote

Génome humain

Les humains possèdent 23 paires de chromosomes, 22 autosomes et 1 paire de chromosomes sexuels XX (femelle) ou XY (mâle).
Le génome humain haploïde comprend plus de 3 milliards de paires de bases d'ADN, d'une longueur totale d'environ 1,8 m. La quantité totale d'informations enregistrées dans l'ADN humain occupe environ 750 mégaoctets.
Le génome humain haploïde contient environ 20 000 à 25 000 gènes codant pour des protéines.
Environ 1,5 % du génome code pour des protéines, tandis que le reste de l'ADN comprend des séquences régulatrices, des introns, des séquences codantes pour l'ARN, diverses répétitions, etc.
Environ 8 % du génome est constitué de séquences inactivées de rétrovirus autrefois fonctionnels HERV (Rétrovirus endogène humain), dont le plus jeune, HERV-K, a environ 5 millions d’années.
Des chercheurs français ont reconstitué la séquence d'un des rétrovirus de la famille HERV-K contenus dans le génome. Dans les cellules de la lignée 239T, la transcription de l'ADN viral et la production de particules virales se sont produites. De plus, le virus lui-même, appelé Phoenix, s'est avéré capable d'effectuer de manière indépendante le cycle rétroviral complet depuis l'infection cellulaire jusqu'à l'intégration dans le génome et l'assemblage des particules virales. Certaines tumeurs, comme le tératocarcinome et le mélanome, expriment des protéines HERV distinctes. Cela ne suffit pas pour assembler un virus à part entière : il y a trop de mutations. Cependant, la « résurrection » d'un virus à part entière pourrait bien se produire en raison d'une recombinaison spontanée - la possibilité fondamentale en est confirmée par les résultats des scientifiques français.

Chromosome Genov Longueur, lundi Séquencé
1 3,148 247,200,000 224,999,719
2 902 242,750,000 237,712,649
3 1,436 199,450,000 194,704,827
4 453 191,260,000 187,297,063
5 609 180,840,000 177,702,766
6 1,585 170,900,000 167,273,992
7 1,824 158,820,000 154,952,424
8 781 146,270,000 142,612,826
9 1,229 140,440,000 120,312,298
10 1,312 135,370,000 131,624,737
11 405 134,450,000 131,130,853
12 1,330 132,290,000 130,303,534
13 623 114,130,000 95,559,980
14 886 106,360,000 88,290,585
15 676 100,340,000 81,341,915
16 898 88,820,000 78,884,754
17 1,367 78,650,000 77,800,220
18 365 76,120,000 74,656,155
19 1,553 63,810,000 55,785,651
20 816 62,440,000 59,505,254
21 446 46,940,000 34,171,998
22 595 49,530,000 34,893,953
X 1,093 154,910,000 151,058,754
Oui 125 57,740,000 22,429,293

Génome du chimpanzé

Génome de la drosophile

Génome du nématode

Génome mitochondrial

L'ADN dans les mitochondries est représenté par des molécules cycliques qui ne forment pas de liaisons avec les histones, elles ressemblent à des chromosomes bactériens.
Chez l'homme, l'ADN mitochondrial contient 16,5 mille pb, il est complètement déchiffré. Il a été constaté que l'ADN mitochondrial de divers objets est très homogène ; leur différence réside uniquement dans la taille des introns et des régions non transcrites. Tout l'ADN mitochondrial est représenté par plusieurs copies, collectées en groupes, en grappes. Ainsi, une mitochondrie hépatique de rat peut contenir de 1 à 50 molécules d'ADN cycliques. La quantité totale d’ADN mitochondrial par cellule est d’environ un pour cent. La synthèse de l'ADN mitochondrial n'est pas associée à la synthèse de l'ADN dans le noyau. Tout comme chez les bactéries, l'ADN mitochondrial est collecté dans une zone distincte - le nucléoïde, dont la taille est d'environ 0,4 micron de diamètre. Les mitochondries longues peuvent avoir de 1 à 10 nucléoïdes. Lorsqu’une longue mitochondrie se divise, une section contenant un nucléoïde en est séparée (semblable à la fission binaire des bactéries). La quantité d’ADN dans les nucléoïdes mitochondriaux individuels peut fluctuer jusqu’à 10 fois selon le type de cellule. Lorsque les mitochondries fusionnent, leurs composants internes peuvent être échangés.
L'ARNr et les ribosomes des mitochondries sont très différents de ceux du cytoplasme. Si des ribosomes des années 80 se trouvent dans le cytoplasme, alors les ribosomes des mitochondries des cellules végétales appartiennent aux ribosomes des années 70 (se composent de sous-unités 30 et 50, contiennent de l'ARN 16 et 23, caractéristique des cellules procaryotes), et des ribosomes plus petits (environ 50) se trouvent dans les mitochondries des cellules animales. Dans le mitoplasme, la synthèse des protéines se produit au niveau des ribosomes. Elle s'arrête, contrairement à la synthèse sur les ribosomes cytoplasmiques, sous l'action de l'antibiotique chloramphénicol, qui supprime la synthèse des protéines chez les bactéries.
Les ARN de transfert sont également synthétisés sur le génome mitochondrial ; un total de 22 ARNt sont synthétisés. Le code triplet du système de synthèse mitochondrial est différent de celui utilisé dans le hyaloplasme. Malgré la présence de tous les composants nécessaires à la synthèse des protéines, les petites molécules d'ADN mitochondrial ne peuvent pas coder toutes les protéines mitochondriales, seulement une petite partie d'entre elles. L'ADN a donc une taille de 15 000 pb. peut coder pour des protéines d'un poids moléculaire total d'environ 6x105. Dans le même temps, le poids moléculaire total des protéines d'une particule de l'ensemble respiratoire complet des mitochondries atteint une valeur d'environ 2x106.

Riz. Tailles relatives des mitochondries dans différents organismes.

Il est intéressant d’observer le devenir des mitochondries dans les cellules de levure. Dans des conditions aérobies, les cellules de levure possèdent des mitochondries typiques avec des crêtes clairement définies. Lorsque les cellules sont transférées dans des conditions anaérobies (par exemple, lorsqu'elles sont repiquées ou transférées dans une atmosphère d'azote), les mitochondries typiques ne sont pas détectées dans leur cytoplasme et de petites vésicules membranaires sont visibles. Il s'est avéré que dans des conditions anaérobies, les cellules de levure ne contiennent pas de chaîne respiratoire complète (les cytochromes b et a sont absents). Lorsque la culture est aérée, il y a une induction rapide de la biosynthèse des enzymes respiratoires, une forte augmentation de la consommation d'oxygène et des mitochondries normales apparaissent dans le cytoplasme.
Installation des gens sur Terre

Génome des plastes

Comme les mitochondries, les chloroplastes possèdent leur propre système génétique qui assure la synthèse d’un certain nombre de protéines au sein des plastes eux-mêmes. L'ADN, divers ARN et ribosomes se trouvent dans la matrice chloroplastique. Il s'est avéré que l'ADN des chloroplastes diffère fortement de l'ADN du noyau. Il est représenté par des molécules cycliques mesurant jusqu'à 40 à 60 microns de longueur, avec un poids moléculaire de 0,8 à 1,3 x 108 daltons. Il peut y avoir plusieurs copies d’ADN dans un chloroplaste. Ainsi, dans un chloroplaste de maïs individuel, il existe 20 à 40 copies de molécules d'ADN. La durée du cycle et le taux de réplication de l’ADN nucléaire et chloroplastique, comme cela a été démontré dans les cellules d’algues vertes, ne coïncident pas. L'ADN des chloroplastes n'est pas complexé aux histones. Toutes ces caractéristiques de l’ADN chloroplastique sont similaires aux caractéristiques de l’ADN des cellules procaryotes. De plus, la similitude de l'ADN des chloroplastes et des bactéries est encore renforcée par le fait que les principales séquences régulatrices de la transcription (promoteurs, terminateurs) sont les mêmes. Tous les types d'ARN (messager, de transfert, ribosomal) sont synthétisés sur l'ADN des chloroplastes. L'ADN chloroplastique code pour l'ARNr, qui fait partie des ribosomes de ces plastes, qui appartiennent au type procaryote 70S (contiennent des ARNr 16S et 23S). Les ribosomes chloroplastiques sont sensibles à l'antibiotique chloramphénicol, qui inhibe la synthèse des protéines dans les cellules procaryotes.
riz.
Formation d'épingles à cheveux dans l'ADN de certains chloroplastes.

Tout comme dans le cas des chloroplastes, nous sommes à nouveau confrontés à
l'existence d'un système spécial de synthèse des protéines, différent de
un dans une cage.

Ces découvertes ont ravivé l'intérêt pour la théorie des phénomènes symbiotiques.
origine des chloroplastes. L'idée selon laquelle les chloroplastes
est apparu en raison de la combinaison de cellules hétérotrophes avec des procaryotes
algues bleu-vert, exprimées au tournant des XIX et XX
des siècles (A.S. Fomintsin, K.S. Merezhkovsky) retrouve le sien
confirmation. Cette théorie est étayée par quelque chose de surprenant.
similitudes dans la structure des chloroplastes et des algues bleu-vert,
similitude avec leurs principales caractéristiques fonctionnelles, et
principalement avec la capacité de processus photosynthétiques.


riz. Composition du génome des plastes chez Arabidopsis.

De nombreux faits sur la véritable endosymbiose des bleus-verts sont connus
algues avec des cellules de plantes inférieures et de protozoaires, où
ils fonctionnent et fournissent à la cellule hôte les produits de la photosynthèse.
Il s'est avéré que des chloroplastes isolés peuvent également être sélectionnés
par certaines cellules et utilisé par elles comme endosymbiontes.
Chez de nombreux invertébrés (rotifères, mollusques) qui se nourrissent
algues supérieures, qu'elles digèrent intactes
les chloroplastes se retrouvent à l'intérieur des cellules des glandes digestives.
Ainsi, chez certains mollusques herbivores, des cellules ont été trouvées
chloroplastes intacts avec des cellules photosynthétiques fonctionnelles
systèmes dont l'activité a été surveillée par l'inclusion de C14O2.

Il s'est avéré que les chloroplastes peuvent être introduits dans le cytoplasme
cellules de culture de fibroblastes de souris par pinocytose. Cependant
ils n'ont pas été attaqués par les hydrolases. De telles cellules, qui comprenaient
les chloroplastes verts, pourraient se diviser sur cinq générations,
tandis que les chloroplastes restaient intacts et effectuaient
réactions photosynthétiques. Des tentatives ont été faites pour cultiver
les chloroplastes en milieu artificiel : les chloroplastes pourraient photosynthétiser,
La synthèse d'ARN y a eu lieu, ils sont restés intacts pendant 100 heures,
des divisions ont été observées même en 24 heures. Mais ensuite c'est arrivé
une baisse de l'activité des chloroplastes et ils sont morts.

Ces observations et un certain nombre d'études biochimiques ont montré
que les caractéristiques d'autonomie que possèdent les chloroplastes sont également
insuffisant pour le maintien à long terme de leurs fonctions et thèmes
plus pour leur reproduction.

Récemment, il a été possible de déchiffrer complètement toute la séquence
nucléotides dans la molécule d'ADN cyclique des chloroplastes
plantes supérieures. Cet ADN peut coder jusqu'à 120 gènes,
parmi eux : 4 gènes d'ARN ribosomal, 20 protéines ribosomales chloroplastiques,
gènes de certaines sous-unités de l'ARN polymérase chloroplastique, plusieurs
protéines I et II des photosystèmes, 9 des 12 sous-unités de l'ATP synthétase,
parties des protéines des complexes de la chaîne de transport d'électrons, une
à partir de sous-unités de ribulose diphosphate carboxylase (enzyme clé
liaison au CO2), 30 molécules d'ARNt et 40 autres encore inconnues
protéines. Il est intéressant de noter qu'un ensemble similaire de gènes dans l'ADN des chloroplastes
trouvé chez des représentants si éloignés de niveaux supérieurs
des plantes comme le tabac et la mousse de foie.

La majeure partie des protéines chloroplastiques est contrôlée par le noyau
génome. Il s'est avéré qu'un certain nombre des protéines, enzymes,
et, par conséquent, les processus métaboliques des chloroplastes
sont sous le contrôle génétique du noyau. Oui, cellulaire
le noyau contrôle les différentes étapes de la synthèse de la chlorophylle, des caroténoïdes,
lipides, amidon. Beaucoup sont sous contrôle nucléaire
enzymes du stade sombre de la photosynthèse et autres enzymes, dans
y compris certains composants de la chaîne de transport des électrons.
Les gènes nucléaires codent pour l'ADN polymérase et l'aminoacyl-ARNt synthétase
chloroplastes. Sous le contrôle des gènes nucléaires, il existe un grand
partie des protéines ribosomales. Toutes ces données nous font parler
sur les chloroplastes, ainsi que sur les mitochondries, en tant que structures
avec une autonomie limitée.

Le transport des protéines du cytoplasme vers les plastes se produit en principe
semblable à celui des mitochondries. Ici aussi dans les lieux de convergence
Les membranes externe et interne du chloroplaste contiennent des membranes formant des canaux
protéines intégrales qui reconnaissent les séquences signal
protéines chloroplastiques synthétisées dans le cytoplasme et le transport
les dans le stroma matriciel. Protéines importées du stroma selon
des séquences de signaux supplémentaires peuvent inclure
dans les membranes plastides (thylakoïdes, lamelles stromales, externes
et membrane interne) ou localisée dans le stroma, entrant
dans la composition des ribosomes, des complexes enzymatiques du cycle de Calvin et
etc.

Similitude étonnante de structure et de processus énergétiques
dans les bactéries et les mitochondries, d'une part, et en bleu-vert
algues et chloroplastes - en revanche, constitue un argument convaincant
en faveur de la théorie de l'origine symbiotique de ces organites.
Selon cette théorie, l'émergence d'une cellule eucaryote
a traversé plusieurs étapes de symbiose avec d’autres cellules.
Au premier stade, des cellules telles que les bactéries hétérotrophes anaérobies
comprenaient des bactéries aérobies qui se sont transformées en mitochondries.
Parallèlement, dans la cellule hôte, un génophore procaryote
se forme en un noyau séparé du cytoplasme. Pour qu'ils puissent
des cellules eucaryotes hétérotrophes apparaissent. Répété
relations endosymbiotiques entre eucaryotes primaires
cellules et algues bleu-vert ont conduit à l'apparition
ils contiennent des structures de type chloroplaste qui permettent aux cellules d'effectuer
processus autosynthétiques et ne dépendent pas de la présence de matières organiques
substrats (Fig. 236). En train de devenir un tel composite
système vivant faisant partie de l’information génétique des mitochondries
et le plaste pourrait changer, entrer dans le noyau. Par exemple
les deux tiers des 60 protéines ribosomales des chloroplastes sont codées
dans le noyau et sont synthétisés dans le cytoplasme, puis incorporés
en ribosomes chloroplastiques, qui possèdent toutes les propriétés des procaryotes
ribosomes Ce mouvement d'une grande partie des procaryotes
gènes dans le noyau a conduit au fait que ces organites cellulaires,
ayant conservé une partie de leur ancienne autonomie, ils passèrent sous le contrôle du réseau cellulaire
noyau, qui détermine dans une plus large mesure tous les principaux éléments cellulaires
les fonctions.

MOSCOU, le 4 juillet— RIA Novosti, Anna Urmantseva. Qui a le plus gros génome ? Comme vous le savez, certaines créatures ont une structure plus complexe que d'autres, et puisque tout est écrit dans l'ADN, cela devrait également se refléter dans son code. Il s'avère qu'une personne avec son discours développé devrait être plus complexe qu'un petit ver rond. Cependant, si vous nous comparez à un ver en termes de nombre de gènes, vous obtenez à peu près la même chose : 20 000 gènes de Caenorhabditis elegans contre 20 à 25 000 gènes d'Homo sapiens.

Les comparaisons avec le riz et le maïs sont encore plus offensantes pour la « couronne des créatures terrestres » et le « roi de la nature » - 50 000 gènes par rapport aux 25 humains.

Cependant, peut-être pensons-nous mal ? Les gènes sont des « boîtes » dans lesquelles sont emballés les nucléotides – les « lettres » du génome. Peut-être les compter ? Les humains possèdent 3,2 milliards de paires de nucléotides. Mais l'œil-de-corbeau du Japon (Paris japonica) - une belle plante aux fleurs blanches - possède 150 milliards de paires de bases dans son génome. Il s'avère qu'une personne devrait être 50 fois plus simple qu'une fleur.

Et les protoptères du poisson-poumon (poisson-poumon - ayant à la fois une respiration branchiale et pulmonaire) s'avèrent être 40 fois plus complexes que les humains. Peut-être que tous les poissons sont d’une manière ou d’une autre plus complexes que les humains ? Non. Le poisson fugu venimeux, à partir duquel les Japonais préparent un mets délicat, possède un génome huit fois plus petit que celui de l'homme et 330 fois plus petit que celui du poisson-poumon Protoptera.
Il ne reste plus qu'à compter les chromosomes - mais cela brouille encore plus le tableau. Comment une personne peut-elle avoir un nombre de chromosomes égal à celui d’un frêne et un chimpanzé à un cafard ?


Les biologistes évolutionnistes et les généticiens ont été confrontés à ces paradoxes il y a longtemps. Ils ont été forcés d’admettre que la taille du génome, quelle que soit la manière dont nous essayons de la calculer, n’a absolument aucun rapport avec la complexité de l’organisation des organismes. Ce paradoxe a été appelé le « mystère de la valeur C », où C est la quantité d'ADN dans la cellule (paradoxe de la valeur C, la traduction exacte est « paradoxe de la taille du génome »). Et pourtant certaines corrélations entre espèces et règnes existent.

© Illustration de RIA Novosti. A. Polyanine


© Illustration de RIA Novosti. A. Polyanine

Il est clair, par exemple, que les eucaryotes (organismes vivants dont les cellules contiennent un noyau) ont, en moyenne, un génome plus grand que les procaryotes (organismes vivants dont les cellules ne contiennent pas de noyau). Les vertébrés ont, en moyenne, un génome plus grand que celui des invertébrés. Il existe cependant des exceptions que personne n’a encore pu expliquer.

Des généticiens ont déchiffré l'ADN d'une plante capable de survivre à une explosion atomiqueLes scientifiques ont pour la première fois déchiffré le génome complet du ginkgo, la plus ancienne plante moderne sur Terre, dont les premiers représentants sont apparus avant même la naissance des premiers dinosaures, à l'époque des lézards.

Certains suggèrent que la taille du génome est liée à la durée du cycle de vie d'un organisme. En utilisant les plantes comme exemple, certains scientifiques ont soutenu que les espèces vivaces ont un génome plus grand que celui des espèces annuelles, généralement avec une différence de plusieurs fois. Et les plus petits génomes appartiennent à des plantes éphémères, qui parcourent le cycle complet de la naissance à la mort en quelques semaines. Cette question est actuellement activement discutée dans les cercles scientifiques.

Explique le chercheur principal de l'Institut de génétique générale. N.I. Vavilova de l'Académie des sciences de Russie, professeur à l'Université agromécanique du Texas et à l'Université de Göttingen Konstantin Krutovsky : « La taille du génome n'est pas liée à la durée du cycle de vie de l'organisme. Par exemple, il existe des espèces à l'intérieur ! le même genre qui a la même taille de génome, mais peut différer en termes d'espérance de vie des dizaines, voire des centaines de fois. En général, il existe un lien entre la taille du génome et l'avancement évolutif et la complexité de l'organisation, mais à de nombreuses exceptions près. la taille est associée à la ploïdie (nombre de copies) du génome (et les polyploïdes se trouvent à la fois chez les plantes et les animaux) et à la quantité d'ADN hautement répétitif (répétitions simples et complexes, transposons et autres éléments mobiles).

La génétique a « ressuscité » un maïs vieux de cinq mille ansLes généticiens ont pu extraire l’ADN d’anciens restes de maïs « cultivé » et restaurer son génome, qui désignait des racines plus anciennes de la plante préférée de Nikita Sergueïevitch Khrouchtchev qu’on ne le pensait auparavant.

Il existe également des scientifiques qui ont un point de vue différent sur cette question.

Tous les chromosomes et l'ADN mitochondrial. Actuellement, ces données sont activement utilisées partout dans le monde dans la recherche biomédicale. Le séquençage complet a révélé que le génome humain contient 20 à 25 000 gènes actifs, ce qui est nettement moins que prévu au début du projet (environ 100 000) - c'est-à-dire que seulement 1,5 % de tout le matériel génétique code pour des protéines ou de l'ARN fonctionnel. Le reste est constitué d’ADN non codant, souvent appelé ADN indésirable, mais dont il a été démontré qu’il joue un rôle important dans la régulation de l’activité des gènes et dans la formation de l’ensemble de l’organisme au cours du développement.

Particularités

Chromosomes

Le génome contient 23 paires de chromosomes : 22 paires de chromosomes autosomiques, ainsi qu'une paire de chromosomes sexuels X et Y. Chez l'homme, le sexe masculin est hétérogamétique et est déterminé par la présence du chromosome Y. Les cellules somatiques diploïdes normales possèdent 46 chromosomes.

Gènes

Des estimations préliminaires suggèrent la présence de plus de 100 000 gènes dans le génome humain. Selon les résultats du Human Genome Project, le nombre de gènes, ou plutôt de cadres de lecture ouverts, était d'environ 28 000 gènes. Dans le cadre de l'amélioration des méthodes de recherche (prédiction) des gènes, une nouvelle réduction du nombre de gènes est attendue.

Le nombre de gènes humains n'est pas beaucoup plus grand que le nombre de gènes dans des organismes plus simples, par exemple un ascaris. Caenorhabditis elegans ou vole Drosophile melanogaster. Cela est dû au fait que l’épissage alternatif est largement représenté dans le génome humain. L'épissage alternatif vous permet d'obtenir plusieurs chaînes protéiques différentes à partir d'un gène. En conséquence, le protéome humain s'avère nettement plus grand que le protéome des organismes considérés. La plupart des gènes humains ont plusieurs exons et les introns sont souvent beaucoup plus longs que les exons limitrophes du gène.

Les gènes sont inégalement répartis sur les chromosomes. Chaque chromosome contient des régions riches et pauvres en gènes. Ces régions sont en corrélation avec les courbures chromosomiques (rayures visibles au microscope sur le chromosome) et avec les régions riches en CG. À l’heure actuelle, l’importance de cette répartition inégale des gènes n’est pas entièrement comprise.

En plus des gènes codant pour les protéines, le génome humain contient des milliers de gènes d'ARN, notamment l'ARN de transfert (ARNt), l'ARN ribosomal, le microARN et d'autres séquences d'ARN non codantes pour les protéines.

Le génome du poisson-globe est environ huit fois plus petit que le génome humain et 330 fois plus petit que celui des protoptères du poisson-poumon. Quels « fantômes » vivent dans les « cimetières du génome » et quelle quantité de déchets contient notre ADN ?

Le célèbre biologiste moléculaire David Penney du Centre Allen Wilson pour l'écologie et l'évolution moléculaires de l'Université Massey de Nouvelle-Zélande a déclaré un jour : « J'aurais été très fier de faire partie du groupe qui a développé le génome d'E. coli. Cependant, je n’admettrai jamais avoir participé à la conception du génome humain. Aucune université n’aurait pu autant ruiner ce projet. La quantité de déchets présents dans notre ADN est l’un des sujets les plus brûlants de la communauté scientifique. De véritables batailles verbales éclatent entre scientifiques autour de cette question.

Un peu de génétique moléculaire

Rappelons que la base de la transmission de l'information héréditaire est la molécule d'ADN double brin. C'est un polymère de quatre types de monomères (nucléotides) : adénine (A), thymine (T), cytosine (C) et guanine (G) - et est disposé en chromosomes. Les humains possèdent 23 paires de chromosomes situés dans le noyau (22 paires de chromosomes non sexuels et une paire de chromosomes sexuels). Ils constituent la base de notre génome (37 autres gènes contiennent de l'ADN mitochondrial circulaire). Si nous prenions une cellule humaine, cousions ensemble l'ensemble des chromosomes diploïdes (appariés) et l'étirions en un fil, nous obtiendrions une molécule de deux mètres de long, composée de six milliards de paires de bases (nucléotides). Trois milliards de papa et trois de maman.

Le type de séquences d’ADN fonctionnel le plus étudié est celui des gènes qui codent pour les protéines. Une molécule d'ARN est lue à partir de ces gènes, qui joue alors le rôle de matrice pour la synthèse des protéines et détermine leur séquence d'acides aminés. La partie codante de la molécule d'ARN peut être divisée en triplets de nucléotides (codons), qui correspondent soit à un certain acide aminé, soit déterminent le point final de la synthèse protéique (codons d'arrêt). La règle permettant de faire correspondre les codons aux acides aminés s’appelle le code génétique. Par exemple, le codon GCC code pour l’acide aminé alanine.

Comparons les gènes ?

On pensait autrefois qu’un organisme aussi complexe qu’une personne devait posséder de nombreux gènes. Alors que le projet du génome humain était presque terminé, les scientifiques ont même lancé un pari : combien de gènes seraient découverts ?

Imaginez leur surprise lorsqu'il s'est avéré que le nombre de gènes chez une personne et un petit ascaris Caenorhabditis elegansà peu près le même. Un ver possède environ 20 000 gènes et nous en avons 20 à 25 000.

Pour la « couronne de la création », ce fait est assez offensant, surtout si l'on considère qu'il existe de nombreux organismes dotés à la fois de génomes plus grands (le génome du poisson-poumon Protopterus, Protopterus aethiopicus, 40 fois plus que l'humain), et avec un plus grand nombre de gènes (le riz possède 32 à 50 000 gènes).

Mais en réalité, moins de 2 % du génome humain code pour des protéines. À quoi servent les 98 % restants ? Peut-être est-ce là le secret de notre complexité ? Il s’est avéré qu’il existe d’importantes régions non codantes de l’ADN. Par exemple, ce sont des régions de promoteurs - des séquences nucléotidiques sur lesquelles se trouve l'enzyme ARN polymérase et à partir desquelles commence la synthèse d'une molécule d'ARN. Ce sont des sites de liaison pour les facteurs de transcription, des protéines qui régulent la fonction des gènes. Ce sont des télomères, qui protègent les extrémités des chromosomes, et des centromères, qui sont nécessaires à la séparation correcte des chromosomes en différents pôles des cellules lors de la division. Certaines molécules d'ARN régulatrices sont connues (par exemple, les microARN qui empêchent la synthèse des protéines des gènes correspondants sur l'ARN messager - une copie du gène source), ainsi que des molécules d'ARN qui font partie de complexes enzymatiques importants - par exemple, les ribosomes , qui assemblent des protéines à partir d'acides aminés individuels, en se déplaçant le long de l'ARN messager. Il existe d’autres exemples de régions non codantes importantes de l’ADN.

Pourtant, la majeure partie de notre génome ressemble à un désert : des séquences répétées, des restes de virus « morts » autrefois intégrés dans les génomes de nos ancêtres ; éléments mobiles dits égoïstes - séquences d'ADN qui peuvent passer d'une partie du génome à une autre ; divers pseudogènes - des séquences nucléotidiques qui ont perdu la capacité de coder des protéines à la suite de mutations, mais conservent néanmoins certaines caractéristiques des gènes. Il ne s’agit pas d’une liste complète des « fantômes » vivant dans le « cimetière du génome ».

Souris minimale

Il existe un point de vue selon lequel la majeure partie du génome humain est non fonctionnelle. En 2004, le magazine Nature a publié un article décrivant des souris dont le génome a été découpé avec des fragments significatifs d'ADN non codant mesurant 0,8 et même 1,5 millions de nucléotides. Il a été démontré que ces souris ne diffèrent pas des souris ordinaires par leur structure corporelle, leur développement, leur espérance de vie ou leur capacité à laisser une progéniture. Bien sûr, certaines différences peuvent passer inaperçues, mais dans l’ensemble, il s’agit d’un argument sérieux en faveur de l’existence d’un « ADN indésirable », dont on peut se débarrasser sans conséquences particulières. Bien sûr, il serait intéressant de supprimer non pas quelques millions de nucléotides, mais un milliard, ne laissant que les séquences génétiques prédites et les éléments fonctionnels connus. Sera-t-il possible de développer une telle « souris minimale » et pourra-t-elle exister normalement ? Une personne peut-elle se contenter d’un génome d’à peine un demi-mètre de long ? Peut-être qu'un jour nous le saurons. Parallèlement, un autre argument important en faveur de l’existence d’ADN indésirable est la présence d’organismes assez proches avec des tailles de génome très différentes.

Le génome du poisson-globe est environ huit fois plus petit que le génome humain (bien qu'il contienne à peu près le même nombre de gènes) et 330 fois plus petit que le génome du poisson Protoptera déjà mentionné. Si chaque nucléotide du génome était fonctionnel, on ne sait pas pourquoi les oignons auraient besoin d’un génome cinq fois plus grand que le nôtre ?

Le biologiste évolutionniste Susumu Ono a attiré l'attention sur les différences colossales dans la taille des génomes d'organismes similaires. On pense que c’est Ono qui a inventé le terme « ADN indésirable ». En 1972, bien avant que le génome humain ne soit lu, Ono a exprimé des idées plausibles sur le nombre de gènes dans le génome humain et la quantité de « déchets » qu'il contient. Dans son article « Tant d’ADN indésirable dans notre génome », il note qu’il doit y avoir environ 30 000 gènes dans le génome humain. Ce chiffre, qui n'était pas du tout évident à l'époque, s'est avéré étonnamment proche du chiffre réel, découvert des décennies plus tard. De plus, Ono fournit une estimation de la fraction fonctionnelle du génome (6%), déclarant que plus de 90% du génome humain est indésirable.


spécialiste en biologie évolutive et génomique intégrative, professeur agrégé à l'Université canadienne de Guelph en Ontario :


« Le test de l’oignon est un bon test pour quiconque pense que chaque nucléotide du génome humain a une fonction spécifique. Quelles que soient ces fonctions putatives, demandez-vous : pourquoi un oignon typique a-t-il besoin d’un génome environ cinq fois plus grand que le vôtre ? »

Trouver ou jeter ?

L'idée de l'existence de l'ADN indésirable a été remise en question par le projet ENCODE - The Encyclopedia of DNA Elements (ses premiers résultats ont été publiés dans la revue Nature en 2012). Ayant reçu de nombreuses données expérimentales sur les parties du génome humain qui interagissent avec diverses protéines, sont impliquées dans la transcription - la synthèse de copies d'ARN de gènes pour une traduction ultérieure (synthèse de protéines à partir d'acides aminés sur une matrice d'ARN messager) - ou d'autres processus biochimiques, les auteurs sont arrivés à la conclusion que plus de 80 % du génome humain est fonctionnel d'une manière ou d'une autre. Bien entendu, cette thèse a suscité de vives discussions au sein de la communauté scientifique.

L'un des articles les plus ironiques a été publié par Dan Graur, bioinformaticien évolutionniste moléculaire et professeur à l'Université de Houston, et ses collègues en 2013 dans la revue Biologie et évolution du génome, s’intitule : « Sur l’immortalité des téléviseurs : « fonction » dans le génome humain selon l’Évangile sans évolution d’ENCODE. Ses auteurs notent que les membres individuels du consortium ENCODE ne sont pas d'accord sur la part du génome qui est fonctionnelle. Ainsi, l'un d'eux s'est vite précisé dans le magazine Génomicron qu'on ne parle pas de 80% des séquences fonctionnelles du génome, mais d'environ 40%, mais d'un autre (dans l'article de Américain scientifique) et a complètement réduit ce chiffre à 20 %, tout en continuant à insister sur la suppression du terme « ADN indésirable » du lexique.

Selon les auteurs de l'article « Sur l'immortalité des téléviseurs », les membres du consortium ENCODE interprètent trop librement le terme « fonction ». Il existe par exemple des protéines appelées histones. Ils peuvent lier la molécule d’ADN et l’aider à se replier de manière compacte. Les histones peuvent subir certaines modifications chimiques. Selon ENCODE, la fonction putative d'une de ces modifications d'histone est de "préférer être à l'extrémité 5" des gènes (l'extrémité 5" est l'extrémité du gène à partir de laquelle les enzymes ADN et ARN polymérase se déplacent lors de la copie de l'ADN ou pendant transcription). « De la même manière, on pourrait dire que la fonction de la Maison Blanche est d’occuper l’espace situé au 1600 Pennsylvania Avenue, à Washington, D.C. », notent les opposants.

Il existe également un problème avec l’attribution de fonctions aux sections d’ADN. Supposons qu'une protéine importante pour le fonctionnement de la cellule soit capable de s'attacher à une certaine section de l'ADN, et donc ENCODE attribue une « fonction » à cette section. Par exemple, un certain facteur de transcription - une protéine qui initie la synthèse de l'ARN messager - se lie à la séquence nucléotidique suivante : TATAAA. Considérons deux séquences TATAAA identiques dans différentes parties du génome. Une fois que le facteur de transcription s'est lié à la première séquence, la synthèse d'une molécule d'ARN commence, qui sert de modèle pour la synthèse d'une autre protéine importante. Les mutations (substitutions de l'un des nucléotides) dans cette séquence entraîneront une mauvaise lecture de l'ARN, la protéine ne sera pas synthétisée, ce qui affectera très probablement négativement la survie de l'organisme. Par conséquent, la séquence correcte de TATAAA sera maintenue à un endroit donné du génome par sélection naturelle, auquel cas il convient de parler de sa fonction.

Une autre séquence TATAAA est apparue dans le génome pour des raisons aléatoires. Comme il est identique au premier, un facteur de transcription s’y lie également. Mais il n’y a aucun gène à proximité, donc la liaison ne mène à rien. Si une mutation se produit dans cette zone, rien ne changera et le corps ne souffrira pas. Dans ce cas, cela ne sert à rien de parler de la fonction de la deuxième section de TATAAA. Cependant, il se peut que la présence d'un grand nombre de séquences TATAAA dans le génome, éloignées des gènes, soit simplement nécessaire pour lier le facteur de transcription et réduire sa concentration efficace. Dans ce cas, la sélection régulera le nombre de ces séquences dans le génome.

Pour prouver qu'un certain morceau d'ADN est fonctionnel, il ne suffit pas de montrer qu'un processus biologique (par exemple, la liaison de l'ADN) se produit dans cette région. Les membres du consortium ENCODE écrivent que les régions d'ADN impliquées dans la transcription ont une fonction. "Mais pourquoi faut-il se concentrer sur le fait que 74,7 % du génome est transcrit, alors qu'on peut dire que 100 % du génome participe à un processus biochimique reproductible : la réplication !", plaisante encore Graur.

Réplication

La réplication (du latin réplicatio - renouvellement) est le processus de synthèse d'une molécule fille d'acide désoxyribonucléique sur la matrice mère. Lors de la division suivante, chacune des cellules filles reçoit une copie d'une molécule d'ADN identique à l'ADN de la cellule mère d'origine. La réplication de l'ADN est réalisée par le replisome, un complexe enzymatique complexe composé de 15 à 20 protéines différentes.

Un bon critère pour la fonctionnalité d'une région d'ADN est que les mutations qui s'y trouvent sont assez nocives et qu'aucun changement significatif dans cette région n'est observé de génération en génération. Comment identifier de telles zones ? C’est ici qu’intervient la bioinformatique, une science moderne à l’intersection de la biologie et des mathématiques sur l’analyse des séquences génétiques et protéiques. Nous pouvons prendre les génomes humains et murins et y trouver toutes les sections d’ADN similaires. Il s’avère que chez ces deux espèces, certaines parties des séquences nucléotidiques sont très similaires. Par exemple, les gènes nécessaires à la synthèse des protéines ribosomales sont assez conservateurs, c'est-à-dire que leurs mutations sont suffisamment nocives pour que les porteurs de nouvelles mutations meurent sans laisser de progéniture. On dit que ces gènes sont soumis à une sélection négative, les débarrassant ainsi de mutations nocives. D'autres régions du génome présenteront des divergences significatives entre les espèces, ce qui indique que les mutations dans ces régions sont probablement inoffensives et que leur rôle fonctionnel est donc faible ou non déterminé par une séquence nucléotidique spécifique. Un certain nombre d'études ont estimé la proportion de régions de l'ADN humain soumises à une pression de sélection négative. Il s'est avéré que seulement environ 6,5 à 10 % du génome leur appartient et que les régions non codantes, contrairement aux régions codantes, sont beaucoup moins sensibles à la sélection négative. Il s’avère que, du point de vue des critères évolutifs, moins de 10 % du génome humain est fonctionnel. Remarquez à quel point Ono était proche de cette estimation en 1972 !

Forteresse des déchets

Mais les 90 % restants du génome humain sont-ils vraiment des déchets dont il vaut mieux se débarrasser ? Pas certainement de cette façon. Il existe des considérations selon lesquelles une grande taille du génome peut être bénéfique en soi. Chez les bactéries, la réplication du génome est un facteur limitant sérieux qui nécessite une dépense énergétique importante. Par conséquent, leurs génomes sont généralement petits et ils se débarrassent de tout ce qui est inutile. Dans les grands organismes, en règle générale, la réplication de l'ADN des cellules en division n'apporte pas une contribution aussi importante à la quantité totale de dépense énergétique du corps dans le contexte des dépenses liées au fonctionnement du cerveau, des muscles, des organes excréteurs, au maintien de la température corporelle. , etc. Dans le même temps, un grand génome peut être une source importante de diversité génétique, augmentant les chances d'émergence de nouvelles régions fonctionnelles à partir de régions non fonctionnelles en raison de mutations potentiellement utiles dans le processus d'évolution. Les éléments transposables peuvent transférer des éléments régulateurs, créant ainsi une diversité génétique dans la régulation de la fonction des gènes. Autrement dit, les organismes dotés d’un grand génome peuvent théoriquement s’adapter plus rapidement aux conditions environnementales, payant des coûts supplémentaires relativement faibles pour la réplication d’un génome plus grand. Nous ne retrouverons pas cet effet dans un organisme individuel, mais il pourrait jouer un rôle important au niveau de la population.

Avoir un grand génome peut également réduire la probabilité qu’un virus s’insère dans un gène fonctionnel (ce qui peut entraîner une défaillance génétique et, dans certains cas, un cancer). En d’autres termes, il est possible que la sélection naturelle puisse agir non seulement pour maintenir des séquences spécifiques dans le génome, mais aussi pour préserver certaines tailles du génome, la composition nucléotidique dans certaines de ses régions, etc.

Cependant, même si l’idée selon laquelle seulement 80, voire 20 % du génome humain est fonctionnel est controversée, cela ne signifie pas que l’ensemble du projet ENCODE soit sujet à critique. Dans ce cadre, une énorme quantité de données a été obtenue sur la façon dont différentes protéines se lient à l'ADN, des informations sur la régulation des gènes, etc. Ces données sont d'un grand intérêt pour les spécialistes. Mais il est peu probable que dans un avenir proche, il soit possible de se débarrasser des « déchets » du génome - à la fois le concept et les séquences inutiles elles-mêmes.

Article pour le concours « bio/mol/texte » : C’est une question intéressante à laquelle le Projet Génome Humain, achevé en 2003, était censé répondre. Après avoir obtenu des informations de base sur le génome humain, les scientifiques ont essayé de déterminer le nombre de gènes, mais cette tâche n'était pas si simple. Le but de cet article est de résumer et d'analyser les données scientifiques sur la compilation d'un catalogue de gènes humains.

Le sponsor général du concours est la société Diaem : le plus grand fournisseur d'équipements, de réactifs et de consommables pour la recherche et la production biologique.


Le prix du public a été sponsorisé par le Centre de Génétique Médicale.


Sponsor "Livre" du concours - "Alpina Non-Fiction"

Comme on sait peu de choses sur les gènes ! La première fois que j'ai ressenti cela avec acuité, c'était alors que j'exerçais dans le laboratoire de génétique médicale de l'Université médicale de Harbin. Le groupe de recherche dans lequel j'ai effectué mon stage étudiait l'oncogène Sei-1, qui induit la formation de chromosomes (DM) de deux minutes, contribuant ainsi au développement de l'oncogenèse. Cependant, le mécanisme de formation de l’oncogène Sei-1 reste à ce jour inconnu. Mais diverses mutations génétiques sont à l'origine d'autres maladies humaines dangereuses, en plus du cancer. Ainsi, dans cet article, nous exposerons quelques réflexions sur les raisons pour lesquelles nous ne savons toujours pas grand-chose sur les gènes, et formulerons également notre opinion sur le nombre de gènes dont dispose une personne.

Projet Génome Humain et liste complète des gènes

L'identification d'une liste complète de gènes est nécessaire pour élucider les mécanismes moléculaires de l'apparition et du développement du cancer, de la schizophrénie, de la démence et de nombreuses autres maladies humaines. Le séquençage de l'ADN isolé des tissus des patients permet d'identifier des mutations telles que des substitutions, délétions et insertions de nucléotides responsables de la survenue de ces maladies.

En fait, c'est pour cette raison que le Projet Génome Humain a été lancé ( Projet Génome humain, HGP), qui a duré de 1990 à 2003. Sa tâche principale était de déterminer la séquence nucléotidique de l'ADN humain et la localisation de 100 000 gènes humains (comme on le croyait alors). En parallèle, il était prévu d'étudier l'ADN d'un ensemble d'organismes modèles afin d'obtenir des informations comparatives nécessaires à la compréhension du fonctionnement du génome humain. Il était prévu que les informations obtenues grâce au HGP deviendraient un ouvrage de référence pour la science biomédicale au 21e siècle. Les objectifs de ces études étaient d’obtenir des informations sur les causes d’une série de maladies et, à terme, de développer des traitements pour plus de 4 000 maladies génétiques qui affectent l’humanité, y compris les maladies multifactorielles dans lesquelles la susceptibilité génétique joue un rôle important. On pensait que les résultats du séquençage du génome permettraient de déterminer l'emplacement de chaque gène et leur nombre total. Cependant, les événements ultérieurs ont prouvé le contraire : il existe aujourd’hui plusieurs bases de données génétiques très différentes les unes des autres. De plus, le nombre de gènes codant pour les protéines coïncide, mais le nombre de gènes d'autres types diverge.

Projet sur le protéome humain

En 2010, à l'initiative de l'Organisation pour l'étude du protéome humain ( Organisation du protéome humain, HUPO) le projet sur le protéome humain a été lancé ( HPP), qui vise à créer une liste complète des protéines de l'espèce Homo sapiens. Pour ce faire, tout d'abord, il est supposé identifier et caractériser au moins un produit protéique de gènes codant pour des protéines, leurs polymorphismes mononucléotidiques et variantes d'épissage, ainsi que les types de modifications post-traductionnelles des protéines. Deuxièmement, les données protéomiques obtenues grâce à la mise en œuvre de l'HPP contribuent, en plus des données génomiques, à la solution de divers problèmes biomédicaux et à la création de nouvelles bases de connaissances annotées, telles que prochainProt .

Actuellement prochainProt contient des informations sur 17 487 protéines dont l'existence a été confirmée expérimentalement, 1 728 protéines confirmées au niveau de la transcription, 515 identifiées sur la base de l'homologie, 76 prédites et 571 de nature inconnue. Les protéines dont l'existence n'a pas été prouvée expérimentalement sont particulièrement intéressantes, bien qu'il existe des preuves qu'elles sont codées par le génome. Ce sont les protéines dites « perdues », qui constituent environ 18 % de toutes les protéines codées. Une ressource a été créée pour identifier et caractériser ces protéines MissingProteinPedia .

Le protéome humain est une continuation du projet du génome humain. On espère que grâce au projet de recherche sur le protéome, nous connaîtrons le nombre exact de gènes codant pour des protéines, ce qui nous permettra ensuite de comprendre combien de gènes possède une personne.

Un peu sur l'ARN

Le projet Génome humain a montré que les molécules d’ARN sont aussi importantes pour la vie que l’ADN. Il existe de nombreux ARN à l’intérieur des cellules (Figure 2). Initialement, l'ARN est divisé en ARN non codants (ARNnc), qui ne sont pas traduits en protéines, et ARN codants (ARNm), servant de matrice pour la synthèse de chaînes polypeptidiques protéiques. Les ARN non codants ont une classification plus complexe. Ils sont infrastructurels et réglementaires. ARN d'infrastructure sont représentés par l'ARN ribosomal (ARNr) et l'ARN de transfert (ARNt). Les molécules d'ARNr sont synthétisées dans le nucléole et constituent la base du ribosome, et codent également pour les protéines des sous-unités ribosomales. Une fois que les ARNr sont entièrement assemblés, ils se déplacent vers le cytoplasme où, en tant que régulateurs clés de la traduction, ils participent à la lecture du code de l’ARNm. La séquence de trois bases azotées dans l'ARNm indique l'inclusion d'un acide aminé spécifique dans la séquence protéique. Les molécules d'ARNt amènent ces acides aminés aux ribosomes, où les protéines sont synthétisées.

En savoir plus sur l'ARN dans les articles « Biomolécules » : « À propos de tous les ARN du monde, petits et grands», « Codage des ARN non codants" Et " Pouvoir des anneaux : les ARN circulaires tout-puissants» .

Figure 2. Espèces d'ARN

ARNnc réglementaires sont très largement représentés dans l'organisme, classés selon leur taille et remplissent un certain nombre de fonctions importantes (tableau 1).

Tableau 1. ARN régulateurs non codants
NomDésignationLongueurLes fonctions
ARN longs non codants ARNnc, ARNnc 200 nucléotides 1. Réguler la méthylation sélective de l’ADN en dirigeant l’ADN méthyltransférase
2. Ils dirigent la plantation sélective de complexes répresseurs polypeigne
Petits ARN Petits ARN nucléaires snARN, snARN 150 nucléotides 1. Participer à l'épissage
2. Réguler l’activité des facteurs de transcription
3. Maintenir l’intégrité des télomères
Petits ARN nucléolaires snoARN, snoARN 60 à 300 nucléotides 1. Participer à la modification chimique des ARNr, ARNt et snRNA
2. Peut-être impliqué dans la stabilisation de la structure de l'ARNr et dans la protection contre l'action des hydrolases
Petit ARN interférent miARN, siARN 21 à 22 nucléotides 1. Fournir une protection immunitaire antivirale
2. Supprimer l'activité de leurs propres gènes
Micro ARN miARN, miARN 18 à 25 nucléotides Supprimer la traduction par interférence ARN
ARN antisens commeARN 1. Court : moins de 200 nucléotides
2. Long : plus de 200 nucléotides
Bloquer la traduction en formant des hybrides avec l'ARNm
ARN associés aux protéines Piwi piARN, piwiARN 26 à 32 nucléotides Ils sont aussi appelés « gardiens du génome », ils suppriment l’activité des éléments génétiques mobiles lors de l’embryogenèse.

Problème de terminologie

Avant de répondre à la question : « Combien de gènes avons-nous ? », il faut comprendre ce qu’est un gène ?

L'objectif principal du HGP était les gènes codant pour les protéines. Cependant, comme indiqué dans le rapport HGP original de 2001, « des milliers de gènes humains produisent des ARN non codants (ARNnc), qui sont leurs produits finaux", même si à cette époque, environ 706 gènes d'ARNnc étaient connus. Dans un article récent publié dans la revue Biologie BMC Stéphane Salzberg ( Steven L. Salzberg) donne la définition suivante d'un gène :

Un gène est toute partie de l'ADN chromosomique qui est transcrite en une molécule d'ARN fonctionnelle ou qui est d'abord transcrite en ARN puis traduite en une protéine fonctionnelle.

Cette définition inclut à la fois les gènes d'ARN non codants et les gènes codant pour les protéines et permet de définir toutes les variantes d'épissage alternatives au niveau d'un seul locus comme des variantes du même gène. Cela vous permet d'exclure pseudogènes– des restes non fonctionnels de gènes structurels qui ont perdu leur capacité à coder pour des protéines.

Les résultats des deux premières études ont indiqué la présence de 31 000 et 26 588 gènes codant pour des protéines chez l'homme, et en 2004 la séquence complète du génome humain est apparue, et les auteurs ont estimé que le catalogue complet contient 24 000 gènes codant pour des protéines. Catalogue des gènes humains Assembler comprend 22 287 gènes codant pour des protéines et 34 214 transcrits.

Séquençage de nouvelle génération (NGS)

Émergence des méthodes à haut débit séquençage parallèle(dans ce type de séquençage, des millions de fragments d'ADN provenant d'un seul échantillon sont séquencés simultanément) ou séquençage de nouvelle génération (séquençage de nouvelle génération, NGS) a permis d'accélérer considérablement la recherche de régions fonctionnelles du génome. Les sociétés de biotechnologie ont développé et commercialisé diverses plateformes de séquençage NG capables de séquencer de 1 million à des dizaines de milliards de séquences courtes (lectures, lit) chacun de 50 à 600 nucléotides de long. Les plateformes les plus populaires incluent : Illumine Et IonTorrent, en utilisant l'amplification de l'ADN par PCR, ainsi que des plateformes de séquençage de molécules uniques telles que Helicos Biosciences HéliScope, SMRT des biosciences du Pacifique (séquençage en temps réel d'une seule molécule), et séquençage des nanopores Oxford Nanopore, qui effectuent un séquençage en temps réel et permettent de lire des lectures beaucoup plus longues - jusqu'à 10 à 60 000 nucléotides. De plus, l’invention du séquençage de l’ARN ( Séquence d'ARN) en 2008, créée pour quantifier l'expression des gènes, a également contribué à la découverte de séquences transcrites, à la fois des ARN codants et non codants.

Grâce au NGS, les bases de données d'ARNnc et d'autres gènes d'ARN (tels que les microARN) ont connu une croissance spectaculaire au cours de la décennie, et les catalogues de gènes humains actuels contiennent désormais plus de gènes codant pour l'ARN que de gènes codant pour des protéines (Tableau 2).

Tableau 2. Nombre de types différents de gènes dans les bases de données suivantes : Gencode, Assembler, SéqRéf, ÉCHECS
Types de gènesGencodeAssemblerSéqRéfÉCHECS
Gènes codant pour les protéines 19 901 20 376 20 345 21 306
Gènes d'ARN longs non codants 15 779 14 720 17 712 18 484
ARN antisens 5501 - 28 2694
Autres ARN non codants 2213 2222 13 899 4347
Pseudogènes 14 723 1740 15 952 -
Nombre total de relevés de notes 203 835 203 903 154 484 323 827

Le séquençage de l'ARN a révélé que l'épissage alternatif, l'initiation alternative de la transcription et la terminaison alternative de la transcription se produisent beaucoup plus fréquemment qu'on ne le pensait auparavant, affectant jusqu'à 95 % des gènes humains. Par conséquent, même si l’emplacement de tous les gènes est connu, toutes les isoformes de ces gènes doivent d’abord être identifiées et si ces isoformes ont une fonction ou représentent simplement des erreurs d’épissage.

Bases de données de gènes humains

La tâche consistant à dresser un catalogue de tous les gènes n’est toujours pas résolue. Le problème est qu’au cours des 15 dernières années, seuls deux groupes de recherche ont dressé une liste de gènes dominants : SéqRéf , qui est soutenu par le Centre national d'information sur la biotechnologie ( NCBI) aux National Institutes of Health ( NIH), Et Ensembl/Gencode , qui est soutenu par le Laboratoire européen de biologie moléculaire ( EMBL). Cependant, malgré de grands progrès, le nombre de gènes codant pour des protéines, de gènes d'ARN longs non codants, de pseudogènes dans les catalogues varie désormais, et le nombre d'ARN antisens et d'autres ARN non codants varie également (Tableau 2). Les catalogues sont encore en cours de finalisation : au cours de l'année écoulée, par exemple, des centaines de gènes codant pour des protéines ont été ajoutés ou supprimés de la liste. Gencode. Ces désaccords expliquent le problème de la création d'un catalogue complet des gènes humains.

En 2017, une nouvelle base de données sur les gènes humains a été créée - ÉCHECS . Notamment, il inclut tous les gènes codant pour des protéines comme Gencode, donc SéqRéf, donc les utilisateurs ÉCHECS pas besoin de décider quelle base de données ils préfèrent. Un plus grand nombre de gènes peut provoquer davantage d'erreurs, mais les créateurs estiment qu'un ensemble plus large sera utile dans l'étude de maladies humaines qui ne sont pas encore classées comme génétiques. Ensemble de gènes ÉCHECS Actuellement en version 2.0, il n'est pas encore définitif, et les créateurs travaillent certainement à son amélioration.