Что такое геном человека: расшифровка. Вячеслав ТарантулГеном человека: Энциклопедия, написанная четырьмя буквами Геном человека содержит генов

В этом разделе описываются генетические характеристики различных живых организмов.

Общие сведения

С парадокс - длина геномов не зависит от сложности организма.
Сравнительные размеры геномов в разных группах организмов.

Размеры геномов и количество генов

Объект размер генома, пн
Микоплазмы 10 4 -10 6
Эубактерии (E.coli) 10 5 -10 7
Грибы (2-5)x10 7
Вид Число генов Длина генома, пн
Eubacteria
Mycoplasma genitalium 477 580.070
Synechocystis sp. 3168 3573 тыс.
E.coli 4280 4.639.221
Helicobacter pylori 1590 1667 тыс
Bacillus subtilis 4099 4214 тыс
Aquifex aelolicus 1544 1551 тыс
Micobacterium tuberculosis 4402 4447 тыс
Treponema pallidum 1041 1138 тыс
Rickettsia prowazekii 834 1111 тыс
Thermotoga maritima 1877 1860 тыс
Archaea
Methanococcus sannaschii 1750 1664 тыс
Archaeoglobus fulgidus 2493 2178 тыс
Aeropyrum pernix 2620 669 тыс
Eucaryotes
Saccharomyces cerevisiae ~6300 12.069 тыс
Arabidopsis thaliana ~26000 142.000 тыс
Caenorhabditis elegans ~19000 97.000 тыс
Drosophila melanogaster ~14000 137.000 тыс
X.laevis
Homo sapiens ~30000 3.200.000 тыс
Водоросли (5-7)x10 Черви ~10 8 Моллюски 5x10 8 -5x10 9 Насекомые 10 8 -5x10 9 Ракообразные ~10 9 Иглокожие 2x10 8 -2x10 9 Рыбы 3x10 8 -10 10 Амфибии 7x10 8 -7x10 10 Рептилии (2-3)10 9 Птицы 10 9 Млекопитающие 3x10 9 Цветковые растения 2x10 8 -10 11

Геном эукариот

Геном человека

У человека 23 пары хромосом, 22 аутосомы и 1 пара половых XX (женский пол) или XY (мужской пол).
Гаплоидный геном человека включает более 3 биллионов пар оснований ДНК, общей длинной приблизительно 1,8 м. Полный объем информации записанной в ДНК человека занимает около 750 мегабайт.
Гаплоидный геном человека содержит около 20,000–25,000 генов кодирующих белки.
Около 1.5% генома белок кодирующая, в то время как остальная ДНК включает регуляторные последовательности, интроны, РНК кодирующие последовательности, различные повторы и т.д.
~8% генома приходится на инактивированные последовательности некогда функционировавших ретровирусов HERV (Human endogenous retrovirus), самым молодым из которых, HERV-K, около 5-ти миллионов лет.
Французские исследователи восстановили последовательность одного из ретровирусов семейства HERV-K, содержащиеся в геноме. В клетках линии 239Т происходила транскрипция вирусной ДНК и продукция вирусных частиц. Более того, сам вирус, получивший название Phoenix, оказался способным самостоятельно осуществлять полный ретровирусный цикл от заражения клетки до интеграции в геном и сборки вирусных частиц. В некоторых опухолях, таких как тератокарцинома и меланома, экспрессируются отдельные белки HERV. Этого не достаточно для сборки полноценного вируса - слишком много мутаций. Однако, "воскрешение" полноценного вируса вполне может произойти за счет спонтанной рекомбинации - принципиальная возможность этого подтверждается результатами французских ученых.

Хромосома Генов Длина, пн Секвенировано
1 3,148 247,200,000 224,999,719
2 902 242,750,000 237,712,649
3 1,436 199,450,000 194,704,827
4 453 191,260,000 187,297,063
5 609 180,840,000 177,702,766
6 1,585 170,900,000 167,273,992
7 1,824 158,820,000 154,952,424
8 781 146,270,000 142,612,826
9 1,229 140,440,000 120,312,298
10 1,312 135,370,000 131,624,737
11 405 134,450,000 131,130,853
12 1,330 132,290,000 130,303,534
13 623 114,130,000 95,559,980
14 886 106,360,000 88,290,585
15 676 100,340,000 81,341,915
16 898 88,820,000 78,884,754
17 1,367 78,650,000 77,800,220
18 365 76,120,000 74,656,155
19 1,553 63,810,000 55,785,651
20 816 62,440,000 59,505,254
21 446 46,940,000 34,171,998
22 595 49,530,000 34,893,953
X 1,093 154,910,000 151,058,754
Y 125 57,740,000 22,429,293

Геном шимпанзе

Геном дрозофилы

Геном нематоды

Геном митохондрий

ДНК в митохондриях представлена циклическими молекулами, не образующими связь с гистонами, в этом отношении они напоминают бактериальные хромосомы.
У человека митохондриальная ДНК содержит 16,5 тыс. н.п., она полностью расшифрована. Найдено, что митохондральная ДНК различных объектов очень однородна, отличие их заключается лишь в величине интронов и нетранскрибируемых участков. Все митохондриальные ДНК представлены множественными копиями, собранными в группы, кластеры. Так в одной митохондрии печени крысы может содержаться от 1 до 50 циклических молекул ДНК. Общее же количество митохондриальной ДНК на клетку составляет около одного процента. Синтез митохондриальных ДНК не связан с синтезом ДНК в ядре. Так же как и у бактерий митохондральная ДНК собрана в отдельную зону – нуклеоид, его размер составляет около 0, 4 мкм в диаметре. В длинных митохондриях может быть от 1 до 10 нуклеоидов. При делении длинной митохондрии от нее отделяется участок, содержащий нуклеоид (сходство с бинарным делением бактерий). Количество ДНК в отдельных нуклеоидах митохондрий может колебаться в 10 раз в зависимости от типа клеток. При слиянии митохондрий может происходить обмен их внутренними компонентами.
рРНК и рибосомы митохондрий резко отличны от таковых в цитоплазме. Если в цитоплазме обнаруживаются 80s рибосомы, то рибосомы митохондрий растительных клеток принадлежат к 70s рибосомам (состоят из 30s и 50s субъединиц, содержат 16s и 23s РНК, характерные для прокариотических клеток), а в митохондриях клеток животных обнаружены более мелкие рибосомы (около 50s). В митоплазме на рибосомах идет синтез белков. Он прекращается, в отличие от синтеза на цитоплазматических рибосомах, при действии антибиотика хлорамфеникола, подавляющего синтез белка у бактерий.
На митохондриальном геноме синтезируются и транспортные РНК, всего синтезируется 22 тРНК. Триплетный код митохондриальной синтетической системы отличен от такового, используемого в гиалоплазме. Несмотря на наличие казалось бы всех компонентов, необходимых для синтеза белков, небольшие молекулы митохондриальной ДНК не могут кодировать все митохондриальные белки, только лишь их небольшую часть. Так ДНК размером 15 тыс.н.п. может кодировать белки с суммарным молекулярным весом около 6х105. В это же время суммарный молекулярный вес белков частицы полного дыхательного ансамбля митохондрии достигает величины около 2х106.

Рис. Относительные размеры митохондрий у различных организмов.

Интересны наблюдения за судьбой митохондрий в дрожжевых клетках. В аэробных условиях дрожжевые клетки имеют типичные митохондрии с четко выраженными кристами. При переносе клеток в анаэробные условия (например, при их пересеве или при перемещении в атмосферу азота) типичные митохондрии в их цитоплазме не обнаруживаются, и вместо них видны мелкие мембранные пузырьки. Оказалось, что в анаэробных условиях дрожжевые клетки не содержат полную дыхательную цепь (отсутствуют цитохромы b и a). При аэрации культуры наблюдается быстрая индукция биосинтеза дыхательных ферментов, резкое повышение потребления кислорода, а в цитоплазме появляются нормальные митохондрии.
Расселение людей на Земле

Геном пластид

Подобно митохондриям, хлоропласты имеют собственную генетическую систему, обеспечивающую синтез ряда белков внутри самих пластид. В матриксе хлоропластов обнаруживаются ДНК, разные РНК и рибосомы. Оказалось, что ДНК хлоропластов резко отличается от ДНК ядра. Она представлена циклическими молекулами длиной до 40-60 мкм, имеющими молекулярный вес 0,8-1,3х108 дальтон. В одном хлоропласте может быть множество копий ДНК. Так, в индивидуальном хлоропласте кукурузы присутствует 20-40 копий молекул ДНК. Длительность цикла и скорость репликации ядерной и хлоропластной ДНК, как было показано на клетках зеленых водорослей, не совпадают. ДНК хлоропластов не состоит в комплексе с гистонами. Все эти характеристики ДНК хлоропластов лизки к характеристикам ДНК прокариотических клеток. Более того, сходство ДНК хлоропластов и бактерий подкрепляется еще и тем, что основные регуляторные последовательности транскрипции (промоторы, терминаторы) у них одинаковы. На ДНК хлоропластов синтезируются все виды РНК (информационная, трансферная, рибосомная). ДНК хлоропластов кодирует рРНК, входящую в состав рибосом этих пластид, которые относятся к прокариотическому 70S типу (содержат 16S и 23S рРНК). Рибосомы хлоропластов чувствительны к антибиотику хлорамфениколу, подавляющему синтез белка у прокариотических клеток.
рис.
Образование шпилек в ДНК некоторых хлоропластов.

Так же как в случае хлоропластов мы вновь сталкиваемся с
существованием особой системы синтеза белка, отличной от
таковой в клетке.

Эти открытия вновь пробудили интерес к теории симбиотического
происхождения хлоропластов. Идея о том, что хлоропласты
возникли за счет объединения клеток-гетеротрофов с прокариотическими
синезелеными водорослями, высказанная на рубеже XIX и XX
вв. (А.С. Фоминцин, К.С.Мережковский) вновь находит свое
подтверждение. В пользу этой теории говорит удивительное
сходство в строении хлоропластов и синезеленых водорослей,
сходство с основными их функциональными особенностями, и
в первую очередь со способностью к фотосинтетическим процессам.


рис. Состав генома пластид у арабидопсиса.

Известны многочисленные факты истинного эндосимбиоза синезеленых
водорослей с клетками низших растений и простейших, где
они функционируют и снабжают клетку-хозяина продуктами фотосинтеза.
Оказалось, что выделенные хлоропласты могут также отбираться
некоторыми клетками и использоваться ими как эндосимбионты.
У многих беспозвоночных (коловратки, моллюски), питающихся
высшими водорослями, которые они переваривают, интактные
хлоропласты оказываются внутри клеток пищеварительных желез.
Так, у некоторых растительноядных моллюсков в клетках найдены
интактные хлоропласты с функционирующими фотосинтетическими
системами, за активностью которых следили по включению С14О2.

Как оказалось, хлоропласты могут быть введены в цитоплазму
клеток культуры фибробластов мыши путем пиноцитоза. Однако
они не подвергались атаке гидролаз. Такие клетки, включившие
зеленые хлоропласты, могли делиться в течение пяти генераций,
а хлоропласты при этом оставались интактными и проводили
фотосинтетические реакции. Были предприняты попытки культивировать
хлоропласты в искусственных средах: хлоропласты могли фотосинтезировать,
в них шел синтез РНК, они оставались интактными 100 ч, у
них даже в течение 24 ч наблюдались деления. Но затем происходило
падение активности хлоропластов, и они погибали.

Эти наблюдения и целый ряд биохимических работ показали,
что те черты автономии, которыми обладают хлоропласты, еще
недостаточны для длительного поддержания их функций и тем
более для их воспроизведения.

В последнее время удалось полностью расшифровать всю последовательность
нуклеотидов в составе циклической молекулы ДНК хлоропластов
высших растений. Эта ДНК может кодировать до 120 генов,
среди них: гены 4 рибосомных РНК, 20 рибосомных белков хлоропластов,
гены некоторых субъединиц РНК-полимеразы хлоропластов, несколько
белков I и II фотосистем, 9 из 12 субъединиц АТФ-синтетазы,
части белков комплексов цепи переноса электронов, одной
из субъединиц рибулозодифосфат-карбоксилазы (ключевой фермент
связывания СО2), 30 молекул тРНК и еще 40 пока неизвестных
белков. Интересно, что сходный набор генов в ДНК хлоропластов
обнаружен у таких далеко отстоящих представителей высших
растений как табак и печеночный мох.

Основная же масса белков хлоропластов контролируется ядерным
геномом. Оказалось, что ряд важнейших белков, ферментов,
а соответственно и метаболические процессы хлоропластов
находятся под генетическим контролем ядра. Так, клеточное
ядро контролирует отдельные этапы синтеза хлорофилла, каротиноидов,
липидов, крахмала. Под ядерным контролем находятся многие
энзимы темновой стадии фотосинтеза и другие ферменты, в
том числе некоторые компоненты цепи транспорта электронов.
Ядерные гены кодируют ДНК-полимеразу и аминоацил-тРНК-синтетазу
хлоропластов. Под контролем ядерных генов находится большая
часть рибосомных белков. Все эти данные заставляют говорить
о хлоропластах, так же как и о митохондриях, как о структурах
с ограниченной автономией.

Транспорт белков из цитоплазмы в пластиды происходит в принципе
сходно с таковым у митохондрий. Здесь также в местах сближения
внешней и внутренней мембран хлоропласта располагаются каналообразующие
интегральные белки, которые узнают сигнальные последовательности
хлоропластных белков, синтезированных в цитоплазме, и транспортируют
их в матрикс-строму. Из стромы импортируемые белки согласно
дополнительным сигнальным последовательностям могут включаться
в мембраны пластиды (тилакоиды, ламеллы стромы, внешняя
и внутренняя мембраны) или локализоваться в строме, входя
в состав рибосом, ферментных комплексов цикла Кальвина и
др.

Удивительное сходство структуры и энергетических процессов
у бактерий и митохондрий, с одной стороны, и у синезеленых
водорослей и хлоропластов – с другой, служит веским аргументом
в пользу теории симбиотического происхождения этих органелл.
Согласно этой теории, возникновение эукариотической клетки
прошло через несколько этапов симбиоза с другими клетками.
На первой стадии клетки типа анаэробных гетеротрофных бактерий
включили в себя аэробные бактерии, превратившиеся в митохондрии.
Параллельно этому в клетке-хозяине прокариотический генофор
формируется в обособленное от цитоплазмы ядро. Так могли
возникнуть гетеротрофные эукариотические клетки. Повторные
эндосимбиотические взаимоотношения между первичными эукариотическими
клетками и синезелеными водорослями привели к появлению
в них структур типа хлоропластов, позволяющих клеткам осуществлять
автосинтетические процессы и не зависеть от наличия органических
субстратов (рис. 236). В процессе становления такой составной
живой системы часть генетической информации митохондрий
и пластид могла изменяться, перенестись в ядро. Так, например
две трети из 60 рибосомных белков хлоропластов кодируется
в ядре и синтезируются в цитоплазме, а потом встраивается
в рибосомы хлоропластов, имеющие все свойства прокариотических
рибосом. Такое перемещение большой части прокариотических
генов в ядро привело к тому, что эти клеточные органеллы,
сохранив часть былой автономии, попали под контроль клеточного
ядра, определяющего в большей степени все главные клеточные
функции.

МОСКВА, 4 июл — РИА Новости, Анна Урманцева . У кого геном больше? Как известно, одни существа имеют более сложное строение, чем другие, а раз все записано в ДНК, то и это тоже должно быть отражено в ее коде. Получается, человек с его развитой речью обязан быть сложнее маленького круглого червяка. Однако если сравнить нас с червяком по количеству генов, получится примерно то же самое: 20 тысяч генов Caenorhabditis elegans против 20-25 тысяч Homo sapiens.

Еще более обидными для "венца земных созданий" и "царя природы" являются сравнения с рисом и кукурузой — 50 тысяч генов по отношению к человеческим 25.

Впрочем, может, мы не то считаем? Гены — это "коробочки", в которые упакованы нуклеотиды — "буквы" генома. Может, посчитать их? У человека 3,2 миллиарда пар нуклеотидов. А вот японский вороний глаз (Paris japonica) — красивое растение с белыми цветами — имеет в своем геноме 150 миллиардов пар оснований. Получается, что человек должен быть устроен в 50 раз проще какого-то цветка.

А двоякодышащая рыба протоптер (двоякодышащая — обладающая как жаберным, так и легочным дыханием), получается, в 40 раз сложнее, чем человек. Может, все рыбы почему-то сложнее, чем люди? Нет. Ядовитая рыба фугу, из которой японцы готовят деликатес, имеет геном в восемь раз меньше, чем у человека, и в 330 раз меньше, чем у двоякодышащей рыбы протоптер.
Остается посчитать хромосомы — но это еще сильнее запутывает картину. Как может человек по количеству хромосом быть равным ясеню, а шимпанзе — таракану?


С этими парадоксами эволюционные биологи и генетики столкнулись давным-давно. Они были вынуждены признать, что размер генома, в чем бы мы его ни пытались посчитать, поразительно не связан со сложностью устройства организмов. Этот парадокс назвали "загадкой значений С", где С — это количество ДНК в клетке (C-value paradoх, точный перевод — "парадокс величины генома"). И все-таки какие-то корреляции между видами и царствами существуют.

© Иллюстрация РИА Новости. А.Полянина


© Иллюстрация РИА Новости. А.Полянина

Ясно, например, что эукариоты (живые организмы, клетки которых содержат ядро) имеют в среднем геномы больше, чем прокариоты (живые организмы, клетки которых не содержат ядро). Позвоночные животные имеют в среднем геномы больше, чем беспозвоночные. Однако тут есть исключения, которые никто пока не смог объяснить.

Генетики расшифровали ДНК растения, способного пережить атомный взрыв Ученые впервые расшифровали полный геном гинкго – древнейшего современного растения на Земле, первые представители которого появились еще до рождения первых динозавров, во времена звероящеров.

Были предположения, что размер генома связан с продолжительностью жизненного цикла организма. Некоторые ученые утверждали на примере растений, что многолетние виды имеют более крупные геномы, чем однолетние, причем обычно с разницей в несколько раз. А самые маленькие геномы принадлежат растениям-эфемерам, которые проходят полный цикл от рождения до смерти в течение нескольких недель. Этот вопрос сейчас активно обсуждается в научных кругах.

Поясняет ведущий научный сотрудник Института общей генетики им. Н. И. Вавилова Российской академии наук, профессор Техасского агромеханического университета и Гёттингенского университета Константин Крутовский: "Размер генома не связан с продолжительностью жизненного цикла организма! Например, есть виды внутри одного рода, которые имеют одинаковый размер генома, но могут различаться по продолжительности жизни в десятки, если не сотни раз. В целом есть связь размера генома с эволюционной продвинутостью и сложностью организации, но со множеством исключений. В основном размер генома связан с плоидностью (копийностью) генома (причем полиплоиды встречаются и у растений, и у животных) и количеством высокоповторяющейся ДНК (простые и сложные повторы, транспозоны и другие мобильные элементы)".

Генетики "воскресили" кукурузу возрастом в пять тысяч лет Генетики смогли извлечь ДНК из древнейших останков "культурной" кукурузы и восстановить ее геном, указавший на более древние корни любимого растения Никиты Сергеевича Хрущева, чем мы считали раньше.

Есть также ученые, которые придерживаются другой точки зрения на этот вопрос.

Всех хромосом и митохондриальной ДНК. В настоящее время эти данные активно используются по всему миру в биомедицинских исследованиях. Полное секвенирование выявило, что человеческий геном содержит 20-25 тыс. активных генов , что значительно меньше, чем ожидалось в начале проекта (порядка 100 тыс.) - то есть только 1,5 % всего генетического материала кодирует белки или функциональные РНК . Остальная часть является некодирующей ДНК, которую часто называют мусорной ДНК , но которая, как оказалось, играет важную роль в регуляции активности генов и формирования всего организма в процессе развития .

Особенности

Хромосомы

В геноме присутствует 23 пары хромосом : 22 пары аутосомных хромосом, а также пара половых хромосом X и Y. У человека мужской пол является гетерогаметным и определяется наличием Y хромосомы. Нормальные диплоидные соматические клетки имеют 46 хромосом .

Гены

Предварительные оценки предполагали наличие в геноме человека более 100 тысяч генов. По результатам проекта «Геном человека » количество генов, а точнее открытых рамок считывания , составило около 28 000 генов. В связи с усовершенствованием методов поиска (предсказания) генов предполагается дальнейшее уменьшение числа генов.

Число генов человека ненамного превосходит число генов у более простых организмов , например, круглого червя Caenorhabditis elegans или мухи Drosophila melanogaster . Так происходит из-за того, что в человеческом геноме широко представлен альтернативный сплайсинг . Альтернативный сплайсинг позволяет получить несколько различных белковых цепочек с одного гена. В результате человеческий протеом оказывается значительно больше протеома рассмотренных организмов. Большинство человеческих генов имеют множественные экзоны , и интроны часто оказываются значительно более длинными, чем граничные экзоны в гене.

Гены неравномерно распределены по хромосомам. Каждая хромосома содержит богатые и бедные генами участки. Эти участки коррелируют с хромосомными бендами (полосы поперёк хромосомы, которые видно в микроскоп) и с CG-богатыми участками. В настоящий момент значимость такого неравномерного распределения генов не вполне изучена.

Кроме генов, кодирующих белки, человеческий геном содержит тысячи РНК-генов , включая транспортную РНК (tRNA), рибосомную РНК, микроРНК и прочие не кодирующие белок РНК последовательности.

Геном рыбы фугу примерно в восемь раз меньше, чем геном человека, и в 330 раз меньше, чем геном двоякодышащей рыбы протоптер. Какие «призраки» живут на «кладбищах геномов», и сколько мусора в нашей с вами ДНК?

Известный молекулярный биолог Дэвид Пенни из Центра молекулярной экологии и эволюции Аллена Вилсона в новозеландском Университете Массей как-то сказал: «Я бы весьма гордился работой в группе, которая разработала геном кишечной палочки. Однако я бы никогда не признался, что участвовал в проектировании генома человека. Ни в одном университете этот проект не смогли бы настолько испортить». Тема о количестве мусора в нашей ДНК - одна из самых «горячих» тем в научном сообществе. Вокруг этого вопроса среди ученых разгораются настоящие словесные баталии.

Немного молекулярной генетики

Напомним, что в основе передачи наследственной информации лежит двухцепочечная молекула ДНК. Она представляет собой полимер из четырех типов мономеров (нуклеотидов): аденина (A), тимина (T), цитозина (С) и гуанина (G) - и уложена в хромосомы. У человека 23 пары расположенных в ядре хромосом (22 пары неполовых и одна пара половых). Они и составляют основу нашего генома (еще 37 генов содержат кольцевые ДНК митохондрий). Если бы мы взяли одну клетку человека, сшили весь диплоидный (парный) набор хромосом вместе и вытянули в нить, то получили бы молекулу длиной в два метра, состоящую из шести миллиардов пар оснований (нуклеотидов). Три миллиарда от папы и три - от мамы.

Наиболее изученный тип функциональных последовательностей ДНК - гены, кодирующие белки. С таких генов считывается молекула РНК, которая затем играет роль матрицы для синтеза белков и определяет их аминокислотную последовательность. Кодирующая часть молекулы РНК может быть разделена на тройки нуклеотидов (кодоны), которые либо соответствуют некоторой аминокислоте, либо определяют место окончания синтеза белка (стоп-кодоны). Правило соответствия кодонов аминокислотам называется генетическим кодом. Например, кодон GCC кодирует аминокислоту аланин.

Померимся генами?

Когда-то думали, что у столь сложного организма, как человек, должно быть очень много генов. Когда проект «Геном человека» подходил к завершению, ученые даже устроили тотализатор: сколько генов будет обнаружено?

Каково же было их удивление, когда оказалось, что количество генов у человека и маленького круглого червя Caenorhabditis elegans примерно одинаковое. У червяка около 20 000 генов, а у нас - 20−25 тысяч.

Для «венца творения» факт довольно обидный, особенно если учесть, что существует много организмов как с бóльшим по размеру геномом (геном двоякодышащей рыбы протоптер, Protopterus aethiopicus , в 40 раз больше человеческого), так и с бóльшим количеством генов (у риса - 32−50 тысяч генов).

Но на самом деле у человека менее 2% генома кодируют какие-либо белки. Для чего же нужны остальные 98%? Может, там скрывается секрет нашей сложности? Оказалось, что существуют важные некодирующие участки ДНК. Например, это участки промоторов - последовательностей нуклеотидов, на которые садится фермент РНК-полимераза и откуда начинается синтез молекулы РНК. Это участки связывания транскрипционных факторов - белков, регулирующих работу генов. Это теломеры, защищающие концы хромосом, и центромеры, необходимые для правильного расхождения хромосом по разным полюсам клеток при делении. Известны некоторые регуляторные молекулы РНК (например, микроРНК, препятствующие синтезу белков соответствующих генов на матричной РНК - копии гена-исходника), а также молекулы РНК, входящие в состав важных ферментативных комплексов - например, рибосом, которые собирают из отдельных аминокислот белки, передвигаясь по матричной РНК. Есть и другие примеры важных некодирующих участков ДНК.

Тем не менее бóльшая часть нашего генома напоминает пустыню: повторяющиеся последовательности, останки «мертвых» вирусов, которые когда-то давно встраивались в геномы наших предков; так называемые эгоистичные мобильные элементы - последовательности ДНК, способные перескакивать из одного участка генома в другой; различные псевдогены - нуклеотидные последовательности, утратившие способность кодировать белки в результате мутаций, но все еще сохранившие некоторые признаки генов. Это далеко не полный список «призраков», обитающих на «кладбище генома».

Минимальная мышь

Существует точка зрения, что бóльшая часть генома человека нефункциональна. В 2004 году журнал Nature опубликовал статью, описывавшую мышей, из генома которых были вырезаны значительные фрагменты некодирующей ДНК размером в 0,8 и даже 1,5 млн нуклеотидов. Было показано, что эти мыши не отличаются от обычных строением тела, развитием, продолжительностью жизни или способностью оставлять потомство. Разумеется, какие-то отличия могли остаться незамеченными, но в целом это был серьезный аргумент в пользу существования «мусорной ДНК», от которой можно избавиться без особых последствий. Конечно, было бы интересно вырезать не пару миллионов нуклеотидов, а миллиард, оставив только предсказанные последовательности генов и известные функциональные элементы. Удастся ли вывести подобную «минимальную мышь», и сможет ли она нормально существовать? Может ли человек обойтись геномом длиной лишь в полметра? Возможно, когда-нибудь мы об этом узнаем. Тем временем еще один важный аргумент в пользу существования мусорной ДНК - наличие достаточно близких организмов с очень разными размерами геномов.

Геном рыбы фугу примерно в восемь раз меньше, чем геном человека (хотя генов в нем примерно столько же), и в 330 раз меньше, чем геном уже упомянутой рыбы протоптер. Если бы каждый нуклеотид в геноме был функционален, то непонятно, зачем луку геном в пять раз больший, чем у нас?

На колоссальные различия в размерах геномов сходных организмов обратил внимание эволюционный биолог Сусуму Оно. Считается, что именно Оно ввел термин «мусорная ДНК» (junk DNA). Еще в 1972 году, задолго до того, как был прочитан геном человека, Оно высказал правдоподобные представления как о количестве генов в геноме человека, так и о количестве «мусора» в нем. В своей статье «Столько мусорной ДНК в нашем геноме» он отмечает, что в геноме человека должно быть около 30 000 генов. Это число, на тот момент совсем не очевидное, оказалось удивительно близко к реальному, которое узнали десятки лет спустя. Кроме того, Оно приводит оценку функциональной доли генома (6%), объявляя более 90% генома человека мусором.


специалист по эволюционной биологии и интегративной геномике, адъюнкт-профессор канадского Университета Гэльфа в провинции Онтарио:


«Луковый тест - хорошая проверка для любого, кто думает, что каждый нуклеотид в человеческом геноме имеет определенную функцию. Независимо от того, каковы эти предполагаемые функции, спросите себя: зачем обычному репчатому луку нужен геном примерно в пять раз больше вашего?»

Находка или мусор?

Вызов представлению о существовании мусорной ДНК бросил проект ENCODE - The Encyclopedia of DNA Elements, «Энциклопедия элементов ДНК» (первые его результаты опубликованы в журнале Nature в 2012 году). Получив многочисленные экспериментальные данные о том, какие части генома человека взаимодействуют с различными белками, участвуют в транскрипции - синтезе РНК-копий генов для последующей трансляции (синтеза белка из аминокислот на матрице информационной РНК) - или других биохимических процессах, авторы пришли к выводу, что более 80% генома человека так или иначе функциональны. Разумеется, данный тезис вызвал бурное обсуждение в научном сообществе.

Одна из наиболее ироничных статей, опубликованная Дэном Грауром, специалистом по молекулярной эволюционной биоинформатике, профессором Хьюстонского университета, и его коллегами в 2013 году в журнале Genome biology and evolution , называется так: «О бессмертии телевизоров: «функция» в геноме человека по лишенному эволюции Евангелию от ENCODE». Ее авторы отмечают, что отдельные члены консорциума ENCODE расходятся в том, какая часть генома функциональна. Так, один из них вскоре уточнил в журнале Genomicron , что речь идет не о 80% функциональных последовательностей в геноме, а о 40%, а другой (в статье в Scientific American ) и вовсе снизил показатель до 20%, но при этом продолжал настаивать, что термин «мусорная ДНК» нужно устранить из лексикона.

По мнению авторов статьи «О бессмертии телевизоров», члены консорциума ENCODE слишком вольно интерпретируют термин «функция». Например, существуют белки, которые называют гистонами. Они могут связывать молекулу ДНК и помогают ей компактно укладываться. Гистоны могут подвергаться определенным химическим модификациям. Согласно ENCODE, предположительная функция одной из таких модификаций гистонов - «предпочтение находиться в 5"-конце генов» (5"-конец - это конец гена, от которого движутся ферменты ДНК- и РНК-полимеразы при копировании ДНК или при транскрипции). «Примерно так же можно сказать, что функция Белого дома - занимать площадь земли по адресу 1600, Пенсильвания-авеню, Вашингтон, округ Колумбия», - отмечают оппоненты.

Возникает проблема и с приписыванием функции участкам ДНК. Предположим, что к определенному участку ДНК способен прикрепляться важный для функционирования клетки белок, и поэтому ENCODE приписывает этому участку «функцию». Например, некоторый транскрипционный фактор - белок, инициирующий синтез информационной (матричной) РНК - связывается со следующей последовательностью нуклеотидов: TATAAA. Рассмотрим две идентичные последовательности TATAAA в разных частях генома. После того как транскрипционный фактор связывается с первой последовательностью, начинается синтез молекулы РНК, служащей матрицей для синтеза другого важного белка. Мутации (замены любого из нуклеотидов) в этой последовательности приведут к тому, что РНК будет считываться плохо, белок не будет синтезирован, и это, скорее всего, негативно скажется на выживании организма. Поэтому правильная последовательность TATAAA будет поддерживаться в данном месте генома с помощью естественного отбора, и в этом случае уместно говорить о наличии у нее функции.

Другая последовательность TATAAA возникла в геноме по случайным причинам. Поскольку она идентична первой, с ней тоже связывается транскрипционный фактор. Но никакого гена рядом нет, поэтому связывание ни к чему не приводит. Если в этом участке возникнет мутация, ничего не изменится, организм не пострадает. В данном случае говорить о функции второго участка TATAAA нет смысла. Впрочем, может оказаться, что наличие в геноме большого количества последовательностей TATAAA вдали от генов нужно просто для того, чтобы связывать транскрипционный фактор и уменьшать его эффективную концентрацию. В таком случае отбор будет регулировать число таких последовательностей в геноме.

Чтобы доказать, что некоторый участок ДНК функционален, недостаточно показать, что в этом участке происходит некий биологический процесс (например, связывание ДНК). Члены консорциума ENCODE пишут, что функцией обладают участки ДНК, которые вовлечены в транскрипцию. «Но почему нужно акцентировать внимание на том, что 74,7% генома транскрибируется, в то время как можно сказать, что 100% генома принимает участие в воспроизводимом биохимическом процессе - репликации!», - снова шутит Граур.

Репликация

Репликация (от лат. replicatio - возобновление) - процесс синтеза дочерней молекулы дезоксирибонуклеиновой кислоты на матрице родительской. При следующем за этим делении каждая из дочерних клеток получает по одной копии молекулы ДНК, идентичной ДНК исходной материнской клетки. Репликацию ДНК осуществляет реплисома - сложный ферментный комплекс, состоящий из 15−20 различных белков.

Хорошим критерием функциональности участка ДНК является то, что мутации в нем достаточно вредны и значительные изменения этого участка не наблюдаются из поколения в поколение. Как определить такие участки? Здесь на помощь и приходит биоинформатика, современная наука на стыке биологии и математики об анализе последовательностей генов и белков. Мы можем взять геномы человека и мыши и найти в них все похожие участки ДНК. Окажется, что у этих двух видов какие-то участки последовательностей нуклеотидов очень похожи. Например, гены, необходимые для синтеза рибосомальных белков, довольно консервативны, то есть мутации в них достаточно вредны, чтобы носители новых мутаций вымирали, не оставляя потомства. Про такие гены говорят, что они находятся под отрицательным отбором, очищающим от вредных мутаций. Другие участки геномов будут иметь значительные расхождения между видами, что указывает на то, что мутации в этих участках, скорее всего, безвредны, а значит, их функциональная роль невелика или не определяется конкретной последовательностью нуклеотидов. В ряде работ оценили долю участков ДНК человека, находящихся под давлением отрицательного отбора. Оказалось, что к ним относятся только около 6,5−10% генома, причем некодирующие участки, в отличие от кодирующих, гораздо меньше подвержены отрицательному отбору. Получается, что с точки зрения эволюционных критериев функциональны менее 10% генома человека. Обратите внимание, как близок к этой оценке был Оно в 1972 году!

Мусорная крепость

Но неужели остальные 90% генома человека - мусор, от которого лучше избавиться? Не совсем так. Есть соображения, что большой размер генома может быть полезен сам по себе. У бактерий репликация генома служит серьезным ограничивающим фактором, требующим значительных затрат энергии. Поэтому их геномы, как правило, маленькие, а от всего лишнего они избавляются. У крупных организмов, как правило, репликация ДНК делящихся клеток вносит не столь большой вклад в общее количество энергозатрат организма на фоне расходов на работу мозга, мышц, органов выделения, поддержания температуры тела и т. д. В то же время большой геном может быть важным источником генетического разнообразия, увеличивая шансы на появление новых функциональных участков из нефункциональных за счет мутаций, потенциально полезных в процессе эволюции. Мобильные элементы могут переносить регуляторные элементы, создавая генетическое разнообразие в регуляции работы генов. То есть организмы с крупными геномами теоретически могут быстрее адаптироваться к условиям среды, расплачиваясь сравнительно небольшими дополнительными затратами на репликацию более крупного генома. Подобный эффект мы не обнаружим у отдельного организма, но он может играть важную роль на уровне популяции.

Наличие крупного генома может также уменьшать вероятность того, что какой-нибудь вирус встроится в функциональный ген (что может привести к поломке гена и в ряде случаев к раку). Иными словами, не исключено, что естественный отбор может действовать не только на поддержание конкретных последовательностей в геноме, но на сохранение определенных размеров генома, нуклеотидного состава в некоторых его участках и т. д.

Впрочем, хотя идея, что только 80% или даже 20% генома человека функциональны - спорна, это вовсе не значит, что критике подлежит весь проект ENCODE. В его рамках получено огромное количество данных о том, как разные белки связываются с ДНК, информации о регуляции генов и т. д. Эти данные представляют большой интерес для специалистов. Но едва ли в ближайшее время удастся избавиться от «мусора» в геноме - как от концепции, так и от самих ненужных последовательностей.

Статья на конкурс «био/мол/текст»: Это интересный вопрос, ответ на который должен был дать проект «Геном человека», завершившийся в 2003 году. После того как ученые получили основную информацию о геноме человека, они попытались определить число генов, но эта задача оказалось не такой простой. Цель настоящей статьи - суммировать и проанализировать научные данные по составлению каталога генов у человека.

Генеральный спонсор конкурса - компания «Диаэм» : крупнейший поставщик оборудования, реагентов и расходных материалов для биологических исследований и производств.


Спонсором приза зрительских симпатий выступил медико-генетический центр .


«Книжный» спонсор конкурса - «Альпина нон-фикшн »

Как же мало известно о генах! Первый раз я остро ощутила это, находясь на практике в лаборатории медицинской генетики Харбинского медицинского университета. Исследовательская группа, где я проходила стажировку, занималась изучением онкогена Sei-1, который индуцирует образование двухминутных хромосом (DM), что способствует развитию онкогенеза. Однако механизм образования онкогена Sei-1 остается неизвестным до сих пор. А ведь различные мутации генов являются причиной возникновения и других опасных заболеваний человека, помимо рака. Итак, в данной статье мы изложим некоторые соображения о том, почему мы все еще многое не знаем о генах, а также сформулируем наше мнение о том, сколько генов у человека.

Проект «Геном человека» и полный список генов

Выявление полного списка генов необходимо для выяснения молекулярных механизмов возникновения и развития рака, шизофрении , деменции , а также многих других заболеваний человека. Секвенирование ДНК, выделенной из тканей больных, позволяет выявлять такие мутации, как нуклеотидные замены, делеции и вставки, ответственные за возникновение этих заболеваний.

Собственно, ради этого и затевался проект «Геном человека» (Human genome project, HGP ), который продолжался с 1990 по 2003 год. Его основной задачей было определение нуклеотидной последовательности ДНК человека и локализации 100 000 человеческих генов (как тогда полагали) . Параллельно с этим планировалось изучить ДНК набора модельных организмов, чтобы получить сравнительную информацию, необходимую для понимания функционирования генома человека. Предполагалось, что информация, полученная в результате HGP, станет настольной книгой для биомедицинской науки в XXI веке . Целями данных исследований являлось получение информации о причинах ряда болезней и, в конечном итоге, разработка способов лечения более чем 4000 генетических заболеваний, которые затрагивают человечество, включая многофакторные, в которых генетическая предрасположенность играет важную роль. Считалось, что результаты секвенирования генома позволят определить локализацию каждого гена и их общее количество. Однако последовавшие за этим события доказали обратное: сегодня существует несколько баз данных генов, которые существенно отличаются друг от друга. Причем число белок-кодирующих генов совпадает, а число генов других типов расходится.

Проект «Протеом человека»

В 2010 году по инициативе Организации по изучению протеома человека (Human proteome organization , HUPO ) был начат проект «Протеом человека » (HPP ), целью которого является создание полного списка белков вида Homo sapiens . Для этого, во-первых, предполагается идентифицировать и охарактеризовать, по крайней мере, по одному белковому продукту белок-кодирующих генов, их однонуклеотидные полиморфизмы и варианты сплайсинга, а также виды посттрансляционной модификации белков . Во-вторых, данные протеомики, полученные в результате реализации HPP, способствуют, в дополнение к геномным данным, решению различных биомедицинских задач и созданию новых аннотированных баз знаний, таких как neXtProt .

В настоящее время neXtProt содержит информацию о 17 487 белках, существование которых экспериментально подтверждено, 1728 белках, подтвержденных на уровне транскриптов, 515-и, определенных на основании гомологии, 76-и предсказанных и 571-м неизвестной природы. Особый интерес вызывают белки, существование которых экспериментально не доказано, хотя данные о том, что они кодируются геномом, существуют. Это так называемые «потерянные» белки, которые составляют примерно 18% всех кодируемых белков. Для выявления и характеристики таких белков создан ресурс MissingProteinPedia .

«Протеом человека» является продолжением проекта «Геном человека». Предполагается, что благодаря проекту по изучению протеома мы узнаем точное количество белок-кодирующих генов, что впоследствии позволит понять, сколько всего генов у человека.

Немного о РНК

Проект «Геном человека» показал, что молекулы РНК также важны для жизни, как и ДНК. Внутри клеток существует множество РНК (рис. 2). Изначально РНК подразделяются на некодирующие РНК (нкРНК ), которые не транслируются в белки, и кодирующие РНК (мРНК ), служащие матрицей для синтеза полипептидных цепей белка. Некодирующие РНК имеют более сложную классификацию. Они бывают инфраструктурными и регуляторными. Инфраструктурные РНК представлены рибосомными РНК (рРНК) и транспортными РНК (тРНК). Молекулы рРНК синтезируются в ядрышке и составляют основу рибосомы, а также кодируют белки субъединиц рибосомы. После того, как рРНК полностью собраны, они переходят в цитоплазму, где в качестве ключевых регуляторов трансляции, участвуют в чтении кода мРНК. Последовательность из трех азотистых оснований в мРНК указывает на включение определенной аминокислоты в последовательность белка. Молекулы тРНК, приносят указанные аминокислоты на рибосомы, где синтезируется белок.

Дополнительно о РНК читайте в статьях «Биомолекулы»: «Обо всех РНК на свете, больших и малых », «Кодирующие некодирующие РНК » и «Власть колец: всемогущие кольцевые РНК » .

Рисунок 2. Виды РНК

Регуляторные нкРНК очень широко представлены в организме, классифицируются в зависимости от размера и выполняют ряд важных функций (табл. 1).

Таблица 1. Некодирующие регуляторные РНК
Название Обозначение Длина Функции
Длинные некодирующие РНК днкРНК, lncRNA 200 нуклеотидов 1. Регулируют избирательное метилирование ДНК, направляя ДНК-метилтрансферазу
2. Руководят избирательной посадкой репрессорных комплексов polycomb
Малые РНК Малые ядерные РНК мяРНК, snRNA 150 нуклеотидов 1. Участвуют в сплайсинге
2. Регулируют активность факторов транскрипции
3. Поддерживают целостность теломер
Малые ядрышковые РНК мякРНК, snoRNA 60–300 нуклеотидов 1. Участвуют в химической модификации рРНК, тРНК и мяРНК
2. Возможно, участвуют в стабилизации структуры рРНК и защите от действия гидролаз
Малые интерферирующие РНК миРНК, siRNA 21–22 нуклеотидов 1. Осуществляют антивирусную иммунную защиту
2. Подавляют активность собственных генов
Микро-РНК мкРНК, miRNA 18–25 нуклеотидов Подавляют трансляцию путем РНК-интерференции
Антисмысловые РНК asRNA 1. Короткие: менее 200 нуклеотидов
2. Длинные: более 200 нуклеотидов
Блокируют трансляцию, образуя гибриды с мРНК
РНК, связанные с белками Piwi piRNA, piwiRNA 26–32 нуклеотидов Их также называют «стражами генома», они подавляют активность мобильных генетических элементов во время эмбриогенеза

Проблема терминологии

Прежде чем ответить на вопрос: «Сколько у нас генов?», нужно понять, что же такое ген?

Основное внимание HGP было направлено на белок-кодирующие гены . Однако, как было указано в первоначальном докладе HGP в 2001 году, «тысячи генов человека продуцируют некодирующие РНК (нкРНК), являющиеся их конечным продуктом », хотя на тот момент было известно около 706 генов нкРНК . В своей недавней статье, опубликованной в журнале BMC Biology Стивен Зальцберг (Steven L. Salzberg ) дает следующее определение гена :

Ген любой участок хромосомной ДНК, который транскрибируется в функциональную молекулу РНК или сначала транскрибируется в РНК, а затем транслируется в функциональный белок.

Это определение включает как гены некодирующих РНК, так и белок-кодирующие гены, и позволяет определять все варианты альтернативного сплайсинга в одном локусе как варианты одного и того же гена. Это позволяет исключить псевдогены – нефункциональные остатки структурных генов, утратившие способность кодировать белок.

Результаты двух первых исследований свидетельствовали о наличии у человека 31 000 и 26 588 белок-кодирующих генов , а в 2004 появилась полная последовательность генома человека , и авторы подсчитали, что полный каталог насчитывает 24 000 белок-кодирующих генов. Каталог человеческих генов Ensembl включает 22 287 белок-кодирующих генов и 34 214 транскриптов .

Секвенирование нового поколения (NGS)

Появление высокопроизводительных методов параллельного секвенирования (в ходе такого секвенирования миллионы фрагментов ДНК из одного образца секвенируются одновременно) или секвенирования нового (следующего) поколения (next-generation sequencing, NGS ) позволило значительно ускорить поиск функциональных участков генома . Биотехнологические компании разработали и коммерциализировали различные платформы для NG-секвенирования, позволяющие секвенировать от 1 млн до десятков млрд коротких последовательностей (ридов, reads ) длиной 50–600 нуклеотидов каждая. К наиболее популярным платформам относятся такие, как Illumina и IonTorrent , использующие амплификацию ДНК с помощью ПЦР , а также платформы одномолекулярного секвенирования, такие как Helicos Biosciences HeliScope , Pacific Biosciences SMRT (single molecule real-time sequencing ), и нанопорового секвенирования Oxford Nanopore , осуществляющие секвенирование в реальном времени и позволяющие прочитывать значительно более длинные риды - до 10–60 тыс. нуклеотидов. Кроме того, изобретение секвенирования РНК (RNA-seq ) в 2008 году, которое создавалось для количественного определения экспрессии генов, также способствовало обнаружению транскрибируемых последовательностей, как кодирующих, так и некодирующих РНК .

Благодаря NGS, базы данных днкРНК и других генов РНК (таких как микро-РНК) резко выросли за десятилетие, и текущие каталоги генов человека теперь содержат больше генов, кодирующих РНК, чем белки (табл. 2).

Таблица 2. Количество разных типов генов в следующих базах данных: Gencode , Ensembl , RefSeq , CHESS
Типы генов Gencode Ensembl RefSeq CHESS
Белок-кодирующие гены 19 901 20 376 20 345 21 306
Гены длинных некодирующих РНК 15 779 14 720 17 712 18 484
Антисмысловые РНК 5501 - 28 2694
Другие некодирующие РНК 2213 2222 13 899 4347
Псевдогены 14 723 1740 15 952 -
Общее число транскриптов 203 835 203 903 154 484 323 827

В ходе секвенирования РНК обнаружилось, что альтернативный сплайсинг, альтернативное инициирование транскрипции и альтернативное прерывание транскрипции проиcходят гораздо чаще, чем полагали, затрагивая до 95% человеческих генов. Следовательно, даже если известно местоположение всех генов, сначала нужно выявить все изоформы этих генов, а также определить, выполняют ли эти изоформы какие-либо функции или они просто представляют собой ошибки сплайсинга.

Базы данных генов человека

Задача по составлению каталога всех генов по-прежнему не решена. Проблема заключается в том, что за последние 15 лет только две исследовательские группы составили список доминантных генов: RefSeq , которая поддерживается Национальным центром биотехнологической информации (NCBI ) при Национальных институтах здоровья (NIH ), и Ensembl/Gencode , которая поддерживается Европейской молекулярно-биологической лабораторией (EMBL ). Однако, несмотря на большой прогресс, сейчас в каталогах различается количество белок-колирующих генов, генов длинных некодирующих РНК, псевдогенов, а также варьирует количество антисмысловых РНК и других некодирующих РНК (табл. 2). Каталоги еще дорабатываются: например, в прошлом году сотни генов, кодирующих белок, были добавлены или удалены из списка Gencode . Эти разногласия объясняют проблему создания полного каталога человеческих генов.

В 2017 году была создана новая база данных генов человека - CHESS . Примечательно, что она включает все белок-кодирующие гены как Gencode , так и RefSeq , так что пользователям CHESS не нужно решать, какую базу данных они предпочитают. Бóльшее количество генов может вызывать больше ошибок, но создатели считают, что бóльший набор окажется полезным при исследовании болезней человека, которые еще не отнесены к генетическим. Набор генов CHESS в настоящее время в версии 2.0 еще не окончательный, и, безусловно, создатели работают над его усовершенствованием.