авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Структурно-функциональная организация района инициации трансляции в мрнк эукариотических генов

На правах рукописи

КОЧЕТОВ АЛЕКСЕЙ ВЛАДИМИРОВИЧ Структурно-функциональная организация района инициации трансляции в мРНК эукариотических генов 03.02.07 – генетика 03.01.09 – математическая биология, биоинформатика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора биологических наук

Новосибирск – 2013

Работа выполнена в лаборатории генной инженерии Федерального государственного бюджетного учреждения науки Институте цитологии и генетики Сибирского отделения Российской академии наук (ИЦиГ СО РАН), г.

Новосибирск, Россия

Научный консультант: академик РАН, доктор биологических наук Шумный Владимир Константинович

Официальные оппоненты: Инге-Вечтомов Сергей Георгиевич, академик РАН, доктор биологических наук, зав. кафедрой генетики и селекции Санкт Петербургского государственного университета, г. Санкт-Петербург Дымшиц Григорий Моисеевич, доктор биологических наук, профессор, зав. кафедрой естественных наук СУНЦ Новосибирского государственного университета г. Новосибирск Бажан Сергей Иванович, доктор биологических наук, зав. теор. отделом ФГУН ГНЦ вирусологии и биотехнологии «Вектор», пос. Кольцово Новосибирской обл.

Ведущее учреждение: ФГБУН Институт общей генетики им. Н.И.

Вавилова РАН, г. Москва

Защита состоится “_” 2013 г. на утреннем заседании диссертационного совета Д 003.011.01 по защите диссертаций на соискание ученой степени кандидата наук, на соискание ученой степени доктора наук в ИЦиГ СО РАН по адресу: 630090 г.Новосибирск, пр.ак. Лаврентьева, 10.

Тел/факс: (383)3634906;

Ф: (383)3331278, e-mail: [email protected].

С диссертацией можно ознакомиться в библиотеке ИЦиГ СО РАН

Автореферат разослан “” 2013 г.

Ученый секретарь диссертационного совета, доктор биологических наук Т.М. Хлебодарова Актуальность проблемы Сигнал инициации трансляции (т.е. совокупность контекстных и структурных характеристик мРНК, определяющих выбор и эффективность распознавания стартового кодона трансляции) является одним из базовых элементов структуры гена. Предсказание позиции стартового кодона (сайта инициации трансляции) было основано на нескольких критериях, включающих (помимо целостности открытой рамки считывания) расположение по отношению к 5’-концу мРНК и нуклеотидное окружение (контекст). В рамках этой модели считалось, что эукариотические мРНК содержат одну открытую рамку считывания и кодируют один белок, поэтому подавляющее большинство мРНК в банках данных нуклеотидных последовательностей содержат один стартовый кодон. Однако, часть экспериментальных данных не укладывалась в эти рамки.

Например, было показано, что некоторые мРНК могут содержать несколько сайтов инициации трансляции и открытых рамок считывания (Kozak, 1986;

Yang et al., 1998;

Bab et al., 1999 и др.), в распознавании стартовых кодонов в субоптимальном нуклеотидном контексте могут участвовать элементы вторичной структуры РНК (Kozak, 1990 и др.), структура 5’-нетранслируемой последовательности (5’-НТП, участка между 5’-концом мРНК и началом белок кодирующей последовательности (БКП)) в целом может влиять на эффективность инициации трансляции и выбор стартовых кодонов (Gallie et al., 1987;

Jobling & Gehrke, 1987;

Kozak, 1987 и др.) и т.д. Таким образом, существовавшие представления о структуре сигнала инициации трансляции были основаны на упрощенной модели, не учитывающей как возможность существования альтернативных стартовых кодонов, так и возможность присутствия дополнительных сигналов, модулирующих эффективность распознавания сайтов инициации трансляции. Определение структуры и эффективности функционирования сигнала инициации трансляции является необходимым этапом в предсказании организации и параметров экспрессии эукариотического гена в целом, поэтому исследования в этом направлении рассматриваются как актуальные и фундаментально-значимые.

Цель настоящей работы заключалась в изучении структурно-функциональной организации сигнала инициации трансляции в мРНК эукариотических генов.

Задачи работы включали:

1. Выявление характеристик 5’-НТП мРНК, связанных с их функцией в процессе инициации трансляции в клетках эукариотических организмов.

2. Изучение организации сигнала инициации трансляции в эукариотических мРНК, включающее:

(а) оценку возможности использования нескольких сайтов инициации трансляции;

(б) анализ роли дополнительных характеристик РНК (элементов вторичной структуры и нуклеотидного контекста стартового кодона) в распознавании сайтов инициации трансляции;

3. Оценка вклада альтернативной трансляции в кодирующий потенциал мРНК и протеом эукариотических клеток.

Научная новизна. Обнаружено, что 5’-НТП эукариотических мРНК обладают район-специфическими характеристиками, приводящими к отсутствию стабильной вторичной структуры и, как следствие, способствующими эффективной инициации трансляции (дисбаланс в содержании комплементарных нуклеотидов G/C и A/U). Впервые показано, что мРНК эукариотических генов, экспрессирующихся на высоком уровне, оптимизированы для поддержания высокого уровня трансляционной активности по многим характеристикам (контекст стартового кодона трансляции, контекст терминатора трансляции, размер и особенности нуклеотидного состава 5’-НТП, отсутствие лидерных рамок считывания). Разработан первый способ предсказания трансляционной активности мРНК в клетках млекопитающих, двудольных и однодольных растений по структуре 5’-нетранслируемого района.

Найдено, что некоторые мРНК дрожжей и млекопитающих могут содержать элементы вторичной структуры, локализованные в определенной позиции белок кодирующей последовательности и способные увеличивать эффективность распознавания стартовых кодонов трансляции в субоптимальном контексте.

Разработан информационный ресурс, позволяющий предсказывать наличие «компенсаторной» вторичной структуры в молекуле мРНК. Показано, что характеристика «размер поверхности молекулы, доступной для взаимодействия» (accessible source area, ASA) для участков молекулы РНК контекстно-зависима, при этом кодоны AUG и UGA характеризуются высокими значениями ASA, что могло служить одной из причин выбора именно этих кодонов в качестве сайтов инициации и терминации трансляции на ранних этапах эволюции жизни.

Уточнена структура контекста стартового кодона трансляции в мРНК млекопитающих: обнаружено, что аминокислотные остатки во второй позиции полипептидов человека и мыши могут влиять на эффективность инициации трансляции.

Впервые показано, что в структуре эукариотических мРНК с высокой частотой могут содержаться альтернативные стартовые кодоны трансляции.

Продемонстрировано, что N-концевые трансляционные изоформы белков млекопитающих, растений и дрожжей часто различаются по предсказанной субклеточной локализации, что может быть связано с их функциональной значимостью. Сделана оценка возможности альтернативной терминации трансляции в клетках арабидопсиса и риса: найдено, что вклад этого механизма в синтез трансляционных изоформ белков в сравнении с альтернативной инициацией трансляции значительно менее выражен.

Положения, выносимые на защиту.

1. Базовые контекстные характеристики нуклеотидных последовательностей 5’ НТП мРНК генов эукариот эволюционно адаптированы для эффективного взаимодействия с аппаратом трансляции.

2. Эффективность распознавания стартового кодона трансляции может модулироваться факультативными сигналами, к которым относятся элементы стабильной вторичной структуры РНК и определенные комбинации нуклеотидов в позициях 5’-контекста сайта инициации трансляции и аминокислотных остатков во второй позиции соответствующих полипептидов.

3. Эукариотический сигнал инициации трансляции с высокой частотой содержит альтернативные стартовые кодоны. Альтернативная инициация трансляции вносит значительный вклад в протеом эукариотических клеток.

Теоретическая значимость работы. Разработана расширенная модель структурно-функциональной организации эукариотического сигнала инициации трансляции, включающего факультативные элементы – модуляторы эффективности распознавания стартовых кодонов. Уточнены представления о значимости контекстной организации 5’-НТП эукариотических мРНК:

предложена гипотеза о существовании «распределенных» сигналов – элементов контекста, вклад каждого из которых в функциональную активность 5’-НТП относительно мал и может быть значим для высокоэкспрессирующихся генов.

Научно-практическая значимость работы. В работе получены данные, корректирующие методы предсказания эффективности трансляции и кодирующего потенциала эукариотических мРНК. Разработаны оригинальные методы (Leader_RNA, AUG_hairpin) и база данных (TRSIG), которые могут использоваться для предсказания характеристик мРНК и для дизайна генетических конструкций для проведения экспериментов в областях генетики и биотехнологии растений и животных.

Апробация работы. Результаты работы были доложены или представлены на II Международном конгрессе «Биотехнология: состояние и перспективы развития», (Москва, 2003), III съезде ВОГИС (Москва, 2004), International Conference of Bioinformatics of Genome Regulation & Structure (Новосибирск 1998, 2000, 2002, 2004, 2006, 2008, 2010, 2012), International Moscow Conference on Computational Molecular Biology (Москва 2003, 2005, 2007, 2009, 2011), Genome Informatics Conference (Токио, 2001;

Йокогама 2004;

2005), 8th International Engelhardt Conference on Mollecular Biology “RNA-protein interactions” (Москва, 2006), Conference on Translational Control and Non-coding Чехия RNA (Nove Hrad, 2006), German-Russian Forum Biotechnology (Новосибирск, 2009), International Conference on Plant Genetics, Genomics and Biotechnology (Новосибирск, 2010), Joint Russian-French Seminar “Genomics, Proteomics, Bioinformatics” (Новосибирск, 2010), Joint Indo-Russian Workshop “Predictive Biology using Systems and Integrative Analysis and Methods” (Индия, 2010), German/Russian Workshop on Integrative Biological Pathway Analysis and Simulation (Германия, 2009, 2010, 2011, 2012).

Публикации. По материалам диссертации опубликовано 96 научных работ, из них статей – 31, в том числе в зарубежной печати – 18. Основные результаты получены автором самостоятельно. Ряд исследований выполнен с участием М.П.

Пономаренко, И.Б. Рогозина, И.И. Титова, Н.А. Колчанова, Л.Л. Киселева, Д.Г.

Воробьева, А.Г. Пальянова, О.А. Волковой, Г.А. Базыкина, В.А. Иванисенко, В.Н. Бабенко, A. Sarai, I. Ventoso, S. Ahmad.

Структура и объем работы. Диссертация включает введение, обзор литературы, материалы и методы, результаты, обсуждение, выводы и список литературы (484 источника). Работа изложена на 225 страницах машинописного текста, включая 31 рисунок и 47 таблиц.

Благодарности. Автор глубоко признателен сотрудникам отдела системной биологии и лаборатории генной инженерии ИЦиГ СО РАН. Особую признательность автор выражает академику РАН Н.А. Колчанову, инициировавшему исследования в области структурно-функциональной организации мРНК эукариот в ИЦиГ СО РАН, академику РАН В.К. Шумному, поддерживавшему эту работу на всех этапах проведения, академику РАН Л.Л.

Киселеву – за плодотворное обсуждение.

МАТЕРИАЛЫ И МЕТОДЫ Выборки нуклеотидных и аминокислотных последовательностей. В диссертационную работу включены результаты компьютерного анализа выборок нуклеотидных и аминокислотных последовательностей, полученные в разное время (с 1996 по 2011 год). Соответственно, использованные выборки значительно различаются по объему и представительности, что отражает доступные на тот момент времени данные, поэтому содержание конкретных выборок приведено в соответствующих разделах главы «Результаты». Для составления выборок нуклеотидных и аминокислотных последовательностей использованы несколько источников: банки данных GenBank (основной раздел или подраздел RefSeq (http://www.ncbi.nlm.nih.gov/nucleotide/)), EMBL (http://srs.ebi.ac.uk/), а также в отдельных случаях выборки экспериментально верифицированных нуклеотидных последовательностей функциональных районов генов собирали на основе анализа литературных данных.

Типовой запрос на выделение кДНК-карточек БД GenBank через веб-интерфейс имел следующий вид: “Homo sapiens AND complete CDS” (для другого организма использовали его видовое название;

complete CDS позволяет отбирать карточки, в которых – с точки зрения аннотатора – содержится полноразмерная белок-кодирующая последовательность). При этом для выделения карточек из БД GenBank также применяли дополнительные поля: Limits: “mRNA;

Genomic DNA/RNA, excluding ESTs, STSs, GSS, working draft, and patents”;

в ряде случаев использовали RefSeq. Для выделения карточек из БД EMBL применяли SRS портал, примеры полей и вариантов запросов: “Organism” (например, Arabidopsis thaliana);

“Molecule” (mRNA);

“FtKey”, (CDS);

“Description” (complete CDS). Для выделения карточек полноразмерных мРНК использовали информацию из таблицы определителей (поля “prim_transcript”, “precursor_RNA”, “5’UTR”).

Методы и программы. Для выделения участков нуклеотидных последовательностей (5’-НТП, район стартового кодона трансляции, БКП, 3’ НТП, район стоп-кодона) применяли программу ReadSeq (версия 2.1.3). Для очистки выборок от высокогомологичных последовательностей была использована программа CleanUp (Grillo et al., 1996). Для проведения отдельных видов компьютерного анализа нуклеотидных последовательностей был написан набор специальных программ на языке Euphoria (версия 2.2).

Кроме этого, в работе была использована программа MGL (Molecular Genetic Language) (Колпаков и Бабенко, 1997), любезно предоставленная Ф.А.

Колпаковым. Эта программа позволяет осуществлять базовые операции при работе с выборками нуклеотидных последовательностей в формате GenBank и EMBL (выделять группы карточек по заданным спискам идентификаторов или входных номеров), а также осуществлять компьютерный анализ выборок в FASTA-формате (расчет моно- и динуклеотидного состава (наблюдаемого и ожидаемого), выделение лидерных рамок считывания (uORF), выделение участков нуклеотидных последовательностей и их выравнивание). Для анализа вторичной структуры РНК применяли Венский пакет программ (Hofacker, 2003) Статистический анализ. Для проведения статистического анализа использовали пакет программ Statistica for Windows (StatsoftTM, Tulsa, USA).

Гипотезы о сходстве или различиях выборок по средним значениям характеристик проверяли с помощью t-критерия Стьюдента или U-критерия Манна-Уитни;

cвязь между переменными оценивали на основании значений коэффициентов линейной и ранговой корреляции по Пирсону (linear correlation coefficient, LCC) и Кендаллу (rank tau coefficient, TAU), соответственно;

отличия наблюдаемых значений характеристик от ожидаемых оценивали с помощью критерия 2. Для оценки достоверности различий между распределениями использовали тест Колмогорова-Смирнова.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ 1. Структурно-функциональная организация 5’-НТП мРНК эукариотических организмов. К моменту начала исследований в структуре лидерных районов мРНК эукариотических генов не было выявлено функциональных элементов (за исключением контекста стартового кодона), поэтому 5’-НТП рассматривался как плацдарм для связывания факторов инициации трансляции и 40S субъединицы рибосомы, нуклеотидная последовательность которого не должна была создавать существенных препятствий для «линейного сканирования» (Kozak, 1987). В рамках работы был проведен компьютерный анализ характеристик мРНК эукариот, который показал следующее: (1) в 5’-НТП с высокой частотой (от 16% до 52% мРНК разных таксонов) содержатся триплеты AUG у (upstream AUG, uAUG);

(2) значительного количества мРНК (от 9% до 24% у разных таксонов) аннотированный стартовый кодон трансляции расположен в субоптимальном контексте;

(3) в банках данных нуклеотидных последовательностей в структуре эукариотических мРНК аннотирована (предсказана) одна открытая рамка считывания, то есть возможность альтернативной инициации трансляции не принимается во внимание (Kochetov et al., 1998;

1999;

Rogozin et al., 2001;

Кочетов и др., 2002a;

2002b). Для выявления особенностей организации лидерного района, связанных с его функцией, был проведен анализ характеристик 5’-НТП в сравнении с другими некодирующими участками генов – базальным промотором, 5’-проксимальным интроном и 3’-НТП. Особый интерес представляло сравнение базального промотора и 5’-НТП, поскольку эти участки ДНК граничат друг с другом. Оказалось (табл. 1), что нуклеотидный состав 5’-НТП и базального промотора близок, в то время как средние частоты нуклеотидов в 3’-НТП и проксимальном интроне иные.

Таблица 1. Средние частоты нуклеотидов и индексы самокомплементарности в некодирующих районах генов эукариот* 5`-НТП 3`-НТП Организм A G CU IGC IAU A G C U IGC IAU A. thaliana 33 17 22 29 0.28 0.24 30 17 15 38 0.17 0. H. sapiens 20 32 30 18 0.15 0.20 27 22 23 29 0.11 0. S. cerevisiae 41 15 19 25 0.29 0.32 33 13 15 39 0.22 0. Промотор Интрон A G CT IGC IAU A G C U IGC IAU A. thaliana 33 17 20 30 0.13 0.08 27 17 15 41 0.19 0. H. sapiens 21 29 29 21 0.10 0.10 22 27 25 26 0.12 0. S. cerevisiae 31 17 18 34 0.15 0.16 - - - - - *Размер выборок 5’-НТП и 3’-НТП, использованных для этого анализа: A. thaliana – 13768;

H. sapiens – 23307, S. cerevisiae - 171. Размер выборок 5’-концевых интронов: A. thaliana – 2186;

H. sapiens – 2479;

Размер выборок промоторных районов (500 н выше старта транскрипции): A. thaliana – 107;

H. sapiens – 2479 (БД EPD), S. cerevisiae – 171 (собраны по литературным данным) Согласно модели «линейного сканирования» и некоторым экспериментальным данным (Kozak, 1989), негативное влияние на инициацию трансляции могли оказывать элементы стабильной вторичной структуры, поэтому предполагалось, что 5’-НТП должны содержать меньше нуклеотидов G и C, вносящих основной вклад в энергию комплементарных взаимодействий (Kozak, 1987). Однако, полученные нами данные противоречили этой гипотезе: содержание G+C в 5’ НТП оказалось даже выше, чем в других районах гена (табл. 1). При этом анализ показал, что 5’-НТП характеризуются выраженным дисбалансом в содержании комплементарных нуклеотидов. Нами были предложены индексы самокомплементарности (IGC = |G-C|/(G+C);

IAU = |A-U|/(A+U), A,G,C,U – частоты встречаемости нуклеотидов (Кочетов и др., 2002а,б)), позволяющие оценить, насколько частоты комплементарных нуклеотидов близки друг к другу.

Оказалось, что 5’-НТП характеризуются наибольшим дисбалансом в содержании G/C и A/U (табл. 1), что говорит об эволюционной оптимизации характеристик этого района гена, направленной против формирования стабильных структур.

Согласно модели «лимитирующего звена» (Ратнер, 1990), характеристики мРНК генов высокого уровня экспрессии должны поддерживать высокую интенсивность процесса трансляции. Для проверки этого предположения в рамках работы был проведен сравнительный анализ характеристик генов высокого (High) и низкого (Low) уровней экспрессии млекопитающих. На момент проведения работы (1997 г.) систематических экспериментальных данных в литературе не было, поэтому в качестве выборки High (102 н.п.) использовали гены рибосомных белков, EF1, белков теплового шока, гистонов, белков цитоскелета;

в качестве выборки Low (196 н.п.) были взяты гены транскрипционных факторов. Было найдено, что параметры мРНК высокого и низкого уровне экспрессии достоверно отличаются от выборки Low:

Рисунок 1. Распределение размеров 5’-НТП мРНК генов млекопитающих % высокого (белые столбики) и низкого (черные столбики) уровней экспрессии 50 150 250 350 450 550 650 750 850 Размер, нт их 5’-НТП чаще меньше по размеру (рис. 1), дисбаланс в содержании комплементарных нуклеотидов значительно выше (5’-НТП с высоким дисбалансом (в два и более раза) в выборке High встречались в два раза чаще, чем в Low), частота uAUG ниже (Obs/Exp в выборке High = 0.33, Low = 0.51), контекст стартового кодона ближе к оптимальному (RnnAUG в выборке High = 96%, Low = 77%), чаще встречался более эффективный стоп кодон UAA (High = 44%, Low = 29%) (Kochetov et al., 1998).

Таким образом, было найдено, что структура 5’-НТП мРНК генов высокого уровня экспрессии оптимизирована для поддержания более эффективной инициации трансляции. Для детального анализа были использованы мРНК генов Saccharomyces cerevisiae, для которых на момент проведения исследований появились количественные данные о содержании мРНК в цитоплазме (Holstege et al., 1998), кроме того было известно, что уровень экспрессии генов дрожжей коррелирует с адаптацией белок-кодирующей последовательности по частотам синонимических кодонов (codon adaptation index (CAI), Sharp & Li, 1987). Был проведен компьютерный анализ взаимосвязей между контекстными характеристиками некодирующих районов генов дрожжей (5’-НТП, базального промотора, 3’-НТП) и параметрами, отражающими уровень экспрессии гена на разных стадиях (количество мРНК, CAI, вес сигналов инициации и терминации трансляции). Оказалось, что помимо закономерностей, найденных для млекопитающих, существуют выраженные взаимосвязи между базовыми параметрами нуклеотидных последовательностей (частоты нуклеотидов, индексы самокомплементарности, отклонения в частотах некоторых динуклеотидов (Obs/Exp)) и уровнем экспрессии, что говорит о высоком уровне адаптации функциональных районов высокоэкспрессирующихся генов у дрожжей (табл. 2).

Таблица 2. Коэффициенты корреляций* между параметрами экспрессии генов дрожжей (уровнем транскрипции mRNAq, индексом адаптации кодонов CAI) и некоторыми характеристиками 5’-НТП и базального промотора.

5’-НТП Промотор 5’-НТП промотор CAI mRNAq CAI mRNAq CAI mRNAq CAI mRNAq 3 1 3 3 A AA -0.04 0.03 0. 0.38 0.22 -0.33 -0.27 0. -0.503 -0.302 -0.323 -0.191 AG 0. G 0.05 -0.06 0. 1 3 2 C 0.16 0.05 0.08 GG -0.38 0. 0.21 -0.30 0. 3 3 1 T -0.16 -0.12 CG 0.03 0. 0.46 0.33 0.15 0. 3 1 2 I(G,C) 0.38 - - TG -0.18 -0.06 -0. 0.24 -0. I(A,T) 0.211 0. 0.16 - - TC 0.06 0.01 0. *значимые коэффициенты корреляции (p0.05) выделены жирным шрифтом:

, p0.05;

2, p0.01;

3, p0.001;

Эти корреляции устойчивы: например, содержание А в 5’-НТП позитивно коррелирует и с CAI, и с количеством мРНК в клетке. Можно видеть, что даже граничащие районы гена (базальный промотор и 5’-НТП) существенно отличаются по характеристикам, коррелирующим с уровнем экспрессии (табл. 2, табл. 3), причем эти различия касаются и отклонений в содержании определенных динуклеотидов. Пока понятен биологический смысл только некоторых взаимосвязей (например, дисбаланс в содержании комплементарных нуклеотидов), остальные нуждаются в дальнейшем изучении.

Параметр 5’-НТП Промотор 3’-НТП Таблица Характеристики Повышенное A, I(G,C), I(A,U) U U, I(G,C) функциональных содержание AG, CG GG, AA, TC районов высоко Сниженное экспрессирующихся G A, G G содержание GC, AС, UU GG, UG генов дрожжей С нашей точки зрения, тонкая настройка некоторых контекстных параметров некодирующих районов может быть связана с тем, что они могут выступать в качестве слабых сигналов. Например, динуклеотид UG в 5’-НТП может комплементарно взаимодействовать с антикодоном мет-тРНК в процессе линейного сканирования и несколько замедлять движение 40S субъединицы рибосомы, но этот эффект будет заметен только в том случае, если интенсивность трансляции достаточно велика.

Различия между мРНК генов высокого и низкого уровней экспрессии могли объясняться не только оптимизацией структуры 5’-НТП мРНК высокоэкспрессирующихся генов, но и целенаправленным снижением эффективности трансляции мРНК низкоэкспрессирующихся генов.

Проведенный нами дополнительный анализ AUG-содержащих 5’-НТП эукариот показал, что в этой группе нуклеотидных последовательностей существует негативная корреляция между весом стартового кодона, размером 5’-НТП и числом то есть некоторые лидерные последовательности uAUG, характеризуются склонностью содержать несколько негативных параметров одновременно (Rogozin et al., 2001). Это говорит о возможности формирования в ходе эволюции группы мРНК, характеристики 5’-НТП которых специально адаптированы для поддержания трансляционной активности на низком уровне.

В работе была сделана оценка возможности использования параметров 5’-НТП для предсказания эффективности трансляции мРНК. Для этого были собраны выборки 5’-НТП из кДНК генов высокого и низкого уровней экспрессии млекопитающих и растений (EMBL rel. 52;

кДНК двудольных и однодольных растений взяты раздельно, т.к. частоты нуклеотидов у них сильно различаются) и определен набор параметров, достоверно различающихся между контрастными выборками. Были выявлены наборы дискриминирующих параметров 5’-НТП для мРНК млекопитающих, двудольных и однодольных растений (46, 27 и 20 параметров, соответственно) (Kochetov et al., 1999). Для предсказания был использован подход, предложенный М.П. Пономаренко и Н.А.

Колчановым (Ponomarenko et al., 1998) и основанный на теории принятия решений (Fishburn, 1970). Средние значения параметра, характерные для выборок High и Low, были приняты равными +1 и -1, соответственно. Для нуклеотидной последовательности, эффективность трансляции которой нужно было предсказать, вычислялись значения дискриминирующих характеристик Fi (приравненные к -1 если они были ближе к средним значениям для выборки Low или к +1 в альтернативном случае). В общем виде при наличии N дискриминирующих характеристик скор F(seq) вычислялся по формуле:

Значения F(seq) варьируют между -1 (5’-НТП N Fi Wi типичной низкоэкспрессирующейся мРНК) и + i F ( seq ) N (5’-НТП типичной высокоэкспрессирующейся).

Wi Согласно теории принятия решений (при i достаточно большом числе N) если F(seq)0, то 5’-НТП соответствует высокоэкспрессирующимся мРНК, если меньше – то наоборот. Была предусмотрена возможность для пользователя изменять вес (Wi) дискриминирующей характеристики, что позволяло более гибко использовать преимущества данного подхода (Kochetov et al., 1999). Оценка метода на контрольных выборках 5’-НТП показала, что он достаточно точен: с параметрами по умолчанию для контрольной выборки высокоэкспрессирующихся генов 5’-НТП 78% мРНК двудольных, 78% мРНК млекопитающих и 84% мРНК однодольных растений были предсказаны правильно (F(seq)0);

для низкоэкспрессирующихся генов 5’-НТП 73% мРНК двудольных растений, 84% мРНК млекопитающих и 82% однодольных растений были предсказаны правильно (F(seq)0). Считается, что это был первый метод такого рода (Davuluri et al., 2000).

2. Некоторые мРНК эукариот содержат элементы вторичной структуры, увеличивающие вероятность распознавания стартового кодона в субоптимальном контексте. Ранее было показано, что стабильные шпильки усиливают трансляцию с AUG в слабом контексте, если они расположены в позиции 17 или (менее выражено) в позиции 11 белок-кодирующей последовательности, и этот эффект пропадает, если начало шпильки перемещено в позицию 5 или 35 (Kozak, 1990). Было выдвинуто предположение, согласно которому вторичная структура, 5’-граница которой расположена на расстоянии 17 нуклеотидов, задерживает 40S субъединицу рибосомы в процессе линейного сканирования в позиции, оптимальной для комплементарного взаимодействия антикодона инициаторной метиониновой тРНК и стартового кодона трансляции.

Однако эксперимент был выполнен в трансляционной системе in vitro и не было известно, работает ли этот механизм in vivo и – если работает – то насколько он распространен. В рамках настоящей работы было выдвинуто следующее предположение: если частота встречаемости стабильных локальных шпилек в позициях с 11 по 17 БКП выше в выборке мРНК с субоптимальным контекстом старта трансляции, то этот факт может свидетельствовать в пользу использования «компенсаторных» вторичных структур in vivo. Для оценки вторичной структуры РНК использовали критерий «вероятность участия нуклеотида в комплементарных взаимодействиях» (base pairing probability, BPP, варьирует от 0 до 1) (McCaskill 1990), вычисленный с помощью Венского пакета (Hofacker, 2003). Этот подход основан на учете всех возможных стабильных локальных вторичных структур, на основе чего вычисляется вероятность участия нуклеотидов в позициях последовательности в комплементарных взаимодействиях, что дает хорошее приближение к экспериментальным данным (Kertesz et al., 2010). В таблице 4 приведена разность средних позиционных значений BPP между выборками мРНК с субоптимальным и оптимальным контекстами AUG. Согласно полученным данным, единственный участок, в котором наблюдаются более высокие значения BPP в выборке мРНК с субоптимальным контекстом AUG-кодона расположен между 13 и 17 позициями в мРНК человека и 14-17 позициями в мРНК мыши (был проанализирован сегмент мРНК между 6 и 90 нуклеотидами БКП) (Kochetov et al., 2007).

Повышенная вероятность наличия вторичной структуры в этих позициях не зависела от содержания G+C (табл. 4). В целом, полученные данные показали, что некоторая часть выборки мРНК млекопитающих с субоптимальным контекстом стартового кодона содержит функциональные «компенсаторные» шпильки. По-видимому, число таких мРНК невелико, что может быть связано со структурной лабиль Таблица 4. Разность средних значений BPP (BPPY BPPR) и содержания G+C (GCY-GCR,%) в позициях ностью РНК и со белок-кодирующей части (11 – 20) мРНК человека и сложностью поддержа мыши, характеризующихся субоптимальным (Y, YnnAUG) и оптимальным (R, RnnAUG) вариантами ния сигнала такого типа контекста стартового кодона трансляции* в ходе эволюции.Анализ H. sapiens M. musculus выборок мРНК Поз. BPP -BPP Y R Y R BPP -BPPR GCY-GCR Y S.

GC -GC 11 -0.008 2.14 -0.004 -1.47 показал cerevisiae 12 -0.007 -3.79 0.005 2. аналогичную зависи 13 0.015 -0.41 -0.004 -0. мость между контекстом 2 14 0.012 1.65 0.020 4. 3 стартового кодона и 15 0.015 -1.99 0.018 -1. 1 16 0.014 -0.93 0.036 -1.48 распределением BPP в 1 17 0.012 4.21 0.019 7. начале белок-кодирую 18 -0.003 -3.23 -0.005 -5. щей части (Kochetov et 19 0.004 0.59 0.010 1. 20 0.005 0.68 -0.008 2.8 al., 2003;

в т.ч. и для не *Позиции БКП, в которых значения BPP были AUG-стартовых кодонов достоверно выше в выборке мРНК с субоптимальным контекстом стартового кодона трансляции (согласно U- (Kochetov et al., 2013)), тесту Манна-Уитни) выделены жирным шрифтом;

что говорит об уровень достоверности: 1 p 0.05;

2 p 0.01;

3 p универсальном харак 0.001). Выборки мРНК выделены из БД GenBank (2006) тере этого феномена для и содержали 22400 мРНК человека и 8933 мРНК мыши.

эукариот. Для предсказания таких структур был разработан ресурс AUG_hairpin (http://gibk26.bio.kyutech.ac.jp/aug_hairpin/;

на рис. 2 приведен пример предсказания «компенсаторной» шпильки).

Полученные нами данные о роли вторичной структуры РНК в структуре сигнала инициации трансляции были подтверждены Рисунок 2. Результаты в других работах (McGuire & Galagan, 2008;

предсказания AUG_hairpin Robbins-Pianka et al., 2010;

Kertesz et al., 2010;

Lee et al., 2012 и др.), а также были использованы для выявления тонкой структуры сигналов инициации трансляции, содержащих несколько стартовых кодонов, в том числе и неканонических (Shinohara et al., 2008;

Zu et al., 2011;

Coldwell et al., 2012;

Juszczak et al., 2012;

Lee et al., 2012).

3. Физико-химические характеристики триплета могли AUG способствовать его выбору в качестве сайта инициации трансляции.

Причины выбора на ранних этапах эволюции тех или иных комбинаций нуклеотидов в качестве сигналов остаются под вопросом;

в частности, это касается сайтов инициации и терминации трансляции. При изучении белков активно используется параметр accessible source area (или solvent accessibility), отражающий доступность участка в трехмерной структуре макромолекулы для взаимодействия с другими молекулами. В рамках настоящей работы (совместно с группой проф. S. Ahmad) были проанализированы рентгеноструктурные характеристики РНК-белковых комплексов из БД PDB (Berman et al., 2000;

выборка была сделана в августе 2009 года). Значение ASA было вычислено с помощью программы NACCESS (Hubbard & Thornton, 1993). Величина ASA была вычислена для каждого нуклеотида (all-atom-value), для триплетов вычисляли среднее значение ASA для каждой из 64 комбинаций, считая нуклеотидную последовательность РНК состоящей из набора перекрывающихся триплетов. Анализ средних значений ASA для нуклеотидов в составе РНК показал, что для каждого нуклеотида распределения близки к нормальным (среднее значение близко к 180 А2), то есть различия недостаточно выражены для того, чтобы нести какую-то функциональную нагрузку (Singh et al., 2010).

Однако, контекст (соседство нуклеотидов друг с другом) мог влиять на их доступность для молекул растворителя в силу стерических взаимодействий.

Оказалось, что существует значительная разница в средних значениях ASA для разных триплетов (рис. 3) (Singh et al., 2010).

Рисунок 3. Средние значения параметра ASA для триплетов в составе РНК.

Разница между наиболее контрастными по средней величине ASA триплетами достаточно велика (~60 А2, среднеквадратичное отклонение ~53 А2). То есть, влияние контекста весьма велико и доступность для внешних взаимодействий комбинации нуклеотидов (триплета) не равна сумме значений ASA отдельных нуклеотидов, составляющих этот триплет. Что можно отметить из полученных данных (рис. 3): стартовый кодон трансляции AUG характеризуется высоким значением ASA (5-ое по величине среди 64 комбинаций);

это же относится к стоп-кодону UGA, который характеризуется наиболее высоким значением ASA.

Следует отметить, что UGA является самым распространенным стоп-кодоном у многих организмов и эффективность его работы часто регулируется (в сигналах терминации трансляции, для которых характерен readthrough и синтез удлиненных с С-конца изоформ белков, чаще всего присутствует именно UGA).

Таким образом, некоторые «служебные» триплеты (AUG, UGA) характеризуются высоким потенциалом взаимодействия с другими макромолекулами, что могло служить одной из причин выбора именно этих комбинаций нуклеотидов на ранних этапах эволюции живзни.

4. Взаимосвязь между N-концевым участком белка и эффективностью инициации трансляции. Нуклеотидный контекст стартового кодона трансляции в мРНК млекопитающих (GCCGCCRCCAUGG) был определен по отклонениям в позиционных частотах нуклеотидов от средних по соответствующему району гена, что было потом подтверждено в экспериментах in vitro с анализом влияния точечных мутаций в некоторых из этих позиций на эффективность распознавания AUG (Kozak, 1986;

1989). Функции 5’-НТП главным образом связаны с инициацией трансляции, поэтому наблюдаемые девиации в позиционных частотах нуклеотидов в этом участке в первую очередь соотносили именно с процессом распознавания стартового кодона. С другой стороны, нуклеотид в позиции +4 относится к БКП (это первый нуклеотид второго кодона), поэтому отклонения в частотах нуклеотидов здесь могут быть связаны и с другими причинами. В эукариотических белках N-концевой метионин часто отрезается, причем эффективность этого процесса зависит от типа аминокислотного остатка во второй позиции белка;

также известно, что при замене аминокислоты в этой позиции могут меняться стабильность белка и некоторые N-концевые посттрансляционные модификации (Varshavsky, 1996;

Farazi et al., 2001;

Harkins et al., 2005). Поэтому в литературе были представлены различные точки зрения на функциональную значимость 3’-части контекста стартового кодона: согласно первой, нуклеотиды в позиции +4 (Kozak, 1997) или позициях +4 и +5 (Grunert & Jackson, 1994;

Boeck and Kolakofsky, 1994;

Niimura et al., 2003;

Nakagawa et al., 2008) влияют на эффективность распознавания стартового кодона трансляции;

согласно второй точке зрения, роль нуклеотида в позиции +4 связана именно с типом аминокислотного остатка во второй позиции белка, но не с инициацией трансляции (Harkins et al., 2005;

Xia, 2007). Таким образом, этот вопрос оставался дискуссионным.

В рамках настоящей работы была сформулирована следующая гипотеза: если нуклеотид в позиции +4 важен для инициации трансляции, то должна существовать взаимосвязь между ним и частью контекста, расположенной в некодирующем районе (5’-НТП). Согласно этому предположению, выборки с оптимальным (RnnAUG, R = A или G) и субоптимальным (YnnAUG, Y = U или C) вариантами контекста AUG должны отличаться по частоте встречаемости нуклеотидов в позиции +4 в том случае, если эта позиция влияет на эффективность инициации трансляции. Результат анализа выборки мРНК человека (21154 н.п., EMBL 2009) оказался неожиданным: было найдено, что выборки с оптимальным и субоптимальным контекстами стартового кодона (RnnAUG против YnnAUG) не отличаются по частоте G в позиции +4 (табл. 5, столбец R-3-Y-3). Дальнейший анализ показал, что существуют различия между мРНК с контекстами стартового кодона GnnAUG и AnnAUG. Было обнаружено следующее:

Таблица 5. Разность средних частот нуклеотидов в позиции +4 в выборках мРНК H. sapiens с пурином (R = A или G), аденином, гуанином или пиримидином (Y = C или U) в -3 позиции контекста стартового кодона* AUGN, поз.+4 R-3-Y-3 A-3-Y-3 G-3-Y-3 A-3-G- –0.0293 0. –0. AUGA 0. –0.0221 0.0553 –0. AUGG 0. –0.0313 –0.0323 –0.0303 –0. AUGC 3 0. AUGU 0.023 0.039 0. *например, для AUGA в ячейке R-3-Y-3 приведена разность средней частоты аденина в позиции +4 в выборках мРНК с RnnAUG и YnnAUG. Уровень значимости (U-тест) 1, р 0,05;

2, р 0,01;

3, р 0, (а) Выборки мРНК с вариантом контекста GnnAUG характеризуются статистически достоверно более высоким содержанием G в положении +4 в сравнении с выборками с другими сайтами инициации (AnnAUG и YnnAUG).

По-видимому, считающийся оптимальным контекстом стартового кодона трансляции RnnAUG на самом деле представляет собой комбинацию из двух вариантов: GnnAUGG и AnnAUGn.

(б) Найдено, что существует статистически достоверная зависимость между нуклеотидом в позиции -3 (то есть, в 5’-НТП) и предпочтительной встречаемостью некоторых аминокислотных остатков на N-конце. Оказалось (табл. 6), что во второй позиции белков, кодируемых мРНК с вариантом контекста AnnAUG, увеличена частота только одной аминокислоты - серина. В то же время белки млекопитающих, кодируемые мРНК с вариантом контекста GnnAUG, достоверно чаще содержат во второй позиции аминокислоты Ala, Gly (кодоны которых начинаются с G) и Ser.

Таблица 6. Разность средних частот аминокислотных остатков во 2-ой позиции белков, кодируемых выборками мРНК H. sapiens с A, G или Y в позиции -3 контекста стартового кодона (A-3, G-3, Y-3)* поз. 2 а.п. A-3-Y-3 G-3-Y-3 поз. 2 а.п. A-3-Y-3 G-3-Y- 0.0463 –0. Ala 0.014 Arg 0. 3 –0. Ser 0.057 0.027 Val 0. 3 –0. –0.030 –0.005 –0. Glu Met 0.0243 –0. Gly 0.003 Phe 0. –0.017 –0.003 –0.004 –0. Asp Gln –0.0203 –0. Trp 0.002 0.003 Leu –0.0062 –0. –0. Pro 0.000 Cys 0.0102 –0.0052 –0. –0. Asn His –0. –0.002 –0. Thr 0.006 Ile 1 2 –0. –0.010 –0. Lys 0.008 Tyr *например, для Ser в ячейке A-3-Y-3 приведена разность средних частот остатков серина в позиции 2 белков, кодируемых выборками мРНК с аденином или пиримидином в позиции -3 (RnnAUG – YnnAUG). Уровень значимости (U-тест) 1, р 0,05;

2, р 0,01;

3, р 0, Для того, чтобы понять, чем обусловлены наблюдаемые закономерности, был сделан анализ частот встречаемости синонимических кодонов во второй позиции БКП для аминокислотных остатков, частоты которых зависели от контекста стартового кодона (табл. 6: Ser, Ala, Gly). Оказалось, что в мРНК с вариантом контекста GnnAUG увеличена встречаемость некоторых из синонимических кодонов Ala и Gly – что может говорить о функциональной значимости гуанина в позиции +4 БКП (возможно в комбинациях с нуклеотидами в позициях +5,+6), но не отвергает гипотезу о важности собственно аминокислотного остатка во второй позиции полипептида. С другой стороны, в мРНК с вариантом контекста во второй позиции БКП увеличена встречаемость всех AnnAUG синонимических кодонов Ser, что определенно говорит о значимости именно аминокислоты – тем более, что у серина шесть синонимических кодонов с различными нуклеотидами в позиции +4 (табл. 7). Таким образом, в рамках работы была уточнена значимость позиций контекста стартового кодона трансляции у млекопитающих: найдено два варианта оптимального контекста (AnnAUGn, GnnAUGG) и обнаружена взаимосвязь между вариантом контекста стартового кодона AnnAUG и присутствием серина во второй позиции кодируемых такими мРНК полипептидов. Можно допустить, что для мРНК со стартовым кодоном трансляции в контексте AnnAUG конформационные особенности РНК-белкового комплекса способствуют более эффективному формированию первой пептидной связи Met-Ser, что может быть значимо для генов высокого уровня экспрессии.

Таблица 7. Различия между средними частотами синонимических кодонов во второй позиции БКП мРНК H.sapiens с аденином, гуанином или пиримидином в -3 положении контекста стартового кодона (A-3, G-3, Y-3)* а.о. кодон A-3-Y-3 G-3-Y-3 A-3-G-3 кодон A-3-Y-3 G-3-Y-3 A-3-G- а.о.

Ala GCG 0.0163 0.0283 -0.0122 Gly GGA 0.000 0.001 0. 3 Ala GCU -0.003 -0.003 0.000 Ser UCG 0.016 0.014 0. 0. Ala GCA 0.005 0.002 0.003 Ser UCU 0.015 0. Ala GCC -0.005 0.0183 -0.0243 UCA 0.0051 -0.001 0. Ser 0.0123 -0.0093 UCC 0.0113 0.0061 0. Gly GGG 0.003 Ser 0.0163 -0.0143 AGU 0. Gly GGC 0.002 Ser 0.002 0. Gly GGU -0.002 -0.004 0.002 Ser AGC 0.005 0.003 0. *например, для GCG в ячейке A -Y приведена разность средних частот этого -3 - кодона в позиции 2 БКП в выборках мРНК с аденином или пиримидином в позиции -3 (RnnAUG – YnnAUG). Уровень значимости (U-тест) 1, р 0,05;

2, р 0,01;

3, р 0, 5. мРНК эукариот часто содержат альтернативные сайты инициации трансляции. Считалось (и эта точка зрения остается достаточно распространенной), что в эукариотических мРНК расположена одна рамка считывания и, соответственно, один сайт инициации трансляции. Однако, оценка контекстных характеристик мРНК эукариот показала, что значительная часть мРНК содержит триплеты AUG в составе 5’-НТП (uAUG) (Kochetov et al., 1998;

Rogozin et al., 2001;

Кочетов и др., 2002а). Вопрос о функциональных характеристиках большинства uORF оставался открытым: согласно модели «линейного сканирования» (Kozak, 1987) рибосомы могут распознавать такие uAUG как старты трансляции, то есть кодируемый uORF белок может синтезироваться и выполнять какие-либо функции (рис. 4). Кроме того, в банках данных нуклеотидных последовательностей содержалось значительное количество мРНК, у которых стартовый кодон трансляции основной рамки считывания расположен в субоптимальном контексте, то есть, часть 40S субъединиц рибосом могла не распознавать такие стартовые кодоны и инициировать трансляцию на нижерасположенных AUG с помощью механизма «сканирование с подтеканием» (dORF, рис. 4). Однако, экспериментальных данных было мало и они часто противоречили друг другу, поэтому эти представления не использовались при предсказании структур генов.

Рисунок 4. В мРНК могут располагаться альтернатив ные рамки считывания, начинающиеся с лидерных или со AUG (uORF) стартовых кодонов внутри БКП (dORF), которые могут кодировать либо новые пептиды (uORF1, dORF1), либо N-концевые изоформы белка (uORF2, dORF2).

В диссертационной работе была проверена гипотеза о том, что мРНК с субоптимальным контекстом стартового кодона в начале белок-кодирующей последовательности содержат «запасные» сайты инициации, с которых может синтезироваться укороченная с N-конца изоформа белка. Функциональная значимость таких альтернативных стартовых кодонов может заключаться либо в увеличении общего уровня синтеза данного белка (известный вариант и его потенциальная N-концевая изоформа изофункциональны), либо в расширении кодирующего потенциала мРНК (N-концевая изоформа функционально отличается). Для проверки этого предположения из БД EMBL (2004 г.) были выделены выборки кДНК Arabidopsis thaliana (12632), Homo sapiens (29642), Mus musculus (17298), Aves (1506), Liliopsida (3423), Arthropoda (5131). Были использованы два варианта классификации контекста стартового кодона на оптимальный и субоптимальный: (а) базовый – по нуклеотиду, расположенному в наиболее значимой позиции -3 (Rnnaug = оптимальному, Ynnaug = субоптимальному контексту;

R = A или G, Y = C или U) для всех таксонов (Kozak, 1986);

(б) расширенный – оптимальному контексту соответствует консенсусная последовательность, субоптимальному – антиконсенсус:

Arabidopsis thaliana: RAAaugG (консенсус), YnotAnotAaugnotG (антиконсенсус);

Arthropoda: RAAaug (консенсус), YnotAnotAaug (антиконсенсус);

Homo sapiens, Mus musculus, Aves, Liliopsida: RССaugG (консенсус), YnotСnotСaugnotG (антиконсенсус). В табл. 8 приведены средние частоты кодонов AUG в начале БКП (с 3 по 9 кодон, они соответствуют остаткам метионина в соответствующих позициях белков). Можно видеть, что в мРНК с оптимальным контекстом стартового кодона частота таких триплетов не отличается от ожидаемой, в то время как при субоптимальном контексте они встречаются намного чаще и эти различия увеличиваются при использовании расширенных вариантов контекста.

Характерно, что повышенная частота триплетов AUG в мРНК с субоптимальным контекстом стартового кодона трансляции имела место только в начале БКП и не наблюдалась в других рамках считывания (рис. 5). Полученные результаты (Kochetov, 2005;

Kochetov et al., 2003;

2005) однозначно свидетельствовали в пользу предположения о высокой частоте встречаемости альтернативных сайтов инициации трансляции.

Таблица 8. Средняя частота кодонов AUG в позициях 3 – 9 эукариотических мРНК, характеризующихся различными вариантами контекста стартового кодона (оптимальный – Opt, субоптимальный - Sub) Организм Базовый контекст (поз. -3) Расширенный контекст AUGEa Дост. разл.b Дост. разл.

Sub Opt Sub Opt H. sapiens 0.025 0.016 2–9 0.031 0.012 2–9 0. M. musculus 0.029 0.016 2–9 0.038 0.015 2–8 0. Aves 0.042 0.019 2–4 0.063 0.020 2–4, 6, 7 0. Arthropoda 0.038 0.019 2–5, 9 0.042 0.019 3–6, 9 0. A. thaliana 0.022 0.023 - 0.031 0.022 2,3 0. Liliopsida 0.027 0.021 3, 5 0.041 0.017 2, 3, 9 0. H. sapiensOUTc 0.028d 0.018 0.017 4 0.019 0.012 AUGE – ожидаемая частота AUG, в качестве которой использована средняя частота триплетов a AUG в удаленном участке белок-кодирующей последовательности (с 30 по 40 кодон);

Позиции, в которых частота триплетов AUG достоверно различалась (t-тест, p 0.05);

b Средняя частота триплетов AUG в рамке +1 (NAU GNN) в участке с 3 по 9 кодон БКП;

c Средняя частота AUG, расположенных в рамке +1 (NAU GNN) в участке между 30 и d триплетами у выборок мРНК Opt и Sub не различалась (0.28 и 0.26, соответственно).

Рисунок 5.

Средние час тоты трип летов AUG в начале БКП мРНК генов мыши (распо ложены либо в рамке считы вания БКП (in-frame), либо в рамке +1 (out-of-frame)). Opt –AUG в оптимальном контексте (RnnAUG), Sub – в субоптимальном (YnnAUG).

В свою очередь, это означало, что:

(а) для адекватной оценки эффективности инициации трансляции мРНК с аннотированным стартовым кодоном в субоптимальном контексте следует учитывать возможность дополнительного синтеза изофункциональных N концевых изоформ. Например, 903 мРНК человека из 5122 мРНК с вариантом контекста YnnAUG содержат как минимум один альтернативный стартовый кодон на участке между 2 и 9 кодонами БКП;

(б) кодирующий потенциал мРНК практически всех эукариот (табл. 8) сильно недооценен, поскольку не принимается в расчет возможность трансляции альтернативных ORF. Для оценки вклада такой альтернативной трансляции был проведен детальный анализ мРНК генов человека, выделенных из БД GenBank (2004 г., 27616 н.п.;

характеристики выборки: 44% кДНК содержали uAUG, было выделено 12693 uORF из 8050 мРНК, средний размер составил 69 н;

35% uORF перекрывались с БКП, из них 9% uORF представляли собой 5’-концевые добавки к аннотированной БКП, то есть в этих случаях uAUG были расположены в той же рамке считывания, что и БКП, и между ними не было нонсенс-кодонов).

Кроме этого, 4591 мРНК содержали стартовый кодон трансляции в субоптимальном контексте. Всего для анализа было выделено две выборки: мРНК человека, потенциально кодирующие удлиненные с N-конца изоформы белков с альтернативного стартового кодона в составе 5’-НТП (uORF2, рис. 4), и 3327 мРНК, содержащие стартовый кодон в субоптимальном контексте и потенциально кодирующие укороченные с N-конца изоформы белков (dORF2, рис.4) (размером больше 100 а.о.). Был проведен сравнительный анализ предсказанной субклеточной локализации потенциальных N-концевых изоформ белков и их аннотированных в GenBank вариантов (был использован метод TargetP (Emanuelsson et al., 2000), позволяющий предсказать наличие на N-конце белка сигнала транспорта в митохондрии (MTP), сигнального пептида (SP) или варианта «другая локализация»). Результаты предсказания приведены в табл. 9, 10. Можно видеть, что 281 из 885 изоформ, удлиненных с N-конца, локализованы в другом компартменте, причем они значительно чаще являются секреторными. Такое различие подтверждает достоверность (неслучайность) результатов, так как использование удлиненных с N-конца изоформ белков для их доставки в другой компартмент биологически осмысленно.

В свою очередь, около 30% укороченных N-концевых изоформ локализованы в компартментах, отличающихся от аннотированных в GenBank вариантов белков (табл. 10). Как и следовало ожидать, в данном случае аннотированные варианты белков чаще содержали MTP или SP, что также хорошо соотносится с биологической значимостью N-концевого участка молекулы. Интересно, что около 10% N-укороченных изоформ были предсказаны как содержащие MTP или SP, тогда как их полноразмерные варианты были предсказаны как «локализованные в другом компартменте». Согласно этой оценке, около 3% пула мРНК человека содержали uAUG, с которых могли дополнительно транслироваться удлиненные с N-конца изоформы аннотированных в банке данных белков. При этом, около 90% таких uAUG были расположены в субоптимальном контексте, что дает возможность одновременно синтезировать как удлиненную, так и укороченную изоформы белка с помощью механизма «сканирование с подтеканием» (Kozak, 2005).

Таблица 9. Субклеточная локализация белков человека и их потенциальных изоформ, удлиненных с N-конца (%) (Kochetov et al., 2005) 39% N-удлиненных и Аннотированный вариант N-концевая изоформа Другая 28% аннотированных Фракция, % MTP SP вариантов белков MTP 9 5 1 содержат MTP или SP 19 3 11 5 SP, 16% N Другая удлиненных и 72 15 4 аннотированных бел Всего 100 23 16 ков характери зовались одинаковой предска-занной локализацией, и 4% N-удлиненных и аннотированных изоформ белков характеризовались изменением локализации (от MTP-содержащего к SP-содержащему белку или наоборот).

С другой стороны, около 12% кДНК человека характеризовались субоптимальным контекстом стартового кодона трансляции и с них также могла считываться N-укороченная изоформа белка.

В целом, около 15% мРНК человека в проанализированной выборке могут дополнительно кодировать N-концевые изоформы белков за счет использования альтернативных стартовых кодонов и около 5% мРНК могут дополнительно кодировать изоформы белков, локализованные в разных компартментах (Kochetov et al., 2005). Для оценки вклада альтернативной трансляции в синтез изоформ белков у организмов другой таксономической N-концевых принадлежности был проведен анализ мРНК дрожжей (Kochetov et al., 2003) и арабидопсиса (Kochetov & Sarai, 2004).

Таблица 10. Субклеточная локализация белков человека и их потенциальных изоформ, укороченных с N-конца (%) (Kochetov et al., 2005) 18% аннотирован Аннотированный вариант N-укороченная изоформа ных изоформ Фракция, % Другая MTP SP перестали быть MTP 13 3 1 секретируемыми (то SP 17 1 7 9 есть, предсказание Другая изменилось с MTP 70 5 5 или SP-содержащих Всего 100 9 13 на “Другая лока лизация”), 10% N-укороченных изоформ сохранили локализацию своих полноразмерных (аннотированных) вариантов (MTP или SP), 10% N-укороченных вариантов приобрели сигнал de novo (то есть, предсказание изменилось с “Другая локализация” на MTP- или SP-содержащие) и 2% N-укороченных изоформ изменили вариант локализации (от MTP к SP- варианту белка или наоборот).

В этих случаях проводилась только оценка возможности дополнительного синтеза N-укороченных изоформ белков, которые могли синтезироваться с помощью механизма «сканирование с подтеканием». В выборке из 9531 мРНК арабидопсиса 1819 мРНК содержали стартовый кодон трансляции в субоптимальном контексте (YnnAUG). Субклеточную локализацию аннотированных белков и их потенциальных изоформ, укороченных с N-конца, предсказывали с помощью программы TargetP (в данном случае предсказывали локализации белка, связанные с наличием на N-конце сигнального пептида для транспорта в митохондрии (MTP), хлоропласты (CTP), мембранной или экстраклеточной локализации (SP), или ни одной из них («Другая локализация»)). Можно видеть (табл. 11), что N-укороченные изоформы белков часто теряют сигнальный пептид (24.4%), чего можно было ожидать вследствие его N-концевого расположения. Интересно, что 12.2% N-укороченных изоформ белков предсказаны как секреторные (содержащие MTP, CTP, или SP), тогда как в полноразмерных вариантах наличие этих сигнальных пептидов не было предсказано. 5.7% белков характеризовались изменением предсказанного компартмента (изменение типа сигнала внутри группы MTP, CTP, SP). 13.5% укороченных с N-конца изоформ белков сохранили сигнальный пептид. В целом, около 4% генов в проанализированной выборке могли дополнительно кодировать укороченные с N-конца изоформы белков, характеризовавшиеся иной субклеточной локализацией (Kochetov & Sarai, 2004).

Таблица 11. Предсказанная субклеточная локализация белков арабидопсиса (%), трансляция которых начинается со стартового кодона в субоптимальном контексте (YnnAUG) и их укороченных с N-конца изоформ, трансляция которых инициируется с нижерасположенного кодона AUG (Kochetov & Sarai, 2004).

Полноразмерные Укороченные с N-конца Локализация Фракция (%) СTP Другая MTP SP MTP 11 2 0.9 1 7. CTP 20.3 1.5 6.8 0.5 11. SP 12.3 1.2 0.6 4.7 5. Другая 56.4 5.4 3.2 3.6 44. Всего 100 10.1 11.5 9.8 68. Близкие по смыслу результаты были получены при анализе выборки генов S.

cerevisiae (Kochetov et al., 2003), что говорит об универсальном характере наблюдаемого феномена. Позднее эти оценки были подтверждены в высокопроизводительных экспериментах по картированию позиций стартовых кодонов (Lee et al., 2012;

Fournier et al., 2012;

Fritsch et al., 2012;

Kazak et al., 2012) и использовались при предсказании структуры ряда генов эукариот.

6. Реинициация трансляции и ее вклад в кодирующий потенциал эукариотических мРНК.

Если в составе 5’-НТП мРНК расположена небольшая открытая рамка считывания (uORF), то после ее трансляции некоторые рибосомы сохраняют способность к повторной инициации (реинициации). Считается, что у эукариот эффективность реинициации невелика и зависит от размера uORF и размера спейсера (участка мРНК между стоп-кодоном uORF и следующим стартом) (Luukkonen et al., 1995;

Kozak, 2001;

2005;

Poyry et al., 2004;

Jackson et al., 2010).

По-видимому, размер uORF имеет значение потому, что за время трансляции небольшой рамки считывания от рибосомы не успевают отделиться некоторые белки, присутствие которых позволяет 40S субъединице остаться связанной с мРНК и продолжить сканирование в 3’-направлении. В процессе сканирования происходит до-сборка инициационного комплекса (связывание с eIF2-met tRNAi-ATP) и восстановление способности распознавать триплеты AUG.

Предполагается, что такое восстановление требует определенного времени (зависящего от активности eIF2), поэтому если проксимальный кодон AUG расположен слишком близко к стоп-кодону uORF, то 40S субъединицы рибосом не распознают его и смогут инициировать трансляцию только на более удаленных сайтах. Считалось, что эффективность реинициации в клетках эукариот мала и синтез альтернативных изоформ белков с помощью этого механизма – редкое явление, связанное со стресс-специфическим контролем экспрессии нескольких регуляторных генов (GCN4, ATF4, ATF5 и т.д.) (Vattem & Wek, 2004;

Zhou et al., 2008;

Jackson et al., 2010).

В рамках диссертационной работы была сделана оценка потенциального вклада механизма реинициации трансляции в синтез N-концевых изоформ белков на примере мРНК человека. Для этого были выделены мРНК, структура которых должна была способствовать функционально значимой реинициации трансляции (рис. 6): мРНК должны были содержать один uAUG, и uORF (размером от 3 до 30 кодонов) должна была перекрываться с аннотированной белок-кодирующей последовательностью. В качестве альтернативного стартового кодона рассматривался AUG, ближайший к стоп-кодону uORF, с которого могла начинаться либо укороченная с N-конца изоформа белка (nextORF2), либо не связанная с ним аминокислотная последовательность (обычно небольшая, nextORF1). В рамках работы была исследована взаимосвязь между uORF, nextORF, характеристиками спейсера и контекстов соответствующих AUG (Kochetov et al., 2008).

uORF nextORF 5’ nextORF CDS AUG Рисунок 6. Организация мРНК человека, отобранных для изучения роли реинициации трансляции в синтезе N-концевых изоформ белков.

Для анализа была использована выборка кДНК человека (EMBL, 2007: 43% от 44416 полноразмерных кДНК содержали uAUG, 7220 кДНК содержали одну uORF и 754 (негомологичных) мРНК соответствовали рис. 6 и были далее использованы в работе). Найдено следующее: средний размер uORF составлял 52 ± 23 н.;

cредний размер спейсера между стоп-кодоном uORF и nextAUG составлял 68 ± 77 н., что достаточно для реинициации трансляции (Kozak, 2001).

Можно было ожидать, что большинство uAUG будут располагаться в субоптимальном контексте, что позволит рибосомам транслировать как uORF, так и белок-кодирующую последовательность (за счет механизма «сканирование с подтеканием» (Kozak, 2005)). Однако, существенная часть uAUG расположена в оптимальном варианте контекста (RnnAUG = 49%, RnnAUGG = 14%). Таким образом, синтез белка на основной рамке считывания за счет механизма «сканирование с подтеканием» в половине случаев должен быть низкоэффективным, а в 14% случаев синтез известного варианта белка вообще не должен был происходить: практически все рибосомы в такой ситуации должны транслировать uORF (рис. 6). 297 мРНК (39% выборки) содержали nextORF2, соответствующую укороченной с N-конца изоформе белка.

Согласно полученным данным, между размером uORF и контекстом nextAUG существует достоверная негативная корреляция, но только в случае nextORF2, кодирующих N-концевую изоформу белка (r = -0.16, p = 0.007;

в случае nextORF1 значения не достоверны). Другая зависимость была найдена между размером спейсера между uORF и контекстом nextAUG: показано, что положительная достоверная корреляция существует в том случае, если nextORF кодирует N-концевую изоформу аннотированного белка (rk = 0.075 p=0.05), в случае значения недостоверны. По-видимому, эти out-frame nextORF закономерности могут отражать функциональную значимость некоторых N концевых изоформ аннотированных белков и – соответственно – эволюционную оптимизацию структурных элементов мРНК, связанных с реинициацией трансляции: более короткая uORF, более протяженный спейсер и более оптимальный контекст nextAUG способствуют более эффективному синтезу таких изоформ (Luukkonen et al., 1995;

Kozak, 2001;

2005;

Jackson, 2010). 38% N концевых изоформ белков характеризуются предсказанной субклеточной локализацией, отличной от их полноразмерных вариантов (табл. 12).

Значительная часть сегментов полноразмерных белков, отсутствующих в N концевых трансляционных изоформах, характеризуются сходством с паттернами ProSite (72 сегмента, в большинстве соответствуют сайтам посттрансляционной модификации белков). Трансляционная конфигурация мРНК человека (uORF БКП-nextORF) была сходна у 82% мышиных гомологов и 79% мРНК и мыши, и крысы. 89 белков из 297 характеризуются терминами GO, связанными с “development”, “regulation of biological processes” и “response to stimuli”, то есть с регуляторными факторами. В целом, анализ мРНК человека показал, что использование реинициации трансляции in vivo для синтеза N-концевых изоформ следует принимать во внимание (Kochetov et al., 2008).

Таблица 12. Субклеточная локализации белков человека (БКП) и их потенциальных изоформ укороченных с N-конца (%), синтезируемых за счет реинициации трансляции митохондриальный БКП *MTP, N-изоформа Фракция MTP SP Другая секреторный пептид;

Сигнал* SP, секреторный пептид.

MTP 16 3 1 SP 20 1 6 Другая 64 8 3 Всего 100 12 10 7. Альтернативная терминация трансляции.

В диссертационной работе была также сделана оценка потенциального вклада альтернативной терминации трансляции в синтез С-концевых изоформ эукариотических белков. Была проверена гипотеза (предложенная Л.Л.

Киселевым) о роли тандемов стоп-кодонов в качестве механизма, компенсирующего низкую эффективность сигнала терминации трансляции (т.н.

readthrough – считывание малоэффективного стоп-кодона как смыслового, продолжение трансляции и терминация на нижерасположенном нонсенс-кодоне в той же рамке считывания). Компьютерный анализ показал, что у A. thaliana и O. sativa частота встречаемости «запасных» стоп-кодонов в начале 3’-НТП повышена только в том случае, если в качестве терминатора трансляции использован UGA (в меньшей степени – UAG). Систематический анализ характеристик мРНК показал, что частота встречаемости нонсенс-кодонов в начале 3’-НТП коррелирует с присутствием аминокислотного остатка глицина в С-концевой позиции белка (рис. 7). По-видимому, комбинация стоп-кодона UGA и глицина на С-конце белка затрудняет терминацию трансляции и такие мРНК могут быть склонны к синтезу С-концевых изоформ белков. Согласно нашей оценке, этот механизм может лежать в основе дополнительного синтеза 100- С-концевых изоформ белков за счет альтернативной терминации трансляции (Kochetov et al., 2011), некоторые из которых могут быть функционально значимы (такие случаи известны: например, Robinson & Cooley, 1997;

Steneberg et al., 1998;

Steneberg & Samakovlis, 2001;

Namy et al., 2002;

Dreher & Miller, 2006;

Kaler et al., 2009). Таким образом, вклад альтернативной терминации трансляции в кодирующий потенциал эукариотических мРНК выражен в значительно меньшей степени, чем вклад альтернативной инициации трансляции.

Рисунок 7. Разность UAA UGA UAG средних позиционных 0, частот нонсенс-кодонов 0, (в рамке БКП) в проксимальных 0, триплетах 3’-НТП мРНК 0, генов арабидопсиса, 0, кодирующих белки либо 0, с остатком глицина на С 1 2 3 4 5 6 7 8 9 10 11 12 13 14 -0, конце, либо с остатком -0, другой аминокислоты триплеты в начале 3'-НТП -0, (Gly-nonGly) (Kochetov et al., 2011).

ЗАКЛЮЧЕНИЕ В рамках диссертационной работы была расширена и детализирована схема организации сигнала инициации трансляции эукариотических мРНК. Найдено, что некоторые характеристики мРНК могут функционировать в качестве дополнительных элементов, модулирующих вероятность распознавания стартового кодона и эффективность инициации трансляции в целом. В качестве таких характеристик могут использоваться элементы вторичной структуры РНК («компенсаторные» шпильки), а также определенные комбинации нуклеотидов в позициях контекста AUG и аминокислотных остатков во второй позиции белка.

Показано, что в структуре сигнала инициации трансляции с высокой частотой присутствуют альтернативные стартовые кодоны, что свидетельствует о существенно более высоком кодирующем потенциале эукариотических геномов, чем это полагали ранее. Сравнительный анализ показал, что вклад альтернативной инициации трансляции в протеом эукариот многократно выше, чем у альтернативной терминации трансляции.

ВЫВОДЫ 1. Выявлены характеристики нуклеотидных последовательностей 5’-НТП мРНК эукариотических генов, способствующие их функциональной активности в процессе инициации трансляции. Показано, что лидерные районы мРНК генов высокого уровня экспрессии адаптированы для поддержания высокой трансляционной активности (небольшой размер, дисбаланс в содержании комплементарных нуклеотидов, оптимальный контекст стартового кодона, отсутствие (или слабый контекст) uAUG и т.п.). Разработан первый метод предсказания трансляционной активности мРНК растений и млекопитающих на основе анализа контекстных характеристик их 5’-НТП (Leader_RNA).

2. Показано, что в некоторых мРНК млекопитающих и дрожжей эффективность распознавания стартового кодона в субоптимальном контексте может усиливаться с помощью элементов вторичной структуры («компенсаторных шпилек»), расположенных в определенном участке белок-кодирующей последовательности. Разработан Интернет-ресурс (AUG_hairpin), позволяющий предсказывать такие структуры.

3. Найдено, что в структуре молекул РНК доступность участков молекул для взаимодействия (accessible source area) контекстно-зависима, при этом высокими значениями этого параметра характеризуются триплеты AUG и UGA.

Выдвинуто предположение о том, что физико-химические характеристики могли быть одной из причин выбора именно этих комбинаций нуклеотидов в качестве сайтов инициации и терминации трансляции на ранних этапах эволюции жизни.

4. Уточнены характеристики нуклеотидного контекста стартового кодона трансляции в эукариотических мРНК. Показано наличие устойчивых вариантов оптимального контекста (AnnAUGn, GnnAUGG), а также взаимосвязь между некоторыми вариантами нуклеотидного контекста и присутствием определенных аминокислотных остатков во второй позиции полипептида. По видимому, такие комбинации влияют на эффективность формирования первой пептидной связи, что и определяет их функциональную значимость.

5. Обнаружено, что в структуре эукариотического сигнала инициации трансляции с высокой частотой (20% - 40% транскриптома у разных видов) содержатся альтернативные стартовые кодоны, с которых может начинаться дополнительный синтез N-концевых изоформ аннотированных белков или не связанных с ними пептидов. Согласно полученным данным, вклад этого механизма в кодирующий потенциал эукариотических генов и клеточный протеом в очень существенной степени недооценен. Предсказаны трансляционные изоформы белков дрожжей, растений и млекопитающих.

6. Показано, что контекстная организация некоторых мРНК растений может способствовать терминации на альтернативных стоп-кодонах. Согласно полученным данным, вклад альтернативной терминации трансляции и дополнительного синтеза С-концевых изоформ белков в протеом намного меньше, чем при использовании сайтов альтернативной инициации трансляции.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ:

1. Кочетов А.В., Шумный В.К. Влияние структуры мРНК на процесс инициации трансляции в клетках растений. Усп. совр. биол. 1998. 118. 754-770.

2. Kochetov A.V., Ischenko I.V., Vorobiev D.G., Kel A.E., Babenko V.N., Kisselev L.L., Kolchanov N.A. Eukaryotic mRNAs encoding abundant and scarce proteins are statistically dissimilar in many structural features. FEBS Lett. 1998. 440. 351-355.

3. Кочетов А.В., Пилюгин М.В., Колпаков Ф.А., Бабенко В.Н., Колчанов Н.А., Шумный В.К. 5’-НТП мРНК генов растений: контекст стартового кодона трансляции. Цитол. генет. 1999. 33. 3-9.

4. Kochetov A.V., Ponomarenko M.P., Frolov A.S., Kisselev L.L., Kolchanov N.A.

Prediction of eukaryotic mRNA translational properties. Bioinformatics. 1999.15.704- 5. Kolchanov N.A., Ponomarenko M.P., Kel A.E., Kondrakhin Ju.V., Frolov A.S., Kolpakov F.A., Goryachkovskaya T.N., Kel O.V., Ananko E.A., Ignatieva E.V., Podkolodnaya O.A., Stepanenko I.L., Merkulova T.I., Babenko V.V., Vorobiev D.V., Lavryushev S.V., Ponomarenko Yu.V., Kochetov A.V., Kolesov G.N., Podkolodny N.L., Milanesi L., Wingender E., Heinemeyer T., Solovyev V., Overton G.C Genexpress 1.0: an WWW oriented intergartor for the databases and computer systems for studying the eukaryotic gene expression. Bioinformatics. 1999. 15. 669-686.

6. Пономаренко М.П., Пономаренко Ю.В., Фролов А.С., Кочетов А.В., Колпаков Ф.А., Колчанов Н.А., Подколодный Н.Л. Электронная библиотека знаний для аннотации геномной ДНК. Электронные библиотеки. 1999. 2. 3.

7. Rogozin I.B., Kochetov A.V., Kondrashov F.A., Koonin E.V., Milanezi L. Presence of ATG triplets in 5’ untranslated regions of eukaryotic cDNAs correlates with a “weak” context of the start codon. Bioinformatics. 2001. 17. 890-900.

8. Кочетов А.В., Григорович Д.А., Титов И.И., Воробьев Д.Г., Сырник О.А., Вишневский О.В., Sarai A., Колчанов Н.А. Компьютерная система mRNA-FAST (mRNA: Function, Activity, STructure). Мол. биол. 2001. 35. 1039-1047.

9. Кочетов А.В., Сырник О.А., Рогозин И.Б., Глазко Г.В., Комарова М.Л., Шумный В.К. Контекстная организация 5’-нетранслируемых районов генов высших растений. Мол. биол. 2002. 36. 649-656.

10. Кочетов А.В., Sarai A., Воробьев Д.Г., Колчанов Н.А. Контекстная организация функциональных районов генов с высоким уровнем экспрессии у дрожжей. Мол.

биол. 2002. 36. 1026-1034.

11. Кочетов А.В., Омельянчук Н.А., Игнатьева Е.В., Лихошвай В.А., Матушкин Ю.Г.

Биоинформатика и трансгенез: создание организмов с новыми свойствами // Экол генет. 2003. 1. 67- 12. Kochetov A.V., Pichueva A.G., Kondrakhin Yu.V., Titov S.E., Kolchanov N.A. The contextual features of higher plant mRNA 5’-untranslated regions as related to the translation initiation mechanisms. Biophysics (Moscow). 2003 48 Suppl. 1 76-80.

13. Kochetov A.V., Kolchanov N.A., Sarai A. Interrelations between the efficiency of translation start site and other sequence features of yeast mRNAs. Mol. Genet. Genomics.

2003. 270. 5. 442-447.

14. Kochetov A.V., Sarai A. Translational polymorphism as a potential source of plant proteins variety in Arabidopsis thaliana. Bioinformatics. 2004. 20. 445-447.

15. Pichueva A.G., Kochetov A.V., Milanesi L., Kondrakhin Yu.V., Kolchanov N.A.

Correlations between sequence features of yeast genes functional regions and the level of expression. In: Bioinf. Genome Regulation & Structure. Ed. By N. Kolchanov and R.

Hofestaedt, Kluwer Academic Publishers, Boston/Dordrecht/London, 2004, pp. 125-132.

16. Matushkin Yu.G., Likhoshvai V.A., Kochetov A.V. Local secondary structure may be a critical characteristic influencing translation of unicellular organisms mRNA. In: Bioinf.

Genome Regulation & Structure. Ed. By N. Kolchanov and R. Hofestaedt, Kluwer Academic Publishers, Boston/Dordrecht/London, 2004, pp. 103-114.

17. Vishnevsky O.V., Avdeeva I.V., Kochetov A.V. Study of the specific contextual features of translation initiation and termination sites in Saccharomyces cerevisiae // In: Bioinf.

Genome Regulation & Structure. Ed. By N. Kolchanov and R. Hofestaedt, Kluwer AcademicPublishers, Boston/Dordrecht/London, 2004, pp. 213-222.

18. Kochetov A.V. AUG codons at the beginning of protein coding sequences are frequent in eukaryotic mRNAs with a suboptimal start codon context. Bioinformatics. 2005. 21. 837 840.

19. Kochetov A.V., Sarai A., Rogozin I.B., Shumny V.K., Kolchanov N.A. The role of alternative translation start sites in generation of human protein diversity. Mol. Genet.

Genomics 2005. 273. 491-496.

20. Волкова О.А., Кочетов А.В., Титов С.Е., Колчанов Н.А. Потенциальные открытые рамки считывания в 5’-нетранслируемых районах эукариотических мРНК.

Биофизика. 2006. 51. 615-621.

21. Волкова О.А., Титов С.Е., Кочетов А.В. Взаимосвязь контекстной организации сигнала инициации трансляции и аминокислотной последовательности на N-конце белков эукариот. Биофизика. 2006. 51(7) 11-17.

22. Кочетов А.В. Альтернативные сайты инициации трансляции и их вклад в протеом эукариотических клеток. Мол. биол. 2006. 40. 788-795.

23. Kochetov A.V. Alternative coding potential of mammalian mRNAs. In: New Messenger RNA Research Communications. (Ed. Lee B. Kwang) Nova Science Publishers, Inc., 2007, Chapter 13, 191-201. (ISBN 978-1-60021-488-2) 24. Kochetov A.V., Palyanov A., Titov I.I., Grigorovich D., Sarai A., Kolchanov N.A.

AUG_hairpin: prediction of a downstream secondary structure influencing the recognition of a translation start site. BMC Bioinformatics 2007, 8: 25. Kochetov A.V., Ahmad S., Ivanisenko V., Volkova O.A., Kolchanov N.A., Sarai A.

uORFs, reinitiation and alternative translation start sites in human mRNAs. FEBS Lett.

2008. 582. 1293-1297.

26. Kochetov A.V. Alternative translation and hidden coding potential of eukaryotic mRNAs.

BioEssays. 2008. 30. 683-691.

27. Volkova O.A., Kochetov A.V. Interrelations between the nucleotide context of human start AUG codon, N-end amino acids of the encoded protein and initiation of translation.

J. Biomol. Struct. Dynam. 2010. 27. 611-618.

28. Singh H., Andrabi M., Kahali B., Ghosh T.C., Miziguchi K., Kochetov A.V., Ahmad S.

On nucleotide solvent accessibility in RNA structure. Gene. 2010. 463. 41-48.

29. Bazykin G.A., Kochetov A.V. Alternative translation start sites are conserved in eukaryotic genomes. Nucleic Acids Res. 2011. 39. 567-577.

30. Kochetov A.V., Volkova O.A., Poliakov A., Dubchak I., Rogozin I.B. Tandem termination signal in plant mRNA. Gene. 2011. 481. 1-6.

31. Смирнова О.Г., Рассказов Д.А., Кочетов А.В. Информационная поддержка экспериментов по трансгенезу растений: база данных трансляционных энхансеров.

Вавиловский журнал генетики и селекции. 2012. 16. 520-526.

32. Ventoso I., Kochetov A., Montaner D., Dopazo J., Santoyo J. Extensive translatome remodeling during ER stress response in mammalian cells. PLoS One. 2012. 7(5). e 33. Kochetov A.V., Merkulova T.I., Merkulov V.M. Possible link between the synthesis of GR alpha isoforms and eIF2 alpha phosphorylated state. Medical Hypotheses. 2012.

79(6):709- 34. Kochetov A.V., Prayaga P.D., Volkova O.A., Sankararamakrishnan R. Hidden coding potential of eukaryotic genomes: non-AUG started ORFs. J Biomol Struct Dyn. 2013;

31(1):103-14.



 




 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.