Компьютерный анализ конформационных и физико-химических особенностей функциональных сайтов геномной днк эукариот
На правах рукописи
ОЩЕПКОВ ДМИТРИЙ ЮРЬЕВИЧ КОМПЬЮТЕРНЫЙ АНАЛИЗ КОНФОРМАЦИОННЫХ И ФИЗИКО-ХИМИЧЕСКИХ ОСОБЕННОСТЕЙ ФУНКЦИОНАЛЬНЫХ САЙТОВ ГЕНОМНОЙ ДНК ЭУКАРИОТ Специальность 03.01.09 – математическая биология, биоинформатика
АВТОРЕФЕРАТ
Диссертации на соискание степени кандидата биологических наук
Новосибирск-2010
Работа выполнена в лаборатории теоретической генетики Учреждения РАН Институт цитологии и генетики СО РАН, г. Новосибирск.
Научный консультант:
академик РАН, профессор Н.А.Колчанов, Институт цитологии и генетики СО РАН, г. Новосибирск
Официальные оппоненты:
доктор биологических наук М.Г.Самсонова, Санкт-Петербургский государственный политехнический университет, г. Санкт-Петербург кандидат биологических наук Л.К.Савинкова, Институт цитологии и генетики СО РАН, г. Новосибирск Ведущее учреждение:
Государственный научный центр вирусологии и биотехнологии «Вектор», Кольцово, Новосибирская обл.
Защита диссертации состоится «_» 2010 г. на утреннем заседании диссертационного совета по защите диссертаций на соискание ученой степени доктора наук (Д-003.011.01) в конференц-зале Института цитологии и генетики СО РАН по адресу: 630090, г.Новосибирск, 90, пр. акад. Лаврентьева, 10, тел/факс: (383)3331278;
e-mail: [email protected].
С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН.
Автореферат разослан «_» 2010 г.
Ученый секретарь диссертационного совета, доктор биологических наук Т.М. Хлебодарова Актуальность проблемы Регуляция транскрипции играет ключевую роль в механизмах регуляции экспрессии генов. У эукариот этот процесс контролируется огромным количеством разнообразных белковых молекул, которые в процессе сложнейших ДНК-белковых и белок-белковых взаимодействий обеспечивают выполнение функций транскрипционного аппарата. Одним из основных механизмов регуляции экспрессии генов на уровне транскрипции является процесс взаимодействия белков - факторов транскрипции с сайтами их связывания в регуляторных районах генов. В процесс транскрипции вовлечена также топоизомераза. Связываясь с ДНК, она обеспечивает сохранение топологии спирали ДНК в процессах транскрипции и репликации. Исследование особенностей связывания белковых факторов с последовательностями ДНК является одним из ключевых моментов для понимания основ регуляции транскрипции.
Приблизительная оценка числа сайтов связывания транскрипционных факторов (ССТФ) в геноме человека дает числа более сотен тысяч *.
Экспериментальное выявление такого количества сайтов является чрезвычайно сложной и дорогостоящей задачей. Один из путей решения этой проблемы основан на создании эффективных методов планирования экспериментов по выявлению сайтов связывания транскрипционных факторов. В связи с этим важнейшее значение приобретает создание точных методов предсказания ССТФ, обеспечивающих минимальное число ложных предсказаний, что, в свою очередь, дает возможность рационального планирования эксперимента по выявлению ССТФ*.
Как правило, каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных по нуклеотидной последовательности. В настоящее время существует большое число методов распознавания потенциальных сайтов связывания, основанных на анализе контекстного сходства. Однако эти методы, как правило, не учитывают или недостаточно эффективно используют данные о контекстно-зависимых конформационных и физико-химических особенностях ДНК сайтов связывания.
Многочисленные экспериментальные данные, полученные за последние 20 лет, однозначно свидетельствуют о том, что геномная ДНК неоднородна как по конформации, так и по своим физико-химическим свойствам. Накоплен большой объем экспериментальных данных по пространственному строению двойной спирали ДНК, ДНК-белковых комплексов, а также о зависимости локальных конформационных и физико-химических свойств двойной спирали ДНК от нуклеотидной последовательности. В то же время, как экспериментальные данные, так и компьютерный анализ и теоретическое обобщение этих данных показывают, что способность регуляторных белков взаимодействовать с * Kolchanov et al. (2007) Brief. Bioinform., 8(4): 266-274.
двойной спиралью ДНК в сильной степени зависит от ее локальных конформационных и физико-химических свойств †.
Однако количество научных публикаций по распознаванию ССТФ на основе анализа контекстно-зависимых конформационных и физико химических свойств ДНК весьма ограничено. В связи с этим актуальной задачей является разработка компьютерных подходов к анализу контекстно-зависимых конформационных и физико-химических свойств сайтов связывания транскрипционных факторов и построения на этой основе точных методов их распознавания в геномной ДНК эукариот.
Использование данных о контекстно-зависимых конформационных и физико-химических свойствах при анализе сайтов связывания транскрипционных факторов может привести не только к повышению качества их распознавания, но и позволит получить полезную информацию об особенностях ДНК-белковых взаимодействий.
Целью работы являлось выявление особенностей контекстно зависимых конформационных и физико-химических свойств ДНК функциональных сайтов в геномах эукариот с помощью компьютерного анализа и создание на этой основе подхода для планирования экспериментов по выявлению сайтов связывания регуляторных белков.
В работе были поставлены следующие задачи:
1. Разработка компьютерного метода выявления контекстно-зависимых конформационных и физико-химических особенностей ДНК функциональных сайтов.
2. Проведение компьютерного анализа конформационных и физико химических свойств ДНК сайтов связывания различных транскрипционных факторов и сайтов расщепления ДНК топоизомеразой 1 человека.
3. Разработка методов распознавания потенциальных сайтов связывания различных транскрипционных факторов, в частности, SF-1, SREBP и гетеродимера E2F/DP на основе выявленных значимых конформационных и физико-химических свойств этих сайтов.
4. Создание Интернет–доступной компьютерной системы для анализа и распознавания сайтов связывания транскрипционных факторов, создание информационного ресурса по особенностям конформационных и физико-химических свойств для доступных выборок сайтов связывания транскрипционных факторов и методам их распознавания.
5. Проведение планирования экспериментов по локализации сайтов связывания транскрипционных факторов SF-1 и SREBP в промоторных районах генов млекопитающих.
† Ponomarenko et al. (1999) Bioinformatics, 15(7):654-668.
Научная новизна Впервые показано наличие значимых консервативных контекстно-зависимых конформационных и физико химических свойств ДНК в выборках различных классов последовательностей функциональных сайтов – сайтов связывания транскрипционных факторов и сайтов расщепления ДНК топоизомеразой I человека. Впервые разработана система SITECON, представляющая собой реализованный в виде компьютерной программы комплекс методов для выявления консервативных конформационных и физико-химических свойств сайтов связывания транскрипционных факторов и распознавания с использованием этих данных потенциальных ССТФ. С помощью этой системы исследованы конформационные и физико-химические особенности сайтов связывания четырех типов транскрипционных факторов (SF-1, SRF, MCM1 и E2F/DP). Показано, что сайты каждого типа характеризуются уникальным набором конформационных и физико химических особенностей двойной спирали ДНК, отличающих их от случайных последовательностей нуклеотидов. Анализ показал, что выявляемые консервативные конформационные и физико-химические свойства ДНК изученных функциональных сайтов отражают специфику ДНК-белковых взаимодействий. Впервые проведено планирование эксперимента по проверке потенциальных сайтов связывания SF1 и SREBP. Независимо проведенная экспериментальная проверка выявленных сайтов показала высокую эффективность применяемого комплекса методов.
Практическая ценность Разработанная система SITECON обеспечивает возможность выявления значимых консервативных контекстно-зависимых конформационных и физико-химических особенностей ДНК функциональных сайтов на основе анализа выборок последовательностей этих сайтов. Используемый системой метод выявления особенностей ДНК может использоваться для анализа разнообразных сайтов в геномах эукариот. Выявленные характеристики ДНК функциональных сайтов являются основой для создания методов их распознавания в геномной ДНК. Система SITECON обладает высокой производительностью и может применяться для массового анализа сайтов связывания транскрипционных факторов, информация о значимых конформационных и физико-химических особенностях которых накапливается в соответствующей базе знаний. В настоящее время эта база знаний содержит результаты анализа 220 выборок последовательностей сайтов связывания различных транскрипционных факторов и методы их распознавания. Проведенные исследования показали высокую точность распознавания сайтов связывания транскрипционных факторов системой SITECON, что критически значимо для эффективного планирования экспериментов по выявлению таких сайтов в геномах эукариот. Система SITECON доступна по сети Интернет (http://wwwmgs.bionet.nsc.ru/mgs/programs/sitecon/) и может применяться в учебном процессе как в курсах биоинформатики (информационной биологии), так и в курсах экспериментальной молекулярной биологии.
Представленный в диссертации комплекс методов SITECON был успешно применен для распознавания сайтов связывания транскрипционных факторов SF-1, SREBP, FOXA, E2F/DP, IRF, ISGF3, STAT, NF-kB, COUP-TF, PPAR, HSF, AhR;
а также использован при планировании эксперимента по распознаванию сайтов SF-1 и SREBP в промоторах генов млекопитающих. Получено авторское свидетельство № 2006610270 ”Программа для определения консервативных свойств в сайтах связывания транскрипционных факторов и их распознавания (САЙТКОН) / The tool for detecting conservative properties in transcription factor binding sites and for site recognition (SITECON)“, автор: Ощепков Д.Ю., зарегистрировано 10.01.2006.
Основные положения диссертации, выносимые на защиту 1. Различные функциональные сайты в геномной ДНК характеризуются наличием наборов статистически значимых контекстно-зависимых консервативных конформационных и физико-химических свойств.
2. Наборы консервативных контекстно-зависимых конформационных и физико-химических свойств, выявляемые при анализе выборок сайтов связывания транскрипционных факторов, могут быть эффективно использованы для распознавания потенциальных сайтов связывания этих факторов в геномах различных организмов.
Публикации По теме диссертационной работы опубликовано работы, из них 9 статей в рецензируемых и ведущих журналах, 5 из которых входят в список ВАК, и 6 публикаций в монографиях. Результаты работы представлены на 10 российских и 2 зарубежных конференциях в виде устных докладов и стендовых сообщений, среди которых первая, вторая, третья, четвертая, пятая и шестая международные конференции по биоинформатике, структуре и регуляции генома (г. Новосибирск, август 1998 г., июль 2000 г., июль 2002 г., август 2004 г., июль 2006г., июнь 2008г.);
международная конференция по компьютерной молекулярной биологии, (Москва, июнь 2003 г.);
27th International Symposium on Halogenated Persistent Organic Pollutants “Dioxin 2007”, 2-7 September, 2007;
Conference on modeling and simulation in biology, medicine and biomedical engineering. Linkoping, Sweden, May 26-27, 2005.
Структура работы Диссертационная работа состоит из введения и обзора литературы (глава I), трёх разделов, содержащих основные результаты (главы II- IV), заключения, выводов, списка цитированной литературы (267 ссылок). Работа изложена на 177 страницах, содержит рисунок и 28 таблиц.
Вклад автора Автором диссертации был самостоятельно разработан комплекс методов системы SITECON, проведено выявление и анализ консервативных свойств всех описанных в диссертации типов сайтов связывания транскрипционных факторов, проведено распознавание всех потенциальных ССТФ, описанных в диссертации. Автор привнес решающий вклад в работу по анализу консервативных свойств сайтов расщепления топоизомеразой I человека, планированию экспериментов по проверке потенциальных сайтов SF-1 и SREBP, анализу локализации сайтов SF-1 в регуляторных районах генов-ортологов.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ Компьютерная система SITECON В диссертации разработан подход для поиска конформационных и физико-химических особенностей ДНК в позициях выборок последовательностей функциональных сайтов, ставший основой для системы SITECON. Для анализа и обучения системы могут использоваться как выравненные пользовательские выборки, так и любая из 220 выборок ССТФ, представленных во внутренней базе данных (БД) выравненных нуклеотидных последовательностей ССТФ системы (рис. 1).
В ходе анализа в модуле Таблица 1.
выявления значимых контекстно зависимых конформационных и Пример конформационного особенностей свойства ДНК из БД PROPERTY.
физико-химических Угол наклона ДНК функциональных сайтов Динуклеотид Roll, градус системы (рис. 1) каждому оснований динуклеотиду каждой из N выравненных (фазированных) последовательностей длиной L выборки сопоставляется значение 0. AA –0. AT определенного физико-химического 4. AG или конформационного свойства Fi.
0. AC Значения 38 контекстно-зависимых 2. TA конформационных и физико- 0. TT химических свойств B-формы ДНК 0. TG –1. TC (табл. 1), используемых в расчетах, –1. GA взяты из БД PROPERTY (рис. 1) 0. GT (http://wwwmgs.bionet.nsc.ru/mgs/gn GG 6. w/bdna/). Матрицы размером Nx(L-1), GC –6. 0. CA каждый элемент которых Fikl 4. CT соответствует величине i-го свойства CG –6. Fi динуклеотида в l-ой позиции k-ой 6. CC последовательности, используются для вычисления средних значений каждого из свойств Fi в каждой из позиций l выборки:
1N Fil = Fikl, (1) N k = и дисперсий каждого из свойств Fi для каждой из позиций l:
1N ( Fikl F il )2.
= (2) Fil N 1 k = Величина F нами используется в качестве меры консервативности il каждого из свойств i для каждой из l позиции выборки. Предполагается, что если значение конкретного свойства ДНК в определенном участке последовательности сайта сохраняется (консервативно) для всех сайтов выборки, то такое значение этого свойства в этом участке важно для функционирования этого сайта. Это обеспечивает малую величину дисперсии значений свойства по сравнению с выборкой случайных последовательностей. Иными словами, малая величина дисперсии конкретного свойства говорит о консервативности свойства в данной позиции. Значимыми для связывания мы будем считать те конформационные или физико-химические свойства ДНК функционального сайта, дисперсия которых значимо мала при оценке по критерию 2.
Рисунок 1. Блок-схема системы SITECON.
Информация о значимых конформационных и физико-химических особенностях ДНК ССТФ – выявленных консервативных свойствах – для всех 220 типов выборок ССТФ из базы данных системы содержится в соответствующей базе знаний системы (рис. 1) в форме двух матриц:
Fil и F il. Для удобства анализа этой информации она может быть представлена пользователю системой SITECON на одной цветной диаграмме. Анализ данных в базе знаний системы показал, что каждый из 220 типов сайтов ТФ характеризуется набором статистически значимых консервативных контекстно-зависимых конформационных и физико химических свойств ДНК.
Набор консервативных свойств далее используется соответствующим модулем системы для автоматической генерации и запуска программ поиска функциональных сайтов на основе выявленных особенностей (рис. 1). Распознавание потенциальных сайтов в последовательностях ДНК осуществляется путем сравнения консервативных свойств сайтов со свойствами фрагмента анализируемой последовательности. Программы поиска сайтов могут быть использованы для анализа любой пользовательской последовательности ДНК. Для каждой позиции l движущегося окна анализируемой последовательности вычисляется величина вероятности Pil того, что каждое из свойств Fi может принять значение F il, характерное для выборки сайтов данного типа при значении Fil для данного окна:
1 exp( (( Fil Fil ) ( Fil + err )) 2 ), Pil = i (3) 2 ( Fil + err ) i где F il и il - среднее значение и стандартное отклонение i-го свойства выборки в позиции l соответственно, Fil - значение свойства в анализируемой последовательности в позиции l движущегося окна, err дополнительный параметр, введенный для учета тепловых флуктуаций и погрешностей измерения свойств ДНК, взят равным 10% от величины стандартного отклонения свойства i для случайных последовательностей.
Сумму Pil для всех значимо консервативных свойств, нормированную на количество таких свойств, примем в качестве меры сходства между последовательностями выборки сайтов связывания и анализируемой последовательностью в пределах движущегося окна:
I,L F Pil P = i = 0,l =, (4) il I,L 2 ( F + err ) i i = 0,l = il где il = 1, если значимо мало, иначе il =0.
Fil Величина P соответствует вероятности того, что величины консервативных свойств, которые обнаружены для последовательностей выборки и величины свойств анализируемой последовательности ДНК в пределах движущегося окна близки. Будем называть величину P уровнем конформационного сходства. Предполагается, что чем больше P в пределах движущегося окна с выборкой экспериментально выявленных сайтов данного типа, тем выше достоверность нашего суждения о том, что последовательность в пределах движущегося окна является сайтом связывания данного ТФ.
При распознавании используется два алгоритма отбора наиболее информативных характеристик функциональных сайтов, разработанных в рамках диссертации и позволяющих повысить качество распознавания.
Пороговое значение конформационного сходства, при превышении которого анализируемая последовательность считается сайтом связывания соответствующего транскрипционного фактора, может быть выбрано на основе анализа таблицы ошибок распознавания, которая автоматически рассчитывается модулем расчета ошибок распознавания системы SITECON (рис. 1). Для оценки ошибки первого рода (недопредсказание) применяется стандартный подход складного ножа (jack-knife) с последовательным удалением одной последовательности и последующим ее распознаванием (определением конформационного сходства) на основе обучения на оставшейся части выборки. Ошибки второго рода (перепредсказание) оцениваются путем распознавания сайтов связывания в последовательности длиной 100000 п.о., сгенерированной случайным образом с сохранением ATGC-состава, вычисленного для обучающей выборки. Используется предположение, что вероятность сгенерировать последовательность, совпадающую с последовательностью сайта, пренебрежимо мала. Интерфейс системы SITECON (http://wwwmgs.bionet.nsc.ru/mgs/programs/sitecon) подробно описан в (Oshchepkov et al., 2004а) и обеспечивает доступ ко всем описанным выше функциональным возможностям и информационным ресурсам системы.
Исследование сайтов связывания гетеродимера E2F/DP В результате анализа выборки из 40 последовательностей экспериментально подтвержденных сайтов E2F/DP из БД TRRD с помощью системы SITECON для них был выявлен набор консервативных конформационных и физико-химических свойств ДНК. На основании двух эмпирических критериев, а также анализа взаимных корреляций свойств двойной спирали ДНК для анализа нами были отобраны два свойства – «ширина большой бороздки» и «ширина малой бороздки». Сопоставим значения этих свойств в позициях сайтов (рис. 2) с информацией, полученной в результате рентгеноструктурного анализа (РСА) ДНК-белкового комплекса E2F/DP ‡ (рис. 3).
а б 5. Ангстрем Ангстрем 4. 11 n' T'' T''' T''' C'' G'' C''' G''' C' G A W T' T'' T'' C'' G''' C''' G''' C'' G' A W Рисунок 2. Значения ширины большой (а) и малой (б) бороздок ДНК для сайтов связывания транскрипционного фактора E2F/DP. Центральная кривая соответствует среднему значению свойства для каждой из позиций выборки;
верхняя кривая соответствует среднему значению плюс значение стандартного отклонения для позиции;
нижняя кривая соответствует среднему значению минус значение стандартного отклонения для позиции. Уровень значимости консервативности для каждой позиции помечен: (’) – 99.0%, (’’) 99.9%, (’’’) - 99.99 %.
Для отмеченного участка консенсуса TTTCGCGCGAW сайта характеристика «ширина большой бороздки» консервативна среди набора исследованных сайтов. Одновременно значение этой характеристики в пределах рассматриваемого участка увеличено по сравнению со средним значением этого свойства для случайных последовательностей (Рис.2а).
В свою очередь, по данным РСА при связывании гетеродимера E2F/DP в большую бороздку ДНК в этом же участке сайта TTTCGCGCGAW помещается две узнающих -спирали, по одной от каждого из составляющих гетеродимера (рис. 3). Таким образом, увеличенная ширина большой бороздки ДНК в этом участке сайта является необходимым условием для распознавания гетеродимером E2F/DP своего сайта Рисунок 3. Комплекс димера связывания. E2F/DP с ДНК, вход PDB 1cf7. 1 и Для участка сайта – распознающие -спирали DP (1) и TTTCGCGCGAW свойство «ширина E2F (2), 3 – N-концевой домен E2F.
‡ Zheng et al. (1999) Genes & Development, 13:666-674.
малой бороздки» консервативно для исследованной выборки последовательностей, и его значение увеличено по сравнению со средним значением этого свойства для случайных последовательностей (Рис. 2б).
Результаты РСА, в свою очередь, указывают на важную роль этого T тракта в консенсусной последовательности. Он необходим для встраивания N-концевой петли распознающего домена фактора E2F в расширенную малую бороздку ДНК в соответствующем участке сайта TTTCGCGCGAW (Рис. 3).
Таким образом, выявляемые с помощью нашего подхода особенности конформации молекулы ДНК в районе сайта согласуются с данными РСА, что, в свою очередь, подтверждает, что выявленные конформационные особенности отражают молекулярные механизмы ДНК-белкового узнавания и связывания (Oshchepkov et al., 2004б).
На основе Таблица 2.
выявленного набора Ошибки распознавания сайтов связывания консервативных свойств E2F/DP для разных пороговых уровней двойной спирали ДНК в конформационного сходства.
позициях сайтов Порог Ошибка I-го распознавания рода, % Ошибка II-го рода связывания гетеродимера 0.68 0 3.95E-03 (1 / 253) E2F/DP был построен 0.69 2.5 3.19E-03 (1 / 314) метод их распознавания.
0.70 5.0 2.47E-03 (1 / 405) Для оценки качества 0.73 17.5 9.35E-04 (1 / 1069) разработанного метода 0.74 22.5 6.45E-04 (1 / 1550) распознавания ССТФ 0.75 25.0 4.35E-04 (1 / 2298) E2F/DP стандартным 0.77 32.5 2.10E-04 (1 / 4760) образом в системе 0.78 35.0 1.25E-04 (1 / 7996) SITECON был проведен 0.79 45.0 7.50E-05 (1 / 13327) расчет ошибок первого 0.80 52.5 6.00E-05 (1 / 16659) и второго рода (табл. 2). 0.81 55.0 4.00E-05 (1 / 24988) Анализ этих данных 0.82 57.5 3.00E-05 (1 / 33317) свидетельствует о том, 0.83 60.0 1.50E-05 (1 / 66635) что разработанный метод характеризуется низкими значениями ошибок распознавания ССТФ E2F/DP.
Исследование сайтов расщепления топоизомеразой I человека ДНК-топоизомераза I участвует в процессе транскрипции, релаксируя положительные и отрицательные супервитки в ДНК.
Скорость расщепления топоизомеразой I в зависимости от контекста может меняться на три порядка. Факторы, определяющие скорость расщепления ДНК, остаются неизвестны. Проведенный анализ контекста 45 сайтов расщепления ДНК топоизомеразой I, фазированных по точке расщепления ДНК ферментом, показал, что кроме нуклеотида Т в точке расщепления ДНК отсутствуют значимые частотные предпочтения нуклеотидов, поэтому контекстный анализ не дает возможности объяснить существующие предпочтения фермента к тому или иному контексту ДНК.
В результате анализа выборки сайтов расщепления ДНК топоизомеразой I были выявлены следующие значимо консервативные свойства: (1) угол наклона оснований (Roll) для динуклеотидного шага – 1..1 относительно точки расщепления ДНК ферментом;
(2) сдвиг пары оснований (Slide) для динуклеотидного шага –2..-1;
(3) угол поворота спирали (Twist) в для динуклеотидного шага –1..1;
(4) шаг спирали (Rise) для динуклеотидного шага –1..1;
(5) размер малой бороздки ДНК для динуклеотидного шага –1..1;
(6) температура плавления ДНК-спирали для динуклеотидных шагов -2..-1 и –1..1. Обнаруженные особенности для участка ДНК вблизи точки расщепления находятся в согласии с данными РСА (Ощепков с соавт., 2005).
Исследование сайтов связывания SRF и MCM Анализ консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК сайтов связывания двух близких по структуре ДНК-связывающих доменов (ДСД) транскрипционных факторов – SRF и MCM1 – позволил выявить сходства и различия этих двух типов сайтов. ДСД этих ТФ обладают структурным сходством более 70%, и содержит консервативный район 56 аминокислот, называемый MADS бокс. В результате анализа выборок ССТФ SRF и MCM1 для детального рассмотрения нами были отобраны свойства изгибной жесткости в сторону малой и большой бороздок, которые являются значимыми для обеих выборок. Эти свойства демонстрируют согласованное гармоническое изменение вдоль последовательности сайта с периодом, соответствующим шагу ДНК (10 п.н.), что соответствует пониженной изгибной жесткости ДНК. Такое поведение наблюдается для всей последовательности сайта SRF и только для 5’-половины сайта MCM1. Сопоставление данных РСА ДНК-белковых комплексов SRF и MCM1 и полученных данных показывает следующее: в комплексе с SRF ДНК претерпевает симметричные равнозначные изгибы в обеих половинах сайта. В комплексе с MCM1 ДНК значительно изогнута лишь в 5’-половине сайта связывания. Таким образом, эти различия полностью соответствуют выявленным различиям консервативных свойств ДНК ССТФ SRF и MCM1.
Исследование и распознавание сайтов связывания SF- Анализ набора консервативных контекстно-зависимых конформационных и физико-химических свойств выборки из последовательностей сайтов связывания SF-1 (Steroidogenic factor 1) позволил отобрать для детального рассмотрения конформационное свойство «персистентная длина». Эта характеристика ДНК измеряется как средняя длина между двумя участками двойной спирали, направления которых отличаются на 1 радиан, и отражает ее изгибную жесткость.
Выявленный характер ее изменения вдоль последовательности сайта совпадает с данными о способности двух мотивов, составляющих ДСД SF-1, изгибать ось молекулы ДНК.
На основе выявленного набора консервативных свойств ССТФ SF- был построен метод распознавания потенциальных сайтов этого ТФ. Для выбора наиболее адекватного порога распознавания ССТФ SF-1 было проведено их распознавание в промоторных районах пяти функциональных групп генов: стероидогенеза, клеточного цикла, эритроид–специфичных генов, генов регуляции уровня холестерина и тканеспецифичных генов поджелудочной железы (рис. 4).
Ожидаемый результат 3 Стероидогенез заключался в более Эндокрин.
высокой плотности плотность сайтов Эритроидн.
Холестерин.
ССТФ SF-1 в промоторах Кл. цикл генов стероидогенеза, для которых характерна регуляция этим транскрипционным фактором. Промоторные районы генов остальных 0.91 0.92 0.93 0.94 0. порог распознавания исследованных функциональных групп, Рисунок 4. Значение плотности потенциальных согласно данным в базе сайтов SF-1 на 1000 нуклеотидов в TRRD §, данных не промоторных районах генов различных содержат ССТФ SF-1.
функциональных групп при разных порогах Действительно, при конформационного сходства.
пороговом уровне конформационного сходства больше 0.94 плотность выявляемых сайтов ССТФ SF-1 (на 1000 п.н.) для промоторов генов стероидогенеза оказалась более чем в 2 раза выше, чем для других функциональных групп генов. Поэтому для дальнейших исследований нами был выбран порог конформационного сходства, равный 0.94, значение ошибки I-го рода при этом составляет 59%, ошибка II-го рода 1.30E-04 (1/7685).
Методом SITECON были проанализированы промоторы 32 генов стероидогенеза. Было выявлено 18 новых потенциальных ССТФ SF- (табл. 3). Независимая экспериментальная поверка in vitro методом задержки в геле (EMSA) меченых двухцепочечных олигонуклеотидных проб, соответствующих предсказанным сайтам проведена в лаборатории § Kolchanov et al. (2002) Nucleic Acids Res., 30(1):312-7.
регуляции экспрессии генов ИЦиГ СО РАН. Способность взаимодействовать с белком SF-1 подтверждена для всех 18 сайтов, предсказанных методом SITECON (Игнатьева с соавт., 2007).
Таблица 3.
Предсказанные методом SITECON потенциальные ССТФ SF-1 в промоторах генов стероидогенеза и результаты их экспериментальной проверки.
Название гена Пози- P** Последовательность сайта Экспери (вид) ция* ментальное подтвержде ние -283 0.944 aagatcaaggtttcagagtg + Cyp17(мышь) Cyp17 (мышь) -49 0.949 gtcttcaaggtgacaatcag + AD (бык) -428 0.962 atctccaaggtcagatgaat + Cyp11b1 (морская свинка) -126 0.945 gaggtcaaggctggggcctc + Cyp11b3 (крыса) -309 0.945 tcattcaaggttccacaaag + CYP11B1 (овца) -337 0.947 atacccaaggtctcctttca + Oxt (мышь) -164 0.966 agggtcaaggtcatcgtctc + Oxt (крыса) -167 0.962 ggggtcaaggtcaccgcctc + OXT (человек) -159 0.961 ggggtcaaggtcaccgcgtt + Cyp11b2 (крыса) -324 0.951 gaaaccaaggtcttctagga + Hsd3b (мышь) –113 0.942 agcttcaaggttacactgtg + Nr5a1 (мышь) –224 0.952 ctggccaaggtctctccagt + CYP17 (свинья) –51 0.946 aaagtcaaggtgaagatcag + Hsd17b1 (крыса) –84 0.941 aatctcaaggctgagttggg + LHB (свинья) –114 0.959 gcaggcaaggtcagggaggt + CYP17 (человек) -44 0.944 aaagtcaaggtgaagatcag + Cyp17 (крыса) -309 0.944 gagatcaaggttttagagtc + LHB (свинья) -58 0.928 ggcggcaaggccactggaag + * Позиция указана относительно старта транскрипции ** Уровень конформационного сходства с известными сайтами связывания SF 1, оцененный методом SITECON.
Распознавание сайтов связывания SREBP Транскрипционные факторы семейства SREBP (Sterol Regulatory Element-Binding Protein) участвуют в регуляции экспрессии генов липидного метаболизма и биосинтеза холестерина. Факторы подсемейства SREBP взаимодействуют с сайтами связывания двух типов: SRE (Sterol Regulatory Element) и E-бокс. Известно, что с сайтами SRE-типа связывается только фактор SREBP, с сайтами типа E-бокс, помимо SREBP, могут связываться также ряд других факторов. Чтобы избежать большого числа ложно предсказанных сайтов SREBP из обучающей выборки были отсеяны сайты типа E-бокс (Игнатьева с соавт., 2009). Обучающая выборка сайтов SRE-типа составила 38 последовательностей длиной п.н. Поиск потенциальных SRE с помощью системы SITECON осуществляли в 5’-фланкирующих областях 46 генов системы липидного метаболизма, регуляторные районы которых не содержали ССТФ SREBP, включенных в обучающую выборку. На основании анализа таблицы ошибок распознавания нами был выбран порог конформационного сходства, равный 0.73, значение ошибки I-го рода при этом составляет 53%, ошибка II-го рода - 7.55E-04 (1/1324).
Таблица 4.
Предсказанные методом SITECON потенциальные ССТФ SREBP в промоторах генов системы липидного метаболизма и результаты их экспериментальной проверки.
Название гена Пози- P** Последовательность сайта Экспери (вид) ция* ментальное подтвержде ние -439 0.750 + ggaccatgaggtcaggggatcaagaccatc MSR(человек) -303 0.778 + gagatcacaccactgcactccaccctggtg MSR(человек) -164 0.796 + agataactcactcttcaccccatttaggcc MSR(человек) -311 0.777 + tctccccccgtcacaccaggggcccgcgga SCAP(человек) -484 0.756 + gcctagcaacaccctcacgggctccgcatt FAS(цыпленок) -63 0.749 + ggagtaaaccgtcagcccatgtggtggccg FAS(цыпленок) -558 0.732 + cccttcccgcccaccccaccccgacggtgt ABCG1(человек) -385 0.736 + ggcccgaaaaaatcacccaaggatgcaagc INSIG1(человек) -99 0.769 + gcggggcaagctcaggccacgcccctgggc INSIG1(человек) -81 0.780 + ctgccgaggggtcaggccacccctccttcc LXRA(человек) -641 0. CYP4A6 (кролик) + acaagcatttccaccccactgccctcaact -773 0.805 + ccacactcctagcaccccatatcccctcgc Lpl(мышь) -789 0.731 + caatccgaggtcacctaactagataacaaa CPT2(человек) -67 0.863 + agccccaaagtcaccccacttctcagtcct Ibabp(мышь) -66 0.881 + cagcccctaagtcaccccacttcttctccc IBABP(человек) * Позиция указана относительно старта транскрипции ** Уровень конформационного сходства с известными сайтами связывания SREBP, оцененный методом SITECON.
Было выявлено 50 потенциальных SRE, имеющих уровень конформационного сходства с последовательностями в обучающей выборке выше, чем 0.73, 15 из этих последовательностей были проверены экспериментально (табл. 4). Независимая экспериментальная поверка in vitro методом задержки в геле (EMSA) меченых двухцепочечных олигонуклеотидных проб, соответствующих предсказанным сайтам проведена в лаборатории регуляции экспрессии генов ИЦиГ СО РАН с использованием рекомбинантного SREBP-1a. Все 15 протестированных сайтов показали связывание с SREBP (Игнатьева с соавт., 2009). Этот результат подтверждает высокую эффективность метода для распознавания ССТФ SREBP.
Выводы 1. Создана Интернет–доступная компьютерная система SITECON для выявления консервативных контекстно-зависимых конформационных и физико-химических свойств различных функциональных сайтов в геномной ДНК, на основе которой разработаны методы распознавания сайтов связывания транскрипционных факторов.
2. Анализ последовательностей сайтов расщепления ДНК топоизомеразой I человека выявил набор значимых консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК для этих сайтов: угол наклона оснований;
сдвиг пары оснований;
угол поворота спирали;
шаг спирали;
размер малой бороздки ДНК;
температура плавления ДНК.
3. В результате анализа выборок нуклеотидных последовательностей 220 типов сайтов связывания транскрипционных факторов показано, что каждый из типов сайтов характеризуется набором статистически значимых консервативных контекстно-зависимых конформационных и физико химических свойств ДНК, информация о которых, а также созданные на их основе методы распознавания сайтов доступны по адресу http://wwwmgs.bionet.nsc.ru/mgs/programs/sitecon/.
4. Анализ сайтов связывания транскрипционного фактора E2F/DP, участвующего в регуляции генов клеточного цикла млекопитающих показал, что наиболее значимыми характеристиками являются увеличенная ширина большой и малой бороздок ДНК, что согласуется с данными рентгеноструктурного анализа. Разработанный на основе набора выявленных значимых характеристик ДНК этих сайтов метод распознавания характеризуется низким значением ошибок первого и второго рода. С использованием аналогичного подхода разработаны методы распознавания сайтов связывания транскрипционных факторов SF 1 и SREBP.
5. Проведено планирование эксперимента по выявлению новых потенциальных сайтов связывания транскрипционных факторов SF-1 и SREBP в промоторных районах генов стероидогенеза и липидного метаболизма, соответственно. Определены параметры методов, при которых экспериментальная проверка методом задержки в геле подтвердила связывание всех выявляемых сайтов (18 и 15) с факторами SREBP и SF-1, соответственно.
Список основных работ, опубликованных по теме диссертации 1. Игнатьева Е.В., Меркулова Т.И., Ощепков Д.Ю., Климова Н.В., Васильев Г.В., Турнаев И.И., Кобзев В.Ф., Колчанов Н.А. (2009) Выявление новых сайтов связывания транскрипционных факторов SREBP в промоторных районах генов позвоночных на основе комбинации биоинфоматического и экспериментального подходов. Вестник ВОГИС, 13(1):37-45.
2. Ощепков Д.Ю., Фурман Д.П., Ощепкова Е.А., Катохин А.В., Шаманина М.Ю., Мордвинов В.А. (2009) Выявление новых DRE в регуляторной области генов человека, кодирующих компоненты цитозольного комплекса арил-гидрокарбонового рецептора.
Вестник ВОГИС, 13(1):46-52.
3. Брызгалов Л.О., Ершов Н.И., Ощепков Д.Ю., Каледин В.И., Меркулова Т.И. (2008) Выявление генов-мишеней транскрипционного фактора FOXA, связанных с регуляцией пролиферации. Биохимия, 73(1):70-5.
4. Кузнецова Т.Н., Игнатьева Е.В., Мордвинов В.А., Катохин А.В., Шаманина М.Ю., Ощепков Д.Ю., Колчанов Н.А. (2008) Анализ структуры инсулин-зависимых регуляторных контуров зрелых адипоцитов. Успехи физиологических наук, 39(1):3-22.
5. Oshchepkova E.A., Furman D.P., Oshchepkov D.Y., Katokhin A.V., Shamanina M.Y., Mordvinov V.A., Tsyrlov I.B. (2008) Regulatory region of human genes encoding macrophageal transcription factors possess multiple potential dioxin response elements.
Organohalogen Compounds, 70:001467.
6. Nedosekina E.A., Oshchepkov D.Y., Katokhin A.V., Kuznetsova T.N., Shamanina M.Y., Mordvinov V.A., Tsyrlov I. B. (2007) Detection of new potentially active DRE sites in regulatory region of human genes encoding components of Ah receptor cytosolic complex.
Organohalogen Compounds 69:1889-92.
7. Игнатьева Е. В., Климова Н. В., Ощепков Д. Ю., Васильев Г. В., Меркулова Т.
И., член - корреспондент РАН Колчанов Н. А. (2007) Поиск новых сайтов связывания транскрипционного фактора SF1 методом SITECON: экспериментальная проверка и анализ регуляторных районов генов-ортологов. Доклады академии наук, 415(1):120-124.
8. Khlebodarova T., Podkolodnaya O., Oshchepkov D., Miginsky D., Ananko E., Ignatieva E. (2006) ARTSITE database: comparison of in vitro selected and natural binding sites of eukaryotic transcription factors. In: Bioinformatics of Genome Regulation and Structure II. (Eds. N.Kolchanov, R.Hofestaedt, L.Milanesi), Springer Science+Business Media, Inc. pp. 55-65.
9. Katokhin A., Levitsky V., Oshchepkov D., Poplavsky A., Trifonov V., Furman D.
(2006) Analysis of nucleosome formation potential and conformational properties of human J1-J2 and D2-D1 type alpha satellite DNA. In: Bioinformatics of Genome Regulation and Structure II. (Eds. N.Kolchanov, R.Hofestaedt, L.Milanesi), Springer Science+Business Media, Inc., pp. 75-83.
10. Ananko E., Oshchepkov D., Nedosekina E., Levitsky V., Lokhova I., Smirnova O., Likhoshvai V., Kolchanov N. (2006) Study of the interactions between viral and human genomes during transformation of B cells with epstein-barr virus. In: Bioinformatics of Genome Regulation and Structure II. (Eds. N.Kolchanov, R.Hofestaedt, L.Milanesi), Springer Science+Business Media, Inc., pp. 443-450.
11. Ощепков Д.Ю., Бугреев Д.В., Колчанов Н.А., Невинский Г.А. (2005) Комьютерный анализ конформационных и физико-химических особенностей последовательностей ДНК, расщепляемых ДНК-топоизомеразой I. Мол. Биол., 39(3):488-96.
12. Furman D.P., Oshchepkov D.Yu., Pozdnyakov O.A., Katokhin A.V. (2004) Properties of insertion regions of Drosophila LTR retrotransposons. In: N.Kolchanov and R.Hofestaedt (ed.), Bioinformatics of genome regulation and structure. Kluwer Academic Publishers, Boston/Dordrecht/London, pp. 21 – 32.
13. Turnaev I.I., Oshchepkov D.Yu., Podkolodnaya O.A. (2004) Extension of cell cycle gene network description based on prediction of potential binding sites for E2F transcription factor. In: N.Kolchanov and R.Hofestaedt (ed.), Bioinformatics of genome regulation and structure. Kluwer Academic Publishers, Boston/Dordrecht/London, pp. 273-82.
14. Oshchepkov D.Yu., Turnaev I.I., Pozdnyakov M.A., Milanesi L., Vityaev E.E., Kolchanov N.A. (2004б) SITECON—A tool for analysis of DNA physicochemical and conformational properties: E2F/DP transcription factor binding site analysis and recognition.
In: N.Kolchanov and R.Hofestaedt (ed.), Bioinformatics of genome regulation and structure.
Kluwer Academic Publishers, Boston/Dordrecht/London, pp. 93-102.
15. Oshchepkov D.Y., Vityaev E.E., Grigorovich D.A., Ignatieva E.V., Khlebodarova T.M. (2004а) SITECON: a tool for detecting conservative conformational and physicochemical properties in transcription factor binding site alignments and for site recognition. Nucleic Acids Res. 32:208-12.
Благодарности Автор выражает благодарность сотрудникам отдела системной биологии ИЦиГ СО РАН и лично с.н.с., к.б.н. Е.В. Игнатьевой за плодотворные дискуссии и сотрудничество;
с.н.с., к.б.н. М.П. Пономаренко за предоставление в пользование БД конформационных и физико-химических свойств ДНК «PROPERTY»;
зав. сектором мутагенеза и репарации ИЦиГ СО РАН, д.х.н. Г.А. Невинскому, сотрудникам лаборатории регуляции экспрессии генов ИЦиГ СО РАН и лично зав. лаб., д.б.н. Т.И. Меркуловой за плодотворное сотрудничество;
в.н.с., д.б.н. Д.П.Фурман и зав. лаб. генной инженерии ИЦиГ СО РАН, к.б.н. А.В. Кочетову за помощь в работе над текстом диссертации.
Подписано к печати 18.02.2010 г.
Формат бумаги 60 х 90 1/16. Печ. 1. Уч. изд. 0,7.
Тираж 100 экз. Заказ _ Ротапринт Института цитологии и генетики СО РАН 630090, Новосибирск, пр. ак. Лаврентьева,