Авторефераты диссертаций >> Авторефераты по Биологии

Сети крупномасштабных данных генотипической и экспрессионной вариабельности генома человека как прогностический инструмент при полигенных заболеваниях

На правах рукописи

ДОСЫМБЕКОВ Дамир Нуртасович СЕТИ КРУПНОМАСШТАБНЫХ ДАННЫХ ГЕНОТИПИЧЕСКОЙ И ЭКСПРЕССИОННОЙ ВАРИАБЕЛЬНОСТИ ГЕНОМА ЧЕЛОВЕКА КАК ПРОГНОСТИЧЕСКИЙ ИНСТРУМЕНТ ПРИ ПОЛИГЕННЫХ ЗАБОЛЕВАНИЯХ 03.02.07 – генетика 03.01.09 – математическая биология, биоинформатика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата биологических наук

Москва – 2011

Работа выполнена в лаборатории системной биологии Учреждения Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, г. Москва

Научный консультант: Никольская Татьяна Анатольевна, кандидат биологических наук Учреждение Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, г. Москва Пирузян Элеонора Суреновна,

Официальные оппоненты:

доктор биологических наук, Учреждение Российской академии наук Институт профессор общей генетики им. Н.И.Вавилова РАН, г. Москва кандидат биологических наук Дмитрий Иосифович Фришман, Технический университет Мюнхена, г. Мюнхен, Германия Московский государственный университет имени Ведущее учреждение:

М.В.Ломоносова, факультет биоинженерии и биоинформатики, г. Москва

Защита состоится «» _ 2011 года в « » часов на заседании диссертационного совета Д 002.214.01 при Учреждении Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН, по адресу: 119991, ГСП-1, Москва, ул.

Губкина, д. 3. Факс: 8(499) 132-89-62, электронный адрес: [email protected], адрес в Интернете: www.vigg.ru

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Институт общей генетики им. Н.И.Вавилова РАН.

Автореферат разослан «»_ 2011г.

Ученый секретарь диссертационного совета, кандидат биологических наук Т.А. Синельщикова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Достижения последних десятилетий в сфере молекулярной биологии, произошедших одновременно с технологическим прорывом, обеспечили взрывной рост объема информации о биологических системах и их компонентах. Это выразилось в возникновении технологий крупномасштабного скрининга, с помощью которых стало возможным изучать клетку и механизмы ее функционирования на всех уровнях организации живой материи (РНК, белки, каскады белковых взаимодействий). Кроме того, появились методы, позволяющие оценивать состояние клетки по составу метаболитов, паттернам метилирования промоторных областей генов или определять сайты связывания белков с ДНК.

Главное преимущество вышеперечисленных методов состоит в том, что они способны дать исследователю всеобъемлющую картину изменений, происходящих на каждом из уровней клеточной организации. Но это достоинство крупномасштабных методов: всецело и полноценно охватывать состояние клетки на каком-то одном из уровней клеточной организации, – является одновременно и недостатком;

например, по полной картине одномоментного изменения экспрессии генов в клетке очень трудно понять, что же именно стало причиной этого изменения и какова доля и состав тех генов, которые отвечают за патологию относительно массива остальных генов, которые отвечают за гомеостаз, базовые биологические процессы (репликация ДНК, синтез белка и т.д.). Еще труднее соотнести их с определенными фенотипическими проявлениями изучаемого состояния.

По мере накопления массивов крупномасштабных (постгеномных) данных все острее становится необходимость их корректной обработки и интерпретации.

Поскольку эти массивы данных содержат информацию о десятках тысяч генов или белков, традиционные методы анализа данных, рассчитанные на обработку информации об одном или нескольких объектах, в данном случае работают плохо.

Другая сложность состоит в том, что, даже имея информацию о состоянии всех компонентов клетки и их функциях, невозможно установить причинно следственные связи между их изменениями и патологическими изменениями клетки.

С точки зрения изучения биологических процессов необходимо рассматривать сразу несколько уровней клеточной организации: ДНК-РНК-белок-сигнальный путь, на каждом из которых могут происходить изменения, обуславливающие возникновение и развитие патологии. Эта общепринятая концепция вплотную подводит нас к необходимости интеграции и совместного анализа различных типов крупномасштабных, или постгеномных данных.

Один из актуальных на данный момент подходов к решению этой задачи предполагает конструирование глобальной биологической сети – схемы взаимодействующих белков, метаболитов и нуклеиновых кислот клетки. На эту глобальную сеть в дальнейшем можно картировать все множества объектов из различных типов анализируемых данных, связанных с патологией. Возможность анализа характеристик сетей, которые образуют различные типы данных, позволит строить гипотезы об относительном вкладе каждого уровня организации в фенотип патологии, и помимо этого проследить причинно-следственные связи между ними.

Цели и задачи исследования. Целью данной работы была попытка продемонстрировать универсальность и эффективность совместного применения интерактомного и функционального анализа. А именно использовать методы интерактомного анализа, которые включают в себя анализ топологии сети и ее компонентный состав, распределение вершин по белковым классам и оценка взаимосвязей как внутри самих, так и относительно других данных, и сопоставить с результатами функционального анализа. Для этого были использованы различные типы крупномасштабных данных, как экспрессионные, так и геномные, находящиеся на разных стадиях статистической обработки.

Для достижения данной цели были поставлены следующие задачи:

1. Идентифицировать списки конститутивных и тканеспецифичных генов для 31 ткани, используя необработанные данные по экспрессии.

2. Проанализировать полученные списки методами интерактомного и функционального анализа 3. Идентифицировать ампликоны, характерные для рака молочной железы, используя статистически обработанные данные SNP-чипов.

4. Определить причинно-следственные связи между ампликомом и мутомом в раке молочной железы используя интерактомный анализ 5. Произвести анализ 262 моделей, построенных 33 различными лабораториями в рамках международного проекта MAQC II с целью поиска корреляций между точностью модели и ее топологическими характеристиками и функциональными свойствами 6. Сделать заключение об эффективности и информативности интерактомного анализа и перспективе его применения в будущем.

Научная новизна. 1) Впервые был применен интерактомный анализ – совокупность методов оценки топологических характеристик, белкового состава и взаимосвязанности сетей. 2) Впервые было продемонстрировано, что характеристики сетей согласуются с результатами функционального анализа и отражают биологическую сущность каждого фенотипа. 3) Впервые была высказана гипотеза, что соматические мутации играют ведущую роль относительно амплификации в раке молочной железы. 4) Впервые было показано, что экспрессионные классификаторы для одного и того же фенотипического признака, созданные с помощью различных математических моделей, образуют сети со сходными характеристиками.

Практическое значение. Изучение комплексных полигенных заболеваний, таких как рак молочной железы, сопряжено с рядом трудностей. Особенно стоит отметить проблему оценки значимости относительного вклада изменений на каждом из уровней организации информации в клетке. Помимо этого существует проблема выявления взаимосвязи между изменениями на разных уровнях: ДНК РНК-белок-сигнальный путь. Методы интерактомного анализа позволяют выявить скрытые топологические особенности биологической сети, которую образуют анализируемые данные, которые нельзя определить, используя только методы функционального анализа. В ходе данной работы была дана характеристика взаимосвязи между амплификациями и мутациями рака молочной железы, что является существенным шагом к пониманию этиологии данного заболевания.

Исследование механизмов возникновения и развития заболевания позволит разработать наиболее эффективные методы профилактики, диагностики и лечения. Совершенствование существующих и разработка новых инструментов интерактомного анализа совместно с увеличением и уточнением глобальной сети белок-белковых взаимодействий является перспективным направлением в плане изучения различных генетических заболеваний.

Апробация результатов работы. Результаты данной диссертационной работы были представлены на межлабораторном научном семинаре Отдела геномики Института общей генетики им. Н. И. Вавилова РАН от «22» октября 2010 г.

Декларация участия автора. Функциональный анализ данных по экспрессии генов из 31 образца тканей, а также геномных данных по соматических мутациям и амплификациям рака молочной железы проводился автором совместно с Евгением Свиридовым. Статистическая обработка и получение первичных значений амплификаций была выполнена Яо Джуном. Функциональный анализ экспрессионных классификаторов проводился автором совместно с Мариной Бессарабовой, Вей-Веем Ши и Золтаном Дезсо. Идентификация ампликонов на основании первичных значений по амплификации была произведена автором самостоятельно. Интерактомный анализа для всех использованных в работе данных был произведен автором самостоятельно. Семьдесят процентов материала было получено лично автором.

Публикации. По материалам диссертации опубликовано 3 статьи в журналах, включенных в перечень научных журналов и изданий, рекомендованных ВАК Минобрнауки России (BMC Biology, 2008;

Cancer Research, 2008;

Pharmacogenomics Journal, 2010 г.).

Структура и объем диссертации. Диссертационная работа состоит из введения, списка сокращений, списка терминов, обзора литературы, материалов и методов, результатов, обсуждений, выводов, приложений и списка цитируемой литературы.

Работа изложена на _ страницах машинописного текста, включает _ таблиц и _ рисунков. Список цитируемых литературных источников включает _ наименований.

Благодарности. Автор считает приятным долгом выразить признательность своему руководителю Никольской Т.А за всестороннюю помощь в работе над диссертацией. Автор благодарен за помощь в сборе и анализе материала и продуктивные обсуждения коллегам: Бессарабовой М.О, Ишкину А.А., Никольскому Ю.В., Свиридову Е.А., Ши В., Дезсо З., а также все сотрудникам лаборатории системной биологии. Особую признательность автор выражает ФББ МГУ им М.В. Ломоносова, всем преподавателям и учащимся за одни из лучших лет в жизни автора, которые определили его цели в жизни.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

1. Обзор литературы. Обзор литературы состоит из 3 разделов. В первой части обзора рассмотрены уровни организации клеточной информации: ДНК-РНК белок-сигнальный путь, и то, как изменения на этих уровнях могут влиять на фенотипические признаки клетки, при этом отмечается, что патологические проявления могут являться результатом многоуровневых системных нарушений.

Следующая часть обзора описывает разнообразие видов крупномасштабных данных, основные стратегии их использования на примере экспрессионных данных, особое внимание уделяется проблемам, которые возникают при работе с подобными данными. В заключительной части рассматриваются методы системной биологии. Подробно описываются типы, способы создания и свойства биологических сетей, а также типы функциональных онтологий. Детально описывается интерактомный анализ – совокупность методов анализа топологических свойств биологических сетей.

2. Материалы и методы 2.1. Материалы. Данные для изучения экспрессии генов в образцах 31 различных тканей и определения списков конститутивных и тканеспецифичных генов для каждой из них были предоставлены компанией Applied Biosystems (Калифорния, США). Использованные экспрессионные данные доступны в публичном репозитории GEO NCBI (GSE7905).

Данные по амплификациям для 191 образца рака молочной железы были предоставлены институтом рака Дана Фабер (Бостон, США). Для этого были использованы SNP-данные 191 эксперимента, из которых 154 представляли непосредственно образцы опухоли, взятых у пациентов, а остальные 37 раковые клеточные линии. Данные о соматических мутациях рака молочной железы, совокупность которых представляют собой «мутом», были взяты из работ по полногеномному скринингу мутаций [Greenman et al. 2007;

Wood et al. 2007].

Также были проанализированы экспрессионные классификаторы, которые были получены в рамках международного проекта Microarray Quality Control (MAQC), целью которого является оценка качества экспрессионных данных. Во второй фазе проекта, посвященной вопросу применимости данных этого типа для решения задачи классификации, 33 различными научными группами было получено 262 классификатора для 13 фенотипических признаков обозначенных латинскими буквами от A до M [Shi et al. 2010]:

1. A, B, C – признаки, характеризующие токсический ответ в результате воздействия ксенобиотиков на организм.

2. Остальные 10 признаков соответствовали онкологическим заболеваниям: D, E – рак молочной железы;

F, G, H, I – миелома;

J, K, L, M – глиобластома.

Размер классификаторов варьировал от 3 до 200 генов. Число классификаторов на признак составляло от 17 до 27 штук, т.к. не каждая группа подала на рассмотрение классификаторы для всех признаков. Вместе с индивидуальными классификаторами для фенотипов были проанализированы уникальные объединения классификаторов для каждого фенотипа, размер которых варьировал от 92 до 659 генов.

2.2. Методы 2.2.1. Идентификация списков конститутивных и тканеспецифичных генов.

Список генов, которые достоверно экспрессируются в каждой из 31 ткани, был задан с помощью порога по отношению сигнал/шум равному 10 (S/N10) для каждого зонда. Общая часть пересечения между всеми 31 полученных таким образом списков, то есть гены, которые последовательно изменяют свою экспрессию во всех тканях, представляет собой список конститутивных генов. А тканеспецифичные гены для каждой ткани были определены как гены, которые уникально экспрессируются в конкретной ткани с S/N10.

2.2.2. Идентификация ампликонов и определение ампликома. Для идентификации ампликонов был использован метод наименьших общих областей (Minimal Common Region, MCR), который ранее использовался в подобных исследованиях, но с использованием CGH-чипов [Yao et al. 2006]. В качестве MCR были выбраны участки, на протяжение которых значение амплификации выше копий и это наблюдается как минимум в 7 из 191 эксперимента [Kallioniemi et al.

1994;

Aguirre et al. 2004]. В свою очередь близко лежащие MCR были объединены в ампликоны, т.к. вероятнее всего такие MCR относятся скорее к одному ампликону, чем представляют два независимых события амплификации.

Совокупность всех полученных ампликонов обозначена как «ампликомом» и использоваться дальше для исследования.

2.2.3. Функциональный анализ. Функциональный анализ перечисленных выше данных производился в программном комплексе Metacore™ (www.genego.com).

Был произведен анализ нескольких биологических онтологий с целью, выяснить в каких значимых биологических процессах задействованы гены из анализируемых списков, и попытаться охарактеризовать их биологический смысл.

Использовались онтология Gene Ontology (GO, www.geneontology.org), а также коммерческие онтологии в составе программного продукта Metacore™:

Metacore™ Canonical Pathways Maps, Metacore™ Processes Networks, Metacore™ Diseases by Biomarkers. Значимость биологических процессов оценивалась с использованием гипергеометрического распределения. Мера значимости данного процесса для данного входного списка генов, p-value, для этого распределения вычисляется как:

где N – число генов в базе данных Metacore™, R – число генов, приписанных к данному процессу, n – размер входного списка генов и r – число генов из входного списка, относящихся к данному процессу.

2.2.4.Интерактомный анализ. Интерактомный анализ списка генов заключается в анализе топологических характеристик сети, которую потенциально может формировать исследуемый список генов, относительно топологии глобальной сети MetaCore™. Это дает представление о том, насколько тесно исследуемые гены взаимосвязаны между собой, каковы их взаимодействия с глобальной сетью, как белки распределяются по белковым классам. Используя эти знания совместно с результатами других инструментов, в частности с результатами анализа онтологий, можно определить пути сигнальной трансдукции, характерные для изучаемого признака [Cusick et al. 2005;

Nikolsky et al. 2005].

2.2.4.1. Анализ топологии сетей. Одной из характеристик любого графа является степень вершины, которая выражается как среднее число связей, приходящиеся на вершину. Поскольку большинство биологических сетей представляет собой направленный граф, то их можно дополнительно характеризовать с помощью полустепеней захода и исхода. Полустепень захода характеризует среднее число связей, приходящих на вершину, а полустепень исхода – наоборот, число исходящих связей из вершины.

2.2.4.2. Распределение по белковым классам. Анализируемые списки генов были разложены по 7 белковым классам, представленным в MetaCore™: факторы транскрипции, рецепторы, лиганды, киназы, протеазы, фосфатазы и метаболические ферменты. Отдельно в дополнительный класс “другое” были собраны белки, которые нельзя отнести ни к одному из упомянутых классов (например, неспецифично связывающиеся белки) – и затем проранжированы по p value. P-value рассчитывалось по основной формуле гипергеометрического распределения (см. 2.2.3 Функциональный анализ). Только в этом случае, r – это число объектов определенного белкового класса из анализируемого списка;

R – общее число объектов в списке;

n – общее число объектов данного белкового класса в глобальной сети GeneGo;

N – общее число объектов глобального сети.

2.2.4.3. Относительная взаимосвязанность белков. Одним из видов интерактомного анализа списков генов стала оценка числа взаимодействий как внутри списков, так и извне. В первом случае оценивалось количество связей между белками в составе списка, в то время как в другом случае – число взаимодействий между белками из списка и глобальной сетью MetaCore™. Для удобства управления результатами, все белки были разделены на белковые классы в соответствии с классификацией MetaCore™. Ожидаемое число взаимодействий для белка определялось как доля от общего числа его взаимодействий в глобальной сети GeneGo пропорционально размеру списка белков. Если число взаимодействий внутри списка белков больше чем ожидаемое, то белок считается сверхсвязанным;

если же число взаимодействий оказывалось меньше ожидаемого, то такой белок считался малосвязанным. Степень сверхсвязанности и малосвязанности можно оценить с помощью p-value и z-score. Z-score означает разницу между числом полученных белков и ожидаемым средним числом белков, относящихся к экспрессированным генам в единицах стандартной дисперсии:

P-value рассчитывалось с использованием основной формулы гипергеометрического распределения (см. 2.2.3 Функциональный анализ), где r – это число белков из исходного списка белков, имеющих связи с данным белком;

R – общее число белков в глобальной сети GeneGo, имеющих связи с этим белком;

n – общее число белков в исходном списке;

и N –общее число белков в глобальной сети GeneGo.

2.2.4.4 Попарная оценка количества взаимодействий типа «регуляция транскрипции» между списками генов. Используя информацию о взаимодействиях из глобальной сети, можно оценить количество связей, которые носят регуляторный характер, между двумя списками генов А и В, при этом оценка производилась с учетом направления – от А до В и от В до А. Для каждой пары списков высчитывалось p-value такое же, как и в случае с анализом онтологий (см. 2.2.3 Функциональный анализ), за тем исключением, что теперь r – это полученное число взаимодействий между списками А и В, n - число входящих связей во второго списка, R – число выходящих линков из первого списка, N – общее число взаимодействий типа «регуляция транскрипции» в глобальной сети.

3. Результаты и обсуждение 3.1. Анализ списков конститутивных и тканеспецифичных генов 3.1.1. Определение конститутивных и тканеспецифичных генов. В результате анализа полногеномных данных по экспрессии генов в 31 человеческой ткани были выявлены списки конститутивных и тканеспецифичных генов. Применив десятикратный порог по отношению сигнал/шум (S/N10) были выделены транскрипты, представленные по всех типах тканей, то есть список конститутивных генов, содержащий 2374 гена. Данный список был сравнен с другими списками конститутивных генов из опубликованных ранее исследований [Warrington et al. 2000;

Eisenberg and Levanon 2003;

Tu et al. 2006]. Исходный список конститутивных генов имеет пересечение с вышеназванными списками в размере от 42 до 82 процентов, при этом только 97 генов являются общими для всех 4 списков (Рис. 1). Более того, Список генов, полученный в ходе данной работы, перекрывается с пересечением на 80% и содержит 1419 конститутивных генов, ранее неизвестных.

Рис. 1. Диаграмма Венна для 4 списков конститутивных генов. А) Eisenberg et al, Б) Список генов, полученный в ходе данной работы, В) Tu et al, Г) Warrington et al, Гены, которые уникально экспрессируются только в одной из 31 ткани при пороге S/N10, были определены как тканеспецифичные. Списки тканеспецифичных генов варьируют по размерам от 4 генов для тимуса и до генов для семенников, средний размер списков составил 43,8 гена Таким образом, был идентифицирован список из 2374 конститутивных генов, из которых 1419 ранее к таковым не относились. А также были определены списки тканеспецифичных генов для каждой из 31 ткани.

3.1.2. Распределения по онтологиям согласуются со спецификой каждой ткани. Полученные списки конститутивных и тканеспецифичных генов были проанализированы по 4 онтологиям. В результате для списка конститутивных генов среди наиболее значимых карт в распределение по онтологии Metacore™ Canonical Pathways Maps оказались карты связанные с процессами жизнеобеспечения и ростом, такими как окислительное фосфорилирование, метаболизм убихинона и т.д. Распределения по остальным онтологиям также продемонстрировали сходную картину. В первой десятке наиболее значимых сетей распределения по Metacore™ Processes Networks попали сети, описывающие убиквитин-зависимый протеолиз, инициацию трансляции. Среди первых результатов анализа онтологии GO Process оказались такие процессы как клеточный метаболизм, трансляция и процессинг РНК.

Подобным же образом были проанализированы каждый из 31 списка тканеспецифичных генов. В большинстве случае, распределения процессов и карт по p-value были поразительно сходны с тканями, к которым они были отнесены.

Так, например, 190 генов, специфичных для сетчатки, были обогащены процессами, специфичными для глаза, по всем 4 использованным онтологиям.

Карты, описывающие процессы зрительного восприятия и метаболизм ретинола два очень специфичных процесса для глаз, попали в первые наиболее значимые карт. В распределении Metacore™ Processes Networks на первом месте оказалась сеть, связанная с визуальным восприятием. Десять наиболее значимых процессов в распределении по GO Processes оказались связаны со зрением, при этом среди них оказались такие процессы, как сенсорное восприятие светового стимула, зрительное восприятие и детекция видимого света. Все первые 10 болезней из распределения по Metacore™ Diseases by Biomarkers также имеют прямое отношение к различным заболеваниям глаз: деградация сетчатки, ночная слепота и воспаление сетчатки.

Таким образом, полученные списки конститутивных и тканеспецифичных генов были провалидированы с помощью функционального анализа, результаты которого отражают общие процессы характерные для конститутивных генов и специфику каждой ткани для списков тканеспецифичных генов.

3.1.3. Топология сетей конститутивных и тканеспецифичных генов. Все четыре списка конститутивных генов имеют сходные черты в топологии сетей, которые они образуют. Значение степени вершины оказалась повышено по сравнению с глобальной сетью и варьирует от 13,92 до 19,39, при этом полустепени захода и исхода также превышают средние значения, при этом не наблюдается преобладания одной полустепени над другой.

Топология же сетей для списков тканеспецифичных генов существенно варьирует по значениям степени вершины: от генов толстого кишечника и эмбрионального тимуса как наиболее связанных и до простаты и почек, чьи гены оказались наименее связанными (Рис. 2).

Рис. 2 Топологические характеристики сетей конститутивных и тканеспецифичных генов.

А) Степень вершины;

Б) Полустепени захода и исхода.

Таким образом, все списки конститутивных генов формируют одинаковые по структуре сети, которые в равной степени содержат как белки-регуляторы, так и белки-эффекторы белки. Топология сетей для тканеспецифичных генов различается в зависимости от ткани.

3.1.4. Распределение по белковым функциям зависит от ткани. Все списки конститутивных генов и списки тканеспецифичных генов были разделены на белковые классы в соответствии с белковой классификацией MetaCore™.

Конститутивные гены, а точнее белки, которые они кодируют в основном, представлены ферментами. Кишечник, печень, надпочечники, а также щитовидная железа выделяются большой долей ферментов. Эмбриональные ткани обогащены факторами транскрипции. Как видно на Рис. 3, различные распределения списков генов по белковым функциям согласуются биологическими особенностями тканей.

Рис. 3. Распределение по белковым классам для списков конститутивных и тканеспецифичных генов.

Таким образом, видно, что в конститутивных генах преобладают ферменты, что соотносится с их участием в основных метаболических процессах. Также соотносится белковый состав тканеспецифичных генов с биологией ткани, к которой они относятся.

3.1.5. Кластеризация тканей на основе паттернов экспрессии генов.

Экспрессионные паттерны тканей были кластеризованы с использованием Евклидова расстояния и среднего значение нормализованной интенсивности зонда для всех реплик каждой ткани [Shipitsin et al. 2007]. Большинство тканей продемонстрировали эволюционную и функциональную схожесть.

Эмбриональные ткани кластеризовались близко к зрелым аналогам (мозг к эмбриональному мозгу, печень к эмбриональной печени, тимус к эмбриональному тимусу) (Рис. 4).

Рис. 4. Кластеризация типов тканей. UHR – Universal Human Reference Сердце и скелетная мышца, ткани, имеющие мезодермальное происхождение, попадают в один кластер. Сходная картина наблюдается для поджелудочной и слюнных желез, так как они являются участниками желудочно-кишечного тракта.

Таким образом, видно, что списки генов для тканей, имеющие одинаковое происхождение (эктодермальное, энтодермальное, или мезодермальное) или функциональное сходство склонны кластеризоваться вместе.

3.2. Анализ амплификаций и мутаций в раке молочной железы 3.2.1. Идентификация ампликонов и ампликома. В результате анализа данных с SNP-чипов для 191 эксперимента при использовании метода наименьших общих областей было идентифицировано в общей сложности 58 наименьших общих областей (Minimal Common Region, MCR), которые затем были в объединены в ампликонов. Полученные ампликоны расположились на 16 хромосомах. Проверка литературных данных показала, что 23 ампликона из 30 найденных в ходе этой работы были ранее описаны хотя бы в одном исследовании, а остальные являются новыми, ранее не упоминавшимися в научных работах.

Все 30 идентифицированных ампликонов были объединены в так называемом «ампликоме», совокупности всех генов, которые амплифицируются в клетке. Общая протяженность ампликома составляет 200 Мб (примерно 6.67% от общей длины генома) и содержит 1747 генов (10% от числа генов, имеющихся на использованном SNP-чипе (17447 генов) и примерно 5,6 процентов от общего числа генов). Данные цифры соответствуют оценке общей доли амплификаций в геноме в 12%, или 360 Мб [Redon et al. 2006].

Таким образом, в ходе данной работы были идентифицированы ампликонов, 7 из которых являются новыми. Совокупность всех найденных ампликонов формирует «ампликом» рака молочной железы.

3.2.2. Ампликоны сильно различаются по кодируемым белковым классам.

Анализ распределений по белковым классам индивидуальных ампликонов показал, что они различаются друг от друга по процентному соотношению (Рис.

5). Например, ампликон 7p15 почти полностью состоит из факторов транскрипции группы HOXA. Ампликон 20p13 обогащен рецепторами, на которые приходится 43%, в то время как ампликоны 1q32, 17q21-q25, и 22q13 обогащены киназами.

Ампликоны 1q32 и 12q13-q21 имеют большую долю лигандов, в то время такие эффекторные белки, как протеазы и метаболические ферменты, оказались сконцентрированы в 16p13 и 12q24, соответственно.

Таким образом, особенности распределения по белковым классам для ампликонов могут быть связаны с тем, что в ампликоны попадают целые семейства генов, которые выполняют одинаковую функцию и физически расположены в одном локусе.

Рис. 5. Распределение по 8 белковым классам для ампликонов, ампликома и мутома.

3.2.3. Анализ топологии сетей индивидуальных ампликонов. Гены, расположенные в составе одного ампликона, могут быть функционально связанными между собой. Наилучшим примером такого случая является ко амплификация ERBB2 и GRB7 в ампликоне 17q2 [Bai and Luoh 2008]. Поэтому мы предположили, что гены ампликона взаимосвязаны друг с другом. Тем не менее, анализ топологии сетей для всех идентифицированных ампликонов показал, что только 9 ампликонов из 30 кодируют белки, которые имеют повышенную степень связанности внутри ампликона. Остальные ампликоны имели пониженную степень связанности, и количество приходящих извне связей превалировало над количеством исходящих связей относительно среднего количества связей глобальной сети.

Таким образом, можно сделать вывод о том, что гены ампликонов преимущественно регулируются другими генами, расположенными вовне ампликома, на основании того факта, что они обогащены генами-мишенями транскрипционных факторов.

Рис. 6. Регуляторная карта сигнальных путей рецептора инсулиноподобного фактора роста IGF-1R. Инсулиноподобный фактор участвует в стимуляции процессов пролиферации и дифференцировки, помимо этого его рецептор IGF-1R участвует в регуляции апоптоза. Видно, что все пертурбации на карте происходят из отдельных ампликонов.

3.2.4. Индивидуальные ампликоны не являются автономными функциональными единицами. Анализ по 4 онтологиям только подтвердил, что ампликоны не являются функциональными единицами. Ампликоны оказались ассоциированы с сигнальными путями и процессами развития опухоли, такими как клеточный цикл, клеточная адгезия, репарация ДНК, иммунный ответ и перестройка цитоскелета, но в недостаточной степени, т.к. на карту, или процесс попадали один-два гена из индивидуального ампликона. Это отражалось и на значениях p-value, которые оказались больше, чем для их совокупности – ампликома, для тех же процессов, как это будет показано ниже. В тоже время, ампликоны продемонстрировали синергию в кодировании генов, связанных с канцерогенезом, что видно по распределениям всех 4 онтологий для полного ампликома. Эта синергия ампликонов хорошо заметна на картах, связанных с опухолеобразованием, на которых аккумулируются гены, расположенные в различных ампликонах (Рис. 6).

Таким образом, можно предполагать, что ни один из ампликонов не является функциональным отражением определенного процесса, или сигнального каскада.

3.2.5. Анализ топологии сетей ампликома, мутома, их пересечения. Анализ топологии сети, которую образуют 1747 генов, входящих в ампликом, показал, что степень вершины равняется 9,579, превышая значение для глобальной сети – 9.113, что свидетельствует о том, что элементы ампликома связаны теснее, чем в глобальной сети. Значение полустепени захода, обозначающее среднее количество входящих в вершину связей - 5,797 превышает это же значение для глобального сети 5,274. При этом полустепень исхода, наоборот, меньше среднего числа исходящих связей глобального интерактома – 7.978. Сеть, которую образуют гены мутома, также оказывается более плотной по сравнению с глобальным интерактомом, потому что степень вершины мутома равняется 11,75, что существенно превышает глобальные значения. Полустепени захода и исхода тоже превышают средние значения по глобальной сети – 6.074 и 11.44. Как видно, число исходящих связей на вершину сети для мутома существенно больше среднего по глобальной сети.

Таким образом, сеть ампликома имеет больше входящих связей, чем исходящих, то есть принимает извне приходящие сигналы в большей степени, чем отправляет. Можно предположить, что весь ампликом регулируется извне другой подсистемой генов. В то время повышенное количество исходящих связей в мутоме вероятно происходит за счет того, что он содержит белки-хабы, транскрипционные факторы, которые регулируют свои мишени, находящиеся вне мутома. На данном этапе анализа можно предположить, что мутом регулирует ампликом.

3.2.6. Анализ онтологий для ампликома, мутома. Ампликом и мутом были проанализированы по 4 онтологиям;

результаты анализа позволили сделать вывод о том, что гены, входящие в состав и ампликома, и мутома, связаны с важными процессами, относящимися к раку молочной железы, причем можно предположить, что оба эти списка статистически достоверным образом связаны с процессами инвазивности и зрелой формы рака. Вклады ампликома и мутома различны, так гены ампликома в большей степени участвуют в процессах сигналинга ростовых факторов, сайленсинга, регуляции активации ядерных рецепторов андрогена и эстрогена, а также в ряде процессов, связанных с инвазивностью рака. При этом стоить заметить, что гены ампликома довольно широко представлены в процессах, которые можно отнести к группе процессов развития. Получается, что наиболее часто амплифицируются гены, участвующие в развитии организма. В то же время, при раке молочной железы наиболее часто мутируют гены, характеризующие процессы клеточной адгезии, перестройки цитоскелета, клеточного цикла, и воспаления. О том, что амплификации и мутации по-разному участвуют в раке молочной железы свидетельствует и довольно небольшое пересечение в 94 гена для ампликома (1747 генов) и мутома (1188 генов) Таким образом, можно предположить, что ампликом представляет собой эффекторную группу генов, которая непосредственно участвует в процессах канцерогенеза, а в мутоме содержатся гены, которые участвуют в общих процессах, нарушения в которых ведут к канцерогенезу, в качестве инициаторов.

3.2.7. Оценка количества взаимодействий типа «регуляция транскрипции» между ампликомом и мутомом. Для проверки предположения о том, что мутом может регулировать свои гены мишени, находящиеся в ампликоме, была проведена перекрестная оценка количества взаимодействий типа «регуляция транскрипции», или РТ-взаимодействий, между мутомом и каждым ампликоном в отдельности. Общее число РТ-взаимодействий мутомампликон оказалось на 60% процентов больше чем количество таковых с направлением ампликонмутом. При этом почти всегда, за исключением двух случаев, гены мутома регулировали мишени в ампликоне, при подавляющем количестве связей.

Это согласуется с результатами анализа топологии, где мутом имел преобладание числа исходящих связей над входящими, а для ампликома это соотношение было обратным.

Таким образом, можно сделать вывод о том, что гены, входящие в состав мутома, являются регуляторами в большей степени, чем амплифицированные гены, которые, скорее всего, играют роль регулируемых элементов в раке молочной железы.

3.3. Анализ экспрессионных классификаторов 3.3.1. Классификаторы фенотипических признаков различаются по распределению белковых классов. Классификаторы фенотипических признаков имеют различные распределения по белковым функциям, которые наблюдаются при сравнении классификаторов разных признаков. В пределах одного признака классификаторы оказываются схожими. Так, классификаторы признаков C, D, E и I содержат большое число факторов транскрипции, в то время как классификаторы признака А содержат ферменты, признаки C, D и M характеризуются большой долей рецепторов, а H – протеазами. Полученные распределения по белковым функциям отражает биологическую сущность, соответствующую тому или иному признаку;

например, преобладание ферментов в составе классификаторов признака А логично, поскольку данный признак является одним из токсикогеномных фенотипических признаков, которые связаны с метаболизмом ксенобиотиков.

Таким образом, можно говорить о том, что фенотипические признаки различаются по белковому составу экспрессионных классификаторов, но в пределах одного признака классификаторы демонстрируют схожую картину, несмотря на то, что они были сгенерированы с помощью разных моделей.

3.3.2. Топология сетей для классификаторов фенотип-специфична. Анализ топологии для сетей классификаторов всех фенотипов и их объединений свидетельствует о том, что гены в составе классификаторов кодируют белки с большим числом взаимодействий, чем в среднем приходится на белок человека.

10 из 13 объединений классификаторов оказались обогащены белками-хабами, которые отличаются большим числом связей с другими элементами сети [Barabasi and Oltvai 2004]. При этом значения полустепеней захода и исхода в полной мере отражают наблюдения, сделанные при анализе распределения по белковым функциями. Например, большое значение полустепени захода согласуется с большим содержанием эффекторных белков, таких как основные метаболические ферменты (признаки A, B, C), которые экспрессируются в качестве патологического ответа на воздействие ксенобиотиков.

Таким образом, можно сделать вывод о том, что топологии сетей отдельных классификаторов и их объединений имеют сходные черты в пределах одного фенотипического признака и отражаются его биологическую специфику.

3.3.3. Онтологический анализ классификаторов и их объединений. Помимо интерактомного анализа, для классификаторов и их объединений был произведен анализ онтологий. В этом случае также было обращено внимание на согласованность распределений для объединений классификаторов с фенотипическими признаками, которые они представляют. В результате оказалось, что распределение для объединения классификаторов сильно зависит от признака и в большинстве случаев совпадает с биологической сущностью данного фенотипа. Например, объединения для признаков D и E (оба признака связаны с раком молочной железы) отличились распределениями, которые демонстрировали маркеры и пути, характеризующие инвазивный карциногенез, такие как клеточная адгезия, сигналинг PLAU и эстрогенового рецептора, а также апоптоз. Распределения объединений F и G (множественная миелома) отличаются путями клеточного цикла и белками контрольных точек этого цикла, что типично для ранних стадий развития рака.

В проекте MAQC средняя эффективность модели для признака оценивалась с помощью корреляционного коэффициента Мэттью (MCC). Интересен тот факт, что этот коэффициент был больше в тех случаях, когда распределение для объединения классификаторов по онтологии GeneGo™ Disease by Biomarkers наиболее точно отражало признак с биологической точки зрения.

Корреляционный коэффициент MCC для фенотипического признака С был наибольшим среди трех признаков, характеризующих патологии, возникшие в результате воздействия ксенобиотиков. Объединение классификаторов для признака С было обогащено таким процессами как токсичность лекарственных средств (p-value10-17), этот же процесс встречается и для признаков A и B, но не на первых местах в распределении, и имеют гораздо большее значение p-value равно 10-6, но эти же признаки при этом хуже предсказываются с помощью классификаторов.

В тоже время функциональный анализ выявил 4 резко отличающихся объединения классификаторов, а именно для фенотипов: H, I, L и M. Эти объединения показали существенное несовпадение с характером соответствующих наборов данных и четкое отличие от других объединений.

Фенотипы I и M были тестовыми наборами, которые были сгенерированы случайным образом и представлены как негативный контроль для оценки мощности предсказания. Другие два фенотипа: H и L, на самом деле характеризуют половой состав среди пациентов;

они использовались в качестве позитивных контролей. В этом случае также наблюдаются явные отклонения в большинстве результатов их функционального анализа. Результаты анализа по онтологиям объединений классификаторов для H и L также не совпадают с ожидаемым фенотипом канцерогенеза. Распределения по 4 онтологиям продемонстрировали процессы, связанные с полом и репродукцией:

дифференцировка мужского пола, сигналинга андрогенового рецептора, а также соответствующие заболевания: урогенитальные заболевания, дизгенезию гонад и нарушения дифференцировки пола. Классификаторы и для H, и для L были обогащены малосвязанными генами, что сильно контрастирует с классификаторами других фенотипов, в которых почти всегда присутствуют сверхсвязанные гены. Соответствие состава объединений классификаторов для фенотипов H и L подчеркивает надежность моделей для выбора фенотип релевантных генов для различных данных.

Таким образом, стоит отметить, что результаты функционального анализа коррелируют с эффективностью моделей экспрессионных классификаторов, а также позволяют выделять позитивные и негативные контроли для других фенотипов, тем самым демонстрируя преимущество это в исследовании биологических основ экспрессионных классификаторов для других фенотипов.

3.3.4. Регуляторы транскрипции генов классификаторов и гены, регулируемые классификаторами, зависят от фенотипа. Белки, которые являются ключевыми в функциональном плане для отдельного фенотипа, могут иметь множество связей с белками, которые кодируются генами, статистически достоверно изменившими экспрессию [Goh et al. 2007]. Это логично, так как белки функционируют в физически связанных группах (комплексы, сигнальные пути) и функционально связанные гены корегулируются факторами транскрипции.

В целом связанность между генами внутри отдельных классификаторов оказалось низкой. В тоже время, несколько факторов транскрипции были связаны с генами списка классификаторов для фенотипов C, D, E, F, G, J и K. Для примера, ATF регулирует гены из 5 классификаторов. ESR1 регулирует гены из 7 и классификаторов фенотипов D и E, соответственно.

Анализ всех механизмов белковых взаимодействий показал, что гены классификаторов не являются сверхсвязанными по отношению к глобальной сети, за исключением фенотипов A, F и K. Тем не менее, классификаторы для всех фенотипов отличаются непропорционально большой долей мишеней для определенных факторов транскрипции, которые были определены как сверхсвязанные по взаимодействиям типа «регуляция транскрипции».

Большинство генов классификаторов регулируются небольшим числом вышестоящих факторов транскрипции, причем сильно фенотип-специфическим образом. Например, 9 из 24 классификаторов фенотипа A регулируются NRF2, ключевым фактором, контролирующим ответ на оксидативный стресс. классификаторов из 24 фенотипа E включали в себя прямые мишени для факторов семейства FOX, в частности HNF3-a, отвечающего за транскрипцию в эпителии, одновременно 16 классификаторов того же фенотипа содержали мишени для ESR1. 15 классификаторов из 21 фенотипа H корегулировались и En2, и MBLR, которые связаны с процессами развития.

В свою очередь гены, входящие в состав классификаторов, регулируют сравнительно небольшое количество метаболических процессов. Так из классификаторов фенотипа А 16 содержат ферменты, связанные с метаболизмом лекарств;

в случае фенотипа Е, то 20 из 24 классификаторов содержат гены, регулирующие тирозин 3-монооксигеназу TY3H;

19 классификаторов регулируют CG-a и 11 – интерлейкин-4. В фенотипе H только 4 из 20 классификаторов регулируют экспрессию генов IFN-b, TCL1A и TBX3.

Таким образом, можно сделать вывод о том, что экспрессионные классификаторы состоят в основном из генов-эффекторов, активность которых непосредственно связана с изменением фенотипа. Это наблюдение может быть использовано для диагностики, но при этом малоэффективно для понимания причин и этиологии заболевания.

Выводы 1. В результате анализа данных по экспрессии генов в 31 образце ткани, был выделен список конститутивных генов размером 2374 гена, из которых генов ранее не классифицировались как конститутивные. Помимо этого для каждой ткани был определен тканеспецифичных генов, которые уникально экспрессируются в ней, размеры списков варьируют от 4 до 484 генов.

2. Используя данные с SNP-чипов для 191 образца рака молочной железы, идентифицированы 30 ампликонов, 23 из которых подтверждены литературными данными. При этом было идентифицировано 7 новых ампликонов, ранее неизвестных - 5p15, 7p22, 7p15, 10q22, 14q22, 19p13 и 22q13. Данные ампликоны нуждаются в дальнейшем исследовании, так как они могут иметь прямое отношение к раку и содержать гены, ранее не ассоциированные с раком молочной железы. Идентифицированные ампликоны составляют ампликом рака молочной железы размером генов.

3. Свойства сетей, которые образуют тканеспецифичные гены, согласуются с результатами анализа онтологий и отражают в полной мере биологическую специфику каждой ткани.

4. Соматические мутации и амплификации образуют сети, по топологии которых можно сказать, что оба списка являются сильно связанными внутри себя, причем для мутома была получена большая степень связанности по входящим связям. Мутом также продемонстрировал большее количество связей типа «регуляция транскрипции» по отношению к ампликонам, чем ампликоны по отношению к мутому. Это подтверждает регуляторную роль мутома по отношению к ампликому.

5. Различные статистические модели способны генерировать классификаторы, которые способны образовывать сети, со схожими характеристиками, но при этом индивидуальные классификаторы не являются функциональными единицами. При этом в состав классификаторов имеют тенденцию попадать преимущественно гены-мишени транскрипционных факторов.

6. Интерактомный анализ является полезным инструментом анализа крупномасштабных данных, который отлично дополняет ставший классическим функциональный анализ онтологий биологических процессов.

Но при этом является недостаточно информативным, если его применять индивидуально. Несомненно, данный вид анализа является перспективным для развития в будущем.

Публикации по материалам работы:

1. Dezso Z, Nikolsky Y, Sviridov E, Shi W, Serebriyskaya T, Dosymbekov D, Bugrim A, Rakhmatulin E, Brennan RJ, Guryanov A, Li K, Blake J, Samaha RR, Nikolskaya T. A comprehensive functional analysis of tissue specificity of human gene expression. BMC Biol. 2008 Nov 12;

6:49.

2. Nikolsky Y, Sviridov E, Yao J, Dosymbekov D, Ustyansky V, Kaznacheev V, Dezso Z, Mulvey L, Macconaill LE, Winckler W, Serebryiskaya T, Nikolskaya T, Polyak K. Genome-wide functional synergy between amplified and mutated genes in human breast cancer. Cancer Res. 2008 Nov 15;

68(22):9532-40.

3. Shi W, Bessarabova M, Dosymbekov D, Dezso Z, Nikolskaya T, Dudoladova M, Serebryiskaya T, Bugrim A, Guryanov A, Brennan RJ, Shah R, Dopazo J, Chen M, Deng Y, Shi T, Jurman G, Furlanello C, Thomas RS, Corton JC, Tong W, Shi L, Nikolsky Y. Functional analysis of multiple genomic signatures demonstrates that classification algorithms choose phenotype-related genes. Pharmacogenomics J. 2010 Aug;

10(4):310-23.

Авторефераты диссертаций >> Авторефераты по Биологии

<< ГЛАВНАЯ | КОНТАКТЫ

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

Сети крупномасштабных данных генотипической и экспрессионной вариабельности генома человека как прогностический инструмент при полигенных заболеваниях