Изучение связывания днк факторами транскрипции семейства laci и первичной специфичности протеаз семейства mmp методами машинного обучения
На правах рукописи
Федонин Геннадий Геннадьевич ИЗУЧЕНИЕ СВЯЗЫВАНИЯ ДНК ФАКТОРАМИ ТРАНСКРИПЦИИ СЕМЕЙСТВА LACI И ПЕРВИЧНОЙ СПЕЦИФИЧНОСТИ ПРОТЕАЗ СЕМЕЙСТВА MMP МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ Специальность: 03.01.09 – Математическая биология, биоинформатика
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Москва – 2012
Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте проблем передачи информации им. А.А.Харкевича Российской академии наук (ИППИ РАН).
Научный консультант: доктор биологических наук, кандидат физико-математических наук, профессор Гельфанд Михаил Сергеевич
Официальные оппоненты:
Поройков Владимир Васильевич, доктор биологических наук, кандидат физико математических наук, профессор, заведующий отделом биоинформатики Федерального государственного бюджетного учреждения Научно-исследовательского института биомедицинской химии им. В.Н.Ореховича Российской академии медицинских наук Алексеевский Андрей Владимирович, кандидат физико-математических наук, заведующий Отделом математических методов в биологии Научно–исследовательского института физико химической биологии им. А.Н.Белозерского Московского государственного университета им.
М.В.Ломоносова
Ведущая организация: Федеральное государственное бюджетное учреждение науки Институт общей генетики им. Н.И.Вавилова Российской академии наук (ИОГен РАН).
Защита состоится 30 мая 2012 г. в 16 часов на заседании диссертационного совета Д.002.077.04 ИППИ РАН по адресу: 127994, г. Москва, ГСП-4, Большой Каретный переулок, 19, стр.1.
С диссертацией можно ознакомиться в библиотеке ИППИ РАН.
Автореферат разослан апреля 2012 г.
Ученый секретарь диссертационного совета д.б.н., профессор Рожкова Г.И.
I.
Общая характеристика работы
Актуальность темы диссертационного исследования Изучение связывания ДНК факторами транскрипции семейства LacI. Специфические взаимодействия между ДНК-связывающими белками и сайтами ДНК остаются малоизученными, несмотря на некоторый прогресс, достигнутый благодаря экспериментальным исследованиям мутаций и компьютерному анализу известных рентгеновских структур комплексов белок-ДНК.
Анализ экспериментально определенных структур комплексов белок-ДНК позволил выделить ряд закономерностей: предпочтения пар аланин-тимин (за счет взаимодействия метильных групп), образование пар водородных связей между аргинином и гуанином и аспарагином и аденином. Было показано, что область контакта белок-ДНК богата полярными аминокислотами, пурины более избирательны, чем пиримидины, а ароматические аминокислоты могут иметь различные предпочтения.
Со структурной точки зрения, взаимодействие зависит от фиксированного числа контактов, специфичных для каждого семейства. Для распознавания участков белка, взаимодействующих с ДНК в различных семействах, применялись методы распознавания образов, а также методы, основанные на анализе детерминант специфичности.
При исследовании кода взаимодействий белок-ДНК в больших семействах ДНК связывающих белков данные могут быть получены не только экспериментально, но и из сравнительно-геномного анализа регуляторных взаимодействий. Богатый источник таких данных – бактериальные факторы транскрипции, например, семейство LacI, рассмотренное в настоящей работе. Имея данные о сайтах связывания белков, можно исследовать корреляции между аминокислотными последовательностями и соответствующими сайтами ДНК, а потом использовать известные структуры как контроль, подтверждая, что наблюдаемые позиции действительно контактируют в комплексах белок–ДНК.
Предыдущие исследования показали, что корреляции не ограничены парами позиций в выравниваниях белков и ДНК: во многих случаях предпочтения белка к конкретному нуклеотиду в конкретной позиции могут зависеть от наличия специфических остатков сразу в нескольких позициях белка. Это приводит к задаче выбора оптимальной сложности модели. В настоящем исследовании предпринята попытка решить эту задачу, используя прогнозирующую силу алгоритмов распознавания образов как средство определения оптимального числа параметров модели.
Изучение первичной специфичности матриксных металлопротеиназ. Протеазы (или протеиназы) – ферменты, катализирующие реакцию расщепления пептидной связи Матриксные металлопротеиназы (MMP) – семейство цинк-зависимых (протеолиза).
эндопептидаз, заякоренных на поверхности клеток или секретируемых клетками. Они проявляют свою каталитическую активность по отношению к мембранным белкам, а также белкам секреторных путей и белкам межклеточного пространства.
MMP широко представлены у позвоночных, где предположительно произошла серия событий дупликации. MMP также представлены у беспозвоночных и растений, что позволяет предположить их древнее происхождение. У млекопитающих найдено 24 типа матриксных металлопротеиназ.
Основной и единственной функцией MMP долгое время считалась деградация межклеточного матрикса. Неудачное завершение клинических испытаний MMP-ингибиторов (Маримастат), привело к пересмотру возможных биологических функций этих ферментов.
Новое видение биологических функций MMP включает их участие в таких процессах как репарация тканей, ангиогенез, иммунный ответ, развитие опухолей, воспалительные.
Установление новых функций MMP стало возможным путем определения новых субстратов MMP – цитокинов, хемокинов, рецепторов и антибактериальных пептидов.
Среди известных семейств протеаз, MMP в наибольшей степени задействованы в процессах онкогенеза. Раннее представление о роли MMP в онкогенезе, как о ферментах, способствующих распространению опухолевых клеток, сменилось более сложным – на разных этапах болезни MMP проявляют как про-, так анти-опухолевую активность.
Текущий каталог субстратов MMP, несомненно, является далеко не полным, а трудоемкость применения экспериментальных техник делает разработку биоинформатических методов предсказания субстратов актуальной задачей, имеющей непосредственную практическую важность в области медицины и разработки лекарств.
В настоящей работе исследовались восемь протеаз из разных подгрупп семейства MMP, для которых были доступны количественные экспериментальные данные об эффективности реакции протеолиза, любезно предоставленные лабораторией Д. Смита Медицинского исследовательского института Сэнфорда-Бёрнема. Данные использовались для построения моделей первичной специфичности исследованных MMP методами машинного обучения.
Целями исследования являются разработка методов прогнозирования сайтов связывания факторов транскрипции по аминокислотным последовательностям последних;
поиск контактирующих позиций в комплексах белок-ДНК семейства LacI;
разработка методов прогнозирования первичной специфичности матриксных металлопротеиназ;
Для достижения указанных целей были поставлены и решены следующие основные задачи:
Выявление позиций, определяющих специфичность, в выравнивании сайтов связывания факторов транскрипции семейства LacI;
Отбор позиций выравнивания аминокислотных последовательностей факторов транскрипции, оптимальных для прогнозирования каждой позиции сайта связывания, определяющей специфичность;
Построение моделей, определяющих сайты связывания факторов транскрипции семейства LacI, методами машинного обучения и оценка эффективности моделей на известных структурах комплексов белок-ДНК;
Отбор позиций аминокислотных последовательностей пептидов, оптимальных для прогнозирования протеолитической активности исследуемых матриксных металлопротеиназ;
Построение моделей, предсказывающих эффективность реакции протеолиза исследованными матриксными металлопротеиназами, классифицирующих и ранжирующих пептиды по эффективности разрезания, методами машинного обучения и оценка их эффективности на выборке экспериментальных фактов протеолиза из базы CutDB.
Объектом исследования являются специфические взаимодействия между ДНК связывающими белками и сайтами ДНК, а также между каталитическими доменами протеаз и сайтами разрезания их субстратов.
Предмет исследования – аминокислотные последовательности факторов транскрипции семейства LacI и нуклеотидные последовательности их сайтов связывания, аминокислотные последовательности пептидных субстратов матриксных металлопротеиназ MMP-2, MMP-9, MMP-14, MMP-15, MMP-16, MMP-17, MMP-24 и MMP-25 и соответствующие им значения эффективности реакции гидролиза пептидной связи.
Наиболее существенные результаты и научная новизна. Исследование бактериальных факторов транскрипции семейства LacI и их сайтов связывания, а также пептидных субстратов матриксных металлопротеиназ, привело к следующим результатам:
1. Разработаны модели, позволяющие предсказывать распределение нуклеотидов в наиболее специфичных позициях сайта связывания фактора транскрипции по его аминокислотной последовательности. Эти модели не сводятся к ранее известным правилам, так как одновременно учитывают несколько позиций последовательности белка при прогнозировании распределения нуклеотидов в выбранной позиции сайта.
2. Разработаны модели, позволяющие по аминокислотной последовательности фактора транскрипции и нуклеотидной последовательности сайта предсказать, соответствует ли этот сайт мотиву связывания этого фактора.
3. Определены зависимые пары позиций в выравниваниях последовательностей факторов транскрипции семейства LacI и их сайтов связывания. Большая часть этих пар имеет специфические контакты в экспериментально определенных структурах комплексов белок ДНК факторов транскрипции, что доказывает адекватность модели.
4. Предложены регрессионные и классификационные модели, а также модели ранжирования, позволяющие количественно описать первичную специфичность изученных матриксных металлопротеиназ.
5. Предложен метод снижения размерности модели, основанный на параметризации аминокислот, повышающий качество гребневой и логистической регрессии в задачах предсказания эффективности, классификации и ранжирования субстратных пептидов.
6. Предложен метод построения регрессионной модели с одновременным использованием пептидов, для которых известна эффективность реакции гидролиза пептидной связи, и пептидов, эффективность разрезания которых заведомо ниже известного порога, с помощью оптимизации кусочно-квадратичной функции потерь, позволяющий получить более точные модели.
Теоретическая значимость исследования Исследование показало эффективность методов теории машинного обучения при разработке моделей, описывающих специфические взаимодействия между ДНК связывающими белками и сайтами ДНК, а также моделей первичной специфичности протеаз.
Основные выводы, содержащиеся в диссертации, могут быть использованы при дальнейшем совершенствовании этих моделей.
Практическая значимость исследования Разработанные модели могут быть применены для прогнозирования мотивов, узнаваемых ранее не исследованными членами семейства LacI. Кроме того, описанные методы могут быть применены для предсказания мотивов, узнаваемых факторами транскрипции из других семейств, для которых имеется подходящая обучающая выборка.
Предложенные модели первичной специфичности матриксных металлопротеиназ могут быть использованы для предсказания новых белковых субстратов этих протеаз.
Апробация результатов исследования Результаты исследования докладывались на конференции "Информационные технологии и системы" (ИТиС) (Бекасово, Россия, 2009 г., Геленджик, Россия, 2011 г.), 5-ой международной конференции «Распознавание образов в биоинформатике» (PRIB) (Наймихен, Нидерланды, 2010 г.). По теме диссертации опубликованы две статьи и тезисы в трудах конференции "Информационные технологии и системы – 2011".
Структура диссертационной работы Диссертация состоит из введения, обзора литературы, описания материалов и методов исследования, изложения и обсуждения результатов, заключения и списка цитируемой литературы. Работа изложена на 135 страницах и включает в себя 10 таблиц и 14 рисунков.
II. Основное содержание исследования Глава 1. Обзор литературы Содержит мотивировку поставленных задач, а также аналитический обзор современной литературы по проблемам, рассмотренным в диссертации.
Глава 2. Данные и методы В работе использовалась выборка бактериальных транскрипционных регуляторов семейства LacI и их сайтов связывания, как показанных экспериментально, так и предсказанных методами сравнительной геномики. Выборка доступна в базе данных RegPrecize [Novichkov et al., 2010].
Выравнивание ДНК-связывающих доменов содержит 1369 последовательностей.
Выравнивание аминокислотных последовательностей содержит 87 позиций. Среди них в шестнадцати позициях более 30% последовательностей содержат пробелы и потому эти позиции не использовали при обучении алгоритмов классификации. Оставшиеся позиции пронумерованы подряд, начиная с 1. Выборка содержит 4484 нуклеотидные последовательности сайтов связывания, представляющих собой четные палиндромы длиной 20 п.н. с консервативной парой CG в центре.
Во второй части работы исследовалась первичная специфичность восьми членов семейства MMP, относящихся к трем филогенетически удаленным друг от друга подгруппам:
1) гликозилфосфатидилинозитол(GPI)-заякоренные (MMP-17 и MMP-25) 2) желатиназы (MMP-2 и MMP-9) 3) трансмембранные (MMP-14, MMP-15, MMP-16 и MMP-24).
В данном исследовании использовались данные эксперимента по профилированию специфичности протеаз методом фагового дисплея, проведенного в группе Д. Смита. В эксперименте использовалась библиотека пептидов, содержащая всевозможные гексапептиды. Из них были отобраны 1369, каждый из которых хорошо разрезался хотя бы одной из исследованных протеаз. Для этих пептидов была измерена эффективность разрезания – усиление гидролиза в образцах, обработанных протеазой.
Было построено выравнивание аминокислотных последовательностей пептидов длиной 10 а.о., с сопоставленными каждой последовательности значениями эффективности протеолиза. Для задач классификации и ранжирования также использовалась дополнительная выборка случайных пептидов той же длины.
Для независимой проверки качества построенных в работе моделей первичной специфичности протеаз использовалась база данных CutDB (http://cutdb.burnham.org) [Igarashi et al., 2006]. База содержит коллекцию документированных протеолитических событий для природных субстратов in vivo или in vitro. Из исследованных восьми протеаз только для трех в CutDB имеется достаточное число событий протеолиза: MMP9 (334 события), MMP2 ( событий) и MMP14 (89 событий). Эти данные использовались для построения ROC-кривых для оценки качества и сравнения разработанных моделей.
Постановки задач Задачи предсказания мотива, узнаваемого фактором транскрипции, по аминокислотной последовательности и классификация пар 'фактор-сайт' Множественное выравнивание аминокислотных последовательностей (А.П.) факторов транскрипции с сопоставленным каждой последовательности списком сайтов связывания представляется в виде множества пар ‘А.П.-сайт’. Первая задача – предсказание мотива по А.П. В настоящей работе позиции в сайте предполагаются условно независимыми. Тогда задача сводится к предсказанию вероятностей появления нуклеотидов каждого из четырех типов в каждой позиции сайта, т.е. распределение нуклеотидов в каждой позиции сайта предсказывается отдельно.
Вторая постановка задачи – задача классификации пар ‘А.П.-сайт’ на два класса.
Для каждой А.П. в качестве объектов первого класса (положительного) используются пары, образованные А.П. с ее сайтами связывания, в качестве объектов второго (отрицательного) – пары, образованные данной А.П. с сайтами других А.П. того же организма.
Задачи предсказания эффективности расщепления пептидной связи протеазами на основе аминокислотных последовательностей пептидов, классификации и ранжирования пептидов Задача предсказания эффективности разрезания пептидов (регрессия): для каждой протеазы даны аминокислотные последовательности пептидов с известными значениями эффективности разрезания. Требуется для каждой протеазы построить модель, предсказывающую эффективность разрезания по аминокислотной последовательности.
Данная постановка позволяет в наибольшей мере использовать информацию о значениях эффективности небольшого числа пептидов, для которых эти значения известны, однако при этом теряется информация о том, что почти все остальные пептиды разрезаются с меньшей эффективностью или не разрезаются вовсе. Потому ставится задача классификации пептидов: для каждой протеазы даны аминокислотные последовательности пептидов двух классов: положительного (эффективно разрезаемые пептиды с известными значениями эффективности разрезания) и отрицательного (случайные пептиды той же длины, отсутствующие в списке положительного класса). Требуется для каждой протеазы построить модель, классифицирующую пептиды по аминокислотной последовательности на эффективно и неэффективно разрезаемые.
Задача ранжирования пептидов: для каждой протеазы даны аминокислотные последовательности пептидов двух типов: первого (пептиды с известными значениями эффективности разрезания) и второго (случайные пептиды той же длины, отсутствующие в списке первого типа). Требуется для каждой протеазы построить модель, позволяющую упорядочить пару пептидов по эффективности, имея их аминокислотные последовательности.
Такая постановка задачи позволяет использовать сразу и значения эффективности и случайные пептиды. Ошибка ранжирования может быть вычислена и для регрессионных моделей, полученных при решении задачи предсказания эффективности и для классификационных моделей.
Алгоритмы Взвешивание аминокислотных последовательностей и сайтов связывания факторов транскрипции Аминокислотные последовательности взвешивали при помощи алгоритма Герштейна Сонхаммера-Чотьи [Gershtain et al., 1994]: белки, имеющие много близких родственников в выборке, получали меньший вес, чем белки, непохожие на остальные. Для получения весов пар, вес каждой А.П. делили поровну на все сайты, соответствующие данной А.П.
Отрицательные пары взвешивались тем же методом. В результате суммарный вес отрицательных и положительных пар у каждого белка были равны.
Полученные таким образом веса использовали при вычислении частот аминокислот и нуклеотидов для построения байесовского классификатора, при вычислении взаимной информации, при обучении алгоритма логистической регрессии, а также для оценки качества алгоритмов.
Алгоритмы машинного обучения В задачах классификации использовался наивный Байесовский классификатор [Domingos et al., 1997] и логистическая регрессия [Hosmer, D., Lemeshow, S, 2000]. Для решения задачи предсказания эффективности протеолиза использовалась классическая многомерная линейная регрессия [Rao, C.R., 1973]. Для решения задачи ранжирования пептидов, помимо моделей, построенных для задач предсказания и классификации, использовали их объединение. При решении всех поставленных задач также применялись различные модификации метода k ближайших соседей (k nearest neighbors, kNN [Cover T.M., Hart P.E., 1967]).
При построении наивного Байесовского классификатора для исследования факторов транскрипции, использовали филогенетические веса А.П. и технику псевдоотсчетов.
При построении моделей с помощью логистической регрессии и многомерной линейной регрессии проводилась бинаризация признаков: каждой аминокислоте сопоставлялся бинарный признак-индикатор. Для повышения стабильности регрессионных коэффициентов, редкие в данной позиции аминокислоты объединялись в группу, которой сопоставлялся один признак-индикатор. Вместо бинаризации ещё использовался метод параметризации аминокислот: аминокислоты описывались числовыми признаками, значения которых не зависят от позиции аминокислоты в пептиде и оптимизируются на обучающей выборке вместе с другими параметрами модели. Для повышения качества моделей использовался метод регуляризации Тихонова [Тихонов А.Н., 1943], в случае с линейной регрессией известный также как гребневая регрессия.
Для дополнения регрессионной модели информацией о низкой эффективности протеолиза случайных пептидов было предложено добавлять их в обучающую выборку и оптимизировать кусочно-квадратичную функцию потерь. При этом для пептидов с известным значением эффективности используется квадратичная функция потерь. Для случайных пептидов ошибка равна нулю, если прогнозируемое значение ниже минимального значения эффективности разрезания всех имеющихся экспериментальных пептидов для данной протеазы, и равна квадрату отклонения прогноза от минимального значения, если прогнозируемое значение выше.
Во всех задачах использовался перебор подмножеств признаков с обучением алгоритма на части обучающей выборки и оценкой ошибки на оставшейся части. Выбиралось множество, дающее наименьшую ошибку. Использовался жадный алгоритм: к текущему множеству отобранных признаков последовательно добавлялся каждый из оставшихся.
Лучший признак добавлялся к множеству отобранных и процесс повторялся. Помимо жадного алгоритма, для отбора позиций в задаче предсказания сайтов связывания факторов транскрипции использовалась взаимная информация [Peng et al., 2005].
Оценка качества моделей Для оценки качества моделей использовалась кросс-валидация по k блокам (k-fold cross-validation). Выборка случайным образом разбивалась на k частей. Каждая часть поочередно считалась тестовой выборкой, а объединения остальных – обучающей. Модели оптимизировались на обучающей выборке. Далее, на тестовой выборке вычислялась соответствующая мера качества модели. Значения, полученные для разных разбиений, усреднялись. Весь процесс, включая разбиение на блоки, повторялся десять раз и результаты усреднялись по всем итерациям.
При исследовании факторов транскрипции и сайтов их связывания k было равно десяти. Так как многие белки в выборке близко родственны (имеют очень похожие аминокислотные последовательности), требовали, чтобы в тестовой выборке не было А.П., сильно похожей на какую-нибудь А.П. обучающей выборки. Для этого, все А.П. были объединены по попарной близости в кластеры, которые никогда не разделялись при разбиении выборки.
Для оценки качества алгоритмов предсказания сайтов связывания, для всех сайтов каждого фактора транскрипции из тестовой выборки вычисляли логарифм условной вероятности появления наблюдаемого нуклеотида в данной позиции. Эти значения суммировали для всех факторов с весами, пропорциональными филогенетическим весам (описаны выше):
ni n wi logP(yij | xi ) i 1 j logL =, wi i где n – число белков в выборке, xi – i-ая А.П., ni – число сайтов связывания i-го белка, yij – нуклеотид, наблюдаемый в j-ом сайте связывания белка, имеющего i-ую А.П., wi – вес i-ой А.П. Полученные таким образом для каждого разбиения значения правдоподобия усредняли.
Качество алгоритмов классификации пар ‘А.П.-сайт’ оценивали как усредненную по всем разбиениям долю ошибочных ответов на тестовой выборке. При усреднении также использовали веса:
ni n w [c f ( xi, y j )] i ij i 1 j Err =, N w i i где n – число белков в выборке, xi – i-ая А.П., yj – j-ый сайт, ni – число сайтов связывания в выборке, содержащихся в ДНК организма, которому принадлежит i-ый белок, сij = 1, если i ый белок связывается с j-ым сайтом, сij = -1, если не связывается, f(xi,yj) {-1,1} – ответ классификатора на паре (xi,yj), wi – вес i-ой А.П.
Качество регрессионных моделей оценивалось среднеквадратичной ошибкой прогноза:
n (y f ( x ) ) Err = n, i i i где n – число аминокислотных последовательностей пептидов, yi – значение эффективности разрезания i-го пептида, xi – А.П. i-го пептида, f(xi) – прогноз модели для i-го пептида.
Качество моделей-классификаторов оценивалось средней частотой ошибочной классификации объектов обоих классов:
n n Err = [ f ( xi )] 2n [ f ( xi )] 2n, i 1 i где n- – число случайных пептидов, n+ – число хорошо разрезаемых пептидов, xi – А.П. i-го пептида, f(xi) {-1, 1} – прогноз модели для i-го пептида, [a]- = 1 при a 0, [a]- = 0 иначе, [a]+ = 1 при a 0, [a]+ = 0 иначе.
Качество ранжирующих моделей оценивалось средней частотой ошибок на парах пептидов обоих типов. Рассматривались все пары пептидов первого типа, а также пары, образованные каждым пептидом первого типа со всеми пептидами второго типа. При этом считалось, что любой пептид первого типа разрезается более эффективно, чем любой пептид второго типа:
n n n n Err = [( yi y j )( f ( xi ) f ( x j ))] 2n (n 1) [ f ( xi ) f ( x j )] 2n n, i 1 j 1 i 1 j где n- – число случайных пептидов, n+ – число хорошо разрезаемых пептидов, xi – А.П. i-го пептида, f(xi) – прогноз модели для i-го пептида, [a]- = 1 при a 0, [a]- = 0 иначе.
Помимо кросс-валидации, алгоритмы решения задачи предсказания первичной специфичности матриксных металлопротеиназ тестировались на независимой выборке, полученной из CutDB. С помощью этих данных для всех протеаз были построены ROC кривые.
Глава 3. Результаты и обсуждение 3.1. Изучение связывания ДНК факторами транскрипции семейства LacI Выбор позиций сайтов для прогнозирования Разные позиции сайтов могут быть предсказаны с разной точностью. В этой работе исследовались позиции сайтов, для которых были найдены статистически значимо коррелирующие позиции в А.П.. В качестве меры корреляции использовалась взаимная информация. Значимые корреляции наблюдаются у позиций сайта 5, 6, 7, 8, 9 и симметричных им. Были рассмотрены эти пять позиций.
Отбор значимых позиций выравнивания аминокислотных последовательностей Отбор значимых позиций проводили двумя способами. При отборе по взаимной информации для каждой из трех позиций сайта было отобрано двадцать наиболее информативных позиций, т.е. позиций, имеющих в паре с исследуемой позицией сайта наибольшие значения MI. Позиции отбирали последовательно, начиная с самой информативной. На каждой итерации по этому множеству обучали классификаторы (байесовский, логистическая регрессия и метод k ближайших соседей с k=200) и оценивали качество прогноза. Жадный отбор был организован тем же способом, но только для десяти позиций А.П. для каждой позиции сайта. В обоих случаях процесс повторяли для разных разбиений выборки при скользящем контроле, и результаты усредняли.
По результатам тестов построили графики зависимости точности прогноза от числа отобранных признаков, а также таблицы, показывающие, какие позиции были отобраны на каждой итерации отбора. Для разных разбиений выборки могут быть отобраны различные наборы позиций. Поэтому в работе приведены только частоты появления данной позиции во множестве отобранных на некотором шаге алгоритма позиций, т.е. частоты появления позиции в отобранных наборах длины от 1 до 20.
Хотя качество прогноза сильно колеблется в зависимости от разбиения выборки, общие результаты (положение локальных максимумов, отобранные позиции, относительное качество прогноза разными алгоритмами) устойчивы к возмущениям исходных данных.
Значения точности, полученные на тестовой выборке для позиции 9 (выбранной в качестве примера) различными алгоритмами и стратегиями отбора позиций, представлены на рис. 1. Выраженный максимум достигается на трех позициях всеми методами, причем качество прогноза существенно выше, чем у алгоритма k ближайших соседей, использующего все позиции (kNN).
Рис. 1. Зависимость точности прогноза от числа отобранных позиций для позиции 9 выравнивания сайтов.
Представлены байесовский классификатор (BayesMI), логистическая регрессия (LRMI) с отбором признаков по взаимной информации (MI) и они же с отбором жадным алгоритмом (BayesGreedy и LRGreedy соответственно), метод k ближайших соседей (kNN MI) с отбором признаков по MI и метод k ближайших соседей без отбора признаков (kNN).
Таблица 1 показывает наиболее часто выбираемые позиции. Отбор по MI и жадный отбор наивным байесовским алгоритмом стабильно отбирают три позиции – 55, 15 и 5.
Жадная логистическая регрессия стабильно отбирает те же три позиции, а также часто выбирает позицию 27.
Максимальное качество прогноза для позиции 9 достигается при использовании стабильно отбираемых позиций 55, 15 и 5. Несмотря на наличие нескольких максимумов на графиках точности прогнозирования позиции 8, стабильно отбираются только две позиции: и 15. Максимальное качество прогноза позиции 7 достигается при использовании стабильно отбираемых позиций 16, 25 и 15.
При предсказании позиции 6 разные алгоритмы ведут себя по-разному: график качества предсказания для наивного байесовского классификатора имеет два максимума, а логистическая регрессия, имеет размытый максимум в районе 12 позиций и, т.е., видимо, переобучается. Тем не менее, все методы стабильно отбирают позицию 16.
Таблица 1. Частоты шести наиболее частых позиций в наборах различной длины, отобранных по MI, жадным наивным байесовским классификатором (NB) и жадной логистической регрессией (LR) для предсказания позиции 9 выравнивания сайтов (в %).
MI Bayes LR 55 15 5 68 56 16 55 15 5 1 70 26 55 15 5 27 49 1 0.98 0.02 0 0 0 0 0.91 0.09 0 0 0 0 0.96 0.04 0 0 0 2 1 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 3 1 1 0.9 0 0 0 1 1 0.96 0 0 0 1 1 0.9 0.09 0 4 1 1 0.9 0.2 0.35 0.39 1 1 0.99 0.36 0.05 0.06 1 1 0.96 0.82 0.05 0. 5 1 1 0.95 0.5 0.64 0.57 1 1 0.99 0.52 0.23 0.23 1 1 0.98 0.94 0.38 0. 6 1 1 0.97 0.79 0.8 0.8 1 1 0.99 0.68 0.42 0.4 1 1 0.99 0.96 0.64 0. Номера столбцов соответствуют номерам позиций, начиная с самой частой. Номера столбцов – количество позиций в отобранном наборе.
Максимальное качество прогноза позиции 5 достигается при использовании только одной позиции 20: добавление второй позиции существенно снижает качество прогноза.
Таким образом, перечисленные выше позиции аминокислотного выравнивания значимо связаны с соответствующими позициями выравнивания сайтов.
Отбор пар позиций в задаче классификации Как и в описанной выше задаче прогнозирования, отбор пар позиций для классификации пар ‘А.П. - сайт’ проводился последовательно по взаимной информации и жадными алгоритмами с использованием наивного байесовского классификатора и логистической регрессии.
Лучшими парами позиций для классификации пар ‘А.П.-сайт’ являются пары с наибольшим значением взаимной информации. Для лучшей классификации достаточно использования пяти–семи пар позиций. Можно предположить, что наиболее значимыми для специфического связывания факторов транскрипции с сайтами ДНК являются пары позиций 55-9 и 20-5.
Сопоставление с данными о специфических контактах в известных структурах комплексов белок-сайт для семейства LacI На рис. 2 изображены позиции в А.П., стабильно отбираемые для прогнозирования хотя бы одной из исследованных позиций сайта. Соответствующие пары позиций были сопоставлены со структурами комплексов белок-сайт пуринового репрессора (PurR) [Glasfeld el al., 1999], Lac-репрессора [Bell, C.E., Lewis, M., 2000] и белка катаболитного контроля А (CcpA) [Schumacher et al., 2004], PDB коды 1qpz, 1efa, 1rzr соответственно. Девять из четырнадцати представленных на рис.2 пар (64%) соответствуют парам позиций, остатки в которых образуют специфические контакты между азотистым основанием и боковой группой а.о. хотя бы в одной из 3-х рассмотренных структур. И эти девять пар представляют ровно половину от объединенного множества всех специфических пар в структурах, что говорит о драматическом отличии от случайной модели. Более того, важная функциональная роль взаимодействий 20-5, 16-6, 16-7, 15-7 подтверждена экспериментально [Rodriguez et al., 1998].
Предсказываются также 3 пары с позицией 25 в АП. Это особая позиция в конце распознающей спирали, предсказывалась и как СДП-позиция [Kalinina et al., 2004] и как коррелирующая позиция [Korostelev et al., 2009], причем всегда оказывалась в топ-списке. По видимому, функциональная роль аминокислотных остатков в этой позиции недооценена. Из оставшихся трех пар, в двух случаях (5-9, 27-9) аминокислотный остаток в указанной позиции образует специфические контакты с ДНК, но с нуклеотидами в других позициях.
Рис. 2. Пары позиций, стабильно отбираемые разными методами. Вверху – позиции в А.П., внизу – позиции сайта. Связанные пары позиций соединены линиями. Толщина линий пропорциональна количеству методов отбора, в которых данная пара позиций отбиралась стабильно. Цвет и штриховка линии показывает, в скольких известных структурах комплексов белок-ДНК данная пара образует контакт (по данным сервиса WHATIF):
черный – во всех трех структурах существуют специфические контакты для данной пары, темно-серый – в двух структурах, светло-серый — в одной, пунктир – ни в одной.
3.2. Предсказание первичной специфичности матриксных металлопротеиназ Определение релевантных позиций пептидов На рис. 3 представлена зависимость ошибки прогноза гребневой регрессии для всех MMP от количества позиций, отобранных жадным алгоритмом. Ошибка быстро убывает, пока число позиций не достигает пяти-шести, после чего ошибка либо убывает медленно, либо медленно растет. Можно сделать вывод, что для предсказания эффективности разумно использовать 6 позиций. Анализ списков отобранных позиций показал, что это группы из трех позиций, расположенных с обеих сторон разреза.
1, 1, 1, Среднеквадратичная ошибка MMP 1,35 MMP MMP 1,25 MMP MMP 1,15 MMP MMP 1,05 MMP 0, 0, 1 2 3 4 5 6 7 8 9 Число позиций Рис. 3. Зависимость ошибки прогноза гребневой регрессии от количества позиций, отобранных жадным алгоритмом.
Качественно, график зависимости ошибки классификации логистической регрессии от количества позиций, отобранных жадным алгоритмом, совпадает с графиком гребневой регрессии для всех MMP. При этом жадный алгоритм отбирает те же позиции.
В таблице 2 представлены численные оценки вклада позиций P3, …, P1, P1`, …, P3` в регрессионные и классификационные модели для всех изученных протеаз. Для численной оценки вклада позиции в модель данной протеазы модули коэффициентов всех аминокислотных остатков в данной позиции усреднялись. После этого средние значения всех позиций для данной протеазы складывались и делились на полученную сумму. Как видно из таблицы, наибольший вклад во все модели для всех протеаз вносит позиция P1`, на втором месте – позиция P3.
Таблица 2. Численные оценки вклада позиций P3, …, P1, P1`, …, P3` в регрессионные и классификационные модели для всех изученных протеаз. Представлены алгоритмы гребневой регрессии с параметризацией аминокислот (RR (п.а.)), логистической регрессии с параметризацией аминокислот (LR (п.а.)) и метода оптимизации кусочно-квадратичной функции потерь (PQ).
R.R. (п.а.) L.R. (п.а.) PQ P3 P2 P1 P1` P2` P3` P3 P2 P1 P 1` P2` P3` P3 P2 P1 P1` P2` P3` MMP2 0,17 0,15 0,15 0,27 0,14 0,12 0,18 0,17 0,11 0,21 0,16 0,18 0,24 0,12 0,11 0,24 0,13 0, MMP9 0,16 0,15 0,10 0,41 0,10 0,09 0,19 0,16 0,11 0,20 0,17 0,17 0,27 0,13 0,10 0,24 0,12 0, MMP14 0,14 0,16 0,22 0,28 0,14 0,06 0,17 0,15 0,12 0,21 0,17 0,18 0,20 0,12 0,14 0,25 0,12 0, MMP15 0,11 0,10 0,25 0,31 0,16 0,07 0,18 0,15 0,12 0,22 0,15 0,18 0,20 0,10 0,10 0,28 0,15 0, MMP16 0,11 0,11 0,23 0,31 0,19 0,06 0,18 0,14 0,12 0,22 0,16 0,18 0,20 0,11 0,11 0,27 0,14 0, MMP17 0,26 0,10 0,06 0,40 0,14 0,04 0,22 0,13 0,10 0,25 0,15 0,17 0,26 0,09 0,11 0,30 0,12 0, MMP24 0,12 0,15 0,26 0,26 0,16 0,06 0,18 0,15 0,12 0,23 0,15 0,18 0,21 0,10 0,12 0,28 0,14 0, MMP25 0,20 0,16 0,12 0,28 0,14 0,10 0,20 0,13 0,11 0,23 0,15 0,18 0,23 0,08 0,11 0,29 0,15 0, Сравнение использованных моделей В табл. 3 представлены кросс-валидационные оценки качества различных моделей, обученных на пептидах длиной 6 а.о., при различных постановках задачи. Приведены значения соответствующих функционалов ошибки, усредненные по всем протеазам. В задаче предсказания активности протеаз линейная регрессия показала существенно лучший результат, чем метод k ближайших соседей. Это можно объяснить тем, что при расчете меры близости все позиции считались равнозначными, в то время как линейная регрессия учитывает разную степень значимости позиций. Тот же эффект наблюдается в задаче классификации: логистическая регрессия и наивный байесовский классификатор значительно опережают метод ближайших соседей.
Таблица 3. Оценка качества различных моделей, обученных на пептидах длины 6 а.о., при различных постановках задачи. RR – гребневая регрессия, LR – логистическая регрессия, PQ – оптимизация кусочно квадратичной функции потерь, kNN – метод k ближайших соседей, NB – наивный байесовский классификатор. В алгоритмах, помеченных (п.а.), применялась параметризация аминокислот.
Алгоритм \ Задача Регрессия Классификация Ранжирование RR 1,115 0, RR (п.а.) 1,112 0, kNN 1,245 0,038 0, NB 0,029 0, LR 0,027 0, LR (п.а.) 0,026 0, PQ 0, Комбинация 0, Важно также, что ошибка логистической регрессии ниже, чем у наивного байесовского классификатора: позиции пептида не являются независимыми.
Эксперименты показали, что использование параметризации аминокислот повышает качество моделей, как в задаче прогнозирования активности, так и в задаче классификации.
Задача ранжирования позволяет сравнить все модели одновременно. Наиболее эффективной моделью оказалась комбинация алгоритмов. Видно также, что оптимизация кусочно квадратичной функции потерь дает лучшие результаты на задаче ранжирования, по сравнению с классификаторами.
Отличные результаты показал метод k ближайших соседей, оказавшийся вторым по качеству. Это можно объяснить постановкой задачи: хороший алгоритм должен одинаково хорошо решать задачу классификации и задачу ранжирования хорошо разрезаемых пептидов (с которой автоматически справляются регрессионные модели). Линейные модели слишком сильно оптимизированы под одну из задач, тогда как метод ближайшего соседа является непараметрическим. Он не делает предположения о линейности решающего правила, опираясь только на ближайших соседей.
В базе экспериментально зафиксированных событий протеолиза CutDB имеются данные для трех из исследованных протеаз: MMP2, MMP9 и MMP14. На рис. 4 представлены ROC-кривые для различных алгоритмов прогнозирования специфичности MMP9. ROC кривые MMP2 и MMP14 качественно схожи с представленными.
0, 0, 0, 0, 0, 0, 0, 0, 0, 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 NB (0,758) Comp (0,845) LinRegPA (0,776) LRPQ (0,844) LogRegPA (0,847) LogReg (0,803) LinReg (0,719) kNN (0,853) Рис. 4. ROC-кривые различных алгоритмов для протеазы MMP9, построенные по CutDB. Обозначения алгоритмов: NB – наивный байесовский классификатор, kNN – метод k ближайших соседей, LinReg – многомерная линейная регрессия, LogReg – логистическая регрессия, LogRegPA – логистическая регрессия с параметризацией аминокислот, LinRegPA – линейная регрессия с параметризацией аминокислот, Comp – комбинация LogRegPA и LinRegPA, LRPQ – оптимизация кусочно-квадратичной функции потерь.
Для всех трех протеаз лучшим по интегральной характеристике (AUC) оказался метод k ближайших соседей. Однако его преимущество проявляется только при очень больших значениях чувствительности, особенно, когда все положительные объекты выборки оказываются правильно классифицированными. Этот эффект, возможно, связан с очень низкой долей положительных пептидов в выборке (сотни положительных объектов и десятки тысяч отрицательных). При меньших значениях чувствительности лидируют алгоритмы классификации: логистическая регрессия (обычная и с параметризацией аминокислот). Так как на CutDB решалась задача классификации, то этого следовало ожидать. Алгоритмы ранжирования показали схожую эффективность.
Абсолютные значения точности на CutDB существенно ниже результатов, полученных для алгоритмов классификации с помощью кросс-валидации. Это можно объяснить двумя причинами. Во-первых, для разрезания реального белка протеазе необходим физический доступ к сайту разрезания. Многие подходящие сайты могут иметь жесткую вторичную структуру или могут быть погружены в белковую глобулу, и поэтому быть недоступны. Такие пептиды будут помечены как отрицательные и будут засчитаны как ложноположительные ответы. Во-вторых, в базе CutDB содержаться данные различных экспериментов, которые могли быть проведены в различных условиях. Важным параметром является время, предоставленное протеазам для разрезания исследуемых белков. Протеазы могут просто не успеть разрезать сайт, обладающий средним сродством, либо, наоборот, успеть разрезать даже сайт с низким сродством. Это обстоятельство может приводить к росту числа как ложноположительных, так и ложноотрицательных ответов.
Основные выводы по результатам исследования:
По результатам исследования факторов транскрипции и их сайтов связывания были сделаны следующие выводы:
1) Знания только небольшого числа ключевых позиций белковой последовательности фактора транскрипции достаточно для предсказания распределения нуклеотидов в выбранной позиции мотива.
2) Ключевые позиции образуют значимо коррелирующие пары с соответствующими позициями выравнивания сайтов, имеют высокие значения взаимной информации и стабильно отбираются различными методами отбора.
3) Наборам ключевых позиций соответствуют максимумы на графиках точности прогноза. Дальнейшее увеличение числа признаков ведет к переобучению.
4) Стабильность отбора и существование выраженного максимума на графиках точности прогноза можно считать доказательством связи отобранных позиций в аминокислотных последовательностях с позициями в сайтах связывания. Позиции в белковых последовательностях не взаимозаменяемы: для получения лучших предсказаний они должны быть использованы одновременно.
5) Те же пары позиций позволяют предсказать, соответствует ли данный сайт ДНК мотиву данного фактора транскрипции. Наиболее значимыми для специфического связывания факторов транскрипции с сайтами ДНК являются пары позиций 55-9 и 20- выравнивания аминокислотных последовательностей и выравнивания сайтов соответственно.
6) Сопоставление с данными о специфических контактах в трех известных структурах комплексов белок-сайт для семейства LacI показывает, что большая часть наблюденных пар образует специфические контакты хотя бы в одной структуре. При этом в различных структурах контакты могут быть образованы разными парами.
Эксперименты по предсказанию первичной специфичности матриксных металлопротеиназ показали, что:
1) Предложенные регрессионные и классификационные модели, а также модели ранжирования, позволяют эффективно решать поставленные задачи, что позволяет надеяться на их эффективное использование для предсказания белковых субстратов исследованных протеаз.
2) Использование параметризации аминокислот повышает качество гребневой и логистической регрессии в задачах предсказания эффективности, классификации и ранжирования пептидов.
3) Одновременное использование значений эффективности и случайных пептидов с помощью оптимизации кусочно-квадратичной функции потерь позволяет получить более точные модели.
Список работ, опубликованных по теме диссертации 1. Федонин, Г.Г., Рахманинова, А.Б., Коростелёв, Ю. Д., Лайкова, О. Н., Гельфанд, М.С.
Изучение связывания ДНК факторами транскрипции семейства LacI методами машинного обучения. – Молекулярная биология, 2011, том 45, № 4, 1–14.
2. Fedonin, G., Gelfand, M. Machine Learning Study of DNA Binding by Transcription Factors from the LacI family. – Lecture Notes in Computer Science, 2010, Volume 6282, 15–26.
3. Федонин, Г.Г., Казанов, М.Д. Предсказание первичной специфичности матриксных металлопротеиназ методами машинного обучения – Материалы 34-й конференции молодых ученых и специалистов ИППИ РАН «Информационные технологии и системы – 2011», 2 – 7 октября 2011г., г. Геленджик, Россия, 37–44.