авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Компьютерный метод систематики микроорганизмов на основе алгоритмической теории информации и его приложение к таксономии и номенклатуре микроскопических грибов рода trichoderma

На правах рукописи

Тарасов Денис Станиславович Компьютерный метод систематики микроорганизмов на основе алгоритмической теории информации и его приложение к таксономии и номенклатуре микроскопических грибов рода Trichoderma 03.00.07- 03 микробиология

Автореферат диссертации на соискание ученой степени кандидата биологических наук

Казань, 2007

Работа выполнена на кафедре генетики ГОУ ВПО “Казанский государственный университет им В.И. Ульянова-Ленина», г. Казань.

Научный консультант: кандидат биологических наук Тарасов Денис Станиславович Акберова Наталья Иванована Казанский государственный университет, биолого-почвенный факультет 420008, Казань, Кремлевская Факс: (843)

Официальные оппоненты: доктор биологических наук Е-mail: [email protected] Наумова Римма Павловна доктор ветеринарных наук Алимов Азат Миргасимович Казанский институт биохимии

Ведущая организация:

и биофизики КазНЦ РАН, г.Казань

Защита состоится 29 ноября 2007 г. в 13 ч 00 мин. на заседании диссертационного совета Д. 212.081.08 при Казанском государственном университете по адресу г. Казань Кремлевская

С диссертацией можно ознакомиться в Научной библиотеке им. Н.И.

Лобачевского Казанского государственного университета Автореферат разослан “29” октября 2007 года

Ученый секретарь диссертационного совета, доктор биологических наук Абрамова З.И.

Актуальность темы Систематика организмов имеет две цели:

1. теоретическую - установление взаимосвязей между признаками различных организмов 2. практическую - идентификация организмов, предсказание свойств идентифицированных организмов на основании их принадлежности к группе Систематика включает в себя три большие области:

1. Номенклатура занимается вопросами выбора имен для систематических групп.

2. Таксономия занимается таксонами и взаимосвязями между ними 3. Идентификация - отнесение организма к конкретному таксону Современная систематика микроорганизмов сталкивается со значительными проблемами.

В области номенклатуры. Современная номенклатура в систематике регулируется с помощью устоявшихся наборов правил, ведущих свое начало со времен Линнея. Существует Зоологический кодекс номенклатуры, Ботанический кодекс, Бактериологический кодекс и Вирусный кодекс. Эти кодексы номенклатуры вызывают много нареканий.

Указывается, например, на то, что при работе в рамках задаваемых ими правил систематик микроорганизмов вынужден тратить значительное время (до 20% всего рабочего времени) на номенклатурные/историко библиографические изыскания, вместо того, чтобы заниматься предметом своих исследований.

В области таксономии. Систематика микроорганизмов сталкивается с рядом проблем, обусловленных спецификой изучаемого объекта:

· большое разнообразие микроорганизмов;

· отсутствие полового процесса у многих микроорганизмов не позволяет использовать определение вида по признаку скрещиваемости;

· горизонтальный перенос генов размывает границы видов и усложняет реконструкцию филогении;

· высокая скорость мутационных изменений В систематике микроорганизмов используются различные группы признаков, такие как морфологические, физиологические, биохимические, молекулярно-генетические. Широко признается тот факт, что данных одной группы признаков недостаточно для установления взаимосвязей между таксонами. Но в связи с тем, что на сегодняшний день отсутствуют действенные методы интеграции морфологических, физиологических, биохимических и молекулярно-генетических данных в рамках единого подхода, на практике часто 1данные одной группы признаков.

В отчете 2006 года Американской Академии Микробиологии сделан вывод о том, что используемые сегодня средства систематики не способны адекватно учитывать существующее разнообразие микроорганизмов, что является обоснованием необходимости разработки принципиально новых подходов к систематике микроорганизмов.

Одним из перспективных подходов к систематике является применение алгоритмической теории информации, которая использовалась ранее для создания метода построения филогенетических деревьев на основании сравнения целых геномов.

Предполагается, что использование алгоритмической теории информации можно распространить и на другие группы признаков, а также на другие вопросы систематики, такие как описание свойств микроорганизмов и вопросы номенклатуры.

Цель работы Целью данной работы было создание компьютерного метода систематики микроорганизмов на основе алгоритмической теории информации Для выполнения работы были поставлены следующие основные задачи:

1. Разработка способа унифицированного описания морфологических, физиологических, биохимических и молекулярно-генетических признаков, пригодный для использования в компьютерных классификационных процедурах 2. Разработка компьютерных классификационных процедур для построения таксономических деревьев, использующих унифицированные описания признаков и метрику расстояния, основанную на алгоритмической сложности 3. Проверка разработанных процедур на практике Научная новизна Впервые создан метод, позволяющий использовать универсальную меру расстояния (нормализованное информационное расстояние) при анализе таксономии микроорганизмов с использованием морфологических, физиологических и биохимических признаков.

Разработанный метод сочетает в себе преимущества нумерического и традиционного (интуитивного) подходов к систематике и обладает следующими преимуществами:

· Исключаются проблемы связанные с произвольным выбором меры расстояния и сводится к минимуму эффект от выбора алгоритма кластеризации.

-2 · 28. Izotova E.D. Virtual Machine for Analyzing Living Systems/E.D. Метод позволяет включать знания и личный опыт систематика Izotova, D.S. Tarasov //International Moscow conference on посредством выбора средств кодирования признака в computational molecular biology.- M.- 2007.- p. 128-130 программе-описании. В отличие от матрицы признаков, 29. Tarasov D.S. Object orientation and biological taxonomy: applying используемой в других нумерических методах, программа programming concepts to species classification/D.S. Tarasov, E.D описание способствует более обдуманному подходу к Izotova, N.I. Akberova//International Moscow conference on процессу выбора и кодирования признаков, сохраняет логику computational molecular biology.- M.- 2007.- p. 290-292 принятых в этом процессе решений для последующего анализа другими исследователями.

· Разработанный метод не требует использования строго независимых признаков. В описания-программы могут включаться связанные признаки, одновременно с информацией о способах их взаимодействия и развития процесса во времени.

Практическая значимость работы Разработанный метод может использоваться во всех задачах таксономии микроорганизмов, где обычно используется нумерическая систематика и кластерный анализ.

Разработанное программное обеспечение и язык ConceptSystem может быть применен в практической работе исследователя-микробиолога, а также в учебном процессе.

Предложенные улучшения к микробиологической номенклатуре, основанные на использовании пространств имен и псевдонимов, могут быть использованы в практической работе с систематикой микроорганизмов, поскольку являются совместимыми с существующими номенклатурными правилами, что одновременно упростит работу.

Методы исследования Программы для синтаксического разбора формализованных описаний микроорганизмов, графический интерфейс пользователя для работы с описаниями, программа, вычисляющая приблизительное значение алгоритмической сложности и программа построения матрицы расстояний были написаны с помощью языка программирования F#. Для сжатия данных описаний использовался алгоритм gzip.

Классификационные деревья строились с помощью алгоритмов UPGMA, Neighbor-Joining, и метода минимального эволюционного расстояния, реализованных в программном пакете PHYLIP, и визуализировались с помощью пакета PhyloDraw. При разработке языка ConceptSystem использовалась технология объектно-ориентированного программирования. Для построения объектно-ориентированных классификаций Trichoderma использовался графический язык UML (Unified Modeling Language), для создания UML диаграмм использовалась программа UMLet.

- 22 - -3 амплификаторов/Д.С. Тарасов, Н.И. Акберова //III Научная Апробация работы конференция молодых ученых, аспирантов и студентов научного Результаты работы докладывались на международных образовательного центра КГУ "Материалы и технологии XXI конференциях Bioinformatics of Genome Regulations and Structure’2002 и века".- Казань.- 2003. - с. 2004, Moscow Conference on Computational Molecular Biology, 2003 и 2007.

20. Тарасов Д.С. Язык описания клеточных программ CDPL-1 и его Кроме того, результаты работы докладывались на 6-ой (2002), 7-ой (2003), применение/Д.С. Тарасов, Н.И. Акберова, А.Ю. Леонтьев//6-ая 8-ой (2004) и 9-ой (2005) Пущинских школах-конференциях молодых Пущинская школа-конференция молодых ученых "Биология ученых «Биология - наука XXI века», секция «Математическая биология», наука XXI века".- Пущино.- 2002. - с. 195- и XII Международной конференция студентов, аспирантов и молодых 21. Tarasov D.S. The model of molecular biological computational device ученых «Ломоносов 2005».

and its application to automatic genome annotation/D.S. Tarasov, N.I.

Публикации Akberova, A.Y. Leontiev//International Moscow conference on По теме диссертации опубликовано 29 печатных работ, в том числе computational molecular biology.- M..- 2003. - p. 225- тезисов конференций, 4 трудов международных конференций, 6 статей в 22. Тарасов Д.С. Компьютерное моделирование структурно научных журналах, в. т. ч. 4 - в изданиях, рекомендованных ВАК для функциональной огранизации ori-сайтов бактерий/Д.С. Тарасов, публикации результатов кандидатских диссертаций, Н.И. Акберова//12-я международная конференция “Ферменты зарегистрированная программа для ЭВМ.

микроорганизмов”, Казань 2001. - с 83- Объем и структура диссертации 23. Тарасов Д.С. Регуляция и контроль инициации репликации:

Диссертация состоит из введения, трех глав, заключения и списка лингвистический подход/Д.С. Тарасов, Н.И. Акберова, А.Ю.

литературы, изложена на 110 страницах. Работа включает 25 рисунков и Леонтьев//Материалы XL международной научной студенческой таблиц.

конференции «Студент и научно-технический прогресс»:Биология.- Новосибирск.- 2002.- с. 149- 24. Леонтьев А.Ю. Алгоритм построения образа функциональных областей генома/А.Ю. Леонтьев, Д.С. Тарасов//Материалы международной научной конференции, посвященной 70-летию образования зооиженерного факультета. Казанская государственная академия ветеринарной медицины.- 2000.- с. 203 25. Тарасов Д.С. Язык представления описания морфологии грибов на примере Trichoderma/Д.С. Тарасов, Р.И. Тухбатова//9-ая Пущинская школа-конференция молодых ученых "Биология наука XXI века".- Пущино.- 2005. - с. 331.

26. Шишкин А.В. Построение нетривиальной классификации грибов рода Trichoderma/А.В. Шишкин, Р.И. Тухбатова, Д.С. Тарасов// 9 ая Пущинская школа-конференция молодых ученых "Биология наука XXI века".- Пущино.- 2005. - с. 223.

27. Тарасов Д.С. Интерпретатор языка CONCEPTSYSTEM// Программа для ЭВМ. Зарегистрирована в Реестре программ для ЭВМ 18.01.2007. Свидетельство о регистрации № -4- - 21 Internet-конференция "Компьютерное и математическое моделирование в естественных науках.- Тамбов.- 2001. - с. 23

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

11. Акберова Н.И.Компьютерный дизайн ПЦР-праймеров различной специфичности/Н.И. Акберова, Д.С. Тарасов //Четвертая Введение всероссийская Internet-конференция "Компьютерное и Во введении формулируется проблема, дается краткое описание математическое моделирование в естественных науках".- Тамбов.- состояния современной микробиологической систематики, ставится цель 2002. - с. 32 работы и задачи. Обосновывается формулировка цели и задач.

12. Акберова Н.И. Метод симметрийного моделирования структуры ДНК-текстов/Н.И. Акберова, А.Ю. Леонтьев, Д.С. Тарасов//Первая Первая глава. Обзор литературы всероссийская Internet-конференция "Компьютерное и Современная биологическая систематика имеет длительную математическое моделирование в естественных науках.- Тамбов.- историю. Существовало и существует множество различных направлений, 2001. - с. 24 часто называемых по-разному в различных источниках. Первоначально 13. Тарасов Д.С. Архитектура клеточного устройства и гибридные целью биологической систематики было построение некоторой биокибернентические системы/Д.С. Тарасов, Н.И. Акберова//7-ая «естественной» системы живых организмов.

Пущинская школа-конференция молодых ученых.- Пущино.- 2003. Систематика в это время опиралась на философскую доктрину, - с. 256 известную как «эссенциализм». Под эссенциализмом обычно понимается 14. Тарасов Д.С.Компьютерный дизайн праймеров для ПЦР/Д.С. точка зрения, согласно которой для любого предмета или существа Тарасов, Н.И. Акберова//II научная конференция молодых ученых, возможно перечислить набор характеристик, наличие которых необходимо аспирантов и студентов научно-образовательного центра КГУ.- и достаточно для определения его принадлежности к определенной группе.

Казань.- 2001. - с. 91 Эти характеристики выражают «сущность» этого предмета. Эссенциализм 15. Тарасов Д.С. Молекулярно-биологическое вычислительное можно видеть в учении древнегреческого философа Платона об идеях.

устройство и клеточное киберпространство/Д.С. Тарасов, Н.И. Позднее Аристотель впервые вводит иерархический принцип в Акберова//8-ая Пущинская школа-конференция молодых ученых систематику, говоря о том, что каждая вещь характеризуется родом (то, "Биология - наука XXI века".- Пущино.- 2003. - с. 24 что есть у нее общего с другими вещами) и видом – конкретной 16. Тарасов Д.С. Объекто-ориентированная система описания, спецификой данной вещи.

классификации и моделирования биологических объектов и ее В XVIII веке Карл Линней вводит во всеобщее употребление применение к грибам рода Trichoderma/Д.С. Тарасов//XII биномиальную номенклатуру. Кроме того, он вводит схему Международная конференция студентов, аспирантов и молодых классификации по принадлежности организма к таксонам различных ученых "Ломоносов".- M.- 2005. - с. 40-41 рангов (от конкретного к более общему), выделяя царство, класс, порядок, 17. Тарасов Д.С. Организация базы знаний для молекулярно- семейство, род и вид. Таким образом оформляются два из трех основных биологических исследований/Д.С. Тарасов, Н.И. Акберова //IV принципов номенклатуры современной систематики – иерархический Научно-практическая конференция молодых ученых и принцип и биномиальные названия. Также оформляется и деление специалистов Республики Татарстан.- Казань.- 2001. - с. 110 таксонов по рангам и названия самих рангов.

18. Тарасов Д.С. Применение новых достижений молекулярной В 1867 году де Кандоль вводит третий основной принцип биологии при проектировании современных устройств современной номенклатуры – принцип приоритета. Согласно ему за микроэлектроники/Д.С. Тарасов, Н.И. Акберова//Новые названием (родом и видом) организма закрепляется первое данное ему методологии проектирования устройств микроэлектроники.- название, которое впоследствии не меняется. Необходимость этого Владимир.- 2002. - с. 75-76 принципа была обусловлена тем, что до этого общая практика состояла в 19. Тарасов Д.С. Технологии молекулярной биокибернетики: том, что названия родов и видов постоянно пересматривались, в поисках использование системы CDPL/CDS в конструировании ПЦР- «наиболее лучшего» названия, отражающего новые знания об этом виде, - 20 - -5 что естественно создавало массу проблем для общения систематиков.

Чтобы решить эту проблему «наиболее лучшее» название было принесено в жертву стабильности в названиях. ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ В рассмотренное время номенклатура продолжает 1. Тарасов Д.С., Формат представления биологических описаний совершенствоваться, а способ построения классификаций остается по сути гриба и его применение на примере рода Trichoderma/Д.С. Тарасов, неизменным. Для построения классификации исследователь на основании Р.И. Тухбатова, Н.И. Акберова, Ф.К. Алимова//Вестник своей интуиции и личного опыта выбирает «существенные» признаки, т.е. Татарстанского отделения российской экологической академии. – признаки, характеризующие сущность организма, таким же образом 2005.- №2(24).- C. 44- выбирает наиболее важные из этих признаков и уже на основании этих 2. Тарасов Д.С. Молекулярно-биологическое устройство – принципы признаков (как правило, небольшого их числа) строит классификацию. организации//Д.С. Тарасов, Н.И. Акберова//Ученые записки КГУ, По мере того, как среди биологов распространяется убеждение о серия естественные науки.- 2005. - т.147. - кн. 2. - с 180- том, что виды не являются неизменными, цель систематики смещается от 3. Тарасов Д.С. Увеличение интеллектуальных ресурсов научного открытия «естественной системы», которой видимо, не существует, к исследования в биологических областях/Д.С. Тарасов, Н.И.

удовлетворению практических потребностей. С другой стороны, с Акберова//Ученые записки КГУ, серия естественные науки.- 2006 развитием эволюционных представлений был выдвинут тезис о том, что т.148. - кн 1.- с.138- систематика должна отражать родство живых организмов. Соответственно 4. Тарасов Д.С. Применение принципов объектно-ориентированного в систематике оформляются различные направления программирования к описанию и классификации биологических объектов на примере грибов рода Trichodermа/ Д.С. Тарасов, Н.И.

Методы фенетики В противоположность идее о наличии «существенных» признаков Акберова, Р.И. Тухбатова, Ф.К. Алимова//Ученые записки КГУ, нумерическая систематика основана на количественном учете всех серия естественные науки.- 2006.- т. 148.- кн. 3. - с. 125- признаков (точнее, большого числа различных признаков). 5. Тарасов Д.С. Виртуальные машины для исследования Возникновение идеи нумерической систематики связывают с молекулярно-биологических процессов/Д.С. Тарасов, Н.И.

именем французкого ботаника Адансона, жившего в XVIII веке. Он Акберова//Георесурсы.- 2006.- №4(21).- с.45- впервые предположил, что отдельные признаки не имеют устойчивого 6. Тарасов Д.С.Молекулярно-биологическое вычислительное значения, и только совокупность всех признаков может являться целостной устройство: архитектура и язык управления/Д.С. Тарасов, Н.И.

систематической характеристикой. Точный учет большого количества Акберова//Новая Геометрия Природы.- Казань.- 2003. - с. 341- признаков, остается, однако, во времена Адансона непосильной задачей. 7. Тарасов Д.С. Применение концепции молекулярно-биологического В 60-х годах ХХ века П. Снит и Р. Сокал, работая над проблемой устройства для создания современных обучающих программ систематики бактерий, разрабатывают принципы и методы нового поколения/Д.С. Тарасов, Н.И. Акберова//Новая Геометрия количественной фенетики, опирающиеся на использование компьютеров Природы.- Казань.- 2003. - с. 332- для проведения вычислений. 8. Tarasov D.S.A Language for modeling generic regulation in В фенетическом анализе используется очень большое (200-300 или prokaryotes/D.S. Tarasov, A.Y. Leontiev, N.I. Akberova //4 th столько, сколько можно практически определить) число признаков. International conference of bioinformatics and genome regulation and Первоначально предполагалось использование только невзвешенных и structure.- Novosibirsk.- 2004. - p. 146- независимых признаков, однако последующие работы рассматривали 9. Tarasov D.S.Architecture of cell device/D.S. Tarasov, A.Y. Leotiev, также применение взвешенных признаков. По степени сходства N.I. Akberova//Third International conference of bioinformatics and организмов (т.е. по количеству совпадающих признаков) строится матрица, genome regulation and structure.- Novosibirsk.- 2002. - p. 216- по которой затем производится кластерный анализ и строится фенограмма. 10. Акберова Н.И.Исследование симметрийной структуры геномов Сторонники фенетики считают этот метод объективным, поскольку вирусов HSV/Н.И. Акберова, Д.С. Тарасов //Первая всероссийская он теоретически не зависит от субъективной оценки «важности» признаков -6- - 19 или от выбора ограниченного набора признаков. Реально, однако, набор ВЫВОДЫ исследуемых признаков всегда ограничен, имеются сложности с выбором 1. Разработан метод кодирования морфологических и исключительно независимых признаков. Существует огромное количество физиологических признаков микроорганизмов для применения разнообразных мер расстояний – формул, по которым вычисляется степень универсальной информационной нормализованной меры сходства организмов и, кроме того, существует большое число алгоритмов расстояния и метод нахождения приблизительного значения этой построения фенограмм, дающих разные результаты. Поэтому фенетика не меры. Метод заключается в представлении признаков организма в смогла принести в систематику ту ясность и однозначность, на которую форме программы-модели его онтогенетического развития, надеялись ее сторонники.

записанной на специальном языке программирования. Методы кладистической (филогенетической) систематики 2. Разработана программа-интерпретатор языка программ-моделей Кладистическое направление в систематики возникло благодаря для описания признаков микроорганизмов, а также интерактивный работам В. Хеннига. Слово «кладистика» происходит от греческого слова графический интерфейс пользователя., klados – ветвь (Хенниг для обозначения своего подхода употреблял 3. Использование новых методов продемонстрировано на примере термин «филогенетическая таксономия»). Сущность кладистического описания и классификации грибов рода Trichoderma, что позволило направления можно определить как классификацию организмов получить описания, интегрирующие морфологические и исключительно по их порядку ветвления на эволюционном дереве, а не в физиолого-биохимические признаки, а также построить более соответствии с морфологическим сходством.

компактный по сравнению с принятым вариант систематики. Кладистика соответственно признает только монофилитические (происходящие от одного общего предка) систематические группы.

Монофилитические группы выделяются путем анализа признаков, которые присутствовали до появления последнего общего предка группы (плезиоморфные признаки) и признаки, появившиеся у последнего общего предка (синапоморфные признаки).

Разделение признаков на плезиоморфные и синапоморфные производится путем сравнения организмов некоторой группы с внешней группой (родственной группой, но не происходящей от последнего общего предка исследуемой группы).

Кладистический анализ можно производить по любым признакам, однако в последнее время часто используются данные о последовательности ДНК и РНК. Для построения кладограмм используются компьютерные алгоритмы, такие как метод максимальной парсимонии (MP) и максимального правдоподобия (ML). Эти методы часто требуют чрезмерно больших вычислительных ресурсов.

Современное состояние методов систематики В настоящее время применяются как количественные методы (фенетика, кладистика), так и построение классификации на основании личного опыта систематика. Количественные методы часто критикуются за то, что при их использовании «настоящая» систематическая работа подменяется необдуманным использованием компьютерных программ.

Количественные методы часто требуют использования более или менее произвольных числовых коэффициентов, метрик расстояния и.т.п. Кроме - 18 - -7 того, компьютерная программа, как правило, не может объяснить, почему 2. Номенклатура. В качестве эксперимента при построении ОО был получен тот или иной результат. В свою очередь сторонники систематики вместо микробиологических правил номенклатуры были количественных методов указывают на субъективность и использованы правила номенклатуры, принятые в программировании.

невоспроизводимость результатов традиционных подходов. Нами было произведено сравнение подходов к проблеме номенклатуры в биологической систематике и в программировании. В ходе проведенного сравнения нами был выдвинут ряд предложений касающихся того, как Вторая глава. Разработка автоматизированного метода известные в программировании и информатике принципы могли бы быть использования нормализованного информационного расстояния использованы для решения проблем номенклатуры в биологии.

для таксономии микроорганизмов Выдвинутые предложения направлены на решение противоречия между необходимостью иметь уникальные и неизменные имена таксонов и Алгоритмическая теория информации в биологической систематике потребностями в существовании простых, легко запоминающихся имен, Относительно недавно в работах рада авторов для использования в отражающих существенные признаки таксона. Противоречие разрешается классификации биологических объектов была предложена «универсальная путем разделения имен на две группы. В качестве уникального и мера расстояния», основанная на понятии алгоритмической сложности.

неизменного имени предлагается использовать GUID таксона. На GUID Данная мера выражается следующей формулой:

распространяется правило приоритета. В то же время GUID является max{K ( x | y ), K ( y | x)} NID( x, y ) = лингвистически и культурно нейтральным идентификатором, который max{K ( x ), K ( y )} может генерироваться как локально (на компьютерах пользователей), так и центрально (на специальном сервере). GUID предназначен прежде всего NID – нормализованное информационное расстояние между x и y;

x,y – для компьютерной обработки.

некоторые строки символов, содержащие информацию;

K(x|y) – Для использования людьми GUID может быть с помощью алгоритмическая сложность x при данном y.

технологии псевдонимов сопоставлен с несколькими удобными Алгоритмическая сложность К(x|y) - это длина самой короткой локальными именами.

двоичной программы для машины Тьюринга, которая, имея на входе x, Для предотвращения конфликта локальных названий предлагается выдаст на выходе y. Нормализованное информационное расстояние использовать технологию пространств имен. Благодаря этому каждый является универсальной мерой, которая отражает любое сходство x и y. В исследователь или группа сможет использовать собственную этом смысле NID является лучшей из возможных мер расстояний вне предпочитаемую систему наименований для часто используемых объектов, зависимости от природы сравниваемых объектов.

без риска возникновения путаницы.

Проблема заключается в том, что К(x|y) является в общем случае невычислимой величиной, и для практических целей были предложены методы нахождения ее приблизительного значения. Данные методы оказались пригодными для вычисления NID между последовательностями ДНК (включая целые геномы) и дали хорошие практические результаты при построении филограмм.

Однако для морфологических и физиологических признаков микроорганизмов методы аппроксимации NID не были разработаны, а методы, предложенные для других групп признаков, не являются адекватными.

Кодирование морфологических и физиологических признаков микроорганизмов для применения информационной меры расстояния Для того чтобы применить нормализованное информационное расстояние для морфологических и физиологических признаков, их надо -8- - 17 вначале представить в виде строки символов. Поскольку обычно морфологические и физиологические признаки представляются в виде текстовых описаний на естественном языке (русском, английском и.т.п.), на первый взгляд задача кажется очень простой.

Простое решение, однако, оказывается неадекватным. Метод приблизительного вычисления NID, описанный ранее, основан на использовании алгоритмов сжатия информации (используемых обычно для сжатия файлов на компьютере). Нельзя рассчитывать на то, что компьютерный алгоритм сжатия сумеет обнаружить в текстовых описаниях на естественном языке закономерности, отражающие структуру описываемого объекта.

Предлагаемое в настоящей работе решение состоит в следующем.

Вместо текстовых описаний возможно использовать программы, записанные на специальном языке программирования. Каждая программа будет при запуске моделировать процесс развития морфологических и Рис 4. Фрагмент одной из «традиционных» классификаций рода физиологических признаков данного организма. Модель может быть как Trichoderma. Справа приведено систематическое положение изолятов, очень приблизительной, так и достаточно детальной, при условии, что которые использовались при построении ОО-систематики. уровень детализации одинаков для всех сравниваемых групп организмов.

Длина полученной программы будет приближением к значению К(x|).

ОО-версия классификации, полученная в результате применения После чего автоматический компьютерный алгоритм может быть разработанного метода (рис 3), содержит 11 абстракций на 10 экземпляров, использован для нахождения приблизительного значения К(x|y).

из которых имеется 9 видов 1 род и 1 промежуточный таксон. Между тем, Для целей записи программ-моделей организмов разработан как можно видеть из рисунка, ОО-классификация описывает специальный язык BMLIDA. (Biological Modeling Language for Information взаимоотношения между рассматриваемыми организмами более подробно. Distance Approximation).

В частности, в «стандартной» версии виды к которым относятся изоляты T, Применение информационной меры расстояния к систематике S и R поставлены в один ряд и дальнейшая информация об их Trichoderma взаимоотношениях отсутствует, в то время как в ОО-версии класс TExPig Существует множество групп живых организмов, систематика (R) является наследником класса TPigmented (S) и TExudated (T), из чего которых находится в процессе постоянного изменения. Одной из таких сразу следует что R имеет признаки как S так и T. групп являются грибы рода Trichoderma. Грибы рода Trichoderma Следует особо отметить две особенности объектно- представляют ценность для применения в различных областях, в ориентированного подхода к систематики. частности, для биологической защиты растений против грибных 1. Использование множественного наследования. У бактерий возбудителей болезней, а также как продуценты различных биологических распространенным явлением является горизонтальный перенос генов, а у активных веществ. Точное определение систематического положения микроскопических грибов часто имеется несколько ядер (в результате изолятов необходимо для оценки их практических свойств.

слияния клеток мицелия), содержащих гетерогенную генетическую До настоящего времени отсутствует естественная система, информацию. В результате возможна ситуация когда штамм, вид или позволяющая выявить однозначные связи между определенными видами таксон более высокого ранга имеет нескольких предков одного уровня. этого рода. В литературе отмечены большие изменения в систематике, Существующие схемы классификации не предусматривают такой вызванные, во-первых, пересмотром объема рода, во-вторых, делением его ситуации. В ООП же имеется понятие множественного наследования, что на секции и описанием большого числа новых видов.

позволяет расширить выразительные средства систематики без ущерба их строгости.

- 16 - -9 На разрабатываемом языке BMLIDA были описаны модели Для сравнения на рисунке 4 приведен один из существующих развития 43 видов Trichoderma. Для этого сначала был отобран ряд вариантов «стандартной» биологической классификации Trichoderma, морфологических и физиологических признаков, обычно используемый который содержит 19 абстракций на 10 экземпляров, из них 10 видов и при описании данного вида. Список включал в частности, такие параметры род и 8 промежуточных таксонов. Различные по смыслу таксоны имеют как рост колонии и зависимость скорости роста от среды (КГА, SNA) и одинаковые названия (Trichoderma – одновременно род и секция). При температуры, форма колонии, запах, цвет, вид воздушного мицелия, этом рисунок не содержит никакой информации о смысле различий между размеры и форма спор и ряд других признаков. Была проанализирована таксонами.

последовательность проявления признаков, их возможные состояния, а также возможные взаимосвязи признаков между собой.

Далее было изучено, какие структуры данных и процедурные конструкции существующих языков программирования являются наиболее подходящими для представления используемых признаков. В результате анализа 16 различных языков программирования, представляющих каждую из четырех основных парадигм программирования (императивное программирование, функциональное программирование, логическое программирование, объектно-ориентированное программирование) были выбраны наиболее компактные и эффективные средства представления признаков. Эти средства были включены в разрабатываемый язык BMLIDA. Были выработаны правила, гарантирующие одинаковое представление одинаковых признаков в описаниях различных видов.

Для удобства работы была создана графическая программная оболочка и система автоматического поиска ошибок в описаниях.

После этого было произведено собственно написание программ для видов Trichoderma. Полученные описания были использованы для вычисления NID и построения матрицы расстояний NID между видами с помощью специально написанной программы. На основании матрицы NID с помощью алгоритма Neighbor-Joining была построена дендрограмма, иллюстрирующая результаты кластеризации (Рисунок 1).

Рис 3. ОО-версия фрагмента классификации Trichoderma. Рядом с каждым классом обозначены буквами (K-T) соответствующие экземпляры (изоляты) Trichoderma - 10 - - 15 Таблица 1. Соответствие понятий биологической классификации и ООП Биологическая классификация ООП Таксон Класс Вид Неабстрактный класс, который может иметь экземпляры.

Таксон высших порядков Абстрактный класс Организм Экземпляр класса В тоже время ОО-подход предоставляет классификационные средства, для которых в биологических систематиках нет аналогов (например, множественное наследование). Такие классификационные средства позволяют в явном виде указать известные закономерности признаков, либо использовать автоматический алгоритм поиска закономерностей. При этом в конце можно будет получить отчет о том, какие именно закономерности использовались при вычислении NID.

Для представления описаний и классификации биологических объектов был разработан специальный объектно-ориентированный язык ConceptSystem, который был применен для описания и классификации микроскопических грибов рода Trichoderma.

Применение метода явного задания закономерностей для классификации грибов рода Trichoderma Использовался способ описания, базирующийся на рассмотрении развития организмов рода Trichoderma как последовательности деления и дальнейшей специализации отдельных клеток Рис. 1. Кластерный анализ 43 видов рода Trichoderma с использованием Описание представляет собой программу, которую необходимо меры расстояния NID.

задать исходной клетке (споре), чтобы получить ее развитие сначала в колонию Trichoderma, а в итоге снова в спору. Такое описание является Выяснилось, что выбор алгоритма кластеризации не влияет на естественным, поскольку отражает реальное положение вещей и позволяет полученный результат. Так топологии деревьев полученных по матрице разделить признаки на свойственные единичным клеткам и появляющиеся NID c помощью алгоритмов UPGMA и метода минимальной эволюции не в результате взаимодействия большого числа клеток. Описание- отличались существенно от дерева, полученного с помощью Neighbor программа следует логике развития самого организма, а не логике Joining. Также результат не чувствителен к порядку видов в матрице.

проведения наблюдений, особенностей экспериментов и исторических Полученное дерево (Рис. 1) согласуется в ряде пунктов с обстоятельств, нередко оказывающих влияние на обычные текстовые известными данными о взаимосвзязи видов внутри рода Trichoderma. В описания. частности выделяются отдельно виды секции Trichoderma, подсекции Rufa C использованием предложенных методов были построены – T.viride, T. atroviride, T. koningi и T. ovalisporum. Вместе оказываются программы описания и классификация для 10 изолятов грибов рода виды секции Pachibasium “A” – T. Hamatum и T. Asperellum. Также близко Trichoderma. На Рис.3. приведен пример фрагмента систематики, расположены виды секции Longibrachiatum – T. longibraciatum, полученной с использованием описаний-программ и принципа T.citrinoviride, T. pseudokoningi. В то же время имеется и ряд отличий, не множественного наследования. Буквами K,L,M,N,O,P,Q,R,S,T обозначены согласующихся с принятой моделью классификации рода (следует конкретные изоляты Trichoderma.

- 14 - - 11 отметить, что во многих случаях систематическое положение видов Основной задачей было создать способ, который позволил бы в Trichoderma является спорным вопросом, по которому отсутствует единое явном виде описать закономерности и сходства программ-моделей. Для мнение). этого были использованы техники объектно-ориентированного Разработанный метод сочетает в себе преимущества нумерического программирования.

и традиционного (интуитивного) подходов. С одной стороны, используется Если мы сопоставим объектно-ориентированное программирование точный количественный метод, при этом исключаются проблемы (ООП) и биологическую систематику, то можем идентифицировать связанные с произвольным выбором меры расстояния и сводится к некоторые соответствия. Любая существующая биологическая система минимуму эффект от выбора алгоритма кластеризации. С другой стороны, может быть представлена средствами ООП. Чтобы понять эти метод позволяет включать знания и личный опыт систематика посредством соответствия, обратимся к рисунку 2, на котором представлен фрагмент выбора средств кодирования признака в программе-описании. При этом, в биологической классификации в форме диаграммы классов. Любому отличии от матрицы признаков, используемой в других нумерических таксону может быть сопоставлен класс, определяющий общие методах, программа-описание не поощряет формальный, недостаточно характеристики данного таксона (табл 1).

обдуманный подход к процессу выбора и кодирования признаков.

Программа-описание сохраняет логику принятых в этом процессе решений, в то время как матрица признаков эффективно скрывает эту информацию. Наконец, разработанный метод не требует использования строго независимых признаков. В описания-программы могут включаться связанные признаки одновременно с информацией о способах их взаимодействия и развития процесса во времени. Эта информация адекватно учитывается при построении дерева благодаря использованию NID-метрики.

В то же время в процессе проводимой работы были выявлены некоторые недостатки предложенного метода:

- Трудно понять причину получения тех или иных результатов кластеризации. Этот недостаток является общим для всех нумерических методов.

- Автоматический алгоритм компрессии все же может давать неправильные результаты для K(x|y), при этом нет возможности ручной коррекции результатов.

Третья глава. Использование технологии объектно ориентированного программирования для представления Рис 2. Наследование классов и биологическая систематика.

закономерностей в признаках микроорганизмов «Триходерма» является абстрактным классом (не может иметь Отмеченные во второй главе недостатки послужили стимулом для экземпляров), в котором определены атрибуты и методы, создания варианта разработанного метода, в котором основная работа по свойственные всем организмам рода Trichoderma. Классы Вид_Т1 и оценки K(x|y) возложена на человека-систематика, а автоматические Вид_Т2 являются подклассами «Триходерма», определяющими алгоритмы только оказывают помощь, при этом любое их решение может дополнительные атрибуты. Классы Вид_Т1 и Вид_Т2 являются быть прокомментировано компьютером. Данный вариант является более видами с точки зрения биологической систематики, поскольку из трудоемким, зато дает больше возможностей для оптимизации них могут образовываться конкретные экземпляры (Культура№1) таксономии.

- 12 - - 13

 




 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.