авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Методы визуального построения и сопровождения информационных систем на основе иерархического расширения реляционной модели данных

На правах рукописи

Тимофеев Дмитрий Владимирович

МЕТОДЫ ВИЗУАЛЬНОГО ПОСТРОЕНИЯ И СОПРОВОЖДЕНИЯ

ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ ИЕРАРХИЧЕСКОГО РАСШИРЕНИЯ

РЕЛЯЦИОННОЙ МОДЕЛИ ДАННЫХ

Специальность:

05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и

компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание учной степени кандидата технических наук

Санкт-Петербург 2009

Работа выполнена в Санкт-Петербургском институте информатики и автоматизации РАН

Научный руководитель:

доктор технических наук, c.н.с. Марлей Владимир Евгеньевич

Официальные оппоненты:

доктор технических наук, профессор Никифоров Виктор Викентьевич кандидат технических наук, доцент Егоров Александр Николаевич

Ведущая организация:

Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»

Защита состоится « 09 » июля 2009 г. в 11:00 часов на заседании диссертационного совета Д002.199.01 Санкт-Петербургского института информатики и автоматизации РАН по адресу:

199178, Санкт-Петербург, 14-я линия, д.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского института информатики и автоматизации РАН

Автореферат разослан « 06 » июня 2009 г.

Учный секретарь диссертационного совета Ронжин Андрей Леонидович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. В основе большинства современных информационных систем лежит система баз данных. Можно сказать, что база данных является моделью некоторой предметной области, а система управления базами данных (СУБД) – инструментом моделирования предметных областей. Приложение базы данных – программная система, использующая ресурсы системы баз данных и предназначенная для решения некоторой совокупности задач в некоторой предметной области.

Чтобы база данных, как модель предметной области, в большей степени соответствовала некоторой части реального мира и, соответственно, была более понятной конечному пользователю необходимо, чтобы СУБД основывалась на модели данных, близкой предметной области.

Наиболее распространенные, в настоящее время, реляционные СУБД обладают относительно слабыми возможностями для представления семантики данных предметной области.

Основным предметом критики реляционных СУБД присущая этим системам некоторая ограниченность при использовании в предметных областях, в которых требуются сложные структуры данных.

Примерами подобных областей являются предметные области медицинской и социальной сферы, связанные с обработкой значительных по объему массивов данных о населении. В этих областях основная часть данных, возникающих в ходе деятельности организаций, представлена в виде документов. Структура данных большинства реальных документов может быть представлена как разреженное иерархическое дерево с горизонтальными связями. При отображении такой структуры в реляционную базу необходимо учитывать следующие особенности:

1. Упорядоченность данных.

2. Явная иерархическая организация данных.

3. Разреженность данных, которая проявляется в виде отсутствия полей.

4. Избыточность данных – дублирование информации.

Соответственно в реляционной модели:

1. Кортежи отношений не упорядочены.

2. Связи представляются неявно с помощью значений.

3. Возможно только отсутствие значений атрибутов, а не самих атрибутов.

4. Отношение должны быть нормализованы.

Таким образом, в реляционной системе все эти особенности не поддерживаются на уровне модели данных и могут быть реализованы только во внешнем представлении. Поэтому при использовании реляционных СУБД для автоматизации подобных областей представление семантики данных предметной области большей частью ложится на уровень приложений к базе данных. В результате усложняется построение информационной системы, а если предметная область постоянно изменяется, то также развитие и сопровождение информационной системы.

В связи с этим наиболее перспективным является построение СУБД, основанной на расширенной модели данных, которая позволяет более полно отобразить семантику данных предметной области. При этом разработка информационных систем становится в большей степени описательной, декларативной, что позволяет облегчить процесс создания информационных систем. Поэтому работы в данном направлении являются актуальными.

Современные промышленные СУБД имеют набор интерфейсов к внешним инструментам проектирования и разработки приложений или снабжаются инструментальными средствами собственного производства. Для предметных областей медицинской и социальной сферы характерны:

1. Высокая динамика изменения ситуации (например, законодательства), поэтому требуется постоянное изменение и развитие информационной системы в процессе эксплуатации.

2. Отсутствие единого механизма работы организаций в различных регионах.

3. Большое количество незапланированных запросов.

4. Большое количество выходных документов.

5. Недостаток квалифицированных администраторов баз данных и пользователей.

Соответственно выдвигаются следующие требования к системе автоматизации:

1. Необходимы развитый инструмент для визуального проектирования структуры базы данных и изменения этой структуры в процессе эксплуатации, развитый инструмент для визуального построения приложений и изменения приложений в процессе эксплуатации, а также простой механизм обновления информационной системы.



2. Необходим простой механизм адаптации информационной системы к местным условиям.

3. Необходим развитый визуальный инструмент для поиска и аналитической обработки данных.

4. Необходим развитый визуальный инструмент для построения печатных форм.

5. Необходимо обеспечить простое администрирование системы и простой интерфейса для конечного пользователя.

Для построения и использования информационной системы необходимо одинаково хорошо владеть всеми инструментальными средствами, которые могут значительно отличаться друг от друга. Поэтому для повышения степени автоматизации и снижения трудоемкости процессов создания и эксплуатации информационных систем необходимо совмещение этих инструментов в рамках единого универсального визуального инструмента. Это позволяет значительно облегчить работу пользователей, ускорить разработку информационных систем и упростить их сопровождение, что и определяет актуальность разработки подобных систем.

Целью работы является разработка расширенной реляционной модели данных и универсального визуального инструментального средства для совершенствования процессов построения и сопровождения информационных систем.

Задачи исследования 1. Анализ моделей данных, используемых в базах данных, и существующих расширенных моделей, общая постановка задачи исследования.

2. Разработка расширенной модели данных, включающей как неформальные семантические понятия, так и формальные элементы для их интерпретации.

3. Разработка физического и внешнего уровней программной системы, совмещающей инструменты проектирования, разработки и использования информационных систем в рамках единой визуальной инструментальной среды.

4. Обоснование применимости разработанного инструментального средства для выбранного класса задач и иллюстрация на конкретном примере.

Методы и средства исследования. При решении поставленных задач используются формализмы теории множеств, реляционной модели данных, нотация UML, языки и стандарты платформы XML, язык программирования M.

Положения, выносимые на защиту 1. Расширенная модель данных, основанная на высокоуровневой интерпретации модели данных RM/T и включающая в себя механизмы логической реструктуризации хранимого дерева и механизм интеграции физических деревьев в модель данных.

2. Методы реализации физического уровня инструментального средства, поддерживающего предложенную модель данных и предполагающие использование M-системы в качестве среды реализации физического уровня, использование кластерных индексов в качестве основной структуры хранения данных, кодирование слов значений суррогатными кодами.

3. Механизмы унификации программирования информационной системы и унификации создания, хранения, обработки и представления данных для реализации внешнего уровня инструментального средства, поддерживающего предложенную модель данных.

4. Практическая реализация информационной системы с помощью разработанного инструментального средства.

Научная новизна 1. Разработана высокоуровневая интерпретация расширенной реляционной модели данных RM/T, которая обеспечивает отображение семантики данных предметной области в простой и понятной форме для конечного пользователя за счт использования для описания молекулярных типов RM/T высокоуровневой структуры – упорядоченного логического дерева с горизонтальными связями с возможностью логической реструктуризации дерева.

2. Разработана расширенная модель данных, основанная на предложенной интерпретации модели данных RM/T и включающая в себя: механизмы логической реструктуризации хранимого дерева – ссылочные и виртуальные объекты, механизм интеграции физических деревьев в предложенную модель данных – объект типа массив. С помощью ссылочных и виртуальных объектов решаются: задача представления горизонтальных связей как логических иерархических и задача инвертирования иерархии без создания дополнительных структур хранения. С помощью объектов типа массив обеспечивается возможность работы как с логическими деревьями, так и с физическими деревьями единым образом и решается задача представления результатов аналитической обработки данных.

3. Предложены методы реализации физического уровня инструментального средства, предполагающие: использование M-системы в качестве среды реализации физического уровня, использование кластерных индексов в качестве основной структуры хранения данных, кодирование слов значений суррогатными кодами. Применение М-системы обеспечивает низкоуровневый интерфейс к структурам хранения, развитые средства СУБД и позволяет построить собственную СУБД. С помощью кластерных индексов осуществляется чтение данных в последовательности иерархического обхода и извлечение поддеревьев. С использованием кодирования слов значений обеспечивается устранение избыточности, свойственной иерархической организации данных, на уровне хранения.

4. Предложены механизм унификации программирования информационной системы и механизм унификации создания, хранения, обработки и представления данных. Согласно механизму унификации программирования, вс программирование – взаимодействие с базой данных, описание логики работы приложения, реализация пользовательского интерфейса – выполняется на стороне сервера. Согласно механизму унификации создания, хранения, обработки и представления данных, вс взаимодействие пользователя с информационной системой осуществляется через экранные формы инструментального средства. Механизмы унификации легли в основу разработки единой универсальной визуальной инструментальной среды построения и использования информационных систем.

Обоснованность и достоверность. Достоверность научных положений определяется корректностью используемых моделей данных и стандартов, всесторонней апробацией основных теоретических положений диссертации в печатных трудах, докладах на Международных и Всероссийских научных конференциях, положительными результатами практического использования разработанной системы в различных отечественных организациях.

Практическая ценность работы. В результате работы реализована программная среда qWORD-XML, основанная на предложенной интерпретации модели данных RM/T и объединяющая различные инструменты в рамках единого универсального визуального инструментального средства.

С использованием предложенной модели данных разработка, развитие и сопровождение информационных систем становятся в большей степени описательными, декларативными.

С использованием предложенного единого инструментального средства ускоряется разработка информационных систем, упрощается их сопровождение, облегчается работа пользователей.

Наиболее предпочтительным является использование среды qWORD-XML для автоматизации предметных областей медицинской и социальной сферы.

Реализация результатов работы. С помощью предложенной инструментальной среды qWORD-XML разработаны и внедрены следующие информационные системы:

1. Автоматизированная информационная система «Медико-социальная экспертиза» (АИС МСЭ) – для ФГУ «Главное бюро МСЭ по Ленинградской области» (с 2002 г.), ФГУ «Главное бюро МСЭ по Тюменской области» (с 2003 г.), ФГУ «Главное бюро МСЭ по Калининградской области» (с 2003 г.) 2. Медицинская информационная система qMS – для Санкт-Петербургского научно практического центра медико-социальной экспертизы, протезирования и реабилитации инвалидов имени Г.А. Альбрехта, Всероссийского центра Экстремальной и Радиационной Медицины МЧС России (с 2005 г.) Предложенные в работе рекомендации по применению технологии XML, построению и использованию систем управления базами данных, организации баз данных были использованы при проведении научно-исследовательских работ в ходе международного проекта 6-й рамочной программы Европейской Комиссии 507592-2 ILIPT «Интеллектуальная логистика для инновационных производственных технологий».

Апробация работы. Основные результаты и положения работы обсуждались на Международной научной конференции «Оптимальные методы решения научных и практических задач» (ОМ-2005) (ТРТУ, 2005 г.), на Санкт-Петербургском семинаре «Информатика и компьютерные технологии» (СПИИРАН, 2006 г.), на 4-й Всероссийской научной конференции «Управление и информационные технологии» (УИТ-2006) (СПбГЭТУ, 2006 г.).





Публикации. По теме работы опубликовано 10 печатных работ, в том числе одна работа в рецензируемом журнале из перечня ВАК («Известия ВУЗов. Приборостроение»).

Структура и объм работы. Диссертация объемом 137 машинописных страниц содержит введение, четыре главы и заключение, список литературы (115 наименований), 5 таблиц, рисунков.

СОДЕРЖАНИЕ РАБОТЫ

Введение. Обоснована актуальность темы диссертации, определены цели и задачи исследования, отражена научная новизна и практическая значимость полученных результатов.

Первая глава. Выполнен анализ моделей данных, которые использовались при построении баз данных, сформулированы задачи, решаемые в диссертационной работе.

В иерархических и сетевых системах явным образом поддерживаются дополнительные конструкции: в иерархических системах записи организуются в деревья, в сетевых системах поддерживаются явные связи между записями. Эти конструкции позволяют представить некоторые семантические понятия, но увеличивают сложность построения баз данных.

Реляционные системы должны были обеспечить максимальное упрощение работы пользователей. Простота реляционной модели и существование е строгой формализации обеспечило СУБД, поддерживающим эту модель, наиболее широкое распространение. Основным предметом критики реляционных СУБД является присущая этим системам некоторая ограниченность при использовании в нетрадиционных областях, в которых требуются предельно сложные структуры данных, и относительно слабые возможности по части представления семантики данных предметной области. В реляционной модели единственной существенной конструкцией является отношение, связи представляются неявно с помощью внешних ключей. В этом смысле реляционная модель менее естественна для человека по сравнению с иерархической и сетевой. Эти недостатки привели к появлению направления семантического моделирования и созданию объектных систем.

Семантическое моделирование направлено на обеспечение возможности представления семантики данных. Основная цель состоит в предоставлении более удобных и естественных для человека средств моделирования предметной области. В качестве способа реализации семантики данных были разработаны различные «расширенные» модели данных.

Общий подход к проблеме семантического моделирования характеризуется четырьмя основными этапами:

1. Выявление некоторого множества семантических понятий, которые могут использоваться при неформальном описании рассматриваемой проблемы реального мира. Такими семантическими понятиями могут быть сущность, свойство, связь, подтип.

2. Введение набора соответствующих формальных объектов, которые могут использоваться для представления описанных выше семантических понятий.

3. Установление набора формальных общих правил целостности, предназначенных для работы с такими объектами.

4. Определение набора формальных операторов, предназначенных для манипулирования этими объектами.

Эти объекты, правила и операторы совместно образуют расширенную модель данных.

Наиболее популярной из расширенных моделей является ER-модель. Однако данная модель является только неформальным дополнением реляционной модели, она используется на первом этапе проектирования базы для создания концептуальной модели предметной области. Затем эта модель предметной области отображается в концептуальную схему базы данных в терминах формальной модели данных концептуального уровня описания выбранной СУБД. При этом полученная концептуальная схема базы данных может существенно отличаться от первоначальной концептуальной модели предметной области, а задача представление семантики данных предметной области большей частью ложится на приложения к базе данных. Соответственно дополнительно появляется модель предметной области на уровне приложений. Между этими моделями необходимо реализовывать отображение (рис. 1):

Отображение создания:

КМ CБД Отображение использования:

СБД МП Общее отображение:

КМ СБД МП Концептуальная Модель предметной модель предметной области на уровне области приложений (КМ) (МП) Схема базы данных в терминах базовой модели (СБД) Рис. 1. Отображение моделей без использования расширенной модели В результате усложняется построение информационной системы, а если предметная область постоянно изменяется, то также развитие и сопровождение информационной системы.

Поэтому наиболее перспективным является прямая реализация СУБД, основанная на расширенной модели данных, позволяющей более полно отобразить семантику данных предметной области и включающей как неформальные семантические понятия, так и формальную модель для их интерпретации.

В этом случае отображение моделей будет выглядеть следующим образом (рис. 2):

Отображение создания:

КМ РМ КМ РМ СБД РМ CБД Отображение использования:

СБД РМ СБД РМ МП РМ МП Общее отображение:

КМ РМ СБД РМ МП Концептуальная Модель предметной модель предметной области на уровне области приложений (КМ) (МП) Модель предметной области в терминах расширенной модели (РМ) Схема базы данных в терминах базовой модели (СБД) Рис. 2. Отображение моделей c использованием расширенной модели Если отображение между моделью предметной области в терминах расширенной модели и схемой базы данных скрыть от пользователя системы, общее отображение моделей примет следующий вид:

КМ РМ МП Проектирование в терминах расширенной модели более удобно, естественно и понятно для конечного пользователя, чем в терминах схемы базы данных. Такая модель нест большую смысловую нагрузку, чем базовая реляционная модель, и служит более естественным посредником между неформальным представлением предметной области и внутренним представлением в СУБД. При этом разработка информационных систем становится в большей степени описательной, декларативной.

В объектном подходе фундаментальные семантические абстракции используются неявно.

Однако объектные системы обладают целым рядом недостатков, которые не имеют место в реляционных системах. Кроме того, объектная система скорее является набором средств построения СУБД, а не собственно СУБД общего назначения.

Гибридные системы должны взять лучшее от каждой модели (реляционной и объектной) и свести к минимуму их ограничения. Однако и в объектно-реляционных системах, и постреляционных системах допущена серьзная логическая ошибка, которая подрывает концептуальную целостность реляционной модели. Правильная поддержка типов данных в реляционных системах должна позволить применять их для нетрадиционных приложений, однако не снимает проблему семантической ограниченности реляционной модели.

В предметных областях медицинской и социальной сферы основная часть данных, возникающих в ходе деятельности организаций, представлена в виде документов, имеющих иерархическую структуру с горизонтальными связями. При отображении такой структуры в реляционную базу данных необходима реализация дополнительных механизмов структурирования, хранения, обработки и представления данных, которые вместе определяют новую расширенную модель данных.

Главными задачами работы являются разработка расширенной модели данных;

определение структур хранения, поддерживающих предложенную расширенную модель данных, и методов доступа к хранимой базе данных;

определение механизмов внешнего уровня для взаимодействия с базой данных в терминах предложенной расширенной модели;

разработка универсальной инструментальной визуальной среды для построения и использования информационных систем, основанных на предложенной расширенной модели.

Вторая глава. Вводится расширенная модель данных, несущая большую смысловую нагрузку, чем базовая реляционная модель.

Э. Коддом была предложена модель RM/T, позволяющая расширить семантические аспекты базовой реляционной модели. В RM/T вводятся различные семантические абстракции, а также формальные объекты, правила целостности и операторы, т.е. RM/T включает как неформальные семантические понятия, так и формальную модель для их интерпретации. Однако в RM/T вводятся дополнительные сущности – графовые отношения – и дополнительные операции над этими сущностями, механизм реализации расширений в RM/T является низкоуровневым, что делает модель более мощной и гибкой, но вместе с тем более сложной и ориентированной в первую очередь на программистов, а не на пользователей.

В качестве основы разрабатываемой модели данных инструментального средства предлагается использовать расширенную реляционную модель RM/T. Как показано выше в чистом виде RM/T является сложной и ориентированной на программистов, поэтому необходима разработка интерпретации модели данных RM/T, в которой в качестве механизма реализации семантических расширений будут использоваться высокоуровневые средства.

В рамках решения второй задачи были сформулированы и решены следующие подзадачи:

разработка высокоуровневой интерпретации модели RM/T данных;

определение структурных компонентов, ограничений целостности и операций манипулирования расширенной модели данных;

разработка механизма логической реструктуризации хранимого дерева в рамках предложенной модели данных;

разработка механизма интеграции физических деревьев в предложенную модель данных.

В данной работе предлагается отказаться от использования в качестве механизма реализации расширений RM/T бинарных и тернарных графовых отношений. В качестве основы механизма реализации молекулярных типов RM/T предлагается использовать базовую реляционную модель и, в частности, отношения степени n.

Так, агрегация простых свойств образует новый тип реляционного отношения, который описывается следующим образом:

RELATION {A1 T1, A2 T2, …, An Tn} Характеристическую агрегацию предлагается естественным образом описывать и представлять в виде дерева типов сущностей. В качестве механизма реализации иерархических связей предлагается использовать суррогатные иерархические позиционные ключи (SK).

Суррогатный ключ получается путм конкатенация отдельных ключей составного позиционной первичного ключа:

SKa = Ka SKb = CONCAT(Ka, Kb) SKc = CONCAT(Ka, Kb, Kc) Внешние ключи входят в состав первичного ключа и ссылаются на первичные ключи всех отношений-предков данного отношения. Позиционный первичный ключ определяет уникальность кортежа не только в пределах родительского кортежа, но и в пределах любого кортежа-предка.

Поэтому, несмотря на избыточность данных, этот вариант представления иерархических связей является наиболее предпочтительным.

С учтом вышесказанного, для построения характеристического дерева необходимо реализовать операции соединения между кортежами отношений по суррогатным ключам:

ta Ahar ta A tb Bhar tb (B SEMIJOIN A) tc Char tc (C SEMIJOIN (B SEMIJOIN A)) Предлагается использовать характеристические деревья в качестве основной структуры данных.

Выбранный вариант представления характеристического дерева позволяет просто решать задачу пропуска (проекции) отношения в дереве и задачу инвертирования дерева.

Ассоциативную агрегацию предлагается реализовывать с помощью горизонтальных связей между типами сущностей этих деревьев. В качестве механизма реализации горизонтальных связей предлагается использовать пользовательские первичные и внешние ключи (UK).

Вместе с тем ассоциативную агрегацию удобно представлять в виде дерева, такое представление является более наглядным и интуитивно понятным для пользователя. Поэтому, необходимо поддерживать возможность представления ассоциативной агрегации в виде логического дерева, что в свою очередь требует введения механизма логической реструктуризации характеристических деревьев.

Таким образом, для построения ассоциативного дерева необходимо реализовать операции соединения между кортежами отношений по пользовательским ключам:

tass ASSass tass ASS tb Aass tb (A SEMIJOIN ASS) te Bass te (B SEMIJOIN ASS) Аналогично агрегацию обобщения и агрегацию покрытия предлагается реализовывать с помощью горизонтальных связей между типами сущностей характеристических деревьев и представлять в виде логических деревьев.

Так, для построения дерева обобщения по отношению GEN необходимо реализовать следующие операции соединения между кортежами отношений по пользовательским ключам:

ta Agen ta A tb Bgen tb (B SEMIJOIN (GEN SEMIJOIN A)) А для построения дерева покрытия по отношению COV необходимо реализовать такие операции соединения между кортежами отношений по пользовательским ключам:

ta Acov ta A tc Bcov tc (C SEMIJOIN (COV SEMIJOIN A)) td Bcov td (D SEMIJOIN (COV SEMIJOIN A)) Для представления относительного времени возникновения событий в данной работе предлагается использовать упорядочивание данных, которое может быть реализовано, если суррогаты будут нести дополнительную смысловую нагрузку – будут служить для упорядочивания сущностей.

Кортеж t1 предшествует кортежу t2, если суррогатный ключ SK2 кортежа t2 сортируется после суррогатного ключа SK1 кортежа t1:

SK2(t2) ]] SK1(t1) t1 t В целом для описания молекулярных типов RM/T в данной работе предлагается введение молекулярной структуры – логического упорядоченного дерева с горизонтальными связями, которое накладывается поверх атомарной структуры – n-мерного отношения. Должна поддерживаться возможность представления горизонтальных связей в виде логических деревьев.

Основой предлагаемой интерпретации расширенной модели RM/T является базовая реляционная модель, что позволяет использовать е для низкоуровневого описания разрабатываемой модели. Иерархическая модель данных с горизонтальными связями, в общем случае, существенно сложнее, чем реляционная – последняя лишь частный случай первой. Однако с созданием и развитием платформы XML появилась возможность формального высокоуровневого описания такой модели.

На основе языков платформы XML может быть построена модель данных. Структурой данных этой модели является дерево упорядоченных элементов с горизонтальными связями, задаваемое базовой спецификацией XML, языками описания схем Relax NG, Schematron.

Ограничения целостности задаются с помощью языков Relax NG, Schematron. Операции осуществляются с использованием DOM, XPath и XQuery. Преобразование структуры XML документа осуществляется с использование XSLT. И эта модель данных позволяет описать предложенную интерпретацию модели RM/T на более высоком уровнем, чем базовая реляционная модель.

На основе предложенного подхода разработана расширенная реляционная модель данных, в которой иерархическая модель данных в варианте XML наложена как вторичная поверх реляционной. Это позволяет сохранить строгость реляционной модели и привнести в не дополнительные преимущества иерархической модели, а также использовать для описания модели как реляционную алгебру, так и языки платформы XML.

Основными структурными компонентами разработанной модели данных являются объект, экземпляр объекта, понятие, код экземпляра объекта, отображение (табл. 1).

Табл. 1. Структурные компоненты расширенной модели данных С точки зрения XML C реляционной точки зрения Объект Тип элемента Отношение Экземпляр объекта Элемент Кортеж Понятие Атрибут Атрибут Код экземпляра объекта Позиция элемента Позиционный суррогатный первичный и внешний ключ Для описания связей понятий с объектами и связей объект-объект вводится дополнительная структура – отображение. Отображение включает в себя дерево объектов и дерево экземпляров объектов. Дерево объектов соответствует схеме ХML-документа, а дерево экземпляров – множеству ХML-документов, удовлетворяющих этой схеме. Общая схема базы данных, включающая все объекты и все понятия, не декларируется явным образом, а создатся на основе множества отображений, описывающих отдельные части схемы, что позволяет явно разделить задачу построения базы данных на ряд подзадач.

view code="код отображения" object code="код объекта1" concept code="код понятия1"/ concept code="код понятия2"/ object code="код объекта2"...

/object...

/object /view База данных моделируется как совокупность упорядоченных деревьев информационных объектов с горизонтальными связями и со специфичным для каждого объекта набором понятий.

И иерархические связи и горизонтальные являются информационными – они реализуются только на основе значений понятий объектов. Иерархические связи реализуются автоматически с помощью кодов экземпляров, которые являются позиционными суррогатными первичными и внешними ключами. Горизонтальные связи реализуются пользователем, который должен задать пользовательские потенциальные и внешние ключи.

В модели данных предусмотрены ограничения целостности: ограничения типов и понятий, ограничения объектов и ограничения базы данных. Правила целостности сущностей и правила ссылочной целостности для иерархических связей создаются и поддерживаются автоматически.

В модели данных поддерживаются и видны для пользователя как спецификационные так и навигационные операции манипулирования данными, так как последние предоставляют большую гибкость и свободу в реализации конкретных задач.

Навигационные операции соответствуют низкоуровневым операциям модели DOM (Document Object Model). Набор навигационных операций будет иметь следующий вид: навигация (next), выборка (find), получение значения понятия (get), создание экземпляра объекта (new), обновление значений понятий (update), удаление поддерева экземпляра объекта (delete) Спецификационные операции соответствуют реляционной алгебре. Операции реляционной алгебры расширяются на деревья объектов, так как в модели данных главной структурой является дерево объектов, а не отношение. Для описания расширенных реляционных операций используется язык XQuery. Основные элементы расширения спецификационных операций:

Операции выполняются в рамках одного отображения.

Операции проекции ({}) и сокращения (WHERE) могут применяться к общей схеме базы, результатом чего становится новое отображение, либо выполняться в пределах существующего отображения, результатом становится новое состояние отображения.

Операндами операций объединения (UNION), пересечения (INTERSECT) и разности (MINUS) являются деревья экземпляров, совместимые по схеме отображения. Так как операции выполняются в рамках отображения, то они все могут быть сведены к выполнению операции сокращения в пределах этого отображения.

Для реализации операций произведения (TIMES) и соединения (JOIN), связанных с созданием новых логических структур вводятся механизмы ссылочных и виртуальных объектов.

Ссылочные (reference) и виртуальные (virtual) объекты являются механизмами логической реструктуризации хранимого дерева без создания дополнительных структур хранения.

Ссылочные объекты ссылаются на экземпляры объектов, реально существующие в базе данных. В описании ссылочного объекта необходимо задать операцию для получения следующего кода экземпляра объекта (nextInstance) относительно направления перемещения (order), кода объекта (object), текущего кода экземпляра (instance), кода экземпляра родительского объекта по отображению (parentViewInstance):

nextInstance = getNextRefInstance(order, object, instance, parentViewInstance) С использованием виртуальных объектов могут быть созданы виртуальные деревья.

Экземпляры виртуальных объектов не существуют в базе, а создаются пользователем. В описании виртуального объекта необходимо задать операцию для получения следующего кода экземпляра объекта (nextInstance) относительно направления перемещения (order), кода объекта (object), текущего кода экземпляра (instance), кода экземпляра родительского объекта по отображению (parentViewInstance). Операция также должна возвращать значения понятий для полученного экземпляра (массив values):

nextInstance = getNextVirtInstance(order, object, instance, parentVeiwInstance,.values) С помощью механизмов ссылочных и виртуальных объектов решаются задачи:

представления горизонтальных связей как логических иерархических, инвертирования иерархии.

С использованием предложенных ранее структур определяется логическое дерево, в котором иерархическая организация данных описывается неявно с помощью ключей. Если иерархическая организация данных представляется явно через вложенность уровней, то такое дерево будет являться физическим. В физическом дереве дерево объектов и дерево экземпляров совмещаются в рамках единой структуры.

Для интеграции физических деревьев в модель данных вводится новый тип объекта – массив (array). Такой объект, по сути, является виртуальным, так как его экземпляры не существуют в базе данных. В описании объекта типа массив необходимо задать имя физического массива, на который ссылается данный объект, операция для получения следующего кода экземпляра и значений понятий экземпляра объекта создатся системой автоматически.

Тем самым обеспечивается возможность работы как с логическими деревьями, так и с физическими деревьями единым образом в рамках структурного компонента модели данных. С помощью объектов типа массив решаются задачи: отображения физических иерархических баз данных, представления результатов аналитической обработки данных.

Разработанная модель основывается на базовой реляционной модели данных и модели данных XML, соответствует предложенной интерпретации модели данных RM/T и является функциональной полной. В рамках модели обеспечивается возможность манипулирования логическими деревьями с горизонтальными связями, предоставляются средства логической реструктуризации дерева и представления горизонтальных связей в виде логических деревьев.

Также обеспечивается возможность манипулировать физическими и логическими деревьями в рамках единого структурного компонента. Модель обладает свойством самоописания, что позволяет использовать одни те же операции для манипулирования как данными, так и метаданными.

Третья глава. Рассматривается реализация физического и внешнего уровней разрабатываемой программной системы qWORD-XML, поддерживающей введнную во второй главе модель данных, и совмещающей инструменты проектирования, разработки и использования информационных систем в рамках единой инструментальной визуальной среды.

В рамках решения третьей задачи были сформулированы и решены следующие подзадачи:

выбор среды реализации физического уровня разрабатываемого инструмента;

определение структур хранения и методов доступа к хранимой базе данных;

разработка механизма унификации программирования информационной системы;

разработка механизма унификации хранения, обработки и представления данных для конечных пользователей.

В качестве среды реализация физического уровня используется M-система. Применение M системы с одной стороны обеспечивает низкоуровневый интерфейс к структурам хранения, а с другой предоставляет развитые средства СУБД, что позволяет использовать M-системы в качестве средства для построения собственной СУБД. Главным достоинством М-систем является механизм управления внешней памятью в виде B*-деревьев, которые на логическом уровне представляются через глобалы – хранимые на диске, рассортированные по строковым индексам разреженные массивы произвольной размерности. С помощью глобалов реализуются структуры хранения инструментального средства.

Для чтения данных в последовательности иерархического обхода реализуется кластерный индекс, который является основной структурой хранения (рис. 3). Ключом кластерного индекса является код экземпляра объекта. Экземпляры каждого объекта хранятся в порядке кодов экземпляров вместе с данными экземпляров.

Для поиска требуемых данных реализуются обычные индексы, которые ссылаются на коды экземпляров кластерных индексов (рис. 3).

Кластерный индекс кодов экземпляров Код Код Код объекта Слово1 Слово2 Словоn экземпляра понятия Некластерный индекс понятия Слово Код Код Номер слова Код понятия значения объекта экзепляра в значении Рис. 3. Индексация Для устранения избыточности, свойственной иерархической организации данных, на физическом уровне выполняется кодирование слов структурированных значений понятий суррогатными кодами. Для поддержки кодирования слов значений создаются дополнительные структуры хранения – кластерный индекс слов значений, ключом которого является суррогатный код слова, и обычный индекс слов значений (рис. 4).

Обратный словарь Код Код слова Слово Номер Значение понятия значения значения хар-ки хар-ки Прямой словарь Код Cлово Код слова понятия значения значения Кластерный индекс кодов экземпляров Код Код Код объекта КодСлова1 КодСлова2 КодСловаn экземпляра понятия Рис. 4. Кодирование слов значений На внешнем уровне инструментальное средство реализуется как клиентское приложение к M-серверу.

Для унификации программирования информационной системы вс программирование – взаимодействие с базой данных, описание логики работы приложения, реализация пользовательского интерфейса – осуществляется на стороне сервера. Инструментальная среда представляет собой единственное универсальное клиентское приложение ко всем построенным в ней информационным системам.

Для унификации создания, хранения, обработки и представления данных вс взаимодействие пользователей с информационной системой осуществляется через экранные формы инструментального средства, названные отображениями. Любое отображение состоит в общем случае из дерева объектов и дерева экземпляров объектов и представляет собой:

инструмент для визуального проектирования структуры базы данных, а также средство представления этой структуры и данных, соответствующих этой структуре (рис. 5);

инструмент для визуального построения приложений к спроектированной базе данных, а также собственно экранную форму приложения;

визуальное средство для проектирования внешнего вида выходной печатной формы;

визуальное средство для поиска данных и для представления результатов поиска.

визуальное средство для аналитической обработки данных и для предоставления результатов обработки.

Рис. 5. Отображение, описывающее схему базы данных В рамках отображения объединяются собственно данные, их структура, представление и обработка. Описание отображения создатся в результате визуального проектирования, включает в себя описание схемы дерева, описание внешнего вида приложения вместе с вызовами действий по ситуациям и автоматически сохраняется в базе данных.

Построение информационной системы в qWORD-XML сводится к созданию отображений и определению действий по ситуациям.

Четвртая глава. Рассматриваются основные аспекты реализации автоматизированной информационной системы «Медико-социальная экспертиза» (АИС МСЭ) с помощью разработанной инструментальной среды, названной qWORD-XML, определяются особенности построения информационных систем в qWORD-XML, приводятся преимущества инструментальной среды для различных категорий пользователей, а также проводится сравнение производительности баз данных, разработанных в qWORD-XML и в SQL-Server.

АИС МСЭ предназначена для автоматизации всего комплекса мероприятий, связанных с освидетельствованием инвалидов, и отвечает всем требованиям закона о социальной защите инвалидов в Российской Федерации, а также всем нормативным и инструктивным документам, касающихся вопросов медико-социальной экспертизы.

АИС МСЭ имеет 3 уровня формирования: уровень первичных бюро МСЭ, уровень региональных бюро МСЭ и уровень Федерального бюро МСЭ. Можно выделить 2 типа задач, решаемых системой МСЭ:

задачи, связанные с работой конкретных учреждений;

задачи, связанные с поддержкой принятия управленческих решений по вопросам инвалидности.

Таким образом, помимо собственно формирования базы оперативных данных система в значительной степени должна быть ориентирована на статистическую и аналитическую обработку больших информационных массивов данных о населении.

Основные требования, предъявляемые к системе МСЭ:

1. ориентация на обработку документов;

2. постоянное изменение и развитие информационной системы в процессе эксплуатации;

3. простой механизм обновления информационной системы;

4. простой механизм адаптации информационной системы к местным условиям;

5. простой и эффективный инструмент для поиска и аналитической обработки;

6. развитый механизм построения печатных форм;

7. обеспечение простого администрирования системы и простого интерфейса для конечных пользователей;

8. отсутствие практических ограничений по объму хранимой информации;

9. повышенные требования по наджности хранения и защите хранимой информации;

10. обеспечение масштабируемости системы;

11. обеспечение высокого быстродействия;

12. минимизация расходов на внедрение и эксплуатацию информационной системы.

Подобными характеристиками обладают предметные области медицинской и социальной сферы, которые изначально, по объективным причинам, являются «плохо обусловленной» или «недостаточно регламентированными в своей организации».

Все эти требования могут быть удовлетворены, если информационная система создатся с помощью инструментальной среды qWORD-XML. При этом выполнение части требований обеспечивается собственно инструментом qWORD-XML, выполнение другой части требований обеспечивается опорной M-системой, в качестве которой используется СУБД Cache.

АИС МСЭ включает следующие рабочие места, определяющие функциональные возможности системы: Администратор базы, Руководитель бюро МСЭ, Председатель состава бюро МСЭ, Регистратор, Врач-Эксперт, Психолог, Специалист по реабилитации, Специалист по социальной работе, Консультант.

Функциональные возможности АИС МСЭ позволяют пользователям выполнять следующие действия: регистрация пациента;

постановка в очередь на МСЭ;

оформление акта освидетельствования;

оформление индивидуальной программы реабилитации (ИПР);

оформление программы реабилитации пострадавшего (ПРП);

подведение итогов рабочего дня, разграничение прав доступа;

составление списков и отчетов, получение статистических данных;

настройка параметров информационной системы;

резервное копирование и восстановление;

передача данных для объединения в единую базу;

получение единой базы по региону;

ведение журнала изменений;

создание пользователей и управление ими;

настройка и передача справочных данных;

настройка выходных печатных форм;

проверка пользовательских и справочных данных;

проверка и контроль базы на системном уровне;

консультирование в различных организациях по рабочим вопросам.

Преимущества инструментальной среды проявляются на этапах проектирования и реализации базы данных и приложения, эксплуатации и сопровождения информационной системы:

логическое проектирование базы данных выполняется: на основе разработанной иерархической модели данных с горизонтальными связями, визуально в рамках экранной формы инструментальной среды;

реализованная модель данных более естественна для человека по сравнению с реляционной моделью;

при визуальном проектировании схемы базы данных автоматически формируется физическая схема базы данных, а также автоматически создатся простое приложение для манипулирования данными в этой структуре.

в рамках отображения объединяются инструменты для проектирования структуры базы, построения приложений, генерации отчтов, поиска и аналитической обработки данных и средства представления;

написание прикладных программ осуществляется на стороне сервере на одном языке программирования;

построенная в qWORD-XML информационная система является базой данных, клиентская часть инструментальной среды является единственным клиентским приложением ко всем разработанным в ней информационным системам;

имеется возможность модернизации и создания дополнительных компонент информационной системы «на лету»;

упрощаются процессы обновления и адаптации информационной системы к местным условиям.

Инструментальная среда qWORD-XML предоставляет преимущества для всех категорий пользователей информационной системы: разработчиков баз данных, прикладных программистов, конечных пользователей и администраторов.

В таблице 2 приводятся результаты сравнение производительности для информационной системы, реализованной изначально на СУБД SQL Server 2000 с помощью инструмента Visual FoxPro и созданной затем в разработанной инструментальной среде на базе СУБД Cache’ 5.2.3.

Табл. 2. Результаты тестов SQL Server qWORD-XML Поиск по иерархическим связям 15 сек 8 сек Поиск по горизонтальным связям 2 мин 09 сек 2 мин 28 сек Аналитическая обработка 29 сек 20 сек Обновление 42 сек 37 сек Удаление 37 сек 28 сек Вставка 39 сек 33 сек Как видно из сопоставления результатов наиболее предпочтительным является использование инструментальной среды qWORD-XML для автоматизации предметных областей, данные которых описываются древовидной структурой, к подобным областям относятся предметные области медицинской и социальной сферы.

ЗАКЛЮЧЕНИЕ В результате работы реализована программная среда qWORD-XML, основанная на предложенной интерпретации модели данных RM/T и объединяющая различные инструментальные средства в рамках единого универсального визуального инструмента.

Основные результаты работы:

1. В ходе исследований показана сложность реализации информационных систем на основе существующей и широко используемой на практике реляционной модели данных. Предложено выполнить прямую реализацию СУБД, основанную на расширенной модели данных, позволяющей более полно отобразить семантику данных предметной области и включающей как неформальные семантические понятия, так и формальную модель для их интерпретации.

2. В качестве основы разрабатываемой модели данных выбрана расширенная реляционная модель данных RM/T. Создана высокоуровневая интерпретация модели данных RM/T, в которой молекулярные типы описываются структурой упорядоченного логического дерева с горизонтальными связями с возможностью логической реструктуризации дерева, реляционная алгебра используется для низкоуровневого описания интерпретации модели RM/T, языки и стандарты платформы XML – для высокоуровневого описания.

3. На основе предложенного подхода разработана расширенная модель данных. Определены структурные компоненты модели данных, ограничения целостности модели данных, операции манипулирования данными.

Реализованы механизмы реструктуризации хранимого дерева без создания дополнительных структур хранения – ссылочные и виртуальные объекты. С помощью механизмов ссылочных и виртуальных объектов решены задачи: представления горизонтальных связей как логических иерархических, инвертирования иерархии.

Создан механизм интеграции физических деревьев в модель данных – объекты типа массив.

С введением объектов типа массив обеспечена возможность работы как с логическими деревьями, так и с физическими деревья единым образом в рамках структурного компонента модели данных – отображения. С помощью объектов типа массив решены задачи: отображения физических иерархических баз данных, представления результатов аналитической обработки данных.

4. В качестве среды реализации физического уровня выбрано использование М-системы, которая представляет собой средство для построения собственной СУБД.

Реализовано использование кластерных индексов в качестве основной структуры хранения данных, что обеспечивает чтение данных в последовательности иерархического обхода и извлечение поддеревьев. Для поиска данных реализованы обычные индексы.

Реализовано кодирование слов значений понятий суррогатными кодами, что обеспечивает устранение избыточности, свойственной иерархической организации данных, на уровне хранения.

5. Создан механизм унификации программирования информационной системы, согласно которому вс программирование информационной системы выполняется на стороне сервера.

Инструментальная среда при этом является единственным универсальным клиентским приложением ко всем построенным в ней информационным системам.

Реализован механизм унификации создания, хранения, обработки и представления данных для конечных пользователей, согласно которому вс взаимодействие пользователя с информационной системой осуществляется через экранные формы инструментального средства – отображения. Описание отображения создатся в результате визуального проектирования и автоматически сохраняется в базе данных. Построение информационной системы сводится к созданию отображений и определению действий по ситуациям.

Механизмы унификации легли в основу разработанной единой универсальной среды построения и использования информационных систем.

6. Выявлены основные характеристики автоматизируемой предметной области – службы медико-социальной экспертизы. Определены требования, предъявляемые к системе автоматизации предметной области медицинской и социальной сферы. Показано, что эти требования могут быть удовлетворены, если информационная система создатся с помощью инструментальной среды qWORD-XML. Разработаны рабочие места АИС МСЭ, определяющие функциональные возможности системы и позволяющие проводить автоматизацию службы МСЭ как полностью, так и поэтапно.

7. Выявлено, что преимущества инструментальной среды проявляются на этапах проектирования и реализации, эксплуатации и сопровождения информационной системы, и инструментальная среда предоставляет преимущества для всех категорий пользователей информационной системы.

8. Определено, что инструментальная среда наиболее подходит для автоматизации предметных областей, данные которых описываются древовидной структурой, к которым, в частности, относятся предметные области медицинской и социальной сферы. Рекомендовано использование qWORD-XML для автоматизации подобных областей.

Благодаря реализованной модели данных, унификации программирования информационной системы, унификации создания, хранения, обработки и представления данных, инструментальное средство qWORD-XML представляет собой удобную среду для быстрой и простой разработки, простого сопровождения и использования информационных систем.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

В рецензируемых журналах из перечня ВАК 1. Тимофеев Д.В. Расширение реляционной технологии для создания информационных систем на основе языков разметки. // Изв. вузов. Приборостроение. 2006. Т.49, № 11, с. 60-65.

В других изданиях 2. Тукабаев П.Т., Тимофеев Д.В. Использование XML-ориентированных хранилищ данных для построения автоматизированной информационной системы «Медико-социальная экспертиза и реабилитация инвалидов» в материалах международной научной конференции «Оптимальные методы решения научных и практических задач» – часть 2 – Таганрог: Изд. «Антон», ТРТУ, 2005, с. 64-71.

3. Долженков А.Н., Тимофеев Д.В. Семантический инструмент построения баз данных. – «Открытые системы», 2006, №01, с. 36-41.

4. Тимофеев Д.В. Использование платформы XML для описания расширенной реляционной модели данных RM/T. / В сб. науч. трудов Информационные технологии и системы (управление, экономика, транспорт) / Вып. 2 / Под ред. Истомина Е.П., Марлея В.Е., Скобелевой И.П. – СПб.:

ООО «Андреевский издательский дом», 2006. – с. 137-145.

5. Тимофеев Д.В. Реализация инструмента для построения информационных систем на основе расширенной реляционной модели. / В сб. науч. трудов 4-й Всероссийской научной конференции «Управление и информационные технологии (УИТ-2006)», с. 207-213.

6. Тимофеев Д.В. Реализация логической переструктуризации в интерпретации расширенной реляционной модели данных RM/T. / В сб. науч. трудов Информационные технологии и системы:

управление, экономика, транспорт, право / Вып. 1 (3) / Под ред. Истомина Е.П., Марлея В.Е., Скобелевой И.П., Соболь И.А. – СПб.: ООО «Андреевский издательский дом», 2007. – с. 80-89.

7. Тимофеев Д.В. Аналитическая обработка данных в интерпретации расширенной реляционной модели RM/T. / В сб. науч. трудов Информационные технологии и системы:

управление, экономика, транспорт, право / Вып. 1 (3) / Под ред. Истомина Е.П., Марлея В.Е., Скобелевой И.П., Соболь И.А. – СПб.: ООО «Андреевский издательский дом», 2007. – с. 72-80.

8. Тимофеев Д.В. Реализация физического уровня для интерпретации расширенной реляционной модели RM/T. / В сб. науч. трудов Информационные технологии и системы:

управление, экономика, транспорт, право / Вып. 2 (4) / Под ред. Истомина Е.П., Марлея В.Е., Скобелевой И.П., Соболь И.А. – СПб.: ООО «Андреевский издательский дом», 2007. – с. 75-84.

9. Тимофеев Д.В. Реализация внешнего уровня для интерпретации расширенной реляционной модели RM/T. / В сб. науч. трудов Информационные технологии и системы: управление, экономика, транспорт, право / Вып. 2 (4) / Под ред. Истомина Е.П., Марлея В.Е., Скобелевой И.П., Соболь И.А. – СПб.: ООО «Андреевский издательский дом», 2007. – с. 64-75.

10. Тимофеев Д.В. Использование свойств операций реляционной алгебры для оптимизации вычисления выражений. // Труды СПИИРАН / С.-Петербург. ин-т информатики и автоматизации РАН;

Под общ. ред. чл.-кор. Р.М. Юсупова. – Вып. 4. – СПб.: Наука, 2007. – с. 136-147.



 

Похожие работы:





 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.