авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Анализ загрузки телекоммуникационной сети интегрированной информационной системы статистическими данными для оценки и обеспечения качества информации

На правах рукописи

ЗАБЕЛИН ОЛЕГ АЛЕКСЕЕВИЧ

АНАЛИЗ ЗАГРУЗКИ ТЕЛЕКОММУНИКАЦИОННОЙ СЕТИ

ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ

СТАТИСТИЧЕСКИМИ ДАННЫМИ ДЛЯ ОЦЕНКИ И

ОБЕСПЕЧЕНИЯ КАЧЕСТВА ИНФОРМАЦИИ

Специальность: 05.13.13 – Телекоммуникационные системы и

компьютерные сети

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Москва – 2008

Работа выполнена в Московском государственном институте электроники и математики

Научный руководитель: доктор технических наук, профессор Саксонов Евгений Александрович

Официальные оппоненты:

доктор технических наук, профессор кандидат технических наук

Ведущая организация:

Защита диссертации состоится " " 2008г. в 14.00 часов на заседании диссертационного совета Д 212.133.03 при Московском государственном институте электроники и математики (МИЭМ): 109028, Москва, Б. Трехсвятительский пер., дом 3/12.

С диссертацией можно ознакомиться в библиотеке МИЭМ.

Автореферат разослан " " октября 2008г.

Ученый секретарь диссертационного совета кандидат технических наук, доцент Леохин Ю.Л.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

На сегодняшний день большое количество предприятий и организаций различных форм собственности имеют свои локальные информационные системы, где хранится необходимая для обеспечения их деятельности информация. Объединение предприятий и расширение круга решаемых задач обуславливают необходимость интеграции локальных данных в единое информационное пространство. При этом резко возрастают объемы хранимой и обрабатываемой информации. Информационные системы становятся все более крупномасштабными как по объемам обрабатываемых данных, так и по функциональному назначению решаемых задач.

В этих условиях особое внимание должно уделяться обеспечению качества данных, поскольку оно определяет эффективность применения информационной системы, обоснованность и правомерность принимаемых решений. От качества используемой в информационных системах информации часто зависит принципиальная возможность ее использования при принятии управленческих решений. Поэтому наряду с качественным и количественным ростом информационных систем, значимость проблемы обеспечения качества данных будет постоянно возрастать.

Однако, если вопросы оценки и обеспечения качества данных на теоретическом уровне достаточно хорошо исследованы в работах по теории вероятностей и математической статистике, то реализация алгоритмов и моделей для оценки и обеспечения качества данных в реальных условиях требует проведения дополнительных исследований. Это обусловлено тем, что когда в информационных системах хранятся и обрабатываются очень большие объемы данных (105 - 109) записей, работы по оценке и обеспечению качества данных становятся весьма трудоемкими, сильно загружая телекоммуникационные и вычислительные средства информационной системы дополнительными потоками данных и программным обеспечением.

Для проведения таких работ, в рамках существующей информационной системы, целесообразно создавать специализированные подсистемы, использующие уже имеющиеся телекоммуникационные и серверные ресурсы.

При этом необходимо оценивать дополнительную нагрузку, вносимую данной подсистемой, чтобы исключить перегрузки и снижение качества обслуживания основных задач.

В связи с этим тематика диссертационной работы, направленная на решение задач, связанных с оценкой нагрузки на телекоммуникационные и вычислительные средства информационной системы при решении задач оценки и обеспечения качества данных, актуальна как на сегодняшний день, так и на достаточно удаленную перспективу.

Целью работы является разработка структуры подсистемы обеспечения качества данных в распределенной информационной системе и создание математических моделей для количественной оценки нагрузки на телекоммуникационную сеть и серверное оборудование информационной системы при решении задач обеспечения полноты и актуальности данных.

Для достижения поставленной цели в работе сформулированы и решены следующие задачи:

• проведен анализ параметров качества данных и методов их оценки и поддержания на заданном уровне;

• разработаны алгоритмы обеспечения полноты и актуальности данных в интегрированной информационной системе;

• разработаны математические модели для расчета показателей полноты и актуальности данных;

• разработана структура подсистемы обеспечения качества данных;

• разработаны математические модели для вычисления необходимых объемов данных для обеспечения заданных значений показателей полноты и актуальности данных и расчета нагрузки на каналы связи и серверы обработки данных подсистемы обеспечения качества данных.

На защиту выносятся:

• алгоритмы обеспечения полноты и актуальности данных в распределенных интегрированных информационных системах;

• комплекс математических моделей для расчета характеристик полноты и актуальности данных;

• комплекс математических моделей для расчета нагрузки на каналы связи и серверы при решении задач обеспечения полноты и актуальности данных для заданной структуры подсистемы обеспечения качества данных.

Научная новизна полученных результатов заключается в разработке математических моделей для комплексной оценки полноты и актуальности данных, ориентированных на конкретные алгоритмы интеграции и поддержания качества и методов оценки нагрузки на телекоммуникационную сеть информационной системы. Модели позволяют определять требуемые объемы выборок для обеспечения заданного качества данных.



Практическая ценность результатов диссертации состоит в создании методов расчета показателей полноты и актуальности данных, позволяющих определять необходимые объемы выборок для достижения заданных значений показателей и связанную с этим нагрузку на каналы связи и серверы информационной системы, что дает возможность обоснованно выдвигать требования к качеству каналов связи и параметрам серверов для обслуживания подсистемы обеспечения качества данных.

Достоверность и обоснованность результатов диссертации обеспечиваются соответствием разработанных алгоритмов и математических моделей известным теоретическим результатам и практическому опыту по оценке и обеспечению качества данных в информационных системах, применением при разработке моделей современных методов математической статистики и подтверждаются положительными данными об их применении в реальной информационной системе.

Методы исследований. При решении поставленных в диссертации задач применялись методы теории систем, теории вероятностей и математической статистики, теории множеств, математического программирования, а также использовались данные о современных методах создания распределенных интегрированных информационных систем, распределенных баз данных, телекоммуникационных систем.

Реализация и внедрение результатов исследований. Результаты проведенных исследований применялись при исследовании качества данных в системе учета иностранных граждан, а также использовались в учебном процессе в Московском государственном институте электроники и математики и Московской финансово-юридической академии.

Апробация работы: Результаты работы докладывались на научно технических конференциях, обсуждались на семинарах в Московской финансово-юридической академии и Московском государственном институте электроники и матматики.

Публикации. Результаты диссертационной работы отражены в опубликованных печатных работах.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, списка литературы и приложения. Объем диссертации 130 страниц.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертационной работы и проводимых исследований, описываются новизна, практическая значимость и реализация результатов работы.

В первой главе приведены результаты анализа современных информационных систем, определены основные факторы, влияющие на качество работы ИС.

Показано, что к числу наиболее значимых особенностей современных информационных систем можно отнести: интеграцию данных из различных по составу, структуре, методам управления и принадлежности локальных информационных систем (подсистем);

большие объемы используемых данных для обработки запросов и обеспечения работы прикладных программ;

наличие разнородных данных об одних и тех же объектах в различных подсистемах;

обслуживание большого числа разнородных пользователей, запросы которых требуют привлечения данных из различных подсистем;

работу с динамичными данными, состав которых, количество и содержание меняются со временем;





территориальную распределенность средств хранения и обработки информации.

Базовыми компонентами современной ИС являются:

телекоммуникационная (сетевая) подсистема, предназначенная для передачи разнообразной информации;

вычислительная сеть, построенная на основе телекоммуникационной системы;

программное обеспечение, обеспечивающее решение прикладных задач в среде вычислительной сети;

система данных, собираемых, хранимых, передаваемых и обрабатываемых тремя первыми компонентами информационной системы.

Организация работы и взаимодействия этих компонент в основном определяет качество работы всей информационной системы.

К настоящему времени разработчиками ИС создано и освоено множество разнообразных стандартов, технологических, аппаратных и программных решений по созданию и взаимодействию перечисленных компонент, которые в совокупности составляют значительную часть современных информационных технологий. Техническая и программная компоненты архитектуры ИС достаточно хорошо отработаны на практике и поддерживаются большим количеством производителей, предлагающих соответствующие продукты с необходимой адаптацией (настройкой).

Сложнее дело обстоит с компонентой, представляющей систему данных, включающую все данные, необходимые для решения прикладных задач ИС, обработки запросов пользователей, а также вспомогательную информацию для интеграции, поиска требуемых данных, обеспечения качества данных и управления данными.

По результатам анализа современных информационных систем, можно сделать вывод, что одним из определяющих факторов для обеспечения эффективной, а в принципе просто правильной, работы интегрированной распределенной информационной системы является качество данных.

Под качеством данных здесь, понимаем совокупность специальных характеристик (показателей), отражающих пригодность данных для использования в информационной системе.

Обеспечение качества данных предусматривает проведение с данными, поступающими в систему и уже находящимися в системе, работ по проверке их соответствия требованиям системы (требования прикладного ПО, требования со стороны пользователей), поддержанию актуальности и полноты.

Очевидно, что качество данных должно закладываться как при формировании локальных подсистем, так и при создании интегрированной системы и поддерживаться при ее эксплуатации.

Таким образом, проблема обеспечения качества данных состоит из двух частей: обеспечение качества поступающей в систему информации в виде конкретных данных, описывающих объекты, относящиеся к той предметной области, в которой работает информационная система;

поддержание качества данных (информации) в процессе эксплуатации информационной системы.

Проведен анализ современных методов определения и оценки качества базы данных.

Определены задачи, которые необходимо решить при построении и эксплуатации информационной системы для обеспечения требуемого качества данных, а также средства информационной системы, необходимые для обеспечения качества данных.

Среди задач выделены наиболее важные:

• определение обоснованных требований к качеству данных;

• оценка текущего состояния (уровня) качества данных в системе в целом и отдельных подсистемах;

• разработка методов и средств поддержания качества данных на заданном уровне;

• создание специализированной подсистемы для оценки и поддержания качества данных.

Здесь следует отметить, что все перечисленные задачи тесно связаны с прикладными задачами, решаемыми с применением информационной системы, поскольку показатели качества данных, например, могут зависеть от требований, предъявляемых к качеству решения прикладных задач.

Алгоритмы оценки и обеспечения качества данных существенно зависят от объемов данных и требований к качеству данных и могут быть очень трудоемкими и дорогостоящими, значительно загружать телекоммуникационную среду и вычислительную сеть информационной системы.

В связи с этим целесообразно выделить в отдельную подсистему аппаратно-программные средства оценки и поддержания качества данных информационной системы. Распределенная подсистема обеспечения и поддержки качества данных в интегрированных информационных системах предназначена для реализации алгоритмов и процедур, обеспечивающих оценку качества данных, сбор и обработку информации для поддержки качества данных.

В соответствии с этим определением в состав подсистемы входит аналитический центр, средства сбора и передачи данных. Перечисленные компоненты системы могут использовать уже имеющиеся в информационной системе технические средства обработки и передачи данных (серверы, телекоммуникационные системы, компьютерные сети).

Основные задачи

, которые решает подсистема: проведение расчетов по оценке качества данных;

вычисление параметров процедур для поддержки качества данных в требуемом состоянии;

сбор, передача и обработка необходимой информации для обеспечения качества данных;

модификация хранимой в системе (базах данных) информации, для обеспечения качества (ввод новых данных, удаление негодных данных).

Как правило, все действия по оценке и обеспечению полноты и достоверности данных в информационной системе, приводят к обмену данными между различными компонентами системы (базы данных, средства ввода данных) при этом объемы передаваемых данных могут быть весьма значительными и вызывать перегрузку каналов связи и серверов.

Для передачи данных в подсистеме используются каналы связи телекоммуникационной сети информационной системы, а для обработки информации - серверы, количество которых зависит от объема обрабатываемых данных и требований к временным характеристикам процедур поддержания качества. Серверы могут быть установлены как программные компоненты на аппаратных серверах информационной системы.

Таким образом, физическая структура подсистемы оценки и обеспечения качества данных информационной системы встраивается в структуру вычислительной сети информационной системы. Поэтому необходимо оценить объемы работ по оценке и обеспечению качества данных и, в соответствии с этими объемами, строить телекоммуникационную систему интегрированной информационной системы.

Во второй главе приводятся результаты анализа задач оценки и обеспечения качества данных по заданным показателям – полноте и актуальности.

Показано, что администрирование данных имеет свою специфику, которая определяется решаемыми службой администрирования данных задачами.

Проведен анализ этих задач и выделены те, которые обеспечивают оценку и поддержание качества данных в интегррованной информационной системе.

Определены конкретные характеристики качества данных. Отмечено, что данные в информационной системе собираются, как правило, об объектах, которые представляют интерес для пользователей системы. Данные должны давать возможность пользователю (и приложению) получать необходимые сведения об объекте, характеризовать объект, по возможности однозначно определять объект. При этом данные должны давать сведения и о совокупности объектов (как однотипных, так и разнотипных). С этих позиций будем определять характеристики качества данных.

К наиболее значимым характеристикам качества данных и количественным показателям для их измерения, можно отнести следующие:

физическая полнота - отношение имеющегося числа записей об объектах • - N db к потенциально возможному числу объектов - N. Мера полноты q f = N db / N.

актуальность - относительное число актуальных на данный момент • времени данных об объектах - ma к общему числу накопленных и обрабатываемых данных - N db. Мера актуальности - q a = m a / N db.

Эти характеристики выделены для дальнейших исследований поскольку они представляют наибольший практический интерес потому, что • именно полнота и актуальность оказывают наибольшее влияние на возможность обработки запросов, качество получаемых результатов и принимаемых на их основе решений. Кроме того их обеспечение на должном уровне требует значительных ресурсов и усилий.

Введено понятие затрат, связанных с качеством данных. Эти затраты связаны либо с невозможностью исполнения запроса из-за отсутствия требуемых данных по объекту полнота данных (физическая неудовлетворительна), либо с невозможностью получения качественного результата исполнения запроса из-за низкой актуальности данных. Для количественной оценки качества данных в информационной системе введен комплексный показатель качества, учитывающий полноту и актуальность данных: L ( q f, q a ) = c 1 (1 q f ) + c 2 (1 q a ), где c1, c2 - весовые коэффициенты, определяющие значимость характеристик качества и связанные равенством - c1 + c 2 = 1.

Определены задачи, которые необходимо решить для оценки полноты и актуальности данных в информационной системе.

Первой целью исследований является разработка методов количественной оценки качества данных (полноты и актуальности) получаемых при применении заданных алгоритмов интеграции и актуализации, оценки затрат на обеспечение актуальности и полноты данных и затрат, связанных с использованием некачественных данных при обработке запросов и принятии решений. Алгоритмы оценки и обеспечения качества данных требуют передачи и обработки значительных объемов дополнительной информации, поэтому второй целью работы является определение загрузки телекоммуникационной системы и компьютерной сети при обеспечении заданных параметров оценки и обеспечения актуальности и полноты данных.

Исследован метод создания базы данных интегрированной информационной системы (интегрированной базы данных), основанный на поэтапном объединении существующих баз. Считается, что эти базы данных были созданы ранее и принадлежат различным локальным информационным системам. Анализ данных для оценки полноты интегрированной базы в этом случае эквивалентен выборочному методу: каждую последующую базу можно рассматривать как случайную выборку из генеральной совокупности. Здесь необходимо отметить, что интеграция не подразумевает непосредственно физического объединения данных, а может проводиться с использованием специального программного обеспечения, позволяющего создавать виртуальную интегрированную базу данных, когда все локальные БД для пользователя представляются как единая база данных. Соответственно и обрабатываются запросы пользователей. Поскольку в нашем случае интеграция проводится в несколько этапов, то возникает задача получения оценки полноты создаваемой интегрированной базы данных интегрированной системы - q f на каждом из этапов (шагов). Кроме того, из-за неполноты интегрированной БД возможен отказ в обработке запросов по объектам, которые не зарегистрированы в интегрированной БД, но реально существуют.

В этом случае необходимо иметь возможность решать задачу оценки возможного ущерба, связанного с принятием решений на основе неполных данных.

Отметим, что оценка полноты может вычисляться не только при интеграции ЛБД, но и при добавлении в БД ИС просто порции данных из генеральной совокупности, которые получены, например, по результатам выборочной проверки генеральной совокупности. Если в этом случае выборку рассматривать как некоторую виртуальную ЛБД, то предложенный алгоритм сохраняется и методы его анализа также применимы для этого случая.

Реальные значения хранимых в информационных системах данных, как отмечалось выше, могут изменяться со временем, что вызвано изменением свойств объектов, о которых собираются данные. В связи с этим, в системах, где хранятся динамичные по времени данные, необходимо проводить процедуры актуализации данных. Актуализация в данном случае предусматривает уточнение (обновление) значений хранимых данных, путем сравнения с реальными на этот момент времени данными.

При этом возникают две задачи связанные с актуальностью данных:

оценка актуальности данных и поддержание (обеспечение) актуальности данных.

В случае очень больших по объему баз данных, целесообразно применять для проверки корректировки информации выборочный метод исследования данных.

Таким образом, возникает еще одна задача: определение объема выборки, для проверки и исправления ошибок в конкретной базе данных. в зависимости от требований к актуальности данных и объема базы данных.

Определены затраты на эксплуатацию (администрирование) системы при актуализации базы данных - S (q f, q f ) = Z (q f, q f ) + H (q f, q f ), где Z (q f, qa ) затраты на выборочное проверку и исправление устаревших данных (актуализацию);

H (q f, qa ) - затраты (штрафы), связанные с использованием неактуальных данных при обработке информации. Величина штрафа пропорциональна числу неактуальных записей в запросе к базе данных. При этом запросом будем считать «случайную» выборку данных (записей) определенного объема из базы данных для работы.

Естественно решать также задачу определения и оптимизации общих затрат на поддержание полноты и актуальности данных в интегрированной системе.

В третьей главе приводятся результаты разработки математических моделей для расчета количественных значений характеристик качества данных в распределенной информационной системе и определения загрузки телекоммуникационной системы и серверов при решении задач по оценке и поддержанию качества данных на заданном уровне.

Разработаны математические модели для оценки полноты данных в интегрированной информационной системе. Модели соответствуют предложенному итерационному процессу (алгоритму) поэтапной интеграции данных.

Рассмотрим процесс создания базы данных интегрированной системы путем слияния локальных баз данных, с математической точки зрения. Пусть N - объем генеральной совокупности (объем предметной области);

является неизвестным параметром;

N db ( i ) - объем создаваемой БД на i-м этапе (шаге);

M (i + 1) - объем БД, добавляемой на (i+1)-м этапе (шаге) (объем (i+1)-й выборки);

k (i + 1) - количество данных (записей) в добавляемой БД на (i+1)-м шаге, которые уже присутствуют в создаваемой БД (рисунок 3.1.1), k (i + 1) = 0, min(N (i ), M (i + 1)). Задача состоит в том, чтобы, зная параметр k (i + 1), который получается эмпирически, а также параметры N db (i ), M (i + 1), оценить параметр N для i-го шага создания БД интегрированной системы.

Поскольку больший интерес представляет не объем генеральной совокупности, а то, насколько полна создаваемая БД, то на каждом этапе проводится оценка полноты - q f (i ) как отношения имеющихся в БД записей ( N db (i ) ) к ~ потенциально возможному - ( N (i ) ): q (i ) = N (i ) / N (i ). Случайная величина ~ ~ ~ f db имеет гипергеометрическое i 1, k (i + 1) = 0, min[M (i + 1), N db (i )], распределение. Для оценивания используется метод максимального ( N (i) + 1) (M (i + 1) + 1) N (i) = db 1.

правдоподобия. Оценка имеет вид:

~ k (i + 1) + Показано, что при N db (i) + M (i + 1) N оценка является несмещенной.

Соответственно, ожидаемая плата за невозможность исполнения запроса из-за отсутствия требуемых данных будет c1 (1 q f (i )), где c1 - стоимостной ~ коэффициент.

Получены математические модели для принятой процедуры актуализации данных. Определена эффективность процедуры актуализации, связанная с обеспечиваемым этой процедурой качеством данных.

Параметрами актуализации являются: T - период актуализации (проверки и корректировки данных);

D - объем выборки для актуализации;

t 0 a - момент начала первой актуализации (может быть произвольным моментом времени);

b1 - плата за проверку одной записи;

b2 - плата за корректировку одной неактуальной записи;

- интенсивность потока изменений в данных об объектах.

Для каждой актуализации рассчитывается величина затрат, пропорциональная объему выборки D и числу плохих записей в выборке.

Считаем, что длительность актуализации имеет экспоненциальное распределение со средним T, т.е. каждая актуализация происходит, в среднем, через T единиц времени. Среднее время до начала проведения j-й актуализации: t a [ j ] = t 0 a + ( j 1)T, где t a [1] = t 0 a – момент начала 1-ой актуализации.

Поведение системы при проведении актуализаций будем рассматривать tt t 0 a до момента tt. За это время будет произведено в среднем J = + T актуализаций.

Можно вычислить вероятность получить D0 (t a [ j ]) неактуальных записей в j-й выборке, используя гипергеометрическое распределение, (выборка без Cm(t(t[ [j ])] CN m((tt [[ jj]]) D j DD 0 a 0 a возвращения): где p(D0 (ta [ j]) = a db a m(t a [ j ]), D CNdb ожидаемое число неактуальных записей в БД в момент j-й выборки:

m (t a [ j ]) = m (t a [ j 1]) D0 (t a [ j 1]) + T Получена рекуррентная формула для расчета среднего числа неактуальных записей в моменты актуализаций: m(t a [ j + 1]) = m(t a [ j ])(1 ) + T.

D N db Используя ее можно рассчитать среднее число неактуальных записей в моменты актуализаций, зная только момент начала первой актуализации:

TNdb D j TNdb m(ta[ j +1]) = t0a (1 ) +.Получена оценка актуальности D Ndb D данных на момент актуализации:

(j+1) t0a (1 ) + T ( j Dj Dk ) qa (ta [ j +1]) = Ndb Ndb k = ~.

Ndb При этом среднее число неактуальных записей D0 (t a [ j ]) в выборке при D D j TNdb TNdb j-й актуализации: D0 (ta [ j]) = t0a (1 )+ Ndb D D.

Ndb Ожидаемая плата за проведение j-й актуализации (в момент VrA[ j ] ) может быть вычислена по формуле:

D D j TNdb TNdb Z (q f, qa, t a [ j]) = b1 D + b2 t 0a (1 )+.

N db D D Ndb Получены формулы для оценки величины возможных штрафов, которые образуются при использовании неактуальных данных при обработке запросов, и, соответственно, выбора оптимальных параметров актуализации. Так, число неактуальных записей в момент i-го запроса:

TNdb D j TNdb tz[i] t0a m(t z [i]) = t0a (1 N ) + D + [t z [i] ta [ j]], где j = T +1.

D db Актуальность на момент i-го запроса:

TNdb TNdb + [t z [i]ta[ j]] t0a (1 ) j + D D qa (t z [i]) = Ndb D ~.

Ndb Суммарные затраты, связанные с актуализацией, состоят из штрафа и платы за актуализации можно подсчитать по формуле:

S (q f, q a, t z [i ]) = Z (q f, q a, t z [i ]) + H (q f, q a, t z [i ]), i = 1, I.

Разработано программное обеспечение для расчета оптиалных значений параметров T и D, при которых затраты не превосходили бы некоторого предельного значения С как можно больше времени.

Как отмечалось, проведение операций по оценке и обеспечению качества данных приводит к дополнительной нагрузке на телекоммуникационную сеть и серверы, входящие в состав подсистемы обеспечения качества данных.

Получены результаты для расчета дополнительной нагрузки на каналы связи и серверы, связанной непосредственно с решением задач оценки и обеспечения качества данных. Расчеты позволяют оценить возможные перегрузки системы и задержки в обработке и передаче данных. При построении моделей считалось, что возможно использование каналов связи и серверов, уже задействованных в информационной системе для решения основных задач, поэтому нагрузка, связанная с решением задач по оценке и обеспечению качества данных – дополнительная.

Пусть имеется обслуживающее устройство (канал связи, сервер), на вход которого поступает основной поток сообщений (основная нагрузка на ОУ) заданной интенсивности 0. Для этого случая можно, в зависимости от типа СМО, вычислить среднее время ожидания сообщением в очереди, среднюю длину очереди, загрузку обслуживающего устройства. Пусть теперь на вход этого же устройства поступает дополнительный поток сообщений (дополнительная нагрузка) интенсивностью 0 - дополнительная нагрузка. В этом случае изменятся и характеристики системы, величину этих изменения и требуется оценить. Очевидно, что должно выполняться неравенство:

(0 + )b1 1, здесь b1 - среднее время обслуживания одного сообщения.

Так, если в качестве модели используется СМО типа M/G/1/, то получим следующие результаты:

- для среднего времени ожидания в очереди, величина разности между временем ожидания при основной нагрузке и временем ожидания с 0 b2 (0 + )b дополнительной нагрузкой равна: W1 = 2(1 0 b1 ) 2(1 (0 + )b1 ) ;

- для загрузки обслуживающего устройства величина разности между загрузкой при основной нагрузке и загрузкой с дополнительной нагрузкой вычисляется по формуле: = (0 ) (0 + ) = ( ).

Полученные формулы можно применять для вычисления разности между характеристиками системы для режима работы только с основными данными и для режима работы с основными и дополнительными данными. Эти разности определяют величину дополнительной нагрузки на систему.

Проведена оценка интенсивности и объемов возникающих дополнительных потоков данных. При этом будем оценивать объемы передаваемых данных без указания конкретных точек источников и приемников. Будем считать, что приложение установлено на одном из серверов, где хранятся интегрируемые данные, и при этом передается наименьший из массивов данных. Следовательно, на каждом шаге интеграции требуется передавать массив объемом Ri инт = min{N db (i), M (i + 1)}. Это и будет минимальное число записей, которое необходимо предавать по каналам связи. Если обозначить через Ti инт интервал времени между процедурами интеграции i и (i+1), то интенсивность потока дополнительных данных:

i инт = v r Ri инт / Ti инт, где v r - объем записи в байтах.

Если проводится только оценка полноты путем выборочной проверки (фильтрации) статистических данных, собранных из генеральной совокупности, то для расчета интенсивности потока дополнительных даных можно использовать формулу: i полн = v r M полн / Tполн, где M полн - объем записей в выборке, Tполн интервал времени сбора и передачи статистики.

Нагрузка при проведении актуализации возникает в связи с тем, что необходимо извлекать из из БД выборку для проверки и передавать в БД результаты проверки выборочных данных. При этом объем выборки остается неизменным независимо от того, извлекается она из центральной БД, полученной при интеграции, либо и локальных БД, если при интеграции центральная БД не создавалась (создавалась виртуальная центральная БД).

Определена интенсивность потока данных, передаваемых при проведении актуализации. Как отмечалось количество записей в выборке равно D, а длительности интервалов между актуализациями имеют экспоненциальное распределение с параметром 1/ T. При этом интенсивность потока данных, передаваемых по каналам связи равна D / T записей в единицу времени. Если объем записи равен vr байт, то интенсивность потока данных, связанных с актуализацией, равна vr D / T байт в единицу времени. Это есть интенсивность дополнительного потока данных в телекоммуникационной сети информационной системы, т.е. = v r D / T. Теперь для проведения расчетов по вычислению разности между различными режимами работы каналов связи и серверов можно воспользоваться полученными формулами.

При проведении процедур актуализации и интеграции одновременно, интенсивности потоков соответствующих данных складываются.

Полученные результаты дают возможность администратору планировать работы по поддержанию полноты и актуальности данных.

В четвертой главе приводятся результаты анализа качества данных в специализированной интегрированной информационной системе.

ОБЩИЕ ВЫВОДЫ По результатам проведенных исследований и разработок можно сделать следующие заключения и выводы.

1. Проведен анализ современных интегрированных систем, который показал, что одну из решающих ролей в работе системы играет качество данных. Поэтому, при возрастании объемов используемых данных, усилия по обеспечению их качества должны постоянно возрастать.

2. Проведен анализ показателей качества данных используемых в информационных системах, позволивший выделить для исследований два основных показателя: полноту и актуальность данных. Приведены количественные показатели полноты и актуальности, предложены формулы для оценки комплексных затрат, связанных с обеспечением полноты и актуальности данных.

3. Разработаны алгоритмы оценки и обеспечения полноты и актуальности данных при формировании и эксплуатации интегрированной информационной системы. Для данных алгоритмов разработаны математические модели, позволяющие вычислять значения показателей полноты и актуальности, определять параметры алгоритмов для обеспечения заданных значений полноты и актуальности и затрат на их обеспечение.

4. Разработана обобщенная структура распределенной подсистемы обеспечения полноты и актуальности данных. Показано, что система встраивается в ресурсы информационной системы и поэтому создает дополнительную нагрузку на них, что может привести к перегрузке каналов связи и серверов. Поэтому необходимо оценивать дополнительную нагрузку и связанные с ней издержки в работе интегрированной системы.

5. Разработаны математические модели для расчета дополнительной нагрузки на телекоммуникационную систему и северы при решении задач обеспечения полноты и актуальности. Модели позволяют оценить интенсивности потоков дополнительных данных и вызванные этим задержки при передаче основных данных и в работе основных приложений.

6. Разработанные алгоритмы и модели применялись при оценке актуальности АИС Учета иностранных граждан, где позволили определить качество информации, содержащейся в системе.

Результаты диссертационной работы могут быть полезны разработчикам и администраторам интегрированных информационных систем различного назначения.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ 1. Забелин О.А. Оценка полноты интегрированной базы данных при неизвестном количестве учитываемых объектов // Компьютерные учебные программы и инновации. М.: 10, 2007 с. 194-198.

2. Забелин О.А. Актуализация данных в интегрированных информационных системах // Сборник научных статей преподавателей, аспирантов, студентов и молодых ученых. Материалы VI Всероссийской межвузовской научно практической конференции «Актуальные социально-экономические проблемы развития России». Часть 2, М.: МФЮА, 2007. с. 371-372.

3. Забелин О.А. Проблемы оценки и обеспечения полноты и актуальности данных в интегрированных распределенных информационных системах // Сегодня и завтра Российской экономики. Научно аналитический сборник. М.:

16, 2008. с.19-22.

4. Бодров А.А. Забелин О.А. Модели работы многосерверного центра обработки запросов. Известия Тульского государственного университета, Вып. 14, Изд-во ТулГУ, Тула, 2006. с. 46-51.

5. Забелин О.А. Подсистема оценки и обеспечения качества данных в распределенной информационной системе. Препринт. М.: МФЮА, 2008. - 18 с.

6. Забелин О.А. Саксонов Е.А. Математические модели для оценки и поддержания качества данных в интегрированной информационной системе.

М.: МФЮА, 2007. - 40 с.

7. Забелин О.А., Саксонов Е.А. Подсистема оценки и обеспечения качества данных интегрированной информационной системы. // Качество.

Инновации. Образование. М.: №8, 2008. с. 56-59.



 

Похожие работы:





 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.