Технологии, модели и алгоритмы поиска в архивах медицинских данных с использованием контекстно-временной онтологии
На правах рукописи
НЕСТЕРОВА Ольга Андреевна ТЕХНОЛОГИИ, МОДЕЛИ И АЛГОРИТМЫ ПОИСКА В АРХИВАХ МЕДИЦИНСКИХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ КОНТЕКСТНО-ВРЕМЕННОЙ ОНТОЛОГИИ 05.13.18 – Математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Тюмень – 2011
Работа выполнена на кафедре информационной безопасности Института математики и компьютерных наук ГОУ ВПО Тюменский государственный университет
Научный консультант: доктор технических наук, профессор Захаров Александр Анатольевич
Официальные оппоненты: доктор технических наук, профессор Глазунов Виктор Аркадьевич доктор технических наук, профессор Ивашко Александр Григорьевич
Ведущая организация: Томский государственный университет систем управления и радиоэлектроники (ТУСУР)
Защита диссертации состоится «11» марта 2011 г. в 16-00 часов на заседании диссертационного совета Д 212.274.14 при Тюменском государственном университете по адресу, 625003, г. Тюмень, ул. Перекопская, 15а, ауд. 410.
С диссертацией можно ознакомиться в библиотеке Тюменского государственного университета.
Автореферат разослан «10» февраля 2011 г.
Ученый секретарь диссертационного совета Н.Н. Бутакова
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Повышение качества и доступности медицин ской помощи – один из приоритетов государственной социальной политики.
Подтверждением этого является принятая концепция развития системы здраво охранения в Российской Федерации до 2020 года. Одним из основных направ лений решения проблемы информатизации медико-биологических исследова ний (МБИ) является предоставление информации различным специалистам из тематических электронных архивов историй болезни. Вопросам применения информационных ресурсов в МБИ посвящены работы: Г.И. Назаренко, Г.С. Осипова, А.И. Молодченкова, А.С. Клещева, Ф.М. Москаленко, М.Ю. Черняховской, О.Ю. Ребровой, В.М. Тавровского, В.А. Лищук, С.Е. Бащинского, В.П. Казначеева, P.M. Баевского, А.П. Берсеневой, В.Н. Евдокименкова, У. Кокрена.
Процессу проведения МБИ присущи задачи сбора, обработки информа ции и интерпретации результатов. Критический анализ медицинских информа ционных систем (МИС) – источников информационных ресурсов – выявил ряд проблем информатизации МБИ.
1. Необходимость использования неформализованных данных (неструк турированные текстовые массивы, изображения), для которых применение обычных запросов с использованием предикатной логики является затрудни тельным, усложняет процесс поиска нужной информации.
2. Широко используемые технологии поиска данных в тексте по точно му совпадению слов не подходят для задач кодификации (распознавания) эле ментов системы (объектов, фактов, событий) в неструктурированных текстовых массивах.
3. Большинство разрабатываемых МИС выполняют только функции учета (хранения) данных, которые имеют заранее определенную структуру. К таким данным невозможно применить произвольный запрос в любой момент времени. Необходимы затраты на сопровождение разработчиками.
4. Решение вопроса интеграции разрозненных данных (территориально, различные разработчики МИС) не только требует финансовых затрат, но и сталкивается с проблемой интеграции семантических данных.
5. Необходимость оперативного доступа к информации, ее интеграция требует особого внимания к обеспечению безопасности с учетом закона о пер сональных данных.
В рамках одного исследования невозможно решить все сформулирован ные выше проблемы, поэтому нами определена, на наш взгляд, ключевая про блематика в организации научно-исследовательской деятельности врача по сбору и анализу данных: оптимизация механизмов поиска и кодификации эле ментов учетной МИС, содержащихся в неструктурированных текстах медицин ских электронных записей.
Теоретическое обоснование методов поиска и анализа текстов рассмотрено в работах Г. Сэлтона, Т. Джойса, Р. Нидхема, К. Маннинга, П. Рагхавана, Г. Шютце. Методы поиска на основе семантической сети находятся еще только в стадии развития. Делаются попытки использования семантических сетей для поиска в сети Internet. Разработке семантических моделей информационного поиска посвящены работы С. Дамайса, Г. Фурнаса, С. Дирвестера, К. Маннинга, Т. Груббера, Е.А. Рабчевского, Н.В. Лукашевича, Б.В. Доброва, Р.В. Шарапова, В.А. Глазунова, Р.Д. Аветисяна.
А. Гладун, Ю. Рогушина, П.С. Шеменков в своих работах отмечают, что в задачах семантического поиска в текстах важным является критерий, представ ляющий собой оценку информационной потребности пользователя.
Решение задачи связано с проблемой разработки технологии анализа тек стовой медицинской информации, которая учитывала бы специфику электрон ной медицинской информации: разнородность, удаленность, многозначность, неточные формулировки, субъективность, хронологическую последователь ность и неформализованное представление в виде неструктурированного тек стового массива.
Объект исследования: модели, алгоритмы и технологии информацион ного поиска в неструктурированных текстах медицинских электронных записей для поддержки медико-биологических исследований.
Предмет исследования: условия и средства организации семантического (смыслового) распознавания различных сведений, данных о соответствующих предметах, явлениях, процессах, отношениях (элементов МИС) в неструктури рованных текстовых массивах медицинских электронных записей.
Целью диссертационной работы является совершенствование меха низмов информационного поиска медицинских данных для поддержки МБИ посредством обеспечения максимально возможной полноты обзора текстовых информационных ресурсов и точности нахождения информации.
Для достижения поставленной цели в работе решаются следую щие задачи:
1. Разработка технологии интерпретации смысла текста документов и за просов для представления элементов МИС в неструктурированных текстовых массивах медицинских электронных записей.
2. Разработка метода расчета соответствия образа документа запросу.
3. Разработка алгоритма поиска и сбора данных.
4. Построение модели семантико-энтропийного поиска для организации сбора данных для информационной поддержки медицинских науч ных исследований.
5. Разработка критерия эффективности поиска.
6. Проектирование архитектуры информационно-поисковой систе мы (ИПС).
7. Разработка концепции гибридизации МИС.
На рис. 1 приведена структурная схема, отображающая комплексный сис темный подход к процессу исследования.
Методы исследований. Приведенные в работе методы исследования ба зируются на использовании методов теории графов, теории принятия решений, теории информации, нечеткой логики, теории вероятности и математиче ской статистики, методов информационного поиска, математического модели рования, графовой кластеризации, модульного и объектно-ориентированного программирования.
Достоверность и обоснованность результатов. Предложенные в дис сертационной работе модели и алгоритмы обоснованы теоретическими реше ниями, не противоречат известным положениям других авторов, определяются методологической базой исследования, сочетанием различных подходов и ме тодов исследования, экспериментальной проверкой теоретических положений и воспроизводимостью результатов.
Положения, выносимые на защиту Технология семантико-энтропийного поиска:
– математическая модель контекстно-временной онтологии;
– алгоритм поиска и анализа результатов запроса.
Архитектурная модель информационно-поисковой системы.
Научная новизна работы отражена в следующих результатах.
Впервые понятия контекстно-временной онтологии (КВО) предметной области применены к информационному поиску в архивах медицин ских данных.
Разработана новая технология семантико-энтропийного поиска с ис пользованием модели КВО.
Построена новая модель КВО предметной области:
– введено понятие фактора достоверности, зависящего от времени;
– предложен метод расчета оценки неопределенности запроса с исполь зованием энтропийной оценки;
Рис. 1. Структурная схема комплексного системного подхода к процессу исследования – предложен метод расчета оценки релевантности документов с учетом коэффициентов достоверности, как расчет меры близости графов, полученных путем построения семантических сетей документа и запроса на основании по строенной экспертом контекстно-временной онтологии.
Разработан новый алгоритм поиска с обучением с учителем, включаю щий в себя контекстное индексирование и анализ результатов поиска.
Теоретическая значимость. Стало возможным достижение результатов ряда новых задач.
Интеграция семантических данных с применением КВО.
Обработка и анализ семантических данных в системах поддержки при нятия решений с использованием КВО.
Семантико-энтропийный поиск в сети Internet.
Практическая значимость Алгоритм поиска с обучением позволяет учитывать соответствие до кумента информационной потребности пользователя.
Механизм преобразования общего инвертированного файла (индекса) в контекстный индекс, зависящий от контекста запроса, позволяет получить контекстные образы документа, соответствующие различным запросам.
Использование разработанной модели поиска позволяет с определен ной долей достоверности формализовать семантическую информацию для по лучения полной выборки данных и дальнейшей обработки данных при прове дении МБИ.
Разработанная архитектурная модель ИПС, состоящая из индекси рующего, поискового сервиса и виртуального хранилища данных предоставля ет возможность исследователю оперативно получать данные по теме своего ис следования из различных источников.
Предложенный метод перехода от учетных к гибридным ИС позволя ет наиболее эффективно использовать имеющиеся данные МИС, предоставляя инструментарий формирования произвольных запросов пользователем, не яв ляющимся IT-специалистом.
Предлагаемые методические разработки могут быть приняты во вни мание разработчиками медицинских информационных систем при проектиро вании структуры в направлении, рассматриваемом в диссертации.
Реализация и внедрение результатов работы Теоретические и практические результаты работы реализованы и вне дрены в качестве ИПС для сбора данных и поддержки медицинских исследова ний в Тюменском кардиологическом центре (ТКЦ). В процессе эксплуатации представленная система показала свою эффективность. Внедрение системы в ТКЦ подтверждено соответствующими свидетельствами.
Разработанная ИПС используется при сборе данных в исследованиях по ишемическому инсульту и фибрилляции предсердий, что подтверждается соответствующими публикациями совместно с научными работниками ТКЦ.
Апробация работы. Основные положения диссертационной работы док ладывались и обсуждались на следующих конференциях и семинарах:
III международная научно-практическая конференция «Исследование, разработка и применение высоких технологий в промышленности», Санкт Петербург, март 2007;
III Всероссийская конференция студентов, аспирантов и молодых ученых «Искусственный интеллект: философия, методология, инно вации», Москва, ноябрь 2009;
II региональная конференция ИМКН ТюмГУ, Тюмень, октябрь международный славянский конгресс 2009;
IX «КАРДИОСТИМ-2010», Санкт-Петербург, февраль 2010;
9-я Сибирская науч ная школа-семинар SIBECRYPT'10, Тюмень, октябрь 2010;
IV Всероссийская конференция студентов, аспирантов и молодых ученых «Искусственный интел лект: философия, методология, инновации», Москва, ноябрь 2010;
научные се минары НИИ КИТ, кафедры информационной безопасности ТюмГУ, Тюмень, 2006 – 2010.
Работа выполнена при поддержке гранта Министерства образования и науки РФ «Проведение научных исследований в области экологии языка и смежных наук» ГК № 02.740.11.0594.
Этапы исследования. Условно исследование можно разделить на четыре этапа. Первый этап (2006 – 2007 гг.) включал в себя анализ литературы по теме исследования, изучение опыта работы, как в России, так и за рубежом. На вто ром этапе (2007 – 2008 гг.) разрабатывались организационные модели, отраба тывалось содержание научно-исследовательской деятельности врача. На треть ем этапе (2009 г.) велась опытно-экспериментальная работа по изучению воз можностей организации гибридной МИС на базе ТКЦ. На четвертом этапе (2010 г.) проводилась обработка и обобщение полученных результатов.
Публикации. Основное содержание отражено в 24 публикациях, из кото рых 7 свидетельств о государственной регистрации программ для ЭВМ и 4 ста тьи, опубликованных в изданиях, рекомендованных ВАК.
Структура и объем работы. Приведенные цели и задачи определяют структуру и содержание исследования. Текст диссертации состоит из введения, четырех глав, заключения, списка литературы из 117 наименований работ рос сийских и зарубежных авторов, 4 приложений. Общий объем – 129 страниц, в том числе 5 таблиц, 11 рисунков на 11 страницах.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертации, сформулиро ваны цель и задачи работы, научная новизна, теоретическая и практическая значимость, перечислены основные результаты работы.
В первой главе рассмотрены принципы, теоретические основы, основ ные задачи и цели МБИ. Проведен анализ современных типов автоматизиро ванных МИС, сформулирована проблема использования данных учетных МИС для научных исследований. Отмечены перспективные методы развития техно логий информационного поиска. Проведена сравнительная оценка вариантов возможных решений исследуемой проблемы, описаны основные принципы распознавания элементов системы в неструктурированных текстовых массивах, статистические, семантические модели информационного поиска и оцен ки неопределенности.
Автоматизация и поддержка научных исследований в медицине является новым и важным шагом в развитии лечебной, консультативной, профилактической, доказательной, скрининговой и восстановительной медицины. Основное содержание проблемы заключается в необходимости сбора данных электронных архивов МИС для научных исследований.
Существующие технологии информационного поиска ориентированы на экономические, маркетинговые информационные системы. Применение подобных технологий для МИС затруднено, потому что медицинские исследования обычно охватывают более широкий временной интервал и большое количество разнообразных категорий данных.
На основе обзора методов анализа текстовой информации, отличающихся в первую очередь используемой моделью, сделан вывод, что для задачи поиска медицинских данных подходят семантические сети, учитывающие информационную потребность пользователя. Это обусловлено тем, что важнее найти не первый документ, релевантный тому или иному запросу, а собрать наибольшее количество документов, удовлетворяющих информационным потребностям пользователя.
Обоснована необходимость выработки унифицированного подхода к построению автоматизированного кодификатора объектов в текстовых массивах на основе математического моделирования и алгоритмических подходов к разработке технологии информационного поиска и способов обработки результатов поиска.
В 2002-м году Р.Д. Аветисян и Д.О. Аветисян показали адекватность энтропийной модели документального поиска. Для семантического поиска энтропийная оценка эффективности еще не применялась. В 2005-м году Г. Зу, С.Е. Мадником и М.Д. Сайгелом описано использование контекстно-временной онтологии в системе интеграции семантических данных COIN для англоязычных экономических систем. В России таких исследований не проводилось.
Во второй главе сформулированы основные принципы семантического поиска, обозначены преимущества такого подхода. Подробно описаны методы, используемые в исследовании. Изложена общая концепция нечеткости и неоп ределенности. Далее описан процесс построения модели поиска, состоящей из модели представления элементов медицинской информационной системы, ос новывающейся на использовании онтологии предметной области, алгоритма поиска документов и оценки релевантности (пертинентности). Определение элементов системы терминами и связями между ними выражается с помощью фактора достоверности и темпоральными (временными) характеристиками – принадлежность к некоторому интервалу времени.
Модель КВО определяется следующим образом. Пусть:
X={xi} – множество понятий (i= 1, M );
Y={yu} – множество терминов (слово или словосочетание), элементов терминологического словаря (u= 1,U );
Rt={rk} – множество контекстно-временных отношений между понятия ми, определяющих связи между элементами поиска (k=1, K );
cr(t)R[0;
1] – функция факторов достоверности отношений в момент вре мени t, возвращающее в любой момент времени значение в интервале [0;
1]: 0 – неизвестно;
(0;
1) – достоверно в некоторой степени;
1 – отношение достоверно на 100%.
cr h (t ), t (t h ;
t h ];
(1) ( 2) cr(t ) (t l ;
t l ] (t p ;
t p ],l p;
h,l, p 1,T, (1) (1) ( 2) (1) ( 2) 0, иначе.
где T – количество временных интервалов.
Тогда отношение rk можно определить так: rk=xi, xj, yu, crk(t), где: xi, xj – понятия;
crk(t) имеет вид (1) – функция фактора достоверности отношения rk между xi и xj, определяемое термином yu;
i,j=1,M ;
k= 1, K.
Ft=Fn, Fs – множество функций интерпретации.
Fn – функция контекстно-временной нормализации терминов, в любой момент времени для любого термина i-го понятия возвращает номер j-го терма, определяющий элемент поиска с максимальным фактором достоверности:
, (2) Fn ( N,t ) N : i 1, M, t 0 Fn (i,t 0 ) arg max (cxiu (t 0 ) ) u 1,U где cxiu(t)R[0;
1] – функция фактора достоверности u-го термина, определяюще го i-е понятие в момент времени t.
Fs – функция контекстно-временной интерпретации термов, в момент времени t ставит в соответствие i-му терму вектор CX={cxiu} факторов досто верности, отражающих степень соответствия u-го термина i-му понятию.
i 1, M, t 0 Fs (i,t 0 ) Ei cx(t 0 ), R[0;
1] :
U Fs ( N,t ) (3) где Eu – матрица UU, элементы i-го столбца равны 1, остальные равны 0:
p i,l;
1, (4) E i {elp} : elp p i,l.
0, Prt используется для построения правил выводов:
Prt= ЕСЛИ(И({ri,сi,ti} ) | ИЛИ({rj,сj,tj} 1 ) | НЕ({rh,сh,th} 1 )) ТО({rl,сl,tl} n n n m (5) ), 1 где: rk – исходные отношения с коэффициентом достоверности ck в момент времени tk (k= 1, K );
rp – выходные отношения с коэффициентом достоверности сp в момент времени tp (p= 1, P ).
В результате получена модель контекстно-временной онтологии:
Ot = Х, Rt, Ft, Prt, (6) Представление документов в виде набора триплетов образуют в модели подграф, который задает представление документа в данном контексте запроса:
O(D)O(Q). Узлы соответствуют термам, а ребра – бинарным отношениям меж ду ними.
Веса узлов графа определены как коэффициенты достоверности cx(t). Для каждого из ребер (xi, xj) графа полагается заданным также (1K) – вектор ве сов {crijk(t), k=1, K }, где crijk(t)=0, если термы (xi, xj) не связаны между собой от ношением rk, и crk(t)=crk(t) – в противном случае. Здесь crk(t) – заданный вес от ношения rk в онтологии O.
Предложено использование меры соответствия триплетов документов, формализующих близость семантических сетей поисковых образов документа D и запроса Q или, что то же самое, меры близости соответствующих графов G(D) и G(Q), учитывающей веса термов и связей между ними.
Мера близости вершин и ребер графов G(D) и G(Q) определяется как ми нимальное значение коэффициентов достоверности соответствующих вершин и ребер в любой момент времени t.
Мера близости термов xi запроса и документа:
cx( x i, D, x i, Q) cxi (t ) min (cxi, D (t ), cxi, Q (t ) ). (7) t Мера близости ребер rk запроса и документа:
cr(r k,D, r k,Q) cr k (t ) min (crk,D (t ), crk,Q (t ) ). (8) t Тогда пересечение графов можно G(D)G(Q) представить как набор вер шин и ребер с коэффициентами достоверности (7) и (8).
Взвешенная мера близости вершин определяется следующим образом:
2 cx (t ), (9),t sx cxi (t ) cx j (t ),t,t где: индекс пробегает номера узлов, принадлежащих пересечению графов G(D)G(Q), что условно можно записать в виде [1:n(G(D)G(Q))];
индексы, пробегают номера узлов [1:n(G(Q))], [1:n(G(D))] соответственно для любого времени t.
Взвешенная мера близости ребер определяется как:
2 cr (t ), (10), t sr cr i (t ) cr j (t ), t, t где, аналогично (9): пробегает номера ребер пересечения графов G(D)G(Q), индексы, пробегают номера ребер графов G(Q) и G(D) соответственно.
Мера близости графов определяется, как функция полезности мер sx и sr (9, 10). Рассмотрена аддитивная свертка мер. Методом половинного деления определен вид скалярной свертки с коэффициентом полезности 1:
s=sx+(1–)sr. (11) Мера s из (11) принимается за коэффициент достоверности CF – доля уверенности, что определенный документ соответствует смыслу запроса.
С использованием построенной модели КВО и оценки релевантности до кументов в результате вычислительного эксперимента разработан алгоритм се мантико-энтропийного поиска для обучения с учителем системы пониманию смысла запроса. В.В. Иванов в работе «Модели и методы интеграции структу рированных текстовых описаний на основе онтологий» предлагает стратегию, в которой понятия тезауруса внедряются в онтологию как экземпляры особого метакласса онтологии. В качестве множества допустимых значений некоторого понятия выступают группы близких понятий тезауруса. На рис. 2 описаны эта пы алгоритма семантико-энтропийного поиска.
Рис. 2. Этапы алгоритма семантико-энтропийного поиска Обучение системы нахождению документов, отвечающих заданному в запросе смыслу, заключается в построении обучающей выборки – списка доку ментов, поставленных в соответствие заданному запросу. Процесс построения является итеративным. Эксперт создает некоторый набор терминов, характери зующих смысл, и связей между ними.
Каждое понятие тезауруса, извлеченное из текста запроса, сопоставляется с экземпляром онтологии и используется для построения связного множества триплетов. Эксперт вводит правила, определяет множество терминов и отно шений. В результате получаем контекстно-временную онтологию.
Для оценки неопределенности построения запроса при создании обу чающей выборки используется понятие меры неопределенности. Количество информации, содержащееся в среднем в одном сообщении о том, каким при знан системой очередной документ, вычисляется по формуле:
I[sp, up]=H[sp]-H[sp|up]=H[up]-H[up|sp], (12) где: sp – документ признан системой релевантным запросу;
up – документ на самом деле является релевантным запросу;
H[sp] – неопределенность того, что наугад взятый документ будет признан релевантным системой;
H[sp|up] – неоп ределенность того, что документ, признанный системой релевантным на самом деле является релевантным.
С помощью подбора таких параметров, как глубина индексирования (ко личество документов, которые будет индексировать поисковый сервис) и глу бина терминологического наращивания запросов (последовательно го/итерационного пополнения словаря терминов, участвующих в данном запро се) обеспечивается понижение меры неопределенности и улучшения коэффи циентов полноты и коэффициентов точности, характеризующих соответствие текста заданной теме.
Результатом математического моделирования является построение моде ли семантического поиска и доказательство ее соответствия поставленной цели исследования. Проведен анализ полученных результатов, исследуется приме нимость модели в реальном мире. Модель информационно-поисковой системы включает в себя модель интерпретации документов и запросов на основе кон текстно-временной онтологии и алгоритм с обучением с учителем для обучения системы контексту заданного запроса. Построенные модели подчиняются всем законам математической логики, способны адекватно описывать исходную си туацию. Результаты, полученные на основе данных моделей, хорошо отражают действительность в соответствии с выдвинутыми критериями.
Предложенная в работе методика оценки релевантности документов об ладает высокой вычислительной сложностью. Подавляющая часть требуемых вычислительных затрат обусловлена выполнением следующих работ.
Во-первых, для каждого из документов D требуется построение соответ ствующей семантической сети S(D). Если онтология предметной области фик сирована, т.е. «четкая» и не зависит от времени, то эта работа выполняется лишь однажды, при помещении документа в хранилище. Во-вторых, методика требует построения аналогичной семантической сети S(O) онтологии рассмат риваемой предметной области. Опять же, если онтология предметной области фиксирована, то эта работа выполняется однократно. В-третьих, в соответствии с методикой для каждого из запросов Q также требуется формирование семан тических сетей S(Q). Данная работа должна выполняться системой при обра ботке каждого из запросов.
Задача определения пертинентности документа является задачей оптими зации. Использованный метод аддитивной скалярной свертки является про стейшим и далеко не всегда эффективным методом решения. Поэтому пред ставляет интерес исследование целесообразности использования других, более «тонких» методов решения указанной многокритериальной задачи.
Третья глава содержит описание процесса проектирования и создания технологии распознавания элементов медицинской информационной системы.
Концептуальная модель информационно-поисковой системы приведена на рис. 3.
Рис. 3. Концептуальная модель информационно-поисковой системы Все операции поиска разбиты на пять групп: обучение, хранение инфор мации, поисковые операции, выдача информации, информационный анализ.
Система состоит из следующих элементов:
– виртуальное хранилище данных – средство предоставления доступа к распределенным архивам разнородных документов различных МИС;
содержит описание электронных медицинских записей, ссылки на документы, термино логический словарь, тезаурус, шаблоны, репозитарий запросов;
– ETL-сервис – содержит инструментарий: извлечения данных из раз личных источников;
преобразования – для первичной индексации и «очистки» данных и инструментарий загрузки данных в хранилище;
– обучающий сервис – средство составления контекстно-временной он тологии, содержит: инструментарий, позволяющий составлять новый запрос с обучением;
визуальный редактор, отображающий понятия и связи между ними в удобном для восприятия виде для конструирования запросов к данным;
– индексирующий сервис – средство создания контекстных индексов по ступающих в хранилище документов;
– поисковый сервис – средство организации поиска документов;
– аналитический сервис – средство обработки результатов поиска.
Далее предложен подход к реализации ИПС, основанный на создании программных сервисов, отвечающих за выполнение отдельных функций систе мы и имеющих единый интерфейс взаимодействия. Спроектирована и реализо вана универсальная программная архитектура ИПС, позволяющая взаимодей ствовать с разработанными ранее автоматизированными рабочими местами (АРМ) учетной МИС. Схема многоуровневой архитектурной модели информа ционно-поисковой системы представлена на рис. 4.
Модуль взаимодействия с пользователем использует глубокие знания (представление о пациентах, заболеваниях, клинических тестах) для извлечения дополнительных, более детальных контекстно-временных знаний. На эксперта возлагается задача расширения и уточнения модели онтологии – понижение уровня абстракции. Эта модель затем передается индексирующему сервису.
Поведение системы снова анализируется экспертом и обучающим сервисом (энтропийная оценка). Эксперт при необходимости вносит коррективы в онто логию.
Графический интерфейс позволяет эксперту создавать пиктограммы, представляющие элементы запроса, формировать из них графические структу ры. Расставляя элементы на экране и вычерчивая связи между ними, эксперт формирует мнемоническую схему взаимосвязей между элементами.
Для более эффективного использования в исследованиях результатов по иска проводится анализ полученных данных. Интеллектуальная обработка ре зультатов поиска, заключается в применении метода графовой кластеризации по алгоритму Буровки.
На следующем этапе определены основные характеристики гибридной информационной системы и предложен метод перехода от учетной системы к гибридной. Разработанная технология поиска в электронных хранилищах МИС позволяет автоматизировать процесс сбора данных для научных исследований и обеспечивает, независимо от структуры и состава МИС, эффективный анализ и обработку данных. Предложенный подход к разработке архитектуры ИПС по зволяет использовать ее для гибридизации учетных МИС. Вместо разработки гибридной МИС «с нуля» автором исследования выбран способ повышения ин теллектуального уровня ранее разработанной учетной МИС посредством ис пользования технологии информационного поиска.
Рис. 4. Схема многоуровневой архитектурной модели информационно-поисковой системы В четвертой главе приведены результаты апробации и статистика рабо ты программного комплекса;
описан численный эксперимент по оценке эффек тивности и полезности ИПС, разработанной на основе модели КВО. Приведены количественные характеристики обучающих и тестовых коллекций и примеры обучения и тестирования. Проведены эксперименты с алгоритмом поиска, по зволяющие судить о качестве работы алгоритма по двум основным критериям:
полноте и точности.
Исследованы зависимости критериев точности и полноты от следующих параметров: количество документов обучающей выборки;
сложность запроса (количество вершин и ребер графа, построенного на основе семантической сети запроса);
коэффициент полезности при оценке релевантности по формуле (11).
Экспертами предоставлены выборки из подходящих для исследований документов (историй болезни), выбранных из общего количества за определен ный период, на создание которых потрачено несколько месяцев. Выборки раз делены на обучающую и контрольную части. Каждой паре «запрос-документ» поставлен в соответствие набор оценок релевантности информационной по требности, представленных в виде бинарных утверждений «релевантный» и «нерелевантный». По каждому запросу вычислены значения коэффициентов точности и полноты выборки для документов с положительной релевантностью запросу. Составы коллекций и средние значения основных характеристик раз работанной информационно-поисковой системы приведены в таблице 1.
Таблица 1. Состав коллекций и средние значения основных характеристик раз работанной информационно-поисковой системы Количество Критерии оценки Время Кол-во Тематика документов (средние значения) Период, поиска № тестовых коллекции гг. «вручную», выб- полнота точность мера запросов всего I[sp,pp] мес.
рано (Rcp) (Pcp) F1ср Пациенты с риском 1 ишемиче- 14000 200 2007-2009 12 20 0,87 0,81 0,87 0, ского ин сульта Пациенты с симптомом 2 фибрил- 7000 250 2007-2008 7 30 0,98 0,95 0,98 0, ляции предсердий В результате вычислительного эксперимента выявлено, что подходящим значением коэффициента полезности для (11) является 0,63, следовательно, вершины, определяемые термами запроса, имеют несколько большую значи мость, чем связи между термами.
Для наглядного представления и визуального анализа составлены графи ки. График изменения значений оценок информационно-поисковой системы по запросам коллекции №1 представлен на рис. 5.
Рис. 5. График изменения значений оценок информационно-поисковой системы по запросам коллекции Так, например, выполнение запроса №1 Пациент принимает антикоагу лянт по тестовой коллекции №1 проведено по следующей схеме. Информаци онная потребность: Найти истории болезни, в анамнезе упомянуто, что паци енту назначалась антикоагулянтная терапия. На первом шаге с помощью лин гвистической онтологии и логического вывода получаем новые зависимости, которые соответствуют новым триплетам, представляющим соответствующий документ или запрос. На следующем шаге итерации дополняем полученный набор (расширяем лингвистическую онтологию). Можно, например, отождест вить прием и назначение препаратов, так как в определенном контексте одно следует из другого. В результате получаем дополнительный триплет, соответ ствующий запросу: Пациенту назначен антикоагулянт. Далее формируется правило вывода – инструкция, с помощью которой можно получить новую ин формацию на основе имеющейся. Общий вид: «Если (условие), то (вывод)» или «Условие, следовательно, вывод». В случае запроса №1: Имеются противопо казания к приему антикоагулятнов, следовательно, пациент не принимает ан тикоагулянты.
Для каждого триплета фактор достоверности CF определяется экспертом, либо как отношение частоты данного триплета в релевантной выборке к часто те во всей совокупности документов. Если в документе или с помощью пере численных выше операций получен триплет с отрицательным значением, на пример, Пациент не принимал варфарин, то CF = 0.
В результате получен ориентированный мультиграф. Представление свя зей с помощью фактора достоверности представляет собой пропускные способ ности ребер графа. На рис. 6 отображено графическое представление триплетов запроса и документов.
Рис. 6. Графическое представление триплетов запроса и документов вершины – термы (x1, x2, x3);
дуги – триплеты: запроса (r1, r2), документов (r3, r4, r5, r6);
правил вывода (r7).
Задача сводится к нахождению всех возможных путей от вершины анти коагулянт к вершине пациент. Соответствие найденных путей (триплетов, представляющих документ) потребности пользователя определяется макси мальной близостью значения найденного пути значению пути в графе запроса.
Документы, представленные триплетом r3, удовлетворяют запросу с достовер ностью 0,9;
документы, представленные триплетами r4 – r6, полностью не удов летворяют запросу (CF=0);
документы, содержащие триплет запроса r1, полно стью удовлетворяют смыслу запроса (CF=1);
документы, содержащие триплет запроса r2, удовлетворяет запросу на 90% (CF=0,9).
В таблице 2 показано изменение значений точности и полноты поиска в зависимости от этапов обучения по результатам пяти итераций.
Таблица 2. Изменение значений точности и полноты поиска в зависимости от этапов обучения № Итерация Полнота (R) Точность (P) Энтропия (H) Автоматическое построение онтологии 1 0,57 0,90 по обучающей коллекции документов Запрос: Пациент принимает антикоа 2 0,51 0,75 0, гулянт Обучение: До 2005 г. антикоагулянтом 3 0,69 0,79 1, назначают варфарин в 90% случаев Обучение: Антикоагулянты и проти 4 0,83 0,81 1, восвертывающие – одно и то же Обучение: Если пациенту не противо показан варфарин и пациент перенес 5 0,95 0,87 0, инсульт, то пациент принимает ан тикоагулянт с уверенностью 90% После пятой итерации 63% документов обучающей выборки соответство вали запросу с уверенностью 100%, остальные 37%– с уверенностью 90%. Для уверенности 80% коэффициенты R и P равны единице. Для технологии полно текстового поиска MS SQL Server 2008, использующей статистическую модель и ранжированный поиск, получены результаты: найдено 49% документов с ре левантностью больше 0,6;
R=0,62;
P=0,59.
На рис. 7 показан график динамики значений коэффициентов точности и полноты разработанной ИПС в зависимости от этапов обучения. По тестирую щей выборке R=0,95 и P=0,9 для уверенности 90%. Следовательно, разработан ная технология достаточно полно и точно выполняет поиск докумен тов по смыслу.
Рис. 7. График динамики значений коэффициентов точности и полноты в зависимости от этапов обучения В исследовании проведена проверка запросов средней сложности: поиск отдельных терминов или параметров онтологии содержат не более 4 – 5 термов.
Проведенный анализ полученных результатов подтвердил применимость моде ли в реальном мире.
В заключении приведены основные результаты диссертационной работы.
Разработанная технология представления элементов МИС в неструкту рированных текстовых массивах медицинских электронных записей с исполь зованием дополнительных характеристик онтологических связей и предложен ная методика энтропийной оценки неопределенности запроса позволяет осуще ствлять достаточно точный и полный смысловой поиск в медицинских доку ментах, «слабо» чувствительный к языку, на котором написан документ, что является важным для медицинских документов, содержащих термины на рус ском языке и на латыни.
Построенная модель семантического поиска для организации инфор мационной поддержки медицинских научных исследований соответствует рас сматриваемой предметной области, является адекватной и непротиворечивой.
Сформулированная оценка релевантности смысла документов и запро са как мера схожести графов, соответствующих построенным семантическим сетям по созданной в процессе обучения КВО позволяет формировать доста точно полную выборку документов.
Разработанный алгоритм семантического поиска на основе разработан ной модели с обучением с учителем, включающий в себя правила вывода и лингвистическую онтологию для генерации новых онтологических связей по зволяет учитывать потребности конкретного пользователя системы.
Предложенный метод перехода от учетных к гибридным информаци онным системам позволяет использовать накопленные данные о пациенте для проведения МБИ без существенных затрат на доработку уже внедренных учет ных МИС.
Эффективность информационно-поисковой системы подтверждена в процессе практической эксплуатации программного комплекса для сбора и ана лиза данных в Тюменском кардиологическом центре.
Приложения содержат исходные данные, результаты численного экспе римента, список терминов, применяемых в данной работе, исходный текст не которых программных модулей.
ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ ОПУБЛИКОВАНО В СЛЕДУЮЩИХ РАБОТАХ:
Публикации в рецензируемых журналах, рекомендованных ВАК Нестерова О.А., Оленников Е.А. Некоторые подходы к решению пробле 1.
мы интеграции данных результатов обследований на различном медицинском обору довании // Вестник Тюменского государственного университета. – Тюмень:
ТюмГУ, 2007. – №5. – С. 111 – 115.
Захаров А.А., Нестерова О.А., Оленников Е.А. Проблемы информацион 2.
ного поиска для научных исследований в медицинских информационных системах // Вестник Тюменского государственного университета. – Тюмень:
ТюмГУ, 2009. – №6. – C. 215 – 219.
Рычков А.Ю., Близняков А.А., Хорькова Н.Ю., Нестерова О.А. Риск 3.
тромбоэмболических осложнений и адекватность применения варфарина при фиб рилляции предсердий неклапанной этиологии // Вестник аритмологии. – СПб., 2010. – №62. – С. 41 – 44.
Захаров А.А., Нестерова О.А., Оленников Е.А. Алгоритм информацион 4.
ного поиска в медицинских архивах на основе контекстно-временной онтологии // Вестник Тюменского государственного университета. – Тюмень:
ТюмГУ, 2010. – №6. – С. 177 – 182.
Прочие публикации Нестерова О.А., Петухов А.С. Программные способы обеспечения безо 5.
пасности в медицинской информационной системе Тюменского кардиологического центра // Безопасность информационного пространства: Материалы международной научно-практической конференции. – Екатеринбург: ГОУ ВПО УрГУПС, 2006. С. 28.
Захаров А.А., Нестерова О.А., Оленников Е.А. Медицинская информаци 6.
онная система для Тюменского Кардиологического Центра // Математические методы в технике и технологиях – ММТТ-20: сб. трудов XX Международной научной конфе ренции. – Ярославль: ЯГТУ, 2007. – Т.8. – С. 157 – 161.
Нестерова О.А., Оленников Е.А., Петухов А.С. Применение INTERNET 7.
технологий в задачах телемедицины // Высокие технологии, фундаментальные и при кладные исследования, образование: сб. трудов III международной научно практической конференции «Исследование, разработка и применение высоких техно логий в промышленности». – СПб.: Политехн. ун-т, 2007. – Т.9. – С. 212 – 213.
Нестерова О.А. Проблемы безопасности при интеграции данных различ 8.
ных информационных систем в медицинских учреждениях // Безопасность информа ционного пространства VI: сб. трудов межвузовской научно-практической конферен ции. – Тюмень: ТюмГУ, 2007. С. 39 – 43.
Нестерова О.А. Информационное моделирование, разработка и внедре 9.
ние сервисно- и объектно-ориентированных технологий для использования цифровых и картографических активов в научных исследованиях в медицине // Современные проблемы математического и информационного моделирования. Перспективы разра ботки и внедрения инновационных IT-решений: сб. научных трудов I научно практической региональной конференции. – Тюмень: Вектор Бук, 2008. С. 71 – 75.
10. Захаров А.А., Нестерова О.А., Оленников Е.А. Проблемы информацион ного поиска и анализа данных в медицинских информационных системах // Актуаль ные проблемы прикладной математики, информатики и механики: сб. трудов между народной конференции. – Воронеж: ВГУ, 2009. С. 82 – 85.
11. Нестерова О.А., Оленников Е.А. Информационный поиск и интеллекту альный анализ данных в медицинских информационных системах // Современные проблемы математического и информационного моделирования. Перспективы разра ботки и внедрения инновационных IT-решений: сб. научных трудов Второй научно практической региональной конференции. – Тюмень: Вектор Бук, 2009. С. 80 – 84.
12. Рычков Ю.А., Близняков А.А., Добрынина Л.А., Нестерова О.А. Риск ишемического инсульта и профилактическое применение варфарина у пациентов с фибрилляцией предсердий неклапанной этиологии в кардиологической клинике // Инновационные диагностические и лечебные технологии в неврологии: Научно практический медицинский журнал. – Казахстан, 2009. С. 10.
13. Нестерова О.А., Оленников Е.А. Проблема сбора и анализа данных для научных исследований в медицинских информационных системах // Искусственный интеллект: философия, методология, инновации: Материалы III Всероссийской кон ференции студентов, аспирантов и молодых ученых. – М.: Связь принт, 2009. С. 371 – 373.
14. Нестерова О.А., Близняков А.А., Рычков А.Ю., Оленников Е.А. Разработка технологий онтологического поиска на основе энтропийной модели и их использова ние в системах поддержки принятия решений // Вестник аритмологии. Материалы IX Международного славянского конгресса по электростимуляции и клинической элек трофизиологии сердца «КАРДИОСТИМ-2010». – СПб., 2010. С. 581.
15. Нестерова О.А. Использование ориентированных графов для кодифика ции элементов в неструктурированных текстовых массивах медицинских электрон ных записей // Современные проблемы математического и информационного модели рования. Перспективы разработки и внедрения инновационных IT-решений: сб. науч ных трудов Третьей научно-практической региональной конференции. – Тюмень:
Вектор Бук, 2010. С. 181 – 185.
16. Захаров А.А., Оленников Е.А, Пуртов В.Г, Нестерова О.А. Подходы к созданию единого информационного пространства медицинского учреждения // Со временные проблемы математического и информационного моделирования. Пер спективы разработки и внедрения инновационных IT-решений: сб. научных трудов Третьей научно-практической региональной конференции. – Тюмень: Вектор Бук, 2010. С. 94 – 99.
17. Нестерова О.А. Контекстно-временная онтология предметной области в информационном поиске медицинских данных // Искусственный интеллект: филосо фия, методология, инновации: Материалы IV Всероссийской конференции студентов, аспирантов и молодых ученых. – М.: Радио и связь, 2010. – Ч.1. – С. 106 – 109.
Перечень результатов интеллектуальной деятельности 18. Захаров А.А., Нестерова О.А., Оленников Е.А., Петухов А.С., Пуртов В.Г.
Свидетельство, регистрационный № 2009613527 (30.06.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача отделения ультразвуковой диагностики. Версия 1.0».
19. Захаров А.А., Нестерова О.А., Оленников Е.А., Петухов А.С., Пуртов В.Г.
Свидетельство, регистрационный № 2009613529 (30.06.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача клинико диагностической лаборатории. Версия 1.0».
20. Захаров А.А., Нестерова О.А., Оленников Е.А., Петухов А.С., Пуртов В.Г.
Свидетельство, регистрационный № 2009613528 (30.06.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача клиниче ского отделения. Версия 1.0».
21. Захаров А.А., Нестерова О.А., Оленников Е.А., Петухов А.С., Пуртов В.Г.
Свидетельство, регистрационный № 2009613530 (30.06.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача ангиохирурга. Версия 1.0».
22. Захаров А.А., Нестерова О.А., Оленников Е.А., Петухов А.С., Пуртов В.Г.
Свидетельство, регистрационный № 2009614868 (08.09.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача кардиоло га. Версия 1.0».
23. Захаров А.А., Нестерова О.А., Оленников Е.А., Петухов А.С., Пуртов В.Г.
Свидетельство, регистрационный № 2009614869 (08.09.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача отделения рентгенохирургических методов обследования и лечения. Версия 1.0».
24. Захаров А.А., Нестерова О.А., Оленников Е.А., Петухов А.С., Пуртов В.Г.
Свидетельство, регистрационный № 2009614867 (08.09.2009). Правообладатель ГОУ ВПО «Тюменский государственный университет» Программа «АРМ врача отделения лечебной физкультуры. Версия 1.0».
Подписано в печать 07.02.2011. Тираж 100 экз.
Объем 1,0 уч. изд. л. Формат 60Ч84/16. Заказ № Издательство Тюменского государственного университета 625003, г. Тюмень, ул. Семакова, Тел./факс (3452) 46-27- E-mail: [email protected]