авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Астрологический Прогноз на год: карьера, финансы, личная жизнь


Модель и прототип программной системы управления научно-образовательной электронной библиотекой

На правах рукописи

Зуев Денис Сергеевич МОДЕЛЬ И ПРОТОТИП ПРОГРАММНОЙ СИСТЕМЫ УПРАВЛЕНИЯ НАУЧНО-ОБРАЗОВАТЕЛЬНОЙ ЭЛЕКТРОННОЙ БИБЛИОТЕКОЙ Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Казань – 2010

Работа выполнена в Научно-исследовательском институте математики и механики им. Н. Г. Чеботарева Казанского государственного университета

Научный консультант: доктор физико-математических наук, профессор, заслуженный деятель науки РТ Елизаров Александр Михайлович

Официальные оппоненты: доктор технических наук, профессор Захаров Вячеслав Михайлович доктор физико-математических наук, профессор Соловьев Валерий Дмитриевич

Ведущая организация: Санкт-Петербургский государственный политехнический университет

Защита состоится «26» марта 2010 года в 14.30 часов на заседании Дис сертационного совета Д 212.079.01 в Казанском государственном техниче ском университете им. А. Н. Туполева по адресу: 420111, Казань, ул.

К. Маркса, д. 10.

С диссертацией можно ознакомиться в научной библиотеке Казанского государственного технического университета им. А. Н. Туполева. С авторе фератом диссертации можно ознакомиться на сайте КГТУ им. А.Н. Туполева www.kai.ru.

Автореферат разослан «25» февраля 2010 г.

Ученый секретарь диссертационного совета доктор физико-математических наук, профессор П. Г. Данилаев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Развитие вычислительной техники и сетевых тех нологий, появление новых носителей информации приводят к проникнове нию информационных технологий во все сферы человеческой жизнедеятель ности, появляются новые классы информационных систем, новые виды сер виса. Необходимость современного информационного обеспечения научных исследований и учебного процесса, включения отечественной науки в миро вое информационное пространство создали предпосылки для коренного из менения традиционных подходов к процессам информационного обеспече ния науки и развития новых сервисов. Все это послужило толчком к созда нию нового класса информационных систем, коими являются электронные библиотеки (ЭБ).

Сегодня в разработках коллекций информационных ресурсов электрон ных библиотек, обеспечении их поддержки и доступа к ним востребован весь спектр ключевых технологий управления информацией, которые использу ются в современных информационных системах. К тому же одной из основ развития информационных систем этого класса стали интернет и сопутст вующие технологии. Поэтому разрабатываемые в настоящее время электрон ные библиотеки базируются на самых передовых достижениях веб технологий (платформа XML, Symantec Web, языки описания онтологий, RDF/RDFS, OWL и др.), технологий баз данных, текстового поиска (полно текстовый поиск, модели семантического поиска, новые подходы, ориенти рованные на текстовый поиск в вебе) в области методов представления и об наружения знаний, технологий создания и поддержки электронных публика ций, моделирования данных и метаданных.

В последнее время ведется достаточно много изысканий по тематике электронных библиотек. В России, несмотря на обширные теоретические ис следования в этой области, результаты которых освещаются, в частности, в научном электронном журнале «Электронные библиотеки» (www.elbib.ru) и на различных конференциях по тематике ЭБ (например, серия конференций RCDL «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», www.rcdl.ru), как правило, законченных практиче ских реализаций («коробочных версий») систем ЭБ мало. За рубежом прак тических реализаций подобных систем достаточно много, реализуются круп ные проекты (например, проекты ассоциации DELOS, www.delos.info) по созданию эталонной модели ЭБ и стандартов их разработки. Отчасти это свя зано с тем, что в разных организациях существуют специфические требова ния, особенно касающиеся функциональных возможностей отдельно взятой системы. Именно поэтому обычно отдельные электронные библиотеки соз даются для специальных приложений и определенных целей и не являются тиражируемым продуктом.

Если говорить о «коробочных решениях» подобных систем, то здесь, в основном, известны такие системы, как DSpace (www.dspace.org), ePrints (www.eprints.org), GreenStone (www.greenstone.org) и Fedora (www.fedora commons.org). Также нужно упомянуть об электронной библиотеке «ELSA» (http://obs.ruslan.ru/?product:ELSA) – пожалуй, это единственное российское тиражируемое свободно распространяемое решение для электронных биб лиотек, которое разработано совместно ООО «Открытые библиотечные сис темы» и Санкт-Петербургским государственным политехническим универси тетом, хотя аналогичные работы ЭБ также ведутся, например, на базе Яро славского государственного университета им. П.Г. Демидова. Известны и крупные проекты по созданию научных электронных библиотек – научная ЭБ eLibrary (www.elibrary.ru) 1, общероссийский математический портал Math-Net.Ru (www.mathnet.ru).

Кроме того, недостаточно внимания уделяется особенностям создания ЭБ в вузе – здесь внутри ЭБ естественным образом происходит смешение науч ных электронных коллекций (ЭК) и образовательных ресурсов, наблюдается гетерогенность источников данных. К тому же могут существовать еще более специфические коллекции документов, например, в Казанском государствен ном университете (КГУ) за более чем двухсотлетнюю его историю накоплено большое собрание рукописей, старопечатных и редких книг, уникальной пе риодики. Большая часть этого собрания представляет значительный интерес и используется в учебном процессе и научных изысканиях, однако находится в ветхом состоянии и не выдается читателям на руки. Поэтому наиболее вос требованные из этих изданий были переведены в электронную форму, в ре зультате сформировано несколько разрозненных ЭК, основанных на фонде Отдела рукописей и редких книг Научной библиотеки КГУ. При условии, что в организации уже имеются разнородные ЭК, на этапе внедрения одной из существующих коробочных разработок для ЭБ в лучшем случае придется проводить работу по конвертации формата существующих БД ЭК в формат этой системы. В худшем же случае это повлечет за собой создание всех кол лекций заново, что приведет фактически к двойной работе и лишним трудо затратам.



Помимо этого в библиотеках, особенно вузовских, как правило, исполь зуются автоматизированные библиотечно-информационные системы (АБИС), которые также являются специализированными хранилищами больших по объему информационных ресурсов.

Таким образом, тема настоящего диссертационного исследования являет ся актуальной.

Целью работы является создание принципов построения, моделей и ал горитмов работы научно-образовательной ЭБ.

Основная задача – создание модели, алгоритмов и программного обес печения прототипа системы управления научно-образовательной электрон ной библиотекой с применением технологий Symantec Web и веб-сервисов, Глухов В. А., Елизаров А. М. Проект «Научная электронная библиотека eLibrary.ru» и российские элек тронные журналы: новый этап развития //Труды 8ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2006, Суздаль, Россия, 2006. – С. 203- объединяющей в единое целое все информационные ресурсы вуза с мини мальными изменениями уже существующего массива ЭД. Для достижения поставленной цели было выделено несколько подзадач.

Основные подзадачи диссертационного исследования:

· исследование и анализ существующих моделей и реализаций информа ционных систем управления ЭБ, а также других информационных систем близкой функциональности (электронных архивов, репозиториев и т. п.);

· разработка инфологической модели и логической структуры прототипа системы управления научно-образовательной ЭБ;

· создание моделей выполнения основных операций системы и разработ ка алгоритмов их реализации;

· реализация компонентов прототипа информационной системы, соот ветствующей выбранным моделям, методам и технологиям, в виде комплекса программ для ЭБ Казанского государственного университета.

Методы исследования. При решении поставленных задач использова лись методы математического и инфологического моделирования, системно го анализа, информатики, теории информационного поиска и теории баз дан ных.

Научная новизна результатов исследований состоит в следующем:

· построена инфологическая модель системы управления научно образовательной ЭБ;

· формализованы типовые операции системы ЭБ, разработаны модели и алгоритмы их работы;

· сконструирована логическая структура программного обеспечения (ПО) системы управления ЭБ;

· разработаны компоненты прототипа системы управления научно образовательной электронной библиотекой.

Достоверность результатов исследования. Научные результаты дис сертационной работы получены на основании достоверных знаний приклад ной информатики, систем управления базами данных, теории информацион ного поиска и использовании строгого математического аппарата. Получен ные результаты подтверждены положительными отзывами о них при обсуж дении на международных и всероссийских научных конференциях.

Практическая значимость результатов диссертационного исследования заключается в реализации предложенных в работе моделей, методов и алго ритмов при разработке системы управления научно-образовательной элек тронной библиотекой КГУ. В частности, разработан прототип системы управления вузовской электронной библиотекой, который позволил объеди нить существующие разрозненные электронные коллекции;

автоматизиро вать процесс создания и предоставления информационных ресурсов пользо вателям Научной библиотеки Казанского государственного университета по принципу «одного окна».

Внедрение системы управления ЭБ в Научной библиотеке КГУ позволи ло предоставить единую точку входа ко всем информационным ресурсам ву за, что в конечном итоге привело к повышению качества обслуживания чита телей библиотеки.

Предложенные инфологические модели, алгоритмы, а также система или ее отдельные модули могут быть использованы в качестве программного ре шения для электронных библиотек или отдельных электронных коллекций в различных прикладных областях.

Апробация работы. Основные результаты диссертации докладывались и обсуждались на объединенном семинаре НИИ математики и механики им.

Н.Г. Чеботарева КГУ и факультета вычислительной математики и киберне тики Казанского университета, а также на следующих международных, все российских и региональных конференциях: 11-й Международной конферен ции и выставке «LIBCOM 2007»: Информационные технологии, компьютер ные системы и издательская продукция для библиотек (Звенигород, Москов ская область, 12 – 16 ноября 2007 г.);

3-м Международном форуме (8-й Меж дународной конференции молодых ученых и студентов) «Актуальные про блемы современной науки» (Самара, 20 – 23 ноября 2007 г.);

12-й Междуна родной конференции и выставке «LIBCOM 2008»: Информационные техно логии, компьютерные системы и издательская продукция для библиотек (Звенигород, Московская область, 17 – 21 ноября 2008 г.);

Международной научной конференции «Современные информационные технологии и пись менное наследие: от древних текстов к электронным библиотекам El Manuscript-08» (Казань, 26 – 30 августа 2008 г.);

10-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и техноло гии, электронные коллекции – RCDL 2008» (Дубна, 7 – 11 октября 2008 г.);

11-й Всероссийской научной конференции «Электронные библиотеки: пер спективные методы и технологии, электронные коллекции – RCDL 2009» (Петрозаводск, 17 – 21 сентября 2009 г.).

Публикации. По теме диссертации опубликовано девять научных работ, в том числе одна статья в журнале из списка, рекомендованного ВАК РФ («Ученые записки Казанского университета»).

Структура и объем работы. Диссертационная работа состоит из введе ния, трех глав, заключения, списка литературы, приложения и изложена на 154 страницах.

Исследования проводились в 2007 – 2009 гг. при частичной финансовой поддержке Российского гуманитарного научного фонда (проект 07-01-12146).

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследования, описаны ре шаемые проблемы, рассмотрены общие подходы к построению электронных библиотек, электронных коллекций и интеграции информационных систем.





Введение дает характеристику основных проблем и задач, возникающих при этом.

Первая глава посвящена анализу основных понятий, задач и функцио нальных возможностей ЭБ как класса информационных систем.

В настоящее время стандартизованного определения электронной биб лиотеки не существует. Наиболее адекватным нам представляется определе ние Т.В. Ершовой и Ю.Е. Хохлова 2, которые определяют ЭБ как распреде ленную информационную систему, позволяющую надежно сохранять и эф фективно использовать разнородные коллекции электронных документов, а также предоставлять к ним доступ в удобном для пользователя виде через глобальные сети передачи данных.

В процессе становления электронных библиотек были выделены (см., на пример, итоговый отчет по европейскому проекту DELOS 3) три типа систем, которые объединяют все необходимые компоненты электронной библиотеки в единую структуру: это собственно электронная библиотека (Digital Library, DL), Информационная система электронной библиотеки (Digital Library Sys tem, DLS) и Система управления ЭБ (Digital Library Management System, DLMS).

Электронная библиотека (DL) – это система, которая собирает и хранит в течение длительного времени различные наборы электронных документов, в соответствии с принятыми политиками безопасности и правами доступа предоставляет с определенным измеряемым качеством сообществам пользо вателей специализированный функционал, связанный с этим содержанием.

Информационная система электронной библиотеки (DLS) – это сис тема программного обеспечения, которая основана на определенной, в т. ч. и распределенной архитектуре и обеспечивает все функциональные возможно сти, требуемые ЭБ. Пользователи взаимодействуют с ЭБ через соответст вующую систему электронной библиотеки.

Система управления ЭБ (DLMS) – это совокупность систем программ ного обеспечения, которая обеспечивает соответствующую инфраструктуру для формирования системы ЭБ. Подобная инфраструктура включает набор основных функциональных возможностей ЭБ, а также функции для управле ния ими;

объединяет дополнительное программное обеспечение, обеспечи вающее специализированные или дополнительные функциональные возмож ности.

На данный момент не существует единых принципов формирования про граммного обеспечения ЭБ, а соответствие различным требованиям реализу ется, как правило, в зависимости от каждого конкретного случая. Подобный подход не удобен, особенно когда речь идет об объединении некоторых сис тем в единое целое или хотя бы о взаимодействии систем ЭБ между собой.

Для преодоления этого недостатка в рамках одного из крупных европейских Ершова Т. В. Межведомственная программа «Российские электронные библиотеки» [Электронный ресурс] / Т. В. Ершова, Ю. Е. Хохлов // Электронные библиотеки: рос. науч. электронный журн. – 1999. – Т. 2, вып.

2. – Режим доступа: http://www.elbib.ru/index.phtml?page=elbib/rus/journal/1999/part2/ershova The Digital Library Manifesto L. Candela, D. Castelli, Y. Ioannidis, G. Koutrika, P. Pagano, S. Ross, H.-J. Schek, H. Schuldt, 2006, проектов создана типовая эталонная архитектура ЭБ 4. Рассматриваемая ти повая эталонная архитектура представляет ЭБ не как строго выстроенную вертикальную систему, а как набор независимых компонент, каждый из ко торых выполняет свою функцию. Она представлена на рис. 1;

компоненты организованы в три главных уровня, каждый из которых в свою очередь де лится на модули.

Рис. 1. Архитектура ЭБ На прикладном уровне ЭБ cгруппированы компоненты, которые реали зуют прикладную логику библиотеки. Интегратор объединяет все компо ненты, взаимодействующие с различными внешними ресурсами, которые мо гут быть неоднократно использованы при создании ЭБ. Способность объеди нять и использовать различные готовые системы и внешние информацион ные ресурсы – одно из главных требований при построении объединения систем ЭБ. Остальные компоненты, которые реализуют основной функцио нал ИС ЭБ, также объединены в модули:

· модуль управления доступом к ИР – связан с поиском и доступностью новых ресурсов;

· модуль управления информационным доменом включает необходимые инструменты, обеспечивающие сохранность ИР;

· модуль управления библиотекой реализует инструментарий, необходи мый для управления редакторскими и пользовательскими правами доступа и политиками безопасности, а также управление процессами информационного домена;

· модуль управления пользователями реализует функционал работы с информацией о пользователях и группе пользователей;

· модуль представления (интерфейс пользователя) – это модуль, отве DELOS Workpackage 1. D1.4.2 – Reference Model for Digital Library Management Systems, M. Agosti, L. Can dela, D. Castelli, N. Ferro, Y. Ioannidis, G. Koutrika, C. Meghini, P. Pagano, S. Ross, H.-J. Schek, H. Schuldt, чающий за предоставление всех возможностей ЭБ конечному пользователю;

модуль не ограничивается лишь интерфейсом пользователя, сюда также вхо дят любые другие интерфейсы, которые требуются для улучшения доступно сти, удобства и простоты использования содержимого ЭБ.

Далее идет уровень взаимодействия, на котором реализуются необхо димые механизмы для связи и обмена данными компонентов между собой, иными словами, этот уровень отвечает за взаимодействие слабосвязанных компонентов ЭБ между собой. Его задача – создать единую, стабильную, корректно работающую систему, скрыть от конечного пользователя возмож ную разобщенность компонентов системы.

Все вышестоящие компоненты зависят от уровня физической реализа ции приложения, который обеспечивает необходимый функционал для их работы. Поскольку различные среды разработки предоставляют различный функционал, то гибкость и расширяемость всех верхних модулей напрямую зависит от выбранной среды реализации приложения.

Если рассматривать электронную библиотеку вуза, то ни одна из назван ных систем не учитывает особенностей вуза. Сегодня большинство ЭБ – те матические и содержат в основном электронные аналоги печатных изданий, ЭБ же вуза содержит более широкий спектр информационных ресурсов, т. е.

является политематической. Это определяется хотя бы тем, что в вузе суще ствует всегда не менее двух направлений деятельности – образовательная и научная, а в классических университетах, объединяющих множество науч ных направлений, ЭБ однозначно не может быть посвящена единственной тематике. В зависимости от области применения к ЭБ предъявляются раз личные требования к ресурсам, метаданным, форматам их описания, которые слабо пересекаются между собой, но должны быть связаны в единую ИС.

При условии, что в организации уже имеются разнородные электронные коллекции, на этапе внедрения новой, вертикально выстроенной системы для хранения и управления сложными электронными объектами так либо иначе возникнут проблемы адаптации существующих ЭК и внедряемой системы, которые в конечном итоге приведут к лишним трудозатратам.

Таким образом, существует потребность в разработке модели и создании прототипа вузовской научно-образовательной ЭБ, которая удовлетворила бы максимум потребностей пользователей, стала составной частью комплекса информационных систем вуза, в частности, КГУ, а также позволила объеди нить в единое целое существующие наработки в этой области.

Во второй главе определяются требования к ИС ЭБ вуза, рассматривает ся инфологическая модель научно-образовательной электронной библиотеки вуза, анализируется архитектура ЭБ, а также определяются и формализуются алгоритмы типовых операций в системе.

Наиболее распространенным способом долговременного хранения ин формации в настоящее время являются реляционные базы данных (РБД). Как известно 5, РБД можно представить следующей моделью: M = ({A},{R},{D}), где {A} – множество атрибутов, {R} – множество отношений, {D} – множест во зависимостей.

Модель M возникает в результате содержательного анализа предметной области. На практике для получения множества атрибутов, отношений и час ти зависимостей, описывающих предметную область, используется инфоло гическое моделирование (см., например, 6 и 7).

Рассмотрим инфологическую модель системы электронной библиотеки (см. рис. 2). Выделим основные сущности. Поскольку ЭБ состоит из элек тронных коллекций, то разумно выделить сущность «ЭК». Она должна со держать уникальный идентификатор коллекции и ряд атрибутов. Атрибуты коллекции должны отражать особенности описания самой коллекции, общих свойств документов, содержащихся в ЭК, а также связи между документами и коллекцией.

Рис. 2. Инфологическая модель ЭБ Электронная коллекция состоит из разделов и электронных документов.

Раздел коллекции должен содержать в точности такие же атрибуты, что и са ма коллекция, поэтому не будем выделять раздел как отдельную сущность, Кузнецов С. Д. Основы баз данных / С. Д. Кузнецов – М.: Бином, 2007 – 488 с.

Когаловский М. Р. Энциклопедия технологий баз данных / М. Р. Когаловский – М.: Финансы и статистика, 2002 – 800 с.

Чен П. Модель «сущность-связь» – шаг к единому представлению о данных // СУБД. – 1995. – № 3. – С. 137 – но должна быть предусмотрена возможность организации древовидной структуры ЭК и их разделов. Информационным ресурсом (ИР) будем назы вать основную единицу содержания ЭК, ИР состоит из электронного доку мента и его описания. Соответственно, необходимо рассмотреть сущность «Информационный ресурс». Поскольку в каждой коллекции содержится множество ИР, то здесь присутствуют связи «один – ко – многим». С другой стороны, один ИР может содержаться в нескольких ЭК, т. е. ЭК и ИР связаны связью «многие – ко – многим».

Отдельно охарактеризуем сущность «Информационный ресурс». ИР можно представить как данные (собственно электронный документ) и мета данные, описывающие эти данные. В самом простом случае данные – это би нарный, текстовый или графический файл. С другой стороны, файлов в элек тронном документе может быть несколько, однако нескольким файлам со поставляется одно описание ИР. Поскольку ЭБ – это еще и долговременное хранилище данных, то необходимо отслеживать все изменения не только описаний ИР, но и данных документов. Поэтому в рассмотрение введена но вая сущность, названная «Контейнер ИР». Каждому описанию ИР ставится в соответствие только один контейнер ресурса (связь «один – к – одному»). Эта сущность помимо уникального идентификатора содержит ряд атрибутов, ко торые отвечают за целостность и изменение данных документа, т. е. отсле живаются дата добавления/изменения документа, формат представления ЭД, полный путь к данным, связи внутри ЭД. В контейнере ЭД может содержать ся несколько «Единиц хранения ИР» («один – ко – многим»). Это сущность, которая содержит информацию о конкретном файле или битовом потоке со ответствующего электронного документа (ID, контрольную сумму, связи с другими частями ЭД, описание) и является неделимым информационным объектом. В свою очередь информационный ресурс также может иметь более сложную структуру, например, состоять из различных частей (журнал состо ит из статей, книга – из отдельных глав и частей). Здесь возникает вопрос, что считать неделимым ИР. Можно считать один том журнала одним элек тронным документом. Однако такой информационный ресурс требует внут ренней навигации. С другой стороны, каждая журнальная статья имеет своих авторов, поэтому логичнее считать именно отдельную статью неделимым информационным ресурсом. Но статья содержится в журнале и является его частью. Поэтому требуется механизм, который отображал бы подобные ие рархии ИР. По этой причине при построении инфологической модели ис пользовано предположение, что ИР может состоять из частей, что позволяет отразить возможную иерархию ИР.

Учитывая текущие тенденции развития СУБД и распространенность ре ляционных БД (см., например, 8), нами предложено реализовывать получен ную инфологическую модель с помощью реляционной базы данных. Для бы строй и корректной работы инфологическая модель БД должна быть приве Кузнецов С. Д. Основы баз данных / С. Д. Кузнецов – М.: Бином, 2007 – 488 с.

дена к нормальной форме. Технические моменты преобразования инфологи ческой модели в нормальную форму и создания реляционной модели БД ос тавлены вне поля зрения данного исследования, поскольку известны одно значные алгоритмы таких преобразований (см., например, там же).

Условно поделим все ПО для ЭБ на две части (см. рис. 3) – уровень кол лекции и уровень электронной библиотеки в целом. На уровне коллекции формируется ПО для отдельно взятой коллекции информационных ресурсов, на уровне библиотек производится объединение всех ЭК в одно целое. Двух уровневая структура ПО для ЭБ, на наш взгляд, позволяет наряду с создани ем новых компонент системы задействовать уже готовые решения, которые могут быть использованы в качестве независимых модулей системы ЭБ. Сле довательно, ИС электронной библиотеки имеет сервис-ориентированную ар хитектуру. Учитывая, что подобная система тесно связана со всемирной пау тиной, разработка системы сводится к разработке набора различных веб сервисов.

Рис. 3. Логическая структура системы В диссертации предложены алгоритмы работы с системой. Опишем ос новные из них.

Поиск информационных ресурсов Рассмотрим подробнее операцию поиска документов (рис. 4). Можно вы делить простой и общий поиск. Под простым поиском понимается операция поиска данных, выполняемая в рамках одной электронной коллекции. Вве дем следующие определения.

Определение 1. Атомарным будем называть запрос на поиск всех ресур сов, значение определённого атрибута которых удовлетворяет заданному ог раничению.

Определение 2. Множеством запросов Q будем называть множество, в ко торое входят атомарные запросы, выражения вида q1 q2, q1 q2, q1 q2 q Q.

Множество запросов мы определяем как множество логических выраже ний над атомарными запросами. Будем говорить, что ресурс R удовлетворяет запросу q Q, если справедливо одно из следующих высказываний:

· q является атомарным запросом, R удовлетворяет Q;

· q является выражением вида q1 q2, R удовлетворяет q1 и q · q является выражением вида q1 q2, R удовлетворяет q1 или q · q является выражением вида q1 q2, R удовлетворяет q1 и не удовле творяет q Рис. 4. Схема процесса «Поиск информационных ресурсов» Тогда операцией простого поиска будет функция search(S,q), где S – схема данных коллекции, которая каждому запросу из множества Q ставит в соот ветствие множество удовлетворяющих ему идентификаторов.

Реализация операции. Для запросов из множества Q применяется простой алгоритм построения SQL-запросов для атрибутного поиска. Для более чет кого определения пользователем поисковых термов и минимизации опечаток выполняются запросы для отображения справочных данных из БД в поиско вой форме. На следующем этапе из непустых полей формы формируется ус ловие на выборку данных из БД описаний ЭК. Заметим, что должен быть указан хотя бы один поисковый терм, запросы вида «найти все ресурсы» не выполняются.

Под общим поиском будем понимать одновременный поиск по несколь ким источникам данных с последующей интеграцией результатов. В общем случае для операции общего поиска задается запрос такого же вида, как и для простого поиска, и указывается коллекция узлов, по которым будет осущест влена операция. В нашем случае в качестве коллекции узлов для поиска вы ступает все информационное пространство ЭБ. Простой поиск может, с точ ки зрения пользователя системы, не работать корректно в тех случаях, когда в запросе задаются условия на связанный объект, и удовлетворяющий им связанный объект находится в другом информационном источнике. В таких случаях информации в рамках локального источника недостаточно для вы полнения запроса, и часть удовлетворяющих запросу ресурсов будет не най дена.

Если для простого поиска задача выполнения запроса ложится целиком на информационную систему отдельной коллекции, то совместный поиск выполняется при взаимодействии нескольких информационных источников и посредника, роль которого играет программный компонент электронной библиотеки.

Определение 3. Источник данных ЭК представляет собой кортеж D=i, S, G, m, где i – идентификатор источника;

S – граф, определяющий схему дан ных источника;

G – граф, представляющий собой данные источника, соот ветствующие его схеме S;

m – метаданные, соответствующие схеме метадан ных коллекции.

Определение 4. Под описанием ресурса будем понимать подграф, в кото рый входит сам ресурс, связанные с ним простые и сложные атрибуты, но не входят утверждения относительно связанных с ним классов.

Определение 5. Совместимым набором источников W называется тройка W = D, K, w, где:

· К – каноническая схема данных ЭБ;

· представляет собой множество источников данных D D=(D1,D2,..,Dn), таких, что " Dk, Dl D : =k il Dk = Dl ;

i · схема данных каждого источника данных является расширением кано нической схемы данных;

· w является функцией, определенной на множестве идентификаторов ресурсов, которая сопоставляет каждому идентификатору из Gi идентифика тор его источника i.

Для того чтобы можно было отслеживать принадлежность данных, вве дено понятие соответствия ресурсов и информационных источников. Для каждого ресурса определен один источник, которому он принадлежит, соот ветственно, данным, полученным из этого источника, для указанного ресурса можно доверять.

Определение 6. В объединение данных совместимого набора Y источни ков W входят все тройки, которые являются описанием какого-либо ресурса в источнике данных, если ресурс принадлежит этому источнику.

Тогда под операцией общего поиска будем понимать функцию search_all( W,q), которая каждому запросу из множества Q(K) ставит в соот ветствие множество удовлетворяющих ему идентификаторов в Y.

Реализация операции Общий поиск по электронной библиотеке осуществляется с помощью дублирования поисковых запросов на все серверы, о которых известно сер вису электронной библиотеки. Каждая коллекция может быть внутренней или внешней по отношению к сервису ЭБ. В зависимости от коллекции для поиска используются разные веб-сервисы. Поступающие результаты объеди няются в одну коллекцию, которая отображается пользователю. Дубликаты в коллекции определяются по совпадению URI.

Поскольку прототип системы реализуется внутри одной организации, то это позволяет пренебречь некоторыми особенностями, которые возникают при работе с распределенной системой.

Таким образом, процесс выполнения запросов можно поделить на не сколько шагов.

На первом шаге для каждой коллекции полученный запрос переформули руется так, чтобы программное обеспечение отдельно взятой коллекции мог ло его обработать. Для этого используется специальное преобразование, из меняющее запрос в зависимости от заданного профиля метаданных коллек ции. Например, для передачи запроса по протоколу Z39.50 исходный поиско вый запрос должен быть преобразован в type 1 запрос с использованием на бора атрибутов BIB-1 протокола Z39.50.

На следующем шаге запрос передается каждой доступной электронной коллекции для выполнения.

На третьем шаге производится сбор полученных ответов. При этом ожи дается, что ответы на запросы будут представлены в едином коммуникатив ном формате, идентификаторы одного и того же документа могут быть от фильтрованы.

Далее производится отображение полученных результатов в виде, понят ном пользователю. Учитывая выбор xml-технологий для реализации прото типа ЭБ, пользователю будут представлены результаты в виде xml-файла.

Для более удобного отображения к результатам запроса может быть приме нено xsl-преобразование.

Добавление новых ресурсов. Жизненный цикл ИР В результате операции добавления обновляются как метаданные, так и данные информационного источника. Ресурс R можно охарактеризовать его метаданными и данными, т. е. R=R(m, d).

Определение 7. Операцией добавления ресурса R = R (m, d ) в источник r r данных D = i, S, G, m будем называть функцию add(R,D), которая возвра щает новый источник данных D' = i', S ', G', m', такой, что:

S'= S ;

M ' = m M, где M и M ' – множества метаданных D и D ' соответст r венно;

G' = d G ;

r i i' ;

Реализация операции Информационные объекты, прежде чем стать полноценной частью элек тронной библиотеки, должны пройти несколько стадий опубликования.

Опишем жизненный цикл информационных ресурсов (см. рис 5).

Рис. 5. Схема процесса «Добавление информационного ресурса» Автор создает новый документ – создается пустой документ, содержащий метаданные нового ИР, он получает статус «Предварительное описание».

Далее производится загрузка электронного документа и таким образом соз дается первичный ИР. Каталогизатор проверяет корректность описания ИР, а также соответствие самого документа и его описания требованиям библиоте ки, предъявляемым к электронным ресурсам. Если качество документа не удовлетворительное, то каталогизатор может вернуть документ автору, если же качество ИР удовлетворительное, то ИР присваивается статус «Публич ный черновик», при этом может быть проведена необходимая доработка ме таданных. После того, как документ получил статус «Публичный черновик», он проверяется редактором и при удовлетворительном результате получает статус «Опубликованный». С этого момента к документу предоставляется публичный доступ, и он становится полноценным элементом электронной коллекции, к нему могут быть применены любые другие операции. В про тивном случае документ возвращается на предыдущие шаги или вовсе удаля ется из коллекции.

Для создания новых документов пользователь должен обладать соответ ствующими правами доступа. Без проверки редакторами документ хотя и может быть добавлен в систему, но не будет доступен другим пользователям системы. До получения документом статуса «Опубликованный» только автор и редакторы могут производить с ним какие-либо операции.

Создание электронных коллекций Поскольку электронная библиотека состоит из коллекций, то необходимо подробнее остановится на процессах создания новых и подключения внеш них коллекций к системе.

Из-за двухуровневой структуры всей системы – уровень коллекции и уровень библиотеки – операция создания коллекций присутствует на обоих уровнях, хотя имеет разные смысл.

Уровень коллекции. На этом уровне необходимо сформировать источник данных, иными словами, необходимо определить кортеж i, S, G, m и под готовить источник данных к дальнейшему добавлению ресурсов.

В предлагаемом прототипе системы в качестве схемы профиля метадан ных используется XML-схема. На основе схемы профиля метаданных опре деляются остальные множества источника данных.

Таким образом, для создания коллекции необходимо проанализировать схему профиля метаданных. Однако даже все встроенные функции языка по зволяют лишь делать частичный анализ профиля метаданных, дальнейшую же обработку и создание структуры базы данных на основе профиля необхо димо производить самостоятельно.

Процесс создания коллекции проводится в несколько этапов.

1. Анализ XML-схемы профиля метаданных Функции анализа XML-схемы получает на вход файл схемы по указан ному пути, производит ее декомпозицию и анализ, в результате чего форми руется перечень полей основных таблиц, вспомогательных таблиц (справоч ников) и их типов.

В процессе разбора XML-схемы используются встроенные средства язы ков программирования для первичного анализа схемы. С помощью встроен ных функций языка файл схемы разбирается и преобразуется в дерево xml документа, далее производится разбор тегов и отсев лишних значений. Важ но учитывать, что нас интересуют лишь теги, имеющие смысловую нагрузку.

2. Генерация структуры базы данных на основе профиля метаданных Функция создает основные таблицы в базе данных. На вход подается массив с полями и типами полей таблиц, в результате на основе полученных данных генерируется SQL-запрос на создание таблиц.

3. Генерация справочников и заполнения их информацией На данном этапе справочники создаются и заполняются данными на ос нове XML-схемы. Заметим, что справочники могут пополняться уже по ходу создания электронных коллекций, однако тогда будет необходим повторный анализ XML-схемы. Программно второй и третий этапы реализованы вместе, но семантически они различны.

На уровне библиотеки смысл операции несколько иной. После создания коллекций необходимо указать сервису библиотеки точки входа для поиско вых интерфейсов коллекции. Параметры, вообще говоря, зависят от того, ка кую коллекцию включаем в библиотеку. Если реализуется SOAP, то необхо димо указать wsdl-файл с описанием сервиса, если же речь идет о доступе по протоколу Z39.50, то необходимо указать адрес сервера и список доступных атрибутов BIB-1 и баз данных. Следовательно, создание коллекции на этом уровне – это внесение новой ЭК в список коллекций библиотеки с учетом ее особенностей (профиля метаданных, технологий реализации, протоколов доступа).

Регистрация и учет ресурсов Электронная библиотека содержит электронные документы, данные и метаданные. Одной из функций подобных систем также является обеспече ние сохранности данных системы. Если говорить о метаданных системы, ко торые хранятся в БД, то их сохранность вполне можно обеспечить инстру ментами используемой СУБД. Однако кроме метаданных необходимо обес печивать сохранность и подлинность собственно документов, которые со держит библиотека.

Для построения электронной научно-образовательной библиотеки вуза было принято решение использовать следующий подход – в качестве среды хранения документов использовать файловую систему, в прототипе системы реализовать базовый функционал, который, по крайней мере, мог бы предос тавить информацию о подлинности файла и времени санкционированного и последнего изменения документа и его описания. К тому же, размещение ре сурсов в файловой системе веб-сервера также позволяет сделать ресурсы «прозрачными» для поисковых машин интернета.

Рис. 6. Схема процесса «Регистрация информационного ресурса» Схема процесса регистрации ресурсов показана на рис. 6. Опишем его подробнее. После указания статуса «Готов к публикации» (т. е. признака окончания первичного описания документа) система ожидает загрузки доку мента. В случае успешной загрузки документ будет сохранен на сервере, пу ти к нему, полное имя и другие данные должны быть зафиксированы в БД коллекции. Документ может принадлежать только одной коллекции, ему в соответствие ставятся его описание и уникальный идентификатор. Для уста новления подлинности документа вычисляются контрольные суммы, кото рые также фиксируются в БД. Таким образом, всегда можно установить, из менялся ли документ и когда было последнее изменение.

Третья глава посвящена основному применению предлагаемых выше моделей и технологий – разработке компонентов прототипа системы ЭБ.

В настоящий момент в Научной библиотеке КГУ существует два типа коллекций, самым существенным различием между которыми является спо соб организации: это коллекции, организованные с помощью эксплуатируе мой там АБИС «Руслан», и коллекции, ориентированные на использование XML-технологий с профилем метаданных, основанном на Dublin Core. Соот ветственно, при разработке прототипа системы ЭБ учитывались сложившая ся ситуация и особенности ЭК, предлагаемые решения в первую очередь ап робировались на существующих ЭК, делался акцент на максимально полное использование уже существующих модулей, а также готового массива элек тронных документов. В качестве тестового массива ЭД использовались дан ные и метаданные коллекции периодической печати, конкретно – номера га зеты «Казанские известия» за 1816 год.

На данный момент система представляет следующий функционал:

· Регистрация, авторизация и изменение профилей пользователей и их прав доступа. Практически все действия, связанные с изменением ИР или их описаний, не должны быть доступны любому пользователю, поэтому реали зованы функции управления пользователями;

· Добавление ИР, сервисы самокаталогизации, отслеживание жизнен ного цикла ИР. Для любого зарегистрированного пользователя доступны сер висы загрузки собственных ИР, каждый ресурс должен иметь корректное описание, поэтому необходимо отслеживать текущие статусы ИР и предос тавлять инструментарий для проверки корректности описаний;

· Регистрация изменений с данными, расположенными на физическом носителе. Электронный документ случайно или специально может быть ис кажен или вовсе удален, поэтому реализованы функции, фиксирующие даты изменения документа и проверяющие его подлинность;

· Создание ЭК на основе формального описания их профиля метадан ных. На основе профиля метаданных ЭК создается поисковая система по данной коллекции, позволяющая производить атрибутный поиск;

· Поиск и представление ИР пользователям. Реализованы локальный поиск коллекциям и общий поиск по всей ЭБ, а также отображение результа тов пользователю;

· Передача запроса по протоколу Z39.50 в АБИС и сбор результатов.

При создании системы управления ЭБ использовалось только свободно распространяемое ПО. Система реализована с использованием XML технологий на языке программирования PHP, база данных организована на основе СУБД MySQL, также использовались библиотеки Zend Framework.

БД содержит описания ИР, точки подключений и другую вспомогатель ную информацию, задействованную в процессах обработки и отображения данных. Фактически система состоит из двух слабосвязанных частей, каждая из которых имеет свои БД и программное обеспечение, что отражено в архи тектурной модели системы управления вузовской ЭБ. Таким образом, всю программную систему можно разделить на две части в соответствии с уров нями коллекции и библиотеки в целом.

В свою очередь в ПО на каждом из уровней выделено несколько подсис тем, реализующих различные группы функций.

Уровень коллекции. Программное обеспечение уровня коллекции функ ционально делится на следующие части:

· подсистема авторизации и управления пользователями;

· подсистема формирования метаданных;

· подсистема поиска в информационном пространстве коллекции.

На этом уровне библиотеки можно выделить следующие подсистемы:

· авторизации и управления пользователями;

· управления коллекциями;

· поиска во всем информационном пространстве библиотеки.

На данный момент поддерживается несколько разновидностей профилей метаданных: Dublin Core с уточняющими квалификаторами и RUSLOM. Для тестовой коллекции периодической печати предложено использовать схему «DC+ уточняющие квалификаторы» 9. Такой подход является, с нашей точки зрения, более универсальным и позволяет формировать более полные описа ния, нежели просто элементы Дублинского ядра.

Система предоставляет максимально полный атрибутный поиск по кол лекции. При поиске отбираются только те ресурсы, поля которых удовлетво ряют заданным атрибутам, незаполненные поля в поиске не участвуют, поля объединяются логической связкой AND.

Поиск возвращает все описания документов, которые удовлетворяют за данным атрибутам и доступны для поиска в виде xml-файла. Для отображе ния к результатам поиска применяется xsl-преобразование, которое задается при создании ЭК. Таким образом, администратор имеет удобную возмож ность настройки отображения результатов поиска, что позволяет гибко зада вать форматы отображения для каждой коллекции.

Для осуществления общего поиска для коллекций, которые поддержива ют технологию веб-сервисов (а таковыми являются все внутренние коллек ции), используется парадигма REST. Для связи с коллекциями АБИС реали зована поддержка Z39.50 (Z39.50-клиент). При поиске ищутся любые совпа дения значений и заданного поискового запроса. Отображение результатов поиска осуществляется в соответствии с квалификаторами Dublin Core в фиксированном табличном виде. Для уточнения полученных результатов предлагается переход к конкретной коллекции, содержащей данное описа ние.

В заключении приведены основные результаты работы.

В приложении дан краткий обзор некоторых проектов систем электрон ных библиотек и систем близкой тематики, разработанных в России и за ру бежом.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ 1. Проведены исследование и анализ существующих моделей и реализа ций информационных систем управления ЭБ, а также других информацион ных систем близкой функциональности (электронных архивов, репозиториев и т. п.). Проведенный анализ показал их разнородность практически по всем Абросимов А. Г. Метаданные описания коллекции периодической печати [Электронный ресурс] // Элек тронные библиотеки: рос. науч. электронный журн. – 2005. – Т. 8 вып. 2. – режим доступа:

http://www.elbib.ru/index.phtml?page=elbib/rus/journal2005/part2/Abrosimov, свободный критериям, по которым он проводился. Обоснована необходимость разработ ки моделей, технологий и прототипа научно-образовательной ЭБ.

2. Разработана инфологическая модель системы управления научно образовательной ЭБ вуза, которая учитывает специфику последнего, однако вполне может быть применима для создания любой системы, объединяющей разнородные электронные коллекции.

3. Для научно-образовательной ЭБ предложена двухуровневая логическая структура. Предусматриваемая структура ПО для ЭБ позволяет наряду с соз данием новых компонент системы задействовать уже готовые решения, ко торые могут быть использованы в качестве независимых модулей системы ЭБ, что позволит объединять не только коллекции, созданные самой систе мой, но и любые электронные коллекции, ПО которых может предоставить соответствующие интерфейсы для связи.

4. Формализованы типовые операции в ЭБ, созданы модели их выполне ния и разработаны алгоритмы их реализации, что позволило создать про граммные модули для реализации данных алгоритмов и системы в целом.

5. На основе рассматриваемых моделей и алгоритмов реализованы про граммные компоненты и отдельные модули системы управления электрон ной библиотекой. Разработаны компоненты прототипа системы управления научно-образовательной электронной библиотекой. Предлагаемые подходы, методы, структуры, модели и программные модули практически реализованы в электронной библиотеке Казанского государственного университета.

Основное содержание диссертации изложено В изданиях, рекомендованных ВАК РФ:

1. Абросимов А. Г., Инфологическая модель научно-образовательной электронной библиотеки вуза / А. Г. Абросимов, Д. С. Зуев // Ученые записки Казанского университета. Сер. Физ.-мат. науки. – 2009 – Т. 151, кн. 3 – С. 167–179.

В других изданиях:

2. Зуев Д. C., Программная оболочка для интеграции электронных кол лекций Казанского университета [Электронный ресурс] / Д. С. Зуев // Ин формационные технологии, компьютерные системы и издательская продук ция для библиотек «Libcom-2007»: докл. и тез. докл.. – М.: ГПНТБ России, 2007. – URL: http://www.gpntb.ru/libcom7/disk/12.pdf.

3. Абросимов А. Г., Принцип построения программного обеспечения электронной коллекции периодической печати / А. Г. Абросимов, Д. С. Зуев // Актуальные проблемы современной науки: труды 3-го Междунар. форума (8-й междунар. конф. молодых ученых и студентов). Естественные науки. Ч.

1–2: Математика. Математическое моделирование. – Самара: Изд-во Сам ГТУ, 2007. – С. 78–83.

4. Абросимов А. Г., Научно-образовательная электронная библиотека ву за / А. Г. Абросимов, Д. С. Зуев // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: труды 10-й Всерос. науч.

конф. «RCDL’2008» (Дубна, Россия, 7-11 октября 2008 г.). – Дубна: ОИЯИ, 2008 – С. 374–379.

5. Абросимов А. Г., Электронная коллекция информационно образовательных ресурсов КГУ [Электронный ресурс] / А. Г. Абросимов, Д. С. Зуев // Информационные технологии, компьютерные системы и изда тельская продукция для библиотек: 12-я Междунар. конф. и выставка «Lib com-2008»: докл. и тез. докл. – М.: ГПНТБ России, 2008. – URL:

http://www.gpntb.ru/libcom8/disk/2.pdf.

6. Зуев Д. C., Принципы построения программного обеспечения для раз нородных коллекций в вузе / Д. C. Зуев // Современные информационные технологии и письменное наследие: от древних текстов к электронным биб лиотекам: материалы Междунар. науч. конф. (Казань, 26–30 августа 2008 г.) / отв. ред. В. Д. Соловьев, В. А. Баранов. – Казань: Изд-во Казан. гос. ун-та, 2008 – С. 123–127.

7. Зуев Д. C., Модели и принципы построения прототипа программной системы управления вузовской электронной библиотекой / Д. С. Зуев // Элек тронные библиотеки: перспективные методы и технологии, электронные коллекции: труды 11-й Всерос. науч. конф. «RCDL’2009» (Петрозаводск, Россия, 17–21 сентября 2009 г.). – Петрозаводск: ИПМИ КарНЦ РАН, 2009. – С. 203–209.

8. Абросимов А. Г., Принципы создания электронной библиотеки: опыт Казанского ГУ / А. Г. Абросимов, Д. С. Зуев // Государственная и муници пальная служба в России и Татарстане: истоки и современные тенденции развития: Всероссийская научно-практическая конференция, посвященная 250-летию подготовки кадров для государственной службы в г. Казани: ма териалы пленарного и секционных заседаний. – Казань: Центр инновацион ных технологий, 2009. – Кн. 3. – С. 18-24.

9. Зуев Д. C., Прототип научно-образовательной библиотеки вуза / Д. С. Зуев // Труды Математического центра имени Н. И. Лобачевского: Ма териалы Восьмой молодежной научной школы-конференции «Лобачевские чтения – 2009» (Казань 1 – 6 ноября 2009 г.) – Казань: Казан. матем. об-во., 2009. – Т. 39. – С. 232-235.

В заключение считаю необходимым выразить благодарность своему научному руководителю профессору А. М. Елизарову, А. Г. Абросимову, а также сотрудникам Научной библиотеки им. Н. И. Лобачевского Казанского государственного университета за неоценимую помощь, оказанную при на писании диссертационной работы.



 

Похожие работы:





 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.