авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Разработка модели и алгоритмов обнаружения вторжений на основе динамических байесовских сетей

На правах рукописи

ДАЙНЕКО Вячеслав Юрьевич РАЗРАБОТКА МОДЕЛИ И АЛГОРИТМОВ ОБНАРУЖЕНИЯ ВТОРЖЕНИЙ НА ОСНОВЕ ДИНАМИЧЕСКИХ БАЙЕСОВСКИХ СЕТЕЙ 05.13.19 — Методы и системы защиты информации, информационная безопасность

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург — 2013 2

Работа выполнена на кафедре проектирования и безопасности компьютерных сис тем федерального государственного бюджетного образовательного учреждения выс шего профессионального образования «Санкт-Петербургский национальный исследо вательский университет информационных технологий, механики и оптики» (НИУ ИТМО).

Научный консультант: доктор технических наук, профессор, Арустамов Сергей Аркадьевич

Официальные оппоненты: Ожиганов Александр Аркадьевич, доктор технических наук, профессор, НИУ ИТМО, профессор кафедры вычислительной техники Соколов Сергей Сергеевич, кандидат технических наук, ФГБОУ ВПО «Государственный универси тет морского и речного флота имени адмира ла С.О. Макарова», доцент кафедры при кладной математики

Ведущая организация: Федеральное военное государственное обра зовательное учреждение высшего профес сионального образования «Военно космическая академия имени А.Ф. Можайского» Министерства обороны Российской Федерации (ВКА имени А.Ф. Можайского)

Защита диссертации состоится «10» апреля 2013 года в 15 ч 50 мин на заседании диссертационного совета Д 212.227.05 при Санкт-Петербургском национальном ис следовательском университете информационных технологий, механики и оптики по адресу: 197101, г. Санкт-Петербург, Кронверкский пр., д. 49.

Отзывы на автореферат, заверенные печатью, просим направлять по адресу:

197101, Санкт-Петербург, Кронверкский пр., д. 49, НИУ ИТМО, ученому секретарю диссертационного совета Д 212.227.05.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского нацио нального исследовательского университета информационных технологий, механики и оптики.

Автореферат разослан « 7 » марта 2013 г.

Ученый секретарь диссертационного совета Д 212.227. кандидат технических наук, доцент В. И. Поляков

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Развитие средств защиты для компьютерных систем продикто вано применением со стороны злоумышленников новых техник проникновения и появ лением новых видов использования уязвимостей в компьютерных системах. С каждым годом количество вредоносных программ, реализующих новые типы атак, увеличивает ся. Для построения комплексной системы защиты наравне с остальными традиционно используемыми инструментами защиты все чаще применяют системы обнаружения вторжений (СОВ).

К сожалению, низкая надежность работы СОВ приводит к необходимости частого участия человека в обслуживании СОВ для корректировки метода обнаружения. Систе ма обнаружения вторжений после ввода в эксплуатацию способна в течение некоторого промежутка времени эффективно функционировать. Однако с течением времени эффек тивность системы может снижаться, что приводит к увеличению ложных срабатываний и отсутствию реакции на вторжения. Поэтому СОВ сложны в наладке и требуют высо коквалифицированного обслуживающего персонала. Изложенные особенности функ ционирования известных СОВ делают решение проблемы автономности работы СОВ актуальной.

Автором предложен подход для построения сетевой системы обнаружения вторже ний на основе вероятностной модели, которая способна описывать процессы в условиях нехватки данных. Задачи, способные решать вероятностные модели, используют проце дуры вероятностного вывода. Различные процессы порождают последовательности дан ных, которые находят свое отражение в пространстве окружения протекания процесса.

Процесс вторжения в компьютерных системах проявляется в изменениях последова тельности сетевого трафика, профиля поведения пользователя, последовательности сис темных вызовов к ядру операционной системы. В работе для сетевых СОВ предлагается вероятностная модель на основе последовательности характеристик сетевого трафика, так как большинство вторжений происходит с использованием компьютерных сетей. Как правило, выделяют три этапа вторжения: сканирование сети;

воздействие на уязви мость;

повторное получение управления системой через загруженную программу, использующую недокументированный вход в систему. Среди разновидностей веро ятностных моделей наиболее перспективным является применение динамических байе совских сетей (ДБС), которые описываются в пространстве состояний в виде ориентиро ванных графов. Методы и алгоритмы, основанные на использовании ДБС, превосходят другие вероятностные модели в точности описания моделируемых процессов и гибкости применения, однако требуют применения более трудоемких алгоритмов, чем, например, скрытые Марковские модели или фильтр Калмана. В развитие теории ДБС большой вклад внести зарубежные ученые Murphy K., Pearl J., Zweig G. Для построения и ис пользования динамических байесовских сетей требуется обучить параметры и структуру сети. Алгоритмы обучения структуры ДБС требуют высоких вычислительных затрат, поэтому задача разработки параллельного алгоритма обучения является также актуаль ной.

Таким образом, задача разработки методов и алгоритмов обнаружения вторжений с использованием ДБС также является актуальной.



Объектом исследования являются сетевые системы обнаружения процесса вторже ния в компьютерную сеть.

Предметом исследования являются алгоритмы обучения и методы вероятностного вывода с использованием динамических байесовских сетей.

Цель диссертационной работы заключается в разработке модели и алгоритмов об наружения вторжений на основе протоколирования характеристик сетевого трафика в компьютерной сети с использованием динамических байесовских сетей.

Задачи исследования. Для достижения указанной цели необходимо решить сле дующие задачи:

1. Разработать метод анализа информативных характеристик сетевого трафика для обнаружения вторжений.

2. Разработать вероятностную модель процесса вторжения в компьютерную сеть.

3. Разработать метод поиска новых типов вторжений с использованием вероятност ного вывода в динамических байесовских сетях.

4. Разработать параллельный алгоритм обучения структуры байесовских сетей.

5. Провести экспериментальное исследование и сравнительный анализ последова тельного и параллельного алгоритма обучения структуры байесовских сетей.

6. Разработать систему обнаружения вторжений на основе функционирования дина мических байесовских сетей и сравнить с существующими системами.

Методы исследования основаны на использовании теории вероятности, теории ин формации, математической статистики, математического моделирования, теории парал лельных вычислений. В работе широко применяется компьютерное моделирование, в том числе с использованием самостоятельно разработанного программного обеспечения (ПО).

Информационной базой исследования являются отечественные и зарубежные ли тературные источники: методические рекомендации, монографии, публикации в отрас левых периодических журналах, материалы крупных исследовательских и методических центров. Также использованы материалы, размещенные в сети Интернет.

Научная новизна работы. В результате проведенного исследования были получены следующие результаты, характеризующиеся научной новизной:

1. Разработан метод анализа информативных характеристик сетевого трафика для обучающих наборов данных при использовании в системах обнаружения.

2. Разработана вероятностная модель обнаружения вторжений на основе динамиче ских байесовских сетей. В отличие от существующих вероятностных моделей вторже ний данная модель учитывает три основных этапа вторжения в компьютерную сеть.

3. Разработан оригинальный метод поиска новых типов вторжений с использованием вероятностного вывода в динамических байесовских сетях, который в отличие от суще ствующих методов позволяет эффективно обнаруживать как известные, так и новые ти пы вторжений.

4. Разработан параллельный алгоритм обучения структур байесовских сетей с ис пользованием технологии вычислений на основе графических видеокарт.

5. Разработана структура системы обнаружения вторжений, основанная на функцио нировании динамических байесовских сетей.

Реализация и внедрение результатов исследования. Основные результаты иссле дований использованы на кафедре проектирования и безопасности компьютерных сис тем НИУ ИТМО при выполнении ряда научно-исследовательских работ и внедрении в образовательный процесс лабораторных работ по защите информационных процессов в компьютерных сетях.

Достоверность полученных результатов подтверждается корректностью математи ческого аппарата и теоретических обоснований, а также результатами экспериментов, проведенных с помощью разработанного в диссертации ПО.

Практическая значимость результатов диссертации заключается в следующем.

1. Разработанный метод анализа информативных характеристик сетевого трафика по зволяет сократить затраты на вычисления в обучении и вероятностном выводе при вы боре числа переменных в вероятностных моделях с заданным порогом отбора.

2. Разработанная вероятностная модель адекватно работает на всех трех этапах втор жения и может быть расширена для более точного описания различных аспектов осо бенностей атаки на сетевую систему.

3. Разработанная система обнаружения вторжений на основе функционирования ди намических байесовских сетей позволяет обнаружить новые типы вторжений.

4. Разработан параллельный алгоритм обучения структуры байесовской сети, позво ляющий сократить время ее обучения, реализованный в виде нескольких программных модулей. Их можно использовать и в других задачах, решаемых ДБС, например, в дру гих областях исследований.

Внедрение и реализация. Практические результаты работы были внедрены и ис пользованы в НИУ ИТМО, что подтверждено соответствующим актом о внедрении.

Публикации по теме диссертации. По теме диссертации опубликовано десять науч ных работ, из них семь выполнено самостоятельно, три в соавторстве. Две статьи опуб ликованы в рецензируемом научном журнале, определенном в перечне ВАК.

Апробация работы. Основные научные положения и практические результаты рабо ты были представлены и обсуждены на следующих научно-технических конференциях:

1) VII всероссийской межвузовской конференции молодых ученых, 2010 г.;

2) XL научной и учебно-методической конференции, 2011 г.;

3) VIII всероссийской межвузовской конференции молодых ученых, 2011 г.;

4) IX всероссийской межвузовской конференции молодых ученых, 2012 г.;

5) XLI научной и учебно-методической конференции, 2012 г.;

6) VIII mezinarodni vedecko-prakticka konference «Aktualni vymozenosti — 2012», 2012 г.;

7) XLII научной и учебно-методической конференции НИУ ИМТО, 2013 г.

Основные научные положения, выносимые на защиту:

1. Метод анализа информативных характеристик сетевого трафика для обучающих наборов данных при использовании в системах обнаружения вторжений. Метод не зави сит от количества принимаемых значений для свойств.

2. Вероятностная модель обнаружения вторжений на основе динамических байесов ских сетей. В отличие от существующих вероятностных моделей вторжения данная мо дель учитывает три основных этапа вторжения в компьютерную сеть и может быть уточнена путем включения в модель дополнительных переменных.

3. Оригинальный метод поиска новых типов вторжений с использованием вероятно стного вывода в динамических байесовских сетях, который в отличие от существующих методов позволяет эффективно обнаруживать как известные, так и новые типы вторже ний.

4. Параллельный алгоритм обучения структур байесовских сетей с использованием технологии вычислений на основе графических видеокарт, что позволяет добиться уменьшения времени обучения и стоимости оборудования по сравнению с применением кластерных систем.





5. Структура системы обнаружения вторжений, основанная на функционировании динамических байесовских сетей.

Структура и объем диссертации. Диссертация состоит из введения, пяти глав, за ключения, списка литературы. Материал изложен на 130 страницах компьютерного тек ста, иллюстрирован 31 рисунком и 10 таблицами.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи исследования, описаны объект и предмет исследования, указаны теоретические и методологические основы, раскрыты элементы научной новизны работы, ее теоретическая и практическая значимость.

В первой главе работы вводятся определения основных понятий, рассматри вается типовая структура и классификация систем обнаружения вторжений. Ана лизируются существующие подходы и применяемые методы для решения задачи обнаружения вторжений. Исходя из приведенного анализа формулируется ряд проблем современного состояния теории обнаружений вторжений, на основании которых ставятся цели и задачи дальнейших исследований.

Система обнаружения вторжений (СОВ) — программное или аппаратное средство, предназначенное для выявления фактов неавторизованного доступа в компьютерную систему или сеть либо несанкционированного удаленного управ ления ими. По типу СОВ делятся на сетевые, узловые и гибридные. Как правило, архитектура типовой СОВ включает в себя следующие подсистемы:

а) сенсорную подсистему, собирающую информацию с защищаемой системы;

б) подсистему выявления вторжений на основе анализа данных с сенсорной подсистемы;

в) подсистему хранения, предназначенную для накопления информации о со бытиях и анализа;

г) подсистему управления и конфигурирования СОВ.

На практике применяют два распространенных метода обнаружения вторже ний: методы, основанные на сигнатурах и на аномалиях. Сигнатурный метод производит сравнение контролируемых данных с известными шаблонами втор жений и позволяет точно обнаружить известные вторжения и классифицировать их. Метод аномалий создает профили нормального поведения контролируемого процесса и сравнивает текущее состояние процесса с его нормальным профилем.

Метод, основанный на аномалиях, позволяет выявить новые типы вторжений, но имеет низкую надежность выявления известных типов вторжений.

Наиболее перспективным является метод обнаружения вторжений, который анализирует последовательности контролируемого процесса. Анализируемые по следовательности могут быть: характеристиками сетевого трафика в компьютер ных сетях;

профилями поведения пользователя на уровне приложения или опера ционной системы;

последовательностями системных вызовов, поступающих к яд ру операционной системы от работающих процессов и т. д. При этом в случае неизвестного или скрытого процесса не все характеристики наблюдаемы. Для описания таких скрытых последовательностей используют вероятностные моде ли, которые способны моделировать различные последовательности, порождае мые процессами в условиях нехватки данных.

Вторая глава работы посвящена обоснованию выбора предметной области исследования. Приводится аналитический обзор существующих вероятностных моделей и алгоритмов обучения и вероятностного вывода. Обосновывается выбор динамических байесовских сетей. Дается описание проблемы задания априорных вероятностей.

Последовательности, порождаемые процессами и динамическими системами, могут быть корректно описаны методами пространства состояний. Пространство состояний описывается тремя переменными в момент времени t как Z t (U t, X t, Yt ), где U t — состояние системы, X t — ненаблюдаемая или скры тая переменная, Yt — наблюдаемая переменная.

Вероятностные модели являются факторизованным совместным распределе нием вероятностей на множестве случайных величин и представляют модель предметной области. Каждый из этих факторов является функцией, определенной на некотором небольшом подмножестве переменных, и такие подмножества на зывают фактором областей. С вероятностной точки зрения факторизованное представление кодирует независимости отношения, в то время как с технической точки зрения ослабляет строгие требования к необходимой памяти и скорости вычислений для использования вероятностных моделей, что позволяет применять модели для широкого круга задач. Вероятностные графические модели — это ве роятностные модели, представленные в виде графа, вершины которого модели руют случайные переменные, а ребра показывают взаимосвязи между ними. Ве роятностные графические модели включают в себя переменные и структурные связи между ними. Переменные модели могут быть либо дискретными векторами, которые принимают конечное число значений, либо непрерывными векторами.

Скрытая Марковская модель (СММ) — статистическая модель, имитирующая работу процесса, похожего на Марковский процесс первого порядка неизвестны ми параметрами. Задача разгадывания неизвестных параметров на основе наблю даемых решается СММ. Полученные параметры могут быть использованы в дальнейшем анализе, например для распознавания образов. СММ может быть рассмотрена как простейшая байесовская сеть доверия.

Фильтр Калмана — эффективный рекурсивный фильтр, оценивающий вектор состояния динамической системы, использующий ряд неполных и зашумленных измерений. Фильтр Калмана можно рассматривать как аналог скрытых моделей Маркова с тем отличием, что переменные непрерывны. Кроме того, скрытые мо дели Маркова могут использовать произвольные распределения для последую щих значений вектора состояния, в отличие от фильтра Калмана, использующего модель нормально распределенного шума.

Байесовская сеть (БС) — это графическая вероятностная модель, представ ляющая собой множество переменных и их вероятностных зависимостей. БС представляют собой удобный инструмент для описания достаточно сложных про цессов и событий с неопределенностями. БС оказалась особенно полезной при разработке и анализе машинных алгоритмов обучения. Основной идеей построе ния графической модели является понятие модульности, то есть разложение сложной системы на простые элементы. Для объединения отдельных элементов в систему используются результаты теории вероятностей.

Динамические байесовские сети являются обобщенной моделью в пространст ве состояний. Название «динамические» указывает не на зависимость структуры от времени, а только на зависимость от моделирования процесса. СММ является упрощенной ДБС без причинно-следственных связей. Если пространство состоя ний непрерывное, то такая модель называется фильтром Кальмана, в дискретном случае — ДБС. Структура БС остается неизменной во всех временных срезах.

Срезом называют текущее состояние ДБС в дискретный момент времени. Верши на в сети может иметь родителя только в своем временном срезе или в непосред ственно предшествовавшем временном срезе. Другими словами, ДБС определяет ся как Марковский процесс первого порядка. ДБС состоит из двух байесовских сетей B1, B2 : исходной B1, определяющей априорные распределения доступной модели P( z (1)), и транзитной B2, определяющей вероятности переходов между двумя ближайшими временными срезами. Пример ДБС в виде графической моде ли с двумя срезами приведен на рис. 1.

Рис. 1. Графическая модель ДБС из двух слоев Вероятностная модель ДБС задается моделью переходов (1) N p( Z i | Pa( Z i )) t t ) p(Z | Z (1) t t t и моделью совместного распределения (2) N N p ( Z1:t ) p( Z ti | Pa ( Z ti )), (2) t 1 i где Z t — срез байесовской сети в момент времени t ;

Z ti — узел сети в момент времени t ;

Pa ( Z ti ) — множество родительских узлов для узла сети Z ti ;

N — число узлов сети в срезе. Выражение (1) задает вероятности переходов между уз лами БС из предшествующего среза Z t 1 в текущий срез Z t. В случае разделения модели на множество не наблюдаемых переменных X t и множество регистри руемых переменных Yt описание вероятностной модели переходов (1) задается моделью состояния и моделью наблюдения.

В третьей главе описываются методы и модели, которые позволяющие ис пользовать ДБС в решении задач обнаружения вторжений. Дается описание раз работанному методу анализа информативных характеристик сетевого трафика для выбора оптимальной структуры ДБС. Разрабатывается вероятностная модель обнаружения вторжений, применяемая для моделирования процесса вторжения в динамических байесовских сетях. Описывается метод поиска новых типов втор жений с использованием вероятностного вывода.

При тестировании и сравнении с другими СОВ разрабатываемых подходов для обнаружения сетевых вторжений часто применяют два стандартных набора дан ных: KDD 99 и NSL-KDD. Сетевой трафик данных наборов протоколирован на основании 41 свойства, что является избыточным для использования байесовской сети и приводит к значительному увеличению вычислительной сложности обуче ния и вероятностного вывода. Для решения проблемы избыточности свойств се тевого трафика предлагается метод анализа информативных характеристик се тевого трафика, призванный сократить число используемых свойств в БС.

В основу метода анализа информативных характеристик сетевого трафика по ложен критерий из теории информации — прирост информации (от англ. informa tion gain). Прирост информации I (Y, X ) атрибута X по отношению к атрибуту Y класса показывает снижение неопределенности относительно значения Y, когда известно значение X. Неопределенность значения Y измеряется через энтропию H (Y ). Относительная неопределенность значения Y, когда известно значение X, определяется по условной энтропии Y относительно X, H (Y | X ). Если при рост информации равен энтропии атрибута Y, то I (Y, X ) H (Y ), тогда два атри бута являются независимыми. Прирост информации рассчитывается по формуле (3):

I (Y, X ) H (Y ) H (Y | X ). (3) Когда Y и X представляют собой дискретные переменные, которые прини мают значения в диапазоне { y1... yk } и {x1...xk }, то энтропия атрибута Y опреде ляется как:

ik H (Y ) P(Y yi ) log 2 ( P(Y yi )). (4) i Условная энтропия Y относительно X вычисляется как:

j l H (Y | X ) P( X xi ) H (Y | X xi ). (5) j Поскольку прирост информации рассчитывается только для дискретных зна чений, непрерывные значения из набора данных следует дискретизировать. В ра боте применяется метод дискретизации равных интервалов частот. В методе равных интервалов частот значения пространства разбиваются на произвольное число разделов, каждый раздел содержит одинаковое количество точек данных, то есть одинаковую частоту. Метод равных интервалов частот позволяет добить ся лучшей классификации значения данных, чем классический метод разбития интервалов по значениям.

Прирост информации зависит от количества значений для атрибута. Чем больше количество значений, тем меньше получается энтропия для атрибутов и больший прирост информации. Для решения данной проблемы применяется ко эффициент усиления информации (от англ. gain ratio). Коэффициент усиления информации G (Y, X ) учитывает не только количество информации, требуемое для записи результата, но и количество информации H ( X ), необходимой для разделения по текущему атрибуту X. Количество информации для разделения по атрибуту X рассчитывается как энтропия атрибута H (X ) по формуле (6):

j p H ( X ) P ( X x j ) log 2 ( P( X x j )). (6) j Коэффициент усиления информации рассчитывается по формуле (7):

I (Y, X ) H (Y ) H (Y | X ) G (Y, X ). (7) H (X ) H(X ) Для вычисления прироста информации и коэффициента усиления информации была разработана программа на языке C++, работающая в операционной системе Ubuntu 12.04. Наборы данных KDD 99 и NSL-KDD в виде файлов.txt подавались на вход программы. Наборы данных состоят из 41 свойства сетевого трафика и содержит 4 категории: базовые свойства;

контекстные свойства;

свойства трафи ка, зависящие от времени и свойства трафика, зависящие от хоста. Наборы дан ных имеют маркировки типа трафика для сравнения СОВ, и включает в себя класса, объединенные в 5 категорий: Dos, Probe, u2r, r21 и Normal. Рассчитанные информационные критерии показаны на диаграммах (рис. 2–4).

бит 1, Whole 10% 0, 0, 0, 0, № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Рис. 2. Диаграмма коэффициента усиления информации для свойств набора данных KDD 99, файла обучения 10% KDD и файла тестирования Whole KDD бит 1, I I 1, I I 1, 1, 0, 0, 0, 0, 40 41 № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 Рис. 3. Диаграмма прироста информации I для всех свойств набора данных NSL-KDD, I1 — KDDTrain+, I2 — KDDTrain+_20Percent, I3 — KDDTest+, I4 — KDDTrain- бит G G 0, G G 0, 0, 0, 0, 0, 0, 0, 0, № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Рис. 4. Диаграмма коэффициента усиления информации G для всех свойств набора данных NSL KDD, G1 — KDDTrain+, G2 — KDDTrain+_20Percent, G3 — KDDTest+, G4 — KDDTrain В результате задания уровней пороговых значений для рассчитанных коэффи циентов было выбрано четыре набора свойств (табл. 1), имеющих наиболее ин формативные значения коэффициента усиления информации.

Таблица 1. Наборы свойств сетевого трафика Число Номера свойств Названия свойств узлов 11 3, 4, 5, 6, 12, service, flag, source_bytes, destination_bytes, logged_in, 25, 26, 29, serror_rate, srv_serror_rate, same_srv_rate, 30, 38, 39 diff_srv_rate, dst_host_serror_rate, dst_gost_srv_serror_rate 8 4, 5, 6, 12, 25, flag, source_bytes, destination_bytes, logged_in, serror_rate, 26, 38, 39 srv_serror_rate, dst_host_serror_rate, dst_gost_srv_serror_rate 6 4, 5, 6, 12, flag, source_bytes, destination_bytes, logged_in, 38, 39 dst_host_serror_rate, dst_gost_srv_serror_rate 3 4, 5, 6 flag, source bytes, destination bytes Исходя из анализа применяемых злоумышленниками техник по вторжению в компьютерные сети, была разработана вероятностная модель вторжения. Вторже ния на компьютерные сети представляют следующую последовательность:

а) сканирование (от англ. scan) сети;

б) воздействие на уязвимость (от англ. exploiting);

в) повторное получение управления системой через загруженную программу, использующую недокументированный вход в систему (от англ. backdoor).

Как правило, злоумышленник не обладает достаточной информацией об ата куемой системе. Для того чтобы не перебирать все известные уязвимости всле пую, злоумышленнику требуется собрать о ней недостающую информацию. Сбор недостающих данных ведется при помощи сканирования доступных каналов пе редачи данных, то есть компьютерной сети. Процесс сканирования находит свое отражение в изменении сетевого трафика компьютерной сети. После получения всей собранной информации злоумышленник, используя свою квалификацию, реализует потенциальные уязвимости в сетевых устройствах, в различных служ бах и программах и операционных системах. Злоумышленник также может сузить поиск и целенаправленно воздействовать только на предполагаемую уязвимость, используя типовые или нестандартные запросы для получения более полной ин формации о цели. Процесс воздействия на целевую систему сети также вызывает изменение трафика. Этап воздействия на уязвимость зависит от результатов ска нирования. В случае успеха на этапе воздействия на уязвимость злоумышленник получает возможность использовать найденную уязвимость. На целевую систему могут быть загружены программные модули, способные автоматизировать дейст вия злоумышленника по поднятию своих прав до требуемого уровня. Тем самым система полностью захватывается злоумышленником и может стать отправной точкой для последующего захвата и вторжения во всю сеть.

Описание процесса вторжений, которые подразумевают получение несанкцио нированного доступа в защищаемую систему в результате последовательных дей ствий атакующего на целевую систему, может быть описано в виде вероятност ной модели ДБС. Так как этапы процесса вторжений scan, exploit, backdoor непо средственно не наблюдаемы, то они считаются скрытыми. На рис. 5 показана графическая модель состояний в виде ДБС из двух срезов, описывающая процесс вторжения. На рис. 5 и рис. 6 этап сканирования обозначен буквой S, этап воз действия на уязвимость буквой E и получения управления системой буквой B со ответственно. Этапы вторжений являются скрытыми, поэтому их требуется опре делить при помощи вероятностного вывода на основании наблюдаемых свойств сетевого трафика (рис. 6), которые порождаются в процессе вторжения.

Рис. 5. Графическая модель состояний Рис. 6. Графическая модель наблюдений между двумя срезами ДБС в виде БС Предложенная вероятностная модель состояний (см. рис. 5) использована в разработанной СОВ и задается уравнениями (8) и (9):

P( X ( n) | Pa ( X ( n))) P ( xi (n) | Pa ( xi ( n))), (8) i P( xi (n) | Pa( xi (n))) P(s(n) | s(n 1)) P(e(n) | e(n 1), s(n 1)) P(b(n) | b(n 1), e(n 1)). (9) i Модель наблюдений (см. рис. 6) описывает связь переменных наблюдений с переменными состояниями системы в ДБС в виде (10)–(14):

P (Y (n) | Pa(Y (n))) P( y N (n) | Pa( y N (n))), (10) j j j 11 P( y N (n) | Pa ( y N (n))) P( y N (n) | Pa ( s(n))) j j j (11) j 1 j 8 P ( y N ( n) | Pa (e( n))) P ( y N ( n) | Pa (b( n))), j j j 5 j P( y N (n) | Pa( s(n))) P( y 3 (n) | s(n)) P( y24 (n) | s(n)) P( y35 (n) | s(n)) P( y46 (n) | s(n)),(12) j j P( y N (n) | Pa(e(n))) P( y525 (n) | e(n)) P( y626 (n) | e(n)) P( y738 (n) | e(n)) P( y839 (n) | e(n)), (13) j j P( y N (n) | Pa(b(n))) P( y12 (n) | b(n)) P( y10 (n) | b(n)) P( y11 (n) | b(n)), (14) 29 j j где j 1...11 — число наблюдаемых переменных, N — номер свойства сетевого трафика.

Вероятностный вывод — процесс вычисления апостериорного распределения переменных на основании наблюдаемых переменных. В контексте поиска новых типов вторжений используются четыре задачи вероятностного вывода с исполь зованием алгоритма вывода соединения деревьев (от англ. junction tree inference), представленные в табл. 2.

Таблица 2. Описание и использование вероятностного вывода Число используемых № Задача Алгоритм переменных в ДБС 1 Предсказание Экстраполяция распределения ве- P( x(t dt ) | y (1 : t )) роятностей для будущих состояний 2 Фильтрация Оценка текущего состояния модели P( x(t ) | y (1 : t )) 3 Сглаживание Оценка всех скрытых состояний в P( x(1 : t ) | y (1 : t )) прошлом с учетом всех наблюдений до текущего времени 4 Витерби Вычисление наиболее возможных последовательностей скрытых со max P( x(1 : t ) | y (1 : t )) стояний по полученным данным x (1:t ) Комбинация данных алгоритмов используется в модуле байесовского вывода разработанной структуры СОВ.

Метод поиска новых типов вторжения показан на рис. 7 и за ключается в следующем. В каж дом временном срезе производит ся фильтрация текущих состоя ний скрытых переменных и предсказание на следующий срез.

Если предсказанные состояния не совпали с текущими фильтрован ными состояниями, то вычисляет ся сглаживание состояний на предыдущие срезы глубиной dt.

Если в результате сглаживания будет зафиксировано вторжение, потребуется решить задачу Ви терби для нахождения последова тельности ненаблюдаемых пере менных и переобучить ДБС путем включения обнаруженной после довательности в обучающую вы Рис. 7. Метод поиска вторжений на основании борку.

вероятностного вывода Четвертая глава посвящена разработке и реализации параллельного алгорит ма обучения структуры ДБС для множественных последовательностей наблюде ний. Исследована эффективность параллельного алгоритма обучения структуры ДБС в зависимости от величины данных обучения.

В основе алгоритмов обучения структуры байесовской сети лежит два подхо да: ограничение условной независимости (в этом случае сеть может оказаться не ориентированной, частично обученной) и оценка меры качества сети (оптимиза ция локального поиска с полным перебором всех комбинаций, сопровождающая ся экспоненциальным ростом вычислений с увеличением числа узлов сети).

Известный гибридный алго ритм обучения структуры байе совской сети Max-Min Hill Climbing (MMHC) включает два данных подхода и состоит в следующем. Вначале применя ется алгоритм ограничения ус ловной независимости, Max Min Parents and Children (MMPC), который на основе данных обучения восстанавли вает «скелет» БС в виде неори ентированного графа. Далее в алгоритме MMHC применяется алгоритм оптимизации меры качества сети Hill-Climbing (HC), применяемый к ограни ченному пространству на осно ве найденного «скелета» БС.

Тем не менее применение гиб ридного алгоритма MMHC при обучении крупных БС не реша ет проблему времени обучения, поэтому требуется уменьшить временя обучения гибридного алгоритма MMHC. Блок-схема алгоритма MMHC представлена Рис. 8. Блок-схема алгоритма MMHC на рис. 8.

Предлагается использование архитектуры вычислений на графических процес сорах (ГП) Compute Unified Device Architecture (CUDA), которая позволяет до биться значительного вычислительного ускорения. При этом необходимо учиты вать архитектуру работы графических устройств CUDA. Архитектура CUDA для ГП поколения Geforce 600 позволяет объединить 4 видеокарты с двухъядерными ГП, что позволяет одновременно работать с 12 288 потоковыми процессорами.

Основные подходы для распараллеливания алгоритма обучения MMHC заключа ется в следующих оптимизациях для архитектуры CUDA:

1. Разбитие обрабатываемых данных на подмножества и расчет промежуточ ных значений для каждого подмножества отдельными потоковыми процессорами, работающими одновременно. Необходимо произвести загрузку данных обучения по 16 кбайт из глобальной памяти в разделяемую память мультипроцессора. Дос туп к глобальной памяти в 100 раз медленнее, чем к разделяемой памяти.

2. Размещение результатов работы функций ядра в общую память, доступную для использования в последующих расчетах, что приводит к сокращению числа копирований между центральным процессором и видеокартой.

3. Использование механизма синхронизации между потоками процессов выде ления и копирования данных внутри блока процессов. Тем самым гарантируется исключение конфликтов при доступе к памяти, приводящих к последовательному доступу к памяти между потоками.

4. Масштабирование размеров заданий пулом потоков для функции ядра в за висимости от выбранного количества работающих потоков в блоках вычисления и используемой памяти для их работы.

5. Из-за особенности используемой архитектуры SIMD (от англ. single instruction, multiple data) сведение к минимуму ветвлений внутри одного пула по токов.

В параллельном алгоритме применяются разработанные функции ядра на язы ке С для вычисления на архитектуре CUDA:

а) cudaFreq — вычисление частоты S появления всех комбинаций принимае мых значений между тремя тестируемыми переменными X i, Y j, Z k из обучающе го набора данных D с N экспериментами для вычисления статистическим тес том на независимость по формуле (15):

S ijk S kz xyz G 2 xyz ln S ijk. (15) xz yz S ik S jk x, y,z Данный массив рассчитывается каждый раз до вычисления функции ядра cudaIn dependent;

б) cudaIndependent — вычисление теста на независимость Ind ( X ;

Y | Z ) двух переменных X и Y при данной переменной Z, используя статистический тест на независимость. Предварительно рассчитанные частоты функцией cudaFreq ис пользуются для вычислений результата независимости тестируемых переменных;

в) cudaScore — вычисление меры качества сети на основании байесовского информационного критерия, рассчитываемого из уравнения (16) d BIC L(G, D) log N, (16) где L(G, D ) — логарифм функции правдоподобия структуры сети G и набора дан ных D ;

d — число параметров. Вычисление меры качества сети производится для целевого узла T относительно множества родителей и потомков PCT.

Вспомогательный алгоритм MMCPC (от англ. Max-Min Candidate Parents and Children) используется в алгоритме MMPC. Блок-схемы применяемых алгоритмов представлены на рис. 9.

Начало Инициализация Фаза 1 MMCPC Начало Начало Фаза 2 MMCPC While Инициализация Инициализация G=empty For all x in CPC L=empty For all x in CPC For all x in V While 15 pass imp CudaFreq CudaFreq MMCPC For all x PCx CudaFreq CudaFreq CudaFreq CudaFreq Set CPC......

(X,T|CPC) (X,T|CPC) (X,T|CPC) (X,T|CPC) cudaScore For all CPCx in set CPC cudaIndep cudaIndep cudaScore cudaScore (x, PCx) (x, PCx) For all x in CPCx...

cudaIndep cudaIndep cudaIndep cudaIndep MMCPC (X,T|CPC) (X,T|CPC)... (X,T|CPC) (X,T|CPC)...

core x PCx Best G Max Min Set PC CPC Heuristic Конец Конец Пока CPC Конец присоединяется в а б Рис. 9. Блок-схема алгоритма MMPC (а);

блок-схемы параллельных алгоритмов MMCPC (б) и HC (в) Для исследования работы последовательного и параллельного алгоритмов обучения структуры MMHC использовался тестовый стенд в виде персонального компьютера, включающего: центральный процессор (CPU) Intel Core i5 2500 с тактовой частотой 3,5 ГГц;

оперативную память 4 Гб DDR3;

видеокарту (GPU) Nvidia Geforce 9600GT с 1 Гб видеопамяти GDDR3, имеющую 64 потоковых ска лярных процессора, работающих на частоте 1625 МГц. Использовалась операци онная система Ubuntu 12.04 и набор разработчика CUDA Toolkit 4.0. В расчетах программы применялся тип данных float размером 4 байта. Из набора данных NSL-KDD для тестирования СОВ был выбран файл для обучения KDDTrain+_20Percent из 25 192 наблюдений. Программа протестирована с пятью разными входными данными для последовательного и параллельного алгоритмов.

Использовался набор из 11 свойств. Результаты тестирования представлены в табл. 3.

Таблица 3. Результаты сравнения последовательного и параллельного алгоритма MMHC Номер Время работы алгоритма MMHC, с Размер CPU/GPU теста CPU GPU данных 1 1024 2,3 0,09 25, 2 2048 4,6 0,18 25, 3 4096 10,1 0,37 27, 4 8192 22,2 0,73 30, 5 16384 52,6 1,46 36, На рис. 10 представлен график зависимости времени работы последовательно го и параллельного алгоритмов от размера данных. Обученная структура БС из набора 11 свойств приведена на рис. 11.

CPU GPU CPU/GPU 3 4 5 S 25 Время, сек B E 29 30 38 0 2000 4000 6000 8000 10000 12000 14000 16000 Число измерений Рис. 10. Сравнение производительности Рис. 11. Обученная структура БС последовательного и параллельного по алгоритму MMHC алгоритмов MMHC В пятой главе приводятся результаты тестирования разработанной системы обнаружения вторжений на основе разработанных в диссертации алгоритмов и методов. Представлено сравнение разработанной системы с другими СОВ. Опи сана программная реализация разработанной системы. Приводятся рекомендации по практическому внедрению разработанной СОВ.

Разработанная структура системы обнаружения вторжений (см. рис. 12) вклю чает в себя пять модулей.

В модуле байесовского вывода применяется разработанный метод поиска из вестных и новых типов вторжений на основании собранной информации с сенсо ров о свойствах сетевых сессий в защищаемой сети и выбранной обученной мо дели ДБС. Под сеансом связи понимается промежуток времени между запросом на соединение и запросом на разрыв соединения, в течение которого между двумя адресатами посылаются потоки данных по определенному протоколу.

Модуль обучения отвечает за обучение ДБС. Возможен выбор критерия обуче ния для применяемого алгоритма обучения структуры БС, который производится модулем конфигурации СОВ.

Модуль конфигурации СОВ управляет работой СОВ и отвечает за выбор алго ритма обучения и использование процедуры вывода.

Модуль базы моделей ДБС содержит обученные модели ДБС, применяемые в модуле вывода.

Модуль сбора и обработки информации с сенсоров устанавливается в контро лируемые узлы сети, формируя последовательности свойств сессий для модуля байесовского вывода. На рис. 12 данный модуль объединен с группой внешних сенсоров. Сетевым сенсором является программный комплекс, который включает использование сетевой библиотеки WinPcap для захватывания и сбора сетевого трафика. Собранный сетевой трафик агрегируется, обрабатывается в виде свойств сетевых сессий и передается на вход модуля байесовского вывода в форматиро ванном виде.

Рис. 12. Структура СОВ С обучения ДБС начинается период инициализации работы СОВ. Используя один из алгоритмов обучения и обучающих данных, в модуле обучения формиру ется модель ДБС. После обучения модель добавляется в базу моделей СОВ. В ба зе моделей каждая модель ранжируется по убыванию в зависимости от размера и оценки качества при обучении. Далее СОВ переходит в режим эксплуатации. Мо дуль байесовского вывода на основании лучшей модели ДБС, наблюдаемым свойствам сетевых сеансов и выбранного алгоритма вывода производит оценку байесовского вывода о наличии признаков вторжений в последовательностях скрытых переменных ДБС. На этапе вывода модулем конфигурации СОВ произ водится оценка корректности описания наблюдаемых свойств сессий для текущей модели ДБС и вычисляются будущие состояния на основе разработанного метода обнаружения вторжений. Если перебор моделей ДБС не дал желаемых результа тов, то модуль конфигурации СОВ производит обучение новой модели ДБС пу тем изменения алгоритма обучения. В случае обнаружения вторжений задача мо дуля конфигурации СОВ заключается в занесении обнаруженной последователь ности в обучающие данные и обучении новой модели ДБС для получения лучшей модели описания вторжений. Также модуль конфигурации может включать в себя функцию блокирования источников вторжений путем добавления выявленного источника вторжений в черный список или выработки дополнительных правил для межсетевого экрана. В этом случае взаимодействие между СОВ и межсете вым экраном позволяет СОВ работать в режиме предотвращения вторжений.

Для тестирования работы СОВ была построена тестовая доменная сеть (рис. 13), развернутая в виртуальном окружении VMware. Тестовая доменная сеть состоит из контроллера домена на Windows 2003 R2 и пяти клиентов с операци онной системой Windows XP SP3. Сетевые сенсоры СОВ установлены на каждую клиентскую машину тестовой сети и контроллер домена. На контроллере домена развернута служба Active Directory, хранящая критическую информацию, и запу щены следующие серверы: DNS-сервер доменных имен, сервер службы принте ров, база данных Microsoft SQL.

Рис. 13. Схема тестовой доменной сети Как правило, атаки на доменную сеть проводят в три этапа вторжений: перво начальное сканирование сети, проведение атак на найденные уязвимости для по лучения доступа к узлам сети, поднятие своих прав до уровня администратора домена. Для тестирования были реализованы несколько видов сканирований и атак на домен. Для создания обучающих данных были проведены вторжения на защищаемую доменную сеть и запротоколированы свойства сетевого трафика.

Вторжения выполнялись в ручном режиме.

После обучения и включения СОВ в режиме эксплуатации с компрометирую щего ресурса запускался диспетчер атак, который осуществлял вторжения в случайной последовательности на фоне легитимного трафика. Время между ата ками выбиралось случайным образом в интервале от 5 до 10 мин. Информация о времени запуска и атаке сохранялась в файле истории.

Для сравнения работы предложенной структуры СОВ были выбраны открытые системы обнаружений вторжений Snort и Suricata. Всего было проведено 355 атак на фоне 9846 нормальных сессий. В табл. 4 представлены результаты сравнения работы систем.

Системы Snort и Suricata в результате тестирования не обнаружили ни одного нового типа вторжений, так как такие системы используют метод сигнатур.

Предложенная СОВ показала способность обнаружения новых вторжений и не худшую по сравнению с Snort и Suricata вероятность ложных срабатываний и пропусков вторжений.

Таблица 4. Сравнение результатов работы разработанной СОВ, Snort и Suricata СОВ Обнаруженные Ложные Пропущено Нормальные Обнару вторжения срабатыва- вторжений сессии женные но ния (ошибка (ошибка II вые втор I рода) рода) жения Suricata 329 (92,60 %) 312 (3,1 %) 26 (7,40 %) 9 534 (96,9 %) Snort 326 (91,84 %) 285 (2,9 %) 29 (8,16 %) 9 561 (97,1 %) Разрабо- 330 (92,95 %) 325 (3,3 %) 25 (7,05 %) 9 521 (96,7 %) танная СОВ В заключение подводятся основные итоги диссертационной работы и приво дятся основные результаты, полученные в ходе выполненной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ На основании полученных результатов диссертационной работы можно сделать вывод, что цель диссертации, сформулированная во введении, достигнута и по ставленная задача решена.

Основные научные и практические результаты диссертационной работы:

1. Разработан метод анализа информативных характеристик сетевого трафика для обучающих наборов данных при использовании в системах обнаружения вторжений.

2. Разработана вероятностная модель обнаружения вторжений на основе дина мических байесовских сетей. В отличие от существующих вероятностных моделей вторжения, данная модель учитывает три основных этапа вторжения в компьютер ную сеть.

3. Разработан оригинальный метод поиска новых типов вторжений с использо ванием вероятностного вывода в динамических байесовских сетях, который в от личие от существующих методов позволяет эффективно обнаруживать как извест ные, так и новые типы вторжений.

4. Разработан параллельный алгоритм обучения структур байесовских сетей с использованием технологии вычислений на основе графических видеокарт.

5. Разработано и внедрено программное обеспечение, реализующее модели и алгоритмы системы обнаружения вторжений, основанная на функционировании динамических байесовских сетей.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Опубликовано в рецензируемых изданиях из списка ВАК:

1. Арустамов С. А., Дайнеко В. Ю. Применение динамической байесовской сети в системах обнаружения вторжений // Научно-технический вестник инфор мационных технологий, механики и оптики. — СПб.: НИУ ИТМО, № 3(79), 2012. — С. 128–133.

2. Арустамов С. А., Дайнеко В. Ю. Параллельный алгоритм обучения струк туры байесовской сети // Научно-технический вестник информационных техноло гий, механики и оптики. — СПб.: НИУ ИТМО, № 2(84), 2013. — С. 170–171.

Опубликовано в других изданиях:

3. Дайнеко В. Ю. Временной фактор в системах обнаружения вторжения // Сборник тезисов докладов конференции молодых ученых. Вып. 1. — СПб.:

СПбГУ ИТМО, 2010. — С. 177.

4. Дайнеко В. Ю. Разработка комплексной системы защиты информации ли нейно-производственного управления газотранспортного предприятия // Сборник трудов молодых ученых, аспирантов и студентов научно-педагогической школы кафедры ПКС «Информационная безопасность, проектирование и технология элементов и узлов компьютерных систем» / Под ред. Ю. А. Гатчина. — СПб.:

СПбГУ ИТМО, 2010. — С. 21–22. — 60 с.

5. Дайнеко В. Ю. Разработка комплексной системы защиты информации ин формационно-управляющей системы производственно хозяйственной деятельно сти линейно-производственного управления газотранспортного предприятия // Аннотируемый сборник научно-исследовательских выпускных квалификацион ных работ студентов СПбГУ ИТМО, 2010. — С. 30–31.

6. Дайнеко В. Ю. Динамическая байесовская сеть в системах обнаружения вторжения // Сборник тезисов докладов конференции молодых ученых. Вып. 1. — СПб.: СПбГУ ИТМО, 2011. — С. 122–123.

7. Дайнеко В. Ю. Динамические байесовские сети в системах обнаружения вторжений // Альманах научных работ молодых ученых. — СПб.: НИУ ИТ МО, 2012. — С. 54–59. — 348 с.

8. Дайнеко В. Ю. Модель автономной системы обнаружения вторжений // «Актуальные научные достижения — 2012»: Materily VIII mezinrodn vdecko praktick konference «Aktuln vymoenosti vdy — 2012». Praha: Publishing House «Education and Science» s.r.o. — 2012. — С. 64–66.

9. Арустамов С. А., Дайнеко В. Ю. Система обнаружения вторжения с исполь зованием байесовских сетей // Сборник трудов молодых ученых, аспирантов и сту дентов научно-педагогической школы кафедры ПБКС «Информационная безопас ность, проектирование и технология элементов и узлов компьютерных систем» / Под ред. Ю. А. Гатчина. — СПб.: НИУ ИТМО, 2012. — С. 13–14. — 59 с.

10. Дайнеко В. Ю. Эффективные алгоритмы обучения динамических байесов ских сетей в системах обнаружения вторжений // Сборник тезисов докладов кон гресса молодых ученых. Вып. 1. — СПб.: СПбГУ ИТМО, 2012. — С. 128–129. — 246 с.

Формат 60х841/ Подписано в печать 05.03.13 Цифровая Печ. л. 1. Тираж 100 Заказ 04/03 печать Отпечатано в типографии «Фалкон Принт» (197101, г. Санкт-Петербург, ул. Большая Пушкарская, д. 54, офис 2, тел. 313-26-39, e-mail: fc2003@mail.ru)

 

Похожие работы:





 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.