авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей

На правах рукописи

МИРОНЕНКО АНТОН НИКОЛАЕВИЧ АЛГОРИТМ КОНТЕНТНОЙ ФИЛЬТРАЦИИ СПАМА НА БАЗЕ СОВМЕЩЕНИЯ МЕТОДА ОПОРНЫХ ВЕКТОРОВ И НЕЙРОННЫХ СЕТЕЙ Специальность:

05.13.19 – Методы и системы защиты информации, информационная безопасность

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2012

Работа выполнена в Омском государственном университете им. Ф.М. Достоевского

Научный консультант: доктор физико-математических наук, доцент Белим Сергей Викторович Официальные доктор технических наук, профессор оппоненты: Коробейников Анатолий Григорьевич кандидат технических наук, доцент Бессмертный Игорь Александрович

Ведущая организация: Челябинский государственный университет

Защита состоится 14.02.2012 на заседании диссертационного совета Д 212.227. в 15-00 по адресу: 197101, Санкт-Петербург, пр. Кронверкский, д.49., НИУ ИТМО, ауд. 403.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики.

Автореферат разослан 13 января 2012 г.

Ученый секретарь Поляков В.И.

диссертационного совета Д 212.227. Актуальность работы.

Одним из направлений исследований в области защиты информации является разработка методов и алгоритмов фильтрации потока электронной почты. В последнее время электронная почта стала одним из наиболее распространенных средств связи, управления и бизнеса. Она является достаточно совершенной в техническом отношении и недорогой альтернативой привычным средствам связи.

Вместе с развитием электронной почты увеличивается и количество угроз ее нормальному функционированию. Наиболее серьезной и важной проблемой стал так называемый спам, то есть нежелательные массовые рассылки сообщений, в основном рекламного характера. По сообщениям экспертов «Лаборатории Касперского», в 2010 году доля спама превысила 83% общего количества пересылаемых писем.

На сегодняшний день разработан ряд технологий построения фильтров – сервисов для отсеивания нежелательной корреспонденции. Все технологии можно разделить на настраиваемые вручную и интеллектуальные.

Настраиваемые вручную фильтры основываются на списках доступа и настраиваются непосредственно пользователем, который выбирает либо нежелательные адреса, при политике пропуска по «черному списку», либо разрешенные адреса, при политике пропуска по «белому списку». Однако ручные способы фильтрации нежелательных сообщений малоэффективны и требуют постоянного обновления списков доступа, создавая дополнительную нагрузку на пользователя.

Фильтры, построенные с использованием технологий искусственного интеллекта, требуют обучения только на начальном этапе, дообучаясь в дальнейшем самостоятельно, существенно снижая нагрузку на пользователя.

Самым распространенным на сегодняшний день является фильтр, основанный на наивном байесовском подходе, в котором предполагается, что различные термы сообщения независимы друг от друга. Максимальный результат, достигнутый байесовскими фильтрами на сегодняшний день составляет порядка 95% отфильтрованного спама. Для повышения эффективности байесовского фильтра необходимо учитывать семантические связи между термами, что требует привлечения методов семантического анализа и существенно повышает нагрузку на систему и увеличивает время работы самого фильтра, при незначительном повышении эффективности фильтрации.

Другим подходом, получающим в последнее время все большее распространение, является использование нейросетей. Преимущество нейросетевого подхода перед наивным байесовским состоит в том, что не делается никаких предварительных предположений о характере нежелательных сообщений, а семантические связи учитываются автоматически. Наибольшее количество разработок связано с построением фильтра на основе многослойного персептрона. Однако такой подход встречается с рядом трудностей, связанных с выбором пороговых значений, которые задаются произвольно в некотором интервале. Эффективность фильтра существенно зависит от выбора порогового значения. При этом пороговое значение требует постоянной подстройки под изменяющийся характер нежелательных сообщений. Также малоисследованным остается вопрос использования других нейросетей, хорошо зарекомендовавших себя в задачах распознавания образов, частным случаем которых является фильтрация спама.

Таким образом, развитие нейросетевого подхода применительно к фильтрации нежелательных сообщений является актуальной задачей.

Целью диссертационной работы является повышение эффективности фильтрации нежелательных сообщений в потоке электронной почты с использованием интеллектуальных систем.

Для достижения поставленной цели были решены следующие задачи:

1. Разработка смешанного алгоритма фильтрации на основе совмещения метода опорных векторов и нейросетевого подхода.

2. Реализация и апробация смешанного спам-фильтра на основе двухслойного персептрона.

3. Реализация и апробация смешанного спам-фильтра на основе персептрона Розенблатта.

4. Реализация и апробация смешанного спам-фильтра на основе самоорганизующихся карт Кохонена.

Методы исследования. В диссертационной работе использованы методы построения нейронных сетей, алгоритмы кластеризации и методы системного анализа.



Научная новизна результатов исследования.

1. Впервые совместно использованы метод опорных векторов и нейросети для построения спам-фильтра.

2. Впервые для фильтрации писем использованы совместно алгоритм таксономии и двухслойный персептрон.

3. Впервые для фильтрации писем использованы совместно алгоритм таксономии и персептрон Розенблатта.

4. Впервые для фильтрации писем использованы совместно алгоритм таксономии и самоорганизующиеся карты Кохонена.

Достоверность результатов работы. Научные результаты диссертационной работы получены с использованием методов хорошо зарекомендовавших себя для построения спам-фильтров. Проведено сравнение результатов работы предлагаемого алгоритма с существующими программными решениями проблемы массовых рассылок.

Практическая значимость работы заключается в возможности разработки прикладных систем индивидуальной защиты от нежелательной корреспонденции для персональных компьютеров.

Основные положения, выносимые на защиту.

1. Алгоритм фильтрации спам-сообщений на основе совместного использования алгоритма и нейросетевого подхода.

2. Система фильтрации спам-сообщений на основе алгоритма таксономии FOREL и двухслойного персептрона.

3. Система фильтрации спам-сообщений на основе алгоритма таксономии FOREL и персептрона Розенблатта.

4. Система фильтрации спам-сообщений на основе алгоритма таксономии FOREL и самоорганизующихся карт Кохонена.

Апробация работы. Основные положения диссертационной работы представлялись и обсуждались на следующих конференциях: «Актуальные проблемы безопасности информационных технологий». (Красноярск, 2009, 2010), «Информационные технологии и автоматизация управления» (Омск, 2009, 2010), а так же были внедрены в деятельность трех организаций.





Публикации. Результаты диссертационной работы были представлены в 9 публикациях: в 6 научных статьях, в том числе 3 статьи в журналах из списка периодических изданий, рекомендованных ВАК.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка и изложена на 96 страницах машинописного текста. Библиографический список литературы состоит из 100 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы исследований в области повышения защищённости от нежелательных массовых рассылок (спама).

Формулируется цель и задачи решаемые в работе, обсуждается научная новизна, а так же практическая ценность выносимых на защиту результатов.

Первая глава носит обзорный характер и посвящена описанию основных методов фильтрации анонимной массовой не запрошенной рассылки.

Выделены основные характеристики спама и проведена его классификация.

Описаны критерии оценки ущерба, причиняемого спамом. Приведены примеры реализации различных подходов фильтрации спама.

Вторая глава посвящена разработке алгоритма фильтрации спама, основанного на комбинации метода опорных векторов и нейросетевого подхода.

Основной целью является сокращение времени работы фильтра с помощью уменьшения объема обрабатываемых данных.

Формирование частотного словаря производилось опытным путем на основе экспериментального почтового ящика. Процесс заполнения частотного словаря состоит из трех этапов:

Берем обучающее множество (под множеством понимается письмо 1.

предварительно вручную определенное как спам или не спам), считываем его термы (по слову). За термы (слова) считаем последовательности символов разделенные точками, пробелами и т.п. Так как за слово берется любая последовательность символов это позволяет сделать алгоритм фильтрации свободным от привязки к какому-либо одному языку, что характерно для некоторых контентных методов фильтрации, а так же позволяет реагировать на уловки спамеров, например, когда преднамеренно в слово вставляется лишний символ или буквы из другого языка;

Заносим считанные термы в Datatable (словарь);

2.

Если терм был считан из письма категории спам, то +1 к индексу 3.

спам, данного элемента, если элемент был считан из письма категории не спам, то соответственно +1 к индексу не спам.

Алгоритм формирования данных для последующей фильтрации:

1. На основе обучающего набора сообщений формируется словарь слов (термов), в котором каждому терму соответствует два числа – частота встречаемости в спам-сообщениях и частота встречаемости в легальных сообщениях.

2. Формируется двумерное множество точек. Каждому терму соответствует одна точка с двумя координатами. По оси абсцисс отложена частота встречаемости в легальных сообщениях, по оси ординат – в спам сообщениях.

3. Для полученного множества точек решается задача таксономии – разбиения пространства на области, включающие подмножества точек, наиболее близко расположенные друг к другу.

4. Для каждого таксона определяются координаты центра масс.

5. Таксоны упорядочиваются по величине G=Y/X, где X и Y – координаты центра масс таксона.

6. Вводится равномерная шкала, приписывающая каждому таксону уровень спамности в интервале от 0 до 1 (значения 0 и 1 не используются).

Алгоритм определения спамности сообщения:

1. Для каждого входящего почтового сообщения производится разбор на термы.

2. Определяется принадлежность каждого терма к одному из таксонов.

3. Формируется вектор, характеризующий данное сообщение.

Координатами вектора служат количества термов с данным значением спамности.

4. Полученный вектор подается на вход нейросети. В качестве весовых коэффициентов входных синапсов выбирается количество термов с данным коэффициентом спамности в частотном словаре.

5. Выходной сигнал нейросети, лежащий в интервале от 0 до 1, интерпретируется как одно из трех решений: сообщение является спамом (R1), сообщение не является спамом (R2), невозможно определить является ли сообщение спамом или нет (R3). Значения R1, R2 и R3 выбираются экспериментально.

В работе был использован следующий обучающий набор, полученный из эксплуатации экспериментального почтового ящика: 162 спам-письма, легальных писем. Число спам писем было подобрано практически равное числу легальных сообщений для равномерного распределения точек на плоскости. В результате был сформирован словарь, содержащий 13294 различных слов.

Создание словаря по данному количеству сообщений занимает около двух минут. Данное количество слов в словаре не является окончательным. Система может работать в режиме обучения, при котором каждое полученное письмо добавляется к обучаемому набору. Как следствие растет точность фильтрации.

Для разделения слов на таксоны был использован алгоритм FOREL.

Выбор данного алгоритма таксономии обусловлен тем, что он дает быстрые и простые решения. Данный алгоритм на представленном обучающем наборе выявил 5 таксонов. При этом 90% слов оказались в одном таксоне, это слова встречающиеся по одному разу. Полученным пяти таксонам были присвоены коэффициенты спамности 0.1, 0.3, 0.5, 0.7, 0.9.

Был проведен эксперимент для определения количества таксонов, при котором сохраняются высокая скорость работы фильтра, низкий уровень ложных срабатываний и достаточно высокий процент отфильтровываемого спама.

Результаты работы фильтра, с использованием разного количества таксонов представлены на рисунках 1,2 и 3.

Как видно из графиков, количество ложных срабатываний уменьшается с увеличением количества таксонов, но в определенный период уменьшение становится незначительным при том, что скорость работы фильтра начинает замедляться. Таким образом, можно ограничить количество таксонов пятью, то значение, при котором сохраняется приемлемый уровень ложных срабатываний, не нанося ущерб скорости работы.

Рис.1. График зависимости количества ложных срабатываний от количества таксонов (двухслойный персептрон).

Рис.2. График зависимости количества ложных срабатываний от количества таксонов (персептрон Розенблатты).

Рис.3. График зависимости количества ложных срабатываний от количества таксонов (Карты Кохонена).

Третья глава посвящена реализации и апробации разработанного спам фильтра с использованием двухслойного персептрона.

Рис.4. Двухслойный персептрон Будем формировать нейронную сеть (Рис. 4) по следующему алгоритму:

Количество нейронов в первом слое нейронной сети совпадает с 1.

количеством выявленных таксонов в результате выполнения алгоритма формирования данных для последующей фильтрации. В случае нашего обучающего набора в первом слое будет содержаться 5 нейронов.

2. Весовые коэффициенты входных сигналов W определяются как количество слов с данным коэффициентом спамности в частотном словаре.

Весовые коэффициенты Z определяются методом обратного распространения ошибки.

3. Принимается одно из трех решений: сообщение является спамом (R1), сообщение не является спамом (R2), невозможно определить принадлежность (R3).

Основная идея этого метода состоит в распространении сигналов ошибки от выходов сети к её входам, в направлении, обратном прямому распространению сигналов в обычном режиме.

Для полученного в первой главе обучающего набора в первом слое будет содержаться 5 нейронов. В качестве функции активации всех нейронов была выбрана логистическая сигмоидальная функция:

f (u )= 1+ e u Для граничных значений выхода внешнего нейрона были выбраны числа 0.3 и 0.6.

Четвертая глава посвящена реализации и апробации разработанного спам фильтра на основе персептрона Розенблатта и самоорганизующихся карт Кохонена. Персептрон Розенблатта состоит из трех типов элементов (Рис.5), назначение которых соответствует нейронам рефлекторной нейронной сети. S элементы формируют сетчатку сенсорных клеток, которые принимают двоичные внешние сигналы. Далее сигналы поступают на вход ассоциативного слоя, на котором расположен один нейрон (A-элемент). Ассоциативный элемент, представляет собой формальный нейрон, который производит нелинейную обработку поступившей информации и имеет изменяемые веса связей. R-элементы с фиксированными весами формируют сигналы реакции персептрона на входной импульс.

Рис.5. Элементарный персептрон Розенблатта Обучение сети состоит в изменении весовых коэффициентов каждого нейрона. Пусть имеются пары векторов (x, y), a = 1,...,p, называемые обучающей выборкой.

Будем считать нейронную сеть обученной на данной обучающей выборке, если при подаче на входы сети каждого вектора x на выходах каждый раз получается соответствующий вектор y. Алгоритм обучения состоит из четырех шагов:

Шаг 0. Начальные значения весов всех нейронов W(t=0) выбираем случайным образом;

Шаг 1. Сети предъявляется входной образ x, в результате формируется выходной образ yx;

Шаг 2. Вычисляется вектор ошибки =(x-y), которую производит сеть на выходе. Далее считается, что изменение вектора весовых коэффициентов в области малых ошибок пропорционально ошибке на выходе, и соответственно равно нулю, если ошибка равна нулю.

Шаг 3. Модифицируется вектор весов:

W t t W t x. Здесь 01- темп обучения.

T Шаг 4. Шаги 1-3 повторяются для всех обучающих векторов. Один цикл последовательного предъявления всей выборки - эпоха. Обучение завершается по истечению нескольких эпох, а) когда итерации сойдутся, т.е. вектор весов перестает изменяться, или б) когда полная просуммированная по всем векторам абсолютная ошибка станет меньше некоторого малого значения.

Сеть Кохонена (рис. 6) - это однослойная сеть, каждый нейрон которой соединен со всеми компонентами n-мерного входного вектора. Входной вектор - это описание одного из объектов, подлежащих кластеризации. Количество нейронов соответствует количеству кластеров, которое должна выделить сеть.

В качестве нейронов сети Кохонена применяются линейные взвешенные сумматоры. Каждый j-ый нейрон описывается вектором весов wj=(w1j,w2j,...,wmj), где m - число элементов входных векторов. Входной вектор имеет вид xi=(xi1,xi2,...,xim).

Рис.6. Структура сети Кохонена.

Работа сети начинается с инициализации карты, то есть первоначального задания векторов веса для узлов. Существуют три способа инициирования начальных весов.

Инициализация случайными значениями, когда всем весам даются малые случайные величины;

Инициализация примерами, когда в качестве начальных значений задаются значения случайно выбранных примеров из обучающей выборки;

Линейная инициализация. В этом случае веса инициируются значениями векторов, линейно упорядоченных вдоль линейного подпространства, проходящего между двумя главными собственными векторами исходного набора данных.

Сеть работает следующим образом:

Пусть t — номер итерации (инициализации соответствует значение t=0).

1. Выбрать произвольное наблюдение (вектора из множества входных данных) x(t) из множества входных данных.

2. Найти для него лучшую единицу соответствия (best matching unit, BMU, или Winner) - узел на карте, вектор веса которого меньше всего отличается от наблюдения (в метрике, задаваемой аналитиком, чаще всего, евклидовой). Найти расстояния от x(t) до векторов веса всех узлов карты и определить ближайший по весу узел Mc(t). Условие на Mc(t):

|| xt - m c t |||| xt - m i t ||, для любого mi(t), где mi(t) — вектор веса узла Mi(t).

Если находится несколько узлов, удовлетворяющих условию, BMU выбирается случайным образом среди них.

3. Определить количество соседей BMU и изменить векторы веса BMU и его соседей с целью их приближения к наблюдению. Определить с помощью функции h (функции соседства) соседей Mc и изменить их векторы веса.

Функция определяет «меру соседства» узлов Mi и Mc и изменение векторов веса. Она должна постепенно уточнять их значения.

Часто в качестве функции соседства используется гауссовская функция.

Изменение вектора веса вычисляется по формуле:

mi t mit 1 hci t xt mi t 1.

Таким образом, вектора веса всех узлов, являющихся соседями BMU, приближаются к рассматриваемому наблюдению.

4. Определение ошибки карты, как среднее арифметическое расстояний 1N между наблюдениями и векторами веса соответствующих им BMU: ||xi - mc ||, N i где N - количество элементов набора входных данных.

Эффективность работы фильтров: на основе двухслойного персептрона, персептрона Розенблатта и самоорганизующихся карт Кохонена тестировалась в двух режимах. Первый – на специально созданной базе сообщений. В течение 4 месяцев собиралась база спам/не спам сообщений. За это время было получено всего 3196 сообщений из них спам 2456. Сообщения приходили на реально существующих почтовых ящика электронной почты, принадлежащих разным людям. Активность использования почтовых ящиков различна, первые два используются активно, один для деловой и личной переписки, другой исключительно для получения деловых сообщений, третий почтовый ящик используется менее активно. Отметим, первые 2 ящика были созданы менее лет назад, третий более 7 лет.

Данный набор был принят для оценки эффективности работы алгоритма фильтрации, так как он удовлетворяет следующим критериям:

Письма принадлежат к наиболее популярным тематикам спама, 1.

таким как:

Образование;

a) Медикаменты, товары/услуги для здоровья;

b) Недвижимость;

c) Отдых и путешествия;

d) Реклама спамерских услуг.

e) В наборе присутствуют спам сообщения не только рекламного 2.

характера, но и фишинговые сообщения.

Так как почтовые ящики принадлежат различным пользователям, 3.

каждый из которых обладает своей манерой общения (ведения переписки), то это создает дополнительную нагрузку на алгоритм. Так как нет персонификации сообщений, повышается вероятность ложного срабатывания.

Его результаты представлены в Таблице 1. Кроме того в таблице представлены результаты сравнения с существующим решением проблемы спама от «Лаборатория Касперского» Kaspersky Anti-Spam.

Второй - на реальном почтовом ящике, который был создан более четырех лет назад и активно не используется. В период с 23 сентября по октября 2011 года (25 дней) поступало от 2 до 13 сообщений в день, в среднем сообщений в день. Из них легальных сообщений от 0 до 6, в среднем 1, спам сообщений от 2 до 10, в среднем 5. Результаты представлены в Таблице 2.

Как видно из таблиц все три нейросети дают близкие значения, из чего можно сделать вывод о малой чувствительности предложенного алгоритма фильтрации к выбору типа нейронной сети. Следовательно, в практике можно выбирать нейросеть наиболее простую в реализации и обладающую наибольшей скоростью работы.

Таблица 1. Эффективность фильтрации на специально созданном наборе.

Количество Всего Легитимных Спам- Отфильтровано ложных Фильтр сообщений сообщений сообщений спама срабатываний Kaspersky Anti-Spam 3196 740 2456 3149 (98,52%) 2 (0,27%) На основе двухслойного персептрона 3196 740 2456 1973 (80,33%) 13 (1,75%) На основе персептрона Розенблатта 3196 740 2456 1985 (80,82%) 12 (1,62%) На основе карт Кохонена 3196 740 2456 1922 (78,25%) 16 (2,16%) Таблица 2. Эффективность фильтрации на реальном почтовом ящике.

Количество Всего Легитимных Спам- Отфильтровано ложных Фильтр сообщений сообщений сообщений спама срабатываний На основе двухслойного персептрона 164 34 130 109 (83,85%) 0 (0%) На основе персептрона Розенблатта 164 34 130 112 (86,27%) 0 (0%) На основе карт Кохонена 164 34 130 107 (82,36%) 0 (0%) Для исследования возрастания эффективности работы системы с течением времени вследствие дообучения были проведены эксперименты с реальным почтовым ящиком. На рисунке 7 представлено распределение входящих почтовых сообщений за три недели. Ось X - день эксперимента, ось Y - количество сообщений.

На рисунках 8, 9 и 10 представлены результаты работы системы фильтрации с использованием различных нейронных сетей. Ось X - день эксперимента, ось Y - количество отфильтрованных спам-сообщений в процентах.

Рис.7. График распределения входящих сообщений.

Рис.8. График эффективности работы фильтра на основе двухслойного персептрона.

Рис.9. График эффективности работы фильтра на основе персептрона Розенблатта.

Рис.10. График эффективности работы фильтра на основе карты Кохонена.

Как видно из графиков, количество отфильтрованного спама значительно колеблется в первые 12 дней эксперимента, это позволяет сказать, что происходит процесс дообучения. Таким образом, если учитывать в определении эффективности работы фильтра только период с 4 октября по 17 октября, получим следующие результаты:

Фильтра на основе двухслойного персептрона – 89,07% отфильтрованного спама;

Фильтра на основе персептрона Розенблатты – 91,79% отфильтрованного спама;

Фильтра на основе карт Кохонена – 88,50% отфильтрованного спама.

По результатам проведенного тестирования предлагаемого алгоритма фильтрации входящего потока сообщений можно говорить о том, что в ходе эксперимента были получены результаты, подтверждающие целесообразность его использования. Кроме того, как было написано ранее, мы видим, что на небольших текстах (электронное сообщение, как правило, небольшого размера), весьма эффективным будет использование простейших типов нейронных сетей (однослойный персептрон Резенблатта, двухслойный персептрон), то есть, нет необходимости строить многослойную сеть (например, на основе карт Кохонена).

В заключении представлены основные результаты работы и сформулированы выводы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ:

1. Разработан смешанный спам-фильтр на основе совмещения метода опорных векторов и нейросетевого подхода. В методе опорных векторов применен алгоритм таксономии FOREL. Такой подход позволяет одновременно существенно уменьшить как размерность пространства опорных векторов, так и количество входных синапсов нейронной сети. В результате заметно уменьшается время работы фильтра. Основным преимуществом предлагаемого алгоритма фильтрации, является его скорость работы, в среднем на обработку одного входящего сообщения затрачивается 1,58 секунды, при сохранении приемлемого уровня ложных срабатываний и качества фильтрации.

2. Реализован смешанный спам-фильтр на основе двухслойного персептрона. Апробация на специально созданной коллекции показала эффективность 80,33%. Испытания на реальном почтовом ящике показали среднюю эффективность 89,07%. Следует также отметить рост эффективности фильтра с течением времени вследствие дообучения.

3. Реализован смешанный спам-фильтр на основе персептрона Розенблатта. Апробация на специально созданной коллекции показала эффективность 80,82%. Испытания на реальном почтовом ящике показали среднюю эффективность 91,79%. Следует также отметить рост эффективности фильтра с течением времени вследствие дообучения.

4. Реализован смешанный спам-фильтр на основе самоорганизующихся карт Кохонена. Апробация на специально созданной коллекции показала эффективность 78,25%. Испытания на реальном почтовом ящике показали среднюю эффективность 88,50%. Следует также отметить рост эффективности фильтра с течением времени вследствие дообучения.

Основное содержание диссертации опубликовано в следующих работах:

В научных журналах, рекомендованных ВАК:

1. Мироненко А.Н. Автоматическая фильтрация спама на базе сети формальных нейронов // Вестник омского университета. Омск, 2011, №2. С.

178-182.

2. Мироненко А.Н., Белим С.В. Многоуровневая система фильтрации спама // Информационные системы и технологии, 2011, №3. С. 125-128.

3. Мироненко А.Н., Белим С.В. Модель фильтрации спам-сообщений в потоке электронной почты // Вестник компьютерных и информационных технологий, 2011, №11. С. 34-36.

В других изданиях:

4. Мироненко А. Н. Метод распознавания спам-сообщений на основе заголовка письма // Математические структуры и моделирование, 2010, № 21.

С. 133–140.

5. Мироненко А. Н., Белим С.В. Методы распознавания спам-сообщений на основе заголовка письма // Материалы III Международной научно практической конференции «Актуальные проблемы безопасности информационных технологий». Красноярск, 2009. С. 75–79.

6. Мироненко А. Н. Выявление спам-сообщений в потоке электронной почты // Материалы IV Международной научно-практической конференции «Актуальные проблемы безопасности информационных технологий».

Красноярск, 2010. С. 83–86.

7. Мироненко А.Н., Белим С.В. Выявление спам-сообщений в потоке электронной почты // Материалы межвузовской научно–практической конференции «Информационные технологии и автоматизация управления».

Омск, 2009. С. 130.

8. Мироненко А.Н. Принцип распознавания спам-сообщений на основе заголовка письма // Материалы II межвузовской научно–практической конференции «Информационные технологии и автоматизация управления».

Омск, 2010. С. 110-112.

9. Мироненко А.Н. Модель фильтрации спама на основе многослойной нейронной сети // Материалы III межвузовской научно–практической конференции «Информационные технологии и автоматизация управления».

Омск, 2011. С.56-57.



 

Похожие работы:





 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.