авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Разработка и исследование методов построения регрессионных моделей на основе алгоритма опорных векторов и его модификаций

На правах рукописи

Саутин Александр Сергеевич РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ПОСТРОЕНИЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ НА ОСНОВЕ АЛГОРИТМА ОПОРНЫХ ВЕКТОРОВ И ЕГО МОДИФИКАЦИЙ 05.13.17 – Теоретические основы информатики

Автореферат диссертации на соискание ученой степени кандидата технических наук

Новосибирск – 2010

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Новосибирский государственный техниче ский университет»

Научный консультант: доктор технических наук, профессор Попов Александр Александрович

Официальные оппоненты: доктор технических наук, профессор Загоруйко Николай Григорьевич кандидат технических наук, доцент Фаддеенков Андрей Владимирович

Ведущая организация: Государственное образовательное учреждение высшего профессионального обра зования «Томский государственный университет систем управления и радиоэлектроники», г. Томск

Защита состоится « 17 » декабря 2010 г. в 1000 часов на заседании диссер тационного совета Д 212.173.06 при Государственном образовательном учреж дении высшего профессионального образования «Новосибирский государст венный технический университет» (630092, Новосибирск-92, пр. К. Маркса, 20).

С диссертацией можно ознакомиться в библиотеке Новосибирского государст венного технического университета.

Автореферат разослан « 16 » ноября 2010 г.

Ученый секретарь диссертационного совета Чубич В.М.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследований. Задача восстановления зависимостей по эмпирическим данным была и, вероятно, всегда будет одной из главных в прикладном анализе. Эта задача является математической интерпретацией од ной из основных проблем естествознания: как найти существующую законо мерность по разрозненным фактам.

В наиболее общей постановке проблема восстановления зависимости при водит к задаче подбора модели оптимальной сложности. Изначально данная за дача была как бы внешней и не встраивалась сразу в одну общую задачу. При мером нового подхода является подход по самоорганизации моделей, в свое время развитый школой А. Г. Ивахненко, а впоследствии и А. А. Поповым, принесшим в него идеи оптимального планирования эксперимента, в частности, разбиения выборки на обучающую и проверочную, в целом – идею активной структурной идентификации. Пожалуй, одним из первых подходов, когда орга низуется одна общая задача, в параметрическом случае является метод LASSO, предложенный Р. Тибширани. В непараметрическом случае одним из подходов является алгоритм опорных векторов (Support Vector Machines – SVM).

Изначально SVM был использован для решения задачи классификации данных. Позже, в 1996 году В. Вапником, Х. Драккером, К. Берджесом, Л. Кауфман и А. Смолой была предложена модификация SVM применительно к задаче построения регрессионных моделей. Метод SVM активно развивался в последующие годы такими учеными как А. Смола, Дж. Сайкенс, К. Кортес, Т. Джоатимс и др.

За небольшой промежуток времени алгоритм опорных векторов был ис пользован для решения задач классификации данных и восстановления зависи мостей во многих областях. Особенно успешным его применение было в таких областях как распознавание лиц, категоризация текстов, построение регресси онных моделей, предсказание временных рядов и распознавание рукописных символов.

При восстановлении зависимостей изначально в SVM использовалась функция потерь Вапника, которая представляет собой расширение функции по терь Лапласа путем добавления зоны нечувствительности. Впоследствии Дж. Сайкенсом было предложено расширение SVM, где использовалась квад ратичная функция потерь (Гаусса). Данная модификация SVM получила назва ние LS-SVM. Подробное исследование LS-SVM в задаче построения регресси онных моделей было проведено Дж. Бранбантером. Исследования LS-SVM в условиях автокорреляции ошибок наблюдений проводились М. Эспинозой, Дж.

Сайкенсом и Б. Де Муром. Подробные исследования аппарата ядерных функ ций, предложенного М. А. Айзерманом, который позволил расширить приме нение SVM для восстановления нелинейных зависимостей, проводились А. Смолой, Б. Шелкопфом и К. Берджесом. Также в этой области исследований активно работали Н. Кристианини, Дж. Шов-Тейлор и др.

В связи с тем, что SVM сравнительно недавно разработанный метод, оста ется целый ряд вопросов его применения в задаче построения регрессионных моделей. Этот ряд вопросов включает в себя использование SVM при различ ных моделях ошибок наблюдений, в условиях мультиколлинеарности данных, при нарушении предположений о независимости и постоянстве дисперсии ошибок наблюдений.

Цель и задачи исследований. Основной целью диссертационной работы явля ется дальнейшее развитие, на основе использования компьютерного моделиро вания, SVM в задачах построения регрессионных моделей, и разработка его модификаций для более адекватного описания реальной ситуации.

В соответствии с поставленной целью решались следующие задачи:

– исследование возможностей использования SVM при построении регресси онных моделей в условиях наличия сильных выбросов в данных;

– разработка модификаций SVM для учета асимметричности ошибок наблю дений;

– разработка методов построения разреженных решений на основе SVM;

– исследование SVM в условиях мультиколлинеарности данных;



– построение модификаций SVM, направленных на возможность учета гетеро скедастичности и автокорреляции ошибок наблюдений;

– разработка на основе SVM методов для построения квантильной регрессии и оценок неизвестной дисперсии ошибок наблюдений;

– разработка эффективных методов выбора гиперпараметров SVM.

Методы исследований. Для решения поставленных задач использовался аппа рат теории вероятностей, математической статистики, вычислительной матема тики, математического программирования, статистического моделирования.

Научная новизна диссертационной работы заключается в:

– формулировках двойственных задач SVM для применения данного метода в условиях наличия сильных выбросов в данных и асимметричного засорения;

– результатах исследования SVM при асимметричных распределениях ошибок наблюдений и обобщении модификации SVM для построения квантильной регрессии на случай произвольной функции потерь;

– модификациях SVM для: получения разреженных решений, учета эффекта гетероскедастичности и автокорреляции ошибок наблюдений;

– результатах численных исследований предложенных методов с использова нием технологии статистического моделирования.

Основные положения, выносимые на защиту.

1. Формулировки двойственных задач SVM при использовании адаптивных функций потерь и алгоритмы их решения.

2. Результаты исследования SVM в условиях асимметричных распределений ошибок наблюдений.

3. Расширение возможностей SVM при построении разреженных решений за счет использования адаптивных функций потерь.

4. Результаты исследования возможности использования SVM в условиях мультиколлинеарности данных, гетероскедастичности и автокорреляции ошибок наблюдений, а также при построении параметрических и полупара метрических моделей.

5. Результаты исследования возможности использования квантильного вариан та SVM для построения доверительных интервалов и оценки неизвестной дисперсии.

Обоснованность и достоверность научных положений, выводов и рекоменда ций обеспечивается:

– корректным применением аналитических методов исследования свойств по строенных моделей;

– подтверждением аналитических выводов и рекомендаций результатами ста тистического моделирования.

Личный творческий вклад автора заключается в проведении исследований, обосновывающих основные положения, выносимые на защиту.

Практическая ценность и реализация результатов. Разработанные модифи кации SVM позволяют строить регрессионные модели в условиях наличия вы бросов в данных и асимметричных распределений ошибок наблюдений. Пред ложенные методы на основе адаптивных функций потерь позволяют получать разреженные модели при использовании SVM на выборках данных большого объема. Проведенные исследования позволяют корректно использовать SVM в условиях мультиколлинеарности данных, а также в условиях гетероскедастич ности и автокорреляции ошибок наблюдений. Созданное программное обеспе чение позволяет эффективно строить регрессионные модели, применяя разра ботанные подходы.

Апробация работы. Основные результаты исследований, проведенных авто ром, докладывались и обсуждались на Российской НТК «Информатика и про блемы телекоммуникаций» (Новосибирск, 2008 и 2010);

Всероссийской конфе ренции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2008);

Третьем международном форуме по стратегическим технологиям IFOST (Новосибирск, 2008);

Четвертом между народном форуме по стратегическим технологиям IFOST (Хошимин, 2009);

IX международной конференции «Актуальные проблемы электронного приборо строения АПЭП-2008» (Новосибирск, 2008).

Публикации. Основные научные результаты диссертации опубликованы в печатных работах, из которых 2 – в журналах, рекомендованных ВАК, одна – в докладах АН ВШ РФ, 5 – в сборниках научных работ, 3 – в материалах конфе ренций.

Структура работы. Диссертация состоит из введения, пяти глав, заключения, списка использованных источников (106 наименований) и двух приложений.

Общий объем диссертации составляет 177 страниц, включая 21 таблицу и рисунков.





КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Глава 1. Постановка задач исследования В п. 1.1 представлена формулировка задачи построения математической модели явления.

Пусть имеются результаты n наблюдений за некоторой измеряемой вели чиной y. Известно, что свои значения она принимает в зависимости от набора входных данных x, которые в каждом из n опытов известны. В этом случае рег рессионная модель наблюдения может быть записана в виде yi = r ( xi ) + i, где yi Y R – i-ое наблюдение;

xi X R d – значение входных данных в i ом эксперименте;

r ( x) – неизвестная функция;

i – случайная ошибка.

Задача состоит в том, чтобы, располагая значениями входных данных и ре зультатами проведенных наблюдений за измеряемой величиной y, как можно точнее оценить зависимость r ( x). Оценка этой зависимости производится на основе конечного числа наблюдений ( x1, y1),K,( xn, yn ) X Y, где n – общее число наблюдений.

Для решения поставленной задачи используется теория машинного обуче ния. В п. 1.2 приводится краткое описание данной теории.

В п. 1.3 описывается алгоритм опорных векторов, который используется для решения поставленной задачи.

В п. 1.4 рассматривается вопрос получения разреженных решений на осно ве алгоритма опорных векторов.

В п. 1.5 описывается метод ядерных функций, который используется для расширения SVM на нелинейный случай.

Задача, возникающая при использовании алгоритма опорных векторов, яв ляется задачей квадратичного программирования. В п. 1.6 приводится обзор подходов к решению данной оптимизационной задачи.

Алгоритм опорных векторов имеет ряд настраиваемых параметров. В п. 1. приводится обзор подходов к выбору этих параметров.

В п. 1.8 представлен исторический обзор алгоритма опорных векторов.

Проанализированы основные существующие на данный момент недостатки ал горитма.

В п. 1.9 обосновываются задачи исследований.

Глава 2. Конструирование двойственной задачи SVM с адаптивными функциями потерь В данной главе приводится формулировка двойственной задачи для пред ложенных адаптивных функций потерь.

В п. 2.1 описывается методика построения квазиоптимальных функций по терь.

В п. 2.2 предлагаются адаптивные функции потерь для построения регрес сионных моделей в условиях асимметричных засорений. За основу предлагае мой адаптивной функции потерь берется функция потерь Хьюбера. При этом изменяется второй сегмент этой функции. Он определяется как линейная ком бинация линейно-возрастающей функции и горизонтальной прямой. Такая мо дификация дает возможность посредством скалярного параметра изменять угол наклона линейного участка функции потерь, что снижает ее чувствитель ность к асимметричных засорениям. Скомбинированная функция потерь имеет вид:

1 2,, L ( ) = (1) 1 + (1 ),, 2 где – угол наклона линейного участка функции потерь, – параметр функ ции потерь Хьюбера, – невязка.

Другим вариантом параметризации является использование в качестве ос новы функции потерь Лапласа. В этом случае функция потерь принимает вид:

,, L ( ) = (2) + (1 ),.

По аналогии с функцией потерь Вапника в предложенные адаптивные функции потерь можно добавить зону -нечувствительности. Тогда адаптивная функция Лапласа будет определяться выражением 0,, L ( ) =,, (3) + (1 )( ),, а адаптивная функция Хьюбера – выражением 0,, L ( ) = 1 ( ) 2,, (4) + (1 )( ),.

Здесь коэффициент определяет ширину зону нечувствительности. Гра фики адаптивных функции потерь с зоной -нечувствительности показаны на рис. 1.

а) б) Рис. 1. Вид адаптивных функций потерь при различных :

а) Лапласа ( = 1, = 2);

б) Хьюбера ( = 1, = 3) Стоит отметить, что адаптивные функции потерь Хьюбера и Лапласа в общем случае не являются выпуклыми функциями. Однако данные функции на интервале (0,1] удовлетворяют определению строго квазивыпуклой функ ции. Для задачи квадратичного программирования со строго квазивыпуклой целевой функцией и множеством ограничений, которое является выпуклым, локальный оптимум является глобальным и единственным. Следовательно, за дача квадратичного программирования, возникающая при использовании дан ных функций потерь в алгоритме опорных векторов, также как и в случае с вы пуклой функцией потерь, будет иметь единственный локальный минимум, и можно перейти к ее двойственной формулировке, и использовать для ее реше ния обычный метод оптимизации подобных задач.

В п. 2.3 формулируются двойственные задачи для предложенных адаптив ных функций потерь. Для адаптивной функции потерь Лапласа задача прини мает вид:

( )( ) ( ) 1n n n () i i* j * T ( xi ) x j + i i* yi max j 2 i =1 j = * i,i i = (T (i ) + T (i* ) ), ( ) n n i + i* C (5) i =1 i = () i*, i, 0, 0, T ( i ) = T i* = (1 ), i, i* (1 ), с ограничениями * [ 0, C ], [ 0, C ], i*, i, i i (6) [ 0, C ], i, [ 0, C ], * i.

Для адаптивной функции потерь Хьюбера меняются лишь выражения 2 * i*, i, i 2, i, () T ( i ) = 2C T i* = 2C 1 1 * (1 2 ) 2, i, (1 2 ) 2, i.

Стоит отметить, что в двойственных задачах появляются дополнительные динамические ограничения, и требуется вносить изменения в классический ал горитм оптимизации алгоритма опорных векторов. Предлагаются два алгорит ма решения подобных задач. Первый алгоритм решения полученной двойст венной задачи (5), (6) можно сформулировать следующим образом.

Шаг 1. Найдем некоторое начальное решение f ( x), используя функцию потерь Лапласа.

Шаг 2. Вычислим значения i, i* как расстояние от элементов выборки до по f ( xi ) yi, f ( xi ) yi лученного решения i =, f ( xi ) yi 0, y f ( xi ), yi f ( xi ) i* = i, i = 1,..., n.

yi f ( xi ) 0, Шаг 3. Используя вычисленные значения i, i*, зафиксируем ограничения (6) и решим задачу (5), используя, например, алгоритм последовательной оптими зации (SMO алгоритм).

Шаг 4. Вычислим значения i, i* для нового решения. Если для полученных значений i, i* ограничения (6) изменяются и на предыдущих шагах подобной их комбинации не встречалось, то переходим на шаг 3. В противном случае ре шение, полученное на шаге 3, является окончательным.

Для предотвращения возможного зацикливания в предложенной выше оп тимизационной процедуре для всех точек выборки ведется учет типов ограни чений, которые фиксируются на шаге 3, для двойственных переменных на каж дой итерации алгоритма. При появлении уже встречавшейся ранее комбинации ограничений, работа алгоритма заканчивается. Очевидно, что в силу конечного числа возможных комбинаций ограничений, гарантируется завершение алго ритма. Многочисленные проведенные вычислительные эксперименты показы вают, что алгоритм сходится за несколько шагов. Дополнительно для контроля достижения точки оптимума используется сравнение значений целевых функ ций прямой и двойственной задачи. В точке оптимума их значения должны совпадать.

Альтернативный алгоритм, основанный на использовании функции нечувствительности Вапника, приводится в п. 2.3.4.

В п. 2.4 приводятся результаты исследований робастности алгоритма опорных векторов с различными функциями потерь на нескольких модельных примерах. Показано, что предложенные адаптивные функции потерь Лапласа и Хьюбера обеспечивают робастность в условиях не только «тяжелых хвостов», но и в условиях асимметричных засорений.

Глава 3. Конструирование двойственной задачи SVM с асимметричными функциями потерь В данной главе приведена теоретическая основа восстановления зависимо стей на основе SVM для случая ошибок наблюдений, имеющих асимметричное распределение.

Существует целый ряд задач, в которых распределение ошибок наблюде ний не является симметричным. В п. 3.1 приводятся примеры подобных задач.

Можно выделить два основных класса асимметричных распределений: из начально асимметричные распределения (например, распределение экстре мального значения) и скошенные распределения, полученные на основе базово го симметричного распределения (скошенное Лапласа, Стьюдента и т.д.).

Опираясь на вид оптимальных функций потерь для различных плотностей распределений ошибок наблюдений, для практического использования можно конструировать их аппроксимации. При этом следует учитывать, что в алго ритме опорных векторов для поиска решения традиционно используется задача квадратичного программирования, что сужает класс используемых для аппрок симации функций до линейных и квадратичных. Получаемые таким способом аппроксимации функций потерь будем называть квазиоптимальными.

В п. 3.2 показывается построение квазиоптимальных функций потерь на основе линейно-квадратичных аппроксимаций для использования их в SVM. В случае несимметричного закона распределения ошибок наблюдений оптимиза ционную задачу в SVM можно сформулировать следующим образом 1 T ( ) n min w w + C L(k ) + L(k ) * w,b,, * 2 k = при ограничениях yk wT ( xk ) b + k, yk + wT ( xk ) + b + k, * k 0, k 0, k = 1,K, n, * где L( ) и L( ) – функции потерь, используемые при отклонении наблюдений в ту или другую сторону от линии регрессии, ( x) – используемое нелинейное отображение исходных данных в пространство большей размерности.

Возможны следующие варианты параметризации этих функций потерь:

1) L( ) = ( ), L( ) = (1 ) ( ) ;

2) L( ) = ( ), L( ) = ( (1 ) ) ;

3) L( ) = ( ), L( ) = (1 ) ( ).

Здесь ( ) и ( ) – некоторые функции потерь, например, Гаусса, Лапласа или Хьюбера, а параметр (0,1) призван учитывать разницу в углах наклона правой и левой ветвей аппроксимируемой функции потерь.

В п. 3.3 приводится формулировка двойственной задачи для случая асим метричных функций потерь в SVM:

( )( ) ( ) 1n n n () max i i j j ( xi ) x j + i i* yi * *T * i,i i =1 j =1 i = (7) n ( ) () () n d d i + i* + C L (i ) + L i* i L (i ) i* L i*.

d i * d i i =1 i = Для функции потерь Лапласа ( ) =, используя вариант параметризации №1, получаем ( )( ) ( ) ( ) 1n n n n () i i* j * T ( xi ) x j + i i* yi i + i* max j 2 i =1 j = * i,i i =1 i = при ограничениях n (i i*) = 0, i [0, C ],i* [0, C (1 )]. (8) i = Аналогично, подставляя в качестве ( ) функцию потерь Хьюбера, для вариантов параметризации №1 и №2, соответственно, получаем следующий вид последнего слагаемого в (7):

n i2 i* ;

CT ( ) = + 1) 2C i =1 1 n i2 i*.

CT ( ) = + 2) 2C i =1 2 (1 ) Ограничения, накладываемые на переменные i и i*, совпадают с (8).

Для варианта параметризации №3, когда левая ветвь аппроксимируется функцией потерь Лапласа, а правая – функцией потерь Хьюбера, т.е. ( ) = и 1 2, n i* ( ) = получаем CT ( ) =. Ограничения,, 2C i =1 (1 ) накладываемые на переменные i и i*, также совпадают с (8).

В п. 3.4 приводятся исследования алгоритма опорных векторов с различ ными функциями потерь в условиях асимметричных распределений ошибок наблюдений на основе нескольких модельных примеров. Показано, что исполь зование асимметричных функций потерь позволяет существенно уменьшить среднеквадратичную ошибку аппроксимации в сравнении с симметричными функциями потерь.

В п. 3.5 рассматривается вопрос оценки параметра скошенности распреде ления. Приводятся различные методы оценки в зависимости от степени ап риорной информации.

В п. 3.6 приводится формулировка квантильной регрессии на основе SVM с использованием асимметричных функций потерь. Дается двойственная фор мулировка задачи SVM для этого случая. Рассматриваются различные варианты учета асимметрии функции потерь.

Двойственная задача для построения квантильной регрессии на основе SVM при использовании функции потерь Хьюбера принимает вид ( )( ) ( ) 1n n n () max i i j j ( xi ) x j + i i* yi * *T * i,i i =1 j =1 i = 1 n i i* + 2 C i =1 2 (1 ) при ограничениях (8). В данном случае ( 0,1) – заданная квантиль.

В п. 3.7 рассматривается вопрос построения доверительных интервалов на основе квантильной регрессии. В частности, задавая различные значения пара метра, можно строить доверительные интервалы для отклика. В условиях по стоянства дисперсии ошибок наблюдений (рис. 2(а)), построенные на основе SVM интервалы оказываются близки к интервалам, построенным на основе классического подхода с использованием метода наименьших квадратов (МНК). При этом, в отличие от классического подхода, предложенный метод построения доверительного интервала для отклика можно использовать также и в условиях, когда дисперсия ошибок наблюдений не является постоянной (рис. 2(б)).

б) a) Рис. 2. 95% доверительные интервалы для отклика когда: a) дисперсия ошибок постоянная;

б) дисперсия ошибок переменная (линейно возрастает вдоль оси абсцисс) В п. 3.8 показывается, как квантильная регрессия на основе SVM может быть использована для построения оценок неизвестной дисперсии ошибок на блюдений.

Глава 4. Построение разреженных решений В данной главе приводятся методы построения разреженных решений при построении регрессионных моделей на основе SVM.

В п. 4.1 формулируется задача построения компактной модели регрессии.

Приводится обзор подходов к решению данной задачи.

В п. 4.2 рассматривается механизм получения разреженных решений на основе функции -нечувствительности Вапника.

В п. 4.3 описывается использование предложенных адаптивных функций потерь для получения разреженных решений. Если говорить о разреженности в терминах функции потерь L( ), или точнее относительно ее графика от аргу мента, то возникновение разреженных решений обусловлено наличием уча стков постоянства (зон нечувствительности). Решение формируется на опорных векторах xi, не попадающих на участки постоянства функции L( ). Недостат ком функции потерь -нечувствительности Вапника является то, что эти уча стки непостоянства при относительно широкой полосе могут приходиться на хвосты распределения ошибок наблюдений.

Для устранения данного недостатка предлагается расширение функции нечувствительности Вапника на случай нескольких зон нечувствительности, которые располагаются на различном удалении от нулевой точки. Для этого предлагается использовать адаптивные функции потерь Лапласа и Хьюбера с параметром = 0. На рис. 3(а) представлен график адаптивной функции потерь Лапласа.

Подход, описанный в п. 4.3, обобщается на случай произвольного числа зон нечувствительности в п. 4.4. Данный метод назван «решето» Лапласа.

Функция потерь для этого метода показана на рис. 3(б).

а) б) Рис. 3. Вид функций потерь для построения разреженных решений:

а) адаптивная функция потерь Лапласа при = 0 ( = 1, = 3 );

б) функция потерь метода «решето» Лапласа В п. 4.5 представлен другой метод получения разреженных решений – двухшаговый метод аппроксимации. Суть данного метода заключается в сле дующем. Сначала строится обычное неразреженное решение на основе какой либо функции потерь, например, Лапласа или Хьюбера. Полученное решение должно удовлетворять исследователя по качеству аппроксимации, степени гладкости и другим необходимым свойствам. Данное базовое или исходное ре шение будет на втором шаге аппроксимировано разреженным решением, кото рое формируется при использовании функции потерь -нечувствительности Вапника. Для этого по полученной исходной модели генерируется необходимое число наблюдений, по возможности равномерно размещенных во всем про странстве определения исходных переменных. Эти наблюдения образуют мно жество виртуальных опорных векторов, на базе которых и будет построено разреженное решение.

Основную идею данного метода иллюстрирует рис. 4. Здесь окружностями обозначены опорные векторы, сплошной линией – истинная функция, пунктир ной – SVM-регрессия. Очевидно, что в силу конструкции метода, наибольшая разреженность, при сохранении высокой точности, будет достигаться для слабо осциллирующих функций.

В п. 4.6 рассматривается проблема построения разреженных решений в ус ловиях гетероскедастичности ошибок наблюдений. Для учета гетероскедастич ности необходимо чтобы ширина зоны нечувствительности менялась в зависи мости от величины дисперсии. Чем выше величина дисперсии, тем шире долж на быть зона нечувствительности. На участках, где дисперсия мала, зона нечув ствительности должна быть узкой. Показано, что благодаря учету гетероскеда стичности, удается не только существенно уменьшить среднеквадратичную ошибку аппроксимации, но и получить при этом более разреженное решение.

а) б) Рис. 4. Двухшаговый метод аппроксимации: а) начальное решение;

б) аппроксимация решения на основе сгенерированных наблюдений В п. 4.7 приводятся исследования различных методов построения разре женных решений. В качестве моделей, порождающих данные, использовались ( ) две функции: r1( x) = exp ( x 3)2 / 0.4 и r2 ( x) = sin( x)cos( x 2 ). Результаты ис следований представлены в таблице 1.

Исследования показали, что предложенные методы предоставляют воз можность получения разреженных решений при сохранении высокой точности аппроксимации данных (низком значении среднеквадратичной ошибки аппрок симации – MSE). Их важным отличием от существующих методов является стабильность относительного числа опорных векторов (S) при увеличении объ ема выборки и степени зашумления данных.

Таблица Используемая функция Уровень r1 ( x) r2 ( x) потерь / метод помехи MSE S MSE S 10% 0.0489 100.0% 0.1066 100.0% Лапласа 20% 0.0680 100.0% 0.1473 100.0% 30% 0.0964 100.0% 0.1683 100.0% 10% 0.0700 9.1% 0.1559 13.8% -нечувстительности 20% 0.0778 17.8% 0.1438 19.6% Вапника 30% 0.0738 24.1% 0.1746 29.1% 10% 0.0451 14.3% 0.1021 28.4% Адаптивная функция 20% 0.0769 14.4% 0.1489 28.2% потерь Лапласа 30% 0.0808 13.1% 0.1699 26.9% 10% 0.0519 10.6% 0.0889 23.7% Двухшаговый метод 20% 0.0586 11.1% 0.1331 25.4% аппроксимации 30% 0.0815 12.0% 0.1801 25.4% Глава 5. Применение SVM в задачах восстановления зависимостей В данной главе исследованы возможности SVM для построения парамет рических и полупараметрических моделей регрессии. Приведены модификации SVM для учета автокорреляции и гетероскедастичности ошибок наблюдений.

На реальных данных продемонстрировано использование предложенных моди фикаций SVM для построения регрессионных моделей.

В п. 5.1 показана возможность построения параметрических моделей на основе SVM при использовании полиномиальных ядерных функций. Если ис пользовать в SVM функцию потерь Лапласа, то в случае зашумления с тяжелы ми хвостами (Лапласа, Коши), SVM существенно превосходит МНК как по точности оценок параметров, так и по значению среднеквадратичной ошибки аппроксимации. Очевидно, что если в SVM использовать функцию потерь Га усса, то результаты окажутся близки к тем, что получаются в результате ис пользования МНК. Таким образом, используя SVM для построения параметри ческих моделей, можно оценивать параметры моделей также как и в классиче ских параметрических методах (например, МНК). Основным преимуществом SVM в данном случае можно считать возможность получения решений с ис пользованием различных функций потерь и гарантию единственности решения.

В п. 5.2 приводится метод построения полупараметрических моделей на основе SVM. Предложенный подход базируется на использовании комбинации ядерных функций. Как известно, линейная комбинация ядер с положительными весами также является ядром. Благодаря этому свойству ядер можно комбини ровать различные ядерные функции. Иногда на практике встречаются ситуа ции, когда в рассматриваемой зависимости явно прослеживается некий гло бальный тренд (к примеру, в финансовых рядах, когда идет восходящий тренд с периодическими колебаниями). В этом случае целесообразно использовать смесь ядер: первое ядро будет описывать глобальный тренд, второе – локаль ные колебания. К примеру, если взять комбинацию полиномиального и Гауссо ва ядер:

( x x ) K ( xi, x j ) = µ exp j i + (1 µ )( xi x j + 1)d, 2s где d – степень полинома, s – ширина ядра, µ [ 0,1] – параметр смеси, то по лучим возможность описывать основной тренд гладкими полиномами, а ло кальные осцилляции зависимости будут описываться с использованием Гауссо ва ядра.

В п. 5.3 представлены модификации SVM для построения регрессионных моделей в условиях гетероскедастичности ошибок наблюдений. Предложены три подхода для учета эффекта гетероскедастичности в SVM, два из которых позволяют использовать SVM в условиях отсутствия априорных знаний о ха рактере изменения дисперсии ошибок наблюдений.

Первый подход основан на использовании -нечувствительной функции потерь с зоной нечувствительности, пропорциональной дисперсии наблюдений.

Второй подход, не связанный с параметризацией функции, описывающей поведение дисперсии отклика, состоит в следующем. Это обычная многошаго вая схема (минимум два шага), когда на первом шаге оцениваются остатки, а на втором шаге идет окончательная (или промежуточная) оценка решения с уче том величин этих остатков. В этом случае весь интервал оцененных на первом шаге остатков разбивается на несколько равночастотных интервалов, и для на блюдений из этих интервалов назначается свой коридор нечувствительности. В этом случае влияние наблюдений с различной дисперсией уравнивается. Число интервалов разбиения может варьироваться. Чем выше темп изменения диспер сии, тем больше интервалов разбиения должно быть для более точного учета этих изменений. Данный подход можно считать непараметрическим вариантом учета гетероскедастичности.

Третий подход заключается в использовании оценок величины дисперсии на основе квантильной регрессии, которые были представлены в главе 3. Дан ный подход также можно считать непараметрическим, поскольку он не требует наличия априорной информации о характере изменения дисперсии ошибок на блюдений.

В п. 5.4 исследуется применение SVM в условиях мультиколлинеарности данных. Явление мультиколлинеарности возникает, если между объясняющими переменными существуют почти точные линейные зависимости (в интервале их изменения в эксперименте). В условиях мультиколлинеарности данных при использовании МНК приходится иметь дело с близкой к вырожденной матри цей = Z T Z, где Z – матрица регрессоров. Одним из вариантов решения про блемы вырожденности матрицы является использование регуляризации. К примеру, в методе ридж-оценок для улучшения обусловленности матрицы к ней добавляется диагональная матрица.

На основе вычислительных экспериментов показано, что SVM нечувстви телен к эффекту мультиколлинеарности данных. При использовании SVM в этом случае все параметры, кроме тех, которые соответствуют «коррелирован ным» регрессорам, определяются достаточно точно. Оценки параметров моде ли, полученные с использованием SVM, оказываются близки к ридж-оценкам.

Однако, в отличие от ридж-оценок, в SVM имеется возможность использования робастных функций потерь, таких как функции потерь Лапласа и Хьюбера.

В п. 5.5 исследуется применение SVM в условиях автокорреляции ошибок наблюдений. Предлагается модификация SVM для учета эффекта автокорреля ции первого порядка. Показано, что при автокорреляции первого порядка с из вестным параметром автокорреляции, в SVM необходимо выполнить замену переменных yk = yk yk 1, k = 2, n, b = (1 )b. Ядерную функцию, исполь зуемую при построении регрессионной модели, необходимо заменить на K ( xi, x j ) = K ( xi, x j ) K ( xi 1, x j ) K ( xi, x j 1) + 2 K ( xi 1, x j 1), i, j = 2, n.

При этом отклик для модели будет вычисляться следующим образом:

n y ( x) = i [ K ( x, xi ) K ( x, xi 1) ] + b.

i= В п. 5.6 рассматривается проблема выбора параметров метода SVM. Ис следуется вопрос подбора оптимальных значений параметров алгоритма SVM.

Показано, что эффективным вариантом выбора параметров является их подбор на основе вложенных сеток вокруг эвристически выбранных значений парамет ров.

В п. 5.7 исследуется применение метода SVM в прикладных задачах. В ка честве первого примера рассматривается технологический процесс химическо го производства. Анализ этого процесса производится на основе трех различ ных откликов, которые принимают свои значения в зависимости от значений пяти факторов. Показано, что применение предложенных адаптивных функций потерь позволяет повысить качество регрессионной модели. В качестве других примеров используются широко распространенные выборки данных из сети интернет: «LIDAR», «Motorcycle», «Boston Housing». На примере этих выборок показана эффективность предложенных модификаций SVM в условиях гетеро скедастичности ошибок наблюдений и наличия выбросов в данных.

Заключение Основные результаты могут быть сформулированы следующим образом:

1. Для решения задачи устойчивого оценивания модели регрессии по техноло гии SVM в условиях зашумленных данных с помехой, имеющей распреде ление с «тяжелыми хвостами» или имеющей асимметричное засорение, предложено использование адаптивных функций потерь. Сформулирована двойственная задача для этого случая и реализована итерационная схема решения задачи квадратичного программирования с динамическими ограни чениями.

2. Для построения регрессионных моделей в условиях, когда ошибки наблюде ний имеют асимметричное распределение, предложено использование асимметричных функций потерь в методе SVM. Сформулирована прямая и двойственная задачи для этого случая.

Обобщен метод квантильной регрессии на основе SVM на случай произ 3.

вольной функции потерь. На его основе предложен метод построения дове рительных интервалов для отклика, а также непараметрический метод оцен ки неизвестной дисперсии ошибок наблюдений.

Для построения компактной модели регрессии в условиях работы с выбор 4.

ками большого объема разработаны алгоритмы построения разреженных решений в SVM. Показана их эффективность в сравнении с классическим методом построения разреженных решений на основе функции нечувстви тельности Вапника. Предложена модификация SVM, позволяющая строить разреженные решения в условиях гетероскедастичности ошибок наблюде ний.

Проведено экспериментальное исследование возможности построения рег 5.

рессионных моделей с использованием SVM в условиях мультиколлинеар ности данных, автокорреляции и гетероскедастичности ошибок наблюдений.

Предложены модификации SVM для учета гетероскедастичности и автокор реляции ошибок наблюдений. Для предложенных модификаций сформули рованы прямые и двойственные задачи SVM.

Разработана программная система для построения регрессионных моделей с 6.

использованием SVM. Разработанное программное обеспечение использует ся при проведении научных исследований.

Список публикаций 1. Попов А. А. Использование оценок степени гладкости функции при по строении регрессии на основе метода опорных векторов / А. А. Попов, А. С.

Саутин // Молодежь и современные информационные технологии : cб. тр. – Томск, 2008. – С. 149-150.

2. Попов А. А. Сравнение методов выбора параметров алгоритма опорных век торов в задаче построения регрессии / А. А. Попов, А. С. Саутин // Инфор матика и проблема телекоммуникаций: материалы российской науч.-технич.

конф. – Новосибирск, 2008. – С. 74-77.

3. Саутин А. С. К вопросу о смещении решения в задаче построения регрессии с использованием алгоритма опорных векторов / А. С. Саутин // Современ ные информационные технологии : cб. статей. – Пенза, 2008. – С. 122-125.

4. Попов А. А. Анализ функций потерь в алгоритме опорных векторов при ре шении задачи построения регрессии / А. А. Попов, А. С. Саутин // Тр. меж дунар. конф. «Актуальные проблемы электронного приборостроения АПЭП 2008». – Новосибирск, 2008. – Т. 6. – С. 57-60.

5. Popov A. A. Selection of support vector machines parameters for regression using nested grids / A. A. Popov, A. S. Sautin // The Third International Forum on Stra tegic Technology. – Novosibirsk, 2008. – P. 329-331. [Выбор параметров алго ритма опорных векторов в задаче построения регрессионных моделей с ис пользованием вложенных сеток] 6. Попов А. А. Определение параметров алгоритма опорных векторов при ре шении задачи построения регрессии / А. А. Попов, А. С. Саутин // Сб. научн.

тр. НГТУ. – Новосибирск, 2008. – С. 35-40.

7. Popov A. A. Adaptive Huber Loss Function in Support Vector Regression / A. A.

Popov, A. S. Sautin // The fourth international forum on strategic technology. – Hochiminh, Vietnam, 2009. – P. 114-118. [Адаптивная функция потерь Хью бера в задаче построения регрессионных моделей на основе алгоритма опор ных векторов] 8. Попов А. А. Построение регрессии по методу опорных векторов с ошибками наблюдений, имеющими асимметричное распределение / А. А. Попов, А. С.

Саутин // Доклады АН ВШ РФ. – Новосибирск, 2009. – С. 117-126.

9. Попов А. А. Использование робастных функций потерь в алгоритме опор ных векторов при решении задачи построения регрессии / А. А. Попов, А. С.

Саутин // Научн. вестн. НГТУ. – 2009. – № 4(37). – C. 45-56. (из перечня ВАК) 10.Попов А. А. Построение разреженных решений при использовании алгорит ма опорных векторов в задаче восстановления зависимости / А. А. Попов, А. С. Саутин // Научн. вестн. НГТУ. – 2010. – № 2(39). – C. 31-42. (из переч ня ВАК) 11.Попов А. А. Оценивание дисперсии ошибок наблюдений с использованием квантильной регрессии на основе алгоритма опорных векторов / А. А. По пов, А. С. Саутин // Информатика и проблема телекоммуникаций: материалы российской науч.-технич. конф. – Новосибирск: Изд-во СибГУТИ, 2010. – Том I. – С. 90-93.



 

Похожие работы:





 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.