Авторефераты диссертаций >> Авторефераты по Радиотехнике

Разработка и анализ алгоритмов детектирования и классификации объектов на основе методов машинного обучения

На правах рукописи

Голубев Максим Николаевич РАЗРАБОТКА И АНАЛИЗ АЛГОРИТМОВ ДЕТЕКТИРОВАНИЯ И КЛАССИФИКАЦИИ ОБЪЕКТОВ НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ Специальность 05.12.04 Радиотехника, в том числе системы и устройства телевидения

Автореферат диссертации на соискание ученой степени кандидата технических наук

Владимир – 2012

Работа выполнена на кафедре динамики электронных систем Ярославского государственного университета им. П.Г. Демидова

Научный консультант: доктор технических наук, профессор Брюханов Юрий Александрович

Официальные оппоненты: доктор физико-математических наук, профессор Рау Валерий Георгиевич кандидат технических наук Бухтояров Сергей Сергеевич

Ведущая организация: ОАО «Ярославский радиозавод»

Защита диссертации состоится « 7 » июня 2012 г. в 14.00 часов на заседании диссертационного совета Д 212.025.04 при Владимирском государственном университете имени Александра Григорьевича и Николая Григорьевича Столетовых по адресу: 600000, г. Владимир, ул. Горького, д. 87, ВлГУ, корп. 3, ФРЭМТ, ауд. 301.

С диссертацией можно ознакомиться в библиотеке Владимирского государственного университета имени Александра Григорьевича и Николая Григорьевича Столетовых.

Автореферат разослан « 3 » мая 2012 г.

Отзывы на автореферат, заверенные печатью, просим направлять по адресу:

600000, г. Владимир, ул. Горького, д. 87, ВлГУ, корп. 3, ФРЭМТ.

Ученый секретарь диссертационного совета доктор технических наук, профессор А.Г. Самойлов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Современный уровень научно-технического развития требует целенаправленного развития систем компьютерного зрения как одного из важных механизмов обеспечения эффективного взаимодействия техники с человеком. Одним из важнейших направлений компьютерного зрения является задача автоматизированного распознавания образов. Успешное решение задачи необходимо для разработки и производства систем, способных интеллектуально оценивать внешнюю среду и выполнять в ней те или иные действия.

Однако в реальных системах задачу распознавания объектов приходится решать в условиях наличия искажений, связанных с помехами в радиотехнических устройствах и сжатием двумерного сигнала. Поэтому для эффективного решения поставленной задачи требуется применение специализированных алгоритмов цифровой обработки изображений (ЦОИ), которая широко используется в системах телекоммуникаций, радио- и гидролокации, сейсмологии, робототехнике, радиоастрономии, медицине.

В настоящее время для устройств цифровой обработки изображений, характерно постоянное возрастание объема обрабатываемой информации, повышение требований к качеству обработки, работа в сложной сигнально помеховой обстановке. Все это стимулирует появление новых методов и более сложных алгоритмов, используемых в системах ЦОИ. Среди них можно выделить нелинейные алгоритмы фильтрации и восстановления изображений, вейвлет обработку, системы, построенные на нечеткой логике, генетических алгоритмах, нейронных сетях. Однако влияние таких алгоритмов на решение последующей задачи распознавания объектов на изображении изучено на сегодняшнем этапе развития данной области весьма слабо.

Основополагающие работы в области теории распознавания и классификации связаны с именами таких известных зарубежных ученых, как Нейман Дж., Пирсон К., Вальд А., Розенблат Ф. и др. Большой вклад в развитие теории распознавания и классификации внесли советские и, в последующем, российские ученые: Айзерман М.А., Браверман Э.М., Розоноэр Л.И. (метод потенциальных функций), Вапник В.Н., Червоненкис А.Я. (статистическая теория распознавания, метод «обобщенный портрет»), Ивахненко А.Г. (метод группового учета аргументов), Журавлев Ю.И., Галушкин А.И.

Среди объектов для распознавания и классификации наиболее развитой и актуальной задачей является детектирование и классификация человеческих лиц. В настоящее время эта задача находит применение в различных сферах человеческой деятельности (в первую очередь, в системах безопасности). Сферами применения распознавания лиц являются, например, системы охранного телевидения, сравнение фотографий на паспортах или водительских удостоверениях, контроль доступа к безопасным компьютерным сетям и оборудованию в учреждениях, верификация пользователя при проведении финансовых транзакций, наблюдение за аэропортами и вокзалами для предотвращения террористических актов и многие другие. Во всех этих приложениях требуется корректно устанавливать личность, как по отдельному статическому изображению лица, так и на видеопоследовательности. В большинстве практических ситуаций анализ входного изображения должен осуществляться в режиме реального времени.

Для построения полностью автоматизированных технических систем для распознавания лиц, которые будут анализировать информацию, содержащуюся в изображении лица, требуются робастные и эффективные алгоритмы выделения лиц, учитывающие наличие возможных помех и искажений. Это очень сложная задача, поскольку лицо является неоднородным объектом и обладает высокой степенью изменчивости размера, формы, цвета и текстуры. Поскольку большинство изображений, с которыми работают такие системы, являются цветными, то задача детектирования на таких изображениях может быть решена более уверенно, если использовать информацию из всех цветовых каналов. Кроме того, для увеличения надежности процесса распознавания может быть использована такая дополнительная информация, как возраст, пол, расовая принадлежность, выражение лица.

Основной целью работы является разработка и исследование новых алгоритмов детектирования и классификации объектов на полутоновых и цветных изображениях в условиях наличия искажений, связанных с помехами в радиотехнических устройствах.

Для достижения указанной цели в диссертационной работе решаются следующие задачи:

разработка алгоритмов детектирования лиц на полутоновых изображениях в условиях сложной сигнально-помеховой обстановки;

усовершенствование работы алгоритмов детектирования лиц с использованием информации о цвете;

разработка новых алгоритмов гендерной классификации по цифровому изображению лица для решения ряда практических задач в области современных систем телевидения.

Объектом исследования являются алгоритмы детектирования и классификации объектов, применяемые в радиотехнических системах распознавания изображений и современных системах телевидения.

Предметом исследования являются модификация, оптимизация и разработка алгоритмов на основе методов машинного обучения с целью эффективного решения задач распознавания.

Методы исследования. При решении поставленных задач использовались современные методы цифровой обработки изображений, распознавания образов, машинного обучения, математического анализа, теории вероятностей. Для практической реализации алгоритмов применялись современные численные методы и методы объектно-ориентированного программирования на языке С#.

Научная новизна В рамках данной работы получены следующие новые научные результаты:

1. Разработаны новые алгоритмы детектирования лиц на полутоновых изображениях в условиях сложной сигнально-помеховой обстановки.

2. Разработана модификация алгоритмов детектирования лиц с использованием информации о цвете.

3. Разработан новый алгоритм гендерной классификации по изображению лица на основе адаптивных признаков и метода опорных векторов.

Практическая значимость 1. Проведен анализ работы алгоритмов детектирования лиц при наличии искажающих факторов и предложены рекомендации по их устранению, позволившие повысить уровень выделения в среднем на 20-30%.

2. Разработаны модификации алгоритма детектирования лиц на базе бустинга путем использования информации о цвете, позволившие снизить уровень ложных срабатываний более чем в 2 раза.

3. Разработан и исследован алгоритм гендерной классификации на основе адаптивных признаков и метода опорных векторов для решения ряда практических задач в области современных систем телевидения.

Результаты работы внедрены в соответствующие разработки ООО «А-ВИЖН», ОАО «СеверТрансКом», г. Ярославль. Отдельные результаты диссертационной работы внедрены в учебный процесс ЯрГУ им. П.Г. Демидова в рамках дисциплин «Цифровая обработка изображений» и «Компьютерное зрение», а также в научно-исследовательские работы при выполнении исследований в рамках гранта «Развитие нелинейной теории обработки сигналов и изображений в радиотехнике и связи» (Программа «Развитие научного потенциала высшей школы (2009-2010 годы)», №2.1.2/7067). Все результаты внедрения подтверждены соответствующими актами.

Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и сопоставлением полученных результатов с научными данными, известными из российской и зарубежной литературы.

Апробация работы. Результаты работы докладывались и обсуждались на следующих научно-технических конференциях и семинарах:

65-66-я научные сессии, посвященные Дню радио, Москва, 2010-2011.

Международная научно-техническая конференция «Проблемы автоматизации и управления в технических системах», Пенза, 2009.

15-я международная научно-техническая конференция «Радиоэлектроника, электротехника и энергетика», Москва, 2009.

11-12 и 14-я международные конференции «Цифровая обработка сигналов и ее применение», Москва, 2009-2010, 2012.

Двадцатая международная конференция по компьютерной графике и зрению «ГрафиКон’2010», Санкт-Петербург, 2010.

13-14-я всероссийская научно-техническая конференция «Нейроинформатика», Москва, 2011-2012.

9-10-я всероссийская научная конференция «Нейрокомпьютеры и их применение», Москва, 2011-2012.

Публикации. По теме диссертации опубликовано 17 научных работ, из них статьи в журналах, рекомендованных ВАК («Проектирование и технология электронных средств», «Радиотехника») и 15 докладов на научных конференциях.

Получено свидетельство о государственной регистрации программ для ЭВМ.

Структура и объем работы. Диссертация состоит из введения, пяти разделов, заключения, списка использованных источников, содержащего 247 наименований, и 1 приложения. Она изложена на 206 страницах машинописного текста, содержит 68 рисунков и 22 таблицы.

Основные научные положения и результаты, выносимые на защиту:

1. Алгоритмы детектирования лиц на полутоновых изображениях в условиях сложной сигнально-помеховой обстановки.

2. Модификации алгоритмов детектирования лиц с использованием информации о цвете.

3. Алгоритм гендерной классификации на основе адаптивных признаков и метода опорных векторов.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность выбранной темы, сформулированы цель и задачи исследования, изложены основные положения, выносимые на защиту, показаны научная новизна и практическая значимость работы.

В первой главе проведен обзор существующих методов выделения лиц на неподвижных полутоновых и цветных изображениях.

На современном этапе развития все методы классифицируются на 4 категории.

Некоторые методы находятся на границе категорий.

1. Методы, основанные на знаниях. Эти методы основаны на правилах, которые описывают человеческие знания о том, что собой представляет типичное человеческое лицо. Обычно эти правила охватывают взаимосвязи между признаками лица.

2. Методы на основе инвариантных свойств. Целью этих алгоритмов является нахождение структурных признаков, которые сохраняются даже при изменении положения головы, точки наблюдения или условий освещенности, и последующее использование этих признаков для нахождения лиц.

3. Методы сравнения с шаблоном. Несколько стандартных шаблонов лица хранятся для его описания или некоторых его признаков. Для детектирования вычисляется корреляция между входным изображением и хранимыми шаблонами.

4. Методы на основе обучения. В отличие от методов сравнения с шаблоном модели (или шаблоны) получаются путем обучения на наборе тренировочных изображений, который должен охватывать широкий набор возможных изменений лица. Эти обученные модели затем используются для детектирования.

Существуют стандартные наборы изображений для тестирования алгоритмов детектирования лиц. Однако большинство из них содержат полутоновые изображения. Другие наборы являются закрытыми и отсутствуют в свободном доступе. Поэтому для проведения экспериментов была составлена собственная база изображений, состоящая из 50 цветных изображений, разрешения пикселей, суммарно содержащая 213 лиц.

Во второй главе рассмотрена задача детектирования лиц в условиях сложной сигнально-помеховой обстановки и делается попытка устранения шумов и помех путем использования фильтрации цифровых изображений с целью повышения уровня выделения.

Для тестирования были выбраны три современных алгоритма выделения лиц на базе обучения. Первый алгоритм, предложенный П. Виолой и М. Джонсом, использует процедуру обучения, основанную на бустинге. Второй алгоритм базируется на обучающей сети SNoW (Sparse Network of Winnows). Третий алгоритм основан на методе опорных векторов (МОВ).

Установлено, что на неискаженных изображениях лучший результат по уровню выделения лиц показал алгоритм на базе SNoW – 87,3%. На втором и третьем местах находятся алгоритмы на базе бустинга (82,6%) и МОВ (62,4%) соответственно.

На рис. 1 представлены графики зависимостей уровня выделения алгоритмов детектирования лиц от различных искажающих факторов. Рассмотрено влияние трех видов шумов (гауссов, импульсный биполярный, импульсный со случайными значениями импульсов) и сжатие JPEG (артефакты блочности).

Результаты проведенных экспериментов показали, что алгоритм на базе бустинга более устойчив к искажениям всех типов. Он значительно превосходит другие тестируемые алгоритмы по среднему уровню выделения при внесении гауссова и импульсного шумов ( на 33%), а также при сжатии JPEG ( на 20%).

100 Бустинг Бустинг SNoW SNoW 90 МОВ МОВ 80 Уровень выделения, % Уровень выделения, % 70 50 40 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0. 0 10 20 30 40 50 60 70 80 90 СКО p (а) (б) Бустинг Бустинг SNoW 90 SNoW МОВ МОВ Уровень выделения, % 80 Уровень выделения, % 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0. 0 20 40 60 80 100 120 p K (в) (г) Рис. 1. Влияние искажающих факторов на уровень выделения алгоритмов детектирования лиц:

(а) гауссов шум;

(б) биполярный импульсный шум;

(в) импульсный шум со случайными значениями импульсов;

(г) сжатие JPEG Проведенный анализ Набор тестовых изображений показывает, что наличие шума значительно ухудшает результаты Внесение шума работы алгоритмов выделения лиц на изображениях. Поэтому далее Набор алгоритмов фильтрации Фильтрация шума рассматривается возможность увеличения среднего уровня Набор алгоритмов выделения лиц Выделение лиц выделения лиц за счет применения алгоритмов цифровой фильтрации в Анализ работы качестве предобработки. Для алгоритмов тестирования использовалась схема, Рис. 2. Схема тестирования представленная на рис. 2.

(а) Тестовое изображение (б) Выделение лиц на тестовом изображении (в) Выделение лиц в условиях наличия шума (г) Выделение лиц после фильтрации шума (СКО=40) билатеральным фильтром (д) Выделение лиц после фильтрации шума (е) Выделение лиц после фильтрации шума фильтром Винера фильтром на базе МГК Рис. 3. Визуальное сравнение работы алгоритма выделения лиц на базе SNoW при различных условиях Сначала в изображения вносился гауссов шум с нулевым математическим ожиданием и различным среднеквадратическим отклонением (СКО) (рис. 3в). Для фильтрации были выбраны следующие алгоритмы: билатеральный фильтр (рис. 3г), фильтр Винера (рис. 3д), фильтр на базе метода главных компонент (МГК) (рис. 3е).

Аналогичные исследования проведены для импульсного шума со случайными значениями импульсов. Для фильтрации использовались классический медианный фильтр, направленный взвешенный медианный фильтр и равногрупповой фильтр.

В результате фильтрации гауссова шума достигнуто увеличение среднего уровня выделения лиц алгоритма на базе SNoW и алгоритма на базе МОВ при использовании фильтра на базе МГК на 31% и 10,5% соответственно. В результате фильтрации импульсного шума достигнуто увеличение среднего уровня выделения лиц алгоритма на базе SNoW и алгоритма на базе МОВ при использовании медианного фильтра на 13,5% и 12,6% соответственно;

применение направленного взвешенного медианного фильтра и равногруппового фильтра позволяет увеличить средний уровень выделения алгоритма на базе бустинга на 5%.

В третьей главе предложена модификация алгоритма на базе бустинга (рис. 4), который показал наилучшие результаты на предыдущем этапе исследований, путем использования информации о цвете.

Выделенные К исходному Лица Исходное области изображению применяется изображение Алгоритм Детектирование алгоритм выделения лиц, на кожи Viola-Jones выходе которого получается набор выделенных областей.

Нелица Затем эти области поступают на вход алгоритма Рис. 4. Схема работы модифицированного детектирования кожи, алгоритма на базе бустинга который и принимает окончательное решение о том, к какому классу относится та или иная область.

Таким образом, делается попытка уменьшить число ошибок второго рода путем использования информации о цвете, которая наряду с информацией о яркости пикселей присутствует в полноцветных изображениях.

В качестве детектора кожи использовались два алгоритма:

Алгоритм 1: Явное задание кластера кожи.

Использует классификатор, который определяется явными численными правилами, ограничивающими кластер цвета кожи в пространстве RGB. Пиксель (R, G, B) относится к коже, если для него выполнены все следующие условия:

R 95 G 40 B 20 ;

100 max{R, G, B} min{R, G, B} 80 R G 15 R G R B 60 D, % Простота классификатора и F, % применение его только к областям 40 кандидатам позволили сократить количество ошибок второго рода в 20 алгоритме детектирования лиц, практически не увеличив 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0. вычислительную нагрузку.

STDR Рис. 5. Зависимости уровня выделения и уровня Доля пикселей, которая должна ложных срабатываний от параметра STDR быть детектирована как кожа, чтобы алгоритм отнес данное окно к классу лиц, задается в параметре STDR (Skin Tone Detection Rate). Как следует из графиков, представленных на рис. 5, оптимальным является STDR около 0,4.

Алгоритм 2: Непараметрическая модель кожи.

Второй подход использует разработанный автором алгоритм и относится к непараметрическим моделям распределения оттенка кожи. Он основан на вычислении вероятности принадлежности к оттенку кожи каждой точки дискретизированного цветового пространства.

Можно выделить следующие основные этапы работы алгоритма:

Масштабирование изображения до размеров 150150 пикселей.

Переход от цветового пространства RGB к пространству K1K2K3, 2.

которое представляет собой куб в исходном пространстве, размеры которого в 5 раз меньше исходного.

Для каждого пикселя изображения вычисление вероятности того, что он 3.

принадлежит одному из оттенков кожи.

Сравнение полученных значений с эмпирически найденными порогами.

В табл. 1 представлены результаты сравнения обоих алгоритмов. В скобках указано количество выделенных областей. Видно, что предлагаемый алгоритм показывает на 9% меньше ложных срабатываний по сравнению с первым алгоритмом при большем уровне детектирования (на 3%).

Однако база лиц, на которой были получены результаты, представленные в табл. 1, содержит, в основном, лица европейской расы. Для исследования робастности детекторов кожи к изменению ее оттенка были составлены три базы лиц, содержащих изображения людей трех расовых ветвей.

Как видно из представленных результатов (табл. 2) алгоритм на основе явного задания кластера кожи успешно справляется со своей задачей на изображениях из первых двух баз (южноазиатской и американской). Его использование приводит к небольшому уменьшению уровня выделения в среднем на 2-3%, однако при этом уровень ложных срабатываний уменьшается 27,7%. Но на базе представителей африканской расы он показывает значительно худшие результаты по уровню выделения (уменьшение на 25,24%). Это связано с тем, что данный оттенок кожи плохо вписывается в тот кластер кожи, который жестко задан в данном алгоритме.

Выигрыш по уровню ложных срабатываний здесь также меньше и составляет 11,71%.

Таблица Сравнение результатов работы алгоритмов детектирования кожи Тестируемый алгоритм Уровень выделения Уровень ложных срабатываний Только яркость 92% (217) 51% (230) Явное задание кластера кожи 85% (201) 26%(72) STDR = 0, Непараметрическая модель кожи 88%(209) 17%(44) Таблица Результаты выделения лиц после использования детектора кожи Явное задание кластера кожи Непараметрическая модель кожи STDR = 0, Уровень Уровень ложных Уровень Уровень ложных База лиц выделения срабатываний выделения срабатываний Южноазиатская 85,59% (95) 18,80% (22) 89,19% (99) 37,74% (60) Американская 98,36% (60) 25,00% (20) 100,00% (61) 46,49% (53) Африканская 66,02% (68) 28,42% (27) 90,29% (93) 33,57% (47) Второй алгоритм – на основе непараметрической модели кожи – показал более скромные результаты по уменьшению уровня ложных срабатываний. По всем трем базам выигрыш составил в среднем 7,2%. Это связано с тем, что пороги для всех оттенков кожи были настроены на максимальное сохранение лиц, что и было успешно достигнуто. Для первых двух баз уровень выделения остался тем же, что был до использования детектора кожи, для третьей базы уменьшение составило менее 1%. Таким образом, данный алгоритм устойчив к изменениям оттенка кожи и позволяет успешно бороться с ложными срабатываниями без негативного влияния на уровень выделения.

В четвертой главе предложен алгоритм распознавания пола на основе адаптивных признаков и метода опорных векторов (АП-МОВ) для работы в современных системах телевидения. Проведено сравнение предложенного алгоритма c другими алгоритмами – классическим методом опорных векторов (МОВ) и алгоритмом на базе линейного дискриминантного анализа (KDDA).

Алгоритм АП-МОВ включает в себя следующие шаги (рис. 6): преобразование цветового пространства, масштабирование, вычисление набора адаптивных признаков и классификацию методом Входное изображение АY Y RGB опорных векторов с применением Преобразование ядерного преобразования. Данные, RGB HSV необходимые для вычисления Масштабирование признаков и классификации, Y Y N N получаются в результате обучения HSV A N N классификатора. Обучение Вычисление набора признаков Данные П A. C набор матриц N N классификатора АП-МОВ содержит в C HSV HSV HSV N N HSV i i себе два независимых этапа:

i N N П генерация признаков;

МОВ классификатор Данные формирование и оптимизация Опорные вектора m X f ( П ) sgn yi i k ( X i, П ) b классификатора на базе МОВ.

i i 1 Коэффициенты y Процедура генерации признаков z z i i k ( z, z ) С exp 1 Параметры содержит следующие основные шаги:

1 2 Сb преобразование цветового пространства обучающих фрагментов Решение (мужчина / женщина) RGB HSV (далее все операции Рис. 6. Схема работы алгоритма АП-МОВ выполняются независимо для каждой цветовой компоненты);

масштабирование обучающих фрагментов до единого разрешения N N ;

генерация по случайному закону матрицы коэффициентов CiHSV ;

вычисление признака для каждого обучающего фрагмента как суммы по строкам и столбцам поэлементного произведения матрицы изображения на матрицу CiHSV : ПiHSV AN N. CiHSV ;

HSV N N вычисление целевой функции оптимизации как отношения квадрата разности средних значений признака, вычисленных для наборов обучающих изображений ( {iHSV }М {iHSV } Ж ) «мужчин» и «женщин», к сумме их дисперсий: F ;

{iHSV }М {iHSV } Ж далее в цикле итеративно (до достижения фиксированного максимального ~ числа итераций): генерация по случайному закону матрицы CiHSV внутри ~ HSV фиксированной окрестности матрицы Ci, вычисление признака П iHSV для каждого ~ обучающего фрагмента и вычисление целевой функции F, переход в новую точку ~ ~ ~ ( F F, C C ), если F F ;

сохранение по истечении некоторого заданного числа итераций матрицы HSV коэффициентов Ci ;

переход к генерации следующего i 1 признака.

Для задачи обучения и тестирования гендерного классификатора была составлена собственная база изображений, набранная из различных источников. На рис. 7 показаны примеры изображений из этой базы. На каждом изображении из базы алгоритмом на базе бустинга были выделены лица. Затем вручную были удалены ложные выделения и сформирована база выделенных фрагментов, содержащая 10500 изображений (по 5250 на каждый класс). Эта база была разделена на три независимых выборки: обучающую, контрольную и тестовую.

Рис. 7. Примеры изображений мужчин и женщин из собственной базы лиц Результаты тестирования классификаторов АП-МОВ, МОВ и KDDA представлены на рис. 8 и в табл. 3. Анализ результатов тестирования показывает, что наиболее эффективным как с точки зрения качества распознавания, так и с точки зрения быстродействия, является классификатор АП-МОВ: он показал самый высокий уровень верного распознавания среди всех трех алгоритмов – 79,6%, и превзошел классификаторы МОВ и KDDA по скорости работы в 1,44 раза.

Рис. 8. ROC-кривые тестируемых Такое преимущество объясняется алгоритмов распознавания пола тем, что классификатор АП-МОВ работает с небольшим набором адаптивных признаков, каждый из которых несет в себе всю необходимую информацию об анализируемых классах, в то время как алгоритмы МОВ и KDDA работают с гигантским массивом значений пикселей, каждый из которых несет в себе недостаточную информацию для разделения классов.

Таблица Сравнительный анализ основных показателей тестируемых алгоритмов распознавания пола Алгоритм МОВ АП-МОВ KDDA Параметр Уровень распознавания Верно Неверно Верно Неверно Верно Неверно Распознано мужчин, % 80 20 75,8 24,2 80 Распознано женщин, % 75,5 24,5 65,5 34,5 79,3 20, Общий уровень 22,3 30,3 20, 77,7 69,7 79, распознавания, % Быстродействие, 44 45 фрагментов / сек Пятая глава носит практический характер и посвящена описанию научно исследовательской среды для детектирования и распознавания объектов на цифровых изображениях Recognition.Lab.

Описанные в предыдущих главах алгоритмы детектирования лиц и классификации пола получили программную реализацию в научно исследовательской среде под названием Recognition.Lab. В качестве объектов детектирования помимо лиц могут выступать также отдельные особенности лица (глаза, нос, рот) и фигура человека. Кроме того, в программе существует возможность добавления новых классов объектов без необходимости перекомпиляции приложения.

Инструменты Recognition.Lab позволяют:

открывать изображения различных форматов (.bmp,.jpg,.png и др.);

оценивать качество работы алгоритмов детектирования объектов;

для детектированных объектов класса «Лицо» выполнять классификацию пола;

проводить исследования в реальном времени, получая изображения с веб-камеры.

Для работы программы (рис. 9а) необходимо предоставить следующие входные данные:

1) выбрать изображение, на котором будут выделяться объекты;

2) задать объекты, которые требуется выделить на данном изображении;

3) определить параметры детектирования или использовать значения по умолчанию (рис. 9б).

Рассмотрена процедура добавления нового класса объектов детектирования на примере детектора объектов класса «Самолет».

(а) (б) Рис. 9. Программа Recognition.Lab:

а) основное окно;

б) окно параметров для объекта класса «Лицо» Для обучения каскада используется утилита opencv_haartraining. Новые объекты в программу Recognition.Lab добавляются через файл CustomSettings.xml.

Данный файл создается автоматически при первом открытии окна параметров.

Описание объекта класса «Самолет» выглядит следующим образом:

DetectionBase NameСамолет/Name CascadeFileNamehaarcascade_airplane.xml/CascadeFileName IsDetectedtrue/IsDetected Properties CascadeFiles stringhaarcascade_airplane.xml/string /CascadeFiles FrameColor A255/A R255/R G20/G B147/B ScA1/ScA ScR1/ScR ScG0.00699541/ScG ScB0.291770637/ScB /FrameColor FrameThickness5/FrameThickness Scale1.1/Scale /Properties Children / /DetectionBase После того как объект прописан в файл CustomSettings.xml, он появляется в окне параметров и может быть детектирован на изображениях (рис. 10).

Рис. 10. Детектирование нового объекта в программе Recognition.Lab ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ На основании проведенных исследований в области распознавания изображений в работе получены следующие результаты:

Проведено сравнение трех современных алгоритмов выделения лиц на 1.

изображениях на базе обучения. Это алгоритмы на базе процедуры бустинга, на базе обучающей сети SNoW и на базе метода опорных векторов. Лучший результат по уровню выделения лиц на неискаженных изображениях показал алгоритм на базе SNoW – 87,3%. На втором и третьем местах алгоритмы на базе бустинга (82,6%) и МОВ (62,4%) соответственно.

Исследовано влияние на работу тестируемых алгоритмов нескольких типов 2.

искажений: гауссов шум, импульсный шум, размытие и сжатие JPEG. Результаты проведенных экспериментов показали, что алгоритм на базе бустинга более устойчив к искажениям всех типов. Он значительно превосходит другие тестируемые алгоритмы по среднему уровню выделения при внесении гауссова и импульсного шумов ( на 33%), а также при сжатии JPEG ( на 20%). При размытии алгоритм на базе бустинга уступает по среднему уровню выделения 6,6% алгоритму на базе SNoW, однако при этом он допускает в 4 раза меньше ошибок классификации.

Разработана модификация для алгоритма выделения лиц на основе детектора 3.

пикселей кожи. Применение детектора кожи позволяет уменьшить количество ложных срабатываний на цветных изображениях при небольшом уменьшении уровня выделения. Проведено сравнение двух алгоритмов детектирования кожи.

Это алгоритм, использующий явное задание кластера кожи и алгоритм, использующий непараметрическую модель кожи. Алгоритм, использующий явное задание цвета кожи, ограничен одной областью цветовых оттенков. Предлагаемый автором алгоритм является более гибким, и его работа определяется набором обучающих изображений. Он показывает на 9% меньше ложных срабатываний при большем уровне детектирования (на 3%).

Предложен алгоритм классификации изображений на базе адаптивных 4.

признаков и метода опорных векторов для работы в современных системах телевидения, решающий задачу распознавания пола людей по изображению лица с точностью порядка 80%. Результаты тестирования показывают, что предлагаемый алгоритм превосходит другие рассматриваемые алгоритмы по всем основным параметрам. Его уровень верного распознавания составил 79,6%, что на 1,9% больше, чем у классификатора МОВ и на 9,9% больше, чем у алгоритма KDDA.

Количество фрагментов, обрабатываемых АП-МОВ в секунду, составило 65, что в 1,44 раза больше по сравнению с другими тестируемыми алгоритмами.

Адаптивный характер генерации набора признаков в процедуре обучения АП 5.

МОВ позволяет использовать данный классификатор для распознавания любых других объектов, находящихся на изображении (помимо лиц). Для этого необходимо лишь сформировать обучающий набор фрагментов для каждого рассматриваемого класса и переобучить классификатор в соответствии с методикой, приведенной в работе.

Для демонстрации работы описанных алгоритмов и проведения дальнейших 6.

исследований по данной тематике создана научно-исследовательская среда для детектирования и распознавания лиц Recognition.Lab.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в журналахиз перечня ВАК 1. Приоров А.Л., Игнатов И.С., Голубев М.Н., Хрящев В.В. Разработка и анализ алгоритма выделения лиц на изображениях // Проектирование и технология электронных средств. 2008. №2. С. 58-62.

2. Голубев М.Н., Приоров А.Л., Хрящев В.В. Удаление импульсного шума со случайными значениями импульсов из изображений // Радиотехника. 2010. №5.

С. 72-78.

Материалы российских и международных конференций 3. Голубев М.Н., Игнатов И.С., Студенова А.А., Шмаглит Л.А. Повышение эффективности алгоритмов выделения лиц на цифровых изображениях // Сб. тр.

научн.-техн. семинара «Системы синхронизации, формирования и обработки сигналов для связи и вещания». Ярославль, 2008. С. 3-5.

4. Тарасова Д.А., Тихонова Т.С., Голубев М.Н. Предварительная обработка изображений в задаче распознавания // Тез. докл. 15-й междунар. науч.-тех. конф.

«Радиоэлектроника, электротехника и энергетика». М., 2009. Т. 1. С. 27-28.

5. Шмаглит Л.А., Голубев М.Н., Игнатов И.С., Хрящев В.В. Выделение лиц на изображениях в условиях искажений // Докл. 11-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2009. Т. 2. С. 511-514.

6. Голубев М.Н., Хрящев В.В., Шмаглит Л.А. Об одном алгоритме распознавания лиц на изображениях // Тр. междунар. науч.-техн. конф. «Проблемы автоматизации и управления в технических системах». Пенза, 2009. С. 358-362.

7. Голубев М.Н., Апальков И.В. Устранение ложных срабатываний в алгоритме выделения лиц на изображении // Докл. 12-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2010. Т. 2. С. 302-304.

8. Шмаглит Л.А., Голубев М.Н. Использование информации о цвете в алгоритме выделения лиц на изображениях // Матер. 20-й междунар. конф. по компьютерной графике и зрению «ГрафиКон’2010». СПб., 2010. С. 331-332.

9. Апальков И.В., Голубев М.Н., Игнатов И.С. Архивирование изображений на основе стандарта JPEG2000 с возможностью распознавания лиц // Тр. LХV науч.

сессии, посвященной Дню Радио. М., 2010. С. 207-209.

10. Тарасова Д.А., Голубев М.Н., Игнатов И.С. Модификация алгоритма выделения лиц на изображениях // Матер. шестьдесят третьей региональной научно-технической конференции студентов, магистров и аспирантов высших учебных заведений с международным участием, посвященная 1000-летию Ярославля. Ярославль, 2010. С. 224-225.

11. Голубев М.Н. Сравнительный анализ алгоритмов распознавания лиц на изображениях // Матер. XV всерос. науч.-техн. конф. студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании». Рязань, 2010. С. 357-359.

12. Голубев М.Н. Использование информации о цвете в алгоритме выделения лиц на базе бустинга // Сб. науч. труд. 13-й всерос. науч.-техн. конф.

«Нейроинформатика-2011». М., 2011. Ч. 3. С. 55-62.

13. Голубев М.Н., Шмаглит Л.А., Приоров А.Л. Сравнительный анализ алгоритмов выделения лиц на изображениях при наличии нормального шума // Тез.

докл. IX всерос. науч. конф. «Нейрокомпьютеры и их применение». М., 2011. С. 37.

14. Голубев М.Н., Брюханов Ю.А. Исследовательская среда PicLab.Signage.Demo:

обзор возможностей // Тр. LХVI науч. сессии, посвященной Дню Радио. М., 2011.

С. 350-353.

15. Голубев М.Н., Шмаглит Л.А., Ганин А.Н. Разработка и анализ системы автоматического распознавания пола людей по изображению лица // XIV всерос.

науч.-техн. конф. «Нейроинформатика-2012». М., 2012. С. 151-159.

16. Голубев М.Н., Ганин А.Н., Шмаглит Л.А. Алгоритм распознавания пола на основе адаптивных признаков и метода опорных векторов // X всерос. науч.-техн.

конф. «Нейрокомпьютеры и их применение». М., 2012. С. 33.

17. Шмаглит Л.А., Голубев М.Н., Ганин А.Н., Хрящев В.В. Гендерная классификация по изображению лица // Докл. 14-й междунар. конф. «Цифровая обработка сигналов и ее применение». М., 2012. Т. 2. С. 425-428.

Свидетельство о государственной регистрации программ для ЭВМ 18. Голубев М.Н., Аминова Е.А., Ганин А.Н., Хрящев В.В. Научно исследовательская среда для детектирования и распознавания лиц на цифровых изображениях с целью анализа возраста и пола личности Recognition.Lab // Свидетельство о регистрации в Реестре программ для ЭВМ №2011614271 от 31.05.2011.

Подписано в печать Формат 6084 1/16. Тираж 100 экз.

Отпечатано на ризографе Ярославский государственный университет 150000 Ярославль, ул. Советская, 14.

Авторефераты диссертаций >> Авторефераты по Радиотехнике

<< ГЛАВНАЯ | КОНТАКТЫ

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

Разработка и анализ алгоритмов детектирования и классификации объектов на основе методов машинного обучения