авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


На правах рукописи

ПОЛИЦЫНА Екатерина Валерьевна

СОЗДАНИЕ ОТКРЫТОЙ СИСТЕМЫ

АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТА И

ИНСТРУМЕНТАЛЬНЫХ СРЕДСТВ ЕГО АНАЛИЗА

Специальность 05.13.17 – Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Воронеж - 2012

Работа выполнена в ФГБОУ ВПО «МАТИ» - Российском государственном технологическом университете им. К.Э. Циолковского

Научный руководитель: кандидат технических наук профессор Балакирев Николай Евгеньевич

Официальные оппоненты: доктор технических наук профессор главный научный сотрудник ЗАО «RETRANS Technologies»

Белоногов Герольд Георгиевич кандидат технических наук доцент доцент кафедры программного обеспечения и администрирования информационных систем ФГБОУ ВПО «Воронежский государственный университет»

Воронина Ирина Евгеньевна

Ведущая организация: ФГБОУ ВПО «Московский государственный технический университет радиотехники, электроники и автоматики»

Защита состоится «02» июля 2012 г. в 10 ч. 00 мин. на заседании диссертационного совета Д 212.038.24 при ФГБОУ ВПО «Воронежский государственный университет» по адресу: 394006, Россия, г. Воронеж, Университетская площадь, д. 1, ауд. 226.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Воронежский государственный университет».

Автореферат разослан «28» мая 2012 г.

Ученый секретарь диссертационного совета Д 212.038. кандидат физико-математических наук Чеботарев А.С.

Общая характеристика работы

Актуальность темы диссертации. К середине XX века непрерывный рост объемов вырабатываемой человечеством информации сделал крайне актуальными задачи поиска информации в огромных массивах данных, ее выбора и упорядочения по тем или иным признакам.

К этим задачам относятся классификация, кластеризация, составление картотек, словарей и энциклопедий и др. Появление вычислительной техники способствовало в 1960-е гг. созданию различных теорий в области лингвистики и представления знаний (Ю.Д. Апресян, М. Мински, Д.А.

Поспелов, Р. Шенк, И. Уилкс, В.А. Звягинцев, Т. Виноград, А.К.

Жолковский, Ч. Филмор и др.), развитию методов автоматизированного анализа текста, проектированию и разработке систем, реализующих их.

В последние десятилетия появилось множество систем автоматизированного анализа текста, предназначенных для решения отдельных задач или небольшого набора задач. Большая часть этих систем является экспериментальными и предназначены для работы с ограниченными объемами информации. При этом изменение алгоритма решения или расширение функционала системы пользователем практически невозможно.

Это определяет актуальность как теоретических работ по созданию новых подходов к построению систем автоматизированного анализа текста, открытых для расширения и модификации пользователями, так и практических разработок пользовательских инструментов, реализующих в рамках этих систем функции обработки текста.

Цель диссертационной работы. Целью диссертационной работы является создание новой системы автоматизированного анализа текста, предоставляющей пользователю возможность гибкой настройки на решаемую задачу путем выбора оптимального набора инструментов и создания новых инструментов.

Для достижения поставленной цели, в работе необходимо решить следующие задачи:

1. Выделение круга задач обработки текста для решения средствами новой системы автоматизированного анализа текста.

2. Анализ существующих методов автоматизированной обработки текста.

3. Анализ существующих систем автоматизированной обработки текста, решающих названные выше задачи.

4. Определение структуры и функционала создаваемой системы автоматизированной обработки текста.

5. Разработка ядра системы автоматизированной обработки текста.

6. Разработка инструментальных средств анализа текста.

7. Разработка метода оценки времени обработки текста и методики его прогнозирования.

8. Экспериментальная проверка разработанной системы автоматизированной обработки текста и инструментальных средств анализа текста.

диссертационной работе являются методы анализа естественно-языковых текстов на русском языке и реализующие их автоматизированные системы.

Методы исследования. Методы исследования заимствованы из следующих областей:

компьютерная и структурная лингвистика;

математический анализ;

теория вероятностей и математическая статистика;

языки программирования высокого уровня.

Научная новизна. Научную новизну диссертационной работы составляют следующие результаты, полученные в ходе решения поставленных задач:

структура открытой системы автоматизированной обработки текста;

инструментальные средства обработки текстов и анализа полученных результатов;

методика прогнозирования времени обработки текста.



Практическая ценность работы. Практическую ценность работы составляют следующие результаты:

базовые компоненты системы автоматизированного анализа текста;

инструментальные средства построения алгоритмов анализа текстов.

Положения, выносимые на защиту. На защиту выносятся следующие основные положения:

концептуальная модель и структурная схема открытой системы автоматизированной обработки текста;

принципы организации инструментальных средств анализа результатов обработки текста;

методика оценки времени обработки текста.

Апробация результатов исследований. Основные результаты, полученные в ходе выполнения диссертационной работы, докладывались на международных молодёжных научных конференциях ХХХII Гагаринские чтения (Москва, 2006 г.), ХХХIII Гагаринские чтения (Москва, 2007 г.), ХХХIV Гагаринские чтения (Москва, 2008 г.), ХХХVI Гагаринские чтения (Москва, 2010 г.), ХХХVII Гагаринские чтения (Москва, 2011 г.), ХХХVIII Гагаринские чтения (Москва, 2012 г.), XI Санкт-Петербургской международной конференции «Региональная информатика – 2008» (Санкт-Петербург, 2008 г.), XII Санкт-Петербургской международной конференции «Региональная информатика – 2010» (СанктПетербург, 2010 г.), VIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии»

(Воронеж, 2008 г.), IX Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2009 г.), X Международной научно-методической конференции «Информатика:

проблемы, методология, технологии» (Воронеж, 2010 г.), XI Международной научно-методической конференции «Информатика:

проблемы, методология, технологии» (Воронеж, 2011 г.), Всероссийских научно-технических конференциях: «Новые материалы и технологии – 2006» (Москва, 2006 г.), «Новые материалы и технологии – 2008» (Москва, 2008 г.), а также докладывались и обсуждались на научных семинарах кафедры «Проектирование вычислительных комплексов» «МАТИ» – РГТУ имени К.Э. Циолковского и Института системного программирования РАН.

Публикации. По теме диссертации опубликованы шестнадцать печатных работ, в том числе две статьи, из них одна статья в журнале, входящем в Перечень ведущих изданий, рекомендованных ВАК.

Структура и объем работы. Работа состоит из введения, четырех глав, заключения, списка литературы и 5 приложений. Работа изложена на 123 страницах и включает 20 рисунков, 6 таблиц, список литературы из 123 наименований, а также приложения на 13 страницах. Общий объём работы – 136 страниц.

Во введении обосновывается актуальность темы диссертационной работы. Характеризуется область исследования. Обосновываются научная новизна и практическая значимость выполненного исследования.

Формулируются цели исследования и основные положения, выносимые на защиту.

В первой главе рассматриваются и характеризуются практические задачи и направления автоматизированной обработки текста: машинный перевод, генерация текста, локализация и интернационализация, работа на ограниченном языке, создание текстовых документов: ввод, редактирование, исправление ошибок, построение и работа с онтологиями, информационный поиск и др.

Описываются методы и этапы автоматизированного анализа текста, как лингвистического (графематический, морфологический, синтаксический, семантический, прагматический), так и статистического (n-граммная модель, дерево решений и др.). Показано, что наиболее предпочтительным является комбинированный метод анализа текста, учитывающий статистические характеристики его структурных единиц.

автоматизированной обработки текста классифицируются по вырабатываемым ими результатам: либо из текста извлекается некоторая информация, либо на основе содержащейся в тексте информации порождается новая информация. Исходя из этого, системы подразделяются на системы порождения, извлечения и гибридные системы.

К системам порождения относятся голосовые системы и системы генерации текста, рассмотрение которых не входит в задачи диссертационной работы.

Системы извлечения информации включают в себя системы и технологии анализа текста и инструменты анализа, предназначенные для решения некоторых конкретных задач. Их, в свою очередь, можно разбить на несколько подразделов. Первый включает в себя большой класс, к которому относятся наиболее распространенные системы, решающие практические задачи: индексирования, классификации, кластеризации, поиска. Их разделение внутри класса необходимо, поскольку при решении различных задач в зависимости от желаемого результата используются различающиеся методы. Второй подраздел включает инструменты лингвистического и статистического анализа текста, которые решают отдельные небольшие задачи, входящие в состав других задач из первого раздела.





Гибридные системы включают в себя системы, сочетающие в себе извлечение и порождение знаний. К ним в первую очередь относится большой класс систем машинного перевода. Вторым классом гибридных систем являются системы автоматизированного реферирования и аннотирования, в которых на основе извлеченной информации строится новый сокращенный текст. Третий класс составляют задачи, относящиеся к области искусственного интеллекта: системы автоматизированного создания баз знаний, создание интеллектуальных систем, вопросноответные системы.

Проведенный анализ показал, что большая часть существующих систем, обладающих наиболее широким функционалом, носит экспериментальный характер (TORUS, GUS и др.). Их недостатком является возможность работы лишь с ограниченными объемами информации (MARGE, CSD, PSS, ПОЭТ и др.). Системы же, использующиеся на практике (Медиалогия, PROMT, ДИАЛИНГ, TextAnalyst и др.), предоставляют пользователям гораздо меньшие возможности обработки текстов. Однако и те и другие не предоставляют гибких инструментов для воздействия на алгоритмы обработки текстов.

Существуют разработанные за рубежом архитектуры и наборы библиотек и инструментов для создания, исследования и использования широкого спектра различных моделей анализа, а также интеграции их с технологиями поиска и хранения информации. Для английского языка созданы системы, позволяющие комбинировать наборы предоставленных инструментов анализа текста, но они реализованы в виде набора библиотек для разработки программного обеспечения, не имеют пользовательского интерфейса и практически не поддерживают работу с текстами на русском языке (GATE, UIMA, LingPipe).

Кроме этого почти все существующие системы анализа включают в себя полный или сокращенный набор этапов обработки, а для решения различных задач используют дополнительный анализ полученной информации.

Определяются задачи обработки текста для решения средствами предлагаемой системы автоматизированного анализа текста:

1. Составление словарей писателей, определение авторства, определение особенностей стиля писателя и т.д.

2. Автоматическая классификация, аннотирование, реферирование, выделение ключевых слов предметной области.

3. Определение статистических, лингвистических и интегральных характеристик текстов и структур, извлекаемых из них при обработке.

Делается вывод о том, что используемые в реальных системах алгоритмы обработки являются закрытыми для пользователя и не дают возможности применять собственные алгоритмы анализа текста. В этих системах отсутствует возможность модификации алгоритмов с учетом информации, накопленной в процессе обработки, отсутствуют методы и инструменты получения и анализа интегральных характеристик по совокупности текстов, отсутствуют оценки практической реализуемости и временных затрат на обработку текстов.

Вторая глава посвящена описанию структуры предлагаемой системы автоматизированного анализа текста.

Формулируются требования к этой системе:

1. Открытость, позволяющая пользователям развивать и усовершенствовать систему.

2. Расширяемость, дающая возможность увеличивать базовый функционал системы.

3. Модульность, основывающаяся на делении процесса обработки на отдельные алгоритмы, что требует выделения базового набора алгоритмов, используемых при анализе текста.

4. Возможность учета неоднозначности результатов анализа текста, позволяющая повторять те или иные этапы анализа после устранения неоднозначности.

5. Возможность оценки времени обработки в зависимости от объема входного текста.

Открытость системы для пользователя должна обеспечиваться:

наличием гибких инструментальных средств анализа текста;

учетом и возможностью использования извлекаемой в процессе анализа информации;

возможностью расширения за счет включения в ее состав собственных методов и инструментов пользователя.

В соответствии с выработанными требованиями предлагается концептуальная модель открытой системы обработки и анализа текстов, накопления полученной информации и ее последующего анализа (рис. 1).

Аналитические методы обработки

СИСТЕМА ХРАНЕНИЯ

Рис. 1. Концептуальная модель системы анализа текста.

В основе модели лежат три уровня обработки текста:

лингвистическое (лингвистические методы обработки), статистическое (статистические методы обработки), аналитическое (операции над результатами).

Концептуальная модель системы включает в себя:

Принципы развития и наполнения системы.

Подход к обработке данных состоит в выделении трех уровней обработки: для получения качественных характеристик элементов и структур текста (лингвистические методы обработки), количественных показателей (статистические методы обработки) и интегральных характеристик (аналитические методы обработки), на основе которых делаются выводы при решении практических задач.

Качественные и количественные характеристики составляют основу для получения интегральных, соответственно лингвистические и статистические методы обработки необходимы для получения исходных данных для применения аналитических методов.

Описанная концептуальная модель требует соответствующей структуры системы (рис. 2):

Система анализа результатов 1. Система базовой обработки предоставляет возможность обработки произвольного текста, управления процессом обработки, настройки его параметров.

2. Система анализа результатов включает в себя язык сценариев для работы со структурами данных, полученными после базовой обработки. Операции языка сценариев позволяют производить дальнейший анализ и дают пользователю возможность написания алгоритмов для решения конкретной задачи.

3. Аналитическая система накопления поступающей информации – набор сценариев, который автоматически запускается при обработке каждого текста и позволяет обновлять информационную базу системы.

4. Система хранения включает в себя базу данных и совокупность файлов, создаваемых программой при обработке или после ее завершения по желанию пользователя.

5. Пользовательская система – среда взаимодействия пользователя с программой, обеспечивающая возможность доступа к системе хранения и имеющемуся набору инструментов.

Перечисленные системы взаимодействуют между собой, оперируя данными разных типов и структур: словники, списки предложений, списки связей, результаты статистической обработки, синтаксические и семантические представления и т.д.

Так, система хранения содержит:

• извлекаемую из текстов информацию;

• общую накопленную информацию;

• служебную информацию.

Под извлекаемой понимается информация, получаемая как непосредственно при обработке текстов, так и при анализе результатов обработки. Общая накопленная информация – это результат работы аналитической системы накопления поступающей информации.

Служебной информацией в системе являются данные, необходимые для основных этапов обработки текста (например, морфологический словарь), информация о пользователях и обработанных ими текстах, а также создаваемые пользователями или разработчиками сценарии решения различных задач.

Основой для развития и наполнения системы является аналитическая система накопления поступающей информации, построенная в соответствии с моделью адаптивно-динамического преобразования информации (рис. 3).

Информация, получаемая в результате базовой и аналитической обработки исходных данных, остается в системе, помещается в базу данных и может быть использована при обработке исходной информации.

Это делает систему динамической и позволяет расширять внутренние «знания» системы, которые также включают в себя устоявшиеся алгоритмы решения задач (сценарии).

Рис. 3. Модель адаптивно-динамического преобразования информации.

Третья глава посвящена разработке инструментальных средств анализа текста и определения различных интегральных характеристик.

Под интегральными понимаются характеристики, получаемые на основе информации, ранее извлеченной из текста (средняя длина предложения, максимальная длина слова, частота встречаемости слова и т.д.). В системе анализа инструментом для получения интегральных характеристик текста является язык сценариев, который оперирует структурами, полученными в результате применения методов базовой обработки. Язык сценариев позволяет получать различные интегральные характеристики текстов с помощью написания на нем алгоритмов сценариев анализа.

Каждый сценарий является реализацией алгоритма решения какойлибо задачи анализа текста. Язык сценариев включает в себя операции двух видов: операции над структурами извлеченных данных и операции управления. Действие каждой операции с одной стороны определяется структурой элементов множества (в настоящее время в качестве множеств рассматриваются словники, списки связей слов, списки предложений, семантические сети), к которому она применяется, с другой – параметром, который при этом учитывается (например, учет части речи, частоты, веса понятий и т.д.). В последующем возможно введение дополнительных операций над множествами элементов других типов.

Использование языка сценариев позволяет обеспечить:

Открытость процесса анализа текста.

Возможность самостоятельной разработки и применения алгоритмов решения различных задач пользователем.

Легкость отладки и внесения изменений в созданные сценарии.

Возможность сохранения и неоднократного применения созданных сценариев.

По аналогии с теоретико-множественными операциями и с учетом особенностей естественно-языковых текстов и извлекаемой из них информации вводятся следующие операции над структурами данных, получаемыми на базовых этапах обработки:

1. Объединение (Тип структуры, Структура 1, Структура 2, [Параметры]) – объединение двух структур с учетом заданного набора параметров. Результат: Структура 3, Статус.

2. Пересечение (Тип структуры, Структура 1, Структура 2, [Параметры]) – пересечение двух структур с учетом заданного набора параметров. Результат: Структура 3, Статус.

3. Разность (Тип структуры, Структура 1, Структура 2, [Параметры]) – разность двух структур с учетом заданного набора параметров. Результат: Структура 3, Статус.

4. Отношение (Тип структуры, Структура 1, Структура 2, [Параметры]) – доля структур первого текста, присутствующих или не присутствующих во втором. Результат: Статус.

5. Объединение с отсечением (Тип структуры, Структура 1, Структура 2, [Параметры]) – объединение двух структур с учетом заданного набора параметров с последующим отсечением элементов по выбранному критерию. Результат: Структура 3, Статус.

6. Удаление (Тип структуры, Структура 1, [Параметры]) – удаление из структуры элементов с учетом заданного набора параметров.

Результат: Структура 2, Статус.

7. Выборка (Тип структуры, Структура 1, [Параметры]) – выбор из структуры элементов с учетом заданного набора параметров. Результат:

Структура 2, Статус.

Для каждой операции задается имя структуры, сохраняющей результат, а после ее завершения устанавливается статус выполнения (1 – операция выполнена успешно; -1 – операция не выполнялась; -3– ошибка сохранения результата и др.), который может быть использован как в отладочных целях, так и в операторе условного перехода.

Операции управления включают в себя:

1. Копирование (Тип данных, Структура 1, [Параметры]) – копирование элементов одной структуры в другую с учетом заданного набора параметров. Результат: Структура 2.

2. Условный переход (Статус, Знак, Значение, Номер строки сценария для перехода) – переход к указанной строке сценария в зависимости от статуса предыдущей операции.

3. Комментарий – строка для ввода поясняющей информации, не влияющей на ход анализа.

Язык сценариев поддерживает сохранение сценариев и шаблонов, созданных на их основе. Для интегрального анализа текста создан гибкий инструмент, позволяющий на основе структур, полученных в результате обработки текста, строить различные алгоритмы анализа и изменять их при необходимости.

Углубление анализа текста предполагает применение все более сложных алгоритмов, работающих с трудом поддающимися структурированию данными. Это приводит к существенному увеличению времени обработки, которое может варьироваться в интервале от нескольких минут до нескольких месяцев. Время обработки возрастает также и при увеличении размера анализируемого текста. Поэтому необходимо разработать метод и инструмент прогнозирования времени обработки текста. Наличие такого инструмента позволит пользователям оптимально выбирать подходящие инструменты анализа.

Использование оценки времени обработки на основе определения сложности алгоритмов анализа невозможно, поскольку пользователь может выбирать различные наборы инструментов анализа текста, изменять их и добавлять собственные инструменты. Предлагается метод определения времени обработки текста и методика его использования, позволяющая в несколько этапов рассчитывать ожидаемое время обработки на основе ранее полученных данных.

В первую очередь предлагается исследовать зависимость времени обработки от размера текста, поэтому необходимо определить, что в данном случае понимается под размером текста. В общем случае, для всех видов анализа первоначальной характеристикой является размер файла анализируемого текста. Но исследование показало, что размер текстового файла в байтах не является определяющей характеристикой для оценки времени обработки текста. Время обработки в первую очередь зависит от внутренней структуры текста, а также от используемых способов представления данных, применяемых алгоритмов и глубины анализа.

Поэтому помимо размера файла необходима другая характеристика, которая больше отражает свойства текста и может быть достаточно легко и быстро получена.

Например, такой базовой характеристикой может быть размер словника (количество различных слов в тексте). Составление словника является результатом прохождения этапа морфологического анализа, причем время обработки текста на этом этапе весьма незначительно по сравнению со временем синтаксического и других видов анализа. Для других видов и алгоритмов анализа возможен выбор другой базовой характеристики.

При оценке времени обработки использовались инструменты графематического и морфологического анализа, построения словника текста и ассоциативной семантической сети с учетом видов синтаксических связей между словами. При этом текст был представлен в простом текстовом формате.

С ростом размера текста время его анализа возрастает нелинейно, что может сделать невозможным практическое использование системы или набора инструментов анализа. Размер текста, глубина его анализа и требуемое качество результата существенным образом определяют время обработки. В диссертационной работе оценивается зависимость времени обработки от размера текста при условии, что:

исследование проводилось на компьютере с фиксированной конфигурацией;

в процессе исследования алгоритмы анализа не изменялись;

исследование проводилось для ограниченного набора этапов анализа текста.

На основе экспериментально полученных данных для разных этапов обработки и разных текстов возможно получение формулы и построение кривой регрессии. Исходя из анализа экспериментально полученных данных о времени обработки текстов, функции зависимости могут быть найдены в виде f1(x) = aekx + с, f2(x) = axb+c, где х – размер текста, f1(x), f2(x) – время обработки.

В результате определения коэффициентов аппроксимирующих функций на основе имеющихся данных были получены следующие функции: f1(x)=0.5163934883e(0.0001720957371x) – 0.4277664975 и f2(x) = 5.36087956810-9x2.196266084 – 0.4277664975.

Сравнение разных видов регрессии производится на основе экспериментально полученных данных, определение лучшей аппроксимирующей функции из выбранных на известном интервале производится по методу наименьших квадратов. На рис. 4 представлены графики полученных аппроксимирующих функций.

Рис. 4. Графики аппроксимирующих функций.

В результате анализа на основе имеющихся данных зависимости времени обработки от размера словников текстов была выбрана экспоненциальная функция.

На основе предложенной математической модели разработана методика прогнозирования времени обработки текста. Исходя из сложности оценки времени обработки и необходимости произвести ее сразу после загрузки текста, методика прогнозирования времени обработки включает в себя несколько этапов:

1. Провести анализ зависимости и подобрать один или несколько видов аппроксимирующих функций для выбранного набора инструментов анализа на основе статистических данных, ранее полученных при анализе текстов с применением того же набора инструментов.

2. Определить коэффициенты выбранных функций, провести их анализ и выбрать лучшую аппроксимирующую функцию. Коэффициенты лучше определять для зависимости времени обработки от размера файла и другого параметра, от которого в большей степени зависит время обработки в конкретном алгоритме анализа (в данном случае в качестве такого параметра рассматривался размера словника).

3. Выбрать лучшую аппроксимирующую функцию с помощью метода наименьших квадратов для каждого случая зависимости – от размера файла, размера словника.

4. Сразу после загрузки текста получить предполагаемое время обработки, используя выбранную на этапе 3 функцию. Эта оценка является менее точной, но позволяет сразу получить ориентировочное время обработки и сделать выводы о целесообразности анализа текста.

5. После проведения морфологического анализа и получения словника текста, получить предполагаемое время обработки, используя функцию, выбранную на этапе 3.

Предлагаемая методика позволяет делать вывод о практической реализуемости алгоритмов анализа текста и производить оценку временных затрат на обработку текстов.

В четвертой главе приводятся примеры использования разработанных инструментов для решения некоторых практических задач анализа текста.

В главе 2 была описана адаптивно-динамическая модель преобразования информации в системе анализа текста. Язык сценариев дает возможность ее практической реализации, что демонстрируется на примере решения задачи автоматизированного классифицирования текстов.

Для построения словарей писателей было отобрано и проанализировано около 200 текстов произведений разных писателей, по каждому из которых средствами подсистемы базовой обработки был построен словник, содержащий слово в начальной форме, его часть речи, абсолютную и относительную частоту использования в тексте.

Использование языка сценариев дает возможность построения словарей по большим объемам текстов, объемы которых не позволяют получить словник сразу всего текста, и в некоторых случаях позволяет сократить время анализа текстов. Например, для текстов 30 произведений Л.Н. Толстого время построения словника сразу по всему тексту заняло мин. 10 сек., тогда как использование сценария объединения словарей позволило получить словарь Л.Н. Толстого за 9 мин. 8 сек.

Для больших объемов текстовой информации актуальной является задача классификации текстов и автоматического рубрицирования. Язык сценариев, с одной стороны, позволяет непосредственно решать задачу автоматизации классифицирования текстов, а с другой задачу построения наборов ключевых слов для различных областей.

В качестве исходных данных были выбраны статьи по нескольким тематикам. По части текстов были построены словники, содержащие наборы ключевых слов для заданной предметной области, остальные классифицировались на основе ключевых слов, выделенных из ранее проанализированных текстов.

После построения словника по анализируемому тексту средствами языка сценариев производится выбор ключевых слов этого текста. Для этого из общего словника выбираются имена существительные, затем из полученного списка имен существительных с соответствующими им значениями частот выбираются слова с наибольшими значениями экспериментальным путем. Сценарий, результатом выполнения которого является список ключевых слов текста, представлен на рис. 5.

Рис. 5. Сценарий для построения списка ключевых слов текста.

В приведенном примере в качестве пороговых значений были выбраны 1% и 0.5%. Для других текстов это значение может варьироваться, в первую очередь в зависимости от объема текста.

На основе построенных наборов ключевых слов, характерных для различных предметных областей, возможно написание сценария, Под пороговыми значениями понимаются значения относительных частот, выше которых слово относится к ключевым определяющего, к какой из имеющихся в системе предметных областей может быть отнесен исследуемый текст. Для этого необходимо:

найти набор ключевых слов исследуемого текста;

найти отношение полученного набора ключевых слов к наборам ключевых слова каждой предметной области в системе (рис. 6);

выбрать предметную область с наибольшим значением В ходе эксперимента были проанализированы 8 текстов из предметных областей с использованием коэффициентов 0.01 (1%) и 0. (0.5%). В результате в 6 случаях текст был классифицирован верно, в двух других отнесен к другой смежной предметной области. Увеличение количества проанализированных текстов для составления набора ключевых слов предметных областей даст возможность увеличить точность распознавания.

Рис. 6. Сценарий для нахождения отношений наборов ключевых слов.

Введение в языке сценариев шаблонов позволяет создавать библиотеки сценариев для отдельного пользователя, группы пользователей, категории пользователей, круга задач и т.д. Под шаблоном понимается сценарий, представляющий собой только алгоритм решения какой-либо задачи без указания конкретных данных.

Библиотека состоит из набора шаблонов, предназначенных для решения различных задач, и может быть как системной, так и пользовательской. Системные библиотеки не могут изменяться пользователями, но шаблоны из них легко могут использоваться для создания пользовательских сценариев на их основе. В системе автоматизированного анализа текста созданы две библиотеки шаблонов – для решения лингвистических задач и задачи классификации текстов, которые основываются на ранее описанных сценариях.

Библиотека для решения лингвистических задач включает в себя следующие шаблоны:

получения списков глаголов, имен существительных, имен прилагательных и других частей речи;

определения процента глаголов, имен существительных, имен прилагательных и т.д. в тексте;

получения словников писателей по словникам текстов их анализа текстов учебников для чтения начальных классов.

Библиотека для решения задачи классификации текстов включает в себя шаблоны:

для выделения ключевых слов из текста;

для добавления текстов в базу областей знаний;

для определения принадлежности текста к одной из областей.

Таким образом, предложенная система анализа текста и инструментальные средства, входящие в ее состав позволяет решать широкий набор исследовательских и практических задач.

В заключении приводятся основные результаты и выводы диссертационной работы.

Выводы по результатам диссертации В ходе решения задач, поставленных в диссертационной работе, были получены следующие результаты:

1. Проанализированы методы анализа естественно-языковых текстов и реализующие их автоматизированные системы.

2. В качестве отдельного уровня анализа текста выделено использование аналитических методов.

3. Предложена концептуальная модель открытой системы автоматизированной обработки текста.

4. Разработана структура и определен функционал открытой системы автоматизированной обработки текста.

5. Разработано ядро системы автоматизированной обработки текста.

6. Разработаны инструментальные средства анализа текста, основным из которых является язык сценариев.

7. Предложен метод оценки времени обработки текста, на его основе разработана методика прогнозирования времени обработки текста.

8. Продемонстрирована работа созданных инструментальных средств на примере решения некоторых задач анализа текста.

1. Добрышина Е.В. Программные средства статистического исследования текстов для построения семантической сети // Тезисы докладов Международной молодежной научной конференции «XXХII Гагаринские чтения». Т. 6. М.: МАТИ, 2006. С. 152.

2. Балакирев Н.Е., Гирин Б.Б., Добрышина Е.В. Проблемы автоматизированной обработки текстов на естественном языке // Тезисы докладов Всероссийской научно-технической конференции «Новые материалы и технологии. НМТ-2006». Т.2. М.: ИТЦ МАТИ, 2006. С. 128Добрышина Е.В. Основные проблемы и принципы автоматизированного определения смысла текста на естественном языке // Научные труды Международной молодежной научной конференции «XXХIII Гагаринские чтения». Т. 6. М.: МАТИ, 2007. С. 221.

4. Добрышина Е.В. Система анализа больших объемов текстовой информации // Научные труды Международной молодежной научной конференции «XXХIV Гагаринские чтения». Т. 6. М.: МАТИ, 2008. С. 173.

5. Балакирев Н.Е., Добрышина Е.В. Концептуальная модель системы автоматизированного анализа текста // Материалы VIII Международной научно-методической конференции «Информатика:

проблемы, методология, технологии». Т. 2. Воронеж, 2008. С. 51-52.

6. Балакирев Н.Е., Добрышина Е.В. Предполагаемая структура системы анализа текстов с целью создания базы знаний // Материалы XI Санкт-Петербургской международной конференции «Региональная информатика – 2008». СПб.: СПИИРАН, 2008.

7. Балакирев Н.Е., Добрышина Е.В. Операции обобщения результатов анализа текста // Тезисы докладов Всероссийской научнотехнической конференции «Новые материалы и технологии. НМТ-2008».

М.: ИТЦ МАТИ, 2008. С. 148-149.

8. Балакирев Н.Е., Добрышина Е.В. Язык сценариев для анализа информации, извлекаемой из текстов на естественном языке // Материалы IX Международной научно-методической конференции “Информатика:

проблемы, методология, технологии”. Т. 1. Воронеж, 2009. С. 92-95.

9. Балакирев Н.Е., Добрышина Е.В. Способ оценки и методика прогнозирования времени обработки текстов // Материалы X Международной научно-методической конференции “Информатика:

проблемы, методология, технологии”. Т. 1. Воронеж, 2010. С. 46-51.

10. Балакирев Н.Е., Добрышина Е.В. Концептуальная модель и структура системы обработки текстовой информации // Информационные технологии. 2010. № 2. С. 2-7.

11. Добрышина Е.В. О подходах к исследованию текстов на основе анализа извлекаемых метазнаний // Научные труды Международной молодежной научной конференции «XXХVI Гагаринские чтения». Т. 4. М.:

МАТИ, 2010. С. 87-88.

12. Балакирев Н.Е., Добрышина Е.В. Об одном из подходов к анализу текста на основе использования языка сценариев // Материалы XII Санкт-Петербургской международной конференции «Региональная информатика – 2010». СПб.: СПИИРАН, 2010. С. 32.

13. Балакирев Н.Е., Полицына Е.В. Реализация адаптивнодинамической модели преобразования информации средствами языка сценариев на примере задачи классификации текстов // Материалы XI Международной научно-методической конференции “Информатика:

проблемы, методология, технологии”. Т. 1. Воронеж, 2011. С. 73-77.

14. Полицына Е.В. Решение практических задач анализа текстов средствами языка сценариев // Научные труды Международной молодежной научной конференции «XXХVII Гагаринские чтения». Т. 4.

М.: МАТИ, 2011. С. 99-101.

15. Полицына Е.В. Применение языка сценариев для исследования текстов для чтения в начальных классах. // Альманах современной науки и образования. - Тамбов: Грамота, 2012. № 3. С. 111-113.

16. Полицына Е.В. Исследования текстов для чтения средствами автоматизированного анализа // Научные труды Международной молодежной научной конференции «XXХVIII Гагаринские чтения». Т. 4.

М.: МАТИ, 2012. C. 146-147.




Похожие работы:


Похожие работы:

«КЛЫЧНИКОВ Роман Юрьевич ОЦЕНКА ЦЕЛЕСООБРАЗНОСТИ И ОПТИМИЗАЦИЯ ТЕРМОМОДЕРНИЗАЦИИ ЖИЛЫХ ЗДАНИЙ ГРАДОСТРОИТЕЛЬНОГО ОБРАЗОВАНИЯ Специальность 05.23.01 – Строительные конструкции, здания и сооружения Автореферат диссертации на соискание ученой степени кандидата технических наук Пенза – 2012 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Тамбовский государственный технический университет Научный руководитель...»

«Васильев Сергей Владимирович СЕМЕННОЕ РАЗМНОЖЕНИЕ ДРЕВЕСНЫХ РАСТЕНИЙ В ГОРОДСКИХ УСЛОВИЯХ (НА ПРИМЕРЕ САНКТ-ПЕТЕРБУРГА) 03.02.01 – ботаника Автореферат диссертации на соискание ученой степени кандидата биологических наук Санкт-Петербург 2012 Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Санкт-Петербургский государственный лесотехнический университет имени С.М. Кирова Научный руководитель : кандидат...»

«КУЛЬБАШНЫЙ Антон Сергеевич РАЗРАБОТКА ПРОЦЕССА И ОБОРУДОВАНИЯ ДЛЯ ИЗГОТОВЛЕНИЯ ЛАТЕКСНОЙ ПЕНОРЕЗИНЫ Специальность 05.17.08 – Процессы и аппараты химических технологий АВ ТОР ЕФ ЕР АТ диссертации на соискание ученой степени кандидата технических наук Тамбов 2012 1 Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Тамбовский государственный технический университет (ФГБОУ ВПО ТГТУ) на кафедре Переработка...»

«ФАЙЗУЛЛИН Тагир Ришатович УСОВЕРШЕНСТВОВАНИЕ ЛАПАРОСКОПИЧЕСКОГО МЕТОДА ХОЛЕЦИСТЭКТОМИИ 14.01.17 – хирургия Автореферат диссертации на соискание ученой степени кандидата медицинских наук Уфа-2012 Работа выполнена в Государственном бюджетном образовательном учреждении высшего профессионального образования Башкирский государственный медицинский университет Министерства здравоохранения и социального развития Российской Федерации Научный руководитель : доктор медицинских наук,...»

«Ha npanax pyrorruclr p-r Boftrexoncrcan Mapnna lerponna wcToPufl oOPMI,IPOBAHAflII PA3BIITWflCIICTEMbI OEIUEIO I,I AIF,iWfl, COCTABHOftTIACTI,I TIEIATOTUqECKOTOOFPA3OB KAK IPOIIECCA POCCURCKOR MOIEPHTT3ATIUU rrMrrEpl{tr Cnequamuocru 07.00.02 - OreqecrBeHua.fl lrcroplrrr Anrope(peparAr,rccepr arlvr Ha corcKarrre yreHofi crerreHr{ r4cropuqecKr,rx HayK AoKTopa Toprcx Pa6ora BbrrroJrHeua ra$e4pe oreqecrBeHnofiucroprlrr r{ KyJrrTyponoru}r na OfFOy BIIO ryras. 3aqura,qr{ccepraur.rur 212.267.03 rpu...»

«Николаев Владимир Анатольевич НАУЧНОЕ ОБОСНОВАНИЕ И РАЗРАБОТКА ЭНЕРГОСБЕРЕГАЮЩИХ ТЕХНИЧЕСКИХ СРЕДСТВ ОБРАБОТКИ ПОЧВЫ Специальность 05.20.01 – технологии и средства механизации сельского хозяйства Автореферат диссертации на соискание учной степени доктора технических наук Ярославль 2011 2 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Ярославская государственная сельскохозяйственная академия....»

«ГУНИН Антон Борисович МОДЕЛИ УПРАВЛЕНИЯ ЦЕПЯМИ ПОСТАВОК НЕГАБАРИТНЫХ ГРУЗОВ Специальность 08.00.05 – Экономика и управление народным хозяйством: логистика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Санкт-Петербург 2012 Работа выполнена на кафедре логистики и организации перевозок ФГБОУ ВПО Санкт-Петербургский государственный инженерноэкономический университет Научный руководитель : доктор экономических наук, доцент Малевич Юлия Валерьевна...»

«ОВЧИННИКОВА ЕЛЕНА ВАДИМОВНА ПОВЫШЕНИЕ КАЧЕСТВА ПРОЦЕССОВ ПОЛУЧЕНИЯ ДИЭЛЕКТРИЧЕСКИХ ПОКРЫТИЙ (при изготовлении элементов РЭУ) Специальности: 05.02.23 – Стандартизация и управление качеством продукции; 05.27.01 – Твердотельная электроника, радиоэлектронные компоненты, микрои наноэлектроника на квантовых эффектах (технические наук и) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва 2012 Работа выполнена в федеральном государственном бюджетном...»

«ПЬЯНОВА Ольга Викторовна ПСИХОЛОГИЧЕСКИЕ ПОКАЗАТЕЛИ СУБЪЕКТИВНЫХ БАРЬЕРОВ ОБЩЕНИЯ У ПОДРОСТКОВ 19.00.01– общая психология, психология личности, история психологии АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата психологических наук Ставрополь – 2012 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Ставропольский государственный университет Научный руководитель : доктор психологических наук,...»

«БЕСПАЛОВ ВЛАДИМИР АЛЕКСЕЕВИЧ ПРОСТРАНСТВЕННО-ВРЕМЕННОЕ ВАРЬИРОВАНИЕ ОСНОВНЫХ ПОКАЗАТЕЛЕЙ ПЛОДОРОДИЯ ЧЕРНОЗЕМОВ КАМЕННОЙ СТЕПИ Специальность 03.02.13 – почвоведение АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук Москва 2012 Работа выполнена в отделе агропочвоведения ГНУ Воронежского научноисследовательского института сельского хозяйства имени В.В. Докучаева Россельхозакадемии доктор биологических наук, заведующий отделом агропочвоведения ГНУ...»

«Левицкая Наталья Николаевна Критерии и индикаторы для оценки состояния лесов Московской области Специальность 03.02.08 – Экология Автореферат диссертации на соискание ученой степени кандидата биологических наук Москва – 2012 Диссертационная работа выполнена в Федеральном государственном бюджетном учреждении науки Центр по проблемам экологии и продуктивности лесов РАН Научный руководитель : Черненькова Татьяна Владимировна доктор биологических наук, ведущий научный сотрудник...»

«Короткова Юлия Александровна РАЗРАБОТКА И ОБОСНОВАНИЕ МЕТОДИКИ ПРОФЕССИОНАЛЬНОГО ПОДБОРА ВОДИТЕЛЕЙ НА СПЕЦИАЛИЗИРОВАННОМ ПОДВИЖНОМ СОСТАВЕ 05.22.08 – Управление процессами перевозок 05.22.10 – Эксплуатация автомобильного транспорта АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва 2012 Работа выполнена в Московском автомобильно-дорожном государственном техническом университете (МАДИ) на кафедре Организация и безопасность движения. кандидат...»

«Демильханова Бела Аптыевна ОРГАНИЗАЦИОННО-ЭКОНОМИЧЕСКИЙ МЕХАНИЗМ ОЦЕНКИ ИННОВАЦИОННОЙ АКТИВНОСТИ ПРОМЫШЛЕННОГО КОМПЛЕКСА Специальность 08.00.05 – Экономика и управление народным хозяйством (экономика, организация и управление предприятиями, отраслями, комплексами (промышленность) Направление 1.1.15. Теоретические и методологические основы эффективности развития предприятий, отраслей и комплексов народного хозяйства АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата...»

«ЛУКМАНОВА Ольга Борисовна ЖАНРОВОЕ СВОЕОБРАЗИЕ ЛИТЕРАТУРНЫХ СКАЗОК ДЖОРДЖА МАКДОНАЛЬДА Специальность 10.01.03 – Литература народов стран зарубежья (западноевропейская литература) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук Нижний Новгород 2012 Работа выполнена на кафедре зарубежной литературы и теории межкультурной коммуникации ФГБОУ ВПО Нижегородский государственный лингвистический университет им. Н. А. Добролюбова доктор филологических...»

«Цикалов Виталий Сергеевич МАГНИТНЫЕ ТУННЕЛЬНЫЕ ПЕРЕХОДЫ НА ОСНОВЕ МАНГАНИТОВ: МАГНИТОСОПРОТИВЛНИЕ, ФОТОЭЛЕКТРИЧЕСКИЙ ЭФФЕКТ, СВЧ ДЕТЕКТИРОВАНИЕ Специальность 01.04.11 – физика магнитных явлений Автореферат Диссертация на соискание ученой степени кандидата физико-математических наук Красноярск 2011 Работа выполнена в Учреждении Российской академии наук Институт физики им. Л. В. Киренского Сибирского отделения РАН Научный руководитель : доктор физико-математических наук Волков...»

«УДК 535.370 Лосев Александр Сергеевич ПРЕОБРАЗОВАНИЕ СВЕТОВЫХ ИМПУЛЬСОВ В УСЛОВИЯХ ЭЛЕКТРОМАГНИТНО ИНДУЦИРОВАННОЙ ПРОЗРАЧНОСТИ ПРИ ВЫРОЖДЕНИИ АТОМНЫХ УРОВНЕЙ Специальность: 01.04.02 – теоретическая физика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Санкт - Петербург 2012 Работа выполнена на кафедре теоретической физики и астрономии федерального государственного бюджетного образовательного учреждения высшего профессионального...»

«КОЧЕТКОВ Иван Александрович СОВЕРШЕНСТВОВАНИЕ ЭКОНОМИЧЕСКОГО МЕХАНИЗМА ГОСУДАРСТВЕННОГО РЕГУЛИРОВАНИЯ РАЗВИТИЯ МАТЕРИАЛЬНО-ТЕХНИЧЕСКОЙ БАЗЫ СЕЛЬСКОХОЗЯЙСТВЕННЫХ ОРГАНИЗАЦИЙ (на примере Костромской области) Специальность 08.00.05 – Экономика и управление народным хозяйством (экономика, организация и управление предприятиями, отраслями и комплексами: АПК и сельское хозяйство) Автореферат диссертации на соискание ученой степени кандидата экономических наук Москва - Работа...»

«Молчанова Лилия Анатольевна ИННОВАЦИИ В ЖИВОПИСИ ВТОРОЙ ПОЛОВИНЫ ХХ в. (искусствоведческий анализ) Специальность 17.00.04 – изобразительное искусство, декоративно-прикладное искусство и архитектура АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата искусствоведения Барнаул – 2012 Работа выполнена на кафедре истории отечественного и зарубежного искусства ФГБОУ ВПО Алтайский государственный университет Научный руководитель : доктор искусствоведения, профессор...»

«Гудков Кирилл Сергеевич МАТЕМАТИЧЕСКИЕ МОДЕЛИ И МЕТОДЫ УПРАВЛЕНИЯ ОБРАБОТКОЙ ИНФОРМАЦИИ В КОРПОРАТИВНЫХ АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ Специальность 05.13.18 – математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2012 Работа выполнена на кафедре управляющих и информационных систем Московского физико-технического института (государственного университета)...»

«ИГНАТОВ СЕРГЕЙ ДМИТРИЕВИЧ СИСТЕМА АВТОМАТИЗАЦИИ ПРОЕКТИРОВАНИЯ ОСНОВНЫХ ГЕОМЕТРИЧЕСКИХ ПАРАМЕТРОВ ТРАКОВ ГУСЕНИЧНОЙ ЛЕНТЫ ЦЕПНОГО ТРАНШЕЙНОГО ЭКСКАВАТОРА Специальность 05.13.12 – Системы автоматизации проектирования (промышленность) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Омск – 2012 Работа выполнена в ФГБОУ ВПО Сибирская государственная автомобильнодорожная академия (СибАДИ) Научный руководитель : кандидат технических наук, доцент...»

 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.