Сравнительный анализ алгоритмов заполнения пропусков в социологических данных
На правах рукописи
Зангиева Ирина Казбековна Сравнительный анализ алгоритмов заполнения пропусков в социологических данных Специальность: 22.00.01 – Теория, методология и история социологии
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата социологических наук
Москва-2012
Работа выполнена в Федеральном государственном автономном образовательном учреждении высшего профессионального образования «Национальный исследовательский университет «Высшая школа экономики».
Научный консультант: Толстова Юлиана Николаевна доктор социологических наук, профессор
Официальные оппоненты: Татарова ГульсинаГалеевна доктор социологических наук, профессор.
Федеральное государственное бюджетное учреждение науки Института социологии РАН, главный научный сотрудник Чеботарев Павел Юрьевич доктор физико-математических наук, старший научный сотрудник.
Федеральное государственное бюджетное учреждение науки Институт проблем управления им.В.А. Трапезникова РАН, ведущий научный сотрудник
Ведущая организация: Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Государственный университет управления»
Защита состоится 18 мая 2012 года в 13:00 на заседании диссертационного советаД 212.048.01 в Национальном исследовательском университете «Высшая школа экономики» по адресу: 101000, г. Москва, ул. Мясницкая, д. 20, ауд. 309.
С диссертацией можно ознакомиться в библиотеке Национального исследовательского университета «Высшая школа экономики».
Автореферат разослан «17» апреля 2012 года.
Ученый секретарь диссертационного совета кандидат экономических наук Рощина Яна Михайловна
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность Большинство методов многомерного статистического анализа данных, такие как факторный, кластерный, регрессионный анализ и многие другие, требуют отсутствия пропусков в анализируемых данных. Однако в реальных исследованиях респонденты по разным причинам не отвечают на отдельные вопросы, в результате чего в данных появляются пропуски, с которыми приходится бороться разными способами. Первый способ, предлагаемый всеми известными статистическими пакетами, предусматривает автоматическое исключение из анализа наблюдений (наблюдением мы называем данные, отвечающие отдельному изучаемому объекту, чаще всего—респонденту) с пропусками, что ведет к снижению валидности статистических выводов за счет сокращения размера выборки, возникновения в данных, а затем и в результатах их анализа, систематических смещений. Позже на их основе могут быть приняты ошибочные стратегические решения, устранение негативных последствий которых потребует дополнительных затрат.
Чтобы сгладить указанные недостатки удаления неполных наблюдений, оставшиеся полные наблюдения иногда взвешивают. Этот второй способ в большинстве случаев проблему тоже не решает. Корректировка пропусков в значениях одной характеристики путем взвешивания по ней всех имеющихся наблюдений вызовет неоправданные смещения в распределениях значений остальных характеристик, для которых все значения могли быть изначально известны.
Исследователю необходимы практические инструменты для восстановления отсутствующей информации. Эти инструменты обеспечивает третий (помимо удаления неполных наблюдений и взвешивания полных), на данный момент наиболее перспективный и бурно развивающийся подход — искусственное заполнение пропусков в данных.
На сегодняшний день разработано множество алгоритмов заполнения пропусков, однако сведения о них пока что не систематизированы и разбросаны по большому количеству работ. Отсутствуют обзорные работы, дающие представление о специфике, достоинствах и недостатках хотя бы наиболее распространенных в исследовательской практике алгоритмов заполнении пропусков. Крайне малочисленны и исследования, направленные на сравнительную оценку применимости отдельных алгоритмов заполнения пропусков в конкретных исследовательских ситуациях. Сказанное позволяет считать, что работа, направленная на систематизацию методов заполнения пропусков в данных и выявление условий их эффективного использования в социологии, является актуальной.
Разработанность проблемы Рассмотрение проблемы использования в социологии алгоритмов заполнения пропусков не может быть оторвано от условий применения других способов «борьбы» с пропусками, от анализа причин возникновения последних.
Поэтому круг проанализированных в диссертации работ содержал отнюдь не только публикации, посвященные непосредственно алгоритмам заполнения пропусков, но и ряд работ, посвященных и другим аспектам изучения пропусков (особенно социологических)1.
в данных статистических обследований Проведенный анализ показал, что такой подход оправдан.
В работах, посвященных анализу случаев неполноты социологической (статистической) информации выделяются две большие темы: (1) недостижимость респондентов и (2) неответы на отдельные вопросы, или отдельные пропуски в данных. Диссертация посвящена исключительно второй теме.
В российской социологии изучением причин возникновения пропусков в данных, анализом роли пропущенных данных, разработкой отдельных алгоритмов заполнения пропусков в разное время занимались В.Г. Андреенков, В.Н. Вапник, Б.З. Докторов, Е.И. Злоба, Н.А. Клюшина, Г.С. Лбов, В.Ю. Королев, О.М. Маслова, А.Ю. Мягков, И.Б. Назарова, В.Е.Россиев, Снитюк А.А., Г.Г. Татарова, Ю.Н.
Толстова, П.Ю. Чеботарев, И.В Яцкив. Однако наиболее широкое освещение проблематика работы с пропусками данных получила в работах западных исследователей. Настоящая работа в значительной мере лежит в русле идей, предложенных западной школой.
Три основных подхода к работе с отдельными пропусками — удаление неполных наблюдений, взвешивание полных наблюдений и заполнение пропусков — анализировали и сравнивали между собой Р. Платек, Р. Литтл, Д. Рубин2 и др. На данный момент основное внимание в литературе уделяется заполнению пропусков как наиболее перспективному подходу.
В качестве фактора, определяющего выбор допустимого способа ликвидации пропусков, Р. Литтлом была выдвинута степень случайности пропуска:
Большинство рассмотренных нами работ посвящено обсуждению проблемы пропущенных данных в статистических обследованиях вообще, без привязки к конкретной тематике последних. Однако ситуации, складывающейся в социологии, автор уделяет особое внимание. Проявляется это в основном при обсуждении характера случайности пропусков (где основное внимание уделяется причинам их возникновения);
выбора учитываемых методов анализа восстановленных данных (это – наиболее употребительные в социологии методы, хотя они широко используются и в других отраслях науки),;
выборе исследования для «обкатки» предлагаемой методики сравнения методов заполнения пропусков.
Platek R. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology, Statistics Canada. 1980.
No. 6. P. 127;
Little R.J. Survey Nonresponse Adjustments for Estimates of Means // International Statistical Review / Revue Internationale de Statistique. 1986. Vol. 54. No. 2.P. 140;
Rubin D.B. Multiple Imputation for Nonresponse in Surveys. New York: Willey, 1987. P. 64–66.
возможность считать пропуск неслучайным, случайным или полностью случайным3. Пропуски полностью случайны (missing completely at random — MCAR), если вероятность их возникновения не зависит ни от истинного значения данного признака, ни от значений других признаков. Пропуски случайны (missing at random — MAR), если вероятность их возникновения обусловлена известными значениями других признаков, но не связана с признаком, значение которого пропущено. Пропуски неслучайны (not missing at random — NMAR), если вероятность неответа на вопрос зависит от самого значения признака (возможного ответа), которое могло быть получено, если бы ответ был дан.
В данной работе не рассматриваются иные типологии пропусков (например, деление на реальные и артефактные, возникшие после удаления самим исследователем заведомо ложных значений), так как они, в отличие от типологии по степени случайности, не определяют допустимые способы работы с пропусками соответствующего типа.
Степень случайности пропуска в социологических исследованиях не в последнюю очередь зависит от причины его возникновения. Основные причины неответов респондентов на отдельные вопросы анализировали Р. Фербер, А. Шински, Г. Эссер, Т. Даублер, Р. Платек. Из российских авторов, разрабатывавших данную тематику, назовем упомянутых выше О.М. Маслову и В.Г. Андреенкова, Б.З. Докторова, Н.А. Клюшину, А.Ю. Мягкова, И.Б. Назарову4.
Однако работы, содержащие анализ того, как именно причины пропусков определяют степень случайности признака, нам неизвестны.
Подводя итог сказанному, констатируем актуальность выработки рекомендаций по выбору допустимого способа ликвидации пропусков в зависимости от причин пропусков и определяемой этими причинами степени их случайности.
Общие принципы заполнения пропусков заложили в своих работах Р. Литтл и Д. Рубин. Они сформулировали основные задачи заполнения пропусков и См. например: Little R. J. A. A test of missing completely at random for multivariate data with missing values // Journal of the American Statistical Association. 1988. No. 83. P. 1198–1202.
Ferber R. Item Nonresponse in a Consumer Survey // Public Opinion Quarterly. 1966. Vol. 30. No 3. P.403–410;
Sicinski A. Don't Know Answers in Cross-National Surveys // Public Opinion Quarterly. 1970. Vol. 34. No 1.
P. 127;
Esser H. Determinanten des Interviewer und Befragtenverhaltens: Probleme der theoretischen Erklarung und empirischen Undersuchung von Interviewreffekten // Allgemeine Bevolkerungsumfrage der Sozialwissenschaften.
Frunkfurt, 1984. S. 56–60;
Daubler T. Nonresponseanalysen der Stichprobe F des SOEP. Berlin: DIW, 2002. P. 7– 10;
Platek R. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology, Statistics Canada. 1980.
Vol.6. P. 97;
Андреенков В. Г., Маслова О. М. Эмпирический базис социологической науки // Социологические исследования. 1987. № 6. C. 115;
Докторов Б.3. О надежности измерения в социологическом исследовании. Л.: Наука, 1979. C. 56;
Клюшина Н.А. Причины, вызывающие отказ от ответа // Социологические исследования. 1990. № 1. C. 17–29;
Мягков А.Ю. Обеспечение анонимности в социологическом опросе // Социологические исследования. 1999. №5. C. 45-61;
Мягков А.Ю. Опросные методы сбора данных: Предпочтения респондентов // Социологические исследования. 2000. № 8. C. 36–49;
Назарова И.Б. Непроведение опроса и отказ от интервью // Социологический журнал. 1998. № 1/2. C. 27–39.
принципиальные требования, которым должны удовлетворять отдельные алгоритмы заполнения. Р. Литтл разработал типологию отдельных алгоритмов заполнения пропусков в зависимости от степени их простоты и информации, используемой при восстановлении пропущенных значений. Однако на момент публикации соответствующей работы (1978 год) этим автором были классифицированы всего 5 алгоритмов (подстановка среднего арифметического, регрессионное моделирование пропусков, множественное заполнение, HotDeck, случайный подбор в подгруппе). С тех пор было разработано довольно много новых алгоритмов, которые до сих пор не систематизированы.
Отдельные алгоритмы заполнения пропусков в российской литературе описывали Е.И. Злоба В.Ю. Королев, А.А. Россиев, В.Е. Снитюк, П.Ю.Чеботарев, И.В. Яцкив. В англоязычной литературе отдельным алгоритмам заполнения пропусков посвящены работы К. Ву, Б. Дейлона, А.Демпстера, К. Эндерса, Дж. Гевики, Дж. Лью и Р. Чен, А. Конга, Р. Фей, У. Фулера, Г. Мидена, Г. Нортона, С. Липситца, Дж. Нелдера и Г. Смита, А. Гупты, Р. Гормана и Т. Сейновски, Г. Банга и Дж. Робинса и многих других. Публикации, посвященные описанию отдельных алгоритмов заполнения пропусков, составляют наиболее многочисленный класс работ, посвященных пропущенным значениям. На данный момент это один из наиболее распространённых и активно развивающихся подходов к работе с пропусками. Подтверждением этого является наличие большого числа статистических пакетов, включающих в себя модули для заполнения пропусков с помощью различных алгоритмов. Например, SPSS (модули Missing Value Analysis Multiple imputation), SAS, STATA, SOLAS, MICE, Mising Data Library for S-Plus.
Работы, посвященные сравнению разных алгоритмов заполнения пропусков, появились в 1960–70-е гг. Для сравнения использовались не только разные основания (метод анализа данных, который предполагается использовать после заполнения пропусков, и тип шкалы, по которой измерен признак, значения которого подлежат восстановлению), но и разные способы сравнения:
теоретическое или экспериментальное. В соответствии со способами сравнения алгоритмов заполнения пропусков выделим два класса работ.
Первый класс относится к 1960–70-м гг. и посвящен результатам теоретического сопоставления методов анализа данных и алгоритмов заполнения пропусков. Основной фокус работ этого класса находится в теоретическом описании связи между используемыми алгоритмами заполнения пропусков и результатами последующего анализа данных определенным методом. Здесь можно назвать работы Р. Литтла, А. Афифи и Р. Илашоффа, Й. Хайтовски, С. Бака, Ф. Йейтса. А из российских авторов - упомянутых выше Н.В. Вапника и Г.С.
Лбова5, разработавших собственные подходы к заполнению пропусков.
Второй класс работ, посвященных сравнению эффективности алгоритмов заполнения пропусков, объединяет публикации, в которых представлены результаты экспериментальных сравнений разных алгоритмов заполнения пропусков. Работы второго класса появились в конце 1980-х – начале 2000-х гг. В этом русле работали Л. Чен, Дж. Гилман и О. Данн, Д. Рубин и Н. Шенкер6. Таким образом, в работах, посвященных сравнению эффективности алгоритмов заполнения пропусков, отчетливо виден переход от теоретического (дедуктивного) обоснования выводов к экспериментальному (индуктивному).
Однако, упомянутые примеры как теоретического, так и экспериментального соотнесения методов анализа данных и алгоритмов заполнения пропусков не позволяют составить более или менее полных рекомендаций для исследователя по выбору последних. В качестве причин можно назвать два обстоятельства. Во первых, работы названных авторов охватывают далеко не все даже самые распространённые в социологии методы анализа данных. Во-вторых, в известных попытках сравнить эффективность разных алгоритмов заполнения пропусков не учитывается количество пропусков, имеющихся в данных.
Проблема исследования заключается в (1) отсутствии описания социологических ситуаций, в которых для ликвидации пропусков в данных допустимо их искусственное заполнение и (2) недостаточности наработок в области сравнительного анализа эффективности отдельных алгоритмов заполнения пропусков, в зависимости от характеристик исследовательской ситуации.
Цель исследования — определить, в каких случаях допустимо искусственное заполнение пропусков в социологических данных, и экспериментально сравнить эффективность отдельных алгоритмов заполнения пропусков, в зависимости от Little R.J. Regression With Missing X's: A Review // Journal of the American Statistical Association. 1992. Vol.
87. No. 420. P. 1227–1237;
Afifi A.A., Elashoff R.M. Missing Observations in Multivariate Statistics: I. Review of the Literature // Journal of the American Statistical Association. 1966. Vol. 61.No 315. P. 595–604;
Haitovsky Y.
Missing Data in Regression Analysis // Journal of the Royal Statistical Society. 1968. Series B (Methodological).
Vol. 30.No. 1.P. 67–82;
Buck S.F. A method of estimation of missing values in multivariate data suitable for use with an electronic computer // Journal of the Royal Statistical Society. 1960. Series B (Methodological). Vol. 22.No.
3.P. 302–307;
Yates F. The Analysis of Replicated Experiments When the Field Results Are Incomplete // The Empire Journal of Experimental Agriculture. 1933. No.1. P. 129–142;
Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979;
Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981.
Chan L.S., Gilman J.A., Dunn O.J. Alternative Approaches to Missing Values in Discriminant Analysis // Journal of the American Statistical Associationю 1996. Vol. 71.No. 356. P. 842–844;
Rubin D.B., Schenker N. Multiple Imputation for Interval Estimation From Simple Random Samples With Ignorable Nonresponse // Journal of the American Statistical Association. 1986.Vol. 81. No. 394.P. 366–374.
характеристик исследовательской ситуации: количества (доли) имеющихся пропусков и используемого метода анализа данных.
Объект исследования – алгоритмы заполнения пропусков в данных.
Предмет исследования – эффективность отдельных алгоритмов заполнения пропусков при использовании различных методов многомерного анализа данных с учетом количества пропусков.
В соответствии с целью, необходимо решить следующие задачи.
1. Классифицировать основные причины появления отдельных пропусков (неответов респондентов на отдельные вопросы) в данных социологических исследований, выявить и проанализировать связь между этими причинами и степенью случайности пропусков и на основе этой связи установить соответствие между причинами возникновения пропусков и допустимыми способами их ликвидации.
2. Дать систематическое описание основных алгоритмов заполнения пропусков в данных.
3. Расширить типологию алгоритмов заполнения пропусков Р. Литтла, дополнив ее алгоритмами, разработанными позже.
4. Разработать и теоретически обосновать методику экспериментального сравнения эффективности различных алгоритмов заполнения пропусков в данных.
5. Апробировать разработанную методику на «типичных» социологических данных.
Методологические и теоретические основания исследования В теоретико-методологическом плане ключевое значение для данного исследования, особенно в части планирования и реализации методического эксперимента, имеют наработки Д.Рубина и Р.Литла: (1) введенная ими типология отдельных пропусков по степени случайности (полностью случайные, случайные и не случайные пропуски), (2) установленное соответствие между типами пропусков и допустимыми способами их корректировки после завершения сбора данных (доказательство применимости методов искусственного заполнения пропусков только для тех случаев, когда последние полностью случайны или случайны). Эти положения были использованы нами при разработке методики эксперимента в качестве обоснования возможности сравнения алгоритмов заполнения пропусков только в ситуации, когда пропуски полностью случайны или случайны. В данной работе мы ограничились сравнением алгоритмов заполнения пропусков на примере полностью случайных пропусков, что существенно сократило объем вычислений и облегчило интерпретацию результатов.
Для планирования методического эксперимента принципиальное значение имеет предложенное Литтлом деление алгоритмов заполнения пропусков на простые и сложные. Сложные алгоритмы, в свою очередь, Литтл разделил на глобальные и локальные. Данная классификация, дополненная 14-ю алгоритмами, описанными в литературе уже после выхода в свет работы Литтла, в нашем эксперименте стала основанием для формирования экспериментальной выборки из пяти сравниваемых алгоритмов. Выбор 1–3 алгоритмов из каждой группы позволил сократить количество экспериментально сравниваемых алгоритмов с 19, описанных в диссертации, до пяти.
Информационная база исследования В качестве эмпирической базы для методического эксперимента были использованы данные проекта «Социальное партнерство и конфликт» (руководитель И.М. Козина), выполненного в рамках программы фундаментальных исследований НИУ ВШЭ в 2010 году. Исходный массив содержал результаты выборочного опроса 935 сотрудников, отобранных на 3-х промышленных предприятиях по 2-х ступенчатой выборке. На первой ступени отбирались структурные подразделения, в которых планировалось проведение опроса, с учетом численности и структуры работников и возможностей доступа. На второй ступени в отобранных подразделениях осуществлялась квотная выборка, рассчитанная пропорционально численности работников по должностным и квалификационным группам на каждом предприятии. Минимальный объем выборки на каждом предприятии составлял 300 работников.
Выбор массива данных определяются тремя основными аргументами. Во первых, в рамках опроса в основном затрагивались стандартные, несенситивные темы. Во-вторых, данные собирались с помощью простых по форме анкетных вопросов. В опроснике не использовались сложные для восприятия табличные и графические вопросы, сложные методики задавания вопросов (парные сравнения, семантический дифференциал и так далее). В-третьих, несмотря на упомянутую простоту собранных данных, разнообразие содержательных тем и типов шкал (номинальные, порядковые и интервальные), отраженных в опроснике данного исследования, позволяет сформулировать содержательные задачи, решаемые каждым из рассматриваемых в данной работе методов анализа данных.
Перечисленные аргументы позволяют утверждать, что экспериментальные данные получены на типичных, а не на уникальных социологических данных, и предположить, что аналогичные или похожие результаты могут быть получены при реализации эксперимента по идентичной методике, но на других данных, типичных в том же смысле.
Научная новизна работы Научная новизна диссертационного исследования проявляется в том, что автором были получены следующие результаты.
1. На основе рассмотрения корпуса релевантных научных публикаций проанализирована связь между причинами возникновения пропусков в социологических данных и их типами: полностью случайными, случайными и неслучайными пропусками;
даны рекомендации по выявлению ситуаций, в которых недопустимо искусственное заполнение пропусков.
2. Впервые дано систематическое описание большинства известных алгоритмов заполнения пропусков в социологических данных.
3. Классическая типология алгоритмов заполнения пропусков Р. Литтла дополнена четырнадцатью новыми алгоритмами, В нее были добавлены алгоритмы ColdDeck, ЕМ, Бартлетта, Resampling, Zet, ZetBraid, предикативный подбор среднего значения, оценивание пропусков методом максимального правдоподобия, оценивание пропущенных значений с помощью метода наименьших квадратов, Байесово заполнение пропусков, ковариационное заполнения пропусков, моделирование пропущенных значений с помощью нейронных сетей, последовательное заполнение пропусков, вероятностное заполнения пропусков.
4. Разработана и апробирована методика экспериментальной оценки эффективности заполнения пропусков с помощью различных алгоритмов, в зависимости от количества пропусков в данных и метода последующего анализа данных (рассматривались методы анализа данных, чаще всего используемые в социологических исследованиях).
5. Экспериментально установлено, что эффективность заполнения пропусков зависит в некоторых случаях (в частности, при построении регрессионных моделей с фиктивными переменными и расчете мер описательной статистики) не просто от метода анализа данных, но и от характера решаемой социологической задачи.
Основные положения, выносимые на защиту 1. Выбор способа корректировки пропусков в ответах на определенные вопросы (удаление неполных наблюдений, взвешивание имеющихся данных или заполнение пропусков) зависит от причин возникновения пропусков, наличия связи между этими причинами и степенью случайности порождаемых ими пропусков (неответов). Если пропущенные данные могут быть отнесены к полностью случайным (MCAR) или случайным (MAR), возникшие пропуски можно корректировать путем их заполнения или взвешивания выборки. Если же результаты анализа причин говорят о зависимости вероятности пропуска от возможного ответа (неслучайный пропуск, NMAR), то такие отсутствующие значения после сбора данных корректировать методом заполнения или взвешивания выборки недопустимо.
2. Предлагаемая в диссертации система контролируемых параметров сравнения результатов применения ряда методов анализа данных позволяет оценивать устойчивость этих результатов относительно использованного алгоритма заполнения заданного количества пропусков. Эта система состоит из следующих совокупностей параметров, определенных, соответственно, для перечисленных ниже методов анализа данных:
для описательной статистики: для номинальных шкал - доля точных подстановок (когда подставленное значение совпадает с истинным), мода и коэффициент качественной вариации;
для порядковых шкал – доля точных подстановок, медиана и квартильный размах, для интервальных шкал – среднее арифметическое и дисперсия.
для факторного анализа – общий процент объясненной дисперсии и матрица факторных нагрузок;
для регрессионного анализа с фиктивными переменными – коэффициент детерминации (R2) и ошибка измерения зависимой переменной;
для однофакторного дисперсионного анализа – величина F-критерия и его уровень значимости;
для критерия «ХИ-квадрат» - значение критерия «Хи-квадрат» и его уровень значимости;
для коэффициентов корреляции Спирмена и Пирсона - значение самого коэффициента корреляции и его уровень значимости.
3. Эффективность алгоритмов заполнения пропусков определяется не только их объективными свойствами, но и различными сочетаниями следующих характеристик исследовательской ситуации, в которой эти алгоритмы используются: долей пропущенных дынных, методом анализа, который будет применен к данным после заполнения пропусков, характером решаемой социологической задачи.
4. С помощью разработанной методики эффективность алгоритмов заполнения пропусков может исследоваться применительно к другим, не рассмотренным в диссертации, методам анализа данных, что потребует разработки отдельной системы контролируемых параметров оценки результатов для каждого такого метода.
Теоретическая и практическая значимость работы.
Полученные автором теоретические и методические результаты могут быть использованы социологами, экономистами, политологами, маркетологами и другими специалистами в конкретных эмпирических социологических исследованиях. В частности, могут использоваться:
уточненная классификация причин возникновения пропусков;
принципы обоснования допустимости разных способов ликвидации пропусков (удаление неполных наблюдений, взвешивание имеющихся данных, искусственное заполнение пропусков), на базе анализа связи причин возникновения пропусков (с использованием упомянутой классификации) и степени случайности последних;
систематизированное описание математической сущности, достоинств и недостатков наиболее распространенных алгоритмов заполнения пропусков и их классификация;
методика проведения экспериментального сравнения эффективности алгоритмов заполнения пропусков в зависимости от заданных характеристик исследовательской ситуации;
схемы для выбора алгоритма заполнения пропусков в зависимости от заданных характеристик исследовательской ситуации (доли имеющихся пропусков и метода анализа данных), рассматриваемые как экспериментально полученные гипотезы, требующие дальнейшей статистической верификации.
Работа может служить базой для дальнейших методических исследований, направленных на оценку устойчивости выводов об эффективности алгоритмов заполнения пропусков (в зависимости от количества пропусков и метода анализа данных), полученных по результатам эксперимента.
В педагогической деятельности результаты диссертационного исследования могут быть использованы в рамках общих курсов по методологии сбора (способы профилактики пропусков) и анализа социологических данных (способы корректировки имеющихся пропусков), а также могут лечь в основу специального курса по работе с неполными социологическими данными.
Апробация результатов Результаты диссертации докладывались в рамках выступлений автора на:
1. Научно-исследовательском семинаре кафедры методов сбора и анализа социологической информации НИУ ВШЭ для магистров 2-го года обучения программы «Прикладные методы социального анализа рынков» с докладом «Сравнительный анализ алгоритмов заполнения пропусков в данных при использовании методов многомерного статистического анализа»;
2. IV конференции памяти А.О. Крыштановского «Современные проблемы формирования методного арсенала социолога» (Москва, 2010) с докладом «Способы заполнения пропусков в данных массовых социологических опросов»;
3. V конференции памяти А.О. Крыштановского «Социологические методы в современной исследовательской практике» (Москва, 2011) с докладом «Опыт использования регрессионного моделирования и ЕМ-алгоритма для заполнения пропусков в данных массового социологического опроса»;
4. VI конференции памяти А.О. Крыштановского «Современная социология — современной России» (Москва, 2012). Тема доклада «Экспериментальное сравнение эффективности пяти алгоритмов заполнения пропусков при использовании факторного анализа»;
5. XIV Междисциплинарном ежегодном научном семинаре «Математическое моделирование социальных процессов» им. Героя Социалистического труда академика А.А. Самарского (Москва, 2011) с докладом «Экспериментальное сравнение эффективности алгоритмов заполнения пропусков».
Полученные в диссертации результаты встроены в процесс преподавания ряда дисциплин на факультете социологии НИУ ВШЭ: «Методы измерения в социологии» (4-й курс бакалавриата, специализация «Прикладные методы социологических исследований»), «Теория измерения в социологии» (1-й курс магистратуры, программа «Прикладные методы социального анализа рынков»).
Логика и структура работы Диссертация состоит из введения, трех глав, включающих 6 параграфов, заключения, библиографического списка и приложений. Общий объем работы – 221 страница, в том числе, 5 приложений на 66 страницах, 11 страниц библиографии, 28 таблиц и 23 рисунка. Диссертация имеет следующую структуру:
Введение Глава 1. Отдельные пропуски в социологических данных: причины, виды и подходы к работе 1.1. Типы отдельных пропусков и допустимые способы работы с ними 1.2. Причины неответов на вопросы как детерминанты степени случайности пропусков и допустимых способов их ликвидации Резюме первой главы Глава 2. Алгоритмы заполнения пропусков в данных: систематизированный обзор 2.1. Основные алгоритмы заполнения пропусков в данных 2.2. Имеющиеся наработки в области теоретического и экспериментального сравнения алгоритмов заполнения пропусков в данных Резюме второй главы.
Глава 3. Методический эксперимент: сравнение эффективности отдельных алгоритмов заполнения пропусков 3.1. Методика экспериментального сравнения эффективности алгоритмов заполнения пропусков в данных: теоретическое описание 3.2. Эмпирическая апробация разработанной методики экспериментального сравнения эффективности алгоритмов заполнения пропусков в данных Резюме третьей главы Заключение Список использованной литературы Приложения ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во Введении аргументируется актуальность и степень разработанности темы диссертационной работы, формулируется проблема, объект и предмет исследования, ставятся цель и задачи, перечисляются теоретико-методологические и информационные (база данных) основания работы, раскрывается новизна работы и значимость ее результатов, приводятся основные положения, выносимые на защиту.
Глава 1 «Отдельные пропуски в социологических данных: причины, виды и подходы к работе с ними» посвящена систематизации различных элементов проблемы отдельных пропусков в социологических данных, уточняются объект и предмет исследования.
В первом параграфе аргументируется справедливость отнесения наличия пропусков в данных к важным социологическим проблемам, рассматриваются основные виды пропусков и известные способы «борьбы» с ними.
Показано, что пропуски в данных несут серьезную угрозу качеству исследовательских результатов из-за снижения валидности результатов за счет сокращения размера выборки, возникновения в данных, а затем и в результатах их анализа систематических смещений, а также ограничений в применении некоторых видов анализа.
Рассмотрены две формы неполной информации, встречающейся в социологическом исследовании: недостижимые наблюдения и неполные наблюдения (отдельные пропуски). Указывается на принципиальное отличие задач по «борьбе» с этими двумя видами пропусков. Констатируется, что настоящая работа фокусируется только на неполных наблюдениях.
Проанализированы достоинства и недостатки трех основных подходов к работе с отдельными пропусками: удалению неполных наблюдений, взвешиванию полных наблюдений и заполнению пропусков.
Представлена типология отдельных пропусков в зависимости от их степени случайности. Вслед за Д.Рубином и Р.Литтлом выделены и описаны полностью случайные (MCAR –missing completely at random), случайные (MAR-missing at random) и неслучайные пропуски (NMAR –not missing at random). Описаны пять формальных способов определения степени случайности отдельных пропусков в данных7.
Теоретический анализ связи между типами пропусков по степени случайности и допустимыми способами работы ними показал, что корректировке (с помощью одного из трех упомянутых выше подходов) после сбора данных поддаются только полностью случайные и случайные пропуски. Корректировать Показатели DRSS, D Кука, DXX, процедура Дж. и П. Коэнов, алгоритм Литтла.
неслучайные пропуски после сбора данных нельзя, их можно только предупредить на этапе планирования исследования и разработки инструментария. Поэтому неслучайные пропуски исключаются из дальнейшего рассмотрения.
Во втором параграфе выдвигается гипотеза о том, что тип пропусков, детерминируемый степенью их случайности (определяющей, как было сказано выше, допустимый способ ликвидации пропусков, в частности, использование алгоритмов заполнения), зависит от «содержательных» причин пропусков. По итогам обзора литературы, касающейся таких причин, сделан вывод, что авторы соответствующих работ не связывали эти причины с какими-то формальными свойствами пропусков, в частности, со степенью их случайности и выбором способа ликвидации. В диссертации высказаны гипотезы о наличии и характере такой связи. Причины систематизированы с точки зрения того, как они могут обусловливать степень случайности пропусков и, как следствие, «выводить» исследователя на допустимый способ «борьбы» с пропусками.
Данное исследование касается только данных, полученных с помощью опросов. Все причины неответов на вопросы в опросных исследованиях разделены на 3 класса: методологические (некорректные формулировки вопросов и перечней альтернатив, сензитивность вопросов, «эффект интервьюера», ошибки в планировании и реализации выборке – опрос «не тех» или некомпетентных в теме респондентов и т.д.), социальные (уровень доверия социологическим исследованиям в обществе, влияние СМИ, стереотипы относительно допустимых способов изучения общественного мнения и т.д.) и психологические (склонность скрывать свое мнение, неспособность респондента четко выражать свое мнение, боязнью осуждения собственного мнения со стороны общества и т.д.). В результате указывается, что психологические и социальные причины приводят в первую очередь к возникновению полностью случайных или случайных пропусков, а методологические причины напрямую обусловливают неслучайные пропуски.
В заключение параграфа обосновывается выбор для дальнейшего исследования только одного способа работы с отдельными пропусками — их заполнение. Указаны следующие преимущества заполнения пропусков по сравнению с удалением неполных наблюдением и взвешиванием полных: реально (а не искусственно, как при взвешивании) сохраняется запланированный объем выборки;
сохраняется вся известная информация, которая могла быть утеряна при удалении наблюдений с пропусками;
не возникает смещений по другим переменным, значения которых известны или в данный момент не восстанавливаются;
запланированный анализ данных может осуществляться в обычном режиме.
Глава 2 «Алгоритмы заполнения пропусков в данных: описание и способы сравнения» посвящена аналитическому обзору девятнадцати наиболее распространенных в современной методической литературе алгоритмов заполнения пропусков и методов их сравнения. Аналитическая роль автора проявляется в дополнении классической типологии алгоритмов заполнения пропусков Литтла и вычленении нерешенных проблем их сравнения.
В первом параграфе предложена типология девятнадцати алгоритмов заполнения пропусков. За основу взята классическая типология Р. Литтла, в которой на первом шаге все алгоритмы делятся на простые и сложные, а на втором шаге сложные алгоритмы подразделяются на глобальные и локальные. В диссертации типология Литтла, изначально охватывавшая пять алгоритмов, была дополнена четырнадцатью новыми алгоритмами.
Далее дается систематическое описание девятнадцати алгоритмов заполнения пропусков. Систематичность достигается единообразием логики описания всех алгоритмов, предполагающей последовательное освещение следующих пунктов:
автор и время разработки алгоритма;
математическая сущность алгоритма;
достоинства и недостатки алгоритма;
статистические пакеты, в которых алгоритм реализован.
Сначала описываются шесть простых алгоритмов заполнения пропусков: с помощью мер центральной тенденции, подбора объектов (matching), предикативный подбор среднего значения, алгоритмов ColdDeck и HotDeck, моделирования пропусков с помощью регрессионных уравнений. Затем обсуждаются пять сложных глобальных алгоритмов: метод Бартлетта, ЕМ алгоритм, алгоритм Resampling, оценивание пропусков методом максимального правдоподобия, Байесово заполнение пропусков. Затем описываются восемь сложных локальных алгоритмов: Zet и ZetBraid, оценивание пропущенных значений с помощью метода наименьших квадратов, ковариационное заполнения пропусков, моделирование пропущенных значений с помощью нейронных сетей, множественное, последовательное и вероятностное заполнения пропусков.
Описание достоинств и недостатков всех описанных девятнадцати алгоритмов сводятся в одну таблицу.
В конце параграфа дан обзор основных статистических пакетов и модулей для заполнения пропусков в данных: модули Missing Value Analysis и Multiple imputation пакета SPSS 19.0, SOLAS for Missing Data, S-Plus, MICE.
Второй параграф представляет собой аналитический обзор имеющихся в литературе примеров обоснования применимости некоторых алгоритмов заполнения пропусков в сочетании с определенными методами анализа данных.
Так, в работах Литтла, Афифи и Илашоффа теоретически доказано, что для линейного регрессионного анализа пропуски в значениях независимых переменных предпочтительно заполнять условным средним, а для однофакторного дисперсионного анализа — оценивать пропуски с помощью метода наименьших квадратов.
Далее обосновывается необходимость при выборе алгоритма заполнения пропусков более целостно подходить к исследовательской ситуации: учитывать количество пропусков и планируемый метод анализа данных. В литературе описан опыт таких сравнений но при этом рассматриваются лишь отдельные алгоритмы заполнения пропусков применительно, главным образом, к одному методу анализа данных — регрессии. В заключение параграфа отмечено, что в работах по сравнению разных алгоритмов заполнения пропусков прослеживается явная тенденция: осуществляется постепенный переход от теоретического сравнения к экспериментально-статистическому.
Глава 3 «Методический эксперимент: сравнение эффективности отдельных методов заполнения пропусков» посвящена описанию разработанной автором методики экспериментального сравнения эффективности алгоритмов заполнения пропусков (с учетом исследовательской ситуации: количества пропусков и метода анализа данных после их заполнения) и результатов ее эмпирической апробации.
Первый параграф посвящен: (1) обоснованию выбора метода статистического эксперимента для сравнения разных алгоритмов искусственного заполнения пропусков, (2) описанию проблем, возникших при планировании эксперимента и (3) способов их решения в работе.
Выбор в пользу экспериментально-статистического метода сделан с учетом указанной выше тенденции перехода от теоретического к экспериментально статистическому сравнению алгоритмов заполнения пропусков, а также ввиду явных сложностей математического плана, возникающих при теоретическом сравнении алгоритмов.
Анализ задачи планирования эксперимента показал, что такое планирование требует решения трех основных проблем:
1. Существует большое количество алгоритмов заполнения пропусков.
Необходимо обоснованно сократить количество сравниваемых алгоритмов.
2. Не является очевидным, по каким параметрам сравнивать результаты рассматриваемых методов анализа и с помощью какого критерия сравнивать результаты применения отдельных алгоритмов заполнения пропусков к одной исследовательской ситуации. Необходима разработка систем таких параметров и критериев.
3. Отсутствуют методики экспериментального сравнения алгоритмов заполнения пропусков. Необходима разработка такой методики.
Первая проблема решалась на основе типологии Литтла, дополненной в рамках диссертационного исследования (см. главу 2): из каждого из трех выделенных типов для статистического эксперимента было отобрано от 1 до алгоритмов.
Поскольку большинство сложных алгоритмов заполнения пропусков описаны разработчиками только теоретически и пока еще не получили реализации в доступных статистических пакетах, для эксперимента были отобраны один сложный локальный алгоритм - множественное заполнение и один сложный глобальный - ЕМ-алгоритм. Эти алгоритмы применимы для заполнения пропусков значений и по категориальным, и по непрерывным признакам и реализованы в доступных статистических пакетах.
Труднее отобрать типичные алгоритмы из числа простых, так как, в отличие от сложных, все они реализованы во многих статистических пакетах. Поэтому в эксперимент были включены 3 из 5 общедоступных простых алгоритма, существенно различающиеся по своей сути: подстановка мер центральной тенденции, HotDeck и регрессионное моделирование пропусков.
Таким образом, по критериям сходств/различий, универсальности и доступности для использования в эксперимент из 19 были отобраны 5 алгоритмов, репрезентирующих все три выделенные типа.
Для решения второй проблемы (формирования системы параметров для сравнения результатов рассматриваемых методов анализа данных) были отобраны параметры, на наш взгляд, лучше всего отражающие качество и смысл результатов рассматриваемых методов анализа данных:
описательная статистика: для номинальных шкал количество правильных предсказаний, мода и ККВ (коэффициент качественной вариации), для порядковых шкал – количество правильных предсказаний, медиана и квартильный размах, для интервальных шкал – среднее арифметическое и дисперсия.
факторный анализ – общий процент объясненной дисперсии и матрица факторных нагрузок;
регрессионный анализ с фиктивными переменными – коэффициент детерминации (R2) и ошибка измерения зависимой переменной;
однофакторный дисперсионный анализ – величина F-критерия и его уровень значимости;
критерий «ХИ-квадрат» - значение критерия «Хи-квадрат» и его уровень значимости;
коэффициенты корреляции Спирмена, и Пирсона-значение коэффициента корреляции, и его уровень значимости.
Результаты использования отдельных алгоритмов заполнения пропусков для одномерных параметров, характеризующих результаты анализа данных (например величины коэффициента качественной вариации, медианы, коэффициент детерминации R2, значений коэффициентов корреляции их уровней значимости и т.д,) позволяет сравнивать введенный автором коэффициент эффективности заполнения пропусков.
, Где Aobserved —значение параметра оценки работы метода анализа данных, полученное после применения метода к данным, восстановленным с помощью оцениваемого алгоритма заполнения пропусков (с учетом количества последних), а Aideal —значение того же параметра, полученное на эталонном массиве, состоящем из полных наблюдений.
Для многомерного параметра (у нас таковым была только матрица факторных нагрузок, служащая оценкой результата работы факторного анализа) использовался другой подход. В качестве критерия сравнения двух матриц факторных нагрузок были задействованы меры близости между векторами – «развертками» двух сравниваемых матриц. В качестве таких мер были выбраны квадрат Евклидова расстояния и коэффициент корреляции Пирсона.
Все предлагаемые критерии носят характер точечных статистических оценок. Построение доверительных интервалов было бы весьма желательным, но это требует специальных математико-статистических разработок, выходящих за рамки настоящего исследования.
Решение третьей проблемы (отсутствия методики сравнения двух алгоритмов заполнения пропусков) состояло в разработке требующейся методики, включившей в себя несколько шагов.
Прежде всего, формировался некий эталонный массив, не имеющий пропущенных данных. Результаты применения к нему рассматриваемых методов анализа данных считались «правильными» - эталонными. Затем в данных эталонного массива полностью случайным образом (чтобы, в соответствии со сказанным в главе 1, было возможно избавляться от пропусков именно с помощью их искусственного заполнения) намеренно делались пропуски Значения перечисленных выше параметров результатов применения рассматриваемых методов анализа данных, полученные на эталонном массиве (составляющие базу эталонных результатов), сравнивались (на основе описанного выше критерия) со значениями, полученными после применения методов анализа данных к массивам, в которых искусственно сделанные пропуски, заполнявшиеся каждым из сравниваемых алгоритмов.
Во втором параграфе описана апробация разработанной методики сравнения эффективности алгоритмов заполнения пропусков, включающая этапов:
1) формирование эталонного массива данных без пропусков;
2) получение эталонных значений параметров оценки работы рассматриваемых методов анализа данных;
3) создание массивов с разным количеством искусственно созданных полностью случайных пропусков;
4) оценка на основе выбранных параметров смещений в результатах анализа данных, возникших за счет изменения эталонного массива путем искусственного создания в нем пропусков (при разном количестве последних);
5) заполнение пропусков с помощью сравниваемых алгоритмов;
6) оценка результатов применения методов анализа данных к массиву с искусственно заполненными пропусками и сравнение (с помощью введенного критерия эффективности) этих результатов с эталонными;
7) выбор для каждого сочетания количества пропусков и метода анализа данных наиболее эффективных алгоритмов заполнения пропусков.
На первом этапе в исходном массиве данных (см. раздел «Информационная база исследования») из 935 было отобрано 717 абсолютно полных наблюдений, не имеющих ни единого пропуска по 89 содержательным переменным (признакам) (см. Приложение 1). Этот массив из 717 объектов был назван эталонным.
На втором этапе для получения эталонных результатов рассматриваемых методов анализа данных, под каждый из них была поставлена и решена своя содержательная задача. Результаты оказались вполне осмысленными содержательно (см. Приложение 2).
На третьем этапе в эталонный массив было внесено 10, 20, 30, 40 и 50% полностью случайных пропусков по каждой переменной. Наблюдения, в которых значения каких-то переменных должны были удаляться, выбирались для каждой переменной в отдельности с помощью генератора случайных чисел. В результате было получено 5 массивов разной степени полноты.
На четвертом этапе для оценки изменений результатов анализа данных в результате появления заданного количества пропусков на каждом из 5 массивов был повторен этап 2. Затем в каждом случае оценивалось количество наблюдений исключенных из анализа по причине неполноты, изменения значений полученных критериев и потери в их уровне значимости. (См. Приложении 3).
На пятом этапе пропуски в каждом из 5 массивов разной степени полноты были заполнены 5-ю сравниваемыми алгоритмами.
В итоге было получено 25 массивов, состоящих из абсолютно полных наблюдений.
На шестом этапе на каждом из 25 массивов были реализованы все рассматриваемые методы анализа данных. Полученные в каждом из 25 случаев значения параметров результатов анализа данных с помощью соответствующего критерия (коэффициента эффективности заполнения или меры близости между «развертками» матриц) сравнивались с соответствующими эталонными значениями. Подробно результаты шестого этапа эксперимента представлены в Приложении 4.
На седьмом этапе для каждого сочетания заданного количества пропусков и метода анализа данных выбирался наиболее эффективный алгоритм заполнения пропусков. Таковым считался алгоритм, при использовании которого было получено минимальное значение коэффициента эффективности для одномерных параметров результатов анализа данных, или максимальное значение квадрата Евклидова расстояния между векторами — «развертками» матриц факторных нагрузок. Если для нескольких алгоритмов заполнения пропусков получались равные или очень близки значения данных критериев, то они признавались одинаково эффективными.
В конце параграфа описываются итоги сравнения с эталонными результатов анализа данных, полученных после заполнения заданного количества пропусков каждым из 5 сравниваемых алгоритмов.
Здесь проиллюстрируем итоги сравнений на примере одного из простейших методов анализа данных — поиска связи между двумя интервальными признаками с помощью коэффициента корреляции Пирсона. Чтобы не только установить наличие связи (по уровню значимости), но и сделать наиболее достоверные выводы о ее тесноте и направлении (по знаку и значению коэффициента), минимальное количество пропусков (10 %) следует заполнять при помощи регрессионного моделирования или множественного заполнения;
при 20–40 % пропусков наиболее эффективен ЕМ-алгоритм;
при 50 % пропусков наряду с ЕМ-алгоритмом эффективно множественное заполнение. Получается, что множественное заполнение эффективно в полярных ситуациях: минимальной и максимальной степени неполноты информации.
При использовании других алгоритмов выводы о наличии линейной связи могут соответствовать эталонной (истинной) ситуации, а выводы о направлении и тесноте связи могут искажаться с большей вероятностью.
Так как процедуры сравнения результатов для других методов анализа данных различаются только используемыми критериями сравнения, их подробное описание мы сочли возможным здесь не приводить, а представить результаты в виде сводной таблицы наиболее эффективных, по результатам эксперимента, алгоритмов заполнения пропусков и кратких выводов (таблица 1).
Кроме того, установлено, что для некоторых методов анализа данных, в частности, регрессионного и описательной статистики, использование определенных алгоритмов заполнения пропусков приводит к существенному искажению не только статистических, но и содержательных результатов.
Таблица Сводная таблица результатов методического эксперимента: алгоритмы заполнения пропусков наиболее эффективные при заданном количестве пропусков и методе анализа данных после их заполнения Количество пропусков в данных Наиболее эффективный алгоритм заполнения пропусков 10% 20% 30% 40% 50% Оценка средней тенденции -тип HotDeck, МЗ HotDeck HotDeck HotDeck HotDeck Номинальная шкалы HotDeck, HotDeck, HotDeck, HotDeck, Описательная статистика HotDeck, Me Me Me Me Me Порядковая Ср.арифм., ЕМ, Ср.арифм Ср.арифм., МЗ., ЕМ, МЗ ЕМ, МЗ ЕМ ЕМ Интервальная Оценка разброса HotDeck, МЗ HotDeck HotDeck HotDeck HotDeck Номинальная – тип шкалы Метод анализа данных EM EM ЕМ, МЗ ЕМ, МЗ ЕМ, МЗ Порядковая HotDeck, HotDeck, HotDeck, Все HotDeck, МЗ МЗ МЗ рассмотренные МЗ Интервальная МЗ, ЕМ МЗ, ЕМ МЗ, ЕМ МЗ, ЕМ МЗ, ЕМ Факторный анализа Регрессионный анализ с цель использования МЗ, Прогнозирование переменными фиктивными HotDeck, HotDeck, HotDeck, HotDeck, HotDeck, Регрессия Регрессия Регрессия Регрессия Регрессия Поиск связи Не заполнять, HotDeck, HotDeck, либо HotDeck, EM ЕМ ЕМ МЗ МЗ Однофакторный дисперсионный Не заполнять ЕМ ЕМ ЕМ ЕМ анализ ЕМ ЕМ ЕМ ЕМ ЕМ Критерий "Хи-квадрат" HotDeck, Коэффициент ранговой регрессия Ме ЕМ ЕМ ЕМ корреляции Спирмена Коэффициент корреляции Регрессия, МЗ ЕМ ЕМ ЕМ ЕМ, МЗ Пирсона Перечисленные выше экспериментальные результаты нашли свое отражение в виде графических схем выбора алгоритма заполнения пропусков в зависимости от их количества и метода анализа данных после заполнения. Так, например, для упомянутого выше поиска связи между интервальными признаками МЗ-множественное заполнение, Мо-мода (как мера центральной тенденции для номинальных шкал), Ме медиана (как мера центральной тенденции для порядковых шкал).
с помощью коэффициента корреляции Пирсона была получена схема, изображенная на рисунке 1.
Рисунок Алгоритмы заполнения пропусков, наиболее эффективные при использовании коэффициента корреляции Пирсона Аналогичные схемы для других рассматриваемых методов анализа данных приведены в Приложении 5 диссертации.
В Заключении кратко обобщаются результаты диссертационного исследования, приводятся основные выводы и обозначается круг проблем для дальнейших исследований. К основным достижениям работам отнесены доказательство связи между алгоритмами заполнения пропусков и методами анализа данных. Эта связь выражается в том, что при заданном количестве пропусков для определенного метода анализа данных разные алгоритмы демонстрируют различную эффективность.
Однако связь может так же обусловливаться влиянием других факторов, в данной работе не изученных: особенностями распределений признаков, спецификой данных, использованных для эксперимента, выбранной градацией количества пропусков в данных и т.д. Для каждой исследовательской ситуации необходимо проводить собственное экспериментальное сравнение нескольких алгоритмов заполнения пропусков, в частности, с помощью методики, разработанной и апробированной в рамках данного диссертационного исследования.
Основным направлением дальнейшей работы в рамках выбранной тематики может стать проверка составленных схем выбора алгоритмов заполнения пропусков в зависимости от количества последних и метода анализа данных.
Данная проверка необходима, для их статистического подтверждения полученных выводов, пока представляющих собой экспериментально обоснованные гипотезы и их перевода из разряда гипотез, в разряд статистически доказанных закономерностей. Так же важно в будущем разработать способ проверки статистической значимости различий получаемых значений сравниваемых критериев эффективности алгоритмов заполнения пропусков, чтобы перейти от их точечного оценивания к интервальному.
Другое возможное направление — статистическая проверка выводов о связи причин возникновения неответов на вопросы и степени случайности, возникающих в результате пропусков. Такую проверку можно осуществить, используя описанные выше 5 подходов к формальному определению типа случайности рассматриваемых пропусков, применив эти подходы к пропускам, полученным вследствие действия разных содержательных причин.
В тексте диссертации имеется 5 приложений.
В первом приложении подробно описаны 89 переменных (признаков), задействованных в методическом эксперименте.
Во втором приложении представлена содержательная интерпретация результатов решения содержательных задач, полученных с помощью рассматриваемых методов анализа данных на эталонном массиве.
В третьем приложении описаны смещения в результатах каждого рассматриваемого метода анализа данных, возникшие после внесения в данные определенного количества пропусков.
В четвертом приложении подробно описаны результаты рассматриваемых методов анализа данных, полученные после заполнения заданного количества пропусков каждым из сравниваемых алгоритмов.
В пятом приложении представлены схемы выбора алгоритма заполнения пропусков в зависимости от количества имеющихся пропусков и метода анализа данных.
Список публикаций по теме диссертации Результаты представлены в 4 публикациях общим объемом 3,65 п.л., из которых общий личный вклад автора составляет 2,88 п.л.
Работы, опубликованные автором в ведущих рецензируемых научных журналах и журналах, рекомендованных ВАКом Министерства образования и науки России Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению // Социология: 4М (методология, методы, математические модели). 2011. № 33. С.28-56. (1,4 п.л.) Зангиева И.К., Воронина Н.Д. Установки работников на внутрифирменное взаимодействие в сфере социально-трудовых отношений // Экономическая социология, 2011. Т. 12. № 5. C. 72—90. ( 1.47 п.л. Личный вклад автора 0,7 п.л.).
Другие работы, опубликованные автором по теме кандидатской диссертации Зангиева И.К. Подходы к решению проблемы наличия пропусков в социологических данных // Материалы IV конференции «Современные проблемы формирования методного арсенала социолога», Москва: Изд-во Ин-та социологии РАН, 2010. (0,1 п.л.) Зангиева И.К. Опыт использования регрессионного моделирования и ЕМ алгоритма для заполнения пропусков в данных массового социологического опроса. // Социологические методы в современной исследовательской практике:
Сборник статей памяти Александра Олеговича Крыштановского / Отв. ред. О.А.
Оберемко;
НИУ ВШЭ;
Российское общество социологов. М., 2011. C.261-267.(0, п.л.).
Лицензия ЛР № 020832 от 15 октября 1993 г.
Подписано в печать «16» «апреля» 2012 г. Формат 60х84/ Бумага офсетная. Печать офсетная.
Усл. печ. л. 1.
Тираж 100 экз. Заказ № Типография издательства НИУ ВШЭ, г. Москва, Кочновский пр-д, д.3.