Библиографическое описание:

Христенко Е. А., Сдобникова А. М., Василенко А. Ю. Применение факторного анализа в задаче редукции многомерных данных на примере the ESS // Молодой ученый. — 2016. — №15. — С. 133-136.



ESS (Европейское Социальное Исследование) — это всестороннее исследование социального уровня и благосостояния отдельно взятой страны. Опросы содержат большое количество различных вопросов, затрагивающих все области социальной жизни человека. Как следствие, имеется большое количество данных имеющих значительную размерность. Так, например, база данных результатов для Российской Федерации от 2012 года, полученных в ходе шестой волны исследования содержит 241 значащую переменных [1].

Цель данной работы исследовать возможности факторного анализа в вопросе снижения размерности большого объема данных.

В соответствие с целью работы был сформулирован следующий алгоритм, иллюстрирующий применимость факторного анализа в научных исследованиях:

Объект исследования.

Выбрать ключевую переменную в качестве исследуемой. В качестве такой переменной был выбран вопрос «Насколько Вы удовлетворены своей жизнью в целом?», так как именно этот параметр наиболее просто и доступно отражает уровень развития страны и благосостояния граждан, а также способен агрегировать в себе прочие.

Корреляционный анализ.

При помощи корреляционного анализа были отобраны параметры наиболее коррелированные с исследуемой переменной, чтобы исключить параметры оказывающие незначительной влияние в рамках исследования. Были вычислены выборочные коэффициенты корреляции для всех пар «зависимая переменная − независимая переменная» по формуле [2]:

Где и – выборочные средние, а , – выборочные дисперсии, вычисленные по первой и второй выборкам соответственно.

При уровне значимости 0,05 необходимо проверить гипотезу о значимости коэффициентов корреляции.

В качестве нулевой принимаем гипотезу о значимости коэффициента корреляции. Для проверки гипотезы вычислим значения статистик по формуле [6]:

.

  1. Если , то гипотеза принимается;
  2. Если , то гипотеза следует отклонить.

Значение определяется по таблице распределения Стьюдента при n – 2 степенях свободы. Кроме того, полагаем, что существенными для нас будут параметры, коэффициент корреляции которых превосходит 0,3. В результате, было выделено 8 переменных (также указаны соответствующие им сокращения):

Eco – насколько Вы удовлетворены состоянием экономики.

Hap – насколько Вы счастливы.

Hea – как Вы оцениваете свое здоровье.

Clo – чувствуете, что близкие Вас ценят.

Int – как часто заинтересованы тем, что Вы делаете.

Sur – обращаете внимание и оцениваете Ваше окружение.

Dir – есть чувство направленности в Вашей жизни.

Job – насколько Вы удовлетворены своей работой.

В таблице 1 содержатся соответствующие коэффициенты корреляции. Из нее видно, что все независимые переменные слабо коррелируют с зависимой переменной, за исключением второго пункта, что согласуется с действительностью, поскольку параметр, отражающий счастье респондента, по своей сути во многом похож на исследуемый нами признак.

Таблица 1

Коэффициенты корреляции

eco

hap

hea

clo

int

sur

dir

job

0,354

0,696

0,307

0,350

0,333

0,306

0,356

0,335

Метод главных компонент.

Для снижения размерности исходных данных воспользуемся возможностями одного из методов факторного анализа - методом главных компонент [3]. В качестве метода вращения был выбран метод «варимакс». В таблице 2 представлены результаты анализа, построенного в среде SPSSStatistics [4].

Значение напротив переменной называется факторной нагрузкой. Эта величина означает корреляцию между исходной переменной и компонентом (фактором). В соответствие с наибольшим абсолютным значением нагрузки переменные разделяются на 3 группы соответственно каждому фактору:

Таблица 2

Повернутая матрица компонентов

Компонент

1

2

3

How satisfied with life as a whole

,367

,558

,449

How satisfied with present state of economy in country

,023

,074

,910

How happy are you

,377

,619

,315

Subjective general health

-,011

-,845

,067

Feel appreciated by people you are close to

,709

,268

-,132

Interested in what you are doing, how much of the time

,769

,092

-,002

Take notice of and appreciate your surroundings

,675

-,054

,284

Have a sense of direction in your life

,703

,142

,083

How satisfied with job

,511

,241

,177

  1. «Чувствуете, что близкие Вас ценят», «Как часто заинтересованы тем, что Вы делаете», «Обращаете внимание и оцениваете Ваше окружение», «Есть чувство направленности в Вашей жизни», «Насколько Вы удовлетворены своей работой»;
  2. «Насколько Вы удовлетворены своей жизнью в целом», «Насколько Вы счастливы», «Как вы оцениваете свое здоровье»;
  3. «Насколько Вы удовлетворены состоянием экономики».

Первый компонент собрал в себе менее значительные, частные субъективные положения. Во второй компонент входят более значительные, общие субъективные вопросы. Третий компонент можно интерпретировать как оценки респондентом внешних условий, не относящихся к жизни конкретного индивида.

Необходимо убедится в справедливости проведенного разбиения. Факторные переменные принимают значения от -3 до 3. Перейдём к рассмотрению третьего наблюдения, значение факторов которого соответственно равно:

-0,605012,032410,96567

Как следствие, ожидаются достаточно высокие значения для параметров второго компонента (за исключением параметра «Как Вы оцениваете свое здоровье», который, напротив, должен иметь низкое значение, так как входит в компонент с отрицательной нагрузкой) и значения немного ниже и немного выше среднего для первого и третьего компонентов соответственно. В справедливости такой оценки можно убедится ознакомившись с данными, представленными в таблице 3.

Таблица 3

Значения переменных третьего наблюдения

Название

Фактор

Принимаемое значение

«Чувствуете, что близкие Вас ценят»

1

5

«Как часто заинтересованы тем, что Вы делаете»

7

«Обращаете внимание и оцениваете Ваше окружение»

4

«Есть чувство направленности в Вашей жизни»

3

«Насколько Вы удовлетворены своей работой»

3

«Насколько Вы счастливы»

2

10

«Как Вы оцениваете свое здоровье»

1

«Насколько Вы удовлетворены своей жизнью в целом»

5

«Насколько Вы удовлетворены состоянием экономики»

3

7

Заключение. В результате работы, была показана применимость факторного анализа на примере исследования вопроса об удовлетворенности граждан страны жизнью и получены новые переменные, которые могут быть однозначно интерпретированы и использоваться вместо большего числа исходных параметров.

Литература:

  1. About ESS. http://www.europeansocialsurvey.org/about/
  2. Буре В. М., Парилина Е. М. Теория вероятностей и математическая статистика. СПб.: Изд-во Лань, 2013. 416 c.
  3. Ким Дж., Мюллер Ч. и др. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989. 216 с.
  4. Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб.: ДиаСофтЮп, 2005. 608 с.

Обсуждение

Социальные комментарии Cackle