Распределение Хотеллинга и его применение

Матинян Арам Артурович

В статье представлено статистическое расстояние и ее отличие от Евклидова расстояния (по прямой линии). Далее представляется одномерная -статистика Стьюдента и ее обобщение — статистика Хотеллинга. В заключение показано ее применение на практическом примере.

Ключевые слова: статистика Хотеллинга, статистическое расстояние, ингридиенты, статистика.

Введение

На практике часто возникают проблемы, связанные с контролем многомерных статистических процессов. Хотя одномерные процессы контроля широко используются, но они не применяются, когда имеются изначально многомерные процессы. Здесь возникает необходимость использовать методы, позволяющие контролировать связь, существующую между переменными, описывающими процесс. Для выполнения этого статистика Хотеллинга дает необходимые методы.

Эта статистика основана на идее статистического расстояния. Она сгруппировывает информацию, полученную с многомерного наблюдения и превращает ее в значение, которое является статистическим расстоянием этого наблюдения от среднего значения.

Статистическое расстояние

Предположим, имеется какой-то процесс. Обозначим наблюдение, полученное из процесса, состоящего из переменных в векторной форме, следующим образом:

Наша задача — обработать информацию, имеющуюся в каждой из указанных переменных. Одним из подходов является графическое рисование, что в некоторых случаях является довольно хорошим методом, но когда мы не можем изобразить точку, тогда возникает необходимость использовать другой метод. Если мы заменим вектор одномерной статистикой, которая будет содержать информацию о каждой из переменных, то мы можем использовать ее для принятия решений о состоянии процесса. Есть много способов сделать это. Давайте рассмотрим два из них.

Предположим, мы получаем наблюдения вида из процесса, где и — нескорелированные случайные величины. Представим точки и в системе координат Декарта. Мы хотим знать, как далеко фиксированная точка находится от средней точки всех точек. Рассмотрим расстояние прямой линией (Евклидову), которая измеряет расстояние между двумя точками в соответствии с количеством единиц, разделяющих эти точки. Расстояние между фиксированной точкой и средней точкой всех полученных точек будет дано формулой .

Обратите внимание, что мы взяли какую-либо точку и заменили ее каким-то числом — , которое является расстоянием между этой точкой и средней точкой.

Если мы зафиксируем расстояние , то все точки, которые имеют расстояние от центра будут находиться на окружности с центром и радиусом , а каждая точка, которая имеет меньшее расстояние от центра, чем , будет расположена внутри окружности (рис. 1).

Однако использование только Евклидова расстояния в большинстве статистических исследований недостаточно. Хотя каждая координата в равной степени участвует в определении расстояния по прямой линии, в этом случае изменение каждой из случайных величин в соответствии со стандартным отклонением не учитывается. Чтобы восполнить этот пробел, рассмотрим стандартизированные значения:

где и — соответственно стандартные отклонения и случайных величин. В случае таких значений формула расстояния примет вид .

называется статистическим расстоянием. Если мы зафиксируем , то все точки, которые удовлетворяют уравнению , имеют одинаковое статистическое расстояние от заданного центра и у нас получается эллипс (рис. 2). Каждая точка в эллипсе имеет меньшее статистическое расстояние, чем , и наоборот, каждая точка вне эллипса будет иметь статистическое расстояние больше, чем .

Между прямой (Евклидовой) и статистическими расстояниями есть несколько важных различий. Давайте представим эти различия.

Первое отличие состоит в том, что случайные величины, используемые в формуле статистического расстояния, стандартизированы. Это важная особенность в многомерных процессах, так как случайные величины могут иметь разные единицы измерения. Следующее отличие состоит в том, что точки на эллипсе на рисунке 2 имеют одинаковое статистическое расстояние от центра, но могут иметь разные Евклидовы расстояния. В случае, если две переменные имеют равные дисперсии и они нескоррелированные, то статистические и Евклидовы расстояния равны с точностью до постоянного множителя, а в противном случае они отличаются друг от друга.

Основное различие между статистическими и Евклидовыми расстояниями состоит в том, что в противопоставление Евклидовому расстоянию каждая из случайных величин в статистическом расстоянии делится на свое стандартное отклонение. Следовательно, можно сделать вывод, что изменение случайной величины небольшого стандартного отклонения будет иметь большее влияние на значение статистического расстояния, чем изменение случайной величины большого стандартного отклонения. Другими словами, статистическое расстояние — это взвешенное расстояние по прямой линии, где наибольшее значение имеет случайная величина, которая имеет наименьшее стандартное отклонение, чтобы компенсировать расстояние от центра.

До сих пор предполагалось, что случайные величины нескоррелированные.

Теперь предположим, что это не так. На рисунке показан случай положительно скоррелированных случайных величин. Чтобы получить статистическое расстояние, давайте в этом случае обобщим формулу . Мы знаем, что общее уравнение эллипса задается следующим образом:

где являются такими постоянными, которые удовлетворяют условию

, а — фиксированное число.

Выбрав правильные константы в уравнении , мы можем получить такое уравнение эллипса, которое соответствует случайным величинам, скоррелированным таким образом. Например, эллипс, представленный на рисунке , имеет тот же центр, что и и случайные величины, но он расположен так, чтобы выразить корреляцию между ними.

Правильный выбор приведет к получению формулы для статистического расстояния, когда и скоррелированы. Формула выглядит следующим образом:

где является коэффициентом корреляции между и .

Когда случайные величины и не скоррелированы, то есть , формула принимает вид , а полученный эллипс принимает вид что на рисунке . Когда , то полученный эллипс будет наклонен влево, а когда , то эллипс будет наклонен вправо (рис. 5).

Формула может быть представлена в виде матрицы следующим образом:

где , , а матрица является обратной матрицы , где является ковариацией между и . Матрицу называют матрицей ковариацией случайных величин.

Полученную формулу можно обобщить для того случая, когда является — мерным случайным вектором, вектором средних, а

есть матрица ковариаций, таким образом

В дальнейшем мы увидим, что матричные виды и являются различными представлениями статистики Хотеллинга .

Статистика стьюдента иее обобщение статистика Хотеллинга

Статистика Стьюдента вычисляется для случайно выбранной выборки из нормально распределенной генеральной совокупности, которая имеет средную и дисперсии. Это статистика дана следующим образом:

где

среднее значение выборок, а ՝

стандартные отклонения для выборок.

Квадрат — статистики будет՝

И полученное значение будет квадратом статистического расстояния между выборковым средним и средним генеральной совокупности.

В формуле числитель — это квадрат Евклидова расстояния между и , то есть это является величина близости среднего значения выборок и среднего значения генеральной совокупности. Когда приближается к , значение приближается к нулю. Разделив квадрат Евклидова расстояния на дисперсию , то есть на , мы получим квадрат упомянутого статистического расстояния. Хотеллинг обобщил одномерную статистику на многомерную статистику, которая основана на значении, полученных из выборочных ковариационных матриц. Это выглядит так:

Предположим, у нас есть –ое количество выборок: где взяты из -мерного нормального распределения, у которой есть вектор средних и матрица ковариаций . Многомерное обобщение статистики Стьюдента Хотеллинга имеeт следующий вид:

где и являются выброчними величинами и и имеют следующий вид:

и

Для выборок матрица ковариаций может быть представлена также в следующем виде:

где является -ой выборочной дисперсией случайной величины, а является выборочной ковариацией между -ой и -ой случайными величинами.

Применение

В следующем примере мы применим Хотеллинг T². Предположим, что исследование было проведено среди человек в возрасте лет и были собраны данные об использовании следующих ингридиентов в их ежедневном рационе: кальций, железо, протеин, витамин и витамин . В таблице покажем суточное количество, необходимую норму для каждого ингридиента и полученные средние данные․

Ингредиент	Необходимая норма	Среднее
Кальций	1000 мг	624.0 мг
Железо	15 мг	11.1 мг
Протеин	60 г	65.8 г
Витамин	800 г	839.6 г
Витамин	75 мг	78.9 мг

Таблица 1

Суточная необходимая норма иполученные средние данные для каждого ингридиента

Наша задача — выяснить, принимают ли люди необходимую суточную дозу или нет. Прежде чем делать расчеты, давайте представим следующие идеи.

Нулевая гипотеза — статистическая гипотеза согласно которому характеристика описивающий генеральную совокупность не меняется.

Альтернативная гипотеза — противоположное предположение нулевой гипотезе.

Случайная величина имеет -распределение по степени свободы и , если ее функция плотности задана следующим образом:

где .

статистика представляется статистикой следующим образом.

где и являются степенями свободы.

Рис.6. показывает значения распределения плотности в случаях разных степеней свободы. Значение, соответствующее и выбранной степени свободы, представляет собой значение плотности распределения , правая часть которого имеет поверхность (рис. 6).

Мы отвергнем нулевую гипотезу на уровне , если статистика больше критического значения в таблице :

Давайте перейдем к расчетам. В нашем случае нулевая гипотеза состоит в том, что люди принимают все компоненты в необходимом количестве. Нулевая гипотеза будет опровергнута, если окажется, что люди не принимают один из компонентов в необходимом количестве. Математически нулевая гипотеза () состоит в том, что вектор средних значений генеральной совокупности равен вектору средних, полученного из выборок — а альтернативная гипотеза () состоит в том, что они не равны друг другу.

Для произведения расчетов давайте вспомним вид статистики Хотеллинга

где — количество данных, — среднее значение выборок, — среднее знаение генеральной совокупности, а — ковариационная матрица для выборок.

Теперь давайте найдем матрицу для имеющихся данных,

Исходя из формулы статистика Хотеллинга будет:

У нас есть степени свободы , следовательно, из формулы получаем статистику :

Если мы посмотрим на критическое значение для в таблице , то увидим, что . Оказалось, что значение больше критического значения. Следовательно, мы можем отрицать нулевую гипотезу, которая утверждает, что среднее значение соответствует необходимому рациону.

Вывод: Среднесуточная доза из компонентов, отобранных для всех людей в возрасте лет, не соответствует желаемой дозе.

Литература:

R. L. Mason, J. C. Young, Multivariate statistical process control with industrial applications, Society for Industrial and Applied Mathematics, 2002
R. S. Witte, J. S. Witte, Statistics, Eleventh Edition, 2017
Health Survey // Penn State. URL: https://newonlinecourses.science.psu.edu/stat505/lesson/7/7.1/7.1.1 (дата обращения: 27.04.2020).

Молодой учёный

Распределение Хотеллинга и его применение

Распределение Хотеллинга и его применение

Молодой учёный