Распределение Хотеллинга и его применение
Автор: Матинян Арам Артурович
Рубрика: 1. Математика
Опубликовано в
X международная научная конференция «Исследования молодых ученых» (Казань, май 2020)
Дата публикации: 04.05.2020
Статья просмотрена: 1659 раз
Библиографическое описание:
Матинян, А. А. Распределение Хотеллинга и его применение / А. А. Матинян. — Текст : непосредственный // Исследования молодых ученых : материалы X Междунар. науч. конф. (г. Казань, май 2020 г.). — Казань : Молодой ученый, 2020. — С. 1-5. — URL: https://moluch.ru/conf/stud/archive/370/15815/ (дата обращения: 16.12.2024).
В статье представлено статистическое расстояние и ее отличие от Евклидова расстояния (по прямой линии). Далее представляется одномерная -статистика Стьюдента и ее обобщение — статистика Хотеллинга. В заключение показано ее применение на практическом примере.
Ключевые слова: статистика Хотеллинга, статистическое расстояние, ингридиенты, статистика.
Введение
На практике часто возникают проблемы, связанные с контролем многомерных статистических процессов. Хотя одномерные процессы контроля широко используются, но они не применяются, когда имеются изначально многомерные процессы. Здесь возникает необходимость использовать методы, позволяющие контролировать связь, существующую между переменными, описывающими процесс. Для выполнения этого статистика Хотеллинга дает необходимые методы.
Эта статистика основана на идее статистического расстояния. Она сгруппировывает информацию, полученную с многомерного наблюдения и превращает ее в значение, которое является статистическим расстоянием этого наблюдения от среднего значения.
Статистическое расстояние
Предположим, имеется какой-то процесс. Обозначим наблюдение, полученное из процесса, состоящего из переменных в векторной форме, следующим образом:
Наша задача — обработать информацию, имеющуюся в каждой из указанных переменных. Одним из подходов является графическое рисование, что в некоторых случаях является довольно хорошим методом, но когда мы не можем изобразить точку, тогда возникает необходимость использовать другой метод. Если мы заменим вектор одномерной статистикой, которая будет содержать информацию о каждой из переменных, то мы можем использовать ее для принятия решений о состоянии процесса. Есть много способов сделать это. Давайте рассмотрим два из них.
Предположим, мы получаем наблюдения вида из процесса, где и — нескорелированные случайные величины. Представим точки и в системе координат Декарта. Мы хотим знать, как далеко фиксированная точка находится от средней точки всех точек. Рассмотрим расстояние прямой линией (Евклидову), которая измеряет расстояние между двумя точками в соответствии с количеством единиц, разделяющих эти точки. Расстояние между фиксированной точкой и средней точкой всех полученных точек будет дано формулой .
Обратите внимание, что мы взяли какую-либо точку и заменили ее каким-то числом — , которое является расстоянием между этой точкой и средней точкой.
Если мы зафиксируем расстояние , то все точки, которые имеют расстояние от центра будут находиться на окружности с центром и радиусом , а каждая точка, которая имеет меньшее расстояние от центра, чем , будет расположена внутри окружности (рис. 1).
Однако использование только Евклидова расстояния в большинстве статистических исследований недостаточно. Хотя каждая координата в равной степени участвует в определении расстояния по прямой линии, в этом случае изменение каждой из случайных величин в соответствии со стандартным отклонением не учитывается. Чтобы восполнить этот пробел, рассмотрим стандартизированные значения:
где и — соответственно стандартные отклонения и случайных величин. В случае таких значений формула расстояния примет вид .
называется статистическим расстоянием. Если мы зафиксируем , то все точки, которые удовлетворяют уравнению , имеют одинаковое статистическое расстояние от заданного центра и у нас получается эллипс (рис. 2). Каждая точка в эллипсе имеет меньшее статистическое расстояние, чем , и наоборот, каждая точка вне эллипса будет иметь статистическое расстояние больше, чем .
Между прямой (Евклидовой) и статистическими расстояниями есть несколько важных различий. Давайте представим эти различия.
Первое отличие состоит в том, что случайные величины, используемые в формуле статистического расстояния, стандартизированы. Это важная особенность в многомерных процессах, так как случайные величины могут иметь разные единицы измерения. Следующее отличие состоит в том, что точки на эллипсе на рисунке 2 имеют одинаковое статистическое расстояние от центра, но могут иметь разные Евклидовы расстояния. В случае, если две переменные имеют равные дисперсии и они нескоррелированные, то статистические и Евклидовы расстояния равны с точностью до постоянного множителя, а в противном случае они отличаются друг от друга.
Основное различие между статистическими и Евклидовыми расстояниями состоит в том, что в противопоставление Евклидовому расстоянию каждая из случайных величин в статистическом расстоянии делится на свое стандартное отклонение. Следовательно, можно сделать вывод, что изменение случайной величины небольшого стандартного отклонения будет иметь большее влияние на значение статистического расстояния, чем изменение случайной величины большого стандартного отклонения. Другими словами, статистическое расстояние — это взвешенное расстояние по прямой линии, где наибольшее значение имеет случайная величина, которая имеет наименьшее стандартное отклонение, чтобы компенсировать расстояние от центра.
До сих пор предполагалось, что случайные величины нескоррелированные.
Теперь предположим, что это не так. На рисунке показан случай положительно скоррелированных случайных величин. Чтобы получить статистическое расстояние, давайте в этом случае обобщим формулу . Мы знаем, что общее уравнение эллипса задается следующим образом:
где являются такими постоянными, которые удовлетворяют условию
, а — фиксированное число.
Выбрав правильные константы в уравнении , мы можем получить такое уравнение эллипса, которое соответствует случайным величинам, скоррелированным таким образом. Например, эллипс, представленный на рисунке , имеет тот же центр, что и и случайные величины, но он расположен так, чтобы выразить корреляцию между ними.
Правильный выбор приведет к получению формулы для статистического расстояния, когда и скоррелированы. Формула выглядит следующим образом:
где является коэффициентом корреляции между и .
Когда случайные величины и не скоррелированы, то есть , формула принимает вид , а полученный эллипс принимает вид что на рисунке . Когда , то полученный эллипс будет наклонен влево, а когда , то эллипс будет наклонен вправо (рис. 5).
Формула может быть представлена в виде матрицы следующим образом:
где , , а матрица является обратной матрицы , где является ковариацией между и . Матрицу называют матрицей ковариацией случайных величин.
Полученную формулу можно обобщить для того случая, когда является — мерным случайным вектором, вектором средних, а
есть матрица ковариаций, таким образом
В дальнейшем мы увидим, что матричные виды и являются различными представлениями статистики Хотеллинга .
Статистика стьюдента иее обобщение статистика Хотеллинга
Статистика Стьюдента вычисляется для случайно выбранной выборки из нормально распределенной генеральной совокупности, которая имеет средную и дисперсии. Это статистика дана следующим образом:
где
среднее значение выборок, а ՝
стандартные отклонения для выборок.
Квадрат — статистики будет՝
И полученное значение будет квадратом статистического расстояния между выборковым средним и средним генеральной совокупности.
В формуле числитель — это квадрат Евклидова расстояния между и , то есть это является величина близости среднего значения выборок и среднего значения генеральной совокупности. Когда приближается к , значение приближается к нулю. Разделив квадрат Евклидова расстояния на дисперсию , то есть на , мы получим квадрат упомянутого статистического расстояния. Хотеллинг обобщил одномерную статистику на многомерную статистику, которая основана на значении, полученных из выборочных ковариационных матриц. Это выглядит так:
Предположим, у нас есть –ое количество выборок: где взяты из -мерного нормального распределения, у которой есть вектор средних и матрица ковариаций . Многомерное обобщение статистики Стьюдента Хотеллинга имеeт следующий вид:
где и являются выброчними величинами и и имеют следующий вид:
и
Для выборок матрица ковариаций может быть представлена также в следующем виде:
где является -ой выборочной дисперсией случайной величины, а является выборочной ковариацией между -ой и -ой случайными величинами.
Применение
В следующем примере мы применим Хотеллинг T2. Предположим, что исследование было проведено среди человек в возрасте лет и были собраны данные об использовании следующих ингридиентов в их ежедневном рационе: кальций, железо, протеин, витамин и витамин . В таблице покажем суточное количество, необходимую норму для каждого ингридиента и полученные средние данные․
Ингредиент |
Необходимая норма |
Среднее |
Кальций |
1000 мг |
624.0 мг |
Железо |
15 мг |
11.1 мг |
Протеин |
60 г |
65.8 г |
Витамин |
800 г |
839.6 г |
Витамин |
75 мг |
78.9 мг |
Таблица 1
Суточная необходимая норма иполученные средние данные для каждого ингридиента
Наша задача — выяснить, принимают ли люди необходимую суточную дозу или нет. Прежде чем делать расчеты, давайте представим следующие идеи.
Нулевая гипотеза — статистическая гипотеза согласно которому характеристика описивающий генеральную совокупность не меняется.
Альтернативная гипотеза — противоположное предположение нулевой гипотезе.
Случайная величина имеет -распределение по степени свободы и , если ее функция плотности задана следующим образом:
где .
статистика представляется статистикой следующим образом.
где и являются степенями свободы.
Рис.6. показывает значения распределения плотности в случаях разных степеней свободы. Значение, соответствующее и выбранной степени свободы, представляет собой значение плотности распределения , правая часть которого имеет поверхность (рис. 6).
Мы отвергнем нулевую гипотезу на уровне , если статистика больше критического значения в таблице :
Давайте перейдем к расчетам. В нашем случае нулевая гипотеза состоит в том, что люди принимают все компоненты в необходимом количестве. Нулевая гипотеза будет опровергнута, если окажется, что люди не принимают один из компонентов в необходимом количестве. Математически нулевая гипотеза () состоит в том, что вектор средних значений генеральной совокупности равен вектору средних, полученного из выборок — а альтернативная гипотеза () состоит в том, что они не равны друг другу.
Для произведения расчетов давайте вспомним вид статистики Хотеллинга
где — количество данных, — среднее значение выборок, — среднее знаение генеральной совокупности, а — ковариационная матрица для выборок.
Теперь давайте найдем матрицу для имеющихся данных,
Исходя из формулы статистика Хотеллинга будет:
У нас есть степени свободы , следовательно, из формулы получаем статистику :
Если мы посмотрим на критическое значение для в таблице , то увидим, что . Оказалось, что значение больше критического значения. Следовательно, мы можем отрицать нулевую гипотезу, которая утверждает, что среднее значение соответствует необходимому рациону.
Вывод: Среднесуточная доза из компонентов, отобранных для всех людей в возрасте лет, не соответствует желаемой дозе.
Литература:
- R. L. Mason, J. C. Young, Multivariate statistical process control with industrial applications, Society for Industrial and Applied Mathematics, 2002
- R. S. Witte, J. S. Witte, Statistics, Eleventh Edition, 2017
- Health Survey // Penn State. URL: https://newonlinecourses.science.psu.edu/stat505/lesson/7/7.1/7.1.1 (дата обращения: 27.04.2020).
Ключевые слова
статистика Хотеллинга, статистическое расстояние, ингридиенты, t статистикаПохожие статьи
Вероятностный подход к доказательству классических теорем
В статье приводятся задачи теории вероятностей, в решении которых возникают классические константы π и e. Показана вероятностная интерпретация теоремы Дирихле-Вирзинга о приближении действительных чисел алгебраическими числами.
Эллиптические кривые в алгоритме Диффи - Хеллмана над полем GF (2m)
Рассмотренная криптосистема Диффи-Хэллмана основана на том, что проблема логарифмирования в конечном простом поле является сложной с вычислительной точки зрения.
Вычисление стохастического интеграла по определению
Стохастические исчисления — это один из тех великолепных разделов математики. Теория стохастического интегрирования начиналась с интегрирования по броуновскому движению. Ито в 40-х гг. прошлого века вывел правила действий со стохастическими интеграла...
Нелинейные вполне непрерывные операторы и их аппроксимации
В статье рассматриваем теорему о непрерывных изображениях, также рассматривается лемма о непрерывных операторах и получены к ним доказательства. Дано определение нелинейному оператору.
Существование периодической траектории в модифицированной модели Калдора
В статье рассматривается нелинейная экономическая модель бизнес-цикла Николаса Калдора. Дается строгое обоснование применения теоремы Пуанкаре-Бендиксона о существовании периодической траектории. Приводятся результаты численного моделирования.
Геометрические приложения определенного интеграла в задачах о добавочной выгоде производителя и потребителя и при нахождении коэффициента Джини
В статье рассматриваются некоторые задачи экономики, при решении которых используется нахождение площади плоской фигуры.
Асимптотика решения бисингулярной задачи на бесконечной прямой с квадратичной особенностью по времени
В работе построено асимптотическое разложение решения задачи Коши для бисингулярной параболического уравнения, в случае, когда решение соответствующего «вырожденного» уравнения имеет полюс второго порядка по времени в начальной точке. Асимптотика реш...
О разрешимости второй начально-краевой задачи для одномерного псевдопараболического уравнения с дробными производными
В одномерной ограниченной области исследована вторая начально-краевая задача для однородного псевдопараболического уравнения с дробной по времени производной Капуто. Установлены условия однозначной разрешимости рассматриваемой задачи в классе непреры...
О спектре тензорной суммы моделей Фридрихса
Модельный оператор, ассоциированный с системой трех частиц на d-мерной решетке рассматривается как тензорная сумма моделей Фридрихса. Найден явный вид существенного и дискретного спектра.
Теорема Пикара
В статье рассматривается теорема Пикара и доказывается существование решения задачи Коши методом последовательных приближений.
Похожие статьи
Вероятностный подход к доказательству классических теорем
В статье приводятся задачи теории вероятностей, в решении которых возникают классические константы π и e. Показана вероятностная интерпретация теоремы Дирихле-Вирзинга о приближении действительных чисел алгебраическими числами.
Эллиптические кривые в алгоритме Диффи - Хеллмана над полем GF (2m)
Рассмотренная криптосистема Диффи-Хэллмана основана на том, что проблема логарифмирования в конечном простом поле является сложной с вычислительной точки зрения.
Вычисление стохастического интеграла по определению
Стохастические исчисления — это один из тех великолепных разделов математики. Теория стохастического интегрирования начиналась с интегрирования по броуновскому движению. Ито в 40-х гг. прошлого века вывел правила действий со стохастическими интеграла...
Нелинейные вполне непрерывные операторы и их аппроксимации
В статье рассматриваем теорему о непрерывных изображениях, также рассматривается лемма о непрерывных операторах и получены к ним доказательства. Дано определение нелинейному оператору.
Существование периодической траектории в модифицированной модели Калдора
В статье рассматривается нелинейная экономическая модель бизнес-цикла Николаса Калдора. Дается строгое обоснование применения теоремы Пуанкаре-Бендиксона о существовании периодической траектории. Приводятся результаты численного моделирования.
Геометрические приложения определенного интеграла в задачах о добавочной выгоде производителя и потребителя и при нахождении коэффициента Джини
В статье рассматриваются некоторые задачи экономики, при решении которых используется нахождение площади плоской фигуры.
Асимптотика решения бисингулярной задачи на бесконечной прямой с квадратичной особенностью по времени
В работе построено асимптотическое разложение решения задачи Коши для бисингулярной параболического уравнения, в случае, когда решение соответствующего «вырожденного» уравнения имеет полюс второго порядка по времени в начальной точке. Асимптотика реш...
О разрешимости второй начально-краевой задачи для одномерного псевдопараболического уравнения с дробными производными
В одномерной ограниченной области исследована вторая начально-краевая задача для однородного псевдопараболического уравнения с дробной по времени производной Капуто. Установлены условия однозначной разрешимости рассматриваемой задачи в классе непреры...
О спектре тензорной суммы моделей Фридрихса
Модельный оператор, ассоциированный с системой трех частиц на d-мерной решетке рассматривается как тензорная сумма моделей Фридрихса. Найден явный вид существенного и дискретного спектра.
Теорема Пикара
В статье рассматривается теорема Пикара и доказывается существование решения задачи Коши методом последовательных приближений.