Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Шапиро — Уилка

Дручинин Дмитрий Олегович

Актуальность и цели. В данной работе производится анализ логарифмических доходностей акций, входящих в состав российского IT сектора. Предполагается, что дневная логарифмическая доходность распределена по нормальному закону. Цель работы — проверить гипотезу о нормальном распределении дневных логарифмических доходностей на реальных данных. С экономической точки зрения задача исследования — определить таймфреймы и промежутки времени, на которых логарифмические доходности будут иметь нормальное распределения, а также те, на которых условия не выполняются. Помимо этого, необходимо выяснить, как повлияло изменение цен акций в 2022 года на сектор информационных технологий. В дальнейшем эту информацию можно использовать для прогнозирования цен акций исследуемых компаний. Для проверки используется критерий Шапиро — Уилка, являющийся одним из наиболее эффективных критериев. После этого проверяется гипотеза на реальных данных и вычисляется процент проверок, в которых гипотеза будет приниматься при уровне значимости в 5 % и 1 %.

Временной отрезок для рассмотрения: 01.01.2022–31.12.2022

Ключевые слова : логарифмическая доходность, уровень значимости, нормальное распределение, проверка гипотезы

Введение

Информационный сектор играет важную роль в экономике России и является одной из самых быстро развивающихся отраслей. Он включает в себя производство и распространение информационных товаров и услуг, таких как программное обеспечение, интернет-сервисы, мультимедиа-контент и многое другое. Информационные технологии также широко применяются в других отраслях, таких как финансы, производство, здравоохранение, транспорт и телекоммуникации.

Вклад информационного сектора в экономику России растет из года в год. Согласно отчету Аналитического центра при Правительстве Российской Федерации, в 2020 году доля информационных технологий в ВВП России составила 4,5 %, а объем рынка информационных технологий оценивался в 3,4 трлн рублей.

Этот сектор является ключевым для развития экономики России, поскольку способствует созданию новых рабочих мест, привлечению инвестиций, улучшению качества жизни и повышению конкурентоспособности страны в мировом рынке. Более того, информационные технологии могут существенно повысить эффективность работы государственных органов и бизнеса, что в свою очередь ведет к увеличению производительности и экономического роста.

С экономической точки зрения, оценивается изменение цен акций в 2022 году в сектор информационных технологий. Определение на каких промежутках логарифмические доходности имели нормальное распределение позволит спрогнозировать дальнейшее изменение в данном секторе.

Основная часть

Для проверки критерия были взяты акции компаний, которые входят в сектор информационных технологий, а именно:

YNDX — Яндекс

HHRU — HeadHunter

VKCO — Вконтакте

OZON — Озон

MTSS — МТС

POSI — Positive Technologies

SFTL — Softline

Для того чтобы использовать эти данные для проверки нормальности по критерию Шапиро — Уилка, необходимо провести их предварительный анализ. В первую очередь, посчитаем логарифмические доходности акций.

1 Теоретическая справка по проверке гипотез

1.1 Статистическая проверка гипотез

Статистическая гипотеза — это любое утверждение о виде или параметрах генерального распределения. Гипотезу называют основной и обозначают , если он утверждает, что отсутствуют различие между сравниваемыми характеристиками, а наблюдаемые отклонения объясняются лишь случайными колебаниями в выборках, которые используются для сравнения. Помимо основной гипотезы существует альтернативная ей гипотеза . Стоит отметить, что и — являются взаимоисключающими статистическими гипотезами. Утверждение о справедливости одной из этих гипотез принимается в качестве предположения. Статистический критерий, который является случайной величиной с точным или приближенным известным распределением, используется для проверки гипотезы.

Пусть - некоторое подмножество . В этом случае правило, в соответствии с которым H ₀ отвергается, если выборка , и принимается, если , называется статистическим критерием с критической областью К. Так как и являются гипотезами, которые исключают друг друга, принятие ведет за собой отклонение . Напротив, отклонение приводит к принятию из-за базисного предположения.

Использование статистического критерия может привести к ошибкам двух типов, которые приведены в таблице 1:

Ошибка первого рода заключается в том, что отвергается верная гипотеза .

Ошибка второго рода заключается в том, что отвергается верная гипотеза .

При этом, уровнем значимости критерия называется вероятность ошибки первого рода и обозначается . Вероятность ошибки второго рода обозначается , а величина — это мощность критерия.

Таблица 1

Гипотезы

H ₀ верна

H ₀ неверна

H ₀ отвергается

Ошибка I рода

+

H ₀ не отвергается

+

Ошибка II рода

Для реализации случайной выборки , которая зафиксирована, P-значением критерия (P-value) называется такое число , что для любого уровня значимости α, при котором гипотеза принимается и для любого уровня значимости , при котором отвергается.

Предполагается, что Р-значение уже каким-либо способом найдено. В этом случае решение о принятии или отклонении для заданного осуществляется на основе следующего простого правила: если , гипотеза H ₀ отвергается, а если гипотеза принимается.

Рассматривается отдельно случай В этом случае где c(- непрерывная убывающая функция, и для имеет место равенство , означающее, что принимается. Отсюда уже легко получить широко применяемую формулу:

1.2 Критерий Шапиро — Уилка

В данной работе используется критерий Шапиро — Уилка. Он используется для проверки гипотезы H ₀ : «случайная величина X распределена нормально».

Критерий Шапиро — Уилка основан на анализе линейной комбинации разностей порядковых статистик. Критерий применяется при объемах выборки от 3 ≤ n ≤ 50, так как табулированы константы, необходимые для вычисления статистики критерия и аппроксимации P-значения.

Пусть имеется выборка Статистика вычисляется по формулам:

, где , ,

Значение k в последней формуле определяется следующим образом:

, если n — четное

, если n — нечетное

Нормальная аппроксимаций используется для вычисления реально достигнутого уровня значимости:

, где — стандартное нормальное распределение, в котором , и — константы, табличные значения которых известны, в зависимости от объема выборки. Значения приведены в таблице 2.

Если , то нулевая гипотеза нормальности распределения отклоняется на уровне значимости .

Ж. П. Ройстон предложил другой способ вычисления P-значения для n вплоть до 2000: и , где z — стандартная нормальная случайная величина, а и ее матожидание и среднеквадратичное отклонение. Данная формула будет использована для нахождения уровня значимости и p — значений. Чтобы найти уровень значимости для конкретного , необходимо посчитать вероятность того, что случайная величина будет меньше . Для проведения расчетов понадобятся следующие данные из таблицы. Значения , аппроксимируются многочленами от , где , если и , если .

Таблица 2

Коэффициенты

Параметр

n

Коэффициенты

0

1

2

3

4

5

6

7–20

0,118898

0,133414

0,327907

21–2000

0,480358

0,318828

0

-0,02417

0,008797

0,00299

7–20

-0,37542

0,492145

-1,12433

-0,19942

21–2000

-1,91487

-1,37888

-0,04183

0,1066339

-0,03514

-0,01506

7–20

-3,15805

0,729399

3,01855

1,558776

21–2000

-3,73538

-1,01581

-0,33189

0,1773538

-0,01639

-0,03215

0,003853

2 Проверка гипотезы на реальных данных

В данном разделе анализируются данные логарифмической доходности и применяется к ним критерий Шапиро — Уилка. Далее выбираются данные, в которых гипотеза принимается при 5 % и 1 % уровнях значимости. Строиться ряд гистограмм и делаются выводы.

Для удобства использования уровни значимости будут отмечаться следующим образом: 5 % — 0.12 , 1 % — 0.02

2.1 Гипотеза о нормальности распределения логарифмической доходности для периода в 6 месяцев

Далее анализируются данные на промежутке в 6 месяцев. Результаты приведены в таблице 3.

Таблица 3

Проверка критерия на промежутке в 6 месяцев

01.01.2022–30.06.2022

01.07.2022- 31.12.2022

HHRU

0.0

0.0

VKCO

0.0

0.0

MTSS

0.0

0.0

POSI

0.0

0.000348

SFTL

0.0

0.0

OZON

0.0

0.0

YNDX

0.0

0.000006

Из таблицы следует, что на временных промежутках в 6 месяцев p-значение выше 1 % не имела ни одна компания.

2.2 Гипотеза о нормальности распределения логарифмической доходности для периода в 3 месяца

Проверяются данные на промежутке в 3 месяца. Результаты приведены в таблице 4.

Таблица 4

Проверка критерия на промежутке в 3 месяца

1 квартал

2 квартал

3 квартал

4 квартал

HHRU

0.000075

0.916383

0.006304

0.000123

VKCO

0.0

0.041

0.000557

0.301379

MTSS

0.0

0.0

0.0

0.185686

POSI

0.000001

0.000001

0.006477

0.137620

SFTL

0.0

0.001329

0.0

0.0

OZON

0.006810

0.174743

0.000477

0.0038

YNDX

0.0

0.996487

0.001316

0.597753

Из таблиц видно, что с уменьшением исследуемого периода, возрастает количество логарифмических доходностей, которые имеют нормальное распределение.

Таблица 5

Итоговые результаты

6 месяцев

3 месяца

5 %

0 %

25 %

1 %

0 %

28,57 %

Итоговые результаты показывают, что логарифмические доходности имели нормальное распределение лишь на промежутке в 3 месяца. Также следует отметить, что это было характерно только для 2 и 4 квартала.

Заключение

В данной работе проводился анализ логарифмических доходностей акций, входящих в состав сектора информационных технологий. В ходе работы были получены следующие результаты:

На промежутке в 1 год с таймфреймом 1 день не нашлось значений, которые имеют p-значение выше 5 %. На промежутке в 6 месяцев с таймфреймом 1 день количество значений, которые имеют нормальное распределение не увеличилось.

На промежутке в 3 месяца с таймфреймом 1 день, лишь 25 процентов акций имеют нормальное распределение. При этом, нормальное распределение акций встречалось только во втором и четвертом квартале.

Можно сделать вывод, что использование критерия Шапиро — Уилка для проверки нормальности распределения не позволяет выявить закономерности для предсказания будущих цен акций.

Литература:

1. Браилов А. В. Лекции по математической статистике. М.: Финакадемия, 2007

2. В. Е. Гмурман Теория вероятностей и математическая статистика, Юрайт, 2011

3. Фадеева Л. Н. Лебедев А. В. Теория вероятностей и математическая статистика, Эксмо, 2010

4. J. P. Royston, Extension of Shapiro and Wilk's W Test for Normality to Large Samples, p. 118

5. Shapiro S. S., Wilk M. B. An analysis of variance test for normality (complete samples) Biometrika, 52 No. 3/4. (Dec., 1965), pp. 591–611

Молодой учёный

Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Шапиро — Уилка

Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Шапиро — Уилка

Молодой учёный

	H ₀ верна	H ₀ неверна
H ₀ отвергается	Ошибка I рода	+
H ₀ не отвергается	+	Ошибка II рода

Параметр	n	Коэффициенты
Параметр	n	0	1	2	3	4	5	6
	7–20	0,118898	0,133414	0,327907
	21–2000	0,480358	0,318828	0	-0,02417	0,008797	0,00299
	7–20	-0,37542	0,492145	-1,12433	-0,19942
	21–2000	-1,91487	-1,37888	-0,04183	0,1066339	-0,03514	-0,01506
	7–20	-3,15805	0,729399	3,01855	1,558776
	21–2000	-3,73538	-1,01581	-0,33189	0,1773538	-0,01639	-0,03215	0,003853

	01.01.2022–30.06.2022	01.07.2022- 31.12.2022
HHRU	0.0	0.0
VKCO	0.0	0.0
MTSS	0.0	0.0
POSI	0.0	0.000348
SFTL	0.0	0.0
OZON	0.0	0.0
YNDX	0.0	0.000006

	1 квартал	2 квартал	3 квартал	4 квартал
HHRU	0.000075	0.916383	0.006304	0.000123
VKCO	0.0	0.041	0.000557	0.301379
MTSS	0.0	0.0	0.0	0.185686
POSI	0.000001	0.000001	0.006477	0.137620
SFTL	0.0	0.001329	0.0	0.0
OZON	0.006810	0.174743	0.000477	0.0038
YNDX	0.0	0.996487	0.001316	0.597753

	6 месяцев	3 месяца
5 %	0 %	25 %
1 %	0 %	28,57 %