Шаблон Excel для проверки законов распределения данных наблюдений по критерию согласия Пирсона | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 6 ноября, печатный экземпляр отправим 10 ноября.

Опубликовать статью в журнале

Автор:

Рубрика: Экономика и управление

Опубликовано в Молодой учёный №13 (251) март 2019 г.

Дата публикации: 30.03.2019

Статья просмотрена: 12071 раз

Библиографическое описание:

Фаюстов, А. А. Шаблон Excel для проверки законов распределения данных наблюдений по критерию согласия Пирсона / А. А. Фаюстов. — Текст : непосредственный // Молодой ученый. — 2019. — № 13 (251). — С. 142-147. — URL: https://moluch.ru/archive/251/57618/ (дата обращения: 23.10.2021).



В статье рассматривается процедура создания шаблона Excel и опыт его применения для автоматического построения гистограмм и кривых Гаусса по результатам данных экспериментальных наблюдений с одновременной оценкой согласия по критерию Пирсона в учебном процессе. Показываются преимущества данного метода перед ручным счетом по проверке рассмотренного критерия.

Ключевые слова: шаблон Excel, гистограмма, кривая распределения, критерий согласия Пирсона

В современном мире к статистике проявляется большой интерес, поскольку это отличный инструмент для анализа и принятия решений, а также это отличное средство для поиска причин нарушений процесса и их устранения. Статистический анализ применим во многих сферах, где существуют большие массивы данных: металлургии, а также в экономике, биологии, политике, социологии и т. д. Рассмотрим использование некоторых средств статистического анализа, а именно — гистограмм для обработки больших массивов данных.

Целью первичной обработки экспериментальных наблюдений обычно является выбор закона распределения, наиболее хорошо описывающего случайную величину, выборку которой мы наблюдали. Проверка того, насколько хорошо наблюдаемая выборка описывается теоретическим законом, осуществляется с использованием различных критериев согласия. Целью проверки гипотезы о согласии опытного распределения с теоретическим является стремление удостовериться в том, что данная модель теоретического закона не противоречит наблюдаемым данным, и использование ее не приведет к существенным ошибкам при вероятностных расчетах. Некорректное использование критериев согласия может приводить к необоснованному принятию или необоснованному отклонению проверяемой гипотезы [1].

Сходимость результатов наблюдений можно оценить наиболее полно, если их распределение является нормальным. Поэтому исключительно важную роль при обработке результатов наблюдений играет проверка нормальности распределения.

Эта задача представляет собой частный случай более общей проблемы, заключающейся в подборе теоретической функции распределения, в некотором смысле наилучшим образом согласующейся с опытными данными. Сама процедура проверки нормальности распределения относится к распространенной стандартной и довольно тривиальной задаче обработки данных и достаточно подробно и широко описана в различной литературе по метрологии и статистической обработке данных измерений [2- 4].

Данные, получаемые в результате измерений при контроле технологических процессов, оценке характеристик различных объектов и др. для дальнейшей обработки желательно представлять в виде теоретического распределения, максимально соответствующего экспериментальному распределению. Проверку гипотезы о виде функции распределения в настоящее время проводят по различным критериям согласия — Пирсона, Колмогорова, Смирнова и другим в соответствии с новыми разработанными нормативными документами — рекомендациями по стандартизации [5, 6].

Наиболее часто используется критерий Пирсона 2. Однако применение критериев согласия требует обычно довольно значительного объёма данных. Так, критерий Пирсона обычно рекомендуется использовать при объёме выборки не менее 50…100. Поэтому при небольшом объёме выборки проверку гипотезы о виде функции распределения проводят приближёнными методами — графическим методом или по асимметрии и эксцессу. Применение критерия Пирсона для ручной обработки данных очень подробно было изложено в известной работе [2]. Как свидетельствует опыт проверок согласия экспериментальных данных с теоретическими по различным критериям, эта процедура является очень трудоемкой, требует некоторой усидчивости и особого внимания при обработке от исследователя, как правило, не исключает ошибок в работе и не вызывает особого энтузиазма у выполняющего эту работу.

Решение задач статистического анализа связано со значительными объемами вычислений. Проведение реальных многовариантных статистических расчетов в ручном режиме является очень громоздкой и трудоемкой задачей и без использования компьютера в настоящее время практически невозможно. В настоящее время разработано достаточное количество универсальных и специализированных программных средств для статистического анализа и обработки экспериментальных данных. Автор предлагает к рассмотрению достаточно простой и эффективный шаблон для быстрого построения гистограммы и кривой нормального распределения.

По виду гистограммы можно предположить (принять гипотезу) о том, что выборка случайных чисел подчиняется нормальному закону распределения. Далее, для того чтобы убедиться в правильности выбранной гипотезы надо, первое — построить график гипотетического нормального закона распределения, выбрав в качестве параметров (математического ожидания и среднего квадратического отклонения) их оценки (среднее и стандартное отклонение), и совместить график гипотетического распределения с графиком гистограммы. И, второе — используя в данном случае, как пример, критерий согласия Пирсона, установить справедливость выбранной гипотезы.

Рассмотрим порядок действий при работе с критерием Пирсона в среде Excel.

1. Полученные в результате измерений значения 100 случайных результатов измерений внести в ячейки A1:A100 шаблона Excel и приступить к построению гистограммы на основе данных, назначая длину интервала (карман) и выбирая необходимое число интервалов.

2. Затем на этом же листе создается таблица, в которую посредством формул Excel вносятся основные расчетные величины, используемые для построения гистограммы и кривой Гаусса: среднее арифметическое, стандартное отклонение, минимальное и максимальное значения выборки, размах, величина кармана (рис. 1).

Безымянный

Рис. 1. Фрагмент таблицы с исходными данными

В ячейку D2 вносится формула =СРЗНАЧ(A1:A100), D3: =СТАНДОТКЛОН(A1:A100), D4: =МИН(A1:A100), D5: =МАКС(A1:A100), D6: =D5-D4, D7: =D6/D8. В ячейку D8 вводится число интервалов, которое для числа измерений, равным 100, может быть принято от 7 до 12.

Для оценки оптимального для нашего массива данных количества интервалов можно воспользоваться формулой Стерджесса: k~1+3,322lgN, где N— количество всех значений величины. Например, для N = 100, n = 7,6, которое должно быль округлено до целого числа, округляем до n = 8.

3. Интервал карманов вычисляют так: разность максимального и минимального значений массива, деленная на количество интервалов: .

4. Теперь в каждой ячейке шаг за шагом прибавляем полученное значение ширины кармана: сначала к минимальному значению нашего массива (ячейка D4), затем в следующей ячейке ниже — к полученной сумме и т. д. Так постепенно доходим до максимального значения. Таким образом, мы и построили интервалы карманов в виде столбца значений.

Интервалом считается следующий диапазон: (i-1; i] или i<значения<=i (нестрогая верхняя граница интервала — это значение в ячейке, нижняя строгая граница — значение в предыдущей ячейке).

5. Выделяем столбец рядом с нашими карманами, нажимаем «F2» и вводим функцию: =ЧАСТОТА (массив данных; диапазон карманов) и нажимаем Ctr+Shift+Enter.

6. В выделенном нами столбце напротив границ интервалов (а мы знаем, что это нестрогие верхние границы) появилось количество значений исходного массива, которые попадают в интервал (рис. 2).

Безымянный-1

Рис. 2. Количество значений исходного массива, попавших в интервалы (частоты)

Построение теоретического закона распределения

Для построения теоретического закона распределения совместно с гистограммой и проверкой согласия по критерию хи-квадрат Пирсона автоматически заполняется таблица 1 после ввода экспериментальных данных в ячейки A1:A100.

Таблица 1

xi

mi

n∙pi

карманы

частота

теоретическая частота

статистика U

Для построения этой таблицы надо воспользоваться таблицей карман — частота процедуры Гистограмма. В этой таблице обозначены:

xi — границы интервалов группировки (карманы — получены как результат выполнения процедуры Гистограмма);

mi — количество элементов выборки, попавших в i–ый интервал (частота — получена в результате процедуры Гистограмма).

Для построения этой таблицы в Excel к столбцам карман — частота процедуры Гистограмма надо добавить столбцы n∙pi (теоретическая частота) и (статистика U).

Проверка согласия эмпирического и теоретического законов распределения по критерию хи-квадрат Пирсона.

В ячейку столбца, помеченного именем U, вводим формулу,

, (1)

Критическое значение статистики U, которая имеет распределениес r степенями свободы (число степеней свободы определяется как число частичных интервалов минус 1), определяется при помощи функции ХИ2ОБР.

Функция ХИ2ОБР вызывается следующим образом. В главном меню Excel выбирается закладка Формулы → Вставить функцию →в диалоговом окне Мастер функций— шаг 1 из 2 вкатегории Статистические →ХИ2ОБР (рис. 3).

http://www.studfiles.ru/html/2706/558/html_BMG66pHKvj.eosI/htmlconvd-dTqvbh_html_m201960a7.png

Рис. 3. Диалоговое окно выбора функции ХИ2ОБР

В диалоговом окне Аргументы функции ХИ2ОБР заполняются поля как показано на рис. 4, задаваясь уровнем значимости (например, 0,05, что соответствует доверительной вероятности Р = 0,95) и предварительно выбрав ячейку для результата вычисления функции.

http://www.studfiles.ru/html/2706/558/html_BMG66pHKvj.eosI/htmlconvd-dTqvbh_html_5cf9dd9f.png

Рис. 4. Диалоговое окно функции ХИ2ОБР с заполненными полями ввода

Размножим формулу (1) в диапазонах ячеек [F12; F20] и [F51; F61]. В ячейке F21 получим сумму содержимого ячеек F12; F20 (рис. 5). В ячейке F62 получим сумму содержимого ячеек F51; F61 (рис. 6).

В ячейке F21 получено значение статистики: U = 2,09, а в ячейке F62 — U = 3,43 при доверительной вероятности Р = 0,95.

Теперь с помощью стандартного инструмента для построения гистограмм («вставка/гистограмма» и т. д.) на этом же листе Excel можно построить гистограммы распределения с кривой Гаусса для разных чисел интервалов (в данном случае n = 8 и n = 10) (рис. 5 и 6).

Безымянный

Рис. 5. Вид гистограммы и кривой распределения при числе интервалов n = 8 (пример)

Безымянный-1

Рис. 6. Вид гистограммы и кривой распределения при числе интервалов n = 10 (пример)

Шаблон позволяет варьировать числом интервалов и величиной кармана, при этом автоматически изменяется внешний вид гистограммы и кривой нормального распределения. Исследователь может подобрать наиболее «красивый» вид гистограммы и аппроксимирующей кривой Гаусса, одновременно изменив значение доверительной вероятности и числа степеней свободы и добившись при этом выполнения критерия Пирсона.

Если значение статистики U оказалось меньше критического значения при заданной доверительной вероятности, то гипотеза, состоящая в том, что исследуемая выборка подчиняется нормальному закону распределения, принимается. Вданном примере значение обеих статистик U оказалось меньше критического значения и Следовательно, мы можем распространить данный закон распределения на всю генеральную совокупность исследуемых объектов (партию изделий, сменную выработку, месячный план и т. д.).

Более подробно указанная тема была рассмотрена в статье автора в сборнике «Законодательная и прикладная метрология» [7].

Выводы

  1. Существовавшая ранее традиционная «ручная» обработка данных при проверке нормального (и других) законов распределения и построении гистограмм являлась достаточно трудоемкой задачей, не исключавшей появление ошибок, обнаружение которых зачастую требовало значительных затрат времени и моральных сил исследователя.
  2. Появление пакетов офисных программ, в частности Excel 2010 и ее последующих версий, позволяет значительно сократить трудоемкость обработки данных и практически исключает появление ошибок в расчетах.

Литература:

1. Лемешко Б. Ю., Постовалов С. Н. О правилах проверки согласия опытного распределения с теоретическим. — Методы менеджмента качества. Надежность и контроль качества. — 1999, № 11. — С. 34–43.

2. Бурдун Г. Д., Марков Б. Н. Основы метрологии. Учебное пособие для вузов. — М.: Изд. стандартов, 1975. — 336 с.

3. Сулицкий В. Н. Методы статистического анализа в управлении: Учеб. пособие. — М.: Дело, 2002. — 520 с.

4. Иванов О. В. Статистика / Учебный курс для социологов и менеджеров. Часть 2. Доверительные интервалы. Проверка гипотез. Методы и их применение. — М.: Изд. МГУ им. М. В. Ломоносова, 2005. — 220 с.

5. Рекомендации по стандартизации Р 50.1.033–2001. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть 1. Критерии типа хи-квадрат. — М.: ФГУП «Стандартинформ», 2006. — 87 с.

6. Рекомендации по стандартизации Р 50.1.037–2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. — М.: ИПК Изд. стандартов, 2002. — 62 с.

7. Фаюстов А. А. Проверка гипотезы о нормальном распределении выборки по критерию согласия Пирсона средствами приложения Excel. — Законодательная и прикладная метрология, 2016, № 6. — С. 3–9.

Основные термины (генерируются автоматически): статистический анализ, критерий согласия, массив данных, вид функции распределения, интервал карманов, максимальное значение, минимальное значение, построение гистограммы, различный критерий согласия, стандартное отклонение.


Ключевые слова

гистограмма, шаблон Excel, кривая распределения, критерий согласия Пирсона

Похожие статьи

Решение задач анализа и синтеза на имитационных моделях...

Значения случайной величины могут быть получены в результате статистических

Изучение работы новых машин и станков должно базироваться на статистических данных, собранных в

Рис. 2. Гистограммы для длительностей интервалов времени распиловки бревен на...

Вычисление статистических показателей с использованием...

Для анализа распределения необходимы числовые значения статистических показателей, позволяющие оценить колебания значений изучаемого признака и взаимосвязь его с другими признаками: - частотные показатели (частота и относительная частота)

Обработка результатов имитационного моделирования...

В каждой колонке определить максимальное, минимальное значение в ряду и количество значений ряда.

Критерий появления грубых ошибок.

По результатам моделирование построены гистограммы относительных отклонений оценок.

Прецизионный генератор псевдослучайных чисел

Критерием согласованности будем называть функционал, характеризующий степень согласия выборки значений С.В. и её закона распределения. В ходе анализа критериев согласованности было отмечено две группы критериев, отличающиеся самим принципом...

Аналитическая модель префиксного дерева на основе...

Первоначальный вид распределения значения индекса представлен гистограммой на рисунке 1

В силу аппроксимации значения индекса нормальным законом распределения, а также

Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим.

Проверка статистических гипотез в психолого-педагогических...

Задачей анализа полученных данных является изучение частоты встречаемости тех или иных значения признака в эксперименте. Эти данные дают предварительную информацию о виде распределения признака: о том, какие значения встречаются реже, а какие чаще, насколько...

Анализ процедур генерации ключей криптографических алгоритмов.

Мы получили значение критерия «хи-квадрат» для экспериментальных данных.

Проверим возможности применения критерия Стьюдента: Нормальность распределения признака для первой группы с

Рассмотрим графический тест «Гистограмма распределения элементов».

Анализ методов распознавания образов | Статья в журнале...

Распределение – апостериорное распределение значений w, при условии получения

Пример распределения Гаусса для различных параметров µ и σ показан ниже.

Если же мы все же сможем подсчитать значение функции правдоподобия, то и сможем найти значение...

Непараметрические робастные алгоритмы обработки данных

Проблема обработки данных, содержащих резко выделяющиеся значения, давно известна. Даже одно такое незамеченное значение может значительно снизить точность анализа данных, а иногда и совсем его обесценить. Представление о том, какие значения считать резко...

Идентификация многосвязных объектов в условиях частичной...

В общем случае критерий оптимизации выбирается в виде математического ожидания от вектор-функции, аргументом которой является разность между выходом

Из накладываемых условий обычно следует, что в среднем значение совпадает со значением градиента в точке .

Похожие статьи

Решение задач анализа и синтеза на имитационных моделях...

Значения случайной величины могут быть получены в результате статистических

Изучение работы новых машин и станков должно базироваться на статистических данных, собранных в

Рис. 2. Гистограммы для длительностей интервалов времени распиловки бревен на...

Вычисление статистических показателей с использованием...

Для анализа распределения необходимы числовые значения статистических показателей, позволяющие оценить колебания значений изучаемого признака и взаимосвязь его с другими признаками: - частотные показатели (частота и относительная частота)

Обработка результатов имитационного моделирования...

В каждой колонке определить максимальное, минимальное значение в ряду и количество значений ряда.

Критерий появления грубых ошибок.

По результатам моделирование построены гистограммы относительных отклонений оценок.

Прецизионный генератор псевдослучайных чисел

Критерием согласованности будем называть функционал, характеризующий степень согласия выборки значений С.В. и её закона распределения. В ходе анализа критериев согласованности было отмечено две группы критериев, отличающиеся самим принципом...

Аналитическая модель префиксного дерева на основе...

Первоначальный вид распределения значения индекса представлен гистограммой на рисунке 1

В силу аппроксимации значения индекса нормальным законом распределения, а также

Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим.

Проверка статистических гипотез в психолого-педагогических...

Задачей анализа полученных данных является изучение частоты встречаемости тех или иных значения признака в эксперименте. Эти данные дают предварительную информацию о виде распределения признака: о том, какие значения встречаются реже, а какие чаще, насколько...

Анализ процедур генерации ключей криптографических алгоритмов.

Мы получили значение критерия «хи-квадрат» для экспериментальных данных.

Проверим возможности применения критерия Стьюдента: Нормальность распределения признака для первой группы с

Рассмотрим графический тест «Гистограмма распределения элементов».

Анализ методов распознавания образов | Статья в журнале...

Распределение – апостериорное распределение значений w, при условии получения

Пример распределения Гаусса для различных параметров µ и σ показан ниже.

Если же мы все же сможем подсчитать значение функции правдоподобия, то и сможем найти значение...

Непараметрические робастные алгоритмы обработки данных

Проблема обработки данных, содержащих резко выделяющиеся значения, давно известна. Даже одно такое незамеченное значение может значительно снизить точность анализа данных, а иногда и совсем его обесценить. Представление о том, какие значения считать резко...

Идентификация многосвязных объектов в условиях частичной...

В общем случае критерий оптимизации выбирается в виде математического ожидания от вектор-функции, аргументом которой является разность между выходом

Из накладываемых условий обычно следует, что в среднем значение совпадает со значением градиента в точке .

Задать вопрос