В настоящее время актуальной является проблема обработки многомерных данных различной природы, характеризующих различные социально-экономическиеиполитические процессы в обществе. Проблема исследователя заключается в поиске доступных инструментальных методик, автоматизирующих процесс обработки и мониторинга больших объемов статистических данных. Огромный дефицит таких средств и высокая цена на рынке способствует развитию отечественных методик и инструментальных средств обработки таких данных. В рамках исследования, направленного на разработку доступных инструментальных методов обработки и мониторинга многомерных статистических данных различной природы в среде EXCEL, была разработана инструментальная методика, позволяющая проводить мониторинг календарного графика сбора данных с построением частотного ряда по заданным временным периодам для трех типов данных (числовых простых, простых текстовых и составных текстовых) и определением границ длины ряда для числовых простых.
Ключевые слова: алгоритмы, обработка данных, мониторинг, статистика, Excel, макрос, диаграмма, частотный ряд, анкетный опрос
В настоящее время в любой сфере государственного управления и бизнеса для повышения уровня стратегического управления решениями требуется полезная, реалистичная и качественная информация, направленная на решения задач устойчивого социально-экономического развития государства. Одним из источников полезной социально-экономической информации являются данные анкетных опросов различных групп общества. Многократное анкетирование позволяет получать динамические статистические представления состояния исследуемых групп общества, их мнений касательно изучаемого вопроса. Систематического сбор, мониторинг и обработка такой информации позволяет спрогнозировать возможные риски, а также улучшить процесс принятия решений, предотвращающих социальную политическую и прочую напряжённости в обществе.
Проблема исследователя заключается в том, что объем и характер таких данных можно обработать только техническими и инструментальными средствами. Присутствующие же на рынке статистические инструменты по обработке такой информации не обеспечивают решение всего спектра задач анализа анкетных данных. В основном применение данных средств ограниченно рамками классических статистических методов анализа данных числовой природы. Кроме того, отечественный рынок сталкивается с огромным дефицитом таких средств, а существующие зарубежные инструменты требуют значительных денежных затрат и времени для их освоения. Поэтому выбор среды для разработки статистического инструмента определялся в первую очередь своей доступностью, популярностью, простотой использования и гибкостью настройки. Microsoft Excel очень хорошо подходит под эти требования.
В представленной статье авторами рассматривается разработанный алгоритм мониторинга и анализа данных признаков различной природы. Представленный алгоритм реализован в виде технического средства, являющегося надстройкой к EXCEL и предназначенного для обработки данных, собираемых с помощью анкетных форм. Данная надстройка была разработана при учете требований, предъявляемых ранее разработанным на базе ВГУЭС комплексом программ обработки и анализа анкетных данных Мартышенко С. Н. [2].
Рассмотрим постановку задачи по разработке программного средства обработки и анализа многомерных данных при мониторинге в анкетных опросах. Прежде всего, необходимо проанализировать процесс сбора данных при мониторинговых исследованиях и определить некоторые понятия, связанные с ним.
Главной особенностью сбора данных при мониторинговых исследованиях является то, что в каждой анкете должна быть указана дата сбора данных, которая при компьютерной обработке заносится в отдельный столбец таблицы данных.
Чаще всего анкетные данные собираются с использованием бумажного носителя, а затем уже вводятся в компьютер для обработки. В реальных исследованиях ежегодно по одной анкете может опрашиваться значительное количество респондентов. Сбор данных осуществляется в течение некоторого временного периода. В сборе данных может быть задействовано много технических работников, которые непосредственно контактируют с респондентами. Данные для ввода в компьютер от работников, осуществляющих сбор анкетных данных, поступают неравномерно. Каждая анкета должна иметь свой уникальный номер. По этому номеру можно идентифицировать анкету. После ввода в компьютер все данные собираются в единую таблицу, в которой данные упорядочиваются не по дате сбора данных, а по номеру анкеты. Это удобно для сверки компьютерных данных с оригиналом на бумажном носителе при выявлении ошибок. Данные на бумажном носителе сохраняются на весь период, пока существует перспектива сбора данных по данной анкете.
Следует различать понятия «периоды сбора данных» и периоды, на которые распространяются полученные оценки состояния системы — «периоды оценки состояния системы». В большинстве случаев, оценки распространяются на календарный год, но могут быть назначены и другие временные рамки.
Будем считать, что в конечном итоге будет сформирована некоторая таблица EXCEL, данные которой и нужно обработать. Разработанный программный комплекс требует, чтобы «Лист EXCEL», где располагается таблица «объект-свойство», имел название «Данные». Никаких прочих данных или расчетов на листе «Данные» быть не должно, кроме данных таблицы «объект-свойство» [1,5].
Для описания основных пользовательских требований была разработана диаграмма вариантов использования (рис. 1).
Рис. 1. Диаграмма использования (use–case) приложения
Алгоритм подразумевает два основных сценария использования, представленных двумя макросами, реализованными в VBA Excel. Взаимосвязь между интерфейсами и главным модулем, объединяющим основные функции и процедуры программы, представлена на диаграмме классов (рис. 2).
Рис. 2. Диаграмма классов приложения
Первый макрос позволяет выполнить расчет таблицы календарного графика сбора данных, которая представляет собой мониторинг частоты сбора анкетных данных в заданном диапазоне дат с разбивкой по периодам. В рамках функционирования данного макроса была автоматизирована возможность графического представления расчета. Для выполнения мониторинга пользователю необходимо задать столбец диапазона дат, затем указать начальную и конечную дату диапазона, шаг разбивки диапазона на интервал, а также определить курсором место для размещения результата. Для выбора даты была разработана форма «Выбор даты», инициализируемая по кнопке «Выбрать» (рис. 3).
Рис. 3. Форма «Выбор даты»
При этом разбивку исследуемого диапазона можно осуществлять с интервалом длиной в неделю, месяц, квартал или год. Анализ графика процесса сбора данных по анкетному опросу позволяет спланировать работу по решению задач мониторинга исследуемого процесса или явления, также график отражает информацию о том, каким статистическим материалом располагает исследователь к моменту решения задач мониторинга [2,3,4].
Второй макрос позволяет проводить мониторинг частотных рядов по периодам, которые задаются таблицей соответствия «период-дата» [1,5]. Задать таблицу соответствия «период-дата» можно воспользовавшись расчетами, выполненными первым макросом. Также для выполнения расчета необходимо задать столбец дат, столбец данных, тип данных и место для размещения результата.
Часто при мониторинге необходимо построить серию частотных рядов не по всем данным, а по данным, отвечающим определенным условиям для некоторой группы респондентов. Для определения условий, описывающих такую группу была разработана кнопка «Установить/снять автофильтр на таблицу данных». По этой команде происходит обращение к системному диалоговому окну EXCEL «Пользовательский автофильтр» (рис. 4).
Рис. 4. Вызов диалогового окна EXCEL «Пользовательский автофильтр»
Анализируемые данные можно разделить на три типа: числовые, текстовые и составные текстовые, разработка алгоритма для каждого типа данных имеет особенности [3]. В отличие от алгоритма анализа простых текстовых, для составных текстовых данных необходимо задать маску, по которой происходит разбивка составного признака на несколько простых признаков. При этом частотный ряд для двух видов текстовых данных представляет собой таблицу частоты повторения признаков в анализируемых периодах. Для числовых данных, кроме таблицы частоты повторения признака строится также и вариационный ряд с определенными предельными параметрами, которые пользователь задает на специально разработанной форме «Установить параметры для числового ряда» (рис. 5).
Рис. 5. Форма «Установить параметры для числового ряда»
Рассмотрим возможности, предоставляемые пользователю при установке данных параметров:
– параметр «Граница допустимого минимального значения» определяет нижнюю границу вариационного ряда, при этом по умолчанию значение устанавливается равное нулю;
– параметр «Граница допустимого максимального значения» определяет верхнюю границу вариационного ряда, за которой находятся предполагаемые выбросы.
– параметр «Процент значимости» определяет процент ответов в границе допустимого максимального значения (по умолчанию значение устанавливается равное 95 %);
– параметр «Шаг» определяет разницу между верхней и нижней границами интервалов. По умолчанию значение устанавливается равное единице;
– параметр «Результаты разместить» определяет ячейку листа EXCEL, выбранную для размещения результатов.
Также имеется возможность построить диаграмму вариационного ряда, если будет выбран элемент «Строить график».
Значения характеристик выборки без учета выбросов и с учетом выбросов существенно отличаются, поэтому разработанная технология позволяет существенно повысить точность результатов и также существенно сократить время расчета частотных рядов признаков при мониторинговых исследованиях.
Подводя итоги исследования, направленного на разработку доступных инструментальных методов обработки и мониторинга многомерных статистических данных различной природы, была разработана инструментальная методика, позволяющая проводить мониторинг календарного графика сбора данных и рассчитывать частотный ряд по временным периодам для трех типов данных, а именно числовых простых, простых текстовых и составных текстовых. Так же был разработан инструментарий, позволяющий задать ограничения при построении вариационного ряда для числовых данных.
Проведение мониторинга социально-экономических явлений в обществе с помощью разработанной технологии позволяет автоматизировать процесс анализа исследуемых явлений средствами Microsoft Excel всем участникам стратегического управления решениями в любой сфере государственного управления и бизнеса.
Литература:
1. Мартышенко Н. С., Мартышенко С. Н. Современные тенденции изменения структуры времяпрепровождения студентов // Социально-экономические явления и процессы. — 2013. — № 1. С. 112–116.
2. Мартышенко Н. С., Мартышенко С. Н. Технологии повышения качества данных в анкетном опросе // Практический маркетинг. — 2008. — № 1. С. 8–13.
3. Мартышенко С. Н. Анализ данных мониторинга социально-экономических процессов в муниципальных образованиях // Информационные технологии моделирования и управления. — 2012. — № 6 (78). — С. 506–512.
4. Мартышенко С. Н. Методическое обеспечение анализа данных мониторинга социально-экономических процессов в муниципальных образованиях // Экономика и менеджмент систем управления. 2012. — Т. 6. — № 4.2. — С. 259–267.
5. Мартышенко С. Н., Мартышенко Н. С., Кустов Д. А. Цензурирование при обработке анкетных данных // Известия высших учебных заведений. Поволжский регион. — 2006. — № 6(27). — С. 170–177.