Разработка программных модулей обработки многомерных данных различной природы в среде EXCEL | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 января, печатный экземпляр отправим 8 января.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №12 (116) июнь-2 2016 г.

Дата публикации: 10.06.2016

Статья просмотрена: 284 раза

Библиографическое описание:

Степаненко, А. А. Разработка программных модулей обработки многомерных данных различной природы в среде EXCEL / А. А. Степаненко. — Текст : непосредственный // Молодой ученый. — 2016. — № 12 (116). — С. 180-185. — URL: https://moluch.ru/archive/116/31444/ (дата обращения: 22.12.2024).



В настоящее время актуальной является проблема обработки многомерных данных различной природы, характеризующих различные социально-экономическиеиполитические процессы в обществе. Проблема исследователя заключается в поиске доступных инструментальных методик, автоматизирующих процесс обработки и мониторинга больших объемов статистических данных. Огромный дефицит таких средств и высокая цена на рынке способствует развитию отечественных методик и инструментальных средств обработки таких данных. В рамках исследования, направленного на разработку доступных инструментальных методов обработки и мониторинга многомерных статистических данных различной природы в среде EXCEL, была разработана инструментальная методика, позволяющая проводить мониторинг календарного графика сбора данных с построением частотного ряда по заданным временным периодам для трех типов данных (числовых простых, простых текстовых и составных текстовых) и определением границ длины ряда для числовых простых.

Ключевые слова: алгоритмы, обработка данных, мониторинг, статистика, Excel, макрос, диаграмма, частотный ряд, анкетный опрос

В настоящее время в любой сфере государственного управления и бизнеса для повышения уровня стратегического управления решениями требуется полезная, реалистичная и качественная информация, направленная на решения задач устойчивого социально-экономического развития государства. Одним из источников полезной социально-экономической информации являются данные анкетных опросов различных групп общества. Многократное анкетирование позволяет получать динамические статистические представления состояния исследуемых групп общества, их мнений касательно изучаемого вопроса. Систематического сбор, мониторинг и обработка такой информации позволяет спрогнозировать возможные риски, а также улучшить процесс принятия решений, предотвращающих социальную политическую и прочую напряжённости в обществе.

Проблема исследователя заключается в том, что объем и характер таких данных можно обработать только техническими и инструментальными средствами. Присутствующие же на рынке статистические инструменты по обработке такой информации не обеспечивают решение всего спектра задач анализа анкетных данных. В основном применение данных средств ограниченно рамками классических статистических методов анализа данных числовой природы. Кроме того, отечественный рынок сталкивается с огромным дефицитом таких средств, а существующие зарубежные инструменты требуют значительных денежных затрат и времени для их освоения. Поэтому выбор среды для разработки статистического инструмента определялся в первую очередь своей доступностью, популярностью, простотой использования и гибкостью настройки. Microsoft Excel очень хорошо подходит под эти требования.

В представленной статье авторами рассматривается разработанный алгоритм мониторинга и анализа данных признаков различной природы. Представленный алгоритм реализован в виде технического средства, являющегося надстройкой к EXCEL и предназначенного для обработки данных, собираемых с помощью анкетных форм. Данная надстройка была разработана при учете требований, предъявляемых ранее разработанным на базе ВГУЭС комплексом программ обработки и анализа анкетных данных Мартышенко С. Н. [2].

Рассмотрим постановку задачи по разработке программного средства обработки и анализа многомерных данных при мониторинге в анкетных опросах. Прежде всего, необходимо проанализировать процесс сбора данных при мониторинговых исследованиях и определить некоторые понятия, связанные с ним.

Главной особенностью сбора данных при мониторинговых исследованиях является то, что в каждой анкете должна быть указана дата сбора данных, которая при компьютерной обработке заносится в отдельный столбец таблицы данных.

Чаще всего анкетные данные собираются с использованием бумажного носителя, а затем уже вводятся в компьютер для обработки. В реальных исследованиях ежегодно по одной анкете может опрашиваться значительное количество респондентов. Сбор данных осуществляется в течение некоторого временного периода. В сборе данных может быть задействовано много технических работников, которые непосредственно контактируют с респондентами. Данные для ввода в компьютер от работников, осуществляющих сбор анкетных данных, поступают неравномерно. Каждая анкета должна иметь свой уникальный номер. По этому номеру можно идентифицировать анкету. После ввода в компьютер все данные собираются в единую таблицу, в которой данные упорядочиваются не по дате сбора данных, а по номеру анкеты. Это удобно для сверки компьютерных данных с оригиналом на бумажном носителе при выявлении ошибок. Данные на бумажном носителе сохраняются на весь период, пока существует перспектива сбора данных по данной анкете.

Следует различать понятия «периоды сбора данных» и периоды, на которые распространяются полученные оценки состояния системы — «периоды оценки состояния системы». В большинстве случаев, оценки распространяются на календарный год, но могут быть назначены и другие временные рамки.

Будем считать, что в конечном итоге будет сформирована некоторая таблица EXCEL, данные которой и нужно обработать. Разработанный программный комплекс требует, чтобы «Лист EXCEL», где располагается таблица «объект-свойство», имел название «Данные». Никаких прочих данных или расчетов на листе «Данные» быть не должно, кроме данных таблицы «объект-свойство» [1,5].

Для описания основных пользовательских требований была разработана диаграмма вариантов использования (рис. 1).

Рис. 1. Диаграмма использования (use–case) приложения

Алгоритм подразумевает два основных сценария использования, представленных двумя макросами, реализованными в VBA Excel. Взаимосвязь между интерфейсами и главным модулем, объединяющим основные функции и процедуры программы, представлена на диаграмме классов (рис. 2).

Рис. 2. Диаграмма классов приложения

Первый макрос позволяет выполнить расчет таблицы календарного графика сбора данных, которая представляет собой мониторинг частоты сбора анкетных данных в заданном диапазоне дат с разбивкой по периодам. В рамках функционирования данного макроса была автоматизирована возможность графического представления расчета. Для выполнения мониторинга пользователю необходимо задать столбец диапазона дат, затем указать начальную и конечную дату диапазона, шаг разбивки диапазона на интервал, а также определить курсором место для размещения результата. Для выбора даты была разработана форма «Выбор даты», инициализируемая по кнопке «Выбрать» (рис. 3).

Рис. 3. Форма «Выбор даты»

При этом разбивку исследуемого диапазона можно осуществлять с интервалом длиной в неделю, месяц, квартал или год. Анализ графика процесса сбора данных по анкетному опросу позволяет спланировать работу по решению задач мониторинга исследуемого процесса или явления, также график отражает информацию о том, каким статистическим материалом располагает исследователь к моменту решения задач мониторинга [2,3,4].

Второй макрос позволяет проводить мониторинг частотных рядов по периодам, которые задаются таблицей соответствия «период-дата» [1,5]. Задать таблицу соответствия «период-дата» можно воспользовавшись расчетами, выполненными первым макросом. Также для выполнения расчета необходимо задать столбец дат, столбец данных, тип данных и место для размещения результата.

Часто при мониторинге необходимо построить серию частотных рядов не по всем данным, а по данным, отвечающим определенным условиям для некоторой группы респондентов. Для определения условий, описывающих такую группу была разработана кнопка «Установить/снять автофильтр на таблицу данных». По этой команде происходит обращение к системному диалоговому окну EXCEL «Пользовательский автофильтр» (рис. 4).

Рис. 4. Вызов диалогового окна EXCEL «Пользовательский автофильтр»

Анализируемые данные можно разделить на три типа: числовые, текстовые и составные текстовые, разработка алгоритма для каждого типа данных имеет особенности [3]. В отличие от алгоритма анализа простых текстовых, для составных текстовых данных необходимо задать маску, по которой происходит разбивка составного признака на несколько простых признаков. При этом частотный ряд для двух видов текстовых данных представляет собой таблицу частоты повторения признаков в анализируемых периодах. Для числовых данных, кроме таблицы частоты повторения признака строится также и вариационный ряд с определенными предельными параметрами, которые пользователь задает на специально разработанной форме «Установить параметры для числового ряда» (рис. 5).

Рис. 5. Форма «Установить параметры для числового ряда»

Рассмотрим возможности, предоставляемые пользователю при установке данных параметров:

– параметр «Граница допустимого минимального значения» определяет нижнюю границу вариационного ряда, при этом по умолчанию значение устанавливается равное нулю;

– параметр «Граница допустимого максимального значения» определяет верхнюю границу вариационного ряда, за которой находятся предполагаемые выбросы.

– параметр «Процент значимости» определяет процент ответов в границе допустимого максимального значения (по умолчанию значение устанавливается равное 95 %);

– параметр «Шаг» определяет разницу между верхней и нижней границами интервалов. По умолчанию значение устанавливается равное единице;

– параметр «Результаты разместить» определяет ячейку листа EXCEL, выбранную для размещения результатов.

Также имеется возможность построить диаграмму вариационного ряда, если будет выбран элемент «Строить график».

Значения характеристик выборки без учета выбросов и с учетом выбросов существенно отличаются, поэтому разработанная технология позволяет существенно повысить точность результатов и также существенно сократить время расчета частотных рядов признаков при мониторинговых исследованиях.

Подводя итоги исследования, направленного на разработку доступных инструментальных методов обработки и мониторинга многомерных статистических данных различной природы, была разработана инструментальная методика, позволяющая проводить мониторинг календарного графика сбора данных и рассчитывать частотный ряд по временным периодам для трех типов данных, а именно числовых простых, простых текстовых и составных текстовых. Так же был разработан инструментарий, позволяющий задать ограничения при построении вариационного ряда для числовых данных.

Проведение мониторинга социально-экономических явлений в обществе с помощью разработанной технологии позволяет автоматизировать процесс анализа исследуемых явлений средствами Microsoft Excel всем участникам стратегического управления решениями в любой сфере государственного управления и бизнеса.

Литература:

1. Мартышенко Н. С., Мартышенко С. Н. Современные тенденции изменения структуры времяпрепровождения студентов // Социально-экономические явления и процессы. — 2013. — № 1. С. 112–116.

2. Мартышенко Н. С., Мартышенко С. Н. Технологии повышения качества данных в анкетном опросе // Практический маркетинг. — 2008. — № 1. С. 8–13.

3. Мартышенко С. Н. Анализ данных мониторинга социально-экономических процессов в муниципальных образованиях // Информационные технологии моделирования и управления. — 2012. — № 6 (78). — С. 506–512.

4. Мартышенко С. Н. Методическое обеспечение анализа данных мониторинга социально-экономических процессов в муниципальных образованиях // Экономика и менеджмент систем управления. 2012. — Т. 6. — № 4.2. — С. 259–267.

5. Мартышенко С. Н., Мартышенко Н. С., Кустов Д. А. Цензурирование при обработке анкетных данных // Известия высших учебных заведений. Поволжский регион. — 2006. — № 6(27). — С. 170–177.

Основные термины (генерируются автоматически): EXCEL, данные, вариационный ряд, различная природа, тип данных, частотный ряд, бумажный носитель, календарный график сбора данных, мониторинг, сбор данных.


Похожие статьи

Алгоритм многокритериальной оценки технологий заготовки кормов из трав

В статье представлена многокритериальная система оценки технологий заготовки кормов из трав. В основу разработанной оценочной системы заложены принципы сравнения и классификации многопризнаковых объектов по их свойствам, где большое число выходных по...

Современные компьютерные моделирующие системы подготовки газа и газового конденсата

Проектирование основных технологических процессов подготовки природного углеводородного сырья и оптимальная эксплуатация действующих производств невозможна без применения моделирующих программ. Данные программы имеют достаточно высокую точность описа...

Комбинированный метод оценки зрелости системы менеджмента информационной безопасности с применением модели CMMI

Настоящая статья посвящена рассмотрению вопроса об оценке состоятельности системы менеджмента информационной безопасности (далее — СМИБ) на предприятиях. Предложен метод оценки, имеющий количественные и качественные показатели зрелости процессов, что...

Методы идентификации теплофизических параметров композитных материалов

Для автоматизированного проектирования изделий, изготовленных из композиционных материалов, в соответствии с требованиями технического задания и условиями эксплуатации, важно иметь в базе данных значения определённых теплофизических характеристик исп...

Исследование и сравнительный анализ работы нейронных сетей для решения проблемы метеопрогноза

В данной статье исследованы математические модели построения метеопрогноза, основанные на работе нейронных сетей, которые позволяют вычислить предположительные метеопараметры искомой местности на основе предыдущих метеоданных. Предложен новый метод г...

Обобщенный анализ методов проектирования и разработки автоматизированного составления расписания образовательных учреждений

В современном мире все чаще возникает проблема разработки программных средств автоматизированного расписания. Для решения этой задачи были проанализированы существующие методы составления расписания с возможностью полной автоматизации большого объема...

Разработка компьютерной модели сверхширокополосного канала связи

В статье уделяется внимание разработке компьютерной модели сверхширокополосного канала связи. В данной работе были проведены исследования метода классификации Random Forest для обнаружения аномалий в сетевом трафике сверхширокополосного канала связи....

Роль проблемно-ориентированных информационных систем для поддержки принятия решения в современной эхокардиографической диагностике

В статье речь идет о возможности повышения эффективности эхокардиографической диагностики путем разработки и внедрения проблемно-ориентированной информационной системы для поддержки принятия решения и прогнозирования. Достичь этого можно применением ...

Математическая модель ввода экономически перспективных структур углеводородов в условиях неопределенности

Азербайджан, обладающий глубоким нравственным, культурным, научно-экономическим потенциалом, имеющий выгодное географическое и политическое положение, в то же время богат природными ресурсами, где главное место занимает нефть. Первоочередная задача д...

Современные подходы к цифровизации управления персоналом в организациях связи

В современной экономике на фоне цифровизации всех управленческих и производственных процессов внедрение информационных технологий в управление персоналом является одним из важных условий повышения его финансовой устойчивости. Главный результат цифров...

Похожие статьи

Алгоритм многокритериальной оценки технологий заготовки кормов из трав

В статье представлена многокритериальная система оценки технологий заготовки кормов из трав. В основу разработанной оценочной системы заложены принципы сравнения и классификации многопризнаковых объектов по их свойствам, где большое число выходных по...

Современные компьютерные моделирующие системы подготовки газа и газового конденсата

Проектирование основных технологических процессов подготовки природного углеводородного сырья и оптимальная эксплуатация действующих производств невозможна без применения моделирующих программ. Данные программы имеют достаточно высокую точность описа...

Комбинированный метод оценки зрелости системы менеджмента информационной безопасности с применением модели CMMI

Настоящая статья посвящена рассмотрению вопроса об оценке состоятельности системы менеджмента информационной безопасности (далее — СМИБ) на предприятиях. Предложен метод оценки, имеющий количественные и качественные показатели зрелости процессов, что...

Методы идентификации теплофизических параметров композитных материалов

Для автоматизированного проектирования изделий, изготовленных из композиционных материалов, в соответствии с требованиями технического задания и условиями эксплуатации, важно иметь в базе данных значения определённых теплофизических характеристик исп...

Исследование и сравнительный анализ работы нейронных сетей для решения проблемы метеопрогноза

В данной статье исследованы математические модели построения метеопрогноза, основанные на работе нейронных сетей, которые позволяют вычислить предположительные метеопараметры искомой местности на основе предыдущих метеоданных. Предложен новый метод г...

Обобщенный анализ методов проектирования и разработки автоматизированного составления расписания образовательных учреждений

В современном мире все чаще возникает проблема разработки программных средств автоматизированного расписания. Для решения этой задачи были проанализированы существующие методы составления расписания с возможностью полной автоматизации большого объема...

Разработка компьютерной модели сверхширокополосного канала связи

В статье уделяется внимание разработке компьютерной модели сверхширокополосного канала связи. В данной работе были проведены исследования метода классификации Random Forest для обнаружения аномалий в сетевом трафике сверхширокополосного канала связи....

Роль проблемно-ориентированных информационных систем для поддержки принятия решения в современной эхокардиографической диагностике

В статье речь идет о возможности повышения эффективности эхокардиографической диагностики путем разработки и внедрения проблемно-ориентированной информационной системы для поддержки принятия решения и прогнозирования. Достичь этого можно применением ...

Математическая модель ввода экономически перспективных структур углеводородов в условиях неопределенности

Азербайджан, обладающий глубоким нравственным, культурным, научно-экономическим потенциалом, имеющий выгодное географическое и политическое положение, в то же время богат природными ресурсами, где главное место занимает нефть. Первоочередная задача д...

Современные подходы к цифровизации управления персоналом в организациях связи

В современной экономике на фоне цифровизации всех управленческих и производственных процессов внедрение информационных технологий в управление персоналом является одним из важных условий повышения его финансовой устойчивости. Главный результат цифров...

Задать вопрос