Анализ и обработка данных
Авторы: Проданов Николай Иванович, Погуда Алексей Андреевич
Рубрика: 4. Информатика
Опубликовано в
XLI международная научная конференция «Исследования молодых ученых» (Казань, июнь 2022)
Дата публикации: 09.06.2022
Статья просмотрена: 41 раз
Библиографическое описание:
Проданов, Н. И. Анализ и обработка данных / Н. И. Проданов, А. А. Погуда. — Текст : непосредственный // Исследования молодых ученых : материалы XLI Междунар. науч. конф. (г. Казань, июнь 2022 г.). — Казань : Молодой ученый, 2022. — С. 18-23. — URL: https://moluch.ru/conf/stud/archive/451/17284/ (дата обращения: 16.12.2024).
This article is devoted to the study of tools for data analysis and processing. An approach to increase indicators in the medical industry when working on Teradata is considered. Increasing the speed of information processing and making operational diagnoses thanks to the work of the healthcare system on Teradata.
Вопросами выявления особенностей в Big data занимаются многие исследователи. Популярность в изучении больших данных появилась уже в начале 2010 г., но самый большой вектор развития выпал на 2020–2020 годы. Современный человек в последнее время не может представить своего дня, чтобы не выложить в открытую сеть интернет: фотографии, посты и видео. При этом машины генерируют информации еще больше, виной всего стали смартфоны, компьютеры и уже на сегодняшний день они создают более 80 % новых данных. В 2018 году вес данных по миру составлял 33 млрд Тб, а к 2025 году прогнозируется до 175 млрд Тб. В связи с большим ростом данных их необходимо анализировать и изучать. Необходимо одновременно смотреть, как происходит изменение температуры по всему Земному шару или как происходило уменьшение водных ресурсов на территории планеты за последние 50 лет.
Большие данные стали увеличивать свои характеристики по мере их изучения и последующего эксплуатирования к уже привычным признакам: огромные объемы, скорость анализа данных, разнообразие. Добавляют достоверность и ценность. Тот, кто уже сейчас научится хранить и обрабатывать большие объемы данных, всегда будет иметь конкурентное преимущество на финансовом рынке. Все ближе становится будущее, в котором анализ больших данных позволит разобраться, как распределить запасы еды, энергии и медикаментов на уровне городов, стран или даже целой планеты. Углубленное изучение уже сейчас помогает бороться с преступностью, и первые шаги предпринимаются в США. На основании исторических данных об угонах, специалисты отдела аналитики предсказывают в каком районе произойдут новые происшествия и посылают в такие районы большее количество патрульных.
В 2019 году весь мир столкнулся с пандемией COVID-19, таких мировых потрясений не было более 75 лет. В XXI веке — это первая эпидемия, которая так сильно повлияла на жизненный цикл людей по всей планете. Во многих странах впервые столкнулись с таким большим количеством заболевших, а главное смертности. Медицинские учреждения были переполнены и в ряде организаций отсутствовал структурированный порядок действий в подобных ситуациях. Врачи столкнулись с новым заболеванием, не понимая какими методами лечить, а главное спасать население. Для формирования процесса грамотного лечения необходимо было понимать первичные симптомы такие как: возраст, пол, хронические заболевания, дата заболевания. Те организации, которые уже использовали в своей работе Big data намного быстрее и успешнее боролись с заболеванием. Благодаря специалистам из профиля Big Data были сформированы СУБД, которые помогали врачам отследить протекание болезни и какое лекарство лучше влияло при терапии. Опора на искусственный интеллект помогла значительно снизиться количество смертей, так как сократилось время на принятие решений.
Big Data в медицине могла бы существенно расширить горизонты в работе с секторами здравоохранения и облегчить работу рядового специалиста. На более высоких уровнях управления можно производить восполнения специалистов в тех местах где это необходимо, путем грамотного распределения из выгрузок по медицинским учреждениям. Только за последние 2 года по всему миру были увеличены расходы на здравоохранение, в Германии и США расходы достигли более 15 % ВВП. При этом нету прямой зависимости, от увеличения средств — качество оказываемых услуг лучше не становилось, продолжительность жизни не увеличивалось, а оказание медицинской помощи растягивалось по срокам и приводило к критическим последствиям.
В ходе проведения исследований по Big data было выявлено, что не все СУБД походят к работе с медицинскими учреждениям. Мобильнее всех себя показала Teradata. Связана эта мобильность с возможностью хранения максимального большого количества данных. Стоит понимать, что строки имеют ограничения в 64К символов, а на хранение данных в UNICODE требуется в 2 раза больше дискового пространства. В свою очередь Taradata хранит дату в виде INTEGER, формула приведения даты к числу следующая: (год-1900)*10000+месяц*100+день. Также надо учесть, что неявные преобразования, вызванные различием в типах полей, по которым осуществляется соединение, ведет к дополнительному снижению производительности. Понимания области памяти в Teradata области разделяется на три типа, чем значительно облегчает работу с базами данных. Первым типом является Permanent space, который в свою очередь включает в себя: базы данных, пользователи, таблицы, представления, индексы, процедуры, журналы. В отличие от других баз данных Teradata не выделяет место объекту в момент его создания для каждой базы или пользователя определяется свой максимально возможный объем байт которые могут занимать их объекты — это Maper. Весь объем Permanent space делится между AMP системы тем самым каждый АРМ обладает информацией о доступном для каждой базы пространстве. Объем занимаемого пространства увеличивается по мере созданию объектов в базе данных. Занятое пространство занимается CurrentPern. Spool и Temporary space — это временные пространства. В свою очередь Spool Space используют для создания файлов содержащие промежуточные или результирующие наборы данные. Для создания файлов система использует те цилиндры дисков, которые не заняты постоянными или временными данными. MaxSpool это максимальное возможное количество байт которую система выделит для создания spool файлов пользователя. CurrentSpool — это количество байт в данный момент выделенных для активных сессий. PeakSpool — наибольшее количество байт когда либо использованных данных для транзакции Temporary Space предназначен для хранения глобальных временных таблиц такие таблицы доступны множеству пользователей и после сессии автоматически очищаются.
Teradata — показала, что прекрасно формируют медицинские данные, которые в дальнейшем могут использовать врачи в своей работе.
Статья отражает результаты исследования, целью которого является повышение эффективности глобально обработки данных. Предложенный подход предоставляет целый спектр возможностей глобальной обработки и работы с данными. При внедрении работы медицинских организаций на Teradata увеличится обработка информации на 20 %.
Необходимо наращивать исследования в области слабоструктурированных баз данных и расширять стандарты при работе с микроразметками, все эти исследования несут в себе огромный потенциал для реализации не только на Российском рынке, но и на мировом. Исследования помогут обойти накладываемые санкции на финансовый сектор экономики. Данные решения применены для ведущих финансовых организаций, которые заинтересованы в своем лице снизить технологические издержки и внедрить передовые технологии в своей работе.
Литература:
1. Алгоритмическое и программное обеспечение для анализа тональности текстовых сообщений с использованием машинного обучения / Юсупова Н. И., Богданова Д. Р., Бойко М. В. // Вестник Уфимского государственного авиационного технического университета. — 2012. — Т. 16, № 6 (51). — С. 91–99.
2. Вопросы обработки текстовой информации в рамках организации информационной поддержки принятия решений при управлении образовательным маршрутом с учетом академической мобильности студента / Юсупова Н. И., Сметанина О. Н., Климова А. В. // Новые информационные технологии в исследовании сложных структур: Труды 11 Международной конференции. — Томск: Издат. дом Томского гос. университета, 2016. — С. 21.
3. Интеграция и управление организационными системами с использованием онтологий / А. Ф. Галямов, О. Х. Бостонов // Вестник Воронежского государственного технического университета. Серия «Проблемно-ориентированные системы управления». — 2012. — № 2. — С. 9–12.
4. Математическое обеспечение для поддержки принятия решений при управлении качеством продукции на основе анализа текстовой информации / Юсупова Н. И., Богданова Д. Р., Бойко М. В. // Современные проблемы науки и образования. — 2014. — № 3.; UrL: https://science-education. ru/ru/article/view?id=13024.
5. Модели и программный комплекс для реализации информационного поиска при поддержке управленческих решений / Юсупова Н. И., Сметанина О. Н., Ясинецкий С. П., Климова А. В. // Современные проблемы науки и образования. — 2014. — № 1; UrL: http://www.science-education.ru/11511955 (дата обращения: 04.02.2014).
6. Модели представления знаний для поддержки принятия решений при управлении сложными системами в условиях неопределённости и ресурсных ограничений (статья) / Н. И. Юсупова, Д. А. Ризванов, К. Р. Еникеева, О. Н. Сметанина // Информационные технологии интеллектуальной поддержки решений: Труды Междунар. конф. — Уфа, Изд-во Уфимского гос. авиац. техн. ун-та, 2016. — Т. 2. — С. 24–27.
7. Обработка слабоструктурированной информации на основе методов искусственного интеллекта / Н. И. Юсупова, Д. Р. Богданова, М. В. Бойко — М.: «Издание «Инновационное машиностроение», 2016.
8. Администрирование баз данных Oracle в операционной системе UNIX. — М.: СПб: ЦКТиП Газпром, 2020. — 300 c.