В статье рассматриваются основные аспекты, получившего широкое распространение в последнее время, феномена больших данных. Отдельное внимание уделено науке о данных, появление которой явилось следствием геометрического роста информации в современном и мире и технологий ее обработки. Также рассмотрены особенности и специфика новой профессии — инженер, работающий с данными. Особый акцент сделан на перспективах и возможностях использования в современном мире машинного обучения.
Ключевые слова: большие данные, наука о данных, машинное обучение, искусственные нейронные сети.
Современный мир в эпоху информатизации и глобализации развивается стремительными темпами, поток данных и их количество увеличивается в геометрической прогрессии. Все это приводит к возникновению нового феномена, получившего в науке и практике название «большие данные».
Большие данные (Big Data) — таким термином принято обозначать совокупность различных методов, технологий для сбора, обработки неструктурированных и структурированных массивов данных значительного размера. Буквально несколько лет назад Big Data представляло собой инновационное направление, которое использовалось только в сфере высоких технологий. На сегодняшний день большие данные получили широкое развитие во всех сферах и областях человеческой жизни, встречаются и находят свое применение как в коммерческих, так и некоммерческих средах [1, с. 34].
Для сбора и обработки больших данных разработаны специальные программные комплексы и технологии. Более того, создаются и успешно работают компании, которые собирают и продают данные — все это уже стало частью современного бизнеса. Широкое использование Big Data привело к возникновению нового течения — науки о данных (Data Science). В настоящее время многие крупные корпорации применяют Data Science, чтобы произвести хорошее впечатление на своих клиентов, предоставляя персональные предложения. В качестве яркого примера можно привести сервис Google AdSense, который собирает информацию о пользователях для показа контекстной рекламы [2, с. 19].
Очевидно, что наука о данных породила спрос на новые профессии в данной сфере, одной из которых является Data Scientist. Data Scientist — инженер, работающий с данными, обладающий навыками математика, программиста и аналитика. Data Science в последние годы можно назвать профессией, которая находится в мейнстриме науки и техники. Специалисты, которые хорошо владеют математическим аппаратом, ориентируются в сфере программирования — очень востребованы на рынке труда.
Рассматривая более подробно особенности данной профессии, можно отметить следующее. Data Scientist — это специалист, неразрывно работающий с математикой, будь то математическая статистика, теория вероятностей или линейная алгебра. Плюс ко всему, эти знания нужно уметь применять, используя те или иные программные средства — во многом это и отличает математика от специалиста по работе с данными. Data Scientist также может работать в сфере машинного обучения.
Обобщая вышеизложенное, следует отметить, что инженер, работающий с данными, это специалист, который охватывает множество направлений в сфере информационных технологий, в том числе, аналитику, бизнес-аналитику, машинное обучение и многое другое. При этом каждое из этих направлений может представлять собой и отдельную профессиональную сферу Data Sceince.
В процессе исследования особенностей Big Data и перспектив развития Data Science, особый акцент по мнению автора, необходимо сделать на такой сфере как машинное обучение. Суть машинного обучения сводится к извлечению знаний из данных. Это научная область, которая находится на пересечении математической статистики, искусственного интеллекта и компьютерных наук, и также известная как прогнозная аналитика или статистическое обучение [3, с. 13].
Машинное обучение с точки зрения программирования — это обучение определенной компьютерной модели каким-либо действиям. В общем смысле это алгоритмы обучения с учителем — системе на вход подается некоторый набор данных и информация о том, что необходимо получить на выходе. Если же в структуре этой модели лежит многослойная искусственная нейронная сеть — речь идет о глубоком машинном обучении. Под искусственной нейронной сетью обычно понимают математическую модель, способную обучаться и решать поставленные перед ней задачи [4, с. 82].
Приведем несколько примеров задач, которые могут быть решены с помощью алгоритмов машинного обучения с учителем:
– определение почтового индекса по рукописным цифрам на конверте;
– нахождение доброкачественности опухоли на основе медицинских изображений;
– обнаружение мошеннической деятельности в сделках по кредитным картам [3, с. 15];
– прогнозирование отказов высокотехнологичного и сложного промышленного оборудования;
– идентификация и распознавание изображений, полученных беспилотными летательными аппаратами.
Подводя итоги проведенного исследования, можно сделать следующие выводы. Появление большого количества данных в цифровом формате, технологий их хранения и вычисления, математических инструментов анализа приводит к трансформации бизнес-процессов. Очевидно, что одновременно со стремительным накоплением информации быстрыми темпами развиваются и технологии их анализа, также возникают новые направления в исследовательской плоскости, такие, например, как наука о данных (Data Science). Data Science представляет собой достаточно обширную сферу, включающую в себя десятки видов деятельности, способную решать огромное количество задач. Именно этот факт делает науку о данных важной для современного мира.
Перспективы дальнейших исследований связаны не только с рисками и сложностями применения Big Data, но и с поиском инсайтов, которые могут создать добавленную ценность для компаний или полезные сервисы для граждан.
Литература:
1. Lee R. Big Data, Cloud Computing, and Data Science Engineering. — Cham: Springer. — 2020. — 214 p.
2. Силен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и наука о данных. — СПб.: Питер. — 2017. — 336 с.
3. Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными. — М.: Вильямс. — 2017. — 393 с.
4. Cheng Q., Li H., Wu Q., Ngan K. Hybrid-Loss Supervision for Deep Neural Network. — Neurocomputing. — 2020. — Vol. 388. — P. 78–89.