Технологии обработки больших данных

Самойлова Ирина Алексеевна

Одно из стремительно развивающихся направлений IT-технологий — это большие данные — Big Data. И если само понятие возникло сравнительно давно, то понимание что это такое оформилось недавно. Оказалось, это не объёмы хранимых данных, точнее не только объемы. Это не те данные, с которыми привык работать опытный аналитик. Они скорее всего не будут вписываться в строки и столбцы таблицы Excel или строки таблицы реляционной базы данных. И они, вероятно, не будут помещаться на жесткий диск обычного компьютера.

Основным способом описания больших данных является аббревиатура 3 V — volume, velocity, variety (рис. 1). Это определение из статьи, написанной Дугом Лани в 2001 году [1].

Рис.1. The 3 Vs of Big Data

Volume. В самом простом определении большие данные — это данные, которые слишком велики для работы на компьютере. Однако данное определение — относительное, поскольку то, что является большим для одной системы, может быть пустяком для другой системы в другое время. Это закон Мура — хорошо известное наблюдение в области информатики о том, что физическая емкость и производительность компьютеров удваиваются каждые два года. То, что занимало весь диск компьютера 10 лет назад легко помещается на флэшку сейчас. С другой стороны, размеры файла с современной кинокамеры достигают до 18 гигабайт в минуту и эти объемы проблема для обычного компьютера.

Velocity. Скорость обработки тоже относительное понятие. Есть научные исследования, которые получают в течении продолжительных исследований, а затем заносятся и не меняются годами, но есть и другие данные, например, сообщения в социальных сетях — это десятки и сотни миллионов строк в день. Даже съем данных температуры с прибора учета каждую миллисекунду приведет к большому потоку изменяемых данных, которые нужно успевать обработать в реальном времени.

Variety. Первых два V это по сути обычные современные большие базы данных или Data Warehouse. И обработка таких данных уже традиционные и привычные технологии. Проблема возникает при добавлении третьей V — Разнообразия данных. Здесь речь идет не только о строках и столбцах хорошо отформатированных данных. У вас может быть неструктурированный текст, например, книги и сообщения в блогах, а также комментарии к новостям и твитам. Исследования оценили, что 80 процентов корпоративных данных могут быть неструктурированными. Сюда также могут входить фотографии, видео и аудио. Недавнее исследование компании Forrester Research показывает, что разнообразие является важнейшим фактором для создания технологии Big Data. Фактически, при разговоре о Big Data, разнообразие упоминается в четыре раза чаще, чем объем данных или скорость.

Необходимость обработки больших данных привело к развитию новых технологий.

Хранение и обработка данных происходит в огромных кластерах объединенных вместе компьютеров. Такие кластеры могут насчитывать тысячи и даже десятки тысяч узлов. Одна из самых распространённых в настоящее время технологий — фреймворк Hadoop — проект фонда Apache Software Foundation. На этой технологии работают, например, Yahoo! и Facebook. Такие кластеры легко наращиваются (масштабирование вширь), позволяя решить проблему объемов хранения и увеличения вычислительных мощностей.

Проблема хранения неструктурированных данных решается при помощи хранения первичных данных в виде файлов в специальной распределенной файловой системе (например, HDFS) или не реляционных базах данных (например, древовидных или сетевых). Такое хранение данных еще называют noSQL базы данных. Для запросов к таким данным разработаны языки запросов доступа и поиска — noSQL языки запросов. Это быстро развивающееся направление обработки данных. Здесь постоянно идет исследование и доработка математического аппарата и моделей. Пока еще нет общих стандартов, они находятся на стадии наработок и обсуждений. Слишком разнообразны способы хранения и виды хранимой информации. Кроме того, здесь могут быть и реляционные данные. И если изначально noSQL расшифровывалось как — не SQL, то сейчас под этим термином подразумевают — не только SQL.

Еще одна проблема Big Data — преобразование данных. Для традиционных баз данных существует технология ETL. Один из основных процессов в управлении хранилищами данных, который включает в себя: извлечение данных из внешних источников; трансформация и проверка данных, чтобы они соответствовали потребностям бизнес-модели баз данных; загрузка их в хранилище данных. В Big Data изначально невозможно очистить, проверить и преобразовать данные, поэтому здесь применяется технология ELT. Данные извлекаются и загружаются все, а процесс трансформации и проверки на соответствие происходит при запросе к ним.

Еще одним большим пластом науки и технологии Big Data, является развитие семантических анализаторов (СА). СА пытается вытянуть информацию по запросу из различных текстов. Например, попробовать установить породу собаки из рассказа Му-Му. Для этого нужно не просто вытащить из этого текста описание собаки, но и найти справочники с описаниями пород и установить соответствие. Этот раздел науки находится в непрерывном развитии. В настоящее время такие анализаторы есть только для самых распространенных языков в мире. Для английского языка анализаторы наиболее отработаны. Достоверность их распознавания достигает 80–90 %, для русского 60–70 %. Ученые говорят, что необходимо достижение рубежа распознавания в 1–2 % ошибочной информации.

Еще Big Data активно использует самообучающиеся автоматы — программы, которые в ходе своей работы на основе множественных данных учатся составлять оптимальные алгоритмы поиска и нахождения решения. После определенного времени работы такой программы, даже ее разработчику почти невозможно разобрать как достигнуто программой то или иное конечное решение.

Что может Big Data? Очень многое. Например, попросить вас заполнить анкету с вопросами, а потом выдать вашу родословную. Или просканировать картинку и найти книгу, по мотивам которой она была нарисована. Или ситуация, когда вы идете по улице с девушкой, а вам приходит СМС, что у вашей девушки завтра день рождение. А в магазине, который вы сейчас проходите, есть вещь, которую она очень хочет получить в подарок. Тоже фантастика? Но это уже есть и это уже работает! Америка в этом отношении наиболее продвинута и там это внедрено во многих сферах, особенно в рекламе и торговле [2].

Есть область Big Data, с которой столкнулись почти все. И почти все не знают, что это результат ее работы. Вы работаете на компьютере дома, вы ищите какой-то товар? Через какое-то время любые страницы начинают вам предлагать подобный товар. Но потом будет еще интересней — вы приходите на работу, включаете компьютер и там тоже вам начинают предлагать похожие товары. Как это работает? Большинство поисковиков собирают о вас данные! Google или Yandex собирают до 1500 различных данных о пользователе, о его языке, расположении, предпочтениях… Среди своей базы рекламодателей, они находят то, что заинтересует вас с большой долей вероятности.

Следующий шаг в развитии больших данных — определение ваших даже неосознанных желаний. Сейчас создаются программы, которые анализируют, где чаще всего на экране находился товар, который вы купили. Какого цвета была кнопка «купить», которую вы нажали и т. д. Многим кажется нечестным и опасным такой сбор личной информации без согласия человека и многие страны уже поставили вопрос о разработке законов о защите личной информации. Но возможности данной технологии потрясающие. По биоритмам с электронных браслетов программы могут прогнозировать, допустим, наступление эпидемии гриппа в регионе и потребности новых лекарств именно там.

Где еще может работать Big Data? Практически везде. По анализу разрозненного документооборота она поможет вычислить уклоняющихся от налогов людей, найти вам работу или вторую половину, спрогнозировать ваше здоровье и направить в больницу, проконтролировать действия вашего лечащего врача.

Почему этого всего еще нет? Big Data пока еще очень дорогая и новая технология. Средняя стоимость проекта около 8 миллионов долларов, а чаще это десятки и сотни миллионов долларов. Малые и средние предприятия, а зачастую и государства, пока не могут себе этого позволить. Но технология развивается и дешевеет, и она несомненно будет распространятся все больше, пока на смену не придет что-то еще более мощное и современное.

Литература:

Laney D. 3D Data Management: Controlling Data Volume, Velocity, and Variety. META group Inc., 2001.
Фрэнк Б. Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики: Альпина Паблишер — 2017, 320 с.

Молодой учёный

Технологии обработки больших данных

Технологии обработки больших данных

Молодой учёный