Рост количества информации спровоцировал появление новых технологий и методов для обработки данных.
Ключевые слова: Большие Данные, информация, анализ.
Определение BigData
Под терминами «BigData», «Большие данные» или просто «биг дата» скрывается огромный набор информации, чьи масштабы, разнообразие и сложность которого требует новых архитектуры, методов, алгоритмов и средств анализов для управления ею. Так как объем информации столь велик, что обработка больших объемов данных стандартными программными и аппаратными средствами представляется крайне сложной. [1]
Вообще данное направление достаточно новое и далеко не все понимают смысл термина BigData. Так же пока не существует точного определения данного термина. При этом необходимость в нем увеличивается с каждым годом с ростом информации.
Главная задача BigData — способность обрабатывать большие объемы не структурированных данных и выдавать на их основе определенный прогноз.
Термин BigData появился сравнительно недавно. GoogleTrends показывает начало активного роста употребления словосочетания начиная с 2011 года.
Рис. 1. Рост популярности словосочетания BigData с 2011 г.
Как правило, когда говорят о термине «биг дата», то используют наиболее популярную характеристку четырех «V», что означает Volume — объем данных, Velocity — необходимость обрабатывать информацию с большой скоростью, Variety — многообразие и часто недостаточную структурированность данных и Veracity — качество и происхождение полученной информации. [2]
Сегодня восприятие информации меняется: из побочного продукта рабочих процессов информация становится фактором улучшения рыночной позиции в конкурентной среде. Центральную роль гарантии конкурентного преимущества играет скорость обработки и предоставления данных. С каждым годом объёмы информации, которой обмениваются предприятия и клиенты, растёт, и вопрос BigData встаёт всё острее. Для того чтобы справиться с огромным объёмом данных, необходимы новые решения, инвестировать в которые готова далеко не каждая компания. Во многих странах дальше интереса к «большим данным» дело не идёт, и инвестировать в них готовы на сегодня далеко не все, несмотря на то, что у некоторых компаний наблюдается неудовлетворенная потребность в разработке собственной стратегии управления данными.
Основными источниками BigData являются: Социальные сети и интернет (так как все мы производим информацию), научные инструменты (собирают все типы данных), мобильные устройства (постоянно отслеживают каждый объект), сенсорные технологии и сети (измеряют все виды информации).
Летом 2012 года было организовано исследование на тему востребованности решений по BigData в международных корпорациях. В опросе приняло участие 1 010 человек из Германии, Австрии и Швейцарии, а также из Франции, Испании, ЮАР, Бразилии, США и России. В целевую аудиторию вошли лица, принимающие решения в сфере ИТ, их помощники и опытные специалисты, сталкивающиеся с «большими данными» в своей работе. Исследование главным образом концентрировалось вокруг предприятий, имеющих дело с большими массивами данных. В связи с этим в основную фокус-группу вошли предприятия, занятые в промышленности (включая горное производство), торговле, коммуникационной сфере, банковском деле и страховании, услугах корпоративного уровня, а также в государственном секторе. [3]
Рис. 2: Необходимость действий и тренд BigData по странам
Согласно исследованию, неповоротливый государственный сектор и поставщики энергии и материальных ресурсов показывают высокую заинтересованность в BigData, тогда как компании с огромными базами данных из банковского и страхового секторов, как выясняется, весьма слабо представляют себе необходимость каких-то глобальных перемен в обработке данных.Впрочем, это может быть объяснено и тем, что банковский сектор имеет свою налаженную систему работы с клиентами, которая функционирует долгие годы, и руководители просто не видят необходимости что-то в ней менять. Однако это вовсе не значит, что в ближайшее время потребности в анализе больших данных у них не возникнет; это может произойти несколько позже. В банках, например, активно внедряются новые способы взаимодействия с клиентами (онлайн-консультации, социальные сети), а это приводит к увеличению получаемых данных, которые банку нужно как-то систематизировать и анализировать.
Исходя из определенияBigData, можно сформулировать основные принципы работы с такими данными:
- Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много — любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных — в 2 раза увеличили количество железа в кластере и всё продолжило работать.
- Отказоустойчивость. Принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, Hadoop-кластер Yahoo имеет более 42000. Это означает, что часть этих машин будет гарантированно выходить из строя. Методы работы с большими данными должны учитывать возможность таких сбоев и переживать их без каких-либо значимых последствий.
- Локальность данных.В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом — расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных — по возможности обрабатываем данные на той же машине, на которой их храним.
Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать — необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных.
Области применения Больших Данных
Ведущие наднациональные мировые структуры и транснациональные корпорации, правительства многих стран мира, бизнес самых различных масштабов, системы управления производственной и социальной инфраструктурой и, конечно же, военно-разведывательный комплекс всех основных стран мира уже используют Большие Данные как важнейший стратегический ресурс.
Ниже представлены несколько практических примеров внедрения технологий Больших Данных ведущими мировыми компаниями в различных областях деятельности.
HSBC использует технологии Больших Данных для противодействия мошеннических операций с пластиковыми картами. С помощью BigData компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов — в 10 раз. Экономический эффект от внедрения данных технологий превысил 10 млн долл. США.
Антифрод* VISA позволяет в автоматическом режиме вычислить операции мошеннического характера, система на данный момент помогает предотвратить мошеннические платежи на сумму 2 млрд долл. США ежегодно.
Суперкомпьютер Watson компании IBM анализирует в реальном времени поток данных по денежным транзакциям. По данным IBM, Watson на 15 % увеличил количество выявленных мошеннических операций, на 50 % сократил ложные срабатывания системы и на 60 % увеличил сумму денежных средств, защищенных от транзакций такого характера.
Procter&Gamble с помощью Больших Данных проектируют новые продукты и составляют глобальные маркетинговые кампании. P&G создал специализированные офисы BusinessSpheres, где можно просматривать информацию в реальном времени. Таким образом, у менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты. P&G считают, что Большие Данные помогают в прогнозировании деятельности компании.
По мнению Caterpillar, ее дистрибьюторы ежегодно упускают от 9 до 18 млрд долл. США прибыли только из-за того, что не внедряют технологии обработки Больших Данных. BigData позволили бы клиентам более эффективно управлять парком машин, за счет анализа информации, поступающей с датчиков, установленных на машинах. На сегодняшний день уже есть возможность анализировать состояние ключевых узлов, их степени износа, управлять затратами на топливо и техническое обслуживание.
Luxotticagroup является производителем спортивных очков, таким марок, как Ray-Ban, Persol и Oakley. Технологии Больших Данных компания применяет для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате BigDataLuxotticagroup выделила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10 %. [4]
Примеры использования Больших Данных вРК
Подобные решения, основанные на анализе Больших Данных, необходимо разрабатывать и внедрять в Республике Казахстан в различных секторах экономики. Для этого имеются все необходимые условия: накоплены огромные массивы структурированной и неструктурированной информации, подготовлена соответствующая инфраструктура.
Перечислим некоторые явные сценарии использования Больших Данных в нашей стране:
1) Энергетика-аналитические технологии Больших Данных способны на 99 % повысить точность распределения имеющихся мощностей электроэнергии и проанализировать где выгоднее закупать недостающую их часть.
2) Банковский сектор — Большие Данные способны решать практически все ключевые задачи банков: привлечение клиентов, повышение качества услуг, оценка заемщиков, противодействие мошенничеству, причем мошенничества по платежным транзакциям могут быть распознаны с применением технологий анализа Больших Данных в реальном режиме времени.
3) Страхование — использование технологий анализа Больших Данных для того, чтобы предугадывать нужды клиентов и создавать персонализированные сообщения.
4) Сельское хозяйство — измеряя физические характеристики полей и размечая данные о характеристиках почв с точностью до полуметра, зная данные о типах почв и предсказанном уровне осадков в каждой конкретной точке будут выработаны рекомендации, которые позволят выращивать больший урожай при тех же размерах полей, также рекомендации позволят распределять плотность посадок и подбирать количество удобрений с точностью почти до отдельного растения.
5) Телеком — использование технологий Больших Данных необходимо для сегментации абонентской базы, персонализации клиентских сервисов и услуг. Например, при прибытии в аэропорт можно предложить подключение услуг роуминга или дать информацию о возможностях «личного кабинета» для самостоятельного включения услуги. В то же время есть и специализированные задачи такие как: мониторинг качества услуг или оптимизации работы колл-центра за счет угадывания причины обращения, а также индивидуального подбора и предложения сервисов и тарифов. Можно измерить качество сервиса на уровне каждого клиента, синхронизировавшись с геолокацией, — получить мониторинг качества сервиса по всем точкам пребывания клиента. Это даст понимание необходимости повышения качества связи в тех или иных точках сети.
6) Промышленный сектор — анализ Больших Данных от телеметрии большого числа технически сложных объектов. Данные анализа могут быть использованы на этапах эксплуатации технически сложных устройств. Чтобы повысить качество сервисного обслуживания, производители могут устанавливать датчики для отслеживания необходимости технического обслуживания и обнаружения недочетов на ранних этапах, экономя на затратах на ремонт или отзыв изделия.
7) Нефтедобывающий сектор — технологии Больших Данных могут быть использованы для анализа и обработки данных геологоразведки, тем самым бурение пробных скважин будет заменено компьютерным анализом геодезических данных.
Литература:
- http://www.dis-group.ru/solutions/data_management/big_data/
- Лекция корпорации Amdocs. Samuel Dratwa NoSQL (Big Data)
- http://www.computerra.ru/88238/toskin-bigdata/
- https://habrahabr.ru/company/moex/blog/256747/