Моделирование данных телеметрии в Apache Cassandra | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 27 апреля, печатный экземпляр отправим 1 мая.

Опубликовать статью в журнале

Авторы: , ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №16 (358) апрель 2021 г.

Дата публикации: 16.04.2021

Статья просмотрена: 183 раза

Библиографическое описание:

Карпов, С. Р. Моделирование данных телеметрии в Apache Cassandra / С. Р. Карпов, Н. С. Ковалев, Микаэл Амри Джума. — Текст : непосредственный // Молодой ученый. — 2021. — № 16 (358). — С. 10-12. — URL: https://moluch.ru/archive/358/80084/ (дата обращения: 19.04.2024).



В статье авторы исследуют возможную структуру хранения данных датчиков в нереляционной распределенной базе данных Apache Cassandra.

Ключевые слова: данные, Cassandra, Apache Cassandra, noSql, датчик, телеметрия, база данных, модель.

  1. Концептуальная модель данных.

Концептуальная модель данных разрабатывается с целью понимания данных в конкретной области. Данную модель можно представить в виде диаграммы сущностей-отношений (ERD). Она показывает типы сущностей, типы связей и ограничения ключей в проекте. (Рис. 1)

Диаграмма сущностей-отношений

Рис. 1. Диаграмма сущностей-отношений

Концептуальная модель данных для телеметрии включает в себя сети датчиков, датчики и измерения температуры. Каждая сеть имеет уникальное имя, описание, регион и количество датчиков. Датчик описывается уникальным идентификатором, местоположением, которое состоит из широты и долготы, а также нескольких характеристик датчика. Измерение температуры имеет временную метку и значение и однозначно идентифицируется идентификатором датчика и временной меткой измерения. В то время как сеть может иметь много датчиков, каждый датчик может принадлежать только одной сети. Точно так же датчик может записывать множество измерений температуры в разные временные метки, и каждое измерение температуры сообщается только одним датчиком.

  1. Разработка приложения

Приложение должно быть разработано посредством шаблонов доступа к данным, каждый из которых указывает, какие атрибуты следует искать, группировать, упорядочивать и т. д.

Созданный интерфейс должен иметь систему авторизации, точку входа в приложение и прямую обработку запросов от пользователей. Точкой входа будет являться набор всех сетей телеметрии с привязкой к региону. Далее приложение должно по запросу выводить либо все датчики в какой-либо выбранной сети, либо средние значения температуры для сети, либо значение температуры для конкретной модели датчика.

Еще одним немаловажным пунктом при проектировании приложения является задание уровня согласованности. Уровень согласованности задает количество ответов от узлов-реплик кластера, необходимых для получения ответа на запрос. Всего их существует 9 видов. При чтении и записи значений телеметрии рекомендуется использовать QUORUM уровень. Это означает, что большая часть узлов-реплик (n/2 +1, где n — число узлов-реплик) должна давать ответ.

  1. Логическая модель данных

Логическая модель данных строится на основе концептуальной модели и требований приложения. Cassandra является не реляционной базой данных, поэтому все значения записываются, читаются и хранятся в отдельных таблицах, не связанных между собой явно. Структуру данных необходимо продумать заранее, потому что в последствии будет невозможно изменить некоторые её элементы. Неграмотное хранение значений может приводить нарушению согласованности, доступности или распределенности системы. Для построения зависимостей данных телеметрии в Cassandra лучше всего пользоваться диаграммой Чеботко. (Рис. 2)

Диграмма Чеботко

Рис. 2. Диграмма Чеботко

Существует четыре таблицы, а именно networks, temperatures_by_network, sensors_by_network и temperatures_by_sensor, которые предназначены специально для поддержки шаблонов доступа через приложение к данным Q1, Q2, Q3 и Q4 соответственно. Параметры с флагом “K” являются ключом патриции (Partition key), согласно которому данные распределяются в узлах кластера, а параметры с флагом “C” являются ключевыми столбцами кластеризации с нисходящим или восходящим порядком, представленным стрелкой вниз или вверх. Существует одна важная особенность: после формирования таблицы partition key уже нельзя будет изменить, то есть при изначально неудачной конфигурации базы данных существует высокая вероятность получения перегрузки одного или нескольких узлов кластера. И исправить данную проблему после процесса интегрирования системы будет достаточно проблематично.

Следующим важным параметром является стратегия репликации. Она позволяет выбрать количество узлов-реплик, в которых будут дублироваться строки данных. Для любого реального проекта стоит выбирать NetworkTopologyStrategy, поскольку она имеет гибкие настройки распределения значений между дата-центрами и стойками.

  1. Ресурсоемкость

Apache Cassandra крайне не ресурсоемкая система. Цена за быструю обработку большого количества данных — это высокая загруженность сервера. Поэтому необходимо конфигурировать дата-центр максимально мощными комплектующими. Так выглядят минимальные системные требования к каждому узлу кластера:

— 2 CPU Cores

— 4GB RAM

— 32 GB SSD

— RAID 1

Стоит понимать, что данные системные требования подойдут исключительно для тестового варианта работы с базой данных, при развертывании реального приложения понадобится намного больше дискового пространства и процессор с большим количеством ядер.

  1. Заключение

Apache Cassandra идеально подходит для получения, хранения и обработки значений телеметрии, однако подходит только для тех проектов, которые располагают достаточными вычислительными мощностями и грамотными специалистами, которые знают как ее правильно настроить.

Литература:

  1. Джефф, Карпентер Cassandra. Полное руководство / Карпентер Джефф, Хьюитт Эбен. — 2-е изд. — Москва: O’Reilly, 2017. — 400 c. — Текст: непосредственный.
  2. Data Modeling. — Текст: электронный // cassandra apache: [сайт]. — URL: https://cassandra.apache.org/doc/latest/data_modeling/index.html (дата обращения: 11.04.2021).
  3. Basic rules of Cassandra data modeling. — Текст: электронный // datastax: [сайт]. — URL: https://www.datastax.com/blog/basic-rules-cassandra-data-modeling (дата обращения: 11.04.2021).
  4. Nishant, Neeraj Mastering Apache Cassandra / Neeraj Nishant. — 2-ое. — Мумбаи: Packt Publishing, 2013. — 318 c. — Текст: непосредственный.
Основные термины (генерируются автоматически): датчик, измерение температуры, концептуальная модель данных, CPU, ERD, QUORUM, RAID, RAM, SSD, база данных, данные, значение температуры, логическая модель данных, узел кластера.


Ключевые слова

база данных, модель, данные, датчик, телеметрия, NoSQL, Cassandra, Apache Cassandra

Похожие статьи

Разработка базы данных для отдела кадров в программе...

Ключевые слова: база данных, сущность, атрибут,отдел кадров, первичный ключ, внешний ключ. В качестве предметной области будем рассматривать деятельность отдела кадров. Определяем сущности и их атрибутный состав на интуитивном уровне, т. е. определяем, какими типами данных характеризуется наш объект исследований.

Рис. 3. Логическая модель. Логический уровень представления модели данных — это уровень абстрактного, понятийного отображения информационных массивов, при котором подчёркивается предметная сторона рассматриваемой реальности.При высокоуровневом проектировании баз данных используется ER- модель.

Разработка базы данных «Датчики и измерительные приборы»

 В данной статье рассмотрена необходимость создания базы данных для датчиков в Access и удобство ее использования . Ключевые слова: датчик, база данных. Датчик — это устройство, воспринимающее сигналы и внешние воздействия и реагирующее на них. [1] Эта реакция заключается в преобразовании данных воздействий в электрические сигналы.

Базой данных называют именованную часть информационного хранилища, структура которой описывается на языке некоторой модели данных. Описание структуры конкретной базы данных называется схемой, системным каталогом (или просто каталогом) базы данных или словарем базы данных.

Сравнение производительности ORM-библиотек как критерия...

Использование реляционной базы данных для хранения объектно-ориентированных данных приводит к так называемому «семантическому разрыву» [1]. Это обозначает, что разработчик вынужден писатьПО, которое должно уметь одновременно обрабатывать данные в объектно-ориентированном виде (используя основной язык проектирования) и сохранять эти данные в реляционной форме (с применением SQL запросов). Для преодоления данной проблемы применяются ORM (англ. Object-RelationalMapping) — технология программирования, которая связывает базы данных с объектами объектно-ориентированных языков программирования, создавая «виртуальную объектную базу данных».

Применение панельных данных в эконометрическом анализе...

Автор стремится доказать целесообразность использования моделей панельных данных для выявления и измерения драйверов эффективности бизнес-процессов в когнитивном обеспечении управленческой деятельности.

По представленным в таблице 1 [12] панельным данным было решено построить регрессионную модель, отражающую зависимость товарооборота от соответствующих факторов. Методом наименьших квадратов и обобщенным методом наименьших квадратов соответственно оценены параметры моделей панельных данных с фиксированными эффектами и моделей панельных данных со случайными эффектами.

Сравнительный анализ методологий проектирования хранилищ...

Эта нормализованная модель делает загрузку данных менее сложной, но использование этой структуры для запросов затруднительно, поскольку включает в себя множество таблиц и объединений [3]. Итак, Inmon предлагает создавать витрины данных, специфичные для отделов.

Отсюда данные загружаются в размерную модель. В этом и заключается ключевое отличие: модель, предложенная Кимбаллом для хранилищ данных — размерная модель, данная модель не нормализована. Фундаментальная концепция размерного моделирования — схема звезды [4]. В схеме «звезда» обычно имеется таблица фактов, окруженная многими измерениями.

Создание и реализация системы «Умный дом» на базе...

Датчиком служащим для измерения температуры и влажности является DHT11. DHT11 — это цифровой датчик влажности и температуры, состоящий из термистора и емкостного датчика влажности. Также датчик содержит в себе АЦП для преобразования аналоговых значений влажности и температуры. Датчик DHT11 не обладают высоким быстродействием и точностью, но зато прост, недорог и отлично подходят для контроля влажности в помещении [5]. Рис. 7. Датчик DHT11. Цифровые значения температуры и влажности выводятся непосредственно на web-страницу. Микросервопривод FS90 используется для выполнения механической работы –открытие и закрытие жалюзи на макете.

Методы и средства проектирования информационных систем

Диаграмма классов отражает структуру базы данных, необходимую для создания физической модели и развёртывания ИС управления ТП изготовления МКМ. Заключение. В данной работе для проектирования ИС управления производством МКМ были использованы средства как структурно-функционального, так и объектно-ориентированного моделирования.

На основе данных, полученных при функциональном подходе, были построены объектные диаграммы вариантов использования и классов технологических процессов изготовления МКМ. Полученная модель является достаточной для перехода к физической реализации системы управления.

Проектирование базы данных. Роль процесса в создании...

Под даталогической моделью базы данных понимается модель, отражающая логические взаимосвязи между элементами данных безотносительно их содержания и физической организации. При этом даталогическая модель разрабатывается на основе информационно-логической модели предметной области с учётом конкретной реализации системы управления базой данных, а также с учётом специфики конкретной предметной области на основе ее концептуальной модели, определенной в процессе разработки информационно-логической модели предметной области.

Похожие статьи

Разработка базы данных для отдела кадров в программе...

Ключевые слова: база данных, сущность, атрибут,отдел кадров, первичный ключ, внешний ключ. В качестве предметной области будем рассматривать деятельность отдела кадров. Определяем сущности и их атрибутный состав на интуитивном уровне, т. е. определяем, какими типами данных характеризуется наш объект исследований.

Рис. 3. Логическая модель. Логический уровень представления модели данных — это уровень абстрактного, понятийного отображения информационных массивов, при котором подчёркивается предметная сторона рассматриваемой реальности.При высокоуровневом проектировании баз данных используется ER- модель.

Разработка базы данных «Датчики и измерительные приборы»

 В данной статье рассмотрена необходимость создания базы данных для датчиков в Access и удобство ее использования . Ключевые слова: датчик, база данных. Датчик — это устройство, воспринимающее сигналы и внешние воздействия и реагирующее на них. [1] Эта реакция заключается в преобразовании данных воздействий в электрические сигналы.

Базой данных называют именованную часть информационного хранилища, структура которой описывается на языке некоторой модели данных. Описание структуры конкретной базы данных называется схемой, системным каталогом (или просто каталогом) базы данных или словарем базы данных.

Сравнение производительности ORM-библиотек как критерия...

Использование реляционной базы данных для хранения объектно-ориентированных данных приводит к так называемому «семантическому разрыву» [1]. Это обозначает, что разработчик вынужден писатьПО, которое должно уметь одновременно обрабатывать данные в объектно-ориентированном виде (используя основной язык проектирования) и сохранять эти данные в реляционной форме (с применением SQL запросов). Для преодоления данной проблемы применяются ORM (англ. Object-RelationalMapping) — технология программирования, которая связывает базы данных с объектами объектно-ориентированных языков программирования, создавая «виртуальную объектную базу данных».

Применение панельных данных в эконометрическом анализе...

Автор стремится доказать целесообразность использования моделей панельных данных для выявления и измерения драйверов эффективности бизнес-процессов в когнитивном обеспечении управленческой деятельности.

По представленным в таблице 1 [12] панельным данным было решено построить регрессионную модель, отражающую зависимость товарооборота от соответствующих факторов. Методом наименьших квадратов и обобщенным методом наименьших квадратов соответственно оценены параметры моделей панельных данных с фиксированными эффектами и моделей панельных данных со случайными эффектами.

Сравнительный анализ методологий проектирования хранилищ...

Эта нормализованная модель делает загрузку данных менее сложной, но использование этой структуры для запросов затруднительно, поскольку включает в себя множество таблиц и объединений [3]. Итак, Inmon предлагает создавать витрины данных, специфичные для отделов.

Отсюда данные загружаются в размерную модель. В этом и заключается ключевое отличие: модель, предложенная Кимбаллом для хранилищ данных — размерная модель, данная модель не нормализована. Фундаментальная концепция размерного моделирования — схема звезды [4]. В схеме «звезда» обычно имеется таблица фактов, окруженная многими измерениями.

Создание и реализация системы «Умный дом» на базе...

Датчиком служащим для измерения температуры и влажности является DHT11. DHT11 — это цифровой датчик влажности и температуры, состоящий из термистора и емкостного датчика влажности. Также датчик содержит в себе АЦП для преобразования аналоговых значений влажности и температуры. Датчик DHT11 не обладают высоким быстродействием и точностью, но зато прост, недорог и отлично подходят для контроля влажности в помещении [5]. Рис. 7. Датчик DHT11. Цифровые значения температуры и влажности выводятся непосредственно на web-страницу. Микросервопривод FS90 используется для выполнения механической работы –открытие и закрытие жалюзи на макете.

Методы и средства проектирования информационных систем

Диаграмма классов отражает структуру базы данных, необходимую для создания физической модели и развёртывания ИС управления ТП изготовления МКМ. Заключение. В данной работе для проектирования ИС управления производством МКМ были использованы средства как структурно-функционального, так и объектно-ориентированного моделирования.

На основе данных, полученных при функциональном подходе, были построены объектные диаграммы вариантов использования и классов технологических процессов изготовления МКМ. Полученная модель является достаточной для перехода к физической реализации системы управления.

Проектирование базы данных. Роль процесса в создании...

Под даталогической моделью базы данных понимается модель, отражающая логические взаимосвязи между элементами данных безотносительно их содержания и физической организации. При этом даталогическая модель разрабатывается на основе информационно-логической модели предметной области с учётом конкретной реализации системы управления базой данных, а также с учётом специфики конкретной предметной области на основе ее концептуальной модели, определенной в процессе разработки информационно-логической модели предметной области.

Задать вопрос