В статье автор рассказывает о том, как можно использовать машинное обучение при создании информационной системы.
Ключевые слова: машинное обучение, нейронные сети, алгоритмы нейронных сетей.
Машинное обучение — это процесс обучения компьютерных систем на основе алгоритмов и статистических моделей, которые позволяют им учиться на основе предыдущего опыта и обрабатывать большие объемы данных. В контексте генеалогического древа математиков теории чисел машинное обучение может быть использовано для решения следующих задач:
- Автоматическое заполнение данных: при создании генеалогического древа может возникнуть проблема нехватки информации о математиках, в том числе о их научных достижениях и учениках. В этом случае машинное обучение может использоваться для заполнения пропущенных данных на основе имеющихся сведений о математиках.
- Выявление связей: Машинное обучение может помочь автоматически выявить связи между математиками и их учениками, которые могут быть упущены при ручной обработке данных.
- Кластеризация: Машинное обучение может быть использовано для кластеризации математиков на основе их общих научных интересов, областей исследований и принадлежности к научным школам.
- Предсказание научных достижений: Машинное обучение может использоваться для предсказания научных достижений учеников на основе данных об их учителях, их работах и научных интересах.
- Оптимизация генеалогического древа: Машинное обучение может быть использовано для оптимизации структуры генеалогического древа, устранения дубликатов и корректировки ошибок в данных.
Рассмотрим более детально некоторые из вариантов и приведем примеры алгоритмов решающие данные задачи:
- Классификация математиков по направлениям исследований: можно использовать алгоритмы классификации, например, Decision Tree или Random Forest, чтобы автоматически классифицировать математиков по их основным научным интересам. Для этого можно использовать данные из научных статей, которые они публиковали.
- Поиск связей между математиками: можно использовать методы кластерного анализа, например, K-Means или DBSCAN, чтобы найти связи между математиками на основе схожести их научных интересов и совместных работ. Для этого можно использовать данные из научных статей и базы данных научных работ.
- Прогнозирование будущих достижений математиков: можно использовать методы машинного обучения, например, регрессионный анализ или нейронные сети, чтобы прогнозировать будущие научные достижения математиков на основе их прошлых работ и научных интересов. Для этого можно использовать данные из базы данных научных работ и информацию о научной карьере каждого математика.
Рассмотрим примеры алгоритмов:
Random Forest:
Представим, что у нас есть база данных с информацией о математиках теории чисел и их учениках, включающая данные о публикациях, научных конференциях, диссертациях, а также списки учеников, их публикаций и диссертаций.
Мы можем использовать методы машинного обучения, такие как алгоритмы кластеризации или ассоциативные правила, чтобы анализировать эти данные и выявлять связи между математиками и их учениками.
Например, алгоритм кластеризации может группировать математиков и их учеников на основе схожих интересов и направлений исследований, что может указывать на наличие научных связей между ними.
(1)
Где: — предсказанное значение,
— входные данные,
— решающее дерево,
— количество деревьев,
— коэффициент веса каждого дерева.
RNN:
Рекуррентная нейронная сеть (RNN) может быть использована для прогнозирования будущих научных достижений в рамках информационной системы генеалогического дерева математиков теории чисел.
Формула для построения такой сети может быть следующая:
(2)
Где: — кол-во цитирований научной публикации в момент времени
— скрытое состояние на предыдущем временном шаге,
— входные данные на текущем временном шаге,
, , — параметры нейронной сети,
— функция активации, например, сигмоидная функция или функция ReLU.
DBSCAN:
Метод кластеризации, который основывается на плотности точек в пространстве (DBSCAN). Он может быть использован для определения кластеров ученых, имеющих близкие связи друг с другом.
Алгоритм работы DBSCAN:
Пусть имеется множество точек в -мерном пространстве. Также есть параметры, задающие радиус и минимальное количество точек в кластере MinPts.
- Находим все точки, которые находятся на расстоянии или менее от каждой другой точки. Эти точки образуют соседей каждой точки.
- Если количество соседей точки больше или равно MinPts, то считается ядром кластера
- Для каждого ядра кластера находим все точки, которые достижимы от него (т. е. можно попасть в них, переходя только по точкам-соседям). Если количество таких точек больше или равно MinPts, то они также входят в кластер.
- Если точки не являются ядрами кластеров и не достижимы из других точек, то они считаются выбросами.
Получается, что, множество точек разбивается на множество кластеров и множество выбросов . Каждый кластер является множеством точек, соответствующих ядру кластера, и всех достижимых из него точек, а множество выбросов содержит все точки, которые не являются ядрами кластеров и не достижимы из других точек.
Вывод :
Таким образом, использование методов машинного обучения может помочь автоматически выявлять скрытые связи между математиками и их учениками и облегчить процесс построения генеалогического дерева. А также можно прогнозировать научные достижения.
Использование машинного обучения при разработки информационной системы генеалогического древа математиков теории чисел может существенно повысить эффективность и точность обработки данных и создать более полное и точное представление о научной деятельности и связях между математиками.
Литература:
- Курпатов А. П. Машинное обучение: алгоритмы и приложения М.: ДМК Пресс, 2018.
- Турчин В. Ф. Математические модели в машинном обучении М.: Физматлит, 2020.
- Клейнер Г. А., Корнеев А. А. Генеалогические деревья и кластер-анализ. Информатика и ее применения, 2019, № 4, с. 23–29.
- Буздин А. И. Машинное обучение. Теория и практика М.: ЭКСМО, 2021.
- Мельников В. В. Применение алгоритмов машинного обучения в построении генеалогических деревьев математиков. Математическое моделирование и программирование, 2020, т. 11, № 3, с. 450–459.
- Голубев А. Нейросети: Обучение на примерах. М.: Эксмо, 2020.
- Штовба С. Д. Нейросети и обучение без учителя: основы теории и примеры практического применения М.: БИНОМ, 2019.