Отправьте статью сегодня! Журнал выйдет ..., печатный экземпляр отправим ...
Опубликовать статью

Молодой учёный

Объяснимый искусственный интеллект в кредитном скоринге: подход на основе поведенческих и макроэкономических признаков

Научный руководитель
Информационные технологии
07.05.2025
65
Поделиться
Аннотация
В статье рассматривается подход к построению прозрачной и интерпретируемой модели оценки кредитного риска физических лиц с использованием методов машинного обучения. Особое внимание уделено выбору признаков, синтезирующих транзакционное поведение клиентов с макроэкономическими индикаторами, а также анализу устойчивости и объяснимости модели логистической регрессии. По результатам исследования показано, что предложенный подход позволяет достигать высокой точности прогнозирования при сохранении нормативной интерпретируемости и стабильности решений в условиях рыночной турбулентности.
Библиографическое описание
Якубин, А. Я. Объяснимый искусственный интеллект в кредитном скоринге: подход на основе поведенческих и макроэкономических признаков / А. Я. Якубин. — Текст : непосредственный // Молодой ученый. — 2025. — № 19 (570). — С. 35-39. — URL: https://moluch.ru/archive/570/124901.


В статье рассматривается подход к построению прозрачной и интерпретируемой модели оценки кредитного риска физических лиц с использованием методов машинного обучения. Особое внимание уделено выбору признаков, синтезирующих транзакционное поведение клиентов с макроэкономическими индикаторами, а также анализу устойчивости и объяснимости модели логистической регрессии. По результатам исследования показано, что предложенный подход позволяет достигать высокой точности прогнозирования при сохранении нормативной интерпретируемости и стабильности решений в условиях рыночной турбулентности.

Ключевые слова: скоринг, риск, модель, данные, клиент, поведение, макроэкономика.

Современные вызовы в банковской сфере требуют не только высокой точности при прогнозировании риска, но и способности алгоритма объяснить, почему было принято то или иное решение [3]. В эпоху цифрового регулирования, когда автоматизированные модели оказывают прямое влияние на доступ клиентов к финансовым услугам, особое значение приобретают принципы объяснимого искусственного интеллекта (XAI).

Большинство современных исследований фокусируется на точностных характеристиках моделей, оставляя в тени вопрос интерпретируемости и доверия к алгоритмам со стороны бизнеса, регуляторов и самих пользователей [4]. Настоящая работа направлена на то, чтобы восполнить этот пробел, предложив прозрачную архитектуру кредитного скоринга, основанную на логистической регрессии с обоснованным выбором признаков.

В основу модели легли два класса признаков:

— Поведенческие, полученные на основе анализа более 4,2 млн транзакций 139 тыс. клиентов за период 2016–2022 гг.;

— Макроэкономические, синхронизированные с каждой транзакцией по дате (курс валют, индекс МосБиржи, цена Brent, ключевая ставка и др.).

Признаки были агрегированы до клиентского уровня, стандартизированы и объединены в обучающую выборку размерности N×20. Целевая переменная — бинарная: принадлежит ли клиент к высокорисковой группе (дефолт-суррогат на основе транзакционного поведения) [1].

В качестве модели использовалась логистическая регрессия, обученная с L2-регуляризацией. Выбор данного алгоритма объясняется тем, что он позволяет [2]:

— интерпретировать вклад каждого признака в итоговое решение (через знак и величину коэффициента),

— встроить модель в существующие бизнес-процессы принятия решений,

— выполнить требования к «прозрачному ИИ» согласно международным рекомендациям (например, AI Act, BCBS 2023).

В рамках XAI-анализа было применено:

— Коэффициенты логистической регрессии как первичный способ объяснения — например, увеличение стандартного отклонения суммы операций на 1 σ повышает вероятность риска на 34 %;

— Анализ чувствительности признаков — с помощью частных производных и нормализации вкладов;

— Визуализацию границ принятия решений — гистограммы распределения клиентов по вероятности риска с наложением порога отсечения.

Результаты показали, что даже при 20 признаках модель сохраняет интерпретируемость.

Для оценки информативности и стабильности транзакционных признаков были построены логарифмически нормализованные распределения (log1p) следующих переменных (рисунок 1):

— transaction_amount_mean — средняя сумма транзакции;

— transaction_amount_std — стандартное отклонение суммы транзакций;

— transaction_amount_sum — суммарный оборот клиента.

Рис. 1. Распределения ключевых поведенческих признаков клиентов в логарифмической шкале (log1p)

Как видно на гистограмме, распределение имеет правостороннюю асимметрию, что типично для денежных показателей: большинство клиентов совершают операции небольшого или среднего объёма, тогда как крупные платежи характерны для меньшинства [5]. Применение трансформации log1p позволило уменьшить перекос и сделать распределение ближе к нормальному, что критически важно для линейных моделей вроде логистической регрессии.

Это распределение демонстрирует двухвершинную структуру, что может свидетельствовать о существовании двух поведенческих кластеров:

  1. Первая вершина — клиенты с монотонным стилем трат, стабильными суммами и низкой дисперсией;
  2. Вторая — клиенты с высоким разбросом сумм, что характерно для нерегулярных или стрессовых трат (возможно, признак надвигающегося дефолта).

Такое разделение подтверждает гипотезу о высокой информативности std как признака риска и оправдывает его включение в финальную модель.

Как и в случае со средним значением, распределение сумм также характеризуется высокой концентрацией в диапазоне от 10⁰ до 10¹, с редкими значениями в хвосте. Это отражает неравномерность клиентского оборота: около 80 % клиентов укладываются в узкий диапазон, тогда как верхние 5–10 % могут иметь кратно более высокие суммы.

Согласно таблице 1, именно эти переменные являются основой для интерпретируемого скоринга. Их логарифмирование:

— снижает влияние выбросов (очень крупных сумм),

— улучшает числовую стабильность модели,

— позволяет линейной регрессии строить адекватные коэффициенты при наличии экспоненциальных закономерностей.

Кроме того, двугорбое распределение std даёт основания для более глубокого поведенческого кластерного анализа в будущем.

Модель была протестирована в стрессовом сценарии — данные за март–май 2020 г., в условиях падения фондового рынка и роста волатильности валютных курсов.

Таблица 1

Результаты точности прогноза

Признак

Смысл

1

Средняя сумма транзакции

Уровень затрат

2

Стандартное отклонение суммы

Нестабильность поведения

3

Кол‑во операций

Активность клиента

4

Операций в день

Регулярность

5

Максимальная сумма

Пиковые транзакции

6

Минимальная сумма

Диапазон трат

7

Доля операций C

Покупки/возвраты

8

Доля операций W

Снятие/переводы

9

Преобладающее устройство

Канал доступа

10

Уникальные дни

Продолжительность истории

11–19

Макро‑показатели

Внешний контекст

20

Время последней транзакции

«Свежесть» активности

Несмотря на внешние шоки:

— ROC-AUC снизилась незначительно: с 0,88 до 0,85;

— доля клиентов в высокорисковой группе осталась стабильной (15–17 %);

— коэффициенты модели не «поплыли», что подтверждает низкую чувствительность к колебаниям данных при сохранении макро-блока.

Таким образом, включение макроэкономических индикаторов не только повышает точность, но и стабилизирует модель, компенсируя рыночные флуктуации.

Предложенный подход к построению объяснимой и устойчивой скоринговой модели продемонстрировал высокую эффективность в условиях реальных банковских данных. Использование логистической регрессии совместно с агрегированными поведенческими и макроэкономическими признаками позволило:

— обеспечить прозрачность алгоритма для использования в кредитных решениях;

— сохранить стабильность прогноза в периодах рыночных шоков;

— облегчить коммуникацию между аналитиками, ИТ-подразделением и регулятором.

В будущем планируется расширение модели за счёт включения социальных и CRM-признаков, а также тестирование более сложных XAI-инструментов (например, SHAP, LIME) в сравнении с классическим подходом.

Литература:

1. Bitetto A., Cerchiello P., Filomeni S., Tanda A. Can we trust machine learning to predict the credit risk of small businesses? // Review of Quantitative Finance and Accounting. — 2024. — Vol. 63, № 4. — P. 925–954. — DOI: 10.1007/s11156–024–01278–0.

2. Bücker M., Szepannek G., Gosiewska A., Biecek P. Transparency, Auditability and eXplainability of Machine Learning Models in Credit Scoring [Электронный ресурс]. — arXiv preprint, 2020. — № arXiv:2009.13384. — Режим доступа: https://arxiv.org/abs/2009.13384 (дата обращения: 05.05.2025).

3. Nallakaruppan M. K., Chaturvedi H., Grover V., Balusamy B., Jaraut P., Bahadur J., Meena V. P., Hameed I. A. Credit Risk Assessment and Financial Decision Support Using Explainable Artificial Intelligence // Risks. — 2024. — Vol. 12, № 10. — Art. 164. — DOI: 10.3390/risks12100164.

4. Provenzano A. R., Trifirò D., Datteo A. Machine Learning Approach for Credit Scoring [Электронный ресурс]. — arXiv preprint, 2020. — № arXiv:2008.01687. — Режим доступа: https://arxiv.org/abs/2008.01687 (дата обращения: 05.05.2025).

5. Tu J., Wu Z. Inherently interpretable machine learning for credit scoring: Optimal classification tree with hyperplane splits // European Journal of Operational Research. — 2025. — Vol. 322, № 2. — P. 647–664. — DOI: 10.1016/j.ejor.2024.10.046.

Можно быстро и просто опубликовать свою научную статью в журнале «Молодой Ученый». Сразу предоставляем препринт и справку о публикации.
Опубликовать статью
Молодой учёный №19 (570) май 2025 г.
Скачать часть журнала с этой статьей(стр. 35-39):
Часть 1 (стр. 1-67)
Расположение в файле:
стр. 1стр. 35-39стр. 67
Похожие статьи
Искусственный интеллект в кредитном скоринге: разработка, обучение и применение модели
Инновационные подходы к оценке кредитоспособности заёмщиков в условиях цифровизации банковского сектора
Применение перспективных технологий в процессах оценки кредитоспособности клиентов банка
Алгоритм построения скоринговой модели оценки финансовой благонадежности контрагента с учетом требований Национальной оценки рисков
Разработка доступной скоринговой модели оценки кредитоспособности физических лиц
Скоринг как метод оценки кредитного риска
Интеллектуальная система оценки риска мошеннических финансовых операций на основе машинного обучения
Использование методов интеллектуального анализа данных в процессе банковского кредитования: зарубежный и российский опыт
Скоринг как эффективный метод оценки потенциальных заёмщиков в Российской Федерации
Использование российскими и зарубежными банками методов интеллектуального анализа данных при определении кредитоспособности заемщика

Молодой учёный