Банковские структуры активно пользуются скоринговыми системами для принятия решения касательно выдачи кредитов. Поиск информации показал, что в Интернете отсутствует скоринговая система, которую бы смог пройти любой желающий на бесплатной основе.
Целью работы является разработка доступной скоринговой модели оценки кредитоспособности лиц, предназначенной для широкого использования лицами, нуждающимися в проверке возможности получения кредита.
Список параметров для построения модели: возраст, сфера работы, масштаб предприятия, время работы на последнем месте, наличие авто, образование, подтвержденный доход, сумма кредита.
В качестве математического алгоритма для модели была выбрана бинарная логистическая регрессия [1] (1,2). Данный выбор обусловлен тем, что данный алгоритм делит исходную группу на две группы, что и необходимо для скоринговой системы (деление на отклонение заявки по кредиту и принятие заявки).
(1)
(2)
При превышении вероятности значения 0,85 принимается решение о выдаче кредита.
Данные для построения модели включают 1500 записей о выданных кредитах. Обучение производилось на 1200 записей, тестирование — на оставшихся 300.
Полученные коэффициенты представлены в таблице 1. В скобках представлены уточнения для категориальных критериев.
Таблица 1
Коэффициенты уравнения
Переменные вуравнении |
Значение коэффициента β |
Сфера работы (Строительство) |
-0,164 |
Сфера работы (Медицина) |
0,488 |
Сфера работы (Финансы, банки, страхование) |
0,515 |
Сфера работы (Оптовая/розничная торговля) |
1,028 |
Сфера работы (Сфера услуг) |
0,380 |
Сфера работы (Промышленность и машиностроение) |
0,677 |
Сфера работы (Армия/ МВД) |
-0,323 |
Сфера работы (Наука) |
0,790 |
Сфера работы (Информационные технологии/телекоммуникации) |
1,113 |
Образование (Среднее образование) |
-0,205 |
Образование (Неоконченное высшее) |
-0,317 |
Образование (Среднее специальное образование) |
-0,202 |
Образование (Неоконченное высшее) |
-0,213 |
Образование (Два и более высших образования) |
0,647 |
Наличие авто |
-0,516 |
Время работы на последнем месте (нет данных или менее 3 мес) |
-0,370 |
Время работы на последнем месте (от 3-х до 6 месяцев) |
0,551 |
Время работы на последнем месте (от 6 мес. до 1-го года) |
0,091 |
Время работы на последнем месте (от 1 года до 3-х лет) |
-0,006 |
Масштаб предприятия (Нет данных) |
-0,307 |
Масштаб предприятия (менее 20) |
0,768 |
Масштаб предприятия (От 20 до 100) |
-0,414 |
Масштаб предприятия (От 100 до 500) |
-0,487 |
Возраст |
0,013 |
Сумма кредита |
-0,0000009 |
Подтвержденный доход |
0,000003 |
Константа |
2,086 |
В результате проведения проверки модели на тестовой выборке оказалось, что:
процент верных прогнозов: 61 %;
процент верных прогнозов согласия: 63 %;
процент верных прогнозов отказов: 51 %.
Ошибку модели можно обосновать малым количеством исходных данных (1500 записей), а также тем, что в исходной выборке представлено очень малое количество невыплат по кредиту (~7,5 %).
Для реализации возможности проверки получения кредита пользователем было разработано веб-приложение на языке JavaScript с использованием библиотек React и Redux. На рисунке 1 отображена форма для заполнения пользователем данных о себе, на рисунке 2 страница с результатом.
Рис 1. Форма для заполнения данных
Рис 2. Посчитанная вероятность получения кредита
Литература:
- S. Tabagari, K. Pärna. Credit scoring by logistic regression. // DSpace. URL: http://dspace.ut.ee/bitstream/handle/10062/47572/tabagari_salome_msc_2015.pdf (дата обращения: 5.05.2018).