Проведён анализ основных проблем классификации, построена новая модель, основанная на социально-экономических показателях субъектов РФ, для построения использованы данные Федеральной службы государственной статистики за 2014 год, с помощью модели построен прогноз вероятностей дефолта субъектов на конец 2018 года. Основной статистический инструмент — логистическая регрессия. Итоговая модель показывает высокий процент верной классификации.
Ключевые слова: модель оценки вероятности дефолта, административно-территориальные образования, логистическая регрессия.
Цель исследования: повышение надёжности оценки вероятности дефолта административно-территориальных образований.
В ходе анализа было выделено 4 основные проблемы классификации: обучение классификатора [1], несбалансированные данные, выбор метода классификации [2] и оценка качества классификатора [3].
Авторы статей отмечают, что задача классификации в каждом случае должна решаться индивидуально. Например, при сравнении различных классификаторов, обученных на одних и тех же выборках, в статье [2] был сделан вывод о том, что логистическая регрессия чувствительна к корреляции между факторами, поэтому сильная корреляция между входными переменными является недопустимой.
Далее была предпринята попытка построения собственного классификатора для оценки вероятности дефолта административно-территориальных образований на основе социально-экономических показателей, отслеживаемых Росстатом, а именно уровне безработицы и доле населения с доходом ниже прожиточного минимума. Ранее уже предпринималась попытка построить такую модель [4], однако, несмотря на высокий процент правильной классификации, она не являлась адекватной. Обучение модели производилось в стороннем программном обеспечении (STATISTICA), алгоритм обучения в которой неизвестен. Так как работа продолжает предыдущую — основа классификатора та же — логистическая регрессия для двух переменных, её математический аппарат описывается формулой (1).
|
(1) |
где — оценка вероятности события (в данном случае — дефолта);
— коэффициенты регрессии;
— независимые переменные регрессии (в данном случае, уровень безработицы и доля населения с доходом ниже прожиточного минимума).
Для обучения регрессии были использованы данные за 2014 год, поскольку за все годы накопления статистики по 85 субъектам и 390 эмиссиям облигаций субъектов, дефолты были зафиксированы лишь дважды: в первом квартале 2015 года в Новгородской области экспертным агентством Standard & Poor’s [5] и в сентябре 2014 года по облигации «Республика Крым, 1-А», а разброс в полгода в макроэкономике не является длительным периодом.
Так как выборка не является сбалансированной, то требовалась дополнительная подготовка обучающей выборки. Из всей совокупности субъектов был отобран 21 субъект, в двух из которых наступал дефолт. Также, к этим субъектам было добавлено ещё 5 фиктивных субъектов с дефолтом. Таким образом, количество регионов с дефолтом превысило 10 % и выборка стала сбалансированной.
В качестве метода построения классификатора был выбран метод схоластического градиентного спуска [6], математический аппарат которого описывается формулой (2).
) |
(2) |
где i — индекс коэффициента [0,1,2];
j — индекс субъекта;
— вычисленное значение дефолта;
— реальное значение [0, 1];
— значение параметра (бедность/безработица). Для всегда равно 1;
— скорость обучения, обычно принимается равной 0.3.
Так как был выбран высокий порог точности классификатора (0.9 на тестовой выборке), в ходе обучения возникли проблемы, так как данный порог являлся недостижимым. Для того, чтобы его достичь производилась перебалансировка выборки и применялись различные способы оценки точности при оптимизации классификатора: accuracy (общая точность классификации), precision (точность в пределах интересующего класса) и recall (полнота) — формулы (3–5).
|
(3) |
|
(4) |
|
(5) |
где TP — верно отнесённые в интересующий класс («недефолтные» регионы);
TN — верно отнесённые в альтернативный класс;
n — размер выборки;
FP — неверно отнесённые в интересующий класс;
FN — неверно отнесённые в альтернативный класс.
Результаты оптимизации по полноте оказались неадекватными, поэтому от данного метода пришлось отказаться, оптимизация же по общей точности классификации не достигала заявленной точности, поэтому в качестве оптимального был принят классификатор, полученный на последней итерации (таблица 1).
Таблица 1
Результаты оптимизации по Precision
Состав выборки |
Точность |
|||
Д |
НД |
Accuracy |
Precision |
Recall |
7 |
19 |
22 % |
100 % |
20,60 % |
6 |
19 |
96,6 % |
96,6 % |
100 % |
5 |
19 |
77,9 % |
97,8 % |
84,9 % |
4 |
19 |
83,0 % |
97,9 % |
84 % |
3 |
19 |
83,0 % |
97,9 % |
84 % |
3 |
18 |
91,5 % |
96,4 % |
95 % |
В таблице 1 — Д — регионы, в которых наступил дефолт, НД — в которых дефолта не было.
От классификатора, полученного на второй итерации, было принято решение отказаться, так как, несмотря на большие показатели точности, он не обнаруживал дефолты на тестовой выборке.
В результате обучения были получены следующие коэффициенты регрессии:
(свободный член);
(доля населения с доходом ниже прожиточного минимума);
(уровень безработицы).
Для построения прогноза на конец 2018 года были использованы данные Росстата за 2017 год. Все регионы, получившие оценку вероятности дефолта более 0.5 (50 %) были классифицированы как регионы, в которых должен наступить дефолт, по общему правилу.
По полученному прогнозу дефолт должен наступить в республиках Мордовия (вероятность — 0.99), Москве (0.98), Еврейской автономной области (0.88), Ханты-Мансийском автономном округе (0.82), г. Санкт-Петербург (0.8), Чукотском автономном округе (0.76).
Отнесение крупных экономических центров (Москва и Санкт-Петербург) к «дефолтным» субъектам — явная ошибка классификации. То же самое касается Ханты-Мансийского и Чукотского автономных округов, так как в них развита добыча полезных ископаемых, они имеют достаточно стабильную экономику. Что до Мордовии — многие эксперты и аналитики уже много лет прогнозируют дефолт данного региона, так как Мордовия имеет самый большой госдолг среди всех субъектов. Еврейская автономная область также не обладает сильно развитой и стабильной экономикой, однако говорить о дефолте данного региона не вполне целесообразно, так как государство активно дотирует в его экономику.
Так как эксперимент построения прогноза с помощью полученного классификатора оказался неуспешным, был сделан вывод о том, что возможно, задача построения классификатора в поставленных условиях невозможна, так как показатели коррелируют между собой достаточно сильно (0.682), что является критичным для логистической регрессии. Также, возможно, сам метод логистической регрессии не подходит для решения данной задачи или же метод обучения классификатора не является оптимальным.
Литература:
- Алексеева, В. А. Использование методов машинного обучения в задачах бинарной классификации / В. А. Алексеева // Автоматизация процессов управления № 3, 2015. — URL http://apu.npomars.com/images/pdf/41_7.pdf (дата обращения: 21.03.18).
- Донцова, Ю.С Анализ методов бинарной классификации / Ю. С. Донцова // Известия Самарского научного центра Российской академии наук, том 16, № 6, 2014. — URL: https://cyberleninka.ru/article/n/analiz-metodov-binarnoy-klassifikatsii (дата обращения: 14.03.18).
- Шунина, Ю.С., Алексеева, В.А., Клячкин, В. Н. Критерии качества работы классификаторов / Ю. С. Шунина, В. А. Алексеева, В.Н Клячки. //- Вестник УлГТУ, 2015. — URL: https://cyberleninka.ru/article/n/kriterii-kachestva-raboty-klassifikatorov (дата обращения 28.03.18).
- Тимуш, Д. И. Разработка модели оценки вероятности дефолта облигаций административно-территориальных образований / Д. И. Тимуш // Научная сессия ТУСУР-2018, Томск, часть 5, С.45–48. — URL: https://storage.tusur.ru/files/115520/2018_5.pdf (дата обращения 30.06.18).
- Волкова, О., Милюкова Я. Падение экономики. Новгородская область первой из российских регионов допустила дефолт / О. Волкова, Я. Милюкова // РБК. — URL: https://www.rbc.ru/economics/09/06/2015/557706719a794772e63bd6b2 (дата обращения 12.03.18).
- Brownlee, J. How to implement Linear Regression with Scholastic Gradient Descent from Scratch with Python. / J. Brownlee // Machine Learning Mastery. — URL: https://machinelearningmastery.com/implement-linear-regression-stochastic-gradient-descent-scratch-python/ (дата обращения 22.04.18).