Разработка модели оценки вероятности дефолта административно-территориальных образований | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 27 апреля, печатный экземпляр отправим 1 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Технические науки

Опубликовано в Молодой учёный №29 (215) июль 2018 г.

Дата публикации: 20.07.2018

Статья просмотрена: 45 раз

Библиографическое описание:

Тимуш, Д. И. Разработка модели оценки вероятности дефолта административно-территориальных образований / Д. И. Тимуш. — Текст : непосредственный // Молодой ученый. — 2018. — № 29 (215). — С. 38-40. — URL: https://moluch.ru/archive/215/52085/ (дата обращения: 19.04.2024).



Проведён анализ основных проблем классификации, построена новая модель, основанная на социально-экономических показателях субъектов РФ, для построения использованы данные Федеральной службы государственной статистики за 2014 год, с помощью модели построен прогноз вероятностей дефолта субъектов на конец 2018 года. Основной статистический инструмент — логистическая регрессия. Итоговая модель показывает высокий процент верной классификации.

Ключевые слова: модель оценки вероятности дефолта, административно-территориальные образования, логистическая регрессия.

Цель исследования: повышение надёжности оценки вероятности дефолта административно-территориальных образований.

В ходе анализа было выделено 4 основные проблемы классификации: обучение классификатора [1], несбалансированные данные, выбор метода классификации [2] и оценка качества классификатора [3].

Авторы статей отмечают, что задача классификации в каждом случае должна решаться индивидуально. Например, при сравнении различных классификаторов, обученных на одних и тех же выборках, в статье [2] был сделан вывод о том, что логистическая регрессия чувствительна к корреляции между факторами, поэтому сильная корреляция между входными переменными является недопустимой.

Далее была предпринята попытка построения собственного классификатора для оценки вероятности дефолта административно-территориальных образований на основе социально-экономических показателей, отслеживаемых Росстатом, а именно уровне безработицы и доле населения с доходом ниже прожиточного минимума. Ранее уже предпринималась попытка построить такую модель [4], однако, несмотря на высокий процент правильной классификации, она не являлась адекватной. Обучение модели производилось в стороннем программном обеспечении (STATISTICA), алгоритм обучения в которой неизвестен. Так как работа продолжает предыдущую — основа классификатора та же — логистическая регрессия для двух переменных, её математический аппарат описывается формулой (1).

(1)

где — оценка вероятности события (в данном случае — дефолта);

коэффициенты регрессии;

— независимые переменные регрессии (в данном случае, уровень безработицы и доля населения с доходом ниже прожиточного минимума).

Для обучения регрессии были использованы данные за 2014 год, поскольку за все годы накопления статистики по 85 субъектам и 390 эмиссиям облигаций субъектов, дефолты были зафиксированы лишь дважды: в первом квартале 2015 года в Новгородской области экспертным агентством Standard & Poor’s [5] и в сентябре 2014 года по облигации «Республика Крым, 1-А», а разброс в полгода в макроэкономике не является длительным периодом.

Так как выборка не является сбалансированной, то требовалась дополнительная подготовка обучающей выборки. Из всей совокупности субъектов был отобран 21 субъект, в двух из которых наступал дефолт. Также, к этим субъектам было добавлено ещё 5 фиктивных субъектов с дефолтом. Таким образом, количество регионов с дефолтом превысило 10 % и выборка стала сбалансированной.

В качестве метода построения классификатора был выбран метод схоластического градиентного спуска [6], математический аппарат которого описывается формулой (2).

)

(2)

где i — индекс коэффициента [0,1,2];

j — индекс субъекта;

— вычисленное значение дефолта;

— реальное значение [0, 1];

— значение параметра (бедность/безработица). Для всегда равно 1;

— скорость обучения, обычно принимается равной 0.3.

Так как был выбран высокий порог точности классификатора (0.9 на тестовой выборке), в ходе обучения возникли проблемы, так как данный порог являлся недостижимым. Для того, чтобы его достичь производилась перебалансировка выборки и применялись различные способы оценки точности при оптимизации классификатора: accuracy (общая точность классификации), precision (точность в пределах интересующего класса) и recall (полнота) — формулы (3–5).

(3)

(4)

(5)

где TP — верно отнесённые в интересующий класс («недефолтные» регионы);

TN — верно отнесённые в альтернативный класс;

n — размер выборки;

FP — неверно отнесённые в интересующий класс;

FN — неверно отнесённые в альтернативный класс.

Результаты оптимизации по полноте оказались неадекватными, поэтому от данного метода пришлось отказаться, оптимизация же по общей точности классификации не достигала заявленной точности, поэтому в качестве оптимального был принят классификатор, полученный на последней итерации (таблица 1).

Таблица 1

Результаты оптимизации по Precision

Состав выборки

Точность

Д

НД

Accuracy

Precision

Recall

7

19

22 %

100 %

20,60 %

6

19

96,6 %

96,6 %

100 %

5

19

77,9 %

97,8 %

84,9 %

4

19

83,0 %

97,9 %

84 %

3

19

83,0 %

97,9 %

84 %

3

18

91,5 %

96,4 %

95 %

В таблице 1 — Д — регионы, в которых наступил дефолт, НД — в которых дефолта не было.

От классификатора, полученного на второй итерации, было принято решение отказаться, так как, несмотря на большие показатели точности, он не обнаруживал дефолты на тестовой выборке.

В результате обучения были получены следующие коэффициенты регрессии:

(свободный член);

(доля населения с доходом ниже прожиточного минимума);

(уровень безработицы).

Для построения прогноза на конец 2018 года были использованы данные Росстата за 2017 год. Все регионы, получившие оценку вероятности дефолта более 0.5 (50 %) были классифицированы как регионы, в которых должен наступить дефолт, по общему правилу.

По полученному прогнозу дефолт должен наступить в республиках Мордовия (вероятность — 0.99), Москве (0.98), Еврейской автономной области (0.88), Ханты-Мансийском автономном округе (0.82), г. Санкт-Петербург (0.8), Чукотском автономном округе (0.76).

Отнесение крупных экономических центров (Москва и Санкт-Петербург) к «дефолтным» субъектам — явная ошибка классификации. То же самое касается Ханты-Мансийского и Чукотского автономных округов, так как в них развита добыча полезных ископаемых, они имеют достаточно стабильную экономику. Что до Мордовии — многие эксперты и аналитики уже много лет прогнозируют дефолт данного региона, так как Мордовия имеет самый большой госдолг среди всех субъектов. Еврейская автономная область также не обладает сильно развитой и стабильной экономикой, однако говорить о дефолте данного региона не вполне целесообразно, так как государство активно дотирует в его экономику.

Так как эксперимент построения прогноза с помощью полученного классификатора оказался неуспешным, был сделан вывод о том, что возможно, задача построения классификатора в поставленных условиях невозможна, так как показатели коррелируют между собой достаточно сильно (0.682), что является критичным для логистической регрессии. Также, возможно, сам метод логистической регрессии не подходит для решения данной задачи или же метод обучения классификатора не является оптимальным.

Литература:

  1. Алексеева, В. А. Использование методов машинного обучения в задачах бинарной классификации / В. А. Алексеева // Автоматизация процессов управления № 3, 2015. — URL http://apu.npomars.com/images/pdf/41_7.pdf (дата обращения: 21.03.18).
  2. Донцова, Ю.С Анализ методов бинарной классификации / Ю. С. Донцова // Известия Самарского научного центра Российской академии наук, том 16, № 6, 2014. — URL: https://cyberleninka.ru/article/n/analiz-metodov-binarnoy-klassifikatsii (дата обращения: 14.03.18).
  3. Шунина, Ю.С., Алексеева, В.А., Клячкин, В. Н. Критерии качества работы классификаторов / Ю. С. Шунина, В. А. Алексеева, В.Н Клячки. //- Вестник УлГТУ, 2015. — URL: https://cyberleninka.ru/article/n/kriterii-kachestva-raboty-klassifikatorov (дата обращения 28.03.18).
  4. Тимуш, Д. И. Разработка модели оценки вероятности дефолта облигаций административно-территориальных образований / Д. И. Тимуш // Научная сессия ТУСУР-2018, Томск, часть 5, С.45–48. — URL: https://storage.tusur.ru/files/115520/2018_5.pdf (дата обращения 30.06.18).
  5. Волкова, О., Милюкова Я. Падение экономики. Новгородская область первой из российских регионов допустила дефолт / О. Волкова, Я. Милюкова // РБК. — URL: https://www.rbc.ru/economics/09/06/2015/557706719a794772e63bd6b2 (дата обращения 12.03.18).
  6. Brownlee, J. How to implement Linear Regression with Scholastic Gradient Descent from Scratch with Python. / J. Brownlee // Machine Learning Mastery. — URL: https://machinelearningmastery.com/implement-linear-regression-stochastic-gradient-descent-scratch-python/ (дата обращения 22.04.18).
Основные термины (генерируются автоматически): логистическая регрессия, дефолт, интересующий класс, Мордовия, прожиточный минимум, уровень безработицы, альтернативный класс, высокий процент, еврейская автономная область, математический аппарат.


Ключевые слова

модель оценки вероятности дефолта, административно-территориальные образования, логистическая регрессия

Похожие статьи

Статистический анализ уровня жизни населения России

Для этого считается необходимым создание сильного среднего класса населения.

Анализ уровня жизни населения на примере Самарской области. темп роста, располагаемый доход населения, Российская Федерация, анализируемый период, прожиточный минимум...

Статистический анализ уровня безработицы в Российской...

уровень инфляции, множественная регрессия, парной коэффициент корреляции, уровень безработицы, денежный доход населения, регрессионный анализ, государственная статистика, Федеральная служба...

Анализ дифференциации населения по уровню доходов...

доход населения, группа, доход, Мордовия, Карелия, регион, Республика, Удмуртская Республика, процентная группа населения, Эл.

Медианный доход равнялся 20657 рублей 89 копеек — значит одна часть населения имела доход выше этого уровня, а вторая часть — ниже.

Статистический анализ дифференциации доходов населения...

Регрессионный анализ основных показателей уровня жизни в Брянской области.

Стандартное отклонение коэффициента регрессии. Стандартная ошибка.

денежный доход населения, Брянская область, прожиточный...

Сравнение показателей дифференциации доходов субъектов...

Самый высокий уровень среднедушевых доходов наблюдается в Чукотском АО, а самый низкий среднедушевой доход в Еврейском АО.

Таблица 4. Численность населения с денежными доходами ниже величины прожиточного минимума в процентах, от общей...

Эконометрическое моделирование влияния уровня безработицы...

Соответственно уровень безработицы и криминогенность в субъектах, вошедших в первую группу выше, чем

безработица, преступность, криминогенность, взаимосвязь, корреляция, регрессия, кла-стерный анализ, фиктивные переменные, типологическая регрессия.

Бедность как фактор, определяющий уровень жизни населения...

В результате расчета индекса было выявлено, что регионами с высоким уровнем жизни населения являются Московская область

Еврейская автономная область и Республика Ингушетия также находятся в конце рейтинга по УЖН, занимая 72 и 76 места соответственно.

Влияние туризма на социально-экономические процессы

0,29. Доля доходов туризма в ВВП в большинстве из рассматриваемых стран выше, чем в нашей стране.

Еврейская автономная область. 0,97. 0,99.

Республика Мордовия. 0,98.

Статья посвящена оценке уровня жизни населения в Самарской области.

Статистическое исследование уровня и качества жизни населения...

Анализ уровня жизни населения на примере Самарской области. Уровень жизни населения в первую очередь определяется его доходами.

Соотношение среднедушевых денежных доходов населения с величиной прожиточного минимум, процентов.

Исследование качества и уровня жизни населения

Особенно ярко, проблема уровня и качества жизни населения, проявляется в России почти всегда. Отсутствие среднего класса и неравномерное распределение доходов между разными слоями населения-все это приводит нашу страну к низкому, а если конкретнее, то к 57 месту по...

Похожие статьи

Статистический анализ уровня жизни населения России

Для этого считается необходимым создание сильного среднего класса населения.

Анализ уровня жизни населения на примере Самарской области. темп роста, располагаемый доход населения, Российская Федерация, анализируемый период, прожиточный минимум...

Статистический анализ уровня безработицы в Российской...

уровень инфляции, множественная регрессия, парной коэффициент корреляции, уровень безработицы, денежный доход населения, регрессионный анализ, государственная статистика, Федеральная служба...

Анализ дифференциации населения по уровню доходов...

доход населения, группа, доход, Мордовия, Карелия, регион, Республика, Удмуртская Республика, процентная группа населения, Эл.

Медианный доход равнялся 20657 рублей 89 копеек — значит одна часть населения имела доход выше этого уровня, а вторая часть — ниже.

Статистический анализ дифференциации доходов населения...

Регрессионный анализ основных показателей уровня жизни в Брянской области.

Стандартное отклонение коэффициента регрессии. Стандартная ошибка.

денежный доход населения, Брянская область, прожиточный...

Сравнение показателей дифференциации доходов субъектов...

Самый высокий уровень среднедушевых доходов наблюдается в Чукотском АО, а самый низкий среднедушевой доход в Еврейском АО.

Таблица 4. Численность населения с денежными доходами ниже величины прожиточного минимума в процентах, от общей...

Эконометрическое моделирование влияния уровня безработицы...

Соответственно уровень безработицы и криминогенность в субъектах, вошедших в первую группу выше, чем

безработица, преступность, криминогенность, взаимосвязь, корреляция, регрессия, кла-стерный анализ, фиктивные переменные, типологическая регрессия.

Бедность как фактор, определяющий уровень жизни населения...

В результате расчета индекса было выявлено, что регионами с высоким уровнем жизни населения являются Московская область

Еврейская автономная область и Республика Ингушетия также находятся в конце рейтинга по УЖН, занимая 72 и 76 места соответственно.

Влияние туризма на социально-экономические процессы

0,29. Доля доходов туризма в ВВП в большинстве из рассматриваемых стран выше, чем в нашей стране.

Еврейская автономная область. 0,97. 0,99.

Республика Мордовия. 0,98.

Статья посвящена оценке уровня жизни населения в Самарской области.

Статистическое исследование уровня и качества жизни населения...

Анализ уровня жизни населения на примере Самарской области. Уровень жизни населения в первую очередь определяется его доходами.

Соотношение среднедушевых денежных доходов населения с величиной прожиточного минимум, процентов.

Исследование качества и уровня жизни населения

Особенно ярко, проблема уровня и качества жизни населения, проявляется в России почти всегда. Отсутствие среднего класса и неравномерное распределение доходов между разными слоями населения-все это приводит нашу страну к низкому, а если конкретнее, то к 57 месту по...

Задать вопрос