Машинное обучение и резервы банка: опыт из ФинТеха

в 16:06, , рубрики: classification, elc, lgd, machine learning, ml, regression, rr, машинное обучение, практика

Оценка резервов кредитного портфеля — одна из задач, с которой я работал на протяжении продолжительного времени в своей практике. Это интересная и сложная задача, о которой я расскажу.

В этой статье я расскажу о том, что такое резервы и зачем они необходимы банкам, как банки проводят оценку резервов, а также где в этой задаче можно использовать машинное обучение.

Что такое резервы?

Резервы, или ожидаемые кредитные потери (ECL, Expected Credit Loss), представляют собой долгосрочный прогноз того, сколько денег банк может потерять из-за невозврата кредитов. Это важнейший инструмент управления рисками, влияющий на финансовую устойчивость банка.

У банка есть кредитный портфель — это все кредиты, которые он выдал клиентам на данный момент. В идеале все кредиты будут выплачены, но иногда заемщики перестают платить, и банк теряет деньги. Чтобы быть готовым к таким случаям, банк заранее оценивает возможные потери и создаёт резервы, которые компенсируют эти убытки.

Ключевое событие для расчета резервов — “выход в дефолт”. Это момент, когда заемщик официально признается неспособным выполнять свои обязательства. Обычно дефолт фиксируется, если заемщик не вносит платежи в течение 90 дней или более.

Expected Credit Loss

Резервы (Expected Credit Loss) — это не единая абстрактная сумма, а совокупность расчетов для каждого отдельного кредита. Эти расчеты базируются на международном стандарте IFRS 9, который использует следующую формулу:

ELC=EAD* PD * LGD * MR.

  • EAD (Exposure at Default) — размер задолженности на момент дефолта.

  • PD (Probability of Default) — вероятность дефолта заемщика.

  • LGD (Loss Given Default) — величина убытка при дефолте.

  • MR (Macro Rate) — внешние макроэкономические риски, влияющие на качество кредитного портфеля.

Если взглянуть на формулу ECL по частям, она оказывается довольно интуитивной.

Чтобы рассчитать ожидаемые потери, недостаточно знать текущую задолженность клиента — необходимо прогнозировать ее изменение к моменту дефолта. Отсюда берется EAD — это прогнозируемая сумма, которую клиент, будет должен банку на момент дефолта.

Очевидно, что клиент не обязательно выйдет в дефолт, это произойдет с некоторой вероятностью, обозначаемой как PD. Следовательно, ожидаемые потери банка — это уже прогнозируемый баланс на момент дефолта умноженный на вероятность наступления дефолта EAD × PD.

Однако даже при дефолте клиента банк может вернуть часть задолженности. Часто удается вернуть часть средств через реструктуризацию, переговоры или судебные разбирательства. Здесь вступает в игру LGD, отражающая долю задолженности, которую банк не сможет вернуть. Учитывая это, формула расширяется до EAD × PD × LGD.

Наконец, в расчетах используется MR — макроэкономический показатель, который учитывает влияние внешних факторов. Например, в период экономического кризиса MR увеличивается, отражая возросшие риски невозврата. Итоговая формула принимает вид EAD × PD × LGD × MR.

Для оценки резерва банку нужно уметь вычислять все составляющие формулы ELC по каждому клиенту, а потом их просто перемножить и получить резерв. Давайте обсудим конкретные задачи, которые возникают при оценке резервов.

Сегментирование портфеля

При оценке резервов кредитный портфель, как правило, делится на сегменты, для каждого из которых разрабатываются отдельные модели для расчета EAD, PD, LGD и MR. Это необходимо, поскольку разные типы кредитов и заемщиков демонстрируют существенно отличающееся поведение. Углубляться в эту тему сейчас не буду, отмечу только самые основные моменты.

Классические примеры сегментирования:

  • Тип продукта. Например, кредит на покупку товара, кредитная карта и ипотека — это совершенно разные финансовые продукты. Они отличаются по срокам, суммам, структуре выплат и характеру взаимодействия банка с клиентами. Для каждого типа кредита требуется своя модель, учитывающая его специфические особенности.

  • Наличие просрочки. Один из ключевых факторов риска — просрочка платежей. Если клиент пропустил обязательный платеж (не заплатил по кредиту в установленный срок), вероятность его дефолта (PD) значительно возрастает. Соответственно, кредиты с просрочками считаются более рискованными, что требует формирования более высоких резервов.

Практика показывает, что разработка отдельных моделей для крупных сегментов позволяет добиться более точных оценок, чем попытки объединить все данные в одну универсальную модель. Такой подход обеспечивает большую гибкость расчетов и лучше учитывает различия в поведении клиентов, характерные для каждого сегмента.

Модели EAD (Exposure at Default)

EAD (Exposure at Default) — это сумма, которую клиент будет должен банку на момент дефолта. Она включает не только текущую задолженность, но и возможные изменения: дополнительные траты, проценты или частичные погашения.

Давайте попробуем построить EAD для некоторого сегмента (например, кредитные карты без просрочки). Для этого нужно выделить точно такие же кредитные карты, но которые были 12 месяцев назад (12 месяцев - требование стандарта). Среди этих кредитных карт оставляем только те, кто за следующие 12 месяцев вышел в дефолт. Это и будет наша выборка.

Для выбранных кредитов нужно собрать:

  1. Задолженность на момент дефолта — это значение, которое необходимо прогнозировать.

  2. Информация о счете на дату среза, то есть состояние счета ровно 12 месяцев назад. Это могут быть: размер задолженности клиента, данные о клиенте (его возраст, пол и тд), информация о его платежах.

Машинное обучение и резервы банка: опыт из ФинТеха - 2

Разумеется, на практике процесс немного сложнее. Оценка базируется не только на данных ровно 12 месяцев назад. Чтобы увеличить выборку и избежать зависимости от клиентов в конкретный месяц, используются данные за разные периоды, например, за 12, 13, 14 месяцев назад и далее. При этом окно выхода в дефолт для каждого клиента строго фиксируется — оно всегда составляет ровно 12 месяцев с момента попадания клиента в выборку. Такой подход обеспечивает большую статистическую надежность и точность модели.

Машинное обучение и резервы банка: опыт из ФинТеха - 3

После сбора данных можно приступать к построению модели машинного обучения. В данном случае это будет регрессионная модель, которая на основе доступной информации о клиенте и его кредите прогнозирует числовое значение — размер задолженности на момент дефолта.

Модели PD (Probability of Default)

Probability of Default (PD) — это вероятность того, что заемщик перейдет в состояние дефолта в течение определенного временного периода (например, за 12 месяцев). Оценка PD является одной из ключевых моделей в процессе формирования резервов.

По сути, эта задача напоминает кредитный скоринг, где банк пытается определить, стоит ли выдавать клиенту кредит. Однако здесь ситуация немного иная: кредит уже выдан, и у банка есть гораздо больше данных о клиенте, включая информацию о том, как он уже обслуживает свой долг.

Давайте попробуем построить модель PD для определенного сегмента (например, тех же кредитных карт без просрочек). Для этого нужно выделить данные по аналогичному сегменту за 12 месяцев назад. Затем каждому счету присваивается бинарный признак выхода в дефолт за последующие 12 месяцев в зависимости от того вышел ли пользователь в дефолт или нет (1 — дефолт произошел, 0 — дефолта не было).

Для выбранных кредитов нужно собрать:

  1. Факт выхода в дефолт (1 или 0) — это целевая переменная, которую необходимо прогнозировать.

  2. Состояние счета на дату среза, то есть информация о счете ровно 12 месяцев назад.

Как и в случае с оценкой EAD, для построения моделей PD лучше использовать данные за разные периоды, например, за 12, 13, 14 месяцев назад и далее. Такой подход увеличивает объем данных, что способствует повышению надежности и точности модели.

Машинное обучение и резервы банка: опыт из ФинТеха - 4

Полученную выборку можно использовать для построения модели PD - в данном случае это задача бинарной классификации. Но в этой задаче нас интересует не сам прогноз класса (0 или 1), а вероятность того, что клиент окажется в классе дефолтных счетов.

Модели LGD (Loss Given Default)

LGD (Loss Given Default) — это показатель убытка при дефолте. Он отражает долю от общей суммы задолженности на момент дефолта, которую банк потеряет, если заемщик не сможет погасить кредит.

LGD часто рассчитывается через обратное значение RR (Recovery Rate) — уровня возврата средств после дефолта заемщика. RR показывает, какую часть общей задолженности банк смог вернуть.

LGD=1 - RR

При оценке RR методы машинного обучения часто оказываются неэффективными. Это связано с тем, что после перехода заемщика в дефолт его дальнейшее поведение в большей степени зависит от действий банка по взысканию задолженности, чем от характеристик самого клиента.

Оценка RR производится на статистике того как счета которые уже вышли в дефолт погашаю задолженность. Как правило для оценки достаточно разделить пользователей на сегменты по тому на какой стадии взаимодействия с банком он находится и как долго пользователь уже не платит по кредиту и внутри полученных сегментов посчитать долю возвращенных средств относительно суммарной задолженности всего сегмента.

Модели MR (Macro Rate)

Модели оценки макроэкономических рисков — пожалуй, самая творческая часть процесса расчёта резервов. Здесь необходимо понять, как изменения в экономической ситуации влияют на потери банка.

Основная задача состоит в том, чтобы учесть риски, связанные с макроэкономикой, которые ещё не отражены в прогнозах PD, LGD и EAD. Почему это важно? Потому что все предыдущие модели строились на основе исторических данных (не менее 12 месяцев назад). Эти данные отражают конкретные экономические условия, существовавшие в тот период, и уже включают макроэкономические риски, которые были тогда актуальны.

Например, если модели строились на данных в период экономического роста, когда доходы населения увеличивались, а кредиты выплачивались своевременно, то при наступлении кризиса резервы могут оказаться заниженными. Это проблема, потому что возросшие риски не исчезнут, а внезапно обрушатся на банк, вызывая непредвиденные убытки. Чтобы этого избежать, вводится показатель MR, который растёт заранее, ещё до того, как реальные риски проявятся.

Как строить MR? Подходов к построению MR существует множество, и стандарты в этой области допускают гибкость. Основные требования:

  1. Учитывать макроэкономические показатели, примеры: ВВП, уровень безработицы, инфляция и т.д.

  2. Рассматривать три сценария:

    • Базовый — влияет на расчёты резервов.

    • Оптимистичный и пессимистичный — используются для анализа возможных отклонений.

Важно отметить, что базовый сценарий напрямую влияет на величину резервов, а дополнительные сценарии служат справочным инструментом.

Мне кажется особенно перспективным подход, основанный на прогнозировании не изменений PD, LGD и EAD, а перераспределения портфеля между сегментами клиентов. Например, в период кризиса некоторые клиенты начинают уходить в просрочку, что переводит их в сегменты с более высокими значениями PD, LGD и EAD.

Чтобы спрогнозировать такие переходы, необходимо:

  1. Собрать данные о переходах клиентов между сегментами в прошлых периодах.

  2. Оценить, как эти переходы зависят от макроэкономических показателей.

  3. Убрать из расчётов средний эффект, который уже учтён в исторических данных, использованных для построения базовых моделей.

Здесь сложно обойтись без применения машинного обучения (ML). В зависимости от того, как вы анализируете данные и что именно прогнозируете, задача может быть либо:

  • регрессией (прогнозирование количественных значений),

  • либо классификацией (определение вероятностей принадлежности к классам).

Для разработки пессимистичных и оптимистичных сценариев можно использовать доверительные интервалы для прогнозов.

Особенности задачи

Интерпретируемость
Одним из ключевых требований при построении моделей для оценки резервов является их прозрачность и интерпретируемость. Это связано с требованиями регуляторов и аудиторских компаний, которые ожидают, что банк сможет объяснить, почему резервы рассчитаны именно таким образом, вплоть до любой степени детализации.
Нейронные сети, градиентный бустинг и другие сложные алгоритмы, хотя и демонстрируют высокую точность, часто не используются в финальной версии модели из-за их "чёрного ящика". Вместо этого такие модели применяются на этапе исследований, чтобы определить максимально возможный уровень качества прогнозов. После этого разрабатываются интерпретируемые модели, которые стараются достичь аналогичной точности.

Огромные эффекты
В прогнозах резервов важна исключительная точность, поскольку даже небольшая ошибка в 1–2% может привести к значительным финансовым потерям для банка.
Кроме того, банк не может резко менять модель или внезапно увеличивать/уменьшать сумму резервов. Ожидается, что его действия будут последовательными и плавными, чтобы не вызывать вопросов со стороны регуляторов, акционеров и других заинтересованных сторон.

Отчётность
Работа с моделью резервов не заканчивается её разработкой. Важно провести глубокий анализ её прогнозов, понять свойства модели и интерпретировать особенности её поведения. Это помогает не только улучшить модель, но и повысить доверие к её результатам со стороны внутренних и внешних пользователей.

Заключение

В этой статье я рассказал, что такое задача оценки резервов и какие шаги необходимо предпринять банку для её решения. Разумеется, в реальной жизни всё гораздо сложнее, и во многих местах я сознательно упрощал детали для большей понятности. Кроме того, существуют внутренние аспекты работы, которые не подлежат разглашению.

Если эта тема вам интересна, приходите в комментарии! Я с удовольствием разберу конкретные части задачи оценки резервов более подробно.

Другие статьи автора:

Метрики оценки качества вероятностей в бинарной классификации: опыт из ФинТеха

Автор: aleksei_terentev

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js