Требования к скоринговым моделям в банках и микрофинансовых организациях постоянно растут. В последний год кредитные организации начали анализировать новые массивы данных: соцсети, оплату услуг ЖКХ и поисковые запросы. Roem.ru поговорил с управляющей проектом Scorista Марией Вейхман, чтобы выяснить, как строятся новые модели оценки заемщиков.
У вас на сайте сказано, что оценка заемщика происходит за 1 минуту. Как вы оцениваете?
Мы берем все, что можно бесплатно достать по заемщику и комбинируем это в один профайл. Получается довольно большой объем данных. Это кредитная история, соцсети, сайт судебных приставов, движение средств на счету телефона, анализ места проживания, стоимости квадратного метра в этом районе, этом доме. Когда все это раскладывается, то только по одной кредитной истории получается больше 1 тыс. переменных.
Построение предсказательной модели у нас обычное — это логарифмическая регрессии, дерево решений, нейронные сети. Модели самообучающиеся — сначала берется общая модель, затем она начинает подстраиваться под те переменные, которые больше влияют на результат в том или ином МФО — для этого нужно около 2 тысяч заявок, по которым уже есть результат. В конце концов получается уникальная модель для каждой МФО.
Разве микрофинансовые организации настолько различаются, чтобы строить для них разные модели?
Онлайн и оффлайн МФО сильно разнятся. Это только первый признак. Второй — это как выдается займ: на карту, на банковский счет или какой-то кошелек, или выдается в «ВКонтакте». Есть идентификация заемщика или нет идентификации заемщика? Работает МФО с первичными клиентами или с постоянными? Это все разные модели.
Какие будут различия в оценке?
Набор переменных будет совершенно разный. Нам приходится строить несколько моделей — по соцсетям, демографическую, по кредитной истории, по контейнеру выдачи и объединять это все в общую модель. У оффлайнщиков — более длинные займы, там другие построения. Если у онлайнщиков мы можем не смотреть на дисциплину вдолгую, то у оффлайнщиков мы смотрим на то, как заемщик соблюдал дисциплину. Если кредитной истории нет, то берем социально-демографический тип модели.
А какие веса у этих моделей?
Наибольшая роль у кредитной истории. На втором месте демографический фактор — где живет, как живет, рассчитывается коэффициент платежеспособности, находятся аналогичные профессии по сайтам HeadHunter, смотрится средняя заработная плата по региону согласно Росстату. На третьем месте телефон — принадлежит ли человеку, есть ли он в кредитной истории, где-то он подтверждается, на каком-то сайте, есть ли он в соцсети.
Это модуль, который скорее относится к сбору задолженностей и анализу контактных данных — сколько их у нас, насколько они подтверждены, можно ли будет достать заемщика, если случится просрочка.
Для каких МФО ваши модели лучше работают?
Поскольку у нас данных больше всего для онлайн МФО или МФО, которые перечисляют данные на расчетный счет или карту, то для таких. Мы же анализируем пластиковую карту по БИН, по последним четырем цифрам, то есть у нас большая база знаний про банки-эмитенты этих карт: куда и как лучше возвращают заемщики.
То есть, например, у одного МФО более дисциплинированы клиенты «Тинькофф Банка», а у других — недисциплинированные из «Сбербанка». А для другого МФО может быть наоборот.
Очень много зависит от того, когда берется займ и сколько дней осталось до праздников. Чем ближе к праздникам, тем хуже возвращают. Займы, взятые за три месяца до праздников, возвращают плохо. То, что где-то посередине, возвращают лучше. Те, кто берут в выходной, возвращают хуже, чем те, кто берет в рабочий день. Причем это не зависит от кредитной истории.
Мы можем сказать, что чем опытнее заемщик, чем больше у него кредитов, тем лучше. Самая страшная группа — это 2−3 кредита. Причем, мы смотрим — если он раньше брал кредиты в каких-то МФО, но к нашему заказчику пришел в первый раз, то для нас это плохой маркер, даже если в кредитной истории все хорошо. Потому что люди обычно очень привязаны к МФО и берут в одном и том же месте — у некоторых есть по 100−120 закрытых займов — и тут непонятно, почему он сменил своего кредитора. Очень настороженно мы к этому относимся и сейчас изучаем этот момент.
Иногда приходят МФО, чья модель нам незнакома. Например, вот есть кредитоматы — про них мало знаем. Есть МФО, которые выдают займы на электронный кошелек — это один из самых опасных способов выдачи займов, на мой взгляд, потому что кошелек можно завести на любое лицо. Есть МФО, где заемщик может воспользоваться кредитным займом, а может не воспользоваться — это как открыть кредитную линию — тоже рисковая модель.
Вы работаете со всеми соцсетями?
Мы используем только «ВКонтакте», потому что заемщик МФО сидит во «ВКонтакте» больше. Это 80%. Остальное — это «Одноклассники» и совсем немного Facebook. Оцениваем мы только если сама МФО присылает нам ссылку на профиль. Если не присылает, то просто-напросто эта штука отключается. Для целенаправленного скоринга по соцсетям есть Scorr, например. У нас соцсети — это дополнительный, но сильно улучшающий карту заемщика момент.
Как оцениваете заемщика в соцсети?
Там три набора факторов: активность, болтливость и открытость. Активность — это сколько раз заходит, когда заходит, что делает, сколько постов, комментариев. Болтливость — это непосредственно семантический анализ его текстов. Графичекие и аудио-файлы не анализируем, специализируемся на тексте. Открытость — это как он делится информацией с окружающими, как заполнена анкета, показывает ли он свой семейный статус, указаны ли его родственники. Семейный статус — это важно. Если показан, то это хорошо, это определенная степень открытости.
Болтливость — это хорошо или плохо?
Чем больше говорят, тем хуже возвращают.
Когда проводите семантический анализ, что вызывает опасения?
Все, что связано с агрессией. Это проявление внутреннего конфликта. Склонность к мошенническим действиям. Слово «халява» — это плохой маркер. Использование сленга — плохо. Чем больше словарный запас, тем лучше возвращают. Причем при большом словарном запасе — когда витиеватая речь, возвращают хуже. Нормальный словарный запас в соцсети — 350−500 слов. Хорошо, если есть что-то про любовь, про дружбу. Те, кто делится открытками, подаркам — они лучше возвращают.
На конец 2014 года у вас было 15 компаний-клиентов, 150 тестировали сервис. Сейчас сколько компаний пользуется вашими услугами?
18 компаний, еще 60 тестируют. 40 компаний пользуются услугой «Досье», где мы агрегируем данные о человеке в единый отчет. Много клиентов переходят именно на эту услугу — им нужно просто посмотреть, не был ли человек в розыске, не живет ли он в паталогически криминальном районе, не участвовал ли он в административных правонарушениях.
Мы в последнее время не гнались за добыванием клиентов, мы пытались улучшить нашу модель, потому что в сентябре месяце все стали терпеть большие убытки из-за изменения курса рубля, старых моделей перестало хватать, нужно было в срочном порядке их дорабатывать.
Сейчас мы расширяем модели, внедряем новые источники данных. К сожалению, это занимает очень много времени, потому что это же статистика — нужно данные накопить, собрать, обработать. Это большая работа. За несколько месяцев мы добавили оценку по месту проживания, добавили сайты, связанные с работой, анализ платежеспособности, макроэкономический анализ, анализ контактной информации. Сейчас все это тестируем.
Кстати, в Москве по вашей оценке плохие районы — это какие?
Почему-то очень не любят восток. Все, что после «Автозаводской». Верх красной ветки. Интересно посмотреть на инфраструктура района — много ли там увеселительных заведений. Этажность застройки тоже влияет. Если говорить про географию, то для оффлайн МФО мы еще учитываем удаленность точки взятия займа от места жительства заемщика. Если он берет в торговой точке — понятно, как он пришел, но непонятно, как он будет возвращать.
В презентации сервиса сказано, что вы рассчитываете не только на МФО, но еще и на ломбарды, магазины, коллекторские агентства. Сейчас ваши клиенты — это только МФО или есть примеси?
Оценка — это исключительно кредитные организации, потому что в основе алгоритма — кредитная история, а получать ее может только кредитная организация. Да и деньги в основном деньги платят МФО — даже тем же коллекторским агентствам.
Сам рынок вы как оцениваете?
Количество МФО заметно сократилось из-за регулирования ЦБ, сейчас их 2,8−3 тыс.
Как меняются показатели по просрочке у ваших клиентов?
Если МФО не слушается нас и выдает кредиты тем, кому мы рекомендуем отказать, из них просрочку в 15 дней допускают 47%. Если слушается — то максимум 32%, минимум — 20%. Без нашей системы — минимум 28%. Я знаю, что по рынку нормальная просрочка — 30−33%. Но у нас были и неудачи. Иногда приходят такие МФО, чьи модели нам неизвестны. Есть сегменты, в которых система не очень хорошо отрабатывает, но, как-никак, она очень молодая по сравнению с теми монстрами, с которыми мы пытаемся встать в ряд.
Про многие пункты оценки вы говорите неуверенно. Вам не хватает данных?
Данных не хватает, сейчас идет сбор. Ты начинаешь с чего? Покупаешь данные — нужны одобренные заявки с результатами по ним. Мы купили около 300 тыс. Этого мало. Нужно еще. Причем огромная часть данных нам не подходит, потому что даже в прошлом году после законодательных изменений не все МФО пользовались кредитными историями.
А сколько данных вам надо для полного счастья?
Миллиона три. Через год, наверно, мы их соберем.
***
Другой скоринг в МФО
Екатерина Казак — директор по управлению рисками сервиса онлайн-кредитования MoneyMan:
Для создания алгоритма оценки рисков «Скоринг 5.0» MoneyMan анализировал более 500 агрегатов. Модель принимает решение о выдаче займа на основе множества данных, включая технологии множественного поиска, внутреннюю кредитную историю, антифрод сервис «Национальный хантер», данные нескольких бюро кредитных историй и другие внешние источники, например, информацию о платежах потенциальных заемщиков на счета мобильной связи и данные из аккаунтов заемщиков в социальных сетях.
По итогам 2014 года уровень NPL 90+ (просрочка более 90 дней) по кредитному портфелю MoneyMan в России не превысил 14% по ежемесячным винтажам профинансированных займов. Это гораздо ниже среднерыночного уровня NPL 90+, который по итогам 2014 года составил по нашим оценкам 30−32%. Но и это приемлемые цифры. Считается, что в бизнес модели микрофинансирования NPL 90+ не должен превышать 35%.
Анастасия Мухачева, операционный директор сервиса p2p-кредитования Fingooroo:
Fingooroo использует собственные скоринговые модели, разработанные на алгоритмах логистической регрессии и дерева решений. Скоринговая модель позволяет на лету отсеивать примерно 80% входящего трафика. Мы анализируем все доступные внешние источники информации (бюро кредитных историй, внешние базы данных, соц сети).
Генеральный директор микрофинансовой компании «Займо» Евгений Ждановских:
Для определения кредитоспособности своих клиентов используем технологию «больших данных». Мы собираем поведенческую информацию клиента в сети, метаинформацию и личную информацию, которую предоставляет о себе клиент.
Наши алгоритмы сопоставляют личную информацию, которую предоставил в своей заявке клиент, с информацией, полученной от третьих лиц, а также с информацией, которую мы можем найти о заемщике в сети интернет, например, IP-адрес клиента, страничка клиента в социальных сетях, следы, оставленные клиентом в интернете, информация по мобильным платежам.
В Facebook, Vkontakte или Odnoklassniki в первую очередь нас интересует «качество» страницы клиента. Во-первых, нам важно, чтобы страница велась клиентом лично на протяжении некоторого времени, а не выглядела подозрительной, как будто только что созданной.
Во-вторых, данные, которые предоставлены на личной страничке клиента в социальных сетях, должны совпадать с данными, предоставленными им в заявке на получение займа. В первую очередь это касается данных о месте работы, учебы, а также семейном статусе. Так, если он указывает в заявке, что живет в Москве, а GPS-навигация фотографий, которые клиент публикует, указывает, что большинство фото опубликованы в Мурманске, то алгоритм заподозрит обман.
В-третьих, алгоритм изучает друзей клиентов в социальных сетях и проверяет, нет ли их в базе кредитных мошенников компании. Влияет на получение займа и та информация, являются ли большинство друзей клиента трудоустроенными, а также есть ли у них семья и дети. В скоринг компании постоянно включаются все новые и новые модели. Просрочка по займам от 90 дней и выше составила за 2014 год около 12%.
Генеральный директор МФО «Займер» Сергей Седов.
В качестве источников информации для скоринга используются данные из нашей базы, обогащенные информацией из крупнейших Бюро Кредитных историй, данными о платежах заемщиков за мобильную связь, услуги ЖКХ, а также неструктурированные данные из соцсетей и других общедоступных источников.
Всего при принятии решения анализируется более 1800 показателей, в том числе такие «экзотические», как поведение пользователя на сайте — например, как он двигает ползунки с суммой и сроком займа. Для повторных клиентов обязательно анализируется платёжная дисциплина. Эффективность каждой модели зависит от региона, повозрастной категории и сезонности. В среднем у моделей показатель NPL 90+ от 12% до 20%.
Генеральный директор Platiza.ru Илья Саломатов.
Наша система скоринга — это собственная разработка, сложная и многоступенчатая. При этом все процессы автоматизированы и удобны для клиентов: принятие решения по выдаче займа занимает не более минуты.
При построении скоринговых систем онлайн-сервиса Platiza.ru мы используем стандартные статистические методы и алгоритмы machine learning и big data. Наша скоринговая карта построена на основе логистической регрессии. Мы применяем алгоритмы искусственного интеллекта, основанные на использовании нейронных сетей. При проверке данных потенциального клиента система учитывает большое количество характеристик и проводит точный анализ различных сведений (возраст заёмщика, наличие у него кредитов и т. д.), что в результате даёт меньший процент «отсеянных» заявок. Для анализа клиента мы используем информацию из анкеты, которую он заполняет в процессе регистрации, учитываем качество его кредитной истории и производим проверку на его наличие в черных списках, которые есть в открытых источниках.
Мы реализовали принцип индивидуального подхода к каждому клиенту, поэтому можем оценивать возможности заемщиков и выдавать займы даже тем клиентам, которые получили отказ в других микрофинансовых организациях или банках. Наша система скоринга обеспечивает возврат до 90% займов, а общая просрочка держится на уровне 20%, причём мы активно боремся с этим.
Беседовала Анастасия Якорева, специально для Roem.ru