@font-face{font-family:'Fira Sans';font-style:normal;font-weight:400;src:url(/fonts/0/FiraSans/hg-FiraSans-Regular.eot);src:local("Fira Sans"),local("FiraSans-Regular"),url(/fonts/0/FiraSans/hg-FiraSans-Regular.eot?#iefix) format("embedded-opentype"),url(/fonts/0/FiraSans/hg-FiraSans-Regular.woff2) format("woff2"),url(/fonts/0/FiraSans/hg-FiraSans-Regular.woff) format("woff"),url(/fonts/0/FiraSans/hg-FiraSans-Regular.ttf) format("truetype")}@font-face{font-family:'Fira Sans';font-style:normal;font-weight:500;src:url(/fonts/0/FiraSans/hg-FiraSans-Medium.eot);src:local("Fira Sans Medium"),local("FiraSans-Medium"),url(/fonts/0/FiraSans/hg-FiraSans-Medium.eot?#iefix) format("embedded-opentype"),url(/fonts/0/FiraSans/hg-FiraSans-Medium.woff2) format("woff2"),url(/fonts/0/FiraSans/hg-FiraSans-Medium.woff) format("woff"),url(/fonts/0/FiraSans/hg-FiraSans-Medium.ttf) format("truetype")}
(function(){'use strict';var f,g=[];function l(a){g.push(a);1==g.length&&f()}function m(){for(;g.length;)g[0](),g.shift()}f=function(){setTimeout(m)};function n(a){this.a=p;this.b=void 0;this.f=[];var b=this;try{a(function(a){q(b,a)},function(a){r(b,a)})}catch(c){r(b,c)}}var p=2;function t(a){return new n(function(b,c){c(a)})}function u(a){return new n(function(b){b(a)})}function q(a,b){if(a.a==p){if(b==a)throw new TypeError;var c=!1;try{var d=b&&b.then;if(null!=b&&"object"==typeof b&&"function"==typeof d){d.call(b,function(b){c||q(a,b);c=!0},function(b){c||r(a,b);c=!0});return}}catch(e){c||r(a,e);return}a.a=0;a.b=b;v(a)}} (function( w ){ var html = document.documentElement; Promise.all([ FS400.check, FS500.check ]).then(function() { if (sessionStorage.fontsLoaded) { if (typeof adriver == 'undefined'){ var adb1 = 'yes';} var user_type = 'guest';
var page_type = "publish_corp"; (function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){ ga('create', 'UA-726094-1', 'auto'); ga('require', 'displayfeatures'); ga('set', 'dimension4', adb1); ga('set', 'dimension5', page_type);
(function() { ga('HGM.set', 'dimension1', user_type); var adcm_config ={ tags: ['hub_bigdata', 'hub_machine_learning', 'hub_algorithms', 'g_programming', 'g_data_management', 'g_machine_learning_and_artificial_intelligence'], Применить эту информацию можно в множестве приложений, от классических задач оптимизации обработки транзакций и кибербезопасности с выявлением мошенничества, вплоть до создания персональных финансовых ассистентов и сверх-таргетированного маркетинга. Современные банки не только превосходно понимают, чем живут их клиенты, но и могут моделировать, что может произойти с ними: будь то социальная группа в конкретном городе, отдельная индустрия или страна в целом. Это помогает банкам управлять своими рисками и рисками своих клиентов. Осталось самое важное — собрать DS-команду. Под data scientist понимается большое количество ролей — от бизнес-эксперта, который хорошо разбирается в переводе задач бизнеса на язык задач анализа, до разработчика алгоритмов в продакшен системах, включая также визуализаторов, аналитиков, математиков и промежуточные роли. Важно соблюдать баланс между решением реальных бизнес-задач и экспериментами с последними передовыми технологиями. При этом невозможно создавать передовые сервисы, если загнать аналитиков в сверх жесткие рамки и не давать им развиваться. Банкам приходится конкурировать с другими IT-компаниями за таланты. Специалисты в свою очередь пока не рассматривают банки как высокотехнологичные компании, в которых они могли бы проявить себя, использовать передовые технологии и решать интересные задачи. Чаще всего банки ассоциируются у таких людей с мощными бюрократическими машинами и офисными костюмами, но никак не с agile R&D командами и разработкой, где можно активно публиковать исследования и обмениваться опытом с ведущими специалистами на международных конференциях. А банку есть что рассказать и показать... Мы детектируем паттерны поведения клиентов банка по их транзакциям. Первые модели были связаны с дескриптивным анализом транзакционного поведения. Например, у клиента появились покупки, связанные с авто. Значит, теперь можно предложить ему продукты или услуги, полезные для автовладельцев. Следующая задача – предсказывать те или иные события, в том числе сам факт покупки. В дополнение к паттернам, с появлением тех или иных MCC-кодов становится возможным извлекать из данных достаточно интересные истории, в том числе связанные с накопительной деятельностью владельцев карт. То есть мы видим, кто из клиентов банка копит деньги, помогаем формировать для них новые предложения. На рисунке мы видим три кейса: покупка авто, ремонт в квартире/покупка мебели и затраты на лечение. Особенно ценно, если от клиента возможна обратная связь по предлагаемым ему продуктам. Поэтому необходимо делать модели, способные учитывать эту обратную связь. Во многом это тот же принцип, что лежит в основе моделей reinforcement learning, которые мы сейчас начинаем разрабатывать. Второй класс задач – предиктивные. Использовался метод рекуррентных нейронных сетей. У клиента большие накопления, то есть он, вероятно, планирует совершить крупную покупку: купить квартиру или машину. Используя методы с определенными свойствами, обеспечивающими применение reinforcement learning, мы можем адаптировать эти алгоритмы в режиме реального времени. Из новых подходов можно ещё отметить, что буквально недавно в Nature выходила статья того же DeepMind, где они рассказывают о том, как в нейросеть внедрили элементы машины Тьюринга. В результате нейросеть получила возможность обладать памятью, которой нейросетям на данном этапе не хватает. Задача решалась с помощью рекуррентных нейронных сетей. Такой выбор обоснован несколькими факторами. Параметры нейросети настраиваются с помощью модификаций метода стохастического градиентного спуска. Градиенты вычисляются по минибатчу - небольшому подмножеству объектов. Чтобы избежать ситуации переобучения, когда алгоритм хорошо работает на обучающих данных и плохо на тестовых, используется техника dropout. Транзакции были сгруппированы по пользователям и для каждого пользователя отсортированы по времени. Транзакций, для которых время неизвестно, обнаружено очень мало (несколько десятков), поэтому они были исключены из рассмотрения. В итоге данные были представлены в виде набора последовательностей категорий, по одной последовательности на каждого пользователя. Слишком короткие последовательности (длина меньше 110) были удалены из набора данных. Обучение рекуррентной сети производилось на языке программирования Python3.4 с применением библиотек numpy, theano, lasagne. Для вычисления контроля качества использовались средства модуля sklearn. Для выделения шаблонов трат клиентов был использован метод LDA. Цель LargeVis визуализации – отобразить пользователей с близкими профилями, так чтобы результирующие точки, соответствующие таким пользователям находились близко друг к другу, и наоборот, пользователей со значительно отличающимися профилями разместить дальше друг от друга. Исходя из этого соображения для изучения полученного отображения была реализована программа, позволяющая для любой точки плоскости выделить K ближайших точек, соответствующих клиентам. После чего по выбранным клиентом вычислялось среднее значение LDA-профиля, то есть для каждой темы было посчитано среднее проявление данной темы среди выбранных клиентов. Полученные усредненные профили показаны на следующем рисунке. Кроме усредненного профиля на гистограмме отображены стандартные отклонения проявления тем от среднего значения. Ожидается, что эта оптимизация поможет сократить издержки на управление наличным денежным обращением на величину до 10%. На практике это означает, что не надо тратить время на оценку рисков с точки зрения классического анализа. Можно обработать те данные, которые есть в системе, и получить статистически столь же релевантную метрику качества. Такую модель сейчас можно использовать только для формирования перечня предодобренных предложений. Со временем, если мы увидим, что качество потока сохранялось на текущем или более высоком уровне, а модель покажет более предсказательную точность, то ее можно будет использовать и в других случаях. Методы: Для задач автоматизации документооборота используются традиционные методы Natural Language Processing : морфологический и синтаксический анализ, методы извлечения сущностей (Named Entities), для автоматического разбора текста используется GLR парсер. Для задач генерации документов используются наборы правил, созданные экспертами. Методы: При разработке чатбота Сбербанк использует набор традиционных методов анализа текстов, таких как морфологический и синтаксический анализ. Также используются как традиционные так и оригинальные метрики близости/"похожести" тестов (для поиска наиболее подходящих для поступившего вопроса пар вопрос-ответ). Создана база «вопрос-ответ» в несколько тысяч пар которая будет расширяться. На данный момент используются правила разработанные опытными разработчиками (rule-based approach), в будущем при накоплении данных также будут использоваться современные статистические методы обучения, такие как deep learning. Трое data scientist из США (Harlan D. Harris, Sean Patrick Murphy, Marck Vaisman) провели опрос среди большого количества специалистов по данным, чтобы понять, каким же должен быть data scientist. По итогам опроса они выделили четыре группы специалистов по данным и соотнесли их со сферами деятельности. ➤ Data Business people (предприниматели) – группа специалистов, ориентированных на организационные вопросы и получение прибыли от проектов, связанных с данными. Как правило, это люди с инженерным или техническим образованием и степенью MBA. ➤ Data Creatives (приблизительно можно перевести как "свободные художники" данных) – специалисты, которые творчески подходят к анализу. Иногда это даже хакеры. Как правило, это люди из научной среды с академическим опытом, экономисты и статистики по образованию. ➤ Data Developer (девелоперы данных) - специалисты, сосредоточенные на технических проблемах управления данными: как получать, хранить данные и учиться на них. Эта группа изо дня в день пишет код, около половины имеют образование в сфере компьютерных наук, у них больше остальных групп прокачаны скиллы Big Data и машинного обучения. ➤ Data Researchers (исследователи данных) – учёные и исследователи данных, которые практикуют научную работу, публикуются в профильных изданиях, имеют научные степени. В этой группе наименьшее число людей, связанных с бизнесом. Респонденты ранжировали требуемые навыки по группам:
Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста. $(document).ready( function(){ // global vars var _paq = _paq || [];
gascrolldepth.init({ (function (d, w, c) { } catch(e) { } var n = d.getElementsByTagName("script")[0], if (w.opera == "[object Opera]") { function checkHeaderPos(){ $(window).on('scroll', function() { function drawguides(){ $("body").append(' '); var g=$('#guides'); var offset_left=parseInt((ww-1200)/2); if(ww=960){ '); '); '); if(ww<960){ '); var doit; function showguides(){ Автор:
function r(a,b){if(a.a==p){if(b==a)throw new TypeError;a.a=1;a.b=b;v(a)}}function v(a){l(function(){if(a.a!=p)for(;a.f.length;){var b=a.f.shift(),c=b[0],d=b[1],e=b[2],b=b[3];try{0==a.a?"function"==typeof c?e(c.call(void 0,a.b)):e(a.b):1==a.a&&("function"==typeof d?e(d.call(void 0,a.b)):b(a.b))}catch(h){b(h)}}})}n.prototype.g=function(a){return this.c(void 0,a)};n.prototype.c=function(a,b){var c=this;return new n(function(d,e){c.f.push([a,b,d,e]);v(c)})};
function w(a){return new n(function(b,c){function d(c){return function(d){h[c]=d;e+=1;e==a.length&&b(h)}}var e=0,h=[];0==a.length&&b(h);for(var k=0;k<a.length;k+=1)u(a[k]).c(d(k),c)})}function x(a){return new n(function(b,c){for(var d=0;d=y?b():document.fonts.load(I(c,'"'+c.family+'"'),k).then(function(c){1parseInt(b[1],10)||536===parseInt(b[1],10)&&11>=parseInt(b[2],10))),b=B&&(f==t&&g==t&&h==t||f==u&&g==u&&h==u||f==v&&g==v&&h==v)),b=!b;b&&(null!==d.parentNode&&d.parentNode.removeChild(d),clearTimeout(G),a(c))}function F(){if((new Date).getTime()-E>=y)null!==d.parentNode&&d.parentNode.removeChild(d),b(c);else{var a=document.hidden;if(!0===a||
void 0===a)f=e.a.offsetWidth,g=n.a.offsetWidth,h=p.a.offsetWidth,r();G=setTimeout(F,50)}}var e=new q(k),n=new q(k),p=new q(k),f=-1,g=-1,h=-1,t=-1,u=-1,v=-1,d=document.createElement("div"),G=0;d.dir="ltr";w(e,I(c,"sans-serif"));w(n,I(c,"serif"));w(p,I(c,"monospace"));d.appendChild(e.a);d.appendChild(n.a);d.appendChild(p.a);document.body.appendChild(d);t=e.a.offsetWidth;u=n.a.offsetWidth;v=p.a.offsetWidth;F();z(e,function(a){f=a;r()});w(e,I(c,'"'+c.family+'",sans-serif'));z(n,function(a){g=a;r()});
w(n,I(c,'"'+c.family+'",serif'));z(p,function(a){h=a;r()});w(p,I(c,'"'+c.family+'",monospace'))})})};"undefined"!==typeof module?module.exports=A:(window.FontFaceObserver=A,window.FontFaceObserver.prototype.load=A.prototype.load);}());
if( w.document.documentElement.className.indexOf( "fonts-loaded" ) > -1 ){ return; }
var FS400 = new w.FontFaceObserver("Fira Sans", { weight: 400 });
var FS500 = new w.FontFaceObserver("Fira Sans", { weight: 500 });
html.classList.add('fonts-loaded');
sessionStorage.fontsLoaded = true;
console.log('fonts-loaded');
}).catch(function () {
sessionStorage.fontsLoaded = false;
console.log('fonts-unloaded');
});
html.classList.add('fonts-loaded');
}
}(this));
(i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
})(window,document,'script','//www.google-analytics.com/analytics.js','ga');
ga('create', 'UA-726094-24', 'auto', {'name': 'HGM'});
ga('set', 'dimension1', user_type); // user type - guest/readonly/habrauser
var win = window;
var removeUtms = function(){
var location = win.location;
if (location.search.indexOf('utm_') != -1 && history.replaceState) {
history.replaceState({}, '', window.location.toString().replace(/(&|?)utm([_a-z0-9=]+)/g, ""));
}
};
ga('send', 'pageview', { 'hitCallback': removeUtms });
})();
ga('HGM.set', 'dimension2', "habrahabr");
ga('HGM.send', 'pageview');
id:1034,
platformId: 34,
init: function () {
window.adcm.call();
}
};DS, ML и люди, которые этим занимаются. Взгляд Сбербанка
window.tmidLogin = function(){ return false; };
if( $.cookie('tmid_no_check') === undefined ) {
var expire = new Date();
expire.setMinutes(expire.getMinutes() + 10 );
$.cookie('tmid_no_check', 1, { expires: expire } );
$.getScript("https://id.tmtm.ru/checklogin/", function(){
if( window.tmidLogin() ) {
var href = $('#login').attr('href');
if( href !== undefined ) {
window.location.href = href;
}
}
});
}
});
var g_base_url = 'habrahabr.ru';
var g_show_xpanel = false;
var g_base_fullurl = 'https://habrahabr.ru/';
var g_is_guest = false;
_paq.push(['trackPageView']);
_paq.push(['enableLinkTracking']);
(function() {
var u="//stats.tmtm.ru/";
_paq.push(['setTrackerUrl', u+'piwik.php']);
_paq.push(['setSiteId', '5']);
var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0];
g.type='text/javascript'; g.async=true; g.defer=true; g.src=u+'piwik.js'; s.parentNode.insertBefore(g,s);
})();
percentage: true,
PiwikGoal: true,
PiwikGoal20: 3,
PiwikGoal50: 15,
PiwikGoal70: 17,
PiwikGoal90: 19,
PiwikGoal100: 20
});
(w[c] = w[c] || []).push(function() {
try {
if (typeof (_yaparams) != 'undefined') {
w.yaCounter24049213 = new Ya.Metrika({id:24049213,
webvisor:true,
clickmap:true,
trackLinks:true,
accurateTrackBounce:true,
params:_yaparams});
} else {
w.yaCounter24049213 = new Ya.Metrika({id:24049213,
webvisor:true,
clickmap:true,
trackLinks:true,
accurateTrackBounce:true});
}
});
s = d.createElement("script"),
f = function () { n.parentNode.insertBefore(s, n); };
s.type = "text/javascript";
s.async = true;
s.src = (d.location.protocol == "https:" ? "https:" : "http:") + "//mc.yandex.ru/metrika/watch.js";
d.addEventListener("DOMContentLoaded", f, false);
} else { f(); }
})(document, window, "yandex_metrika_callbacks");
var topToHubs = $('.megapost-cover').offset().top + $('.megapost-cover').outerHeight();
var sT = $(this).scrollTop();
if (sT > topToHubs) {
$('.t199__js__header, .t199_js__header').fadeIn();
} else {
$('.t199__js__header, .t199_js__header').fadeOut();
}
}
checkHeaderPos();
});
if($("#guides").length)$("#guides").remove();
var ww=$(window).width();
var col_space=20;
var col_width=100;
for(i=0;i<13;i++){
var x1=(i*col_width)+offset_left-col_space;
var x2=(i*col_width)+offset_left+col_space;
var n=i+1;
if(i!=0)g.append('
if(i!=12)g.append('
if(i!=12)g.append('
}
}
var x=parseInt(ww/2);
g.append('
}
$(window).resize(function() {
if($("#guides").length){
clearTimeout(doit);
doit = setTimeout(drawguides, 300);
}
});
}
if($("#guides").length){
$("#guides").remove();
$("#guidesmenubutton").css("display","none");
}else{
drawguides();
$("#guidesmenubutton").css("display","block");
}
}
Комментарии (0)