Рубрика «машинное обучение» - 137

Весной этого года проходил знаменательный Retro Contest от OpenAI, который был посвящен обучению с подкреплением, meta learning и, конечно же, Sonic’у. Наша команда заняла 4 место из 900+ команд. Область обучения с подкрепление немного отличается от стандартного машинного обучения, а уж этот контест отличался от типичного соревнования по RL. За подробностями прошу под кат.

image


Читать полностью »

Машинное обучение продолжает проникать в индустрии за пределами интернет-отрасли. На конференции Data&Science «Мир глазами роботов» Александр Белугин из компании «Цифра» рассказал об успехах, сложностях и актуальных задачах на этом пути. Внедрение таких технологий, как компьютерное зрение, требует серийности и продуктового подхода, позволяющего снизить стоимость единичных внедрений. Дело в том, что видов задач на производстве очень много. Из доклада можно узнать о продуктах, мировых трендах и опыте команды Александра в сферах промышленной безопасности и автоматизации процессов.

— Доброе утро. Рад, что все пришли на эту интересную конференцию. Я сначала кратко расскажу про компанию «Цифра», затем — немного о задачах, которые стоят в промышленности, и о типовых способах решения таких задач. Это задачи без роботов, не сборочные, а разные процессные производства. В конце немного рассмотрим наш опыт.
Читать полностью »

«Наши сайнтисты сгенерировали кучу графиков, а мы совершенно не знаем, куда их девать. Давайте попробуем их хоть как-то пристроить». (с) подслушано

«Плохие графики везде. В моей работе я постоянно встречаю крайне сомнительные визуализации данных. Никто не делает плохие графики намеренно. Но это происходит. Опять и опять. В каждой компании во всех отраслях экономики сотрудниками всех уровней. Это происходит в СМИ. Это происходит там, где вы ожидаете, что люди должны уметь визуализировать данные». (с) автор книги

Это происходит и здесь, на Хабре: просматривая статьи в потоке «Визуализация данных», часто ловлю себя на мысли, что не понимаю и не могу схватить суть того, что отображено. В статье рассмотрим несколько примеров. И что самое неприятное для меня, это происходит и в моей работе тоже. Не постоянно, но чаще, чем хотелось бы.

«Storytelling with Data», Cole Nussbaumer Knaflic: неформальный обзор-конспект книги - 1

Название книги «Storytelling with Data» звучало убедительно. Выбрал её для вечернего чтения и не пожалел. В книге нет формул, хитрых и необычных графиков, сложных кейсов. Понятный английский. Качественная печать. Читается как художественная литература. Книга будет полезна всем, кому приходится делать презентации на основе данных. Думаю, что особенную пользу она принесёт тем, кто занимается аналитикой данных.

Этот обзор очень неформальный: вперемешку идут мысли автора книги, мои мысли, ситуации из моей работы, а также шпаргалки по matplotlib по ссылкам. Будет много картинок. Почти все иллюстрации перерисованы из книги на Python.
Читать полностью »

В рамках поддержки продукта мы постоянно обслуживаем обращения от пользователей. Это — стандартный процесс. И как любой процесс, его нужно регулярно критически оценивать и улучшать.

Мы знаем о некоторых систематически проблемах, которые хорошо-бы решить и, по возможности, без привлечения дополнительных ресурсов:

  • ошибки в диспетчеризации заявок: мы получаем что-то "чужое", другие команды иногда получают что-то "наше".
  • сложно оценить "сложность" заявки. Если заявка сложная — ее можно передать сильному аналитику, а с простой — и начинающий справится.

Решение любой из указанных задач будет положительно влиять на скорость обработки заявок.

Применение машинного обучения, в приложении к анализу содержания заявки, выглядит как реальная возможность улучшить процесс диспетчеризации.

В нашем случае задачу можно сформулировать следующими задачами классификации:

  1. Убедиться, что запрос корректно отнесен к:
    • конфигурационной единице (одна из 5 в рамках приложения или "другие")
    • категории обслуживания (инцидент, запрос информации, сервисный запрос)
  2. Оценить ожидаемое время на закрытия запроса (как высокоуровневый индикатор "сложности").Читать полностью »

Итак, вы разработали и натренировали свою нейронную сеть, для выполнения какой-то задачи (например то же распознавание объектов через камеру) и хотите внедрить ее в свое приложение на андроид? Тогда добро пожаловать под кат!
Читать полностью »

Пара мыслей об особенностях Российского Data Science - 1

Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.

Читать полностью »

В последнее время тема искусственного интеллекта стала в СМИ одним из мэйнстримов и нас все чаще пугают пророчествами от многих известных людей, как например, от Стивена Хокинга (вселенная ему пухом) или Илона Маска, об опасности его развития. Подобная алармистская риторика подразумевает, что собственно искусственный интеллект, во-первых, станет субъектом, а во-вторых, будет иметь негативные намерения в отношении как отдельных людей, так и всего человечества в целом. Вот об этих предположениях давайте и поговорим подробнее.
Читать полностью »

Привет! Представляю вашему вниманию перевод статьи " Machine learning can control tsetse flies аnd thus reduce sleeping sickness".

Самки мухи цеце спариваются один раз в жизни, что дает возможность контролировать размеры популяции этих вредных насекомых. Так у самки, которая спаривается с бесплодным самцом, не будет потомства. При контроле достаточного количества спариваний, в результате можно снизить их популяцию, следовательно, снизить уровень заболеваемости сонной болезни среди людей и крупного рогатого скота.

Исследование, проводимое в Сенегале, показало, что эта идея осуществима. За последние пять лет самцы мухи цеце, стерилизованные с использованием гамма-лучей, выпускались три раза в неделю в зараженные районы. Это позволило снизить местную популяцию мух на 98%, с соответствующим снижением заболеваемости сонной болезнью. Но такие проекты требуют огромного количества стерильных самцов, которых нужно разводить и доставлять своевременно, а это сложно.

Одна из проблем, заключается в том, что разведение самцов неизбежно затрагивает и размножение самок. Сортировка по половой принадлежности необходима для того чтобы производить облучение исключительно самцов. Элементарное облучение обоих полов вызывает проблемы, поскольку для стерилизации самок требуется более высокая доза облучения, которая может вызвать гибель самцов. Сортировка Цеце заключается в выжидании, пока мухи не вылупятся из куколок. Одновременно охлаждая их, чтобы уменьшить метаболизм и, следовательно, их активность. Отделение самцов от самок производится вручную при помощи кисточки. Самец отличается от самки наличием усиков, что помогает его идентифицировать. Этот процесс является эффективным, но трудозатратным и занимающим много времени. Зелда Моран из Колумбийского университета, считает, что есть способ лучше.
Читать полностью »

Как выявляют риски в госконтроле и зачем для этого машинное обучение - 1

В предыдущей статье на тему государственного риск-менеджмента мы прошлись по основам: зачем государственным органам управлять рисками, где их искать и какие существуют подходы к оценке. Сегодня поговорим о процессе анализа рисков: как выявить причины их возникновения и обнаружить нарушителей.
Читать полностью »

Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.

Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью - 1

Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.
 
И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.
 
Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.
 
Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js