Рубрика «data mining» - 17

Хотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Извлечение данных при машинном обучении - 1

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.

Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »

Как резидентные прокси помогают в бизнесе: реальный кейс использования Infatica в сфере Data Mining - 1

В нашем блоге мы не только пишем о технологиях обеспечения приватности, но и рассказываем о реальном применении сервиса Infatica для решения бизнес-задач. Сегодня речь пойдет о применении сервиса резидентных прокси в сфере Data Mining.Читать полностью »

Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»
Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»
Белый шум рисует черный квадрат - 1
Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:
1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?
Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.
Читать полностью »

ok.tech: Data Толк #2 - 1

7 августа в московском офисе Одноклассников состоится ok.tech: Data Толк #2, в этот раз мероприятие будет посвящено образованию в Data Science. Ни для кого не секрет, что сейчас вокруг работы с данным такой хайп, что только ленивый не задумывался над получением образования в области датасаенса. Кто-то считает, что без университетского образования стать датасаентистом – невозмножно, есть сторонники мнения, что можно обучиться работе с данными с помощью курсов, другие придерживаются позиции что хороший датасаентист это – практика и разносторонний подход. Мы соберем на своей площадке представителей разных мнений и дадим им возможность подискутировать на эту тему. Мероприятие пройдет в формате дискусси между спикерами, в этот раз с нами будут Евгений Соколов (ВШЭ, Яндекс.Дзен), Дмитрий Бугайченко (OK.ru), Пётр Ермаков (Lamoda, DataGym), Дмитрий Коробченко (Nvidia, GeekBrains, SkillBox, Digital October) и Виктор Кантор (Mail.ru Group). Мы приглашаем всех, кому интересна тема образования в DataScience присоединиться к мероприятию и высказать свою точку зрения. Учились на курсах, приходите и расскажите что это вам дало, считаете, что без PHD в анализе данных нельзя, приходите и расскажите почему, считаете, что датасентист должен уметь писать в прод, приходите – обсудим.

→ Регистрация на меропритие

Под катом мнения экспертов и расписание.
Читать полностью »

Привет, читатель.

Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

image

Итак, приступим.

Вводные курсы в Jupyter Notebook

Читать полностью »

Вот видишь ты на улице пёсика. Ты всегда видишь на улице пёсиков. Вот кто-то вообще их не замечает и не имеет хлопот, вот нет этих душевных терзаний, и вообще можно считать, что им на улице норм. Но ты же! И заметил, и глаза у тебя на мокром месте, такой думаешь: «пёсик. уаа, такой миленький, взял бы но не могу. Но вот прям точно, но никак». И пошёл такой дальше. Но пофотал его, погладил.

Собаку съел на нейронных сетях - 1

Вот таким добрым малым нужно кидать нам в систему геопозицию животинки на данный момент и пару фото.
Читать полностью »

Нейронная сеть может опознать котика на фотографии, найти диван, улучшить видеозапись, нарисовать картинку из щенят или простого наброска. К этому мы уже привыкли. Новости о нейросетях появляются почти каждый день и стали обыденными. Компании Grid Dynamics поставили задачу не обыденную, а сложную — научить нейросеть находить специфический шуруп или болт в огромном каталоге интернет-магазина по одной фотографии. Задачка сложнее, чем найти котика.

Как мы обучили нейронную сеть классифицировать шурупы - 1

Проблема интернет-магазина шурупов — в ассортименте. Тысячи или десятки тысяч моделей. У каждого шурупа свое описание и характеристики, поэтому на фильтры нет надежды. Что делать? Искать вручную или искать в гипермаркете на полках? В обоих случаях это потеря времени. В итоге клиент устанет и пойдет забивать гвоздь. Чтобы помочь ему, воспользуемся нейросетью. Если она может находить котиков или диваны, то пусть занимается чем-то полезным — подбирает шурупы и болты. Как научить нейросеть подбирать для пользователя шурупы быстро и точно, расскажем в расшифровке доклада Марии Мацкевичус, которая в компании Grid Dynamics занимается анализом данных и машинным обучением.
Читать полностью »

Продолжим анализировать баскетбольные данные с помощью R.

В отличие от прошлой статьи, носившей исключительно развлекательный характер, графики, которые будут построены в данной заметке, могут быть интересны с точки зрения анализа игры команды походу сезона.

А строить мы будем графики скользящего среднего для трёх видов рейтинга команд НБА: атакующего, оборонительного и net-рейтинга (т.е. разницы между первыми двумя). В двух словах о них. Атакующий и оборонительный рейтинги — это количество очков, набранных/пропущенных командой за 100 владений. NET рейтинг — это их разница также на сто владений. Кому интересно узнать о них более подробно, могут прочитать глоссарий на сайте basketball-reference. Там есть формула расчёта, которую я тоже реализовал с помощью R, но так пока и не опубликовал статью об этом.

Читать полностью »

Привет, читатель. Думаю, что ненужно рассказывать в который раз о том, что такое искусственный интеллект, какую пользу он несёт и для чего нужен. Перейду сразу к делу. Ниже собрал подборку сервисов на основе ИИ, которые могут упростить вам жизнь уже сегодня.

Свою статью я разделю на 3 части:

  • ИИ инструменты для личного использования;
  • Инструменты ИИ для бизнеса;
  • Инструменты ИИ для отраслевых бизнесов.

Меньше слов, больше данных.

image

Подборка сервисов на основе ИИ для личного использования:

Дом

  • Bridge Kitchen — помощник на кухне для пошагового приготовления еды;
  • UnifyID — автоматическая аутентификация пользователя в цифровой и физической среде.

Читать полностью »

Всем привет.

Поработав в 12 стартапах в сфере машинного обучения, я сделал восемь полезных выводов о продуктах, данных и людях.

Все стартапы были из разных сфер (финтех, биотехнологии, здравоохранение, технологии обучения) и на разных этапах: и на этапе pre-seed, и на этапе приобретения крупной компанией. Менялась и моя роль. Я был стратегическим консультантом, главой отдела анализа данных, заваленный делами штатным сотрудником. Все эти компании старались создать хороший продукт, и многим это удалось.

За время работы я пришел к таким выводам:

Продукт важнее ИИ

Эти стартапы разрабатывают продукты, а не изучают искусственный интеллект. Меня, как убежденного математика, сначала больше интересовало машинное обучение и создание новых методов и алгоритмов.

Вскоре я понял, что даже точные модели машинного обучения не ценны сами по себе. Ценность ИИ и машинного обучения напрямую зависит от ценности продукта, в котором они используются. Цель стартапа – научиться создавать продукты, основанные на машинном обучении.

При таком подходе иногда выясняется, что машинное обучение – не самый эффективный инструмент. Иногда дело не в поставленной задаче, а в процессе решения. Даже в таких ситуациях полезно обратиться к ученым: они используют научный, основанный на данных подход. Тем не менее, не тратьте время на ИИ там, где нужно исправить процесс. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js