Рубрика «data mining» - 19

Создаём нейронную сеть, предсказывающую рак груди за пять минут

2019-06-30 в 13:08, admin, рубрики: big data, data mining, python, диагностика, искусственный интеллект, лайфхак, нейронная сеть, Программирование, рак груди

Привет.

Создать такую нейронную сеть — просто.

Минута первая: введение

Этот высокоуровневый урок рассчитан на новичков в машинном обучении и искусственном интеллекте. Для того, чтобы успешно создать нейронную сеть, необходимо:

Установленный Python;
Как минимум начальный уровень программирования;
Пять минут свободного времени.

Мы пропустим много деталей работы нейронной сети, не будем углубляться в теоретическую часть, а сфокусируемся на предсказании рака за 5 минут.

Для построения предсказаний будем использовать имплементацию нейронной сети из библиотеки scikit-learn. Сами же предсказания будут основаны на данных из датасета Калифорнийского университета в Ирвайн “Breast Cancer Wisconsin” (рак груди, Висконсин). На вход нейронной сети подаются свойства клеточных ядер новообразования (например, строение), а на выходе мы получаем предсказание: злокачественное или доброкачественное новообразование.Читать полностью »

Глубокое ранжирование для сравнения двух изображений

2019-06-27 в 12:30, admin, рубрики: big data, data mining, глубокое машинное обучение, глубокое обучение, свёрточная нейросеть, сверточные нейронные сети

Привет! Представляю вашему вниманию перевод статьи «Image Similarity using Deep Ranking» автора Akarsh Zingade.

Алгоритм Deep Ranking

Понятия "сходства двух изображений" — введено не было, поэтому давайте введем данное понятие хотя бы в рамках статьи.

Сходство двух изображений — это результат сравнения двух изображений по определенным критериям. Его количественная мера определяет степень сходства между диаграммами интенсивности двух изображений. С помощью меры сходства сравниваются какие-то признаки, описывающие изображения. В качестве меры сходства обычно применяется: расстояние Хемминга, евклидово расстояние, расстояние Манхэттена и т. д.
Читать полностью »

Как настроить веб-аналитику на AMP страницах

2019-06-26 в 17:00, admin, рубрики: amp, data mining, gtm, wrike, wriketechclub, аналитика, Блог компании Wrike, веб-аналитика, медийная реклама, Разработка веб-сайтов

Привет. Я data-аналитик отдела маркетинга Wrike: занимаюсь сбором и анализом всех рекламных данных, моделированием LTV и другими техническими задачами, помогающими команде делать самую эффективную рекламу во всех источниках. Недавно я столкнулся с проблемой настройки сбора данных на AMP-страницах и обнаружил совсем мало информации по теме, поэтому решил рассказать вам, как справиться с этой задачей.

Как настроить веб-аналитику на AMP страницах - 1
Читать полностью »

Армия троллей

2019-06-20 в 13:32, admin, рубрики: data mining, twitter, twitter api, анализ данных, веб-аналитика, тролли

Есть тролли обыкновенные. Они развлекаются в комментариях к новостям и статьям, развлекают народ и обогащают эмоциями дискуссии, чаще милые и безобидные. Они сами по себе и действуют в своих интересах. А есть другие, которые выступают под флагами неведомых сил, их влечет блеск золота, они беспощадны и готовы крушить все на своем пути. Их целое полчище… стихия, управляемая чужими интересами.

Платный троллинг (вики)

Платный троллинг — действия организованных групп интернет-пользователей, за денежное вознаграждение занимающихся формированием общественного мнения в определённом направлении и манипуляциями общественным мнением в Интернете. Используются обычно в политических целях, зачастую правительствами, и имеют разные названия в зависимости от страны или организации, которую представляют

Далее речь пойдет о троллях, действующих в чужих интересах, и чаще всего в интересах государств. Их цель — пустить пыль в глаза и сформировать ложное общественное мнение на острые события. Такой троллинг развивается во многих странах. В статье Bloomberg Россию называют мастером спорта в этом деле, ключевым экспортером данной тактики и родиной троллинга.

Под катом особенности российских троллей и их цифровой след на платформе Twitter
Читать полностью »

Краудсорсинг в ML Boot Camp. Считаем mIOU без картинок для новой задачи от Одноклассников

2019-06-19 в 16:01, admin, рубрики: big data, data mining, machine learning, Machine Learning Boot Camp, mail.ru, ML Boot Camp, Блог компании Mail.Ru Group, машинное обучение, ненормальное программирование

Привет! Лето — жаркое. Организаторы «айтишных» чемпионатов много сидели на солнце, сгорели и схватили удар, но главное — собрали новую задачу для очередного (уже девятого) контеста на платформе ML Boot Camp. Чемпионат пройдёт онлайн в течение месяца.

Краудсорсинг в ML Boot Camp. Считаем mIOU без картинок для новой задачи от Одноклассников - 1

Сейчас на платформе зарегистрировано более 10 тысяч специалистов. Часто бывает, что задачи, которые на ней появляются, не всем по зубам (богам Kaggle в том числе). Для чего мы это делаем? Нужно развиваться и пробовать, причем на реальных данных, а не синтетическом булшите. Победы придут со временем.

Задача, которую хотим предложить вам решить в этом соревновании, отличается от всех предыдущих. Тема задачи — это детектирование объектов на изображениях. Формулировка задачи подразумевает, что в наборе данных будут картинки, но, что забавно, их нет. И это не петабайты данных. И даже не гигабайты.
Читать полностью »

Как мы создали систему оповещения о ядерной угрозе, или как я обучил нейросеть на заголовках Хабра

2019-06-17 в 4:49, admin, рубрики: data mining, LSTM, python, глубокое обучение, искусственный интеллект, математика, машинное обучение, нейронные сети

Заголовок статьи может показаться странным и это неспроста — он прекрасен именно тем, что написал его не я, а LSTM-нейросеть (а точнее его часть перед "или").

Как мы создали систему оповещения о ядерной угрозе, или как я обучил нейросеть на заголовках Хабра - 1

(схема LSTM взята из Understanding LSTM Networks)

И сегодня мы разберёмся, как можно генерировать заголовки статей Хабра (и в принципе сам текст можно генерировать этой же нейро-архитектурой). Весь код доступен для запуска онлайн в notebooks от Гугла. Данные, как всегда, открыты на github.

А вот здесь можно запустить уже обученную модель на GPU от Гугла (бесплатно и без смс) и собственно погенерить заголовки.

Читать полностью »

Обучение логистической регрессии с L1 и L2 регуляризациями с методом SGD

2019-06-15 в 11:38, admin, рубрики: big data, data mining, python, анализ данных, искусственный интеллект, логистическая регрессия, машинное обучение, регуляризация, стахостический градиентный спуск

Хабр, привет.

Сегодня у нас пост с интересным заданием — будем обучать логистическую регрессию с L1 и L2 регуляризациями с помощью метода Stochastic Gradient Descent (SGD).

Перед тем как приступить к статье и коду, беглым шагом пробежимся по основным понятиям L1 и L2 регуляризации, логистической регрессии и стахостического градиентного спуска (Stochastic Gradient Descent — SGD).Читать полностью »

О применении параметрических методов спектрального оценивания в радиолокации — метод MUSIC. Дополнение к статье

2019-06-09 в 10:45, admin, рубрики: data mining, EVD, MDVR, music, RootMUSIC, SVD, Алгоритмы, математика, спектральное оценивание

Попалась мне неплохая статья, про метод спектрального оценивания, который отлично подходит для короткого сигнала из суммы слабозашумленных гармоник. (-копия) Возможно, мои комментарии помогут читателю вникнуть в суть метода. Что немного огорчило, так это не до конца реализованные возможности метода. Метод применен для радиолокации — для быстрого определения направления на приходящие сигналы (угла θ) с последующей целью автоматической, надо понимать, адаптации системы. Но — численного определения этого угла автор не производит (причем по контексту это странно), хотя это определение вполне возможно. Имеем только красивые графики, по которым, получается, системе надо еще «ползать» и «ползать», определяя количество и расположение максимумов, что не совсем хорошо.

Иллюстрация автора упомянутой статьи
Читать полностью »

Решаем задачи на принятие решений на основе данных

2019-06-06 в 16:20, admin, рубрики: data mining, анализ данных, аналитика, визуализация данных, графики и диаграммы, задачи на смекалку, Занимательные задачки

Сейчас многие и очень многие люди (обычно их называют аналитиками, но в целом это может быть какая угодно специальность) готовят различные красивые таблицы и графики, на основании которых в идеале должны приниматься важные решения.

Понятия, которые начинаются со слов Data Driven, сейчас на слуху.

Но не всегда решения принимаются действительно на основе данных. А иногда с принятием решений есть объективные проблемы.

Материалов о том, как хорошие данные генерировать, хранить и красиво подавать достаточно.
Всем желающим немного поупражняться именно в принятии решений на основе кое-как полученных и кое-как оформленных данных — добро пожаловать под кат.
Читать полностью »

Сложные базы данных

2019-05-30 в 15:33, admin, рубрики: big data, data mining, nosql, sql, базы данных, верификация, Модель данных, поиск информации, Программирование

О том, что объёмы данных, сложность их структуры, сложность связей между ними растут совершенно невероятными темпами, пишут на каждом заборе уже много лет. Вопрос же о том, что делать со всей этой свалкой обычно повисает в воздухе. Или, точнее, упирается в понятие «модель данных».Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 19

Создаём нейронную сеть, предсказывающую рак груди за пять минут

Минута первая: введение

Глубокое ранжирование для сравнения двух изображений

Алгоритм Deep Ranking

Как настроить веб-аналитику на AMP страницах

Армия троллей

Краудсорсинг в ML Boot Camp. Считаем mIOU без картинок для новой задачи от Одноклассников

Как мы создали систему оповещения о ядерной угрозе, или как я обучил нейросеть на заголовках Хабра

Обучение логистической регрессии с L1 и L2 регуляризациями с методом SGD

О применении параметрических методов спектрального оценивания в радиолокации — метод MUSIC. Дополнение к статье

Решаем задачи на принятие решений на основе данных

Сложные базы данных

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 19

Минута первая: введение

Алгоритм Deep Ranking

Новости

Актуальные темы

Архив