Рубрика «data mining» - 15

Трип на Аляску, или KDD’19 глазами очевидца

2019-08-20 в 10:58, admin, рубрики: big data, data mining, kdd 2019, machine learning, антиплагиат, Блог компании «Антиплагиат», машинное обучение

Не секрет, что ученые очень любят исследовать мир. Поэтому крупные конференции всегда проходят в исторических и культурных столицах мира. Эти города удобны для посещения людям со всего мира и интересны с туристической точки зрения. Но иногда желание исследовать новое и неизведанное берет верх, и городом проведения конференции становится, например, Анкоридж на Аляске. Тоже о нем не слышали до этого? А в этом году там проходила одна из крупнейших конференций KDD'19.

Трип на Аляску, или KDD'19 глазами очевидца - 1

Мы в компании Антиплагиат не могли пропустить такое событие и отправились навстречу приключениям на другой конец земного шара. Что было на KDD 2019 — читайте в нашем обзоре!

Читать полностью »

Заметки с конференции ACL 2019

2019-08-19 в 11:37, admin, рубрики: acl, BERT, Conference, data mining, natural language processing, nlp, искусственный интеллект, конференции, машинное обучение

Заметки с конференции ACL 2019 - 1

Annual Meeting of the Association for Computational Linguistics (ACL) — это главная конференция в области обработки естественного языка. Она организуется с 1962 года. После Канады и Австралии она вернулась в Европу и проходила во Флоренции. Таким образом, в этом году у европейских исследователей она была более популярна, чем похожая на нее EMNLP.

В этом году было опубликовано 660 статей из 2900 присланных. Огромное количество. Вряд ли можно сделать какой-то объективный обзор того, что было на конференции. Поэтому я расскажу своих субъективных ощущениях от этого мероприятия.
Читать полностью »

Как один линуксовый администратор управлял детским хором системой распознавания нот под Ubuntu 16.04. Микрофон и аккорды

2019-08-17 в 2:16, admin, рубрики: data mining, diy или сделай сам, java, Блог компании РДТЕХ (Разумные Деловые Технологии), машинное обучение, музыка, Настройка Linux, распознавание образов, сделай сам

Что нужно, чтобы лето проходило весело? Нужна музыка! Но, если музыка записана нотами, а вы — обыкновенный системный администратор, а вам поручили задачу создать детский хор, то в качестве одного из вариантов решения этой проблемы, представляю несколько полезных программ, написанных на Java и доступных как в репозитарии Ubuntu 16.04, так и на Гитхабе для решения задачи машинного распознавания нот, создания музыкальных партий, выгрузку и редактирование получившегося музыкального продукта в популярные форматы и раздачу файлов (как и подзатыльников) отдельным исполнителям. Тема, я надеюсь, будет интересна читателям нашего блога.
Читать полностью »

«Золотое сечение» в экономике – что это?

2019-08-16 в 17:48, admin, рубрики: big data, data mining, Диаграмма Лоренца, доля рынка, распределение расходов, рентабельность, рынок, спираль Фибоначчи, стар-апы, Читальный зал, экономика

Несколько слов о «золотом сечении» в традиционном смысле

Считается, что если отрезок разделить на части таким образом, что меньшая его часть будет относиться к большей, как бОльшая – к целому отрезку, то такое разделение дает пропорцию 1/1,618, которую древние греки, позаимствовав ее у еще более древних египтян, назвали «золотым сечением». И что многие архитектурные сооружения – соотношения контуров строений, соотношение между их ключевыми элементами — начиная с египетских пирамид и кончая теоретическими построениями Ле Корбюзье — основывались на этой пропорции.
Ей же соответствуют числа Фибоначчи, спираль которого дает развернутую геометрическую иллюстрацию этой пропорции.

Более того, размеры человеческого тела (от подошв до пупка, от пупка до головы, от головы до пальцев поднятой руки), начиная от идеальных пропорций, увиденных в Средневековье (витрувианский человек и проч.), и кончая антропометрическими измерения населения СССР, довольно-таки близки к этой пропорции.
Читать полностью »

Применение машинного обучения и Data Science в промышленности

2019-08-15 в 13:52, admin, рубрики: big data, data mining, python, Блог компании Mail.Ru Group, искусственный интеллект, машинное обучение, наука и данных, промышленность

Хабр, привет. Написал пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.

Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.
Читать полностью »

Автоматическое определение эмоций в текстовых беседах с использованием нейронных сетей

2019-08-12 в 12:12, admin, рубрики: big data, data mining, emocontext, emotion detection, FastText, glove, keras, LSTM, python, semeval, semeval-2019, TensorFlow, word embeddings, word2vec, Блог компании Mail.Ru Group, векторное представление слов, долгая краткосрочная память, машинное обучение, рекуррентная нейронная сеть

Одна из основных задач диалоговых систем состоит не только в предоставлении нужной пользователю информации, но и в генерации как можно более человеческих ответов. А распознание эмоций собеседника – уже не просто крутая фича, это жизненная необходимость. В этой статье мы рассмотрим архитектуру рекуррентной нейросети для определения эмоций в текстовых беседах, которая принимала участие в SemEval-2019 Task 3 “EmoContext”, ежегодном соревновании по компьютерной лингвистике. Задача состояла в классификации эмоций (“happy”, “sad”, “angry” и “others”) в беседе из трех реплик, в которой участвовали чат-бот и человек.

В первой части статьи мы рассмотрим поставленную в EmoContext задачу и предоставленные организаторами данные. Во второй и третьей частях разберём предварительную обработку текста и способы векторного представления слов. В четвёртой части мы опишем архитектуру LSTM, которую мы использовали в соревновании. Код написан на языке Python с использованием библиотеки Keras.
Читать полностью »

Белый шум рисует черный квадрат. Часть 2. Решение

2019-08-09 в 20:15, admin, рубрики: big data, data analysis, data mining, machine learning, Алгоритмы, анализ данных, декомпозиция баз данных, математика, открытые данные, теорема Эрдёша-Реньи

В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной log_2{N}. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать полностью »

Web scraping с помощью R. Сравнение оценок фильмов на сайтах Кинопоиск и IMDB

2019-08-08 в 9:41, admin, рубрики: data mining, dataviz, R, scraping, анализ данных, визуализация данных, извлечение данных, скраппинг

Всемирная паутина — это океан данных. Здесь можно посмотреть практически любую интересующую Вас информацию. Однако, "вытащить" эту информацию из интернета уже сложнее. Есть несколько способов получить данные и web-scraping один из них. Читать полностью »

Книга «Предиктивное моделирование на практике»

2019-08-07 в 13:11, admin, рубрики: data mining, R, Алгоритмы, Блог компании Издательский дом «Питер», книги, Профессиональная литература

Привет, Хаброжители! «Предиктивное моделирование на практике» охватывает все аспекты прогнозирования, начиная с ключевых этапов предварительной обработки данных, разбиения данных и основных принципов настройки модели. Все этапы моделирования рассматриваются на практических примерах из реальной жизни, в каждой главе дается подробный код на языке R.

Эта книга может использоваться как введение в предиктивные модели и руководство по их применению. Читатели, не обладающие математической подготовкой, оценят интуитивно понятные объяснения конкретных методов, а внимание, уделяемое решению актуальных задач с реальными данными, поможет специалистам, желающим повысить свою квалификацию.

Авторы постарались избежать сложных формул, для усвоения основного материала достаточно понимания основных статистических концепций, таких как корреляция и линейный регрессионный анализ, но для изучения углубленных тем понадобится математическая подготовка.
Читать полностью »

Дайджест новостей машинного обучения и искусственного интеллекта за июль

2019-08-05 в 8:54, admin, рубрики: big data, data mining, Блог компании Mail.Ru Group, будущее, дайджест, данные, искусственный интеллект, машинное обучение, Новости

Привет, читатель! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости. В конце статьи вас ждут бонус и немного юмора.

Для тех, кто не читал дайджест за июнь, можете прочесть его здесь.

Итак, теперь собственно июльский дайджест.

1. ВКонтакте опубликовали библиотеку для предобработки текстовых данных. YouTokenToMe — это библиотека для предобработки текстовых данных. Инструмент работает в 7-10 раз быстрее аналогов для текстов на алфавитных языках и в 40-50 на иероглифических языках. Библиотека была разработана исследователями из ВКонтакте. → Подробнее

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 15

Трип на Аляску, или KDD’19 глазами очевидца

Заметки с конференции ACL 2019

Как один линуксовый администратор управлял детским хором системой распознавания нот под Ubuntu 16.04. Микрофон и аккорды

«Золотое сечение» в экономике – что это?

Несколько слов о «золотом сечении» в традиционном смысле

Применение машинного обучения и Data Science в промышленности

Автоматическое определение эмоций в текстовых беседах с использованием нейронных сетей

Белый шум рисует черный квадрат. Часть 2. Решение

Web scraping с помощью R. Сравнение оценок фильмов на сайтах Кинопоиск и IMDB

Книга «Предиктивное моделирование на практике»

Дайджест новостей машинного обучения и искусственного интеллекта за июль

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 15

Несколько слов о «золотом сечении» в традиционном смысле

Новости

Актуальные темы

Архив