Рубрика «data mining» - 15

Не секрет, что ученые очень любят исследовать мир. Поэтому крупные конференции всегда проходят в исторических и культурных столицах мира. Эти города удобны для посещения людям со всего мира и интересны с туристической точки зрения. Но иногда желание исследовать новое и неизведанное берет верх, и городом проведения конференции становится, например, Анкоридж на Аляске. Тоже о нем не слышали до этого? А в этом году там проходила одна из крупнейших конференций KDD'19.

Трип на Аляску, или KDD'19 глазами очевидца - 1

Мы в компании Антиплагиат не могли пропустить такое событие и отправились навстречу приключениям на другой конец земного шара. Что было на KDD 2019 — читайте в нашем обзоре!

Читать полностью »

Заметки с конференции ACL 2019 - 1

Annual Meeting of the Association for Computational Linguistics (ACL) — это главная конференция в области обработки естественного языка. Она организуется с 1962 года. После Канады и Австралии она вернулась в Европу и проходила во Флоренции. Таким образом, в этом году у европейских исследователей она была более популярна, чем похожая на нее EMNLP.

В этом году было опубликовано 660 статей из 2900 присланных. Огромное количество. Вряд ли можно сделать какой-то объективный обзор того, что было на конференции. Поэтому я расскажу своих субъективных ощущениях от этого мероприятия.
Читать полностью »

Что нужно, чтобы лето проходило весело? Нужна музыка! Но, если музыка записана нотами, а вы — обыкновенный системный администратор, а вам поручили задачу создать детский хор, то в качестве одного из вариантов решения этой проблемы, представляю несколько полезных программ, написанных на Java и доступных как в репозитарии Ubuntu 16.04, так и на Гитхабе для решения задачи машинного распознавания нот, создания музыкальных партий, выгрузку и редактирование получившегося музыкального продукта в популярные форматы и раздачу файлов (как и подзатыльников) отдельным исполнителям. Тема, я надеюсь, будет интересна читателям нашего блога.
Читать полностью »

Несколько слов о «золотом сечении» в традиционном смысле

Считается, что если отрезок разделить на части таким образом, что меньшая его часть будет относиться к большей, как бОльшая – к целому отрезку, то такое разделение дает пропорцию 1/1,618, которую древние греки, позаимствовав ее у еще более древних египтян, назвали «золотым сечением». И что многие архитектурные сооружения – соотношения контуров строений, соотношение между их ключевыми элементами — начиная с египетских пирамид и кончая теоретическими построениями Ле Корбюзье — основывались на этой пропорции.
Ей же соответствуют числа Фибоначчи, спираль которого дает развернутую геометрическую иллюстрацию этой пропорции.

Более того, размеры человеческого тела (от подошв до пупка, от пупка до головы, от головы до пальцев поднятой руки), начиная от идеальных пропорций, увиденных в Средневековье (витрувианский человек и проч.), и кончая антропометрическими измерения населения СССР, довольно-таки близки к этой пропорции.
Читать полностью »

Хабр, привет. Написал пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.

image

Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.
Читать полностью »

Автоматическое определение эмоций в текстовых беседах с использованием нейронных сетей - 1

Одна из основных задач диалоговых систем состоит не только в предоставлении нужной пользователю информации, но и в генерации как можно более человеческих ответов. А распознание эмоций собеседника – уже не просто крутая фича, это жизненная необходимость. В этой статье мы рассмотрим архитектуру рекуррентной нейросети для определения эмоций в текстовых беседах, которая принимала участие в SemEval-2019 Task 3 “EmoContext”, ежегодном соревновании по компьютерной лингвистике. Задача состояла в классификации эмоций (“happy”, “sad”, “angry” и “others”) в беседе из трех реплик, в которой участвовали чат-бот и человек.

В первой части статьи мы рассмотрим поставленную в EmoContext задачу и предоставленные организаторами данные. Во второй и третьей частях разберём предварительную обработку текста и способы векторного представления слов. В четвёртой части мы опишем архитектуру LSTM, которую мы использовали в соревновании. Код написан на языке Python с использованием библиотеки Keras.
Читать полностью »

В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной log_2{N}. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать полностью »

image

Всемирная паутина — это океан данных. Здесь можно посмотреть практически любую интересующую Вас информацию. Однако, "вытащить" эту информацию из интернета уже сложнее. Есть несколько способов получить данные и web-scraping один из них. Читать полностью »

imageПривет, Хаброжители! «Предиктивное моделирование на практике» охватывает все аспекты прогнозирования, начиная с ключевых этапов предварительной обработки данных, разбиения данных и основных принципов настройки модели. Все этапы моделирования рассматриваются на практических примерах из реальной жизни, в каждой главе дается подробный код на языке R.

Эта книга может использоваться как введение в предиктивные модели и руководство по их применению. Читатели, не обладающие математической подготовкой, оценят интуитивно понятные объяснения конкретных методов, а внимание, уделяемое решению актуальных задач с реальными данными, поможет специалистам, желающим повысить свою квалификацию.

Авторы постарались избежать сложных формул, для усвоения основного материала достаточно понимания основных статистических концепций, таких как корреляция и линейный регрессионный анализ, но для изучения углубленных тем понадобится математическая подготовка.
Читать полностью »

Привет, читатель! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости. В конце статьи вас ждут бонус и немного юмора.

Для тех, кто не читал дайджест за июнь, можете прочесть его здесь.

Итак, теперь собственно июльский дайджест.

1. ВКонтакте опубликовали библиотеку для предобработки текстовых данных. YouTokenToMe — это библиотека для предобработки текстовых данных. Инструмент работает в 7-10 раз быстрее аналогов для текстов на алфавитных языках и в 40-50 на иероглифических языках. Библиотека была разработана исследователями из ВКонтакте. → Подробнее

image
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js