Рубрика «data mining» - 74

Визуальная линейная аппроксимация с помощью Gnuplot

2015-03-13 в 9:55, admin, рубрики: data mining, Gnuplot, анализ данных, визуализация данных, линейная регрессия

Говорят, что нелинейная аппроксимация — это искусство, но и с обычной линейной дело, бывает, обстоит не просто.

Многие, наверно, помнят, что самый простой и довольно точный метод построения прямых МНК — это «прозрачной линейкой на глазок». Раньше, когда считали на калькуляторах, этот метод позволял экономить многие часы монотонных вычислений, но сейчас для заведомо линейных процессов это уже не актуально, аппроксимацию умеет мгновенно считать и рисовать даже Excel.

Однако при решении реальных задач часто приходится иметь дело с процессами, у которых модель неизвестна. В таких случаях бывает разумно строить кусочно-линейные аппроксимации. И вот тут, когда точных критериев построения просто не существует — метод «прозрачной линейки», основанный на «искусстве аппроксимации» (по простому — чуйке), опять становится актуальным.
Читать полностью »

Работа с метасетевыми структурами на Python – библиотека MetaNet

2015-03-11 в 14:33, admin, рубрики: data mining, open source, python, искусственный интеллект, метасети, нейронные сети, оппозитные сети, синтетическое познание

Когда видите единственное решение – спросите других

Работа с метасетевыми структурами на Python – библиотека MetaNet - 1

В данной статье я хотел бы рассказать о некоторых предпосылках появления инструмента для моделирования метасетей.

Автоматизация обучения

Изначально возникла проблема автоматизации обучения искусственных нейронных сетей с определёнными временными ограничениями. На пути ее решения был предложен подход к использованию оппозитных нейронных сетей [1]. Суть в том, что бы обучать две сети, одну как обычно:
Читать полностью »

Big Data как подростковый секс: все об этом говорят, но…

2015-03-10 в 14:51, admin, рубрики: big data, data mining, lazy data, Блог компании New Professions Lab, высокая производительность, зарплата, карьера, курс, машинное обучение, метки: Big data

Big Data как подростковый секс: все об этом говорят, но… - 1

Студент в Big Data получает 70 тысяч рублей в месяц, а специалист с опытом 3-4 года — 250 тысяч рублей в месяц. Это те, например, кто умеет персонализировать предложения розницы, искать в соцсети человека по анкетным данным заявки на кредит или по списку посещённых сайтов вычислять новую симку старого абонента.

Мы решили сделать профессиональный курс по Big Data без «воды», маркетинга и всяких эджайлов, только хардкор. Позвали практиков из 7 крупных компаний (включая Сбербанк и Oracle) и устроили, фактически, хакатон длиной во весь курс. Недавно у нас прошел день открытых дверей по программе, где мы напрямую спросили практиков, что же есть Big Data в России, и как компании на деле используют большие данные. Ниже ответы. Читать полностью »

Курс по Big Data: три месяца на основные знания, и зачем это нужно

Курс по Big Data: три месяца на основные знания, и зачем это нужно - 1

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015)

2015-03-10 в 8:52, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning, машинное обучение

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »

Google научился проверять факты в текстах

2015-03-05 в 14:07, admin, рубрики: data mining, freebase, Google, KBT, Knowledge Vault, Knowledge-Based Trust, pagerank, Научно-популярное, метки: Freebase, Knowledge Vault, Knowledge-Based Trust, PageRank

Раньше Google понижал в выдаче веб-страницы с маленьким количеством входящих ссылок. Скоро он научится «наказывать» страницы с текстом, который содержит недостоверные факты. Это следует из научной работы “Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources” от сотрудников Google.

Им удалось разработать систему, которая автоматически извлекает факты с веб-страниц, отличает ошибки парсинга от фактологических ошибок в тексте, а затем вычисляет уровень достоверности текста (оценка KBT, Knowledge-Based Trust). Эта оценка иногда является более объективным показателем, что рейтинг PageRank (по крайней мере, рейтинг KBT способен уточнить значение PageRank). Например, у сайтов с «жёлтыми» новостями часто больший рейтинг PageRank, потому что на них много входящих ссылок из-за вирусности контента. Но в то же время их нельзя считать надёжным источником информации.
Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №37 (23 февраля — 1 марта 2015)

2015-03-01 в 16:07, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning, машинное обучение

Обзор наиболее интересных материалов по анализу данных и машинному обучению №37 (23 февраля — 1 марта 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »

Как мы готовим будущих специалистов по большим данным

2015-02-27 в 12:11, admin, рубрики: big data, BigData, data mining, data science, Hadoop, machine learning, nosql, Блог компании New Professions Lab, машинное обучение, метки: hadoop, it образование

В эту субботу стартует наша программа “Специалист по большим данным”: она получилась такой насыщенной, что, кажется, в ближайшие три месяца у слушателей не останется никакого свободного времени. В этом посте я расскажу, как именно мы будем растить специалистов по Big Data, и как будет построен процесс обучения во время первого месяца.

Как мы готовим будущих специалистов по большим данным - 1

Центральный кейс на этот период — создание DMP-системы. DMP (data management platform) анализирует интернет-логи пользователей и, исходя из их поведения в сети, присваивает этим людям различные свойства или причисляет к определенным классам. Например, правильно настроенная DMP-система может определить пол и возраст человека и узнать, является ли он гаджетоманом или, скажем, фанатом люксовых фешн-брендов. Этот кейс мы разрабатываем совместно с компанией Data-Centric Alliance, они используют большие данные для настройки рекламных кампаний.Читать полностью »

Обучение на больших данных: Spark MLlib

2015-02-26 в 13:53, admin, рубрики: Apache, big data, data mining, Hadoop, python, spark, анализ данных, Большие данные, машинное обучение, разработка

Привет!

В прошлый раз мы познакомились с инструментом Apache Spark, который в последнее время становится чуть ли не самым популярным средством для обработки больших данных и в частности, Large Scale Machine Learning. Сегодня мы рассмотрим подробнее библиотеку MlLib, а именно — покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. Feature Engineering, о котором мы говорили ранее, причем не один раз).
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 74

Визуальная линейная аппроксимация с помощью Gnuplot

Работа с метасетевыми структурами на Python – библиотека MetaNet

Автоматизация обучения

Big Data как подростковый секс: все об этом говорят, но…

Курс по Big Data: три месяца на основные знания, и зачем это нужно

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015)

Google научился проверять факты в текстах

Обзор наиболее интересных материалов по анализу данных и машинному обучению №37 (23 февраля — 1 марта 2015)

Как мы готовим будущих специалистов по большим данным

Обучение на больших данных: Spark MLlib

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 74

Автоматизация обучения

Новости

Актуальные темы

Архив