Главная

Рубрика «random forest» - 2

Машинное обучение вместо DPI. Строим классификатор трафика

2016-07-06 в 15:33, admin, рубрики: deep packet inspection, machine learning, networking, python, random forest, машинное обучение, Сетевые технологии

Вряд ли можно представить мир современных сетевых технологий без DPI (deep packet inspection – глубокий анализ пакетов). На нём держатся системы обнаружения сетевых атак, львиная доля политик безопасности корпоративных сетей, шейпинг и блокировка пользовательского трафика оператором связи – да-да, чтобы выполнять требования Роскомнадзора, средства DPI обязан иметь каждый провайдер.

И всё-таки, при всей своей востребованности, DPI – затратный зверь. На магистральных линиях связи стоимость аппаратного решения (о софте тут речь идти не может) исчисляется миллионами зелёных американских человечков. А программные решения вроде OpenDPI подходят только для небольших корпоративных и кампусных сетей. Дело всё в том, что быстро определить протокол прикладного уровня по шаблону, коих могут быть тысячи — задача очень ресурсоёмкая.

В данной статье я хочу предложить способ эффективного решения одной из главных задач DPI – определения протокола прикладного уровня – при этом не сверяясь со списком широко известных портов (well-known ports) и не глядя в полезную нагрузку пакетов. Вообще.
Читать полностью »

Методические заметки об отборе информативных признаков (feature selection)

2016-06-28 в 22:37, admin, рубрики: data mining, feature selection, gradient boosted trees, R, random forest, машинное обучение, нейронные сети, отбор информативных признаков, регрессия, статистика, теория информации, метки: feature selection, отбор информативных признаков

Всем привет!

Меня зовут Алексей. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных.

В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением пациентов. В двух словах смысл этой статьи можно свести к извлечению ценных крупиц знания, содержащихся в небольшой доле доступных нам зашумленных и избыточных гигабайтов данных.

Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных компонент.

Читать полностью »

Мешок слов и сентимент-анализ на R

2015-04-07 в 9:12, admin, рубрики: data mining, kaggle, R, random forest, машинное обучение, мешок слов, сантимент-анализ, метки: R, R, random forest, мешок слов, сантимент-анализ

Эта статья подготовлена по мотивам (первой части) учебного задания Bag of Words Kaggle, но это не перевод. Оригинальное задание сделано на Python. Я же хотел оценить возможности языка R для обработки текстов на естественном языке и заодно попробовать реализацию Random Forest в обертке R-пакета caret.

Смысл задания – построить «машину», которая будет определенным образом обрабатывать обзоры фильмов на английском языке и определять тональность обзора, относя его к одному из двух классов: негативные/позитивные. В качестве обучающей выборки в задании используется набор данных с двадцатью пятью тысячами ревю из IMDB, размеченных неизвестными добровольцами.
Читать полностью »

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

2013-01-22 в 7:03, admin, рубрики: data mining, kaggle, machine learning, random forest, Алгоритмы, машинное обучение, переводы, Статистика в IT

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают
Джереми Ховард — президент и «главный по науке» компании Kaggle, превратившей статистическое прогнозирование в спорт.

Peter Aldhous: Kaggle называет себя онлайн-биржей мозгов. Расскажите об этом.

Джереми Ховард: Это веб-сайт, на котором размещают конкурсы по статистическому прогнозированию. Мы провели много удивительных конкурсов. Например, разработка алгоритма оценки студенческих рефератов. Или вот недавно закончился конкурс на разработку системы обучения Microsoft Kinect жестам. Идея состояла в том, чтобы показать контроллеру жест один раз, а алгоритм должен обучиться распознавать такие жесты в будущем. Еще один конкурс — прогнозирование биологических свойств молекул при скрининге на возможные наркотические свойства.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «random forest» - 2

Машинное обучение вместо DPI. Строим классификатор трафика

Методические заметки об отборе информативных признаков (feature selection)

Мешок слов и сентимент-анализ на R

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «random forest» - 2

Машинное обучение вместо DPI. Строим классификатор трафика

Методические заметки об отборе информативных признаков (feature selection)

Мешок слов и сентимент-анализ на R

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

Новости

Актуальные темы

Архив