Рубрика «big data» - 18

Скандал на конкурсе Kaggle: победитель сжульничал, алгоритм плохо оценивает шанс бездомных животных найти хозяев

2020-01-16 в 16:55, admin, рубрики: big data, data science, kaggle, kaggle competition, Алгоритмы, конкурс kaggle, машинное обучение, Программирование, Спортивное программирование, финансы в IT

Скандал на конкурсе Kaggle: победитель сжульничал, алгоритм плохо оценивает шанс бездомных животных найти хозяев - 1

Kaggle — система организации конкурсов по исследованию данных, принадлежащая компании Google — обнаружила мошенничество в результатах одного из своих конкурсов. Победителя конкурса отстранили от участия в дальнейших соревнованиях.

Kaggle регулярно организует конкурсы в сфере обработки данных и машинного обучения. Призы на этих конкурсах могут достигать десятков тысяч долларов. На прошлой неделе компания объявила, что команда-победитель конкурса, который состоялся в прошлом году и был посвящён улучшению работы сайта по поиску хозяев для бездомных животных, выиграла обманом. Читать полностью »

Использование машинного обучения в статическом анализе исходного кода программ

2020-01-16 в 12:23, admin, рубрики: artificial intelligence, big data, BigData, Clever-Commit, CodeGuru, Commit Assistant, DeepCode, Embold, github, Infer, mashine learning, ml, pvs-studio, SapFix, Sapienz, static code analysis, static code analyzer, Блог компании PVS-Studio, Большие данные, искусственный интеллект, машинное обучение, Программирование, статический анализ кода, статический анализатор

Машинное обучение плотно укоренилось в различных сферах деятельности людей: от распознавания речи до медицинской диагностики. Популярность этого подхода столь велика, что его пытаются использовать везде, где только можно. Некоторые попытки заменить классические подходы нейросетями оканчиваются не столь уж успешно. Давайте взглянем на машинное обучение с точки зрения задач создания эффективных статических анализаторов кода для поиска ошибок и потенциальных уязвимостей.
Читать полностью »

Keras Functional API в TensorFlow

2020-01-13 в 12:37, admin, рубрики: big data, functional api, keras, python, TensorFlow, искусственный интеллект, машинное обучение, нейронные сети

Keras Functional API в TensorFlow - 1

В Keras есть два API для быстрого построения архитектур нейронных сетей Sequential и Functional. Если первый позволяет строить только последовательные архитектуры нейронных сетей, то с помощью Functional API можно задать нейронную сеть в виде произвольного направленного ациклического графа, что дает намного больше возможностей для построения сложных моделей. В материале перевод руководства, посвященного особенностям Functional API, с сайта TensorFlow.
Читать полностью »

Tableau в рознице, реально?

2020-01-13 в 11:52, admin, рубрики: big data, tableau, анализ данных, аналитика, Блог компании М.Видео-Эльдорадо, визуализация данных, Исследования и прогнозы в IT, Статистика в IT

Время отчётности в Excel стремительно уходит — тренд на удобные инструменты представления и анализа информации виден во всех сферах. Мы давно обсуждали внутри цифровизацию построения отчётности и выбрали систему визуализации и self-service аналитики Tableau. Александр Безуглый, руководитель отдела аналитических решений и отчётности Группы «М.Видео-Эльдорадо», рассказал об опыте и итогах построения боевого дашборда.

Скажу сразу, не все, что было задумано, удалось реализовать, но опыт был интересный, надеюсь, он будет полезен и вам. А если у кого-то возникнут идеи, как можно было сделать лучше – буду очень признателен за советы и идеи.

Tableau в рознице, реально? - 1

Под катом о том, с чем мы столкнулись и о чем узнали.
Читать полностью »

HighLoad++, Юрий Насретдинов (ВКонтакте): как VK вставляет данные в ClickHouse с десятков тысяч серверов

2020-01-13 в 6:44, admin, рубрики: big data, clickhouse, elasticsearch, LSD, MergeTree, Администрирование баз данных, Блог компании ua-hosting.company, Серверная оптимизация, СУБД

HighLoad++ Moscow 2018, зал «Конгресс-холл». 9 ноября, 15:00

Тезисы и презентация: http://www.highload.ru/moscow/2018/abstracts/4066

Юрий Насретдинов (ВКонтакте): в докладе будет рассказано об опыте внедрения ClickHouse в нашей компании – для чего он нам нужен, сколько мы храним данных, как их пишем и так далее.

HighLoad++, Юрий Насретдинов (ВКонтакте): как VK вставляет данные в ClickHouse с десятков тысяч серверов - 1

Дополнительные материалы: использование Clickhouse в качестве замены ELK, Big Query и TimescaleDB Читать полностью »

Геометрический подход к визуализации многомерных данных

2020-01-12 в 13:26, admin, рубрики: big data, dataviz, визуализация данных, машинное обучение

Визуализация многомерных данных очень полезна для выявления их важных закономерностей и свойств. Для этой цели используются алгоритмы снижения размерности. Среди наиболее распространенных алгоритмов можно отметить метод главных компонент (англ. principal component analysis, PCA) и стохастическое вложение соседей с t-распределением (англ. t-distributed Stochastic Neighbor Embedding, t-SNE). Оба этих алгоритма обладают высокой временной сложностью: $inline$O(n^3)$inline$ у PCA, $inline$O(n^2)$inline$ у t-SNE, где $inline$n$inline$ — количество объектов. К тому же у t-SNE есть по меньшей мере 3 гиперпараметра, к подбору которых он очень чувствителен. Я хочу вам рассказать о новом алгоритме полигональной системы координат (англ. polygonal coordinate system, PCS). Это алгоритм без гиперпараметров и со сложностью $inline$O(n)$inline$ от числа объектов.
Читать полностью »

Знакомимся с методом обратного распространения ошибки

2020-01-10 в 12:46, admin, рубрики: algorithms, artificial intelligence, big data, data science, deep learning, mathematics, Алгоритмы, Блог компании OTUS. Онлайн-образование, математика

Всем привет! Новогодние праздники подошли к концу, а это значит, что мы вновь готовы делиться с вами полезным материалом. Перевод данной статьи подготовлен в преддверии запуска нового потока по курсу «Алгоритмы для разработчиков».

Поехали!

Метод обратного распространения ошибки – вероятно самая фундаментальная составляющая нейронной сети. Впервые он был описан в 1960-е и почти 30 лет спустя его популяризировали Румельхарт, Хинтон и Уильямс в статье под названием «Learning representations by back-propagating errors».Читать полностью »

Применение принципов функционального программирования при проектировании ERP

2020-01-08 в 22:01, admin, рубрики: big data, Deno, ERP-системы, nosql, NoSQL ERP, TypeScript, Анализ и проектирование систем, Функциональная СУБД, функциональное программирование

Привет!

В этой статье мы попробуем взглянуть на архитектуру учетных систем (ERP, CRM, WMS, MES, B2B, ...) с позиций функционального программирования. Существующие системы сложны. Они базируются на реляционной схеме данных, и имеют огромный мутабельный стейт в виде сотен связаных таблиц. При этом единственным «источником правды» в таких системах является хронологически-упорядоченный журнал первичных документов (отпечатков событий реального мира), которые, очевидно, должны быть иммутабельными (и это правило соблюдается в аудируемых системах, где корректировки «задним числом» запрещены). Журнал документов составляет от силы 20% объема БД, а все остальное — промежуточные абстракции и агрегаты, с которыми удобно работать на языке SQL, но которые требуют постоянной синхронизации с документами, и между собой.

Если вернуться к истокам (устранить избыточность данных и отказаться от хранения агрегатов), а все бизнес-алгоритмы реализовать в виде функций, применяемых непосредственно к потоку первичных документов — мы получим функциональную СУБД, и построенную на ней функциональную ERP. Проблема производительности решается благодаря мемоизации, а объем функционального кода будет вполне соизмерим с объемом декларативного SQL, и не сложнее для понимания. В данной статье мы продемонстрируем подход, разработав простейшую файловую СУБД на языке TypeScript и рантайме Deno (аналог Node.js), а также протестируем производительность сверток на примере типичных бизнес-задач.

Почему это актуально

1) Мутабельный стейт + избыточность данных — это плохо, особенно когда необходимо обеспечивать его постоянную синхронизацию с потоком документов. Это источник потенциальных расхождений учетных данных (баланс не сходится) и трудно обнаруживаемых побочных эффектов.
Читать полностью »

Автоматическое обновление кода до TensorFlow 2

2020-01-08 в 13:14, admin, рубрики: big data, Migration, open source, python, TensorFlow, upgrade, искусственный интеллект, машинное обучение

Автоматическое обновление кода до TensorFlow 2 - 1

В материале предоставлен перевод руководства по автоматическом обновлению кода с TensorFlow 1.x до Tensorflow 2 с помощью скрипта обновления tf_upgrade_v2.
Читать полностью »

Использование Clickhouse в качестве замены ELK, Big Query и TimescaleDB

2020-01-07 в 17:01, admin, рубрики: big data, clickhouse, Администрирование баз данных, Блог компании ua-hosting.company, Серверная оптимизация, СУБД

Clickhouse — это столбцовая система управления базами данных для онлайн обработки аналитических запросов (OLAP) с открытым исходным кодом, созданная Яндексом. Ее используют Яндекс, CloudFlare, VK.com, Badoo и другие сервисы по всему миру для хранения действительно больших объемов данных (вставка тысяч строк в секунду или петабайты данных, хранящихся на диске).

В обычной, «строковой» СУБД, примерами которых служат MySQL, Postgres, MS SQL Server, данные хранятся в таком порядке:

Использование Clickhouse в качестве замены ELK, Big Query и TimescaleDB - 1

При этом значения, относящиеся к одной строке, физически хранятся рядом. В столбцовых СУБД значения из разных столбцов хранятся отдельно, а данные одного столбца – вместе:

Использование Clickhouse в качестве замены ELK, Big Query и TimescaleDB - 2 Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 18

Скандал на конкурсе Kaggle: победитель сжульничал, алгоритм плохо оценивает шанс бездомных животных найти хозяев

Использование машинного обучения в статическом анализе исходного кода программ

Keras Functional API в TensorFlow

Tableau в рознице, реально?

HighLoad++, Юрий Насретдинов (ВКонтакте): как VK вставляет данные в ClickHouse с десятков тысяч серверов

Геометрический подход к визуализации многомерных данных

Знакомимся с методом обратного распространения ошибки

Применение принципов функционального программирования при проектировании ERP

Почему это актуально

Автоматическое обновление кода до TensorFlow 2

Использование Clickhouse в качестве замены ELK, Big Query и TimescaleDB

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 18

Почему это актуально

Новости

Актуальные темы

Архив