Рубрика «big data» - 30

ok.tech: Data Толк #2 - 1

7 августа в московском офисе Одноклассников состоится ok.tech: Data Толк #2, в этот раз мероприятие будет посвящено образованию в Data Science. Ни для кого не секрет, что сейчас вокруг работы с данным такой хайп, что только ленивый не задумывался над получением образования в области датасаенса. Кто-то считает, что без университетского образования стать датасаентистом – невозмножно, есть сторонники мнения, что можно обучиться работе с данными с помощью курсов, другие придерживаются позиции что хороший датасаентист это – практика и разносторонний подход. Мы соберем на своей площадке представителей разных мнений и дадим им возможность подискутировать на эту тему. Мероприятие пройдет в формате дискусси между спикерами, в этот раз с нами будут Евгений Соколов (ВШЭ, Яндекс.Дзен), Дмитрий Бугайченко (OK.ru), Пётр Ермаков (Lamoda, DataGym), Дмитрий Коробченко (Nvidia, GeekBrains, SkillBox, Digital October) и Виктор Кантор (Mail.ru Group). Мы приглашаем всех, кому интересна тема образования в DataScience присоединиться к мероприятию и высказать свою точку зрения. Учились на курсах, приходите и расскажите что это вам дало, считаете, что без PHD в анализе данных нельзя, приходите и расскажите почему, считаете, что датасентист должен уметь писать в прод, приходите – обсудим.

→ Регистрация на меропритие

Под катом мнения экспертов и расписание.
Читать полностью »

Привет, читатель.

Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

image

Итак, приступим.

Вводные курсы в Jupyter Notebook

Читать полностью »

Привет, читатель. Думаю, что ненужно рассказывать в который раз о том, что такое искусственный интеллект, какую пользу он несёт и для чего нужен. Перейду сразу к делу. Ниже собрал подборку сервисов на основе ИИ, которые могут упростить вам жизнь уже сегодня.

Свою статью я разделю на 3 части:

  • ИИ инструменты для личного использования;
  • Инструменты ИИ для бизнеса;
  • Инструменты ИИ для отраслевых бизнесов.

Меньше слов, больше данных.

image

Подборка сервисов на основе ИИ для личного использования:

Дом

  • Bridge Kitchen — помощник на кухне для пошагового приготовления еды;
  • UnifyID — автоматическая аутентификация пользователя в цифровой и физической среде.

Читать полностью »

Большие данные (big data) создали новые возможности для посткапиталистического будущего. Но, чтобы ими воспользоваться, нашей демократии нужно подрасти.

image

Когда СССР распался, вопрос экономического планирования, казалось, был решён раз и навсегда. В борьбе рынка и плана, рынок одержал решительную победу. Спустя тридцать лет после падения берлинской стены, вердикт больше не так однозначен. По всему миру нарастают академические и политические диспуты об экономическом планировании

От переводчика: технологии меняют жизнь, даже некоторые, незыблемые ранее, положения экономики могут пасть. Вашему вниманию — краткая заметка о том, почему экономическое планирование снова на слуху.

Среднее время чтения: 5 минут

Читать полностью »

По данным WSJ, власти США одобрили соглашение с компанией Марка Цукерберга о выплате штрафа для урегулирования скандала с утечкой данных через компанию Cambridge Analytica [Roem.ru: термин «утечка» в данном случае политизированный шаблон, а не IT-шный факт]. Это рекордная сумма для технологических компаний в Штатах, передал РБК.

Cambridge Analytica, Читать полностью »

Всем привет.

Поработав в 12 стартапах в сфере машинного обучения, я сделал восемь полезных выводов о продуктах, данных и людях.

Все стартапы были из разных сфер (финтех, биотехнологии, здравоохранение, технологии обучения) и на разных этапах: и на этапе pre-seed, и на этапе приобретения крупной компанией. Менялась и моя роль. Я был стратегическим консультантом, главой отдела анализа данных, заваленный делами штатным сотрудником. Все эти компании старались создать хороший продукт, и многим это удалось.

За время работы я пришел к таким выводам:

Продукт важнее ИИ

Эти стартапы разрабатывают продукты, а не изучают искусственный интеллект. Меня, как убежденного математика, сначала больше интересовало машинное обучение и создание новых методов и алгоритмов.

Вскоре я понял, что даже точные модели машинного обучения не ценны сами по себе. Ценность ИИ и машинного обучения напрямую зависит от ценности продукта, в котором они используются. Цель стартапа – научиться создавать продукты, основанные на машинном обучении.

При таком подходе иногда выясняется, что машинное обучение – не самый эффективный инструмент. Иногда дело не в поставленной задаче, а в процессе решения. Даже в таких ситуациях полезно обратиться к ученым: они используют научный, основанный на данных подход. Тем не менее, не тратьте время на ИИ там, где нужно исправить процесс. Читать полностью »

Сегодня возникла потребность в мониторинге изменений определенных файлов на сервере, существует много разных способов например osquery от facebook, но так как недавно я начал пользоваться Open Distro for Elasticsearch решил мониторить файлы эластиком, одним из его beat'ов.

Читать полностью »

Всем привет. Открыт набор на новый курс от Otus — "Прикладная аналитика на R", который стартует уже в конце этого месяца. В связи с этим хочу поделиться переводом публикации о разнице между аналитиком по данным и статистиком, который в свою очередь использует R на практике.

Введение

За последние десять лет объемы данных и скорость их появления росли по экспоненте. Если верить отчетам, каждый день появляется более 3 квинтиллионов байтов данных! Неудивительно, что для работы с ними появилась новая профессия исследователя данных (data scientist) — разностороннего специалиста по анализу и обработке данных. Однако люди занимались статистикой и до появления цифровых средств обработки данных. В чем же различия этих двух профессий: исследователь данных и статистик?

Давайте разберемся.

Читать полностью »

Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.

image
Читать полностью »

Что делать, если ваш запрос к базе выполняется недостаточно быстро? Как узнать, оптимально ли запрос использует вычислительные ресурсы или его можно ускорить? На последней конференции HighLoad++ в Москве я рассказал об интроспекции производительности запросов — и о том, что даёт СУБД ClickHouse, и о возможностях ОС, которые должны быть известны каждому.

Анализ производительности запросов в ClickHouse. Доклад Яндекса - 1

Каждый раз, когда я делаю запрос, меня волнует не только результат, но и то, что этот запрос делает. Например, он работает одну секунду. Много это или мало? Я всегда думаю: а почему не полсекунды? Потом что-нибудь оптимизирую, ускоряю, и он работает 10 мс. Обычно я доволен. Но все-таки я стараюсь в этом случае сделать недовольное выражение лица и спросить: «Почему не 5 мс?» Как можно выяснить, на что тратится время при обработке запроса? Можно ли его в принципе ускорить?

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js