Рубрика «big data» - 12

Анонс: Ultimate Guide по карьере в AI от профессионала: выбрать специальность, прокачаться и найти классную работу

2020-08-02 в 17:00, admin, рубрики: AI, big data, data engineering, data science, ruvds_эфиры, Блог компании RUVDS.com, интервью

Анонс: Ultimate Guide по карьере в AI от профессионала: выбрать специальность, прокачаться и найти классную работу - 1

ЗАВТРА, 3 августа в 20:00 пройдет эфир с Сергеем Ширкиным о том, как построить успешную карьеру в AI. Стрим можно будет посмотреть в любых наших соцсетях — где удобно, там и смотрите.

Сергей Ширкин стоит у истоков факультетов Искусственного интеллекта, Аналитики Big Data и Data Engineering онлайн-университета Geek University, на которых работает деканом и преподавателем.
Читать полностью »

Продвинутый уровень визуализации данных для Data Science на Python

2020-07-14 в 9:28, admin, рубрики: big data, python, Блог компании SkillFactory, визуализация данных, Учебный процесс в IT

Как сделать крутые, полностью интерактивные графики с помощью одной строки Python

Когнитивное искажение о невозвратных затратах (sunk cost fallacy) является одним из многих вредных когнитивных предубеждений, жертвой которых становятся люди. Это относится к нашей тенденции продолжать посвящать время и ресурсы проигранному делу, потому что мы уже потратили — утонули — так много времени в погоне. Заблуждение о заниженной стоимости применимо к тому, чтобы оставаться на плохой работе дольше, чем мы должны, рабски работать над проектом, даже когда ясно, что он не будет работать, и да, продолжать использовать утомительную, устаревшую библиотеку построения графиков — matplotlib — когда существуют более эффективные, интерактивные и более привлекательные альтернативы.

За последние несколько месяцев я понял, что единственная причина, по которой я использую matplotlib, — это сотни часов, которые я потратил на изучение сложного синтаксиса. Эти сложности приводят к часам разочарования, выясняя на StackOverflow, как форматировать даты или добавить вторую ось Y. К счастью, это прекрасное время для построения графиков в Python, и после изучения вариантов, явным победителем — с точки зрения простоты использования, документации и функциональности — является библиотека plotly. В этой статье мы погрузимся прямо в plotly, изучая, как создавать лучшие графики за меньшее время — часто с помощью одной строки кода.
Читать полностью »

Почему меня разочаровали результаты Kaggle ARC Challenge

2020-06-23 в 10:28, admin, рубрики: AGI, ARC, big data, data science, kaggle, Алгоритмы, Блог компании Сбербанк, искусственный интеллект, машинное обучение, нейронные сети

Кто-то с ужасом, а кто-то с нетерпением ждет ИИ как в произведениях фантастов. С личностью, эмоциями, энциклопедическими знаниями и главное – с интеллектом, то есть способностями к логическим выводам, оперированию абстрактными понятиями, выделению закономерностей в окружающем мире и превращению их в правила. Как мы знаем, именно такой ИИ теоретики называют «сильным» или ещё AGI. Пока это далеко не мейнстримное направление в машинном обучении, но руководители многих больших компаний уже считают, что сложность их бизнеса превысила когнитивные способности менеджеров и без «настоящего ИИ» двигаться вперёд станет невозможно. Идут дискуссии, что же это такое, каким он должен быть, как сделать тест чтобы уж точно понять, что перед нами AGI, а не очередной blackbox, который лучше человека решает локальную задачу – например, распознавание лица на фотографии.

Три недели назад на каггле прошло первое в истории платформы соревнование по «сильному» ИИ – Abstraction and Reasoning Challenge. Чтобы проверить способность моделей к обобщению и решению абстрактных задач, все участники суммарно решили только чуть менее половины задач. Решение-победитель справляется приблизительно с 20% из них — и то девятичасовым перебором вручную захардкоженных правил (ограничение в девять часов установили организаторы).

В посте я хочу напомнить о сложностях работы с AGI, рассказать о самых интересных идеях участников, топовых решениях и поделиться мнением, что не так с текущими попытками создать AGI.
Читать полностью »

В поисках обеда: распознавание активности по данным фитнес-трекера

2020-06-22 в 7:01, admin, рубрики: big data, CleverDATA, data engineering, data mining, solut, Блог компании ГК ЛАНИТ, большие данные и машинное обучение, Ланит, машинное обучение

Мне посчастливилось участвовать в проекте SOLUT, который стартовал в ЛАНИТ около года назад. Проект развивается благодаря активному участию Центра компетенции больших данных ЛАНИТ (ЦК Дата), и главное технологическое новшество проекта заключается в использовании машинного обучения для мониторинга человеческой активности. Основным источником данных для нас являются сенсоры фитнес-трекеров, закрепленные на руках работников. В первую очередь, результаты распознавания помогают поднять производительность труда и оптимизировать производственные процессы на стройке. Также анализ поведения рабочих позволяет отслеживать самочувствие человека, соблюдение техники безопасности и напоминает строителям про обед.

В поисках обеда: распознавание активности по данным фитнес-трекера - 1

Источник
Читать полностью »

Что посмотреть на (почти уже не) карантине? Подборка материалов от Технострима (часть 7)

2020-06-19 в 16:25, admin, рубрики: big data, data mining, mail.ru, Блог компании Mail.Ru Group, искусственный интеллект, технострим, Учебный процесс в IT

Что посмотреть на (почти уже не) карантине? Подборка материалов от Технострима (часть 7) - 1

Продолжаем нашу подборку интересных материалов (1, 2, 3, 4, 5, 6). На этот раз предлагаем послушать курс об алгоритмах интеллектуальной обработки больших объёмов данных и два новых выпуска ток-шоу для айтишников «Oh, my code» с Павлом Dzirtik Щербининым.
Читать полностью »

Производительность современной Java при работе с большим объёмом данных, часть 2

2020-06-18 в 19:42, admin, рубрики: big data, gc, java, Блог компании Mail.Ru Group, высокая производительность, никто не читает теги, Программирование

FYI: Первая часть.

Бенчмарк пакетного конвейера

Пакетный конвейер обрабатывает конечный объём сохранённых данных. Здесь нет потока результатов обработки, выходные данные агрегирующей функции нужно применить ко всему набору данных. Это меняет требования к производительности: задержка — ключевой фактор при потоковой обработке — здесь отсутствует, потому что мы обрабатываем данные не в реальном времени. Единственная важная метрика — общее время работы конвейера.

Поэтому мы выбрали Parallel. На первом этапе тестирования, при работе на одной ноде, этот сборщик действительно показал лучшую пропускную способность (но только после настройки). Однако это было получено ценой длительных пауз. Если одна из нод кластера останавливается на сборку мусора, это стопорит весь конвейер. А поскольку ноды собирают мусор в разное время, общее время сборки увеличивается с добавлением каждой ноды к кластеру. Мы проанализировали этот эффект, сравнив результаты тестирования на одной ноде и на кластере из трёх нод.

Кроме того, на этом этапе мы не рассматривали экспериментальные сборщики с низкой задержкой. Их очень короткие паузы не влияют на результаты тестирования, к тому же это достигается за счёт пропускной способности.
Читать полностью »

Как не пополнить ряды стремных специалистов, если ты Data Scientist

2020-05-23 в 11:16, admin, рубрики: big data, BigData, data engineering, data science, deep learning, machine learning, беспилотники, Блог компании RUVDS.com, интервью, Карьера в IT-индустрии, машинное обучение, яндекс

Хабра-сообщество провело еще одно интервью в нашем образовательном проекте: прямых эфирах c ребятами из IT, которые отвечают на ваши вопросы в формате живого общения.

Наш проект — попытка создать полноценный набор гайдов и рекомендаций для успешной жизни разработчика: как построить карьеру, получить оффер мечты, привлечь инвестиции в стартап, не тухнуть на скучных проектах, вырасти в своем деле и по пути купить домик у моря.

В начале недели наши вопросы отвечал Борис Янгель — ML-инженер Яндекса, который участвовал в создании мозгов «Алисы», а теперь делает беспилотные автомобили.

Боря рассказал о том, как стать крутым Data-Scientist, как парашютный спорт помогает ему в работе, почему конференции по ML бесполезны и ответил на недавний пост разгневанного отца про то, как Алиса рекомендовала видео с историями убийств ребенку.
Читать полностью »

Нас разбудят в другой стране: завтра налоговая получит все сведения о вас и вашей семье

2020-05-20 в 8:55, admin, рубрики: big data, базы данных, безопасность, Гибдд, Госвеб, законотворчество, Игорь Ашманов, Налоги / ФНС, персональные данные, метки: big data, базы данных, безопасность, Гибдд, Госвеб, законотворчество, Игорь Ашманов, Налоги / ФНС, персональные данные

Этот текст представляется собой записку, которую я на прошлой неделе направлял разным организациям и людям, имеющим отношение к правам человека и развитию ИТ в нашей стране. В ней рассматриваются политические, правовые и технические риски законопроекта ПФЗ № 759897-7 «О едином федеральном информационном регистре, содержащем сведения о населении Российской Федерации…» (далее – Законопроект или ЕФИР).

Читать полностью »

Data Science и Machine Learning: как превращать будущее в настоящее

2020-05-17 в 10:13, admin, рубрики: big data, data engineering, data science, machine learning, алиса, беспилотные автомобили, Блог компании RUVDS.com, интервью, машинное обучение, яндекс

ЗАВТРА, 18 мая в 20:00 специалист по Data Science и машинному обучению Борис Янгель будет отвечать на ваши вопросы о нейросетках и Machine Learning в формате живого интервью в нашем инстаграм-аккаунте. Вы можете задать ему свой вопрос в комментариях к этому посту и спикер ответит вам в прямом эфире.

О спикере

Борис закончил МГУ по специальности Machine Learning. Работал в Microsoft Research в группе Криса Бишопа над фреймворком infer.Net, затем в Яндексе руководил разработкой мозгов Алисы. Любит скайдайвинг, нейросетки, гоночные автомобили и смелые решения. Сейчас Борис работает в Яндексе над проектом беспилотных автомобилей.
Читать полностью »

Погружение в Delta Lake: принудительное применение и эволюция схемы

2020-05-16 в 18:51, admin, рубрики: Apache, big data, DeltaLake, машинное обучение

Привет! Представляю вашему вниманию перевод статьи «Diving Into Delta Lake: Schema Enforcement & Evolution» авторов Burak Yavuz, Brenner Heintz and Denny Lee.

Данные, как и наш опыт, постоянно накапливаются и развиваются. Чтобы не отставать, наши ментальные модели мира должны адаптироваться к новым данным, некоторые из которых содержат новые измерения — новые способы наблюдать вещи, о которых раньше мы не имели представления. Эти ментальные модели мало чем отличаются от схем таблиц, определяющих, как мы классифицируем и обрабатываем новую информацию.

Это подводит нас к вопросу управления схемами. По мере того, как бизнес задачи и требования меняются со временем, меняется и структура ваших данных. Delta Lake позволяет легко внедрять новые измерения при изменении данных. Пользователи имеют доступ к простой семантике для управления схемами своих таблиц. Эти инструменты включают принудительное применение схемы (Schema Enforcement), которое защищает пользователей от непреднамеренного засорения своих таблиц ошибками или ненужными данными, а также эволюцию схемы (Schema Evolution), которая позволяет автоматически добавлять новые столбцы с ценными данными в соответствующие места. В этой статье мы углубимся в использование этих инструментов.

Понимание схем таблиц

Каждый DataFrame в Apache Spark содержит схему, которая определяет форму данных, такую как типы данных, столбцы и метаданные. С помощью Delta Lake схема таблицы сохраняется в формате JSON внутри журнала транзакций.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 12

Анонс: Ultimate Guide по карьере в AI от профессионала: выбрать специальность, прокачаться и найти классную работу

Продвинутый уровень визуализации данных для Data Science на Python

Почему меня разочаровали результаты Kaggle ARC Challenge

В поисках обеда: распознавание активности по данным фитнес-трекера

Что посмотреть на (почти уже не) карантине? Подборка материалов от Технострима (часть 7)

Производительность современной Java при работе с большим объёмом данных, часть 2

Бенчмарк пакетного конвейера

Как не пополнить ряды стремных специалистов, если ты Data Scientist

Нас разбудят в другой стране: завтра налоговая получит все сведения о вас и вашей семье

Data Science и Machine Learning: как превращать будущее в настоящее

О спикере

Погружение в Delta Lake: принудительное применение и эволюция схемы

Понимание схем таблиц

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 12

Бенчмарк пакетного конвейера

О спикере

Понимание схем таблиц

Новости

Актуальные темы

Архив