Рубрика «data science» - 7

Как быть билингвом в Data Science

2021-01-09 в 16:19, admin, рубрики: big data, data engineering, data mining, data science, python, skillfactory, Блог компании SkillFactory

В этой статье я хочу продемонстрировать R Markdown — удобную надстройку для программирования вашего проекта как на R, так и на Python, позволяющую программировать некоторые элементы вашего проекта на двух языках и управлять объектами, созданными на одном языке, с помощью другого языка. Это может быть полезно потому, что:

Позволяет писать код на привычном языке, но при этом использовать функции, существующие только в другом языке.
Позволяет напрямую сотрудничать с коллегой, который программирует на другом языке.
Даёт возможность работать с двумя языками и со временем научиться свободно владеть ими.

Читать полностью »

Самообучение в Data science, с нуля до Senior за два года

2021-01-08 в 14:55, admin, рубрики: big data, data science, python, Карьера в IT-индустрии, машинное обучение, самообучение

Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли (отдельно планирую потом детальные статьи по отдельным темам).

Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился.
Читать полностью »

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded

2021-01-07 в 15:13, admin, рубрики: big data, data science, deep learning, machine learning, python, pytorch, skillfactory, Блог компании SkillFactory, глубокое обучение, искусственный интеллект, машинное обучение

Модели глубокого обучения улучшаются с увеличением количества данных и параметров. Даже с последней моделью GPT-3 от Open AI, которая использует 175 миллиардов параметров, нам ещё предстоит увидеть плато роста количества параметров.

Для некоторых областей, таких как NLP, рабочей лошадкой был Transformer, который требует огромных объёмов памяти графического процессора. Реалистичные модели просто не помещаются в памяти. Последний метод под названием Sharded [букв. ‘сегментированный’] был представлен в Zero paper Microsoft, в котором они разработали метод, приближающий человечество к 1 триллиону параметров.

Специально к старту нового потока курса по Machine Learning, делюсь с вами статьей о Sharded в которой показывается, как использовать его с PyTorch сегодня для обучения моделей со вдвое большей памятью и всего за несколько минут. Эта возможность в PyTorch теперь доступна благодаря сотрудничеству между командами FairScale Facebook AI Research и PyTorch Lightning.

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded - 1

Читать полностью »

4 месяца борьбы за место DS джуна (перекатиться в 37 лет)

2021-01-03 в 16:39, admin, рубрики: big data, Data Analyst, data engineering, data science, Карьера в IT-индустрии, смена профессии, собеседования

Делюсь собственным опытом, т.к., наверняка, это будет интересно таким же как я, но может и не только. Заранее предупрежу, многие термины и сокращения будут понятны только тем, кто имеет базовые знания и какой-то опыт в Data Science и Машинном обучении.

Итак, в наличии на август 2020:

8-летний бэкграунд в интернет-торговле и таргетированной рекламе
4 курса известной в ds-тусовке Machine Learning специализации Яндекса на курсере
пара курсов по нейронным сетям на "стэпике"
слегка взъерошенный в памяти вышмат
пара сертификатов по питону

Читать полностью »

ИИ итоги уходящего 2020-го года в мире машинного обучения

2020-12-31 в 20:25, admin, рубрики: AI, data mining, data science, deep learning, machine learning, machinelearning, neural, neural networks, python, Алгоритмы, машинное обучение, нейросети, нейросеть, Программирование

Подведем основные итоги уходящего года. Рассмотрим самые громкие открытия в мире компьютерного зрения, обработки естественного языка, генерации изображений и видео, а также крупный прорыв в области биологии. Коротко о самом главном за год!

Если тебе интересно машинное обучение, то приглашаю в «Мишин Лернинг»Читать полностью »

Заметки Датасатаниста: реляционные vs связанные данные

2020-12-16 в 9:00, admin, рубрики: big data, data engineering, data science, ruvds_статьи, Блог компании RUVDS.com, данные, машинное обучение, реляционные данные, связанные данные

Заметки Датасатаниста: реляционные vs связанные данные - 1

Сегодня мы поговорим о простой, казалось бы, теме, как реляционные и связанные данные.

Несмотря на всю ее простоту, замечаю, что иногда люди действительно путаются в них — я решил это исправить, написав краткое и неформальное объяснение, чем они являются и зачем нужны.

Мы обсудим, что такое реляционная модель и связанные с ней SQL и реляционная алгебра. Потом перейдем к примерам связанных данных из Викидата, а далее RDF, SPARQL и чутка поговорим про Datalog и логическое представление данных. В конце выводы — когда применять реляционную модель, а когда связно-логическую.

Основная цель заметки — это описать, когда что имеет смысл применять и почему. Так как тут немало непростых концепций сошлись в одном месте, то конечно же можно было бы по каждой написать книгу — но наша задача сегодня дать представление о теме и мы будем разбирать неформально на простых примерах.

Если у вас есть сомнения, чем одно отличается от второго и зачем вообще нужны связанные данные (LinkedData), то добро пожаловать под кат.
Читать полностью »

Главные тренды Data Science 2020 года, которые будут актуальны в 2021-м

2020-12-11 в 12:35, admin, рубрики: big data, data analysis, data engineering, data mining, data science, data scientist, skillfactory, Блог компании SkillFactory, Читальный зал

Привет! Сегодня я расскажу, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сфера данных активно совершенствуется и сегодня можно уже подводить итоги года. Встречайте тренды DS в 2020-2021 году.

Главные тренды Data Science 2020 года, которые будут актуальны в 2021-м - 1

Читать полностью »

Как бы я изучал Data Science, если бы начал пару лет назад, или Руководство по эффективному изучению науки о данных

2020-12-09 в 13:52, admin, рубрики: data engineering, data science, skillfactory, Алгоритмы, Блог компании SkillFactory, карьера, Карьера в IT-индустрии, математика, машинное обучение, образование

Когда я только начал своё путешествие к науке о данных, я потратил много времени на то, чтобы понять, с чего начать, что я должен узнать в первую очередь и какие ресурсы должен использовать. За последние два года я узнал несколько вещей, о которых хотел знать раньше, например о том, стоит ли сначала сосредоточиться на программировании или статистике, какие ресурсы я должен использовать для изучения новых навыков, как я должен подходить к изучению этих навыков и так далее. Таким образом, эта статья написана, чтобы дать направления и идеи для тех, кто изучает Data Science.

Как бы я изучал Data Science, если бы начал пару лет назад, или Руководство по эффективному изучению науки о данных - 1

Читать полностью »

Заметки Датасатаниста: что делать, если перед вами оказалась NP-полная задача

2020-11-25 в 13:15, admin, рубрики: big data, data mining, data science, fairness, machine learning, ruvds_статьи, анализ данных, Блог компании RUVDS.com, машинное обучение, честность

Наверное, каждый сталкивался с тем, что приходилось столкнуться с какой-то сложной задачей, решение к которой не удавалось подобрать не то что сразу — а даже после долгих упорных часов работы или дней. Об одном из классов таких задач — NP-полных, мы сегодня и поговорим.

А вообще реально ли встретить такие задачи в обычной жизни? На самом деле, они возникают в огромном ряде случаев: комбинаторика, графы и сети, выполнение логических формул, работа с картами, оптимальные загрузки, отображения, задачи дискретной оптимизации, нахождение самых длинных последовательностей, поиск равных сумм и многие задачи на множества! И это далеко не полный список.

Под катом неформальный гайд — как понять, что перед вам может быть NP задача и что делать, если это именно она и оказалась. Сегодня мы атакуем этот вопрос с практической стороны.
Читать полностью »

Python-пакеты для Data Science

2020-11-04 в 15:51, admin, рубрики: big data, data science, python, Блог компании RUVDS.com, Программирование, разработка

Python — это один из самых распространённых языков программирования. Хотя стандартные возможности Python достаточно скромны, существует огромное количество пакетов, которые позволяют решать с помощью этого языка самые разные задачи. Пожалуй, именно поэтому Python и пользуется такой популярностью среди программистов. Можно наугад назвать какую-нибудь сферу деятельности и в экосистеме Python, почти гарантированно, найдутся отличные инструменты для решения специфических задач из этой сферы. В наше время весьма востребованы наука о данных (Data Science, DS) и машинное обучение (Machine Learning, ML). И там и там Python показывает себя наилучшим образом.

Помимо Python в DS-проектах часто используют язык программирования R. R быстрее Python и имеет больше статистических и вычислительных библиотек. Но в этом материале мы будем говорить исключительно о библиотеках (пакетах) для Python, о которых стоит знать каждому, кто хочет добраться до профессиональных вершин Data Science.

Прежде чем переходить к обзору библиотек, остановимся на том, что это такое — «наука о данных», и на том, почему в этой сфере стоит пользоваться языком Python.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 7

Как быть билингвом в Data Science

Самообучение в Data science, с нуля до Senior за два года

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded

4 месяца борьбы за место DS джуна (перекатиться в 37 лет)

ИИ итоги уходящего 2020-го года в мире машинного обучения

Заметки Датасатаниста: реляционные vs связанные данные

Главные тренды Data Science 2020 года, которые будут актуальны в 2021-м

Как бы я изучал Data Science, если бы начал пару лет назад, или Руководство по эффективному изучению науки о данных

Заметки Датасатаниста: что делать, если перед вами оказалась NP-полная задача

Python-пакеты для Data Science

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 7

Новости

Актуальные темы

Архив