Рубрика «data analysis»

tl;dr

Ориентируются ли собаки по компасу, когда делают свои грязные дела? Оказывается — да! Если вам интересно, как можно это подтвердить в домашних условиях, используя компас, Байесовскую статистику и собаку (собака не включена), то добро пожаловать под кат. 

Я очень люблю заниматься нестандартными исследованиями данных и периодически пишу о них статьи и заметки (вроде этой). Если вам такое тоже нравится — приглашаю подписаться на мой телеграм-канал: Data Wondering

Читать полностью »

Привет!

В этом туториале разобран метод для анализа внутренних представлений "логит-линза" (Logit Lens).

В результате практики по туториалу, вы:

  1. Изучите подход и концепцию Logit Lens;

  2. Реализуете Logit Lens для Visual Transformer;

  3. Познакомитесь с анализом результатов применения логит-линзы.

Приступим! Как всегда, весь код будет на гитхаб — step by step.

Logit Lens: о методе

Метод Logit Lens был предложен на Lessworng в 2020 году на примере модели GPT-2.

Читать полностью »

Горящий куст двойного отрицания

Горящий куст двойного отрицания

Времена когда горящий куст мог принести озарение давно прошли. Примитивный опыт уже не может стать источником открытий. А всё потому, что он обобщён и впитан в культуру человечества. И чтобы подключиться к мудрости предков нужно опереться на философию. В Читать полностью »

Введение

Привет! Меня зовут Женя и я работаю аналитиком данных. В этой статье я бы хотел рассказать начинающим аналитикам о том, как правильно настроить окружение для работы с Python. Когда я только начинал заниматься анализом данных, концепция питоновского виртуального окружения вводила меня в ступор, и здесь я постараюсь показать, что в ней нет ничего сложного.

Для этого мы:

  1. Установим Python

  2. Создадим и активируем виртуальное окружение при помощи базовых инструментов pip и venv

  3. В качестве примера установим библиотеки notebook и pandas

  4. Читать полностью »

Привет!
Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал "всякое" в плане работы с документацией для команды, которая работает с данными.
Хочу поделиться своим опытом того, что "маст хев" в документации в Вашем проекте, когда есть планы вроде "make analysis great [again]".

Если работаете с цифрами, наверняка Вы уже не раз задавались простыми вопросами вроде

  • как это считается?

  • откуда берётся?

  • что значить эта аббревиатура?

  • а кто это вообще просил?

  • кто сопровождает этот отчёт?

  • что эта колонка в таблице означает?

  • что хотели решить этим дешем?

Читать полностью »

Бизнес-визуализации или графики, которые недооценивают. Часть I - 1

Расскажу я вам о способах визуализации данных, которые помогают бизнесу быстро оценивать информацию и принимать обоснованные решения. Постараюсь объяснить теоретические аспекты и продемонстрировать на практическом примере. Донести плюсы и минусы этих визуализаций.

Читать полностью »

А работают ли игровые механики? - 1

Этот вопрос мне задают постоянно. 

Читать полностью »

Привет всем!

Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свой путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания. 

P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи))) 

Для примеров будем использовать небольшую таблицу, которая показывает оценки учеников по разным предметам. В БД табличка выглядит следующим образом

select * 
from student_grades;

Читать полностью »

Привет! Сегодня я расскажу, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сфера данных активно совершенствуется и сегодня можно уже подводить итоги года. Встречайте тренды DS в 2020-2021 году.

Главные тренды Data Science 2020 года, которые будут актуальны в 2021-м - 1

Читать полностью »

Если вы пока ещё не знаете как транслировать данные напрямую заказчику в подсознание или, на худой конец, текст сообщения в slack, вам пригодится информация о том, как сделать процесс интерпретации таблиц более быстрым и комфортным.

Например, в excel для этого используется условное форматирование и спарклайны. А в этой статье мы посмотрим как визуализировать данные с помощью Python и библиотеки pandas: будем использовать свойства DataFrame.style и Options and settings.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js