Рубрика «machine learning» - 12

Как сжать модель fastText в 100 раз

2020-02-24 в 6:56, admin, рубрики: compression, data mining, FastText, gensim, machine learning, natural language processing, python, word embeddings, word2vec, Алгоритмы, машинное обучение, эмбеддинги

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и пример компактной модели для русских слов.
Как сжать модель fastText в 100 раз - 1

Читать полностью »

Создать мощный курс Machine Learning: миссия выполнена

2020-02-21 в 12:28, admin, рубрики: big data, data science, machine learning, Блог компании OTUS. Онлайн-образование, Карьера в IT-индустрии, курсы, машинное обучение, образование онлайн

Создать мощный курс Machine Learning: миссия выполнена - 1

У нас было 2 неудачных запуска, 169 студентов, 8 сердитых отзывов, 3 смены названий, слишком много теории и мало реальной практики. Не то чтобы это было полным провалом, но если начал обучать Data Science, надо сделать это идеально. Сегодня вы услышите историю о том, как мы развивали в OTUS направление анализа данных и какие на этом пути допустили, а потом исправили ошибки.

Читать полностью »

Как мы предсказываем будущее с помощью машинного обучения: discovery-запросы в поиске Яндекса

2020-02-20 в 8:22, admin, рубрики: machine learning, Алгоритмы, Блог компании Яндекс, искусственный интеллект, команда яндекс.поиска, машинное обучение, поиск яндекса, поисковые технологии, яндекс

Люди не всегда точно формулируют свои запросы, поэтому поисковые системы должны помогать им в этом. Меня зовут Сергей Юдин, я руковожу группой аналитики функциональности поиска в Яндексе. Мы каждый день улучшаем что-то с помощью машинного обучения. Последний год мы разрабатываем технологию, которая предугадывает интересы человека.

Со специалистом из моей команды Анастасией Гайдашенко avgaydashenko я расскажу читателям Хабра, как работает эта технология, опишу архитектуру и применяемые алгоритмы. А ещё вы узнаете, чем предсказание следующего запроса отличается от предсказания будущих интересов человека.

Как мы предсказываем будущее с помощью машинного обучения: discovery-запросы в поиске Яндекса - 1
Читать полностью »

Молчание вентиляторов. Google Colab, Javascript и TensorflowJS

2020-02-19 в 8:20, admin, рубрики: Google, Google Colaboratory, Hannibal Lecter, javascript, jupyter notebook, machine learning, TensorFlow, tensorflow-js, машинное обучение

Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook. Google Colab предоставляет всё необходимое для машинного обучения прямо в браузере, даёт бесплатный доступ к невероятно быстрым GPU и TPU. Заранее предупрежу, что у него есть некоторые ограничения, поэтому вы не сможете использовать его для production.

С помощью Google Colab вы можете легко обучить свою модель за считанные секунды. Он поддерживает Python (2/3) из коробки, так что всё должно быть хорошо, верно?

Молчание вентиляторов. Google Colab, Javascript и TensorflowJS - 1

Читать полностью »

Настройка функции потерь для нейронной сети на данных сейсморазведки

2020-02-18 в 10:19, admin, рубрики: analysis, cnn, data interpretation, deep learning, loss, machine learning, maritime, ods, python, seismic, unet, Блог компании Open Data Science, Геоинформационные сервисы, искусственный интеллект, машинное обучение

В прошлой статье мы описали эксперимент по определению минимального объема вручную размеченных срезов для обучения нейронной сети на данных сейсморазведки. Сегодня мы продолжаем эту тему, выбирая наиболее подходящую функцию потерь.

Рассмотрены 2 базовых класса функций – Binary cross entropy и Intersection over Union – в 6-ти вариантах с подбором параметров, а также комбинации функций разных классов. Дополнительно рассмотрена регуляризация функции потерь.

Спойлер: удалось существенно улучшить качество прогноза сети.

Настройка функции потерь для нейронной сети на данных сейсморазведки - 1
Читать полностью »

Null проблема в Data Science и Machine Learning

2020-02-17 в 2:40, admin, рубрики: data engineering, data science, machine learning, NaN, natural language processing, None, null, Алгоритмы, машинное обучение, Семантика

Существующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.

Читать полностью »

На Moscow Python Conf++ приходите поговорить с разработчиками языка

2020-02-13 в 10:04, admin, рубрики: legacy, machine learning, Moscow Python Conf++, python, Блог компании Конференции Олега Бунина (Онтико), конференции, Программирование, Разработка веб-сайтов

Мы строили-строили, и наконец построили: расписание Moscow Python Conf++ собрано, проверено, перепроверено и опубликовано. Не то чтобы работа Программного комитета на этом заканчивалась (за два-то месяца до конференции, ну-ну), но 10 месяцев явно потрачено не зря, и я с нетерпением жду результата, заложив все возможное для общения разработчиков друг с другом.

Сейчас расскажу, какой получилась программа конференции, и выбора у нас просто не останется. На площадке в центре Москвы будет: 3 потока докладов, поток воркшопов и митапов, 4 Core-разработчика (я до сих пор не знаю, считать ли Python Core-разработчиком заведующего разработкой Pytest и Hypothesis), 6 зарубежных спикеров с нетривиальным опытом, доклады от Microsoft, Wargaming, JetBrains, Parallels, EPAM, Booking.com, Tinkoff и других не менее интересных компаний. Ни одной проходной темы, я проверил. Каждый докладчик по-своему интересен, и каждая тема точно найдет тех, кому есть что обсудить со спикером. В этой статье я максимально кратко расскажу обо всех наших гостях: акцент на спикерах, по темам вы и сами сориентируетесь.

На Moscow Python Conf++ приходите поговорить с разработчиками языка - 1
Читать полностью »

Natural Language Processing. Итоги 2019 и тренды на 2020

2020-02-11 в 14:04, admin, рубрики: data mining, data science, deep learning, machine learning, machine translation, natural language processing, neural networks, nlp, ods, recurrent neural network, Transformers, Блог компании Huawei, искусственный интеллект, машинное обучение

Всем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.

BERTs, BERTs are everywhere

Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:

Natural Language Processing. Итоги 2019 и тренды на 2020 - 1
Читать полностью »

«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане?

2020-02-10 в 14:06, admin, рубрики: big data, data engineering, data science, kolesa group, machine learning, зарплаты, исследование, Казахстан, Карьера в IT-индустрии

Дмитрий Казаков, Data Analytics Team Lead в Kolesa Group, делится инсайтами из первого казахстанского опроса специалистов по работе с данными.

«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане? - 1
На фото: Дмитрий Казаков

Помните популярную фразу о том, что Big Data больше всего напоминает подростковый секс – все о нем говорят, но никто не знает, есть ли он на самом деле. То же самое можно было сказать и о рынке специалистов по работе с данными (в Казахстане) – хайп есть, а кто за ним стоит (~~и есть ли там вообще хоть кто-то~~), не было до конца понятно – ни эйчарам, ни менеджерам, ни самим дата-сайентистам.

Мы провели исследование, в рамках которого опросили более 300 специалистов об их зарплатах, функциях, скиллах, инструментах и много еще о чем.

Спойлер: да, они точно существуют, но все не так однозначно.

Приятный инсайт. Во-первых, специалистов по работе с данными больше чем мы ожидали. Нам удалось опросить 300 человек, среди которых есть не только product-, marketing- и BI-аналитики, но и ML-, DWH-инженеры, что особенно порадовало. В самой большой группе оказались все те, кто называет себя дата-сайентистами – это 36% опрошенных. Покрывает это запрос рынка или нет, сказать сложно, потому что сам рынок только формируется. Читать полностью »

Сертификация по программе IBM Data Science Professional Certificate

2020-02-07 в 8:17, admin, рубрики: analysis data, classification, data science, data visualization, foursquare, location data, machine learning, ml, pandas, python, scikit-learn, визуализация данных, машинное обучение

Статья является кратким обзором о сертификации по программе IBM Data Science Professional Certificate.

Будучи новичком в Python, мне пришлось столкнуться с реализацией задач:

Загрузка и парсинг HTML таблиц
Очистка загруженных данных
Поиск географических координат по адресу объекта
Загрузка и обработка GEOJSON
Построение интерактивных тепловых карт (heat map)
Построение интерактивных фоновых картограмм (choropleth map)
Преобразование географических координат между сферической WGS84 и картезианский системой координат UTM
Представление пространственных географических объектов в виде гексагональная сетки окружностей
Поиск географических объектов, расположенных на определенном расстоянии от точки
Привязка географических объектов к полигонам сложной формы на поверхности
Описательные статистический анализ
Анализ категорийных переменных и визуализация результатов
Корреляционный анализ и визуализация результатов
Сегментация с использованием k-Mean кластеризации и elbow метода
Анализ и визуализация кластеров

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «machine learning» - 12

Как сжать модель fastText в 100 раз

Создать мощный курс Machine Learning: миссия выполнена

Как мы предсказываем будущее с помощью машинного обучения: discovery-запросы в поиске Яндекса

Молчание вентиляторов. Google Colab, Javascript и TensorflowJS

Настройка функции потерь для нейронной сети на данных сейсморазведки

Null проблема в Data Science и Machine Learning

На Moscow Python Conf++ приходите поговорить с разработчиками языка

Natural Language Processing. Итоги 2019 и тренды на 2020

BERTs, BERTs are everywhere

«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане?

Сертификация по программе IBM Data Science Professional Certificate

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «machine learning» - 12

BERTs, BERTs are everywhere

Новости

Актуальные темы

Архив