Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и пример компактной модели для русских слов.
Рубрика «machine learning» - 12
Создать мощный курс Machine Learning: миссия выполнена
2020-02-21 в 12:28, admin, рубрики: big data, data science, machine learning, Блог компании OTUS. Онлайн-образование, Карьера в IT-индустрии, курсы, машинное обучение, образование онлайнУ нас было 2 неудачных запуска, 169 студентов, 8 сердитых отзывов, 3 смены названий, слишком много теории и мало реальной практики. Не то чтобы это было полным провалом, но если начал обучать Data Science, надо сделать это идеально. Сегодня вы услышите историю о том, как мы развивали в OTUS направление анализа данных и какие на этом пути допустили, а потом исправили ошибки.
Читать полностью »
Как мы предсказываем будущее с помощью машинного обучения: discovery-запросы в поиске Яндекса
2020-02-20 в 8:22, admin, рубрики: machine learning, Алгоритмы, Блог компании Яндекс, искусственный интеллект, команда яндекс.поиска, машинное обучение, поиск яндекса, поисковые технологии, яндексЛюди не всегда точно формулируют свои запросы, поэтому поисковые системы должны помогать им в этом. Меня зовут Сергей Юдин, я руковожу группой аналитики функциональности поиска в Яндексе. Мы каждый день улучшаем что-то с помощью машинного обучения. Последний год мы разрабатываем технологию, которая предугадывает интересы человека.
Со специалистом из моей команды Анастасией Гайдашенко avgaydashenko я расскажу читателям Хабра, как работает эта технология, опишу архитектуру и применяемые алгоритмы. А ещё вы узнаете, чем предсказание следующего запроса отличается от предсказания будущих интересов человека.
Молчание вентиляторов. Google Colab, Javascript и TensorflowJS
2020-02-19 в 8:20, admin, рубрики: Google, Google Colaboratory, Hannibal Lecter, javascript, jupyter notebook, machine learning, TensorFlow, tensorflow-js, машинное обучениеGoogle Colab — это бесплатный облачный сервис на основе Jupyter Notebook. Google Colab предоставляет всё необходимое для машинного обучения прямо в браузере, даёт бесплатный доступ к невероятно быстрым GPU и TPU. Заранее предупрежу, что у него есть некоторые ограничения, поэтому вы не сможете использовать его для production.
С помощью Google Colab вы можете легко обучить свою модель за считанные секунды. Он поддерживает Python (2/3) из коробки, так что всё должно быть хорошо, верно?
Настройка функции потерь для нейронной сети на данных сейсморазведки
2020-02-18 в 10:19, admin, рубрики: analysis, cnn, data interpretation, deep learning, loss, machine learning, maritime, ods, python, seismic, unet, Блог компании Open Data Science, Геоинформационные сервисы, искусственный интеллект, машинное обучениеВ прошлой статье мы описали эксперимент по определению минимального объема вручную размеченных срезов для обучения нейронной сети на данных сейсморазведки. Сегодня мы продолжаем эту тему, выбирая наиболее подходящую функцию потерь.
Рассмотрены 2 базовых класса функций – Binary cross entropy и Intersection over Union – в 6-ти вариантах с подбором параметров, а также комбинации функций разных классов. Дополнительно рассмотрена регуляризация функции потерь.
Спойлер: удалось существенно улучшить качество прогноза сети.
Null проблема в Data Science и Machine Learning
2020-02-17 в 2:40, admin, рубрики: data engineering, data science, machine learning, NaN, natural language processing, None, null, Алгоритмы, машинное обучение, СемантикаСуществующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.
На Moscow Python Conf++ приходите поговорить с разработчиками языка
2020-02-13 в 10:04, admin, рубрики: legacy, machine learning, Moscow Python Conf++, python, Блог компании Конференции Олега Бунина (Онтико), конференции, Программирование, Разработка веб-сайтовМы строили-строили, и наконец построили: расписание Moscow Python Conf++ собрано, проверено, перепроверено и опубликовано. Не то чтобы работа Программного комитета на этом заканчивалась (за два-то месяца до конференции, ну-ну), но 10 месяцев явно потрачено не зря, и я с нетерпением жду результата, заложив все возможное для общения разработчиков друг с другом.
Сейчас расскажу, какой получилась программа конференции, и выбора у нас просто не останется. На площадке в центре Москвы будет: 3 потока докладов, поток воркшопов и митапов, 4 Core-разработчика (я до сих пор не знаю, считать ли Python Core-разработчиком заведующего разработкой Pytest и Hypothesis), 6 зарубежных спикеров с нетривиальным опытом, доклады от Microsoft, Wargaming, JetBrains, Parallels, EPAM, Booking.com, Tinkoff и других не менее интересных компаний. Ни одной проходной темы, я проверил. Каждый докладчик по-своему интересен, и каждая тема точно найдет тех, кому есть что обсудить со спикером. В этой статье я максимально кратко расскажу обо всех наших гостях: акцент на спикерах, по темам вы и сами сориентируетесь.
Natural Language Processing. Итоги 2019 и тренды на 2020
2020-02-11 в 14:04, admin, рубрики: data mining, data science, deep learning, machine learning, machine translation, natural language processing, neural networks, nlp, ods, recurrent neural network, Transformers, Блог компании Huawei, искусственный интеллект, машинное обучениеВсем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.
BERTs, BERTs are everywhere
Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:
«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане?
2020-02-10 в 14:06, admin, рубрики: big data, data engineering, data science, kolesa group, machine learning, зарплаты, исследование, Казахстан, Карьера в IT-индустрииДмитрий Казаков, Data Analytics Team Lead в Kolesa Group, делится инсайтами из первого казахстанского опроса специалистов по работе с данными.
На фото: Дмитрий Казаков
Помните популярную фразу о том, что Big Data больше всего напоминает подростковый секс – все о нем говорят, но никто не знает, есть ли он на самом деле. То же самое можно было сказать и о рынке специалистов по работе с данными (в Казахстане) – хайп есть, а кто за ним стоит (и есть ли там вообще хоть кто-то), не было до конца понятно – ни эйчарам, ни менеджерам, ни самим дата-сайентистам.
Мы провели исследование, в рамках которого опросили более 300 специалистов об их зарплатах, функциях, скиллах, инструментах и много еще о чем.
Спойлер: да, они точно существуют, но все не так однозначно.
Приятный инсайт. Во-первых, специалистов по работе с данными больше чем мы ожидали. Нам удалось опросить 300 человек, среди которых есть не только product-, marketing- и BI-аналитики, но и ML-, DWH-инженеры, что особенно порадовало. В самой большой группе оказались все те, кто называет себя дата-сайентистами – это 36% опрошенных. Покрывает это запрос рынка или нет, сказать сложно, потому что сам рынок только формируется. Читать полностью »
Сертификация по программе IBM Data Science Professional Certificate
2020-02-07 в 8:17, admin, рубрики: analysis data, classification, data science, data visualization, foursquare, location data, machine learning, ml, pandas, python, scikit-learn, визуализация данных, машинное обучениеСтатья является кратким обзором о сертификации по программе IBM Data Science Professional Certificate.
Будучи новичком в Python, мне пришлось столкнуться с реализацией задач:
- Загрузка и парсинг HTML таблиц
- Очистка загруженных данных
- Поиск географических координат по адресу объекта
- Загрузка и обработка GEOJSON
- Построение интерактивных тепловых карт (heat map)
- Построение интерактивных фоновых картограмм (choropleth map)
- Преобразование географических координат между сферической WGS84 и картезианский системой координат UTM
- Представление пространственных географических объектов в виде гексагональная сетки окружностей
- Поиск географических объектов, расположенных на определенном расстоянии от точки
- Привязка географических объектов к полигонам сложной формы на поверхности
- Описательные статистический анализ
- Анализ категорийных переменных и визуализация результатов
- Корреляционный анализ и визуализация результатов
- Сегментация с использованием k-Mean кластеризации и elbow метода
- Анализ и визуализация кластеров