Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и пример компактной модели для русских слов.
Рубрика «data mining» - 9
Применяем Data Science в мирных целях покупки дома
2020-02-22 в 7:50, admin, рубрики: data mining, data science, diy или сделай сам, geospatial computing, montreal, R, real estate, Лайфхаки для гиковЧтобы продать что-нибудь ненужное, нужно сначала купить что-нибудь ненужное, а у нас денег нет.
— Трое из Простоквашино
Введение
Так получилось, что я живу в своей квартире (или кондо по-местному) в Монреале. И однажды, примерно год назад меня посетила мысль что неплохо-бы перебраться в собственный дом. Некоторый опыт покупки и продажи жилья у меня уже был и, в принципе, можно было-бы подойти к этому вопросу просто, как поступает большинство местных обывателей: нанять риэлтора и предоставить ему разобраться со всеми вопросами, но это было-бы скучно и не интересно.
Поэтому я решил подойти к этому делу научно: есть задача надо разобраться сколько примерно то что у меня есть, и где находится то что я могу себе позволить. Ну и попутный вопрос — понять куда дует ветер. И изучить гео-пространственные вычисления в R.
Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая
2020-02-21 в 15:43, admin, рубрики: big data, data accuracy, data analysis, data anomaly, data cleansing, data completeness, data consistency, data engineering, data mining, data preparation, data quality, data structures, dirty data, Алгоритмы, грязные данные, обработка данных, открытые данные, очистка данныхВ части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.
Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».
Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.
Первый этап начинается с определения статистических показателей датасета.
Таблица 1. Статпоказатели датасета
Читать полностью »
Построение графов для чайников: пошаговый гайд
2020-02-12 в 14:02, admin, рубрики: data mining, Блог компании Leader-ID, визуализация данных, графы, математикаРанее мы публиковали пост, где с помощью графов проводили анализ сообществ в Точках кипения из разных городов России. Теперь хотим рассказать, как строить такие графы и проводить их анализ.
Под катом — пошаговая инструкция для тех, кто давно хотел разобраться с визуализацией графов и ждал подходящего случая.
Читать полностью »
Natural Language Processing. Итоги 2019 и тренды на 2020
2020-02-11 в 14:04, admin, рубрики: data mining, data science, deep learning, machine learning, machine translation, natural language processing, neural networks, nlp, ods, recurrent neural network, Transformers, Блог компании Huawei, искусственный интеллект, машинное обучениеВсем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.
BERTs, BERTs are everywhere
Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:
Машинное обучение на Android
2020-02-09 в 18:12, admin, рубрики: data mining, DataLearner, open source, алгоритм, Алгоритмы, визуализация данных, извлечение данных, искусственный интеллект, приложениеПривет! Представляю вашему внимаю перевод статьи из журнала APC.
Машинное обучение и интеллектуальный анализ данных – это практические разработки ИИ, благодаря которым появляются приложения различных тематик, начиная от воздухоплавания и заканчивая зоологией. Эти процессы чаще всего выполняются в облаке, на ПК или ноутбуке, гораздо реже – в смартфоне.
Однако недавно в Google Play появилось новое бесплатное приложение под названием «DataLearner», с помощью которого можно добывать данные. Оно не требует внешних ресурсов и доступа с полномочиями суперпользователя.
Вычислительные ресурсы смартфонов
Многие ошибочно полагают, что для машинного обучения и добычи данных требуется много ресурсов облачной вычислительной системы или по меньшей мере мощный компьютер. Однако в конечном счёте всё сводится к размеру анализируемых данных и типу машинного обучения, которое вы хотите применить.
У компьютерного обучения есть свои уровни сложности. Если представить, что такая недавно появившаяся техника глубокого обучения, как свёрточная нейросеть (CNN) – это автомобиль с высокой удельной мощностью, то другие техники, например, дерево поиска решений и многие прочие «лесные» методы обучения – это горячие «хэтчбеки». Они показывают отличные результаты, быстры и легки даже при ограниченных вычислительных возможностях CPU.
Читать полностью »
Анализ рынка недвижимости на основе данных с msgr.ru
2020-02-08 в 15:35, admin, рубрики: big data, data mining, python, scrapy, аналитика, визуализация данных, Исследования и прогнозы в IT, недвижимость, недвижимость и ценыНедавно столкнулся с проблемой выбора квартиры и конечно первым делом решил узнать, что происходит на рынке недвижимости и, как это обычно бывает, половина экспертов с youtube.com говорят, что недвижимость будет расти, другая утверждает, что наоборот цена будет падать. В итоге решил разобраться сам, и вот, что из этого вышло.
Зачем хардверному стартапу софтовый хакатон
2020-02-08 в 10:53, admin, рубрики: data mining, IoT, watts battery, Интернет вещей, хакатон, Хакатоны, экология, Энергия и элементы питанияВ декабре прошлого года мы с шестью другими сколковскими компаниями провели собственный стартап-хакатон. Без корпоративных спонсоров и какой-либо внешней поддержки, силами программерского сообщества мы собрали две сотни участников из 20 городов России. Ниже я расскажу как нам это удалось, какие мы встретили по пути подводные камни и почему сходу начали сотрудничать с одной из команд-победительниц.
Интерфейс приложения, управляющего модулями Watts Battery от финалистов трека, «Мокрые волосы»
Компания
Наша компания Watts Battery создаёт модульные портативные электростанции. Продукт – портативная электростанция 46x36x11 см, способная давать от 1,5 до 15 киловатт в час. Четыре таких модуля могут обеспечивать энергопотребление небольшого загородного дома на протяжении двух суток.
Хотя в прошлом году мы начали отгрузку серийных образцов, по всем параметрам Watts Battery – стартап. Компания основана в 2016-м и с этого же года – резидент Кластера энергоэффективных технологий «Сколково», сегодня у нас 15 сотрудников и огромный бэклог того, что мы хотели бы на каком-то этапе сделать, но прямо сейчас не до этого.
Туда входят и чисто софтовые задачи. Почему?
Основная задача модуля – обеспечить бесперебойное сбалансированное энергоснабжение по оптимальной стоимости. Если у вас возникает отключение электричества по независящим от вас причинам, у вас всегда должен быть резерв для того, чтобы полностью запитать необходимую нагрузку сети на время выключения. А когда с электроснабжением всё в порядке, вы можете использовать солнечную энергию, чтобы экономить.
Туториал по Uplift моделированию. Часть 2
2020-02-04 в 12:23, admin, рубрики: causal effect, causal Inference, causal tree, causality, causalml, data mining, data science, net lift, uplift, аплифт, Блог компании МТС, искусственный интеллект, математика, машинное обучениеВ первой части мы познакомились с uplift моделированием и узнали, что метод позволяет выбирать оптимальную стратегию коммуникации с клиентом, а также разобрали особенности сбора данных для обучения модели и несколько базовых алгоритмов. Однако эти подходы не позволяли оптимизировать uplift напрямую. Поэтому в этой части разберем более сложные, но не менее интересные подходы.
Читать полностью »
Что делает Free API Московской биржи в Google Таблицах
2020-02-04 в 1:45, admin, рубрики: api, data mining, Google API, Google Sheets, google таблицы, акции, Алгоритмы, биржа, биржевая торговля, инвестиции, котировка, Московская Биржа, облигации, парсинг, статистика, финансы в IT, ценные бумагиКоличество частных инвесторов на Московской бирже удвоилось за последний год и составило 3,86 млн: за 2019 счета на Мосбирже открыли 1,9 млн человек. Санкт-Петербургская биржа, специализирующаяся на торгах акциями иностранных компаний, в прошлом году зафиксировала трехкратный прирост счетов – с 910 000 до 3,06 млн шт.
Это означает, что на рынок пришло почти 2 млн новичков, которые никогда не занимались трейдингом и не использовали специализированный софт для торгов и учета позиций.