Рубрика «data mining» - 9

В части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.

Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».

Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.

Первый этап начинается с определения статистических показателей датасета.

Таблица 1. Статпоказатели датасета
Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая - 1
Читать полностью »

Ранее мы публиковали пост, где с помощью графов проводили анализ сообществ в Точках кипения из разных городов России. Теперь хотим рассказать, как строить такие графы и проводить их анализ.

Построение графов для чайников: пошаговый гайд - 1

Под катом — пошаговая инструкция для тех, кто давно хотел разобраться с визуализацией графов и ждал подходящего случая.
Читать полностью »

Всем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.

BERTs, BERTs are everywhere

Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:

Natural Language Processing. Итоги 2019 и тренды на 2020 - 1
Читать полностью »

Привет! Представляю вашему внимаю перевод статьи из журнала APC.

Машинное обучение и интеллектуальный анализ данных – это практические разработки ИИ, благодаря которым появляются приложения различных тематик, начиная от воздухоплавания и заканчивая зоологией. Эти процессы чаще всего выполняются в облаке, на ПК или ноутбуке, гораздо реже – в смартфоне.

Однако недавно в Google Play появилось новое бесплатное приложение под названием «DataLearner», с помощью которого можно добывать данные. Оно не требует внешних ресурсов и доступа с полномочиями суперпользователя.

Вычислительные ресурсы смартфонов

Многие ошибочно полагают, что для машинного обучения и добычи данных требуется много ресурсов облачной вычислительной системы или по меньшей мере мощный компьютер. Однако в конечном счёте всё сводится к размеру анализируемых данных и типу машинного обучения, которое вы хотите применить.

У компьютерного обучения есть свои уровни сложности. Если представить, что такая недавно появившаяся техника глубокого обучения, как свёрточная нейросеть (CNN) – это автомобиль с высокой удельной мощностью, то другие техники, например, дерево поиска решений и многие прочие «лесные» методы обучения – это горячие «хэтчбеки». Они показывают отличные результаты, быстры и легки даже при ограниченных вычислительных возможностях CPU.
Читать полностью »

Недавно столкнулся с проблемой выбора квартиры и конечно первым делом решил узнать, что происходит на рынке недвижимости и, как это обычно бывает, половина экспертов с youtube.com говорят, что недвижимость будет расти, другая утверждает, что наоборот цена будет падать. В итоге решил разобраться сам, и вот, что из этого вышло.

Анализ рынка недвижимости на основе данных с msgr.ru - 1
© Designed by upklyak / Freepik

Читать полностью »

В декабре прошлого года мы с шестью другими сколковскими компаниями провели собственный стартап-хакатон. Без корпоративных спонсоров и какой-либо внешней поддержки, силами программерского сообщества мы собрали две сотни участников из 20 городов России. Ниже я расскажу как нам это удалось, какие мы встретили по пути подводные камни и почему сходу начали сотрудничать с одной из команд-победительниц.

Зачем хардверному стартапу софтовый хакатон - 1Интерфейс приложения, управляющего модулями Watts Battery от финалистов трека, «Мокрые волосы»

Компания

Наша компания Watts Battery создаёт модульные портативные электростанции. Продукт – портативная электростанция 46x36x11 см, способная давать от 1,5 до 15 киловатт в час. Четыре таких модуля могут обеспечивать энергопотребление небольшого загородного дома на протяжении двух суток.

Хотя в прошлом году мы начали отгрузку серийных образцов, по всем параметрам Watts Battery – стартап. Компания основана в 2016-м и с этого же года – резидент Кластера энергоэффективных технологий «Сколково», сегодня у нас 15 сотрудников и огромный бэклог того, что мы хотели бы на каком-то этапе сделать, но прямо сейчас не до этого.

Туда входят и чисто софтовые задачи. Почему?

Основная задача модуля – обеспечить бесперебойное сбалансированное энергоснабжение по оптимальной стоимости. Если у вас возникает отключение электричества по независящим от вас причинам, у вас всегда должен быть резерв для того, чтобы полностью запитать необходимую нагрузку сети на время выключения. А когда с электроснабжением всё в порядке, вы можете использовать солнечную энергию, чтобы экономить.

Читать полностью »

Туториал по Uplift моделированию. Часть 2 - 1

В первой части мы познакомились с uplift моделированием и узнали, что метод позволяет выбирать оптимальную стратегию коммуникации с клиентом, а также разобрали особенности сбора данных для обучения модели и несколько базовых алгоритмов. Однако эти подходы не позволяли оптимизировать uplift напрямую. Поэтому в этой части разберем более сложные, но не менее интересные подходы.
Читать полностью »

Количество частных инвесторов на Московской бирже удвоилось за последний год и составило 3,86 млн: за 2019 счета на Мосбирже открыли 1,9 млн человек. Санкт-Петербургская биржа, специализирующаяся на торгах акциями иностранных компаний, в прошлом году зафиксировала трехкратный прирост счетов – с 910 000 до 3,06 млн шт.

Что делает Free API Московской биржи в Google Таблицах - 1

Это означает, что на рынок пришло почти 2 млн новичков, которые никогда не занимались трейдингом и не использовали специализированный софт для торгов и учета позиций.

Читать полностью »

Туториал по uplift моделированию. Часть 1 - 1


Команда Big Data МТС активно извлекает знания из имеющихся данных и решает большое количество задач для бизнеса. Один из типов задач машинного обучения, с которыми мы сталкиваемся – это задачи моделирования uplift. С помощью этого подхода оценивается эффект от коммуникации с клиентами и выбирается группа, которая наиболее подвержена влиянию.

Такой класс задач прост в реализации, но не получил большого распространения в литературе про машинное обучение. Небольшой цикл статей, подготовленный Ириной Елисовой (iraelisova) и Максимом Шевченко (maks-sh), можно рассматривать как руководство к решению таких задач. В рамках него мы познакомимся с uplift моделями, рассмотрим, чем они отличаются от других подходов, и разберем их реализации.
Читать полностью »

Если вы используете публикации на различных сайтах и в СМИ как один из инструментов продвижения, то рано или поздно перед вами возникнет вопрос их систематизации. Тогда же появляется и обратная связь, которая обычно включает в себя:

  1. просмотры;
  2. комментарии с разным эмоциональным оттенком;
  3. сохранения (сколько пользователей этого сайта добавили материал в свои закладки);
  4. рейтинги (сколько пользователей этого сайта проголосовали за или против).

Учёт собственных публикаций - 1

Если все ваши статьи размещены на одном ресурсе, то особых проблем с учетом не возникает. Вышеперечисленные показатели обычно сведены в админке (как на картинке ниже) и всегда можно наглядно оценить какая из собственных тем более популярна. У меня же публикации по одной теме часто «размазаны» по разным ресурсах, таких как Хабр, виси.ру, Medium, Яндекс Дзен и (если корректно отнести к публикациям) GitHub. И передо мной была проблема увидеть общую картину по проектам и темам «в одном окне».Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js