История о том, как NASA, ESA, Датский Технологический Университет, нейронные сети, деревья решений и прочие хорошие люди помогли найти мне лучший бесплатный гектар на Дальнем Востоке, а также в Африке, Южной Америке и других “так себе” местах.
Рубрика «big data» - 70
Поиск лучшего места в мире для ветряка
2017-08-04 в 8:36, admin, рубрики: azure, big data, data mining, machine learning, renewable energy, wind energy, Геоинформационные сервисы, машинное обучение, открытые данные, сечин, метки: renewable energyДжефф Безос стал самым богатым человеком планеты. Почему Amazon «съест весь мир»
2017-08-04 в 5:30, admin, рубрики: alexa, amazon, amazon air, amazon aws, Amazon Basics, Amazon EC2, amazon echo, amazon fire, Amazon Kindle, amazon music, amazon prime, amazon prime day, amazon s3, amazon video, Amazon Web Services, amazon web servises, big data, Google, google home, hbo, imdb, IT-Биографии, LeEco, microsoft, netflix, Twitch, wall street journal, Whole Foods, Woot, Алгоритмы, Бандеролька, Блог компании Бандеролька, будущее здесь, будущее наступило, гаджеты, Джефф Безос, Дональд Трамп, доставка, доставка из США, игра престолов, инновации, инновационные технологии, история amazon, история интернета, история создания, история успеха, логистика, логистика из сша, магазины, магазины без продавцов, онлайн магазины, покупки в сша, репрайсеры, роботы, сериалы, электронная коммерцияНа прошлой неделе Джефф Безос, глава Amazon, стал самым богатым человеком в мире, а стоимость его компании превысила $500 млрд. Активы бизнесмена достигли отметки в $91,4 миллиарда – при том, что в марте этого года у него было «всего» $70 млрд, и он не входил даже в первую тройку. Теперь у Джеффа Безоса с Биллом Гейтсом намечается игра «Перетягивание каната». Разница между их состояниями меньше $1 млрд, и в рейтинге Forbes они будут сменять друг друга, в зависимости от колебания акций Microsoft и Amazon. Первое место Гейтс точно не удержит: у него нет цели увеличить свой капитал, он занят благотворительностью, а вот мистер Безос развивает свое детище в полную силу, благодаря правильному использованию big data. У американских предпринимателей по поводу его работы возникают серьезные опасения.
В мае, еще до нового раунда роста акций Amazon, много шума в США наделал исследование о том, как компания «съест весь мир». Выводы там такие: конкурировать с ценами ритейлера невозможно. Лучший анализ big data позволяет магазину держать всех своих конкурентов в узде, и все другие крупные продавцы на американском рынке просто постепенно уйдут с дистанции. Единственная компания, которая может остановить полную монополизацию всех интернет-продаж – это (многим ненавистный) Walmart. Бандеролька считает доходы и разбирается в бизнес-империи Джеффа Безоса →

Генератор кликов на Python для программы Data Engineer
2017-08-03 в 8:39, admin, рубрики: big data, data engineering, data mining, python, selenium, Блог компании New Professions Lab, генератор кликовПроцесс разработки образовательной программы очень похож на процесс разработки нового продукта. И там, и там ты пытаешься вначале понять, а есть ли спрос на то, что ты собираешься производить? Существует ли в реальности та проблема, которую ты хочешь решить?
Предыстория
В этот раз для нас всё было довольно просто. Несколько выпускников нашей программы «Специалист по большим данным» в течение, наверное, года просили:
Сделайте для нас еще одну программу, где мы бы могли научиться работать с Kafka, Elasticsearch и разными инструментами экосистемы Hadoop, чтобы собирать пайплайны данных.
Потом со стороны работодателей стали «прилетать» запросы, которые собирательно можно описать так:
Data Engineer'ы – это очень горячие вакансии!
Реально их уже на протяжении полугода никак не можем закрыть.
Очень здорово, что вы обратили внимание именно на эту специальность. Сейчас на рынке очень большой перекос в сторону Data Scientist'ов, а больше половины работы по проектам – это именно инженерия.
С этого момента стало понятно, что спрос есть, и проблема существует. Надо бросаться в разработку программы!
Читать полностью »
Распознавание дорожных знаков с помощью CNN: Инструменты для препроцессинга изображений
2017-08-01 в 10:03, admin, рубрики: big data, data augmentation, data mining, Блог компании New Professions Lab, машинное обучение, обработка изображений, предобработка данных, распознавание изображенийПривет! Продолжаем серию материалов от выпускника нашей программы Deep Learning, Кирилла Данилюка, об использовании сверточных нейронных сетей для распознавания образов — CNN (Convolutional Neural Networks)
Введение
За последние несколько лет сфера компьютерного зрения (CV) переживает если не второе рождение, то огромный всплеск интереса к себе. Во многом такой рост популярности связан с эволюцией нейросетевых технологий. Например, сверточные нейронные сети (convolutional neural networks или CNN) отобрали себе большой кусок задач по генерации фич, ранее решаемых классическими методиками CV: HOG, SIFT, RANSAC и т.д.
Маппинг, классификация изображений, построение маршрута для дронов и беспилотных автомобилей — множество задач, связанных с генерацией фич, классификацией, сегментацией изображений могут быть эффективно решены с помощью сверточных нейронных сетей.
MultiNet как пример нейронной сети (трех в одной), которую мы будем использовать в одном из следующих постов. Источник.
Читать полностью »
Роскомнадзор запретил Big Data на данных «ВКонтакте»
2017-07-31 в 13:38, admin, рубрики: big data, Закон о персональных данных россиян, законотворчество, персональные данные, Роскомнадзор, Текучка, метки: big data, Закон о персональных данных россиян, законотворчество, персональные данные, Роскомнадзор, ТекучкаРоскомнадзор запретил компаниям собирать персональные данные в соцсети «ВКонтакте» без разрешения пользователей. Об этом сообщают «Известия» со ссылкой на разъяснение ведомства, которое было направлено собирающей такую информацию фирме.
В ведомстве пояснили, что Федеральный закон «О персональных данных» допускает обработку персональных данныхЧитать полностью »
R и большие данные: использование Replyr
2017-07-29 в 12:37, admin, рубрики: big data, dplyr, R, replyr, spark, sparklyr, Большие данные, метки: dplyrreplyr
— сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).
Почему стоит попробовать replyr
? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).
Можно работать так же, как и с локальным data.frame
. replyr
предоставляет такие возможности:
- Обобщение данных:
replyr_summary()
. - Объединение таблиц:
replyr_union_all()
. - Связывание таблиц по строкам:
replyr_bind_rows()
. - Использование функций разделения, объединения, комбинирования (
dplyr::do()
):replyr_split()
,replyr::gapply()
. - Аггрегирование/распределение:
replyr_moveValuesToRows()
/replyr_moveValuesToColumns()
. - Отслеживание промежуточных результатов.
- Контроллер объединений.
Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark
и sparklyr
гораздо легче.
replyr
— продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.
Примеры ниже.
Читать полностью »
Данные: красивые и ужасные
2017-07-27 в 11:26, admin, рубрики: big data, data mining, анализ данных, Блог компании Cloud4Y, визуализация данных, красота, открытые данныеДанные повсюду. И это прекрасно. Они меняют нашу жизнь, заново изобретают сторителлинг и оказывают влияние практически на все отрасли — бизнес, искусство, развлечения, музыку, технологии.
Вот некоторые яркие примеры…
Информационная журналистика
Совершенно ужасающая инфографика. Проект, который называется «С глаз долой, из сердца вон», — это хронология ударов беспилотных дронов в Пакистане с июля 2004 года по декабрь 2013 года.
С 2004 года США практиковали новый вид подпольной военной операции. Использование беспилотных летательных аппаратов для уничтожения вражеских целей казалось привлекательным, так как устраняло риск потери американских военных и политически было намного легче осуществимо. Показатель эффективности оказался крайне низок, а потери среди взрослого и детского гражданского населения очень высоки. Весь мир мог бы остаться в неведении о том, что на самом деле происходит, и, как говорится, с глаз долой, из сердца вон. Этот проект помогает осветить тему беспилотных летательных аппаратов, не говоря за или против. Изучив данные, вы можете самим решить, сможете ли вы поддерживать подобное использование беспилотных летательных аппаратов или нет.
Читать полностью »
«Data mining сейчас — это преимущество на рынке»: о конференции SmartData и больших данных
2017-07-26 в 14:01, admin, рубрики: big data, data science, smart data, smartdataconf, Блог компании JUG.ru Group, Виталий Худобахшов, конференция, открытые данные, Роман ПоборчийКонференции, посвящённые одной и той же теме, могут выглядеть совершенно по-разному. И когда планируется совсем новое мероприятие, заранее не вполне понятно, чего ожидать. Если конференция посвящена «большим и умным данным», то не окажется ли она рассчитана на гигантские компании, где сотрудникам маленьких делать нечего? И не будет ли там такого уклона в data science, что людям без учёной степени лучше не заходить?
В ожидании конференции SmartData, которая впервые состоится в Санкт-Петербурге 21 октября, мы решили внести ясность и расспросили двух членов её программного комитета: Виталия Худобахшова (Одноклассники) и Романа p0b0rchy Поборчего. Они развеяли многие опасения, а разговор получился не только о конференции, но и о состоянии индустрии: что сейчас происходит вокруг machine learning, зачем маленьким компаниям лезть в data mining и почему менеджеры тоже покупают билеты на техническую конференцию обо всём этом.
Отчет с Science Slam Digital 7 июля
2017-07-21 в 12:44, admin, рубрики: big data, mail.ru, Science Slam Digital, Блог компании Mail.Ru Group, Вконтакте, одноклассники, Программирование, метки: science slam digital7 июля Science Slam Digital собрал в нашем офисе более 600 зрителей, а число просмотров трансляции в соцсетях Одноклассники и ВКонтакте превысило 420 тысяч. Формат Science Slam зародился в Германии семь лет назад для популяризации научных достижений среди простых обывателей. Он состоит из серии научных лекций, которые читают молодые ученые. Доклад участника должен быть коротким (10 минут), доступным и информативным. Победителя слема определяют с помощью определения громкости аплодисментов зрителей шумометром.
Нам очень понравился этот формат, и мы захотели провести свой Science Slam, только цифровой, чтобы рассказать о технологиях просто и понятно. О том, что происходит внутри компании и чем занимаются сотрудники. Шесть разработчиков рассказали гостям и зрителям трансляции, что можно определить по почте, не открывая самих писем; как выяснить возраст человека в социальных сетях, даже если он не указан; какие тренды в медиапотреблении можно выделить уже сейчас и как они влияют на восприятие информации; как модифицировать социальную сеть, которой пользуются 100 миллионов человек, чтобы у них ничего не сломалось. Как это у нас получилось, вы можете посмотреть по нашим докладам.
Анализируем карьеру игроков NHL с помощью Survival Regression и Python
2017-07-18 в 13:48, admin, рубрики: big data, data mining, nhl, survival analysis, Блог компании New Professions Lab, кривые дожития, машинное обучение, метки: nhl, survival analysis, кривые дожитияПривет! Сегодня рассмотрим один из подходов к оценке временного риска, который основан на кривой выживаемости и одноименной регрессии, и применим его к анализу продолжительности карьеры игроков НХЛ.
Когда у данного пациента произойдет рецидив? Когда наш клиент уйдет? Ответы на подобные вопросы можно найти с помощью анализа выживания, который может быть использован во всех областях, где исследуется временной промежуток от «рождения» до «смерти» объекта, либо аналогичные события: период от поступления оборудования до его выхода из строя, от начала использования услуг компании и до отказа от них и т.д. Чаще всего данные модели используются в медицине, где необходимо оценить риск летального исхода у больного, чем и обусловлено название модели, однако они также применимы в сфере производства, банковском и страховом секторах.
