Рубрика «big data» - 41

Всем добрый день!

И у нас снова открыт новый поток на доработанный курса «Data scientist»: ещё один отличный преподаватель, чуть доработанная исходя из обновлений программа. Ну и как обычно интересные открытые уроки и подборки интересных материалов. Сегодня мы начнём разбор seq2seq моделей от Tensor Flow.

Поехали.

Как уже обсуждалось в туториале RNN (рекомендуем ознакомиться с ним перед чтением этой статьи), рекуррентные нейронные сети можно научить моделировать язык. И возникает интересный вопрос: возможно ли обучение сети на определенных данных для генерации осмысленного ответа? Например, можем ли мы научить нейронную сеть переводить с английского языка на французский? Оказывается, что можем.

Это руководство покажет вам, как создать и обучить такую систему end-to-end. Скопируйте основной репозиторий Tensor Flow и репозиторий моделей TensorFlow с GitHub. Затем, можно начать с запуска программы перевода:

cd models/tutorials/rnn/translate
python translate.py --data_dir [your_data_directory]

Модели Sequence-to-Sequence Ч.1 - 1Читать полностью »

Data Engineering и не только: видеозаписи и слайды с митапа - 1

15 ноября в офисе Wrike прошел митап «Data Engineering и не только». Поговорили об инженерах данных как об отдельной специальности, наметили отличия процессов в софтверном и дата-инжениринге, посмотрели, как можно писать тесты для Apache Spark, и чуть-чуть коснулись особенностей семантических технологий.

Для тех, кто не смог прийти, мы публикуем видеозаписи докладов.
Читать полностью »

Splunk. Легкий Troubleshooting работы приложений - 1

Как часто вы используете уже созданные надстройки со Splukbase, вместо того, чтобы написать собственные? Всегда ли в них есть то, что вы хотели бы увидеть? Все ли в них работает нормально, даже если устанавливалось точно по инструкции? Сегодня мы поговорим об особенностях работы с приложениями Splunk.

А именно, научимся разбираться в том, как формируются запросы в приложениях, чтобы в дальнейшем на их основе сделать что-то конкретное под свою задачу. А также рассмотрим несколько причин, из-за которых зачастую приложения начинают работать криво или не работают совсем.
Читать полностью »

Есть такой популярный класс задач, в которых требуется проводить достаточно глубокий анализ всего объема цепочек работ, регистрируемых какой-либо информационной системой (ИС). В качестве ИС может быть документооборот, сервис деск, багтрекер, электронный журнал, складской учет и пр. Нюансы проявляются в моделях данных, API, объемах данных и иных аспектах, но принципы решения таких задач примерно одинаковы. И грабли, на которые можно наступить, тоже во многом похожи.

Для решения подобного класса задач R подходит как нельзя лучше. Но, чтобы не разводить разочарованно руками, что R может и хорош, но о-о-очень медленный, важно обращать внимание на производительность выбираемых методов обработки данных.

Является продолжением предыдущих публикаций.Читать полностью »

Посекундный биллинг, маркетплейс и песочницы для Big Data: что могут тестовые среды в облаке - 1

Любой компании, разрабатывающей софт, нужны тестовые среды, приближенные к продакшн-окружению. Особенно это актуально для коробочного ПО, у которого длинный цикл релизов.
Многие проблемы построения тестовых сред решает их размещение в облаке. Мы расскажем про возможности тестирования на нашей облачной платформе Mail.Ru Cloud Solutions (MCS). Но часть из того, что мы расскажем, верна для любого облака.
Читать полностью »

Как определить наилучшее время для сделки на бирже - 1

Понять, когда именно стоит покупать, а когда продавать акции на бирже – самая важная задача любого инвестора. От правильного выбора времени зависит как сам факт наличия прибыли, так и ее размер.

Тренд последних лет – появление автоматизированных инструментов, которые помогают поймать такой момент на основе анализа Big Data и машинного обучения. Мы в ITI Capital также разработали такой продукт под названием ITI Global, и в сегодняшнем материале расскажем о том, какие данные анализируют подобные системы.Читать полностью »

Продолжаем рассказ об олимпиаде для бакалавров, магистров и специалистов «Я — профессионал». Она проводится при поддержке сильнейших вузов. Сегодня мы расскажем о новом соревновательном направлении, которое курирует Университет ИТМО, — «Большие данные».

Генеральный партнер олимпиады «Я — профессионал» по направлениям Университета ИТМО — «Компьютерные науки», «Информационная и кибербезопасность», «Большие данные» — Сбербанк.

В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал» - 1Читать полностью »

К 2025 году общемировой объем сохраненных данных достигнет 163 зеттабайт — к такому выводу пришли аналитики консалтинговой компании International Data Corporation (IDC) в своем докладе “The Data Age 2025”. Для сравнения, в 2016 году эта цифра составляла всего 16 зеттабайт — таким образом, мы получим практически десятикратный прирост объема сохраненной информации.

Виноваты в этом отнюдь не видео в формате 4K и не компьютерные игры весом от 100 ГБ и выше: столь бурный рост связан с повышенным интересом к Big Data со стороны бизнеса. Стремясь предсказать поведение потенциальных клиентов и лучше понять целевую аудиторию, крупные корпорации фиксируют буквально каждое действие, совершаемое человеком в глобальной паутине. Ситуацию усугубляют и такие перспективные направления, как машинное обучение и интернет вещей: миллиарды устройств ежесекундно генерируют огромное количество информации, а нейросети требуют все больше сведений для анализа и обработки.

Перечисленные факторы определяют спрос на более вместительные накопители, но реально ли в принципе удовлетворить потребности современного рынка? Мы утверждаем — да, с появлением MAMR нет ничего невозможного! Специально для тех, у кого нет времени на чтение объемных материалов, мы подготовили короткий видеоролик, освещающий основные преимущества накопителей, выполненных по технологии MAMR.

Если же вы хотите узнать “грязные подробности”, добро пожаловать под кат!Читать полностью »

dva stula

Наверное, многие из тех, кто занимается анализом данных, когда-нибудь думали о том, возможно ли использовать в работе одновременно R и Python. И если да, то зачем это может быть нужно? В каких случаях будет полезным и эффективным для проектов? Да и как вообще выбрать лучший способ совмещения языков, если гугл выдает примерно 100500 вариантов?

Давайте попробуем разобраться в этих вопросах.
Читать полностью »

Всем привет!

Мы открыли новый поток на курс «Machine learning», так что ждите в ближайшее время статей связанных с данной, так сказать, дисциплиной. Ну и разумеется открытых семинаров. А сейчас давайте рассмотрим, что такое обучение с подкреплением.

Обучение с подкреплением является важным видом машинного обучения, где агент учится вести себя в окружающей среде, выполняя действия и видя результаты.

В последние годы мы наблюдаем много успехов в этой увлекательной области исследований. Например, DeepMind и Deep Q Learning Architecture в 2014 году, победа над чемпионом по игре в го с AlphaGo в 2016, OpenAI и PPO в 2017 году, среди прочих.

Введение в обучение с подкреплением - 1Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js