Рубрика «big data» - 21

Передача знания и Нейронный машинный перевод на практике

2019-11-13 в 16:40, admin, рубрики: big data, colab, sockeye, transfer learning, Алгоритмы, машинное обучение, нейронные сети, нейронный перевод, чувашский язык

Нейронный машинные перевод (НМП, англ. Neural Machine Translation, NMT) развивается очень быстро. Сегодня, чтобы собрать свой переводчик, не нужно иметь два высших образования. Но чтобы обучить модель, нужен большой параллельный корпус (корпус, в котором предложению на исходном языке сопоставлен его перевод). На практике речь идет хотя бы об одном миллионе пар предложений. Есть даже отдельная большая область НМП, исследующая методы обучения языковых пар с малым количеством данных в электронном виде (англ. Low Resource NMT).

Мы собираем чувашско-русский корпус и параллельно смотрим, что можно сделать с имеющимся объемом данных. В этом примере использовали корпус из 90 000 пар предложений. Самый хороший результат на данный момент дал метод передачи знания (англ. Transfer Learning), о нем и пойдет речь в статье. Цель статьи — дать практический пример реализации, который легко можно было бы воспроизвести.Читать полностью »

Data Mesh: как работать с данными без монолита

2019-11-13 в 15:37, admin, рубрики: big data, data, data lake, data mesh, DDD, Dodo Pizza Engineering, domain-driven design, Блог компании Dodo Pizza Engineering, данные, хранение данных

Привет! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.

Data Mesh: как работать с данными без монолита - 1 Читать полностью »

Минкомсвязи описало, кто и как сможет получить 1 миллиард ₽ под «Цифровые технологии»

2019-11-11 в 14:36, admin, рубрики: big data, Госвеб, госзакупки, Железо, импортозамещение, инвестиции, искусственный интеллект, Константин Носков, Минкомсвязи, наука, роботы, Россия, Текучка, телеком, метки: big data, Госвеб, госзакупки, железо, импортозамещение, инвестиции, искусственный интеллект, Константин Носков, Минкомсвязи, наука, роботы, Россия, Текучка, телеком

Министерство связи выпустила 3 приказа-пояснения, о том, как и кто может получить господдержку внедрения российских «сквозных цифровых технологий» в субъектах РФ. Максимальный размер гранта для проектов начатых в 2019, по решению министерства, может составлять до 1 миллиарда рублей. Проекты-соискатели обязаны показать свою значимость для региона, Читать полностью »

Андрей Себрант (Яндекс): Бизнес в Эпоху Искусственного Интеллекта

2019-11-11 в 11:55, admin, рубрики: big data, Алгоритмы, Андрей Себрант, Блог компании ua-hosting.company, будущее здесь, матрикснет, машинное обучение, яндекс

Сейчас все говорят о новой революции, которую несет искусственный интеллект и машинное обучение. Умные алгоритмы проникают во все сферы жизни: от поисков бозона Хиггса, до выбора фильма на вечер. Самые передовые компании уже активно внедряют эти технологии в свои продукты и маркетинг. Персонализированные рекомендации, реклама, интерфейс сайта — все это не какая-то черная магия, а уже доступные технологии.

На отечественном рынке, без сомнения, самой передовой компанией, использующей мощь машин, является Яндекс. В своем докладе на #amoCONF директор по маркетингу сервисов Яндекс, Андрей Себрант, рассказал о наступившем будущем и возможностях, открывающихся каждой компании. Оптимизируйте ваш бизнес под тенденции будущего!

^{Disclaimer. Эта статья — расшифровка выступления Андрея Себранта. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.}

Читать полностью »

Дайджест новостей машинного обучения и искусственного интеллекта за октябрь

2019-11-11 в 9:26, admin, рубрики: big data, data mining, Блог компании Mail.Ru Group, будущее, дайджест, данные, искусственный интеллект, машинное обучение, Новости

Привет! Отфильтровав для вас большое количество источников и подписок, собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за октябрь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за сентябрь, можете прочесть его здесь.

Итак, а теперь дайджест за октябрь:

1. Фотореалистичная 3D-модель человека выступила на TED. Нейросеть динамически восстанавливает 3D-модель человека на основе распознавания движения лицевых мышц. С помощью данных с камеры нейросеть распознает и восстанавливает эмоции и действия человека.

Читать полностью »

Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов

2019-11-10 в 20:50, admin, рубрики: big data, data mining, data science, geopandas, pandas, python, анализ данных, визуализация данных, выборы, Геоинформационные сервисы

Привет!

В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной комиссии, мы не будем ничего ломать, а просто визуализируем информацию с этого сайта www.st-petersburg.vybory.izbirkom.ru в нужном для нас виде, проведем совсем несложный анализ и определим некоторые «волшебные» закономерности.

Обычно для подобных задач я использую Google Colab. Это сервис, который позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, это заметно ускорит пирсинг данных и их дальнейшую обработку. Мне понадобились некоторые подготовительные работы перед импортом.

%%time 
!apt update
!apt upgrade
!apt install gdal-bin python-gdal python3-gdal 
# Install rtree - Geopandas requirment
!apt install python3-rtree 
# Install Geopandas
!pip install git+git://github.com/geopandas/geopandas.git
# Install descartes - Geopandas requirment
!pip install descartes

Далее импорты.

import requests 
from bs4 import BeautifulSoup 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd
import xlrd

Описание используемых библиотек

requests — модуль для запроса на подключение к сайту

BeautifulSoup — модуль для парсинга html и xml документов; позволяет получить доступ напрямую к содержимому любых тегов в html

numpy — математический модуль с базовым и необходимым набором математических функций

pandas — библиотека для анализа данных

matplotlib.pyplot — модуль-набор методов построения

geopandas — модуль для построения карты выборов

xlrd — модуль для чтения табличных файлов

Настал момент собирать сами данные, парсим. Избирком позаботился о нашем времени и предоставил отчетность в таблицах, это удобно.
Читать полностью »

Большое интервью про Big Data: зачем за нами следят в соцсетях и кто продает наши данные?

2019-11-09 в 8:59, admin, рубрики: big data, анализ данных, Блог компании ua-hosting.company, будущее здесь, информационная безопасность, отслеживание пользователей, приватность, Социальные сети и сообщества

^{Disclaimer. Специалист по Big Data, Артур Хачуян, рассказал, как соцсети могут читать наши сообщения, как наш телефон нас подслушивает, и кому все это нужно. Эта статья — расшифровка большого интервью. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.}

Большое интервью про Big Data: зачем за нами следят в соцсетях и кто продает наши данные? - 1

Каждый день мы что-то пишем, разыскиваем и выкладываем в интернете, и каждый день кто-то следит за нами по ту сторону экрана. Специальные программы сканируют фото, лайки и тексты, чтобы продать наши данные рекламным компаниям или полиции. Можно назвать это паранойей или научной фантастикой, но телефон, круг общения, переписка или ориентация — больше не секрет.Читать полностью »

RabbitMQ против Kafka: отказоустойчивость и высокая доступность

2019-11-08 в 7:50, admin, рубрики: big data, devops, isr, ITSumma, RabbitMQ, Rebalanser, zookeeper, алгоритм консенсуса, балансировщик нагрузки, Блог компании ITSumma, брокер сообщений, избыточность, обмен сообщениями, отказоустойчивость, очередь сообщений, перебалансировка, распределенные системы, синхронизированные реплики, Системы обмена сообщениями

RabbitMQ против Kafka: отказоустойчивость и высокая доступность - 1

В прошлой статье мы рассмотрели кластеризацию RabbitMQ для обеспечения отказоустойчивости и высокой доступности. Теперь глубоко покопаемся в Apache Kafka.

Здесь единицей репликации является раздел (partition). У каждого топика один или несколько разделов. В каждом разделе есть лидер с фолловерами или без них. При создании топика указывается количество разделов и коэффициент репликации. Обычное значение 3, это означает три реплики: один лидер и два фолловера.
Читать полностью »

9 лучших опенсорс находок за октябрь 2019

2019-11-05 в 12:41, admin, рубрики: big data, javascript, open source, python, Разработка веб-сайтов, разработка мобильных приложений

Доброго ноября, дамы и господа. Подготовил для вас подборку самых интересных находок из опенсорса за октябрь 2019.

За полным списком новых полезных инструментов, статей и докладов можно обратиться в мой телеграм канал @OpensourceFindings (по ссылке зеркало, если не открывается оригинал).

В сегодняшнем выпуске.
Технологии внутри: Rust, Swift, TypeScript, JavaScript, Go, Scala, Python.
Тематика: веб и мобильная разработка, визуализация данных, инструменты разработчика, документация.

Прошлый выпуск.

Читать полностью »

Dell соберет для нефтяников самый мощный промышленный суперкомпьютер в истории

2019-11-04 в 8:52, admin, рубрики: 70 Пфлопс, big data, dell, Eni, HPC4, HPC5, miran, Блог компании Дата-центр «Миран», вычисления, дата-центр "Миран", нефтедобыча, Промышленное программирование, промышленность, суперкомпьютеры, суперкомьютер

Компания Dell создаст самый мощный промышленный суперкомпьютер в истории. Новая установка под названием HPC5 будет обладать вычислительной мощностью в 52 Пфлопс.

Dell соберет для нефтяников самый мощный промышленный суперкомпьютер в истории - 1
Суперкомпьютер HPC4 в дата-центре Green Eni, провинция Павия, Италия

Заказчиком выступает нефтяная компания Eni, которая уже является владельцем суперкомпьютера Dell HPC4 мощностью 18 Пфлопс. Новая система на 52 Пфлопс будет полностью совместима с предыдущей моделью, таким образом Eni создаст мини-кластер из двух суперкомпьютеров совокупной вычислительной мощностью в 70 Пфлопс, что является самой производительной установкой в истории промышленности.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 21

Передача знания и Нейронный машинный перевод на практике

Data Mesh: как работать с данными без монолита

Минкомсвязи описало, кто и как сможет получить 1 миллиард ₽ под «Цифровые технологии»

Андрей Себрант (Яндекс): Бизнес в Эпоху Искусственного Интеллекта

Дайджест новостей машинного обучения и искусственного интеллекта за октябрь

Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов

Описание используемых библиотек

Большое интервью про Big Data: зачем за нами следят в соцсетях и кто продает наши данные?

RabbitMQ против Kafka: отказоустойчивость и высокая доступность

9 лучших опенсорс находок за октябрь 2019

Dell соберет для нефтяников самый мощный промышленный суперкомпьютер в истории

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 21

Описание используемых библиотек

Новости

Актуальные темы

Архив