Рубрика «big data» - 57

Обзор второго дня Data Science Weekend 2018. Data Engineering, ETL, поисковые сервисы и многое другое

2018-03-26 в 8:29, admin, рубрики: Apache Ignite, apache solr, big data, data engineering, data mining, etl, Hadoop, hortonworks, python, Блог компании New Professions Lab

Несколько дней назад мы публиковали обзор первого дня Data Science Weekend 2018, который прошел 2-3 марта на Мансарде Rambler&Co. Изучив практику использования алгоритмов машинного обучения, теперь перейдем к обзору второго дня конференции, в течении которого спикеры рассказывали об использовании различных инструментов дата инженера для нужд дата-платформ, ETL, сервисах подсказок при поиске и многом другом.

Обзор второго дня Data Science Weekend 2018. Data Engineering, ETL, поисковые сервисы и многое другое - 1
Читать полностью »

Сравнение открытых OLAP-систем Big Data: ClickHouse, Druid и Pinot

2018-03-23 в 12:18, admin, рубрики: big data, clickhouse, columnar database, driud, pinot, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, хранилища данных

ClickHouse, Druid и Pinot — три открытых хранилища данных, которые позволяют выполнять аналитические запросы на больших объемах данных с интерактивными задержками. Эта статья — перевод подробного сравнения, выполненного Романом Левентовым.

Спойлер

ClickHouse	Druid или Pinot
В организации есть эксперты по C++	В организации есть эксперты по Java
Малый кластер	Большой кластер
Немного таблиц	Много таблиц
Один набор данных	Несколько несвязанных наборов данных
Таблицы и данные находятся в кластере перманентно	Таблицы и наборы данных периодически появляются в кластере и удаляются из него
Размер таблиц (и интенсивность запросов к ним) остается стабильным во времени	Таблицы значительно растут и сжимаются
Однородные запросы (их тип, размер, распределение по времени суток и т.д.)	Разнородные запросы
В данных есть измерение, по которому оно может быть сегментировано, и почти не выполняется запросов, которые затрагивают данные, расположенные в нескольких сегментах	Подобного измерения нет, и запросы часто затрагивают данные, расположенные во всем кластере
Облако не используется, кластер должен быть развернут на специфическую конфигурацию физических серверов	Кластер развернут в облаке
Нет существующих кластеров Hadoop или Spark	Кластеры Hadoop или Spark уже существуют и могут быть использованы

А под катом — подробный рассказ о том, как Роман к этому пришёл.Читать полностью »

Что есть в новом JupyterLab для пользователей?

2018-03-22 в 13:33, admin, рубрики: big data, data science, javascript, jupyter, jupyterlab, Блог компании Отус

Всем привет!

Одним из основных инструментов на нашем курсе «Разработчик BigData» является Jupyter. Глянем, что его разработчики приготовили в новой итерации и что уже доступно в бета-версии.

Поехали.

Вкратце: JupyterLab готов к ежедневному использованию (установка, документация, экскурс через Binder)

JupyterLab — это интерактивная среда разработки для работы с блокнотами, кодом и данными.

Что есть в новом JupyterLab для пользователей? - 1
Читать полностью »

Обзор первого дня Data Science Weekend 2018. Практика машинного обучения, новый подход к соревнованиям и многое другое

2018-03-20 в 10:23, admin, рубрики: big data, data mining, python, анализ данных, Блог компании New Professions Lab, Компьютерное зрение, машинное обучение, нейронные сети

Привет! 2-3 марта на Мансарде наших партнёров, компании Rambler&Co, прошел уже традиционный Data Science Weekend, на котором было множество выступлений специалистов в области работы с данными. В рамках этой статьи расскажем вам о самых интересных моментах первого дня нашей конференции, когда все внимание было уделено практике использования алгоритмов машинного обучения, управлению коллективами и проведению соревнований в области Data Science.

Обзор первого дня Data Science Weekend 2018. Практика машинного обучения, новый подход к соревнованиям и многое другое - 1
Читать полностью »

Можно ли научить искусственный интеллект шутить?

2018-03-19 в 7:12, admin, рубрики: big data, cnn, computer vision, deep learning, funcorp, machine learning, Алгоритмы, Блог компании FunCorp, глубокое обучение, машинное обучение, нейронные сети, обработка изображений

В последнее время машины одержали ряд убедительных побед над людьми: они уже лучше играют в го, шахматы и даже в Dota 2. Алгоритмы сочиняют музыку и пишут стихи. Учёные и предприниматели всего мира дают прогнозы по поводу будущего, в котором искусственный интеллект сильно превзойдёт человека. С большой вероятностью через несколько десятков лет мы будем жить в мире, в котором роботы не только водят автомобили и работают на заводах, но и развлекают нас. Одна из важных составляющих нашей жизни — юмор. Принято считать, что только человек может придумывать шутки. Несмотря на это, многие ученые, инженеры и даже простые обыватели задаются вопросом: можно ли научить компьютер шутить?

Компания Gentleminds, разработчик систем машинного обучения и компьютерного зрения, совместно с FunCorp попробовали создать генератор весёлых подписей к картинкам, используя базу мемов iFunny. Поскольку приложение англоязычное и используется преимущественно в США, подписи будут на английском. Подробности под катом.
Читать полностью »

Как создать приложение c 3D аналитикой для iPhone за пару часов?

2018-03-19 в 3:00, admin, рубрики: big data, unity3d, анализ данных, аналитика, Большие данные, визуализация данных, геймификация, мобильные приложения, открытые данные, Работа с 3D-графикой

Существует множество трендов и направлений в анализе данных, и все мы знакомы с популярными словами Business Intelligence, Big Data, Machine Learning и т.д. Эти слова знакомы сейчас даже тем, кто не знает как написать SQL-запрос, не знаком с правилами визуализации и отображения информации, и тем более не сможет написать Python-скрипт. Но всегда в нас остаётся незыблемое желание, воплощение мечты любого руководителя и/или даже аналитика данных: «нажимаешь на клавишу» и через миллисекунды нам уже приходит ответ на вопрос «Что делать?», а желательно пусть сразу «Прибыль компании увеличена».

Читать полностью »

Релиз Apache Ignite 2.4 — Distributed Database and Caching Platform

2018-03-16 в 9:00, admin, рубрики: .net, .net core, Apache Ignite, big data, database, distributed systems, fast data, gridgain, in-memory computing, java, Mono, mpp, sql, Блог компании GridGain, Программирование

12 марта 2018 г., спустя 4 месяца после прошлой версии, вышел Apache Ignite 2.4. Этот релиз примечателен целым рядом нововведений: поддержка Java 9, множественные оптимизации и улучшения SQL, поддержка платформой нейронных сетей, новый подход к построению топологии при работе с диском и многое другое.

Apache Ignite Database and Caching Platform — это платформа для распределенного хранения данных (оптимизированная под активное использование RAM), а также для распределенных вычислений в близком к реальному времени.

Ignite применяется там, где нужно очень быстро обрабатывать большие потоки данных, которые не по зубам централизованным системам.

Примеры использования: быстрый распределенный кеш; слой, агрегирующий данные из разрозненных сервисов (например, для Customer 360 View); основное горизонтально масштабируемое хранилище (NoSQL или SQL) оперативных данных; платформа для вычислений и т.д.

Далее рассмотрим основные новшества Ignite 2.4.
Читать полностью »

Собственная игровая аналитика за $300 в месяц

2018-03-14 в 16:01, admin, рубрики: big data, data mining, Анализ и проектирование систем, аналитика, аналитика игр, архитектура приложений, облачные технологии, Программирование, разработка игр

На рынке много продуктов, подходящих для игровой аналитики: Mixpanel, Localytics, Flurry, devtodev, deltaDNA, GameAnalytics. Но все же многие игровые студии строят свое решение.

Я работал и работаю со многими игровыми компаниями. Я заметил, что по мере роста проектов, в студиях появляется необходимость в продвинутых сценариях аналитики. После того, как несколько игровых компаний заинтересовались данным подходом, было решено задокументировать его в серии из двух статей.

Ответы на вопросы "Почему?", "Как это сделать?" и "Сколько это стоит?" вы найдете под катом.

Читать полностью »

CSS ScaleFlux, или как ускорить базы данных в два-три раза простой заменой NVMe

2018-03-14 в 14:30, admin, рубрики: big data, ScaleFlux, Блог компании GlobalDots, высокая производительность, данные, машинное обучение, производительность

Базы данных, сети дистрибуции контента, big data, искусственный интеллект, машинное обучение — все эти data-driven сценарии требуют высокой производительности всей ИТ-инфраструктуры. Для подсистемы хранения все решается просто — установка скоростных NVMe и SSD вместо SAS и SATA. С вычислительной частью все сложнее — центральные процессоры не успевают за множеством операций, очень чувствительных ко времени. Для устранения этого «бутылочного горлышка» компания ScaleFlux разработала новые типы носителей. Внутри них бок о бок с 3D NAND памятью работают FPGA-компоненты, которые берут на себя множество типовых операций с данными. В этом посте мы подробно расскажем о решении ScaleFlux.

CSS ScaleFlux, или как ускорить базы данных в два-три раза простой заменой NVMe - 1
Читать полностью »

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

2018-03-14 в 13:12, admin, рубрики: big data, data mining, ner, nlp, python, yargy, машинное обучение, наташа

Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами:

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке - 1

Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых решений: Spacy, Stanford NER, OpenNLP, NLTK, MITIE, Google Natural Language API, ParallelDots, Aylien, Rosette, TextRazor. Для русского тоже есть хорошие решения, но они в основном закрытые: DaData, Pullenti, Abbyy Infoextractor, Dictum, Eureka, Promt, RCO, AOT, Ahunter. Из открытого мне известен только Томита-парсер и свежий Deepmipt NER.

Я занимаюсь анализом данных, задача обработки текстов одна из самых частых. На практике оказывается, что, например, извлечь имена из русского текста совсем непросто. Есть готовое решение в Томита-парсере, но там неудобная интеграция с Питоном. Недавно появилось решение от ребят из iPavlov, но там имена не приводятся к нормальной форме. Для извлечения, например, адресов («ул. 8 Марта, д.4», «Ленинский проезд, 15») открытых решений мне не известно, есть pypostal, но он чтобы парсить адреса, а не искать их в тексте. C нестандартными задачами типа извлечения ссылок на нормативные акты («ст. 11 ГК РФ», «п. 1 ст. 6 Закона № 122-ФЗ») вообще непонятно, что делать.

Год назад Дима Веселов начал проект Наташа. С тех пор код был значительно доработан. Наташа была использована в нескольких крупных проектах. Сейчас мы готовы рассказать о ней пользователям Хабра.

Наташа — это аналог Томита-парсера для Питона (Yargy-парсер) плюс набор готовых правил для извлечения имён, адресов, дат, сумм денег и других сущностей.

В статье показано, как использовать готовые правила Наташи и, самое главное, как добавлять свои с помощью Yargy-парсера.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 57

Обзор второго дня Data Science Weekend 2018. Data Engineering, ETL, поисковые сервисы и многое другое

Сравнение открытых OLAP-систем Big Data: ClickHouse, Druid и Pinot

Спойлер

Что есть в новом JupyterLab для пользователей?

Обзор первого дня Data Science Weekend 2018. Практика машинного обучения, новый подход к соревнованиям и многое другое

Можно ли научить искусственный интеллект шутить?

Как создать приложение c 3D аналитикой для iPhone за пару часов?

Релиз Apache Ignite 2.4 — Distributed Database and Caching Platform

Собственная игровая аналитика за $300 в месяц

CSS ScaleFlux, или как ускорить базы данных в два-три раза простой заменой NVMe

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 57

Спойлер

Новости

Актуальные темы

Архив