Сотрудники двух неназванных компаний связи и источник «Ведомостей» в Правительстве РФ, рассказали о встрече в середине июня 2016 зама Дмитрия Медведева Аркадия Дворковича и представителей сотовых операторов. Участники совещания поговорили об анализе больших объемов неструктурированных данных (т. н. система подходов big data) для борьбы с терроризмом. Операторы рассказали чиновникуЧитать полностью »
Рубрика «big data» - 94
Операторы связи подсказали заму Медведева следующие шаги по борьбе с терроризмом
2016-07-04 в 6:30, admin, рубрики: big data, GR, Аркадий Дворкович, безопасность, Госвеб, законотворчество, сотовые операторы, Текучка, терроризм, метки: big data, GR, Аркадий Дворкович, безопасность, Госвеб, законотворчество, сотовые операторы, Текучка, терроризмНейронные сети на Javascript
2016-07-01 в 8:18, admin, рубрики: big data, BigData, canvas, javascript, mnist, node.js, nodejs, машинное обучение, нейронные сети
Идея для написания этой статьи возникла прошлым летом, когда я слушал доклад на конференции BigData по нейронным сетям. Лектор «посыпал» слушателей непривычными словечками «нейрон», «обучающая выборка», «тренировать модель»… «Ничего не понял — пора в менеджеры», — подумал я. Но недавно тема нейронных сетей все же коснулась моей работы и я решил на простом примере показать, как использовать этот инструмент на языке JavaScript.
Мы создадим нейронную сеть, с помощью которой будем распознавать ручное написание цифры от 0 до 9. Рабочий пример займет несколько строк. Код будет понятен даже тем программистам, которые не имели дело с нейронными сетями ранее. Как это все работает, можно будет посмотреть прямо в браузере.
Читать полностью »
Ученые из МГУ показали: сложные вычисления на персоналке с эффективностью, не уступающей суперкомпьютеру, возможны
2016-06-30 в 6:59, admin, рубрики: big data, Блог компании Dronk.Ru, мгу, Научно-популярное, суперкомпьютерГруппа физиков из Научно-исследовательского института ядерной физики МГУ продемонстрировала способ, позволяющий на простом персональном компьютере проводить расчеты сложных уравнений квантовой механики, для которых сегодня используются мощные суперкомпьютеры. При этом расчеты, проделанные на персональном компьютере удалось провести быстрее. Статья «Fast GPU-based calculations in few-body quantum scattering», излагающая принцип и полученные результаты работы, была опубликована авторами в одном из последних номеров весьма авторитетного научного издания Computer Physics Communications.
Отчет с Moscow Data Science Meetup 27 мая
2016-06-24 в 14:45, admin, рубрики: big data, data science, kaggle, mail.ru, spark, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение
27 мая в офисе Mail.Ru Group прошёл очередной Moscow Data Science Meetup. На встрече собирались представители крупных российских компаний и научных организаций, а также энтузиасты в области машинного обучения, рекомендательных систем анализа социальных графов и смежных дисциплин. Гости делились друг с другом своим опытом решения практических задач анализа данных. Предлагаем вашему вниманию видеозаписи и презентации трёх докладов, представленных на встрече.
Читать полностью »
Big Data головного мозга
2016-06-22 в 6:07, admin, рубрики: big data, data, greenplum, hawq, teradata, VerticaНаверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.
Демонстрация Hadoop пользователям
Выбор детского сада в Москве
2016-06-20 в 22:40, admin, рубрики: big data, data mining, не, открытые данные, теги, указывать, хочу, я, метки: не, указывать, хочу, яВ Москве больше 2000 детских садов. В очередь на зачисление можно встать в несколько. Какие садики выбрать и какой указать приоритетным? На днях я сделал попытку дать ответ на этот вопрос.
Хотел бы рассказать про некоторых технические детали решения. В ходе работы со школьными данными я заметил, что на сайтах школ публикуется много отзывов. У этих данных есть 4 особенности:
- Отзывов много. Около 40 000 штук на 700 школ за 2015, 2016 годы. Это больше, чем на специальных сайтах про школьные отзывы типа www.schoolotzyv.ru и schools.mel.fm.
- 90% отзывов — про детские сады. Почему-то про садики пишут чаще и больше. Даже на obr.msk.ru оставляют отзывы про сады, хотя явно указано, что нужны впечатления о школах.
- 99.9% отзывов положительные. Это печально, потому что читать только положительные отзывы неинтересно.
- В 95% отзывов родители персонально благодарят воспитателей. Например, «Инна Юрьевна находит подход к каждому, может унять любой утренний каприз ребенка и помочь родителям».
Поэтому появилась идея сделать вот что:
Читать полностью »
Итоги Black Box Challenge
2016-06-15 в 9:04, admin, рубрики: artificial intelligence, big data, black box, challenge, kaggle, machine learning, Блог компании DCA (Data-Centric Alliance), искусственный интеллект, машинное обучение, Спортивное программированиеПривет! Три месяца назад мы объявили о старте соревнования по машинному обучению BlackBox Challenge, а недавно оно закончилось. В этом посте организаторы соревнования расскажут о том, как всё прошло.
Вдохновившись результатами Google DeepMind по reinforcement learning, мы поняли, как здорово, когда система не использует человеческую экспертизу, а сама учится понимать окружающую среду. Мы решили сделать соревнование, в котором участникам нужно создать как раз такую систему.
Читать полностью »
Яндекс открывает ClickHouse
2016-06-15 в 8:00, admin, рубрики: big data, c++, clickhouse, columnar database, olap, open source, sql, базы данных, Блог компании Яндекс, веб-аналитика, структуры данных, яндексСегодня внутренняя разработка компании Яндекс — аналитическая СУБД ClickHouse, стала доступна каждому. Исходники опубликованы на GitHub под лицензией Apache 2.0.
ClickHouse позволяет выполнять аналитические запросы в интерактивном режиме по данным, обновляемым в реальном времени. Система способна масштабироваться до десятков триллионов записей и петабайт хранимых данных. Использование ClickHouse открывает возможности, которые раньше было даже трудно представить: вы можете сохранять весь поток данных без предварительной агрегации и быстро получать отчёты в любых разрезах. ClickHouse разработан в Яндексе для задач Яндекс.Метрики — второй по величине системы веб-аналитики в мире.
В этой статье мы расскажем, как и для чего ClickHouse появился в Яндексе и что он умеет; сравним его с другими системами и покажем, как его поднять у себя с минимальными усилиями.
Граф цитирования статей Хабрахабра
2016-06-13 в 6:19, admin, рубрики: big data, data mining, визуализация, визуализация данных, графы, математика, наука и искусство, теги всё равно никто не читаетОднажды, мне стало интересно: насколько статьи на Хабре связаны между собой? Поэтому сегодня мы займемся исследованием связности статей, и конечно не только посчитаем численные метрики, но и увидим картину целиком.
(это не просто картинка для привлечения внимания, а граф цитирования статей внутри Хабрахабра, где размер вершин определяется числом входящих рёбер, i.e., "количеством цитат внутри Хабра")
Началось всё с того, что в комментариях к статье про Хабра-граф и карму Tiberius и Loriowar озвучили идею, фактически витающую в воздухе: а почему бы не взглянуть на граф цитирования статьёй внутри самого Хабра?
Вы спрашивали? Мы отвечаем. Для того чтобы рассказ не был размахиванием рук, конкретизируем разбираемые вопросы:
-
Q1: Как выглядит граф цитирования Хабрахабра и какие в нём хабы (hubs and authorities)?
-
Q2: Насколько связным является сообщество (граф цитирования) и какие в нём кластеры?
- Q3: Как изменится граф, если из него убрать самоцитирование?
Под катом трафик. Все картинки кликабельны.
Курс молодого бойца для Spark-Scala
2016-06-07 в 13:50, admin, рубрики: big data, data mining, data science, Hadoop, scala, spark, Блог компании Retail Rocket, машинное обучениеКоманда Retail Rocket использует узкоспециализированный стек технологий Hadoop + Spark для вычислительного кластера, о котором мы уже писали обзорный материал в самом первом посте нашего инженерного блога на Хабре.
Готовых специалистов для таких технологий найти довольно сложно, особенно, если учесть, что программируем мы исключительно на Scala. Поэтому я стараюсь найти не готовых специалистов, а людей, имеющих минимальный опыт работы, но обладающих большим потенциалом. Мы берем даже людей с частичной занятостью, чтобы было удобно совмещать учебу и работу, если кандидат — студент последних курсов.