Рубрика «открытые данные» - 7

Открытые данные. Роскосмос. Догоним Америку

2019-12-11 в 13:24, admin, рубрики: NASA Image and Video Library, космонавтика, открытые данные, роскосмос

Если спросить сегодня российского школьника или студента о том, что он знает об истории космонавтики, то уверен, ничего кроме имени Юрия Гагарина мы не услышим. Несколько человек, вполне возможно, вспомнят о Королеве, Международной космической станции или произнесут «Поехали» и «Мы первые!», и на этом все, знания закончатся. Читать полностью »

Деанонимизация транзакций датасета Elliptic

2019-12-07 в 20:02, admin, рубрики: bitcoin clain elliptic, Криптовалюты, открытые данные

Всем привет, меня зовут Александр, и я data scientist в компании Clain. Мы занимаемся анализом блокчейн транзакций на предмет их аффилированности к преступным действиям, таким, как обналичка, кражи, финансирование терроризма и подобное.

Регуляторки по криптовалютам ужесточаются с каждым годом, и сейчас компании обязаны соответствовать политикам AML KYC. Примерно этим же занимается компания Elliptic, которая в начале августа 2019 года опубликовала размеченный датасет из 200к биткойн транзакций.

Читать полностью »

Огромный открытый датасет русской речи версия 1.0

2019-11-05 в 7:28, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать полностью »

Лицо российского софта. Или немного статистики из Единого реестра российских программ для ЭВМ и БД

2019-10-08 в 16:03, admin, рубрики: Единый реестр российских программ, Законодательство в IT, импортозамещение, Инфографика, открытые данные, Российское программное обеспечение, статистика, Управление продуктом

Многие из тех, кто работает с государственными заказчиками или непосредственно в государственных структурах, наверняка сталкивались с Единым реестром российского программного обеспечения для электронных вычислительных машин и баз данных. Реестр создан на основании широкого известного в узких кругах Постановления Правительства Российской Федерации от 16.11.2015 «Об установлении запрета на допуск программного обеспечения, происходящего из иностранных государств, для целей осуществления закупок для обеспечения государственных и муниципальных нужд».

Можно долго дискутировать, положительно или отрицательно влияет Реестр на развитие отечественного ПО, но все государственные органы обязаны использовать только ПО, входящее в Реестр, либо же обосновывать невозможность соблюдения запрета на допуск иностранного ПО. Наверняка закупки винды, майкрософт офисов и прочих ораклов и айбиэмов будут продолжаться еще очень и очень долго. Однако, потихоньку возникают российские операционные системы типа Альт Линукса, Астра Линукса или ОС Роса, пробиваются ростки офисных пакетов, отечественных блокчейнов . Возникают российские СУБД от достаточно известных ClickHouse или Линтер до абсолютно безвестных разработок. Ну и конечно же не может не быть отечественной Джавы. Чтобы снять возможные вопросы или споры, оговорюсь, что указанное выше ПО, названо в статье российским исходя из факта его вхождения в Реестр, более детальное изучение данного вопроса каждый может провести сам.

Так вот, Реестр функционирует уже почти 4 года и согласно пункту 37 Порядка его ведения сведения, хранящиеся в нем являются открытыми и общедоступными. Ну а если эти сведения открыты и общедоступны, то почему бы не проанализировать их?

В статье приведена небольшая статистика по Единому реестру российского программного обеспечения для электронных вычислительных машин и баз данных. Если вам стало интересно, прошу под кат.
Читать полностью »

Как наладить поиск адреса по координатам (и где взять нужный справочник)

2019-09-19 в 12:29, admin, рубрики: api, dadata.ru, Maps API, OpenStreetMap, адрес по координатам, Блог компании HFLabs, Геоинформационные сервисы, геокоординаты, обратное геокодирование, открытые данные

Как наладить поиск адреса по координатам (и где взять нужный справочник) - 1

Весной мы добавили в API DaData.ru фичу «Обратное геокодирование», она же «Адрес по координатам». Название намекает: метод принимает геокоординаты и отдает данные об адресе.

Солидный продукт с той же функциональностью сделал «Яндекс» — он называется «Геокодер». Но сервис «Яндекса» бесплатен только для открытых некоммерческих проектов. Стандартный же тариф — от 120 000 ₽ в год — подходит не всем.

Мы подумали — если сделать бесплатную или недорогую альтернативу, разработчики наверняка скажут спасибо. И сделали, благо подготовили к тому времени сильные стартовые позиции:

Справочник адресов с координатами, собранный и проверенный собственноручно.
Готовое и отлаженное API.

В статье расскажу, как мы создали «Адрес по координатам»: наладили поиск, собрали справочник и упаковали в готовый метод.
Читать полностью »

Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода

2019-09-10 в 20:13, admin, рубрики: data mining, data science, machine learning, open data, python, sklearn, машинное обучение, открытые данные

Недавно мне на глаза попался датасет на Kaggle с данными о 45 тысячах фильмов с Full MovieLens Dataset. Данные содержали не только информацию об актерах, съемочной команде, сюжете и т.п., но и оценки, выставленные фильмам пользователями ресурса (26 миллионов оценок от 270 тыс.пользователей).

Стандартная задача для таких данных — это рекомендательная система. Но мне в голову почему-то пришло прогнозирование рейтинга фильма на основе информации, доступной до его выхода. Я не знаток кинематографа, и поэтому обычно ориентируюсь на рецензии, выбирая что посмотреть из новинок. Но ведь рецензенты тоже несколько biased — они-то смотрят гораздо больше разных фильмов, чем рядовой зритель. Поэтому спрогнозировать, как оценит фильм обычная публика, показалось занятным. Читать полностью »

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях

2019-09-09 в 13:23, admin, рубрики: ata analysis, big data, binary Lyndon words, binomial coefficient, Binomial Theorem, boolean, data mining, machine learning, neural network, Pascal's Triangle, rules-based, tests of randomness, Алгоритмы, анализ данных, белый шум, бинарная последовательность, биномиальный коэффициент, вероятность ошибки, ГСПЧ, кластеризация данных, марковский процесс, математика, нейрон, нейронная сеть, открытые данные, ошибки первого и второго рода, Перцептрон, поиск закономерностей, последовательность, проверка гипотезы, распределение вероятностей, синапс, слова Линдона, случайный процесс, статистика, теорема Эрдёша-Реньи, треугольник Паскаля, фрактальные свойства, экспертные системы

Серия «Белый шум рисует черный квадрат»

История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 1
Рис. 1.

По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.

Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 2
Рис. 2.

Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 3
Рис. 3.

Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
Читать полностью »

Сайт Минздрава отказался рассказывать про эффективность лекарств

2019-09-05 в 17:16, admin, рубрики: Госвеб, Европа, здоровье, Минздрав, открытые данные, Россия, Текучка, метки: Госвеб, Европа, здоровье, Минздрав, открытые данные, Россия, Текучка

Вице-президент РАН Алексей Хохлов попытался выяснить у министра здравоохранения Вероники Скворцовой, где на сайте Минздрава публикуются заключения «экспертизы качества лекарственного средства». Лишь после подтверждения качества препараты допускаются в оборот, сообщили Читать полностью »

Waymo открыла доступ к большому датасету для обучения беспилотных автомобилей

2019-08-22 в 15:10, admin, рубрики: Waymo, беспилотные автомобили, искусственный интеллект, машинное обучение, обучение, открытые данные, транспорт

Waymo открыла доступ к большому датасету для обучения беспилотных автомобилей - 1

Компания Waymo открыла в общий доступ и только для некоммерческого использования большой датасет, предназначенный для обучения алгоритмов беспилотных автомобилей.

Датасет «Waymo Open Dataset» содержит в себе тысячу двадцатисекундных записей, собранных с пяти лидаров и пяти камер во время реальных поездок по четырем американским городам с разными дорожными и погодными условиями, как пояснено в блоге компании.

Большая часть данных в датасете маркирована и содержит в себе суммарно о 12 млн. 3D меток и 1,2 млн. 2D меток различных объектов вокруг автомобиля.
Читать полностью »

Белый шум рисует черный квадрат. Часть 2. Решение

2019-08-09 в 20:15, admin, рубрики: big data, data analysis, data mining, machine learning, Алгоритмы, анализ данных, декомпозиция баз данных, математика, открытые данные, теорема Эрдёша-Реньи

В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной log_2{N}. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «открытые данные» - 7

Открытые данные. Роскосмос. Догоним Америку

Деанонимизация транзакций датасета Elliptic

Огромный открытый датасет русской речи версия 1.0

Лицо российского софта. Или немного статистики из Единого реестра российских программ для ЭВМ и БД

Как наладить поиск адреса по координатам (и где взять нужный справочник)

Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях

Серия «Белый шум рисует черный квадрат»

Сайт Минздрава отказался рассказывать про эффективность лекарств

Waymo открыла доступ к большому датасету для обучения беспилотных автомобилей

Белый шум рисует черный квадрат. Часть 2. Решение

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «открытые данные» - 7

Серия «Белый шум рисует черный квадрат»

Новости

Актуальные темы

Архив