Если спросить сегодня российского школьника или студента о том, что он знает об истории космонавтики, то уверен, ничего кроме имени Юрия Гагарина мы не услышим. Несколько человек, вполне возможно, вспомнят о Королеве, Международной космической станции или произнесут «Поехали» и «Мы первые!», и на этом все, знания закончатся. Читать полностью »
Рубрика «открытые данные» - 7
Открытые данные. Роскосмос. Догоним Америку
2019-12-11 в 13:24, admin, рубрики: NASA Image and Video Library, космонавтика, открытые данные, роскосмосДеанонимизация транзакций датасета Elliptic
2019-12-07 в 20:02, admin, рубрики: bitcoin clain elliptic, Криптовалюты, открытые данныеВсем привет, меня зовут Александр, и я data scientist в компании Clain. Мы занимаемся анализом блокчейн транзакций на предмет их аффилированности к преступным действиям, таким, как обналичка, кражи, финансирование терроризма и подобное.
Регуляторки по криптовалютам ужесточаются с каждым годом, и сейчас компании обязаны соответствовать политикам AML KYC. Примерно этим же занимается компания Elliptic, которая в начале августа 2019 года опубликовала размеченный датасет из 200к биткойн транзакций.
Огромный открытый датасет русской речи версия 1.0
2019-11-05 в 7:28, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данныеВ начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.
Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.
Лицо российского софта. Или немного статистики из Единого реестра российских программ для ЭВМ и БД
2019-10-08 в 16:03, admin, рубрики: Единый реестр российских программ, Законодательство в IT, импортозамещение, Инфографика, открытые данные, Российское программное обеспечение, статистика, Управление продуктомМногие из тех, кто работает с государственными заказчиками или непосредственно в государственных структурах, наверняка сталкивались с Единым реестром российского программного обеспечения для электронных вычислительных машин и баз данных. Реестр создан на основании широкого известного в узких кругах Постановления Правительства Российской Федерации от 16.11.2015 «Об установлении запрета на допуск программного обеспечения, происходящего из иностранных государств, для целей осуществления закупок для обеспечения государственных и муниципальных нужд».
Можно долго дискутировать, положительно или отрицательно влияет Реестр на развитие отечественного ПО, но все государственные органы обязаны использовать только ПО, входящее в Реестр, либо же обосновывать невозможность соблюдения запрета на допуск иностранного ПО. Наверняка закупки винды, майкрософт офисов и прочих ораклов и айбиэмов будут продолжаться еще очень и очень долго. Однако, потихоньку возникают российские операционные системы типа Альт Линукса, Астра Линукса или ОС Роса, пробиваются ростки офисных пакетов, отечественных блокчейнов . Возникают российские СУБД от достаточно известных ClickHouse или Линтер до абсолютно безвестных разработок. Ну и конечно же не может не быть отечественной Джавы. Чтобы снять возможные вопросы или споры, оговорюсь, что указанное выше ПО, названо в статье российским исходя из факта его вхождения в Реестр, более детальное изучение данного вопроса каждый может провести сам.
Так вот, Реестр функционирует уже почти 4 года и согласно пункту 37 Порядка его ведения сведения, хранящиеся в нем являются открытыми и общедоступными. Ну а если эти сведения открыты и общедоступны, то почему бы не проанализировать их?
В статье приведена небольшая статистика по Единому реестру российского программного обеспечения для электронных вычислительных машин и баз данных. Если вам стало интересно, прошу под кат.
Читать полностью »
Как наладить поиск адреса по координатам (и где взять нужный справочник)
2019-09-19 в 12:29, admin, рубрики: api, dadata.ru, Maps API, OpenStreetMap, адрес по координатам, Блог компании HFLabs, Геоинформационные сервисы, геокоординаты, обратное геокодирование, открытые данныеВесной мы добавили в API DaData.ru фичу «Обратное геокодирование», она же «Адрес по координатам». Название намекает: метод принимает геокоординаты и отдает данные об адресе.
Солидный продукт с той же функциональностью сделал «Яндекс» — он называется «Геокодер». Но сервис «Яндекса» бесплатен только для открытых некоммерческих проектов. Стандартный же тариф — от 120 000 ₽ в год — подходит не всем.
Мы подумали — если сделать бесплатную или недорогую альтернативу, разработчики наверняка скажут спасибо. И сделали, благо подготовили к тому времени сильные стартовые позиции:
- Справочник адресов с координатами, собранный и проверенный собственноручно.
- Готовое и отлаженное API.
В статье расскажу, как мы создали «Адрес по координатам»: наладили поиск, собрали справочник и упаковали в готовый метод.
Читать полностью »
Угадай меня, если сможешь: прогнозирование рейтинга фильма до его выхода
2019-09-10 в 20:13, admin, рубрики: data mining, data science, machine learning, open data, python, sklearn, машинное обучение, открытые данныеНедавно мне на глаза попался датасет на Kaggle с данными о 45 тысячах фильмов с Full MovieLens Dataset. Данные содержали не только информацию об актерах, съемочной команде, сюжете и т.п., но и оценки, выставленные фильмам пользователями ресурса (26 миллионов оценок от 270 тыс.пользователей).
Стандартная задача для таких данных — это рекомендательная система. Но мне в голову почему-то пришло прогнозирование рейтинга фильма на основе информации, доступной до его выхода. Я не знаток кинематографа, и поэтому обычно ориентируюсь на рецензии, выбирая что посмотреть из новинок. Но ведь рецензенты тоже несколько biased — они-то смотрят гораздо больше разных фильмов, чем рядовой зритель. Поэтому спрогнозировать, как оценит фильм обычная публика, показалось занятным. Читать полностью »
Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях
2019-09-09 в 13:23, admin, рубрики: ata analysis, big data, binary Lyndon words, binomial coefficient, Binomial Theorem, boolean, data mining, machine learning, neural network, Pascal's Triangle, rules-based, tests of randomness, Алгоритмы, анализ данных, белый шум, бинарная последовательность, биномиальный коэффициент, вероятность ошибки, ГСПЧ, кластеризация данных, марковский процесс, математика, нейрон, нейронная сеть, открытые данные, ошибки первого и второго рода, Перцептрон, поиск закономерностей, последовательность, проверка гипотезы, распределение вероятностей, синапс, слова Линдона, случайный процесс, статистика, теорема Эрдёша-Реньи, треугольник Паскаля, фрактальные свойства, экспертные системыСерия «Белый шум рисует черный квадрат»
История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:
Рис. 1.
По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.
Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.
Рис. 2.
Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.
Рис. 3.
Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
Читать полностью »
Сайт Минздрава отказался рассказывать про эффективность лекарств
2019-09-05 в 17:16, admin, рубрики: Госвеб, Европа, здоровье, Минздрав, открытые данные, Россия, Текучка, метки: Госвеб, Европа, здоровье, Минздрав, открытые данные, Россия, ТекучкаВице-президент РАН Алексей Хохлов попытался выяснить у министра здравоохранения Вероники Скворцовой, где на сайте Минздрава публикуются заключения «экспертизы качества лекарственного средства». Лишь после подтверждения качества препараты допускаются в оборот, сообщилиЧитать полностью »
Waymo открыла доступ к большому датасету для обучения беспилотных автомобилей
2019-08-22 в 15:10, admin, рубрики: Waymo, беспилотные автомобили, искусственный интеллект, машинное обучение, обучение, открытые данные, транспортКомпания Waymo открыла в общий доступ и только для некоммерческого использования большой датасет, предназначенный для обучения алгоритмов беспилотных автомобилей.
Датасет «Waymo Open Dataset» содержит в себе тысячу двадцатисекундных записей, собранных с пяти лидаров и пяти камер во время реальных поездок по четырем американским городам с разными дорожными и погодными условиями, как пояснено в блоге компании.
Большая часть данных в датасете маркирована и содержит в себе суммарно о 12 млн. 3D меток и 1,2 млн. 2D меток различных объектов вокруг автомобиля.
Читать полностью »
Белый шум рисует черный квадрат. Часть 2. Решение
2019-08-09 в 20:15, admin, рубрики: big data, data analysis, data mining, machine learning, Алгоритмы, анализ данных, декомпозиция баз данных, математика, открытые данные, теорема Эрдёша-РеньиВ первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной log_2{N}. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»
Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать полностью »