Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображенийЧитать полностью »
Рубрика «сбор данных»
Почему оценить стоимость датасета не так просто, как кажется на первый взгляд
2024-11-01 в 19:48, admin, рубрики: computer vision, команда разработки, машинное зрение, нейросети для бизнеса, оценка проектов разметки, оценка проектов сбора данных, оценка трудозатрат, ошибки управления, разметка данных, сбор данныхBukva: алфавит русского жестового языка
2024-10-16 в 8:58, admin, рубрики: дактиль, краудсорсинг, нейронные сети, ржя, русский жестовый язык, сбор данныхВсем привет!
Совсем недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой, в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101Читать полностью »
Как перехватывают зашифрованный HTTS-трафик на мобильном устройстве
2024-10-06 в 17:42, admin, рубрики: android, Facebook, Onavo Protect, Squid Proxy, ssl bump, vpn, аналитика, реверс-инжиниринг, сбор данныхРеверс-инжиниринг VPN-сервиса Onavo Protect под Android позволил определить методы, которые можно использовать для перехвата зашифрованного HTTPS-трафика на мобильном устройстве. Если вкратце, злоумышленник должен поставить на телефон собственное приложение и сертификат УЦ (удостоверяющего центра).
Например, в РФ вступил в действие закон, который требует с 2025 года обязательной предустановки на все смартфоны конкретных приложений. Теоретически, при наличии уязвимостей это может угрожать безопасности многих пользователей.
Читать полностью »
Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности
2024-10-03 в 9:03, admin, рубрики: CV, GigaChat, labeling, labeling tool, markup, Компьютерное зрение, разметка, разметка данных, разметка датасета, сбор данныхПривет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.
В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.
Создание и обработка медицинской базы данных с помощью python-R
2024-08-17 в 15:15, admin, рубрики: COVID-19, Pyhon, rstudio, база даных, медицина, очистка данных, сбор данных-
Идея
-
Реализация
-
Результат
Идея: в медицинском учреждении выписные эпикризы (информация из истории болезни) пациентов хранятся в общегоспитальной локальной сети.
Необходимо сформировать базу данных пациентов с перенесенным заболеванием COVID-19 (один выписной эпикриз ДО заболевания COVID-19, один выписной эпикриз во время заболевания и один ПОСЛЕ заболевания).
Вот как это выглядит
70+ бесплатных инструментов для компьютерной криминалистики (форензики)
2022-02-22 в 9:00, admin, рубрики: forensic analysis, forensics, open source, Блог компании Бастион, инструменты, информационная безопасность, компьютерная криминалистика, криминалистика, расследование, расследование инцедентов иб, расследование инцидентов, сбор данных, Софт, форензикаРасследование инцидентов в области информационной безопасности не такая горячая тема, как пентесты, но эта научная и практическая дисциплина продолжает развиваться, во многом, благодаря Open Source сообществу.
Как мы искали неработающие датчики на «УРАЛХИМЕ» (первый проект Data Lake)
2020-11-05 в 11:24, admin, рубрики: big data, data lake, Блог компании КРОК, датчики, сбор данных, хранение данных, хранилища данных
«УРАЛХИМ» делает удобрения. № 1 в России — по производству аммиачной селитры, например, входит в топ-3 отечественных производителей аммиака, карбамида, азотных удобрений. Выпускаются серные кислоты, двух-трёхкомпонентные удобрения, фосфаты и многое другое. Это всё создаёт агрессивные среды, в которых выходят из строя датчики.
Мы строили Data Lake и заодно охотились на те датчики, которые замерзают, выходят из строя, начинают давать ложные данные и вообще ведут себя не так, как должны себя вести источники информации. А «фишка» в том, что невозможно строить матмодели и цифровые двойники на базе «плохих» данных: они просто не будут правильно решать задачу и давать бизнес-эффект.
Но современным производствам нужны Data Lake'и для дата-сайентистов. В 95 % случаев «сырые» данные никак не собираются, а учитываются только агрегаты в АСУТП, которые хранятся два месяца и сохраняются точки «изменения динамики» показателя, которые вычисляются специально заложенным алгоритмом, что для дата-сайентистов снижает качество данных, т. к., возможно, может пропустить «всплески» показателя… Собственно, примерно так и было на «УРАЛХИМЕ». Нужно было создать хранилище производственных данных, подцепиться к источникам в цехах и в MES/ERP-системах. В первую очередь это нужно для того, чтобы начать собирать историю для дата-сайенса. Во вторую очередь — чтобы дата-сайентисты имели площадку для своих расчётов и песочницу для проверки гипотез, а не нагружали ту же самую, где крутится АСУ ТП. Дата-сайентисты пробовали сделать анализ имеющихся данных, но этого не хватило. Данные хранились прореженные, с потерями, часто неконсистентные с датчиком. Взять датасет быстро не было возможности, и работать с ним тоже было особо негде.
Теперь вернёмся к тому, что делать, если датчик «гонит».
Читать полностью »
Парсинг сайта Умного Голосования и новый API на сайте ЦИК
2020-09-20 в 17:19, admin, рубрики: api, big data, data mining, html, http, json, python, выборы, голосование, интерфейсы, навальный, открытые данные, парсинг, сбор данных, ЦИК РФ
13 сентября 2020 года в России прошёл единый день голосования. В некоторых регионах оппозицией была применена стратегия «Умного Голосования», заключающаяся в том, что оппозиционно настроенные избиратели голосуют за единого кандидата, имеющего наивысшие шансы победить представителя от властей.
Процесс отбора кандидатов для «Умного Голосования» уже второй год вызывает дискуссии на тему своей прозрачности. Кроме того, лично меня смущают сложности с подведением итогов стратегии, с которыми могут столкнуться независимые аналитики. Организаторы УмГ не публикуют подробные итоги стратегии, а лишь диаграммы, демонстрирующие сколько оппозиционных кандидатов прошло в региональный парламент.
На сайте «Умного Голосования» нельзя получить список поддержанных кандидатов, указав, например, город и округ. Если кто-то захочет собрать данные по региону, ему предстоит монотонная работа по подбору адресов для каждого округа.
Ни в коем случае не упрекаю разработчиков сайта УмГ, он имеет весь требуемый функционал для реализации стратегии голосования. Но в связи с тем, что в 2019 году никто не занимался сбором и публикацией подробных данных по итогам УмГ (вне московских выборов), на этих выборах я решил взять инициативу в свои руки.
В итоге получилась вот такая сводная таблица. В данной статье я расскажу, как был получен приведённый набор данных, как собиралась информация с сайтов Умного Голосования и нового веб-сервиса ЦИК.
Что может пойти не так с Data Science? Сбор данных
2020-07-17 в 9:30, admin, рубрики: agile, data engineering, data mining, data science, python, reddit, Блог компании RUVDS.com, планирование, сбор данных, Социальные сети и сообщества, хабр
Сегодня существует 100500 курсов по Data Science и давно известно, что больше всего денег в Data Science можно заработать именно курсами по Data Science (зачем копать, когда можно продавать лопаты?). Основной минус этих курсов в том, что они не имеют ничего общего с реальной работой: никто не даст вам чистые, обработанные данные в нужном формате. И когда вы выходите с курсов и начинаете решать настоящую задачу — всплывает много нюансов.
Поэтому мы начинаем серию заметок «Что может пойти не так с Data Science», основанных на реальных событиях случившихся со мной, моими товарищами и коллегами. Будем разбирать на реальных примерах типичные задачи по Data Science: как это на самом деле происходит. Начнем сегодня с задачи сбора данных.
И первое обо что спотыкаются люди, начав работать с реальными данными — это собственно сбор этих самых релевантных нам данных. Ключевой посыл этой статьи:
Мы систематически недооцениваем время, ресурсы и усилия на сбор, очистку и подготовку данных.
А главное, обсудим, что делать, чтобы этого не допустить.
По разным оценкам, очистка, трансформация, data processing, feature engineering и тд занимают 80-90% времени, а анализ 10-20%, в то время как практически весь учебный материал фокусируется исключительно на анализе.
Давайте разберем как типичный пример простую аналитическую задачу в трех вариантах и увидим, какими бывают «отягчающие обстоятельства».
И для примера опять же, мы рассмотрим подобные вариации задачи сбора данных и сравнения сообществ для:
- Двух сабреддитов Reddit
- Двух разделов Хабра
- Двух групп Одноклассников
Прощай, Google! 15 Альтернативных поисковиков, которые не шпионят, а сажают деревья и раздают воду
2020-06-21 в 9:17, admin, рубрики: Google, анонимность, куки, поисковик, поисковые технологии, сбор данных, экология, яндекс
Аве Кодер!
В этой статье речь пойдет о крутых инди поисковиках, которые могут составить конкуренцию поисковым гигантам, а также удовлетворить вкусы как утонченного мусьё, так и идейного борца за личную жизнь.
Читать полностью »