Рубрика «обработка данных»

Эксперимент по ускорению SQLite - 1


SQLite быстра, но можно ли сделать её ещё быстрее? Исследователи из Университетов Хельсинки и Кембриджа задались этим вопросом и опубликовали работу Serverless Runtime / Database Co-Design With Asynchronous I/O. В ней они продемонстрировали возможность 100-кратного снижения времени задержки, и ниже я в общих чертах эту их работу прокомментирую.

Речь пойдёт об исследовании возможностей Limbo — переписанной на Rust версии SQLite.Читать полностью »

Введение

Статей о GPT написано уже немало, и многие знакомые мне аналитики заявляют, что ни разу не использовали его возможности. Ввиду этого, я хочу подробно раскрыть эту тему, предоставив практические примеры и доказательства эффективности.

Читать полностью »

Представьте: вы — аналитик данных, перед вами — гора необработанных данных, и каждый неверный шаг может привести к катастрофическим последствиям для бизнеса. Звучит как сценарий фильма-катастрофы? К сожалению, для многих аналитиков это повседневная реальность.

 Часто, начиная проект по бизнес-аналитике, заказчик заявляет: «У нас идеально чистые данные, просто заходите и визуализируйте!» Эта фраза, увы, часто предвещает долгие часы кропотливой работы по очистке, обогащению и агрегации данных — настоящее разминирование информационного поля.

Читать полностью »

Всем привет. Этот практический цикл статей рассчитан на начинающих. Я решил поделиться своим опытом создания реестра данных на основе государственного. Данные будут храниться в базе данных PostgreSQL, доступ к ним будет осуществляться через Fast API. В текущей статье займёмся загрузкой данных в базу и уменьшением её размеров.

Введение

Нам предстоит работать с данными о результатах поверки средств измерений, которые будем загружать из раздела сайта «Результаты поверок СИЧитать полностью »

Искусственный интеллект сейчас, по большому счету, везде. В любой отрасли нам говорят о том, что в ней используются нейросети, машинное обучение и другие направления ИИ. Не стали исключением и системы, связанные с обработкой персональных данных пользователей. В этой статье мы поговорим о том, как связаны искусственный интеллект и защита персональных данных.

Риски при обработке данных ИИ

Читать полностью »

Встречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник: сайт ICDAR.

Встречи в рамках ICDAR имеют первостепенную значимость для научного сообщества по всему миру. Источник: сайт ICDAR.

Почему ICDAR? 

Море, солнце, пляжЧитать полностью »

В жизни каждого инженера‑фронтендера наступает момент, когда осознаёшь: далее не обойтись без кэширования данных из API. Всё может начаться с самых невинных вещей: сохраняем предыдущую страницу с данными, чтобы кнопка «Назад» срабатывала мгновенно; реализуем простенькую логику отмены действия или обеспечиваем слияние нескольких состояний от различных запросов к API. Но все мы знаем, чем такое кончается. Один за другим возникают запросы на новые фичи, и вскоре мы уже не покладая рук реализуем кэши данных, индексы для работы вручную, оптимистические мутации и рекурсивную инвалидацию кэша.

Читать полностью »

Анализ статей Хабрахабр - 1

Решила повторить исследование, сделанное в 2017 году и посмотреть, что изменилось за 5 лет. Ссылка на предыдущую статью Анализ статей Хабрахабр и Geektimes. Дизайн сайта изменился, поэтому делала все в jupyter python, а не wolfram mathematica. Далеко не все графики удалось воспроизвести заново. Получился анализ более чем 260000 статей.

Результаты обработки данных

Анализ хабов

Читать полностью »

Как классифицировать данные без разметки - 1

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js