Рубрика «data mining» - 2
А работают ли игровые механики?
2023-04-07 в 16:31, admin, рубрики: big data, data analysis, data mining, аналитика, Аналитика мобильных приложений, визуализация, визуализация данных, геймификация, игры, мобильные приложения, продуктовая аналитикаАнализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse
2022-11-27 в 10:30, admin, рубрики: big data, bigquery, clickhouse, data engineering, data mining, Excel, Google Cloud Platform, Microsoft SQL Server, olap, olap-кубы, Snowflake, sql, анализ данных, аналитика данных, данныеВсем привет! Меня зовут Сергей Коньков - я работаю архитектором в компании CloudReports. Сегодня я расскажу, как мы создали продукт, который помогает пользователям работать с данными и в какой-то мере соединяет два мира аналитики: Excel и облачные хранилища данных.
Задача
BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.
Инженерия данных != инженерия ПО
2022-11-27 в 10:00, admin, рубрики: data engineering, data mining, devops, ruvds_перевод, software engineering, Блог компании RUVDS.com, инженерия данных, разработка по, управление разработкой
В последние годы мы видим, как инженерия данных всё больше сливается с индустрией DevOps. В обоих этих направлениях для доставки надёжных цифровых продуктов клиентам используется облачная инфраструктура, контейнеризация, CI/CD и GitOps. Это схождение в плане использования одного набора инструментов заставило многих думать, что инженерия данных не имеет значительных отличий от инженерии программного обеспечения. Как следствие, первая оказывается «несовершенной», поскольку дата-инженеры отстают с внедрением эффективных практик разработки ПО.
Но такая оценка ошибочна. Несмотря на то что в обработке данных и разработке ПО используется много общих инструментов и практик, между ними есть ряд существенных отличий. Игнорирование этих отличий и управление командой дата-инженеров по аналогии с командой разработки ПО является ошибкой. Так что цель данной статьи – подчеркнуть некоторые уникальные проблемы в инженерии данных и пояснить, почему в этой области иногда требуется особый подход.Читать полностью »
Первый нейросетевой переводчик для эрзянского языка
2022-10-09 в 10:00, admin, рубрики: cезон data mining, data mining, lower-resource language, machine learning, machine translation, ml, natural language processing, nlp, искусственный интеллект, малоресурсный язык, машинное обучение, машинный перевод, переводчик, СемантикаЭрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей. Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.
Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.
Делаем бизнес прозрачным или еще один пример распознавания капчи
2022-10-01 в 16:53, admin, рубрики: data mining, keras, python, scrapy, TensorFlow, каптча, капча, машинное обучение, нейросети, решение капчиНе для кого не секрет, что капча является популярным средством, чтобы снизить нагрузку на сайт и предотвратить скачивание информации роботами. Сегодня, когда капча применяется практически на каждом сайте, рассмотрим кейс с ее обходом на сервисе "Прозрачный бизнес".
Что такое "Прозрачный бизнес"?
Сервис содержит комплексную информацию о финансовых и правовых параметрах юридических лиц (подробнее тутЧитать полностью »
Анализ различий подачи новостей в Telegram-каналах
2022-08-27 в 11:19, admin, рубрики: data mining, natural language processing, python, агрегатор новостей, анализ данных, визуализация данных, машинное обучение, Новости, обработка естественного языка, тегиниктонечитаетПривет. Прошло уже почти полгода как я сделал новостной агрегатор каналов в Телеграме с открытым исходным кодом. Краткую статью про него можно прочитать на VC. Здесь же я бы хотел поделиться некоторыми интересными вещами, которые я нашёл в данных за всё время работы агрегатора.
Кратко об OData
2022-07-24 в 6:27, admin, рубрики: crud, data, data mining, odata, open data protocol, веб-сервисы, данные, открытые данные, поисковые технологии, протокол, Разработка веб-сайтов, стандартПривет! Недавно, пришлось работать на проекте с внешним API. Работал, я, к слову, всегда либо с простым REST, либо с GET/POST only запросами, но в этом нужно было работать с API Timetta. Он использует OData и что же это такое?
Содержание
Как подступиться к оптимизации процессов и расходов в организации — Process Mining и его возможности
2022-07-16 в 17:39, admin, рубрики: data mining, process mining, T1, watchman, Анализ и проектирование систем, Блог компании Группа Т1, Блог компании Т1 Консалтинг, Т1 Консалтинг, управление персоналомОдин из распространённых инструментов в области цифровой трансформации — процессная аналитика. Расскажем, на что обратить внимание в первую очередь и какие возможности — в этом контексте — есть у нашей системы.

Зачем этим заниматься
Национализация ваших данных происходит прямо сейчас
2022-07-13 в 14:19, admin, рубрики: big data, data engineering, data mining, государство, государство и it, данные, законНационализация ваших данных государством продолжается семимильными шагами. Ожил "замерший" новый законопроект Минцифры и летит к принятию. Это один из самых радикальных подходов к данным со стороны государства, который я когда-либо видел. Он заберёт все ваши данные у компаний, не спросив вас, и раздаст всем желающим.