Рубрика «big data» - 7

Готовим Json в Apache NiFi или снова Jolt Transform

2021-10-24 в 13:33, admin, рубрики: apache nifi, big data, data engineering, jolt, json, NiFi

На текущем проекте у нас начинает активно использоваться Apache NiFi в качестве основного ETL/ELT-инструмента. NiFi используется для получения данных из различных источников (Kafka, REST, HDFS) и подготовки данных для их последующей загрузки в основное хранилище на базе Greenplum Читать полностью »

Как спарсить любой сайт?

2021-09-22 в 10:40, admin, рубрики: BeautifulSoup4, big data, data mining, headlessbrowser, javascript, linkedin, Puppeteer, scrapy, selenium, selenoid, открытые данные, парсинг, Тестирование веб-сервисов

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность, масштабируемость.

TL;DR

Читать полностью »

ClickHouse: путь джедая, искавшего дом для своих данных

2021-09-07 в 7:12, admin, рубрики: big data, clickhouse, data lake, Блог компании Туту.ру, хранение данных, хранилище данных

* Юристы попросили нас написать, что картинка шуточная, и мы уважаем всех гордых любителей разных систем хранения данных.

Читать полностью »

Каждый пятый абонент «Билайна» уехал из Москвы, каждый десятый — из Санкт-Петербурга

2021-08-20 в 6:21, admin, рубрики: big data, билайн, Вымпелком / VEON, интервью, Текучка, метки: big data, билайн, Вымпелком / VEON, интервью, Текучка

Директор по Digital-продуктам группы Veon Джордж Хелд ушёл в Veon из принадлежащего ей же «Вымпелкома» и рассказал о пандемийных изменениях в поведении абонентов и взглядах компании на этичное применение новых технологий. В Билайне заметили, что благодаря удалёнке люди активно уезжают из больших городов (в основном в область того же города):

Из Москвы в соседние регионы уехало 21,8% клиентов «Читать полностью »

UUID версии 7, или как не потеряться во времени при создании идентификатора

2021-08-12 в 23:30, admin, рубрики: Bender Bending Rodriguez, big data, GUID, uuid, UUIDv6, UUIDv7, UUIDv8, Администрирование баз данных, идентификатор, инженерные системы, Новый, Новый UUID, системное программирование, Уникальный идентификатор, хранение данных

Будьте аккуратны, при сохранении даты в UUID

Читать полностью »

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

2021-06-15 в 16:34, admin, рубрики: big data, BigData, data science, python, R, ruvds_статьи, Алгоритмы, Блог компании RUVDS.com

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие базовые алгоритмы. Но прочесть и усвоить все — задача, требующая много усилий и времени, которая должна как-то быть мотивирована.

Многие могут предположить, что нюансы необходимо было знать 50 лет назад, а сейчас можно пользоваться готовыми пакетами и функциями и не погружаться в детали. Однако, это далеко не так. Равно как никто не отменял важность понимания представления методов хранения данных в памяти и их обработки в процессоре.

Далее разберем нюансы на примере функций сортировки. Сортировка и поиск используются максимально часто во всех манипуляциях с данными. Экономия нескольких миллисекунд на операции может приводить к суммарному сокращению часов расчета на значительных данных.

Является продолжением серии предыдущих публикаций.

Читать полностью »

ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

2021-06-15 в 7:02, admin, рубрики: big data, CleverDATA, gartner, Блог компании ГК ЛАНИТ, искусственный интеллект, Ланит, машинное обучение, перевод

Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году – от искусственного интеллекта до малых данных и применения графовых технологий.

Материал Gartner является отличной пищей к размышлению, а в некоторых случаях он может сыграть важную роль при принятии стратегических решений. Для того, чтобы оставаться в курсе основных трендов и в то же время не тратить ресурсы на собственный анализ, уберечься от ошибок субъективного мнения, удобно пользоваться предоставленным отчетом, перевод которого и предлагается в этой статье.

ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner - 1

Источник
Читать полностью »

Раскрашиваем таможенную статистику. Или сколько и каких микросхем ввозят в Россию?

2021-05-06 в 16:30, admin, рубрики: big data, Блог компании Миландр, Научно-популярное, программирование микроконтроллеров, Производство и разработка электроники, Статстика, таможня, электроника

Когда в 2008 году мы разрабатывали микроконтроллеры серии К1986ВЕ9х Читать полностью »

Ещё один поиск Вк по фото

2021-03-20 в 12:02, admin, рубрики: AI, big data, devops, face recognition, mysql, python, искусственный интеллект, пет-проект, поисковые технологии

Я люблю ввязываться в авантюры, и за последний месяц об одной из них я пару раз рассказывал друзьям, что вызывало восторг, поэтому решил поделиться с хабравчанами! Эта история про отважные пет-проекты, мощь опен-сорса и саморазвитие, а также основные технические детали. Надеюсь, вас это вдохновит :)

1. Предыстория

Читать полностью »

Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science

2021-03-07 в 12:53, admin, рубрики: big data, Блог компании Selectel, Карьера в IT-индустрии, Лайфхаки для гиков, наука о данных, самообучение, статьи, Учебный процесс в IT

Когда я приступила к изучению Data Science (сейчас автор статьи CAN | Geoscience BSc undergrad student | Software Dev graduate), — прим. перев.), я читала практически каждую статью по этой теме, которая попадала в мои руки. В большинстве случаев это были вдохновляющие статьи других людей, которые смогли обучиться профессии дата-сайентиста самостоятельно.

В этих статьях было полным-полно информации о счастливчиках, которые, не имея IT-образования, преодолели все преграды и проблемы и стали дата-сайентистами в течение нескольких месяцев. Само собой, большинство авторов таких статей затем устраивались в крупные компании класса FAANG.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 7

Готовим Json в Apache NiFi или снова Jolt Transform

Как спарсить любой сайт?

TL;DR

ClickHouse: путь джедая, искавшего дом для своих данных

Каждый пятый абонент «Билайна» уехал из Москвы, каждый десятый — из Санкт-Петербурга

UUID версии 7, или как не потеряться во времени при создании идентификатора

Запросить 100 серверов нельзя оптимизировать код. Ставим запятую

ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Раскрашиваем таможенную статистику. Или сколько и каких микросхем ввозят в Россию?

Ещё один поиск Вк по фото

1. Предыстория

Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 7

TL;DR

1. Предыстория

Новости

Актуальные темы

Архив