На текущем проекте у нас начинает активно использоваться Apache NiFi в качестве основного ETL/ELT-инструмента. NiFi используется для получения данных из различных источников (Kafka, REST, HDFS) и подготовки данных для их последующей загрузки в основное хранилище на базе GreenplumЧитать полностью »
Рубрика «big data» - 7
Готовим Json в Apache NiFi или снова Jolt Transform
2021-10-24 в 13:33, admin, рубрики: apache nifi, big data, data engineering, jolt, json, NiFiКак спарсить любой сайт?
2021-09-22 в 10:40, admin, рубрики: BeautifulSoup4, big data, data mining, headlessbrowser, javascript, linkedin, Puppeteer, scrapy, selenium, selenoid, открытые данные, парсинг, Тестирование веб-сервисовМеня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.
Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность, масштабируемость.
TL;DR
ClickHouse: путь джедая, искавшего дом для своих данных
2021-09-07 в 7:12, admin, рубрики: big data, clickhouse, data lake, Блог компании Туту.ру, хранение данных, хранилище данныхКаждый пятый абонент «Билайна» уехал из Москвы, каждый десятый — из Санкт-Петербурга
2021-08-20 в 6:21, admin, рубрики: big data, билайн, Вымпелком / VEON, интервью, Текучка, метки: big data, билайн, Вымпелком / VEON, интервью, ТекучкаДиректор по Digital-продуктам группы Veon Джордж Хелд ушёл в Veon из принадлежащего ей же «Вымпелкома» и рассказал о пандемийных изменениях в поведении абонентов и взглядах компании на этичное применение новых технологий. В Билайне заметили, что благодаря удалёнке люди активно уезжают из больших городов (в основном в область того же города):
Из Москвы в соседние регионы уехало 21,8% клиентов «Читать полностью »
UUID версии 7, или как не потеряться во времени при создании идентификатора
2021-08-12 в 23:30, admin, рубрики: Bender Bending Rodriguez, big data, GUID, uuid, UUIDv6, UUIDv7, UUIDv8, Администрирование баз данных, идентификатор, инженерные системы, Новый, Новый UUID, системное программирование, Уникальный идентификатор, хранение данныхЗапросить 100 серверов нельзя оптимизировать код. Ставим запятую
2021-06-15 в 16:34, admin, рубрики: big data, BigData, data science, python, R, ruvds_статьи, Алгоритмы, Блог компании RUVDS.comМожно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие базовые алгоритмы. Но прочесть и усвоить все — задача, требующая много усилий и времени, которая должна как-то быть мотивирована.
Многие могут предположить, что нюансы необходимо было знать 50 лет назад, а сейчас можно пользоваться готовыми пакетами и функциями и не погружаться в детали. Однако, это далеко не так. Равно как никто не отменял важность понимания представления методов хранения данных в памяти и их обработки в процессоре.
Далее разберем нюансы на примере функций сортировки. Сортировка и поиск используются максимально часто во всех манипуляциях с данными. Экономия нескольких миллисекунд на операции может приводить к суммарному сокращению часов расчета на значительных данных.
Является продолжением серии предыдущих публикаций.
ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner
2021-06-15 в 7:02, admin, рубрики: big data, CleverDATA, gartner, Блог компании ГК ЛАНИТ, искусственный интеллект, Ланит, машинное обучение, переводОракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году – от искусственного интеллекта до малых данных и применения графовых технологий.
Материал Gartner является отличной пищей к размышлению, а в некоторых случаях он может сыграть важную роль при принятии стратегических решений. Для того, чтобы оставаться в курсе основных трендов и в то же время не тратить ресурсы на собственный анализ, уберечься от ошибок субъективного мнения, удобно пользоваться предоставленным отчетом, перевод которого и предлагается в этой статье.
Раскрашиваем таможенную статистику. Или сколько и каких микросхем ввозят в Россию?
2021-05-06 в 16:30, admin, рубрики: big data, Блог компании Миландр, Научно-популярное, программирование микроконтроллеров, Производство и разработка электроники, Статстика, таможня, электроникаКогда в 2008 году мы разрабатывали микроконтроллеры серии К1986ВЕ9хЧитать полностью »
Ещё один поиск Вк по фото
2021-03-20 в 12:02, admin, рубрики: AI, big data, devops, face recognition, mysql, python, искусственный интеллект, пет-проект, поисковые технологииЯ люблю ввязываться в авантюры, и за последний месяц об одной из них я пару раз рассказывал друзьям, что вызывало восторг, поэтому решил поделиться с хабравчанами! Эта история про отважные пет-проекты, мощь опен-сорса и саморазвитие, а также основные технические детали. Надеюсь, вас это вдохновит :)
1. Предыстория
Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science
2021-03-07 в 12:53, admin, рубрики: big data, Блог компании Selectel, Карьера в IT-индустрии, Лайфхаки для гиков, наука о данных, самообучение, статьи, Учебный процесс в ITКогда я приступила к изучению Data Science (сейчас автор статьи CAN | Geoscience BSc undergrad student | Software Dev graduate), — прим. перев.), я читала практически каждую статью по этой теме, которая попадала в мои руки. В большинстве случаев это были вдохновляющие статьи других людей, которые смогли обучиться профессии дата-сайентиста самостоятельно.
В этих статьях было полным-полно информации о счастливчиках, которые, не имея IT-образования, преодолели все преграды и проблемы и стали дата-сайентистами в течение нескольких месяцев. Само собой, большинство авторов таких статей затем устраивались в крупные компании класса FAANG.
Читать полностью »