Рубрика «data science» - 8

Анонс: Ultimate Guide по карьере в AI от профессионала: выбрать специальность, прокачаться и найти классную работу

2020-08-02 в 17:00, admin, рубрики: AI, big data, data engineering, data science, ruvds_эфиры, Блог компании RUVDS.com, интервью

Анонс: Ultimate Guide по карьере в AI от профессионала: выбрать специальность, прокачаться и найти классную работу - 1

ЗАВТРА, 3 августа в 20:00 пройдет эфир с Сергеем Ширкиным о том, как построить успешную карьеру в AI. Стрим можно будет посмотреть в любых наших соцсетях — где удобно, там и смотрите.

Сергей Ширкин стоит у истоков факультетов Искусственного интеллекта, Аналитики Big Data и Data Engineering онлайн-университета Geek University, на которых работает деканом и преподавателем.
Читать полностью »

Магистратура в области Computer Science в Эстонии: личный опыт

2020-07-26 в 21:57, admin, рубрики: computer science student, data science, education, estonia, магистратура, образование в ит, образование в эстонии, образование за рубежом, Учебный процесс в IT

Переезжать в другую страну очень волнительно. Особенно, если ты студент, и денег у тебя впритык. Страшно ошибиться с выбором университета, страшно, что в итоге учеба не оправдает твоих ожиданий, или ты не справишься, и придется вернуться ни с чем.

Два года назад я переехала из Санкт-Петербурга в город Тарту, в Эстонию, чтобы учиться в магистратуре по специальности Computer Science. Перед переездом я провела много времени в поисках статей, где бы такие же студенты, как я, описывали свой личный опыт учебы в Эстонии в качестве иностранного студента, но мои поиски были практически безрезультатны. Прошло 2 года, я закончила магистратуру, и теперь хочу поделиться своим опытом поступления и учебы в Тартуском университете, и, надеюсь, помочь тем, кому сейчас не хватает такой информации, как мне когда-то.

Магистратура в области Computer Science в Эстонии: личный опыт - 1

1. Обо мне

В 2017 году я закончила бакалавриат СПбГУ по направлению “Прикладная математика, физика и процессы управления”. Занималась гидродинамикой, но к концу бакалавриата пришло осознание, что хочется попробовать себя в IT сфере. Я решила, что буду поступать в магистратуру на специальность, связанную с программированием. Это осознание мне пришло довольно поздно, и я не очень основательно подошла к выбору университета и программы. Из Питера мне переезжать на тот момент не хотелось, поэтому я поступила в магистратуру в ИТМО на специальность “Программное обеспечение в инфокоммуникациях”. Но уже летом перед магистратурой я начала понимать, что это не совсем то, что мне нужно. Я походила на пары до октября и решила, что заберу документы и возьму gap year. С этого начался мой путь к магистратуре за границей.

Магистратура в области Computer Science в Эстонии: личный опыт - 2

Читать полностью »

Что может пойти не так с Data Science? Сбор данных

2020-07-17 в 9:30, admin, рубрики: agile, data engineering, data mining, data science, python, reddit, Блог компании RUVDS.com, планирование, сбор данных, Социальные сети и сообщества, хабр

Сегодня существует 100500 курсов по Data Science и давно известно, что больше всего денег в Data Science можно заработать именно курсами по Data Science (зачем копать, когда можно продавать лопаты?). Основной минус этих курсов в том, что они не имеют ничего общего с реальной работой: никто не даст вам чистые, обработанные данные в нужном формате. И когда вы выходите с курсов и начинаете решать настоящую задачу — всплывает много нюансов.

Поэтому мы начинаем серию заметок «Что может пойти не так с Data Science», основанных на реальных событиях случившихся со мной, моими товарищами и коллегами. Будем разбирать на реальных примерах типичные задачи по Data Science: как это на самом деле происходит. Начнем сегодня с задачи сбора данных.

И первое обо что спотыкаются люди, начав работать с реальными данными — это собственно сбор этих самых релевантных нам данных. Ключевой посыл этой статьи:

Мы систематически недооцениваем время, ресурсы и усилия на сбор, очистку и подготовку данных.

А главное, обсудим, что делать, чтобы этого не допустить.

По разным оценкам, очистка, трансформация, data processing, feature engineering и тд занимают 80-90% времени, а анализ 10-20%, в то время как практически весь учебный материал фокусируется исключительно на анализе.

Давайте разберем как типичный пример простую аналитическую задачу в трех вариантах и увидим, какими бывают «отягчающие обстоятельства».

И для примера опять же, мы рассмотрим подобные вариации задачи сбора данных и сравнения сообществ для:

Двух сабреддитов Reddit
Двух разделов Хабра
Двух групп Одноклассников

Читать полностью »

Почему меня разочаровали результаты Kaggle ARC Challenge

2020-06-23 в 10:28, admin, рубрики: AGI, ARC, big data, data science, kaggle, Алгоритмы, Блог компании Сбербанк, искусственный интеллект, машинное обучение, нейронные сети

Кто-то с ужасом, а кто-то с нетерпением ждет ИИ как в произведениях фантастов. С личностью, эмоциями, энциклопедическими знаниями и главное – с интеллектом, то есть способностями к логическим выводам, оперированию абстрактными понятиями, выделению закономерностей в окружающем мире и превращению их в правила. Как мы знаем, именно такой ИИ теоретики называют «сильным» или ещё AGI. Пока это далеко не мейнстримное направление в машинном обучении, но руководители многих больших компаний уже считают, что сложность их бизнеса превысила когнитивные способности менеджеров и без «настоящего ИИ» двигаться вперёд станет невозможно. Идут дискуссии, что же это такое, каким он должен быть, как сделать тест чтобы уж точно понять, что перед нами AGI, а не очередной blackbox, который лучше человека решает локальную задачу – например, распознавание лица на фотографии.

Три недели назад на каггле прошло первое в истории платформы соревнование по «сильному» ИИ – Abstraction and Reasoning Challenge. Чтобы проверить способность моделей к обобщению и решению абстрактных задач, все участники суммарно решили только чуть менее половины задач. Решение-победитель справляется приблизительно с 20% из них — и то девятичасовым перебором вручную захардкоженных правил (ограничение в девять часов установили организаторы).

В посте я хочу напомнить о сложностях работы с AGI, рассказать о самых интересных идеях участников, топовых решениях и поделиться мнением, что не так с текущими попытками создать AGI.
Читать полностью »

Про SSH Agent

2020-05-23 в 15:34, admin, рубрики: Data Analyst, data science, ssh, SSH Agent, Блог компании SkillFactory, информационная безопасность, криптография, обучение программированию, Сетевые технологии, Учебный процесс в IT

Введение

SSH-agent является частью OpenSSH. В этом посте я объясню, что такое агент, как его использовать и как он работает, чтобы сохранить ваши ключи в безопасности. Я также опишу переадресацию агента и то, как она работает. Я помогу вам снизить риск при использовании переадресации агента и поделюсь альтернативой переадресации агента, которую вы можете использовать при доступе к своим внутренним хостам через bastion’ы.

Что такое SSH-agent

ssh-agent — это менеджер ключей для SSH. Он хранит ваши ключи и сертификаты в памяти, незашифрованные и готовые к использованию ssh. Это избавляет вас от необходимости вводить пароль каждый раз, когда вы подключаетесь к серверу. Он работает в фоновом режиме в вашей системе, отдельно от ssh, и обычно запускается при первом запуске ssh.

Агент SSH хранит секретные ключи в безопасности из-за того, что он не делает:

Он не записывает никакой информации о ключах на диск.
Он не позволяет экспортировать ваши личные ключи.

Секретные ключи, хранящиеся в Агенте, могут использоваться только для одной цели: подписания сообщения.

Но если агент может только подписывать сообщения, как SSH шифрует и расшифровывает трафик?

При первом изучении открытых и закрытых ключей SSH естественно предположить, что SSH использует эти пары ключей для шифрования и дешифрования трафика. Именно так я и думал. Но это не тот случай. Пара ключей SSH используется только для аутентификации во время первоначального соединения.
Читать полностью »

Как не пополнить ряды стремных специалистов, если ты Data Scientist

2020-05-23 в 11:16, admin, рубрики: big data, BigData, data engineering, data science, deep learning, machine learning, беспилотники, Блог компании RUVDS.com, интервью, Карьера в IT-индустрии, машинное обучение, яндекс

Хабра-сообщество провело еще одно интервью в нашем образовательном проекте: прямых эфирах c ребятами из IT, которые отвечают на ваши вопросы в формате живого общения.

Наш проект — попытка создать полноценный набор гайдов и рекомендаций для успешной жизни разработчика: как построить карьеру, получить оффер мечты, привлечь инвестиции в стартап, не тухнуть на скучных проектах, вырасти в своем деле и по пути купить домик у моря.

В начале недели наши вопросы отвечал Борис Янгель — ML-инженер Яндекса, который участвовал в создании мозгов «Алисы», а теперь делает беспилотные автомобили.

Боря рассказал о том, как стать крутым Data-Scientist, как парашютный спорт помогает ему в работе, почему конференции по ML бесполезны и ответил на недавний пост разгневанного отца про то, как Алиса рекомендовала видео с историями убийств ребенку.
Читать полностью »

Рубрика «Читаем статьи за вас». Апрель 2020. Часть 1

2020-05-22 в 12:09, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений

Привет! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

TResNet: High Performance GPU-Dedicated Architecture (DAMO Academy, Alibaba Group, 2020)
Controllable Person Image Synthesis with Attribute-Decomposed GAN (China, 2020)
Learning to See Through Obstructions (Taiwan, USA, 2020)
Tracking Objects as Points (UT Austin, Intel Labs, 2020)
CookGAN: Meal Image Synthesis from Ingredients (USA, UK, 2020)
Designing Network Design Spaces (FAIR, 2020)
Gradient Centralization: A New Optimization Technique for Deep Neural Networks (Hong Kong, Alibaba, 2020)
When Does Unsupervised Machine Translation Work? (Johns Hopkins University, USA, 2020)

Читать полностью »

Data Science и Machine Learning: как превращать будущее в настоящее

2020-05-17 в 10:13, admin, рубрики: big data, data engineering, data science, machine learning, алиса, беспилотные автомобили, Блог компании RUVDS.com, интервью, машинное обучение, яндекс

ЗАВТРА, 18 мая в 20:00 специалист по Data Science и машинному обучению Борис Янгель будет отвечать на ваши вопросы о нейросетках и Machine Learning в формате живого интервью в нашем инстаграм-аккаунте. Вы можете задать ему свой вопрос в комментариях к этому посту и спикер ответит вам в прямом эфире.

О спикере

Борис закончил МГУ по специальности Machine Learning. Работал в Microsoft Research в группе Криса Бишопа над фреймворком infer.Net, затем в Яндексе руководил разработкой мозгов Алисы. Любит скайдайвинг, нейросетки, гоночные автомобили и смелые решения. Сейчас Борис работает в Яндексе над проектом беспилотных автомобилей.
Читать полностью »

Дмитрий Лебедев: «Несколько лет назад я явно понимал, что еще чуть-чуть и OpenStreetMap пойдет ко дну»

2020-05-06 в 8:50, admin, рубрики: data science, open source, OpenStreetMap, активизм, аналитика, Геоинформационные сервисы, данные, инструменты, интервью, картография, карты, Социальные сети и сообщества

Дмитрий Лебедев: «Несколько лет назад я явно понимал, что еще чуть-чуть и OpenStreetMap пойдет ко дну» - 1
Дмитрий Лебедев — магистр экономики, программист и урбанист, который уже более 10 лет работает с OpenStreetMap. Он не только рисует домики, но и делает много исследований на основе его данных. По какому пути пошел OSM, есть ли у него будущее и зачем программистам гуманитарные науки — обо всем этом он рассказал в интервью.Читать полностью »

Рубрика «Читаем статьи за вас». Март 2020. Часть 2

2020-04-15 в 11:13, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений

Привет!

Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество! Первая часть мартовской сборки обзоров опубликована ранее.

Статьи на сегодня:

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (UC Berkeley, Google Research, UC San Diego, 2020)
Scene Text Recognition via Transformer (China, 2020)
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization (Imperial College London, Google Research, 2019)
Lagrangian Neural Networks (Princeton, Oregon, Google, Flatiron, 2020)
Deformable Style Transfer (Chicago, USA, 2020)
Rethinking Few-Shot Image Classification: a Good Embedding Is All You Need? (MIT, Google, 2020)
Attentive CutMix: An Enhanced Data Augmentation Approach for Deep Learning Based Image Classification (Carnegie Mellon University, USA, 2020)

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 8

Анонс: Ultimate Guide по карьере в AI от профессионала: выбрать специальность, прокачаться и найти классную работу