Радует, когда на диаграмме кроме новых созвездий находится нечто похожее на зависимость. В таком случае мы строим модель, которая хорошо объясняет связь между двумя переменными. Но исследователь должен понимать не только, как работать с данными, но и какая история из реального мира за ними лежит. В противном случае легко сделать ошибку. Расскажу о парадоксе Симпсона — одном из самых опасных примеров обманчивых данных, который может перевернуть связь с ног на голову.
Рубрика «машинное обучение» - 48
Данные всех стран, не объединяйтесь
2020-05-27 в 14:22, admin, рубрики: data mining, Блог компании Wrike, математика, машинное обучение, парадокс симпсона, статистика, Статистика в ITКак живые: наш опыт редактирования старых фотографий
2020-05-26 в 7:01, admin, рубрики: Блог компании ГК ЛАНИТ, искусственный интеллект, Ланит, машинное обучение, обработка изображений, обработка фотоСемейной историей мы с мужем занимаемся уже лет десять. Накопилась большая база черно-белых фотографий по каждому из сотен предков и их родственников. Самое важное на таких фото — это, конечно, лица людей. Чтобы делиться с роднёй и публиковать в интернете, хочется иметь эти фото в хорошем качестве, находить новые, интересные детали.
Революцией в этой сфере для нас в последние месяцы стало появление ряда программ и сервисов, которые в совокупности и при правильном использовании позволяют любому человеку легко ретушировать и расцвечивать старые семейные фото. Результат — реалистичные, чёткие, красивые кадры из старых, зернистых, нерезких и часто поврежденных фото. В большинстве случаев не требуется использование фотошопа.
Хотим поделиться со всеми, кому интересно это ремесло, теми программами, которые мы открыли, а также некоторыми способами их комбинирования в правильном порядке. Речь пойдет об онлайн-приложении Remini, сервисе «Компьютерное зрение от почты mail.ru», приложении Google Snapseed, а также о ряде других штуковин.
Как не пополнить ряды стремных специалистов, если ты Data Scientist
2020-05-23 в 11:16, admin, рубрики: big data, BigData, data engineering, data science, deep learning, machine learning, беспилотники, Блог компании RUVDS.com, интервью, Карьера в IT-индустрии, машинное обучение, яндекс
Хабра-сообщество провело еще одно интервью в нашем образовательном проекте: прямых эфирах c ребятами из IT, которые отвечают на ваши вопросы в формате живого общения.
Наш проект — попытка создать полноценный набор гайдов и рекомендаций для успешной жизни разработчика: как построить карьеру, получить оффер мечты, привлечь инвестиции в стартап, не тухнуть на скучных проектах, вырасти в своем деле и по пути купить домик у моря.
В начале недели наши вопросы отвечал Борис Янгель — ML-инженер Яндекса, который участвовал в создании мозгов «Алисы», а теперь делает беспилотные автомобили.
Боря рассказал о том, как стать крутым Data-Scientist, как парашютный спорт помогает ему в работе, почему конференции по ML бесполезны и ответил на недавний пост разгневанного отца про то, как Алиса рекомендовала видео с историями убийств ребенку.
Читать полностью »
Как помнить всех в лицо, или эффективный поиск лиц в большой базе
2020-05-22 в 19:10, admin, рубрики: postgresql, Администрирование баз данных, Алгоритмы, машинное обучение, поиск лиц, Программирование, распознавапние лиц, хранени распознанных лиц, хранение эмбендинговО себе
Здравствуй! Меня зовут Павел, я работаю техническим директором в компании, занимающейся производством IoT устройств. Производим много чего — начиная от контроллеров для умных домов, заканчивая умными приборами учёта на своём запатентованном протоколе сенсорных сетей.
Также исполняют обязанности генерального директора ит-компании. В прошлом полуфиналист ЧМ по программированию ACM ICPC.
Мотивация
Пишу я это статью потому, что наша команда убила около месяца на поиск решения (ещё недели две на реализацию и написание тестов) для хранения и эффективного поиска распознанных лиц в базе данных, с целью сэкономить время вам в ваших проектах. Спойлер: ничего готового вроде классного плагина для существующей СУБД не нашли, а сроки полыхали, по этому написали свою СУБД именно для этой задачи (хранения огромного количества эмбендингов лиц). Моя статья ни в коем случае не претендует на звание исчерпывающего руководства, но, я надеюсь, что она даст точку старта для дальнейшего изучения и развития наших мыслей.
Эмбеддинг – это отображение из дискретного вектора категориальных признаков в непрерывный вектор с заранее заданной размерностью.
Рубрика «Читаем статьи за вас». Апрель 2020. Часть 1
2020-05-22 в 12:09, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображенийПривет! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!
Статьи на сегодня:
- TResNet: High Performance GPU-Dedicated Architecture (DAMO Academy, Alibaba Group, 2020)
- Controllable Person Image Synthesis with Attribute-Decomposed GAN (China, 2020)
- Learning to See Through Obstructions (Taiwan, USA, 2020)
- Tracking Objects as Points (UT Austin, Intel Labs, 2020)
- CookGAN: Meal Image Synthesis from Ingredients (USA, UK, 2020)
- Designing Network Design Spaces (FAIR, 2020)
- Gradient Centralization: A New Optimization Technique for Deep Neural Networks (Hong Kong, Alibaba, 2020)
- When Does Unsupervised Machine Translation Work? (Johns Hopkins University, USA, 2020)
Как мы учим Яндекс отвечать на вопросы и экономим пользователям 20 тысяч часов в сутки
2020-05-21 в 7:50, admin, рубрики: Блог компании Яндекс, команда яндекс.поиска, машинное обучение, поисковые технологии, фактовые ответы, яндекс
Когда мы вводим запрос в поисковую строку, то ищем информацию, а не ссылки. Более того, зачастую нам требуется короткое предложение или общеизвестный факт. К примеру, [формула объёма усечённой пирамиды] на всех сайтах одинакова — ссылки не нужны, достаточно сразу дать ответ.
Фактовыми (информационными) ответами сейчас никого не удивить, но мало кто знает, как именно они формируются, чем различаются и что важного произошло в этой области за последнее время. Меня зовут Антон Иванов. Сегодня вместе с моим коллегой Михаилом Агеевым dminer мы расскажем историю ответов в поиске и поделимся некоторыми подробностями, о которых раньше нигде не говорили. Надеюсь, будет полезно.
Компьютерное зрение на WebRTC-сервере с аппаратным ускорением от Intel OWT
2020-05-20 в 10:00, admin, рубрики: computer vision, open cv, WebRTC, webrtc server, Блог компании Voximplant, искусственный интеллект, Компьютерное зрение, машинное обучение, Программирование, распознавание лиц
WebRTC упростил (в большинстве своем) получение и отправку видеопотоков в реальном времени. А значит, можно немного поразвлекаться с ними при помощи машинного обучения. В прошлом месяце я показал, как запустить компьютерное зрение (Computer Vision – CV) локально в браузере. Как я уже упоминал, локально – это, конечно, хорошо, но иногда требуется более высокая производительность, и для этого нам понадобится удаленный сервер. В данном посте я расскажу о том, как запускать серверные модели OpenCV с аппаратным ускорением на чипсетах Intel с помощью Open WebRTC Toolkit (OWT) с открытым исходным кодом.
Читать полностью »
Data Science и Machine Learning: как превращать будущее в настоящее
2020-05-17 в 10:13, admin, рубрики: big data, data engineering, data science, machine learning, алиса, беспилотные автомобили, Блог компании RUVDS.com, интервью, машинное обучение, яндексЗАВТРА, 18 мая в 20:00 специалист по Data Science и машинному обучению Борис Янгель будет отвечать на ваши вопросы о нейросетках и Machine Learning в формате живого интервью в нашем инстаграм-аккаунте. Вы можете задать ему свой вопрос в комментариях к этому посту и спикер ответит вам в прямом эфире.
О спикере
Борис закончил МГУ по специальности Machine Learning. Работал в Microsoft Research в группе Криса Бишопа над фреймворком infer.Net, затем в Яндексе руководил разработкой мозгов Алисы. Любит скайдайвинг, нейросетки, гоночные автомобили и смелые решения. Сейчас Борис работает в Яндексе над проектом беспилотных автомобилей.
Читать полностью »
Погружение в Delta Lake: принудительное применение и эволюция схемы
2020-05-16 в 18:51, admin, рубрики: Apache, big data, DeltaLake, машинное обучениеПривет! Представляю вашему вниманию перевод статьи «Diving Into Delta Lake: Schema Enforcement & Evolution» авторов Burak Yavuz, Brenner Heintz and Denny Lee.
Данные, как и наш опыт, постоянно накапливаются и развиваются. Чтобы не отставать, наши ментальные модели мира должны адаптироваться к новым данным, некоторые из которых содержат новые измерения — новые способы наблюдать вещи, о которых раньше мы не имели представления. Эти ментальные модели мало чем отличаются от схем таблиц, определяющих, как мы классифицируем и обрабатываем новую информацию.
Это подводит нас к вопросу управления схемами. По мере того, как бизнес задачи и требования меняются со временем, меняется и структура ваших данных. Delta Lake позволяет легко внедрять новые измерения при изменении данных. Пользователи имеют доступ к простой семантике для управления схемами своих таблиц. Эти инструменты включают принудительное применение схемы (Schema Enforcement), которое защищает пользователей от непреднамеренного засорения своих таблиц ошибками или ненужными данными, а также эволюцию схемы (Schema Evolution), которая позволяет автоматически добавлять новые столбцы с ценными данными в соответствующие места. В этой статье мы углубимся в использование этих инструментов.
Понимание схем таблиц
Каждый DataFrame в Apache Spark содержит схему, которая определяет форму данных, такую как типы данных, столбцы и метаданные. С помощью Delta Lake схема таблицы сохраняется в формате JSON внутри журнала транзакций.
Читать полностью »
Графовые рекомендации групп в Одноклассниках
2020-05-14 в 9:38, admin, рубрики: big data, data mining, Блог компании Одноклассники, графы, машинное обучение, рекомендательные системы
Графовые рекомендательные системы показывают state of the art результаты, но про них редко пишут и еще реже используют в продакшене. В этой статье мы расскажем про опыт Одноклассников в применении графового подхода для задачи рекомендации групп, разберем причем тут нейросети и что делать, если не все рекомендации одинаково полезны для пользователей и портала.