Меня зовут Павел Пархоменко, я ML-разработчик. В этой статье я хотел бы рассказать об устройстве сервиса Яндекс.Дзен и поделиться техническими улучшениями, внедрение которых позволило увеличить качество рекомендаций. Из поста вы узнаете, как всего за несколько миллисекунд находить среди миллионов документов наиболее релевантные для пользователя; как делать непрерывное разложение большой матрицы (состоящей из миллионов столбцов и десятков миллионов строк), чтобы новые документы получали свой вектор за десятки минут; как переиспользовать разложение матрицы пользователь-статья, чтобы получить хорошее векторное представление для видео.
Рубрика «Алгоритмы» - 40
Как мы работаем над качеством и скоростью подбора рекомендаций
2020-02-27 в 8:59, admin, рубрики: als, Алгоритмы, Блог компании Яндекс, дзен, коллаборативная фильтрация, машинное обучение, отбор кандидатов, распределенные системы, рекомендательные системыУчёные создали алгоритм, позволяющий робомобилям избегать аварий и пробок
2020-02-26 в 11:50, admin, рубрики: автономные автомобили, автономные транспортные средства, Алгоритмы, искусственный интеллект, робомобили, робототехника, роботы, транспорт
Источник: Northwestern University
Учёные из Северо-Западного университета (Northwestern University) в Чикаго разработали алгоритм движения автономных транспортных средств, который, по их словам, гарантирует отсутствие пробок и столкновений.Читать полностью »
Книга «Совершенный алгоритм. Жадные алгоритмы и динамическое программирование»
2020-02-25 в 9:03, admin, рубрики: Алгоритмы, Блог компании Издательский дом «Питер», книга, Профессиональная литератураПривет, Хаброжители! В новой книге Тим Рафгарден рассказывает о жадных алгоритмах (задача планирования, минимальные остовные деревья, кластеризация, коды Хаффмана) и динамическом программировании (задача о рюкзаке, выравнивание последовательностей, кратчайшие пути, оптимальные деревья поиска). В данном посте представлен отрывок «Разработка жадного алгоритма»
Жадные алгоритмы, по всей видимости, хорошо подходят для задачи планирования работ, минимизируя взвешенную сумму сроков завершения. Выход имеет итеративную структуру, где работы обрабатываются по одной. Почему бы не использовать жадный алгоритм, который итеративно решает, какая работа будет следующей?
Читать полностью »
GSM телефонный аппарат с дисковым номеронабирателем
2020-02-25 в 5:57, admin, рубрики: diy или сделай сам, Алгоритмы, конструирование, программирование микроконтроллеров, радиолюбительство, радиосвязь, схемотехника
Наверняка, у многих радиолюбителей была идея, приспособить телефонный аппарат с дисковым номеронабирателем для мобильной радиосвязи.
Проводная связь постепенно уходит в прошлое, и такие аппараты пылятся на полке. Мне всегда нравился внешний вид таких аппаратов. Не смог удержаться и два года назад решил переделать телефонный аппарат, который до сих пор работает, без сбоев.
Читать полностью »
Сканирующее окно по массивам NumPy
2020-02-24 в 15:19, admin, рубрики: moving window, numpy, python, rolling window, sliding window, Алгоритмы, массивы, метод скользящего окна, оптимизация кода, Программирование, Совершенный кодCoLab блокнот с примерами
Возможно сделать скользящее окно (rolling window, sliding window, moving window) по массивам NumPy на языке программирования Python без явных циклов. В данной статье рассматривается создание одно-, двух-, трех- и N-мерных скользящих окон по массивам NumPy. В результате скорость обработки данных увеличивается в несколько тысяч раз и сравнима по скорости с языком программирования С.
Cкользящее окно применяется в: обработке изображений, искусственных нейронных сетях, интернет протоколе TCP, обработке геномных данных, прогнозировании временных рядов и т.д.
Отказ от ответственности: в исходном коде могут быть ошибки! Если вы видите ошибку, пожалуйста, напишите мне.
Красно-чёрные деревья на javascript
2020-02-23 в 10:11, admin, рубрики: d3.js, javascript, Алгоритмы, красно-черные деревья, Учебный процесс в IT
Привет! Изучал недавно красно-черные деревья. Попробовал визуализировать детали работы алгоритмов вставки и удаления на d3.js. Надеюсь, полученный результат поможет сэкономить немного времени тем, кто изучает алгоритмы на javascript. Посмотреть можно тут. Исходник реализации, от которой отталкивался тут . Под катом краткие подробности.
Читать полностью »
Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая
2020-02-21 в 15:43, admin, рубрики: big data, data accuracy, data analysis, data anomaly, data cleansing, data completeness, data consistency, data engineering, data mining, data preparation, data quality, data structures, dirty data, Алгоритмы, грязные данные, обработка данных, открытые данные, очистка данныхВ части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.
Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».
Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.
Первый этап начинается с определения статистических показателей датасета.
Таблица 1. Статпоказатели датасета
Читать полностью »
Как мы предсказываем будущее с помощью машинного обучения: discovery-запросы в поиске Яндекса
2020-02-20 в 8:22, admin, рубрики: machine learning, Алгоритмы, Блог компании Яндекс, искусственный интеллект, команда яндекс.поиска, машинное обучение, поиск яндекса, поисковые технологии, яндексЛюди не всегда точно формулируют свои запросы, поэтому поисковые системы должны помогать им в этом. Меня зовут Сергей Юдин, я руковожу группой аналитики функциональности поиска в Яндексе. Мы каждый день улучшаем что-то с помощью машинного обучения. Последний год мы разрабатываем технологию, которая предугадывает интересы человека.
Со специалистом из моей команды Анастасией Гайдашенко avgaydashenko я расскажу читателям Хабра, как работает эта технология, опишу архитектуру и применяемые алгоритмы. А ещё вы узнаете, чем предсказание следующего запроса отличается от предсказания будущих интересов человека.
Результаты исследования откликов на вакансию дизайнера цифрового продукта. Часть первая — результаты и статистика
2020-02-20 в 8:04, admin, рубрики: recruitment, research, statistics, Алгоритмы, веб-дизайн, дизайн, Карьера в IT-индустрии, управление проектамиОсенью 2019 года мы запустили исследование сопроводительных писем продуктовых дизайнеров.
Цель — понять, насколько важно сопроводительное письмо, что в нём будут указывать, как оно влияет на самый верх воронки найма: пропустят отклик дальше по цепочке или нет?
Исследование проводилось в сентябре-ноябре 2019 года.
16 приглашенных экспертов из Яндекса, Альфа-Банка, Почты, Мэйл.Ру Групп, Интеркома, Миро, Революта, Сбербанка, Акрониса (и других) проанализировали 243 отклика на вакансию дизайнера цифровых продуктов.
В исследовании — основные выводы, статистика, а также поверхностный анализ описания вакансий и интервью нанимающих дизайн-менеджеров о поисках дизайнеров.