Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей. Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.
Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.
Рубрика «ml» - 7
Первый нейросетевой переводчик для эрзянского языка
2022-10-09 в 10:00, admin, рубрики: cезон data mining, data mining, lower-resource language, machine learning, machine translation, ml, natural language processing, nlp, искусственный интеллект, малоресурсный язык, машинное обучение, машинный перевод, переводчик, СемантикаML в Managed Kubernetes: для каких задач нужен кластер с GPU
2022-08-12 в 17:11, admin, рубрики: gpu, kubernetes, Managed Kubernetes, ml, selectel, Блог компании Selectel, контейнеры, машинное обучениеМашинное обучение используют в разных сферах: от бизнес-аналитики до астрофизики. Для грамотного потребления ресурсов модели развертывают в контейнерах на выделенных серверах или в облаках. Теперь с ML можно эффективно работать в готовых кластерах Kubernetes — в них появились производительные видеокарты.
Под катом рассказываем, для чего нужны GPU в кластерах Managed Kubernetes и как они ускоряют продакшн ML-сервисов.
Читать полностью »
Первое правило машинного обучения: начните без машинного обучения
2021-11-05 в 12:27, admin, рубрики: kubernetes, machine learning, ml, Блог компании Билайн Бизнес, машинное обучение, Программирование, разработкаЭффективное использование машинного обучения — сложная задача. Вам нужны данные. Вам нужен надёжный конвейер, поддерживающий потоки данных. И больше всего вам нужна высококачественная разметка. Поэтому чаще всего первая итерация моих проектов вообще не использует машинное обучение.
Что? Начинать без машинного обучения?
Об этом говорю не только я.
Догадайтесь, какое правило является первым в 43 правилах машинного обучения Google?
Правило №1: не бойтесь запускать продукт без машинного обучения.
Машинное обучение — это здорово, но для него требуются данные. Теоретически, можно взять данные из другой задачи и подстроить модель под новый продукт, но она, скорее всего, не справится с базовыми эвристиками. Если вы предполагаете, что машинное обучение придаст вам рост на 100%, то эвристика даст вам 50%.
Почти доброе место: как интернет пытались сделать менее злым и что из этого вышло
2021-08-06 в 11:23, admin, рубрики: AI, ml, Блог компании Selectel, искусственный интеллект, машинное обучение, Научно-популярное, Социальные сети и сообщества, токсичность, ТроллингЛюди, которые застали динозавров и пейджеры, могут помнить, что когда-то давно, диктуя сообщение девушке-оператору пейджинговой компании, можно было услышать в ответ «Это сообщение оскорбительно для получателя, отправлять его я не буду». И попробуй докажи, что это у вас с получателем такая внутренняя шутка.
С тех пор способов доставить получателю оскорбительное сообщение стало намного больше, а способов превентивно это остановить не так уж и много. Предлагаем вспомнить наиболее любопытные технологические попытки сделать интернет чуть более добрым местом.
Читать полностью »
Сговор и жульничество в академических кругах
2021-07-05 в 8:29, admin, рубрики: AI, ml, Блог компании VDSina.ru, жульничество, искусственный интеллект, круговая порука, машинное обучение, мошенничество, наука, Научно-популярное, научные конференции, нейросети, обман, рецензирование
«Он не публиковался» © Mischa Richter
На Хабре много говорилось о проблеме "publish or perish" (публикуйся или умри), фейковых журналах и конференциях, накрутке числа публикаций и индекса цитируемости, фальшивых «соавторах», даже о генераторах псевдонаучных текстов. Но в 2021 году выявилось ещё одно очень неприглядное явление: круговое голосование рецензентов. Когда статьи выбирают не по значимости, а по именам авторов, то это подрывает основы взаимного доверия и цельность всей научной области.
Конечно, тут ничего нового и «все всё знали». Просто нарыв наконец-то вскрылся…
На одной из конференций раскрыли попытку жульничества в системе отбора публикаций. К сожалению, «отличилась» наша отрасль — информатика (computer science).
Читать полностью »
Анонс: как с помощью машинного обучения выращивают каннабис и помидорки
2021-02-14 в 17:00, admin, рубрики: fermata, ml, ruvds_прямые эфиры, Биотехнологии, Блог компании RUVDS.com, будущее здесь, Валерия коган, машинное обучение, сельское хозяйство, теплицы, умные теплицыЗавтра, в 20:00 в наших соцсетях выступит Валерия Коган — выпускница физтеха, со-основательница стартапов Fermata и Smartomica.
Лера пришла идея контролировать растения в теплицах за счет машинного обучения, когда ее знакомые рассказали ей о своих проблемах с массовым выращивании огурцов и помидоров. Тогда она с приятелями основала Fermata и начала разрабатывать платформу для мониторинга растений в реальном времени.
В 2019-ом компания привлекла $1,1 млн инвестиций от частного инвестора, а уже в в марте 2020-го, в ходе раунда А получила еще $3,7 млн. инвестиций от британского фонда Massa Innovations и нескольких частных инвесторов.
Кроме агротеха, Лера занимается разработкой новых методов диагностики рака и является приглашенным ученым в Roswell Park Cancer Institute. В Smartomica они разрабатывает технологии анализа медицинских и научных данных для диагностики и лечения онкологических пациентов
Читать полностью »
Как дата-саентисты в ВК делают рекламу эффективной
2021-01-04 в 12:30, admin, рубрики: big data, ml, ruvds_расшифровка, андрей попов, Блог компании RUVDS.com, машинное обучение, медийная реклама, таргетированная рекламаЕще в прошлом году у нас выступал Артем Попов, тимлид команды VK Performance Advertising. Делимся с вами расшифровкой эфира и записью.
Меня зовут Артем, я – руководитель performance advertising в ВК. Наша команда занимается тем, что, с одной стороны, делает рекламу в ВК эффективнее, выгоднее для рекламодателей, интереснее для пользователей. Это большая продуктовая цель.
С другой стороны, технически, мы – команда ML-инженеров, довольно обычных разработчиков, которые много времени занимаются задачами, связанными с data science и ML. Сегодня я хочу поговорить про эти две темы, потому что обе они мне интересны, я о них люблю поговорить. Я очень рассчитываю на то, что у нас будет живое общение; если кто-то смотрит трансляцию, будет интереснее, если вы будете писать вопросы.
Читать полностью »