Рубрика «машинное обучение» - 23
Разбираемся с устройством свёрток на примере объединения двух свёрток в одну в pytorch
2022-06-12 в 15:09, admin, рубрики: computer vision, convolution, deep learning, python, pytorch, математика, машинное обучениеНеинтересная цель этой статьи — показать, как можно смержить две свертки пайторча в одну. Если интересна лишь реализация — прошу в конец статьи.
А интересная цель — потыкать непосредственно в веса моделей на примере объединения свёрток. Узнать, как они хранятся и используются конкретно в pytorch, не вдаваясь в хардкорные интересности по типу im2col.
Но перед тем, как показывать реализацию, давайте немного вспомним, с чем работаем.
Telegram бот с языковой моделью, обученной на 2ch
2022-06-11 в 21:52, admin, рубрики: 2ch, data mining, dataset, huggingface, natural language processing, nlp, python, pytorch, telegram, telegrambot, машинное обучениеЕсли вам хочется разбавить общение в telegram чате нелепыми, но зачастую меткими и смешными комментариями, или вы ищете информацию по интеграции языковой модели в бота, или хотите сами обучить языковые модели на данных с 2ch, то в этой статье описаны шаги, как это сделать.
Бот
Запустил бота, которого можно добавлять в чаты, и он будет отвечать на сообщения, как на посты на 2ch.hk/b/.
Для этого:
-
Был собран датасет постов с 2ch
-
Была обучена Читать полностью »
Как мы заняли 1-е место в задаче Matching в соревновании Data Fusion Contest 2022, или как нейронка обогнала бустинг
2022-06-09 в 16:01, admin, рубрики: big data, data mining, machine learning, neural networks, Блог компании Open Data Science, машинное обучениеНа платформе ODS.ai прошло соревнование по машинному обучению Data Fusion Contest 2022 от банка ВТБ.
Мы, команда Лаборатории ИИ Сбера и Института искусственного интеллекта AIRI, приняли решение поучаствовать в контесте, когда увидели, что тема соревнования сильно пересекалась с нашими исследованиями. Мы заняли первое место на private leaderboard в основной задаче Matching. Здесь я хотел бы описать решение, которое у нас получилось.
Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет
2022-06-07 в 14:49, admin, рубрики: chatbots, classification, data processing, data science, deep learning, machine learning, named entity recognition, natural language processing, python, telemedicine, Блог компании MTS AI, искусственный интеллект, машинное обучениеПривет,
Теперь наш синтез на 20 языках
2022-06-06 в 17:35, admin, рубрики: diy или сделай сам, natural language processing, text-to-speech, TTS, голосовые интерфейсы, звук, машинное обучение, синтез речи
В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.
В этот раз мы добавили:
- 1 высококачественный голос на русском языке (
eugeny
); - Синтез на 20 языках, 174 голоса;
- В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;
- В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;
- Также в список языков входят 10 языков народов Индии;
- Новую значительно улучшенную модель для простановки ударений и буквы
ё
со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок); - Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;
Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.
Попробовать модель как обычно можно в нашем репозитории и в колабе.
Рейтинг русскоязычных энкодеров предложений
2022-06-05 в 19:18, admin, рубрики: BERT, natural language processing, python, sentence encoder, бенчмаркинг, машинное обучение, Семантика, энкодер предложенийЭнкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.
Система распознавания шрифта Брайля. Читаем написанное белым по белому
2022-05-31 в 10:34, admin, рубрики: accessibility, braille, cnn, machine learning, object detection, Блог компании Open Data Science, Брайль, машинное обучение, обработка изображенийВ 2018 году мы взяли из детдома в семью слепую девочку Анжелу. Тогда я думал, что это чисто семейное обстоятельство, никак не связанное с моей профессией разработчика систем компьютерного зрения. Но благодаря дочери через два года появилась программа и интернет-сервис для распознавания текстов, написанных шрифтом Брайля - Angelina Braille Reader.
Работа в Data Science: что важно знать и как этому научиться
2022-05-29 в 18:30, admin, рубрики: artificial intelligence, big data, career, data science, machine learning, self-education, искусственный интеллект, Карьера в IT-индустрии, машинное обучениеО чем это все?
Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).
Насколько естественен естественный язык? Представляем датасет RuCoLA
2022-05-24 в 9:02, admin, рубрики: github, natural language processing, open source, Исследования и прогнозы в IT, корпус текстов, лидерборд, лингвистика, машинное обучение, открытые данныеВ последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.
Читать полностью »