Главная

Рубрика «BERT»

Преемник BERT: ModernBERT

2025-02-09 в 9:14, admin, рубрики: BERT, Fine-tuning, искусственный интеллект, кодер

ModernBERT — новое поколение двунаправленного кодировщика, сочетающее в себе обработку длинных последовательностей, понимание кода и эффективные вычисления.

Введение

BERT был выпущен в 2018 году, но он до сих пор широко используется. Фактически, это вторая по популярности модель на Hugging Face Hub с ежемесячными загрузками более 68 миллионов раз! Это связано с тем, что его архитектура, предназначенная только для кодирования, делает его идеальным для множества реальных задач, таких как:

Поиск (например, RAG)
КлассификацияЧитать полностью »

Русский Маскарад — применение NER для защиты персональных данных

2025-01-28 в 6:58, admin, рубрики: BERT, Gliner, ner, qwen, spacy

Всем привет!

На связи команда хакатонщиков “Старые Бауманцы” и я - Саша Зазнобин.

Читать полностью »

Под микроскопом: AI Product Hack

2024-10-29 в 19:57, admin, рубрики: AI Security, BERT, llm, lora, mlops, nlp (natural language processing)

Сколько раз вы были свидетелями судейства на хакатонах, которое, на первый взгляд, казалось неверным? Думаем, таких случаев было много.

Сегодня мы посмотрим на результаты AI Product Hack и постараемся разобраться в том, кто после присуждения мест оказался прав: раздосадованные поражением участники команд или судьи.

В частности мы будем рассматривать кейс компании Raft - “Мониторинг токсичного контента в AI-продуктах”.

Читать полностью »

Гайд по работе языковых моделей для начинающих

2024-08-20 в 15:32, admin, рубрики: BERT, gpt, llm, nlp, nlp (natural language processing), pytorch, TensorFlow, обработка естественного языка, языковая модель, языковые модели

Для того, чтобы распознавать естественную человеческую речь, используют специальные модели — языковые. Они умеют воспринимать содержание текста, продолжать предложения и вести осмысленный диалог.

Вместе с дата-сайентистом и биоинформатиком Марией Дьяковой подготовили подробный гайд о том, как устроены самые популярные языковые модели и что нужно знать, чтобы начать с ними работать.

Читать полностью »

Семантический поиск (homemade)

2024-08-07 в 5:15, admin, рубрики: AI, BERT, deep learning, machine learning, nlp, sentence transformer, Transformers, обработка естественного языка, семантический поиск

Основой семантического поиска может являться ML задача Sentence Similarity, а если быть еще конкретнее, то это Semantic Textual Similarity. Модели, обученные под эту задачу, способны оценивать насколько близки предложения по своему смыслу. Всё, что нам дальше остается, так это засунуть модель в некоторую поисковую систему, но тут давайте по порядку.

Читать полностью »

Обучение Russian SuperGLUE моделей с помощью библиотеки DeepPavlov

2022-12-03 в 19:53, admin, рубрики: AI, BERT, deep learning, deeppavlov, natural language processing, nlp (natural language processing), open source, python, pytorch, transfer learning, искусственный интеллект, машинное обучение, нейронные сети, обработка текстов

Соревнования GLUE и SuperGLUE

В последние годы соревнования GLUE и SuperGLUE Читать полностью »

Умные субтитры

2022-11-06 в 13:27, admin, рубрики: BERT, LaBSE, moviepy, natural language processing, nlp, python, английский, аудирование, видео, изучение языков, машинное обучение, Работа с видео, субтитры, языки

Сегодня я вам расскажу о своем методе для изучения иностранных языков.

С чего начать изучение нового языка? Чаще всего люди на раннем этапе используют стандартный лексико-грамматический метод с доминированием письменного языка, который показал себя медленным и весьма скучным — вам чаще всего нужна зашкаливающая мотивация, чтобы не бросить где-то посередине.

Я предлагаю начать сразу с видео:

Читать полностью »

Рейтинг русскоязычных энкодеров предложений

2022-06-05 в 19:18, admin, рубрики: BERT, natural language processing, python, sentence encoder, бенчмаркинг, машинное обучение, Семантика, энкодер предложений

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Читать полностью »

Нейросети для Natural Language Inference: логические умозаключения на русском языке

2021-10-10 в 12:35, admin, рубрики: BERT, natural language inference, natural language processing, natural language understanding, nli, nlp, nlu, python, Transformers, zero-shot classification, машинное обучение, обработка естественного языка, Программирование, Семантика

NLI (natural language inference) – это задача автоматического определения логической связи между текстами. Обычно она формулируется так: для двух утверждений A и B надо выяснить, следует ли B из A. Эта задача сложная, потому что она требует хорошо понимать смысл текстов. Эта задача полезная, потому что "понимательную" способность модели можно эксплуатировать для прикладных задач типа классификации текстов. Иногда такая классификация неплохо работает даже без обучающей выборки!

До сих пор в открытом доступе не было нейросетей, специализированных на задаче NLI для русского языка, но теперь я обучил целых три: Читать полностью »

BERT для классификации русскоязычных текстов

2021-07-10 в 9:09, admin, рубрики: BERT, huggingface, natural language processing, pytorch, Transformers, машинное обучение

Зачем

В интернете полно прекрасных статей про BERT. Но часто они слишком подробны для человека, который хочет просто дообучить модель для своей задачи. Данный туториал поможет максимально быстро и просто зафайнтюнить русскоязычный BERT для задачи классификации. Полный код и описание доступны в репозитории на github, есть возможность запустить все в google colab одной кнопкой.

Workflow

Данные для обучения
Модель
Helpers
Train
Inference

Данные для обучения

Для обучения использовались очищенные данные русскоязычного твиттера из датасета Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «BERT»

Преемник BERT: ModernBERT

Введение

Русский Маскарад — применение NER для защиты персональных данных

Под микроскопом: AI Product Hack

Гайд по работе языковых моделей для начинающих

Семантический поиск (homemade)

Обучение Russian SuperGLUE моделей с помощью библиотеки DeepPavlov

Соревнования GLUE и SuperGLUE

Умные субтитры

Рейтинг русскоязычных энкодеров предложений

Нейросети для Natural Language Inference: логические умозаключения на русском языке

BERT для классификации русскоязычных текстов

Зачем

Workflow

Данные для обучения

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «BERT»

Введение

Соревнования GLUE и SuperGLUE

Зачем

Workflow

Данные для обучения

Новости

Актуальные темы

Архив