Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных.
Рубрика «natural language processing»
Путь разметки данных для NER: от Open Source до Prodigy
2024-11-09 в 20:15, admin, рубрики: annotation processing, artificial intelligence, named entity recognition, natural language processing, prodigy, spacy, искусственный интеллект, машинное обучениеСтоит ли ждать ChatGPT-o1 дома?
2024-10-22 в 15:00, admin, рубрики: llm, machine learning, natural language processing, нейросетиБольшие языковые модели прочно засели в новостном пространстве, позволяя изменить подход к огромному количеству задач и дразня новой технологической революцией. Однако основной прогресс LLM сейчас происходит в компаниях, фокусирующихся на предоставлении LLM как сервиса, используя специфические технические и инфраструктурные решения. Это оставляет энтузиастам, собирающим своего собственного локального цифрового помощника, малые модели с открытыми весами. И модели эти, как кажется, будут отставать от старших братьев.
о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ
2024-09-18 в 5:00, admin, рубрики: chatgpt, gpt, gpt-4, llm, machinelearning, natural language processing, o1, OpenAI, нейросети, языковые моделиПоследние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.
Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest
2024-09-17 в 11:56, admin, рубрики: artificial intelligence, natural language processing, большие языковые модели, мультимодальные модели, соревнования, хакатон, ХакатоныМы в лаборатории Fusion Brain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре.
Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?
2024-09-11 в 4:55, admin, рубрики: chatgpt, gpt-4, llm, natural language processing, OpenAI, длиннопост, нейросети, языковые моделиChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества.
Отличается ли внимание человека и модели-трансформера?
2024-08-30 в 11:36, admin, рубрики: eye-tracking, natural language processing, self-attention, TransformersДля того, чтобы понимать язык и делать различные выводы, человек рассуждает, опираясь на знания о мире и здравый смысл. Несмотря на то, что большие языковые модели достигли значительных успехов в обработке естественного языка, рассуждение на основе здравого смысла остаëтся одним из самых сложных навыков.
Наиболее распространëнным способом оценки способностей моделей рассуждать, опираясь на здравый смысл, является тест на основе схемы Винограда (The Winograd Schema ChallengeЧитать полностью »
ChatGPT как мутная ксерокопия Интернета
2024-05-12 в 18:11, admin, рубрики: chatgpt, llm, natural language processing, Алгоритмы, искусственный интеллектGPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?
2023-12-18 в 14:28, admin, рубрики: chatgpt, DeepMind, gpt, large language model, large language models, llm, natural language processing, OpenAI, генерация, машинное обучение14го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении нерешённых проблем». А в блогпосте дочки гугла и вовсе не постеснялся указать, что это — первые находки Больших Языковых Моделей (LLM) в открытых математических проблемах. Неужели правда? Или кликбейт — и это в Nature? А может мы и вправду достигли Читать полностью »
Диалоги с кофеваркой, про Яндекс Алису и умный дом Home Assistant
2023-09-19 в 6:04, admin, рубрики: bluetooth, homeassistant, natural language processing, яндекс.станцияУмная кофемашина это одно из самых глупых устройств на рынке. Обычно, сразу после включения, в них есть стадия автоматической промывки. И ещё одна перед выключением. Это значит, что вы не можете оставить в кофемашине кружку и приготовить напиток удалённо.
Управление таким прибором с мобильного телефона также очень неудобно. Вам нужно иметь при себе телефон, разблокировать его, найти и запустить приложение, дождаться подключения, настроить напиток. На всё это могут уйти десятки секунд.
Сбер открывает доступ к нейросетевой модели ruGPT-3.5
2023-07-20 в 8:02, admin, рубрики: large language model, llm, natural language processing, nlp, open source, rugpt, ruGPT-3.5, sberdevices, Блог компании SberDevices, Блог компании Сбер, искусственный интеллект, Компьютерная лингвистика, языковые моделиДрузья, свершилось. Сегодня мы рады сообщить вам о релизе в открытый доступ нейросетевой модели, которая лежит в основе сервиса GigaChat.
Про то, что такое GigaChat и как мы его обучаем, вы можете прочитать в нашей предыдущей статьеЧитать полностью »