Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных.
Рубрика «named entity recognition»
Путь разметки данных для NER: от Open Source до Prodigy
2024-11-09 в 20:15, admin, рубрики: annotation processing, artificial intelligence, named entity recognition, natural language processing, prodigy, spacy, искусственный интеллект, машинное обучениеКак мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет
2022-06-07 в 14:49, admin, рубрики: chatbots, classification, data processing, data science, deep learning, machine learning, named entity recognition, natural language processing, python, telemedicine, Блог компании MTS AI, искусственный интеллект, машинное обучениеПривет,
Что новенького по сущностям? Новости последней конференции EMNLP
2022-03-01 в 7:53, admin, рубрики: data mining, domclick, EMNLP2021, named entity recognition, natural language processing, relation extraction, Блог компании ДомКликВ ноябре 2021 проходила конференция EMNLPЧитать полностью »
Сравниваем работу open source Python — библиотек для распознавания именованных сущностей
2020-05-17 в 10:20, admin, рубрики: named entity recognition, natural language processing, nlp (natural language processing), open source, pythonВведение
Мы в компании создаем сервис, который позволяет автоматически создавать, управлять и безопасно хранить лицензионные соглашения и прочие договоры между фрилансерами и их клиентами.
Для решения это задачи я опробовал десятки решений в области обработки естественного языка, в том числе решения с открытым кодом и хотел бы поделиться опытом работы с open source Python — библиотеками для распознавания именованных сущностей.
Распознавание именованных сущностей
Несколько слов о самой проблеме. Named Entity Recognition (NER) — это направление технологии обработки человеческого языка, программная реализация которой позволяет находить в речи и тексте опредмеченные категории слов и словосочетаний. Сначала это были географические наименования, имена людей, организаций, адреса, однако в настоящее время это понятие сильной расширилось и с помощью NER мы ищем в тексте относительные и абсолютные даты, числа, номера и т.д.
Выявление именованных сущностей — это «ворота» в человеческий язык, оно позволяет выявлять и обрабатывать намерения человека, устанавливать связи слов в его речи и реальным миром.