Здравствуйте, меня зовут Дмитрий Карловский и все свои статьи (и презентации) пишу я в MarkDownЧитать полностью »
Рубрика «Семантика» - 2
MarkedText — маркдаун здорового человека
2021-01-08 в 8:58, admin, рубрики: html, markdown, usability, велосипедостроение, Проектирование и рефакторинг, Семантика, Совершенный код, языки разметкиТеория здравомыслия
2020-12-26 в 19:28, admin, рубрики: здоровье, Коржибски, общая семантика, психология, Семантика, структурный дифференциалКак мыслить и действовать адекватно ситуации, избавиться от инфантилизма и не наступать на одни и те же "грабли"? Эта статья может стать отправной точкой для получения навыков усвоения материала почти любой сложности.
Общая семантика включает в себя метод, помогающий достигать надлежащих оценочных реакций, что способствует психическому здоровью. Ее основы заложил А. Коржибски и определил ее как общую теорию оценки фактов, отношений ощущений и т.д. с точки зрения того, как действительно происходят оценочные реакции.
Интернациональное программирование на естественных языках
2020-12-05 в 9:26, admin, рубрики: natural language processing, естественный язык, ненормальное программирование, новый язык программирования, Программирование, разработка языков программирования, Семантика, Совершенный кодВ последнее время часто попадаются на глаза статьи о новых языках программирования, а так же различные рейтинги и прогнозы, связанные с популярностью компьютерных языков.
Заявляют о себе и новые инструментальные средства, которые в своей работе используют собственные форматы описания конфигурационных файлов или последовательности выполняемых команд, которые так же очень сильно приближает их к понятию «язык программирования».
Цель написания данной статьи — формулировка ожиданий и возможной реализации абстрактного языка программирования, который может стать универсальным инструментом для общения между компьютером и человеком.
Читать полностью »
Самоучитель клингонского
2020-06-23 в 10:05, admin, рубрики: natural language processing, автокодировщик, Алгоритмы, анализ данных, анализ текста, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, машинный перевод, обработка текста, обучение без учителя, СемантикаПару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?
Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».
Источник картинки: Собственное творчество от команды Антиплагиата
А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».
Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей
2020-06-10 в 9:00, admin, рубрики: BERT, deep learning, natural language processing, nlp, transfer learning, Алгоритмы, Блог компании Сбербанк, искусственный интеллект, лидерборд, машинное обучение, нейронные сети, обработка текстов, русский язык, Семантика, славянская группа языков, управление проектами, языкиЧтобы машины могли обрабатывать текст на русском и «понимать» его, в NLP используются универсальные языковые модели и трансформеры — BERT, RoBERTa, XLNet и другие — архитектуры от 100 миллионов параметров, обученные на миллиардах слов. Все оригинальные модели появляются обычно для английского, показывают state-of-the-art в какой-нибудь прикладной задаче и только спустя полгода-год появляются и для русского языка, без тюнинга архитектуры.
Чтобы корректнее обучать свою модель для русского или другого языка и адаптировать её, хорошо бы иметь какие-то объективные метрики. Их существует не так много, а для нашей локали и вовсе не было. Но мы их сделали, чтобы продолжить развитие русских моделей для общей задачи General Language Understanding.
Мы — это команда AGI NLP Сбербанка, лаборатория Noah’s Ark Huawei и факультет компьютерных наук ВШЭ. Проект Russian SuperGLUE — это набор тестов на «понимание» текста и постоянный лидерборд трансформеров для русского языка.
Читать полностью »
Миф семантического веба
2020-05-18 в 18:29, admin, рубрики: rdf, semantic web, граф знаний, Исследования и прогнозы в IT, Семантика, семантический webВ сфере семантического моделирования сложилась довольно странная ситуация: в качестве базовых используется набор стандартов и спецификаций от W3C, заточенных под проект “семантического веба” (RDF/OWL, SPARQL и пр.), хотя сам проект не только не реализован на данный момент, но и, по всей видимости, никогда не будет воплощен вследствие сомнительности исходных гипотез.Читать полностью »
Метод нечеткой индукции и его применение для моделирования знаний и информационных систем
2020-02-29 в 19:04, admin, рубрики: базы знаний, дробная размерность, информационные системы, математика, модульная системная архитектура, нечеткая математика, нечеткие множества, принцип неполноты Гёделя, рекурсия, Семантика, сжатие данных, сценарии использования, сценарии тестирования, теория фракталов, Тестирование IT-системВ настоящей статье предложен разработанный автором метод нечеткой индукции как объединение положений нечеткой математики и теории фракталов, введено понятие степени рекурсии нечеткого множества, представлено описание неполной рекурсии множества как его дробной размерности для моделирования предметной области. В качестве сферы применения предлагаемого метода и созданных на его основе моделей знаний как нечетких множеств рассмотрено управление жизненным циклом информационных систем, включая разработку сценариев использования и тестирования программного обеспечения. Читать полностью »
Граф знаний в Поиске: построение из нескольких источников
2020-02-27 в 12:16, admin, рубрики: mail.ru, Алгоритмы, Блог компании Mail.Ru Group, граф знаний, поиск, поисковые технологии, Семантика
Я хочу рассказать о том, что такое граф знаний и об одном из способов его построения из нескольких тематических источников.
Большое количество запросов в поиске содержат единственную сущность — объект, про который спрашивает пользователь. Это могут быть запросы про каких-то людей, фильмы, сериалы, музыкальные или географические объекты. Когда пользователь задает такой запрос, в выдаче ему можно показать дополнительную информационную карточку в надежде, что информация в карточке будет интересна пользователю. Карточки украшают выдачу и повышают ее наглядность. С помощью информационных карточек мы даём человеку понять, что он пользуется интеллектуальным сервисом, потому что поисковая система поняла, что он имел в виду, о каком именно объекте спрашивал. Более того, эту интеллектуальность можно расширить, отвечая на запрос пользователя прямо на странице выдачи. Например, в ответ на «что посмотреть в Праге» мы можем сразу показать достопримечательности этого города.
Читать полностью »
Null проблема в Data Science и Machine Learning
2020-02-17 в 2:40, admin, рубрики: data engineering, data science, machine learning, NaN, natural language processing, None, null, Алгоритмы, машинное обучение, СемантикаСуществующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.
XML практически всегда применяется не по назначению
2019-11-12 в 8:54, admin, рубрики: XML, Блог компании Mail.Ru Group, никто не читает теги, Разработка веб-сайтов, Семантика, хранение данныхЯзык XML был изобретен в 1996 году. Едва он успел появиться, как возможности его применения уже начали понимать неправильно, и для тех целей, к которым его пытались адаптировать, он был не лучшим выбором.
Не будет преувеличением сказать, что подавляющее большинство схем XML, которые мне доводилось видеть, представляли собой нецелесообразное или неправильное использование XML. Более того, такое применение XML свидетельствовало о фундаментальном непонимании того, чем прежде всего является XML.
XML — это язык разметки. Это не формат данных. В большинстве схем XML это разграничение явно не учитывали, путая XML с форматом данных, что в итоге означало ошибку в самом выборе XML, поскольку на самом деле нужен был именно формат данных.
Читать полностью »