Рубрика «Семантика» - 5

Слово лингвисту: что если компьютеры заговорят лучше нас

2018-07-02 в 12:20, admin, рубрики: искусственный интеллект, китайская комната, Компьютерная лингвистика, машинные переводы, Семантика

Слово лингвисту: что если компьютеры заговорят лучше нас - 1
Фото: Александр Корольков/РГ

3 июня, в заключительный день Московского книжного фестиваля на Красной площади, лингвист Александр Пиперски выступал с рассказом о компьютерной лингвистике. Он говорил о машинных переводах, нейросетях, векторном отображении слов и поднимал вопросы границ искусственного интеллекта.

Лекцию слушали разные люди. Справа от меня, например, клевала носом китайская туристка. Александр, наверняка, тоже понимал — пара лишних цифр, формул и слов об алгоритмах, и люди убегут в соседнюю палатку слушать фантастов.

Я попросил Александра подготовить для Хабра «режиссерскую версию» лекции, где не вырезано ничего, что может усыпить случайных туристов. Ведь больше всего выступлению не хватало аудитории с толковыми вопросами и вообще хорошей дискуссии. Думаю, здесь мы ее сможем развить.
Читать полностью »

Теория большой свалки: ищем научные документы на просторах интернета

2018-06-06 в 10:34, admin, рубрики: анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, обработка текста, поисковые технологии, Семантика, тематическое моделирование

Система «Антиплагиат» – это специализированный поисковик. Как и положено поисковику, с собственным движком и поисковыми индексами. Самый большой наш индекс по количеству источников – конечно же, у русскоязычного интернета. Довольно давно мы решили, что будем помещать в этот индекс все, что является именно текстом (а не картинкой, музыкой или видео), написано на русском языке, имеет размер больше 1 кб и не является «почти-дубликатом» чего-то, что уже есть в индексе.

Такой подход хорош тем, что он не требует сложных предварительных обработок и минимизирует риски «выплеснуть с водой ребенка» – пропустить документ, из которого потенциально может быть заимствован текст. С другой стороны, в результате мы мало знаем, какие именно документы находятся в итоге в индексе.

По мере роста интернет-индекса – а сейчас, на секундочку, это уже более 300 млн документов только лишь на русском языке – возникает вполне естественный вопрос: а много ли в этой свалке действительно полезных документов.

И раз уж мы (yury_chekhovich и Andrey_Khazov) занялись такой рефлексией, то почему бы нам заодно не ответить еще на несколько вопросов. Сколько проиндексировано научных документов, а сколько ненаучных? Какую долю среди научных статей занимают дипломы, статьи, авторефераты? Каково распределение документов по тематикам?

Теория большой свалки: ищем научные документы на просторах интернета - 1

Так как речь идет о сотнях миллионов документов, то необходимо использовать средства автоматического анализа данных, в частности, технологии машинного обучения. Конечно, в большинстве случаев качество экспертной оценки превосходит машинные методы, но привлекать человеческие ресурсы для решения столь обширной задачи оказалось бы слишком дорогим удовольствием.
Читать полностью »

Как создать своего бота без навыков программирования и подключить его к Яндекс.Алисе

2018-05-29 в 14:41, admin, рубрики: AI, conversational, just ai, nlu, алиса, Блог компании Just AI, ИИ, искусственный интеллект, разговорный ИИ, Семантика, умные устройства, чатботы, яндекс

Как мы уже писали в своей первой статье, мы в Just AI специализируемся на технологиях искусственного интеллекта для понимания естественного языка (NLU). У нас есть своя платформа для разработки разговорных ассистентов, как текстовых, так и голосовых. Платформа имеет развитую функциональность для решения NLP-задач (кластеризация логов, поиск семантически близких фраз и др.) и собственный язык разработки (Just AI DSL). С использованием DSL команда лингвистов-разработчиков пишет код сценариев чатботов, интеграционные модули для связи с внешними системами, а также автотесты.

В этой статье мы расскажем о созданном нами инструменте для разработки ботов под разные платформы, в том числе для Яндекс Диалогов, без знания DSL и навыков программирования.
Читать полностью »

Разговорный AI: как работают чат-боты и кто их делает

2018-05-28 в 9:20, admin, рубрики: AI, conversational ai, just ai, nlu, Алгоритмы, Блог компании Just AI, искусственный интеллект, машинное обучение, разговорный ИИ, Семантика, умные устройства, чатботы

Чатботы и искусственный интеллект для понимания естественного языка (NLU – Natural Language Understanding) тема достаточно горячая, про нее не раз говорилось на Хабре. Тем не менее достаточно редко попадаются верхнеуровневые и структурированные обзоры этих технологий и рынка в целом. В своей статье мы попробуем немного разобраться, чем обусловлен спрос на эти технологии, как выглядит современная диалоговая платформа для NLU, какие компании и разработки присутствуют на этом рынке.

Читать полностью »

Информационные системы с понятийными моделями. Часть вторая

2018-05-24 в 8:02, admin, рубрики: абстракции понятий, Анализ и проектирование систем, база знаний, Блог компании ГК ЛАНИТ, информационная система, Ланит, математика, понятийная модель, понятийная структура, предметная область, репрезентация знаний, Семантика

В первой части статьи мы начали разговор о новом классе высокоуровневых моделей предметной области, названных понятийными. В отличие от других аналогичных моделей в понятийных моделях связи между понятиями сами являются понятиями, а модель строится на основе выявления и описания абстракций, послуживших образованию (определению) понятий предметной области. Это позволяет конечным пользователям строить и актуализировать модели предметной области путем простых и естественных операций создания, изменения и удаления понятий и их сущностей.

Здесь, во второй части, поговорим о том, как может быть реализована полнофункциональная информационная система, основанная на понятийном моделировании предметных областей. Теперь уже в деталях рассмотрим информационную систему LANCAD, которую в нашей компании “ИНСИСТЕМС” используют для организации проектной деятельности в области разработки проектно-сметной документации для строительства.

Возможно, статья выглядит несколько затянутой и кажется излишне подробной. Однако оно того стоит, так как требуется объяснить достаточно нетривиальные основы нашего решения.

Следует заметить, что появление информационной системы LANCAD стало результатом реализации нескольких крупных проектов компании.

Информационные системы с понятийными моделями. Часть вторая - 1

Читать полностью »

Исправление опечаток, взгляд сбоку

2018-05-23 в 6:18, admin, рубрики: data mining, misspellings, nlp, python, word embedding, Блог компании Singularis, машинное обучение, обработка естественного языка, Семантика

Мы поговорим об использовании модных «Word embedding» не совсем по назначению — а именно для исправления опечаток (строго говоря, и ошибок тоже, но мы предполагаем, что люди грамотные и опечатываются). На хабре была довольно близкая статья, но здесь будет немного о другом.

Исправление опечаток, взгляд сбоку - 1
Визуализация Word2Vec модели, полученная студентом. Обучалась на «Властелине колец». Явно что-то на черном наречии.
Читать полностью »

Информационные системы с понятийными моделями. Часть первая

2018-05-22 в 8:03, admin, рубрики: абстракции понятий, Анализ и проектирование систем, база знаний, Блог компании ГК ЛАНИТ, информационная система, Ланит, математика, понятийная модель, понятийная структура, предметная область, репрезентация знаний, Семантика

Внедряя современные информационные системы, крупные компании рассчитывают быстрее принимать решения, обнаруживать скрытые для бизнеса резервы и возможности, анализировать накопленный опыт и выстраивать прогнозы на основе выявленных закономерностей. Однако реальная отдача от информационных систем часто оказывается значительно ниже, а сроки внедрения и затраты – выше ожидаемых. Причин может быть великое множество, в том числе и связанных с неэффективным управлением, человеческим фактором, устарелой инфраструктурой.

Существенные недостатки есть и у самих информационных систем. В этой статье я предлагаю поговорить не о традиционных – трёхслойных – АИС, а о системах с четырехслойной архитектурой, где новый четвертый слой – слой представления – реализует понятийную модель предметной области. Для актуализации модели при изменениях в предметной области не требуется программировать. Более того, как актуализация модели, так и прикладные задачи решаются посредством семантически инвариантных для всех предметных областей операций над сущностями понятий.

В итоге удается улучшить вычислительные, технологические и эксплуатационные характеристики информационных систем с понятийными моделями предметной области. Но об этом далее.

Информационные системы с понятийными моделями. Часть первая - 1

Читать полностью »

Почему нам кажется, что объекты реальны?

2018-05-13 в 13:01, admin, рубрики: Анализ и проектирование систем, аналитика, бизнес-модели, математика, Семантика

Представление о пространстве и времени (пространство)

В построении представления о пространстве и времени участвует наше представление о самом себе как о наблюдателе. Мы представляем себя как наблюдателя, который осознает свое положение в Абсолютном пространстве и синхронизирован с Абсолютным временем, определяет размеры изучаемых объектов и длительности изучаемых интервалов времени. При этом пространственные размеры и временные интервалы, которые человек способен распознать, лежат в довольно узких интервалах, за пределами которых человеческое восприятие бессильно что-либо воспринять. Чтобы шагнуть в другой масштаб времени или пространства, требуется воображение.

Пространство

Допустим, вы выглянули в окно. В вашем сознании возникло представление о наблюдаемом пространстве. Это пространство наблюдается вами изнутри и содержит части, каждой из которых присвоено имя. Например: небо, дом, улица и тд. Вы направляете свое внимание внутрь этого пространства, находите в нем объекты, определяете их взаимное положение, складывая их в одну большую мозаику. Чтобы мозаика склеилась, мы пользуемся гипотезой о том, что существует Абсолютное пространство. Тогда мы можем предположить, что любое осознаваемое нами пространство — есть часть Абсолютного пространства. Таким образом, мы считаем, что любое осознаваемое нами пространство — это представление о какой-то части Абсолютного пространстве.

Читать полностью »

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

2018-04-24 в 8:07, admin, рубрики: алгоритмы поиска, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, машинный перевод, поисковые технологии, Семантика, хэш-функция, шинглы

В нашей первой статье в корпоративном блоге компании Антиплагиат на Хабре я решил рассказать о том, как работает алгоритм поиска переводных заимствований. Несколько лет назад возникла идея сделать инструмент для обнаружения в русскоязычных текстах переведенного и заимствованного текста из оригинала на английском языке. При этом важно, чтобы этот инструмент мог работать с базой источников в миллиарды текстов и выдерживать обычную пиковую нагрузку Антиплагиата (200-300 текстов в минуту).

Трудности перевода: как найти плагиат с английского языка в русских научных статьях - 1 "

В течение 12 лет своей работы сервис Антиплагиат обнаруживал заимствования в рамках одного языка. То есть, если пользователь загружал на проверку текст на русском, то мы искали в русскоязычных источниках, если на английском, то в англоязычных и т. д. В этой статье я расскажу об алгоритме, разработанном нами для обнаружения переводного плагиата, и о том, какие случаи переводного плагиата удалось найти, опробовав это решение на базе русскоязычных научных статей.Читать полностью »

Применение сверточных нейронных сетей для задач NLP

2018-04-10 в 11:00, admin, рубрики: classification, convolutional neural network, data mining, neural networks, python, text mining, Блог компании Open Data Science, машинное обучение, Семантика

Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в ней важные особенности. Но, как оказалось, CNN хороши не только для этого, но и для задач NLP. Более того, в недавно вышедшей статье [1] от коллектива авторов из Intel и Carnegie-Mellon University, утверждается, что они подходят для этого даже лучше RNN, которые безраздельно властвовали областью на протяжении последних лет.

Сверточные нейронные сети

Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:

Источник
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 5

Слово лингвисту: что если компьютеры заговорят лучше нас

Теория большой свалки: ищем научные документы на просторах интернета

Как создать своего бота без навыков программирования и подключить его к Яндекс.Алисе

Разговорный AI: как работают чат-боты и кто их делает

Информационные системы с понятийными моделями. Часть вторая

Исправление опечаток, взгляд сбоку

Информационные системы с понятийными моделями. Часть первая

Почему нам кажется, что объекты реальны?

Представление о пространстве и времени (пространство)

Пространство

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

Применение сверточных нейронных сетей для задач NLP

Сверточные нейронные сети

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 5

Представление о пространстве и времени (пространство)

Пространство

Сверточные нейронные сети

Новости

Актуальные темы

Архив