Рубрика «естественный язык»

Думаю, что уже почти все в курсе насчет GPT, но все же начну с небольшой справки.

GPT расшифровывается как Generative pretrained transformers. Это языковая нейросеть, обученная по технологии transformer. Описание технологии появилось в общем доступе в 2020 году. Кому интересно, ссылка здесь https://arxiv.org/abs/2005.14165Читать полностью »

Источник: https://commons.wikimedia.org/wiki/File:Edsger_Dijkstra_1994.jpg
Источник: https://commons.wikimedia.org/wiki/File:Edsger_Dijkstra_1994.jpg

От переводчиков. Хотя Эдсгер Дейкстра — одна из главных личностей в истории IT, эта его коротенькая публикация ранее не попадала на Хабр, да и сами мы узнали о ней лишь благодаря докладуЧитать полностью »

В последнее время часто попадаются на глаза статьи о новых языках программирования, а так же различные рейтинги и прогнозы, связанные с популярностью компьютерных языков.

Заявляют о себе и новые инструментальные средства, которые в своей работе используют собственные форматы описания конфигурационных файлов или последовательности выполняемых команд, которые так же очень сильно приближает их к понятию «язык программирования».

Цель написания данной статьи — формулировка ожиданий и возможной реализации абстрактного языка программирования, который может стать универсальным инструментом для общения между компьютером и человеком.
Читать полностью »

Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.

Новогодний датасет 2018: открытая семантика русского языка - 1
Читать полностью »

Существует несколько парсеров, подходящих для русского языка. Некоторые из них могут даже выполнять синтаксический анализ, как SyntaxNet, MaltParser и AOT:

Мама мыла раму пластиковых окон

… или выявлять факты, как Tomita.

Глядя на эти парсеры, я вижу какую-то огромную сложность вычислений, требования к памяти, лицензионные ограничения и… ограниченность каждого решения, увы.

Чтобы понять, что же там такого сложного, мне захотелось сделать собственный парсер. Благо выходные оказались длинными.
Читать полностью »

Новый год — время чудес и подарков. Главным чудом, которое подарила нам природа, безусловно является естественный язык и человеческая речь. А мы, в свою очередь, хотим сделать новогодний подарок всем исследователям этого феномена и поделиться датасетом по открытой семантике русского языка.

В статье мы позволим себе немного подискутировать на тему смыслов, расскажем как мы пришли к необходимости создания открытой семантической разметки, расскажем о настоящих результатах и будущих направлениях этой большой работы. И, конечно, дадим ссылку на датасет, который вы сможете скачать и использовать для своих экспериментов и исследований.Читать полностью »

Хороший виртуальный ассистент должен не только решать задачи пользователя, но и разумно отвечать на вопрос «Как дела?». Реплик без явной цели очень много, и заготовить ответ на каждую проблематично. Neural Conversational Models — сравнительно новый способ создания диалоговых систем для свободного общения. Его основа — сети, обученные на больших корпусах диалогов из интернета. Борис hr0nix Янгель рассказывает, чем хороши такие модели и как их нужно строить.

Под катом — расшифровка и основная часть слайдов.

Читать полностью »

Словарь Вильяма Шекспира составляет 12000 слов. Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина из книги «12 стульев» легко и свободно обходилась тридцатью.

Человек легко понимает Эллочку. Увы, компьютер скорее бы понял Шекспира, чем Эллочку. Нам хватит понять контекст и интонацию — остальное мы додумаем, — а компьютеру надо четкости в каждом термине. Желательно без синонимов. Чем больше образов скрыто за каждым словом, тем сложнее его понять. Контекстозависимость человеческих слов только одна из сложностей обучения искусственного интеллекта естественному языку. Если отличить съедобный лук от стреляющего лука можно при наличии полноты описания ситуации, то отрицание смысла иронией или риторические вопросы распознаются только по интонации. Дополнительную сложность создает синтаксис и порядок слов в предложении.

Игорь Мордач, сотрудник американской лаборатории искусственного интеллекта OpenAI, однако решил, что Эллочкин язык — далеко не тупиковый путь, а вполне подходящий пример, на котором боты выстроят язык для своего общения, а потом и нас поймут. Только и 30 слов для компьютерной Эллочки он пожалел. В его эксперименте компьютерная программа создавала язык «с нуля».

Эсперанто для роботов и агентов Смитов - 1
Читать полностью »

Стивен Вольфрам: Рубежи вычислительного мышления (отчёт с фестиваля SXSW) - 1

Перевод поста Стивена Вольфрама (Stephen Wolfram) "Frontiers of Computational Thinking: A SXSW Report".
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.


На прошлой неделе я выступал на SXSW Interactive 2015 в Остине, штат Техас. Вот несколько отредактированная стенограмма моего выступления:

Стивен Вольфрам: Рубежи вычислительного мышления (отчёт с фестиваля SXSW) - 2

Содержание

Наиболее продуктивный год
Язык Wolfram Language
Язык для реального мира
Философия Wolfram Language
Программы размером в один твит
Вычислительное мышление для детей
Ввод запросов на естественном языке
Масштабная идея: Символьное программирование
Язык для развёртывания
Автоматизация программирования
Масштабные программы
Интернет вещей
Машинное обучение
Исследования Вычисляемой Вселенной
Вычислять, подобно тому, как это делает мозг
Язык как символьное представление
Пост-лингвистические понятия
Древняя история
Чем будет заниматься искусственный интеллект?
Бессмертие и за его пределами
Коробка триллиона душ
Обратно в 2015 год
Читать полностью »

Ресурс MSFT Kitchen опубликовал видео с Microsoft TechFest, в котором продемонстрирована работа проекта Project Analyze исследовательского подразделения Microsoft Research. Суть проекта заключается в том, что работа с табличным процессором Excel производится не путём ввода формул и щёлкания по ячейкам, а при помощи команд, похожих на естественный английский язык.

Начиная с первой минуты видео (всего около 8 минут), демонстрируется в качестве примера финансовый документ с готовыми данными, в котором требуется получить ещё одно поле, складывая два последних — Base pay и Of pay. Обычный действия заключаются в том, что необходимо разместить курсор в нужной ячейке, ввести в неё формулу и «протащить» её до нужного диапазона. Вместо этого в поле для формулы вводится команда "add the base pay and of pay" и в итоге Excel заполняет поле, складывая указанные в «формуле» значения ячеек в указанных столбцах. Примерно также находится и сумма — командой "add up".

Далее показана работа команд, в которых легко угадываются foreach или некое подобие WHERE в SQL (вообще сильно похоже на SQL), что, в принципе, делает показанные примеры не вполне впечатляющими. Однако, оказывается системе можно задать и не вполне «стандартный» вопрос "who has a pay larger than average" (в итоге нужные поля Excel подсвечивает), что уже более похоже на обычную речь и выглядит более эффектно. К сожалению, на этом «естественные» вопросы более не показаны, так что о дальнейших особенностях системы можно только догадываться. Тем не менее, вероятно, будущие версии Excel (в Office 16)будут обладать некоторым подобием «естественного языка формул» или, возможно, неким подобием голосового управления, что в свете таких проектов как Siri выглядит уже вполне реально.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js