Словарь Вильяма Шекспира составляет 12000 слов. Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина из книги «12 стульев» легко и свободно обходилась тридцатью.
Человек легко понимает Эллочку. Увы, компьютер скорее бы понял Шекспира, чем Эллочку. Нам хватит понять контекст и интонацию — остальное мы додумаем, — а компьютеру надо четкости в каждом термине. Желательно без синонимов. Чем больше образов скрыто за каждым словом, тем сложнее его понять. Контекстозависимость человеческих слов только одна из сложностей обучения искусственного интеллекта естественному языку. Если отличить съедобный лук от стреляющего лука можно при наличии полноты описания ситуации, то отрицание смысла иронией или риторические вопросы распознаются только по интонации. Дополнительную сложность создает синтаксис и порядок слов в предложении.
Игорь Мордач, сотрудник американской лаборатории искусственного интеллекта OpenAI, однако решил, что Эллочкин язык — далеко не тупиковый путь, а вполне подходящий пример, на котором боты выстроят язык для своего общения, а потом и нас поймут. Только и 30 слов для компьютерной Эллочки он пожалел. В его эксперименте компьютерная программа создавала язык «с нуля».