Как часто сейчас в ИТ сообществе можно услышать про невероятные успехи LLM моделей? ИИ написал диссертацию за 30 минут, ИИ пишет программы на уровне middle разработчика, ИИ диагностирует болезнь с точностью 99.99999% и много много других впечатляющих заголовков пестрят на сотнях сайтов. И это не говоря о том, что создатели таких ИИ моделей заявляют, что через 2-3 года ИИ станет умнее человека чуть ли не в каждой сфере жизни
А так ли это? Давайте поищем парочку не совсем хитрых, но интересных задач, с которыми может справиться даже ребенок (немного подумав, конечно), но не может справиться современный ИИ.
Все тесты будут проводиться на моделях, которые обучены “размышлять” (умеют в Chain-of-Thoughts - цепочки рассуждений). А именно в качестве испытуемых будет: GPT o1 (использовал телеграм ботов, так как так легче и быстрее получить доступ к модели), DeepSeek R1 (недавно выпущена, но показывает хорошие резулататы), QwenLM (модель вышла не так давно, но тоже достойно себя показывает судя по тестам)
Задача 1 (оригинал)
Шел муж с женой, брат с сестрой да шурин с зятем. Сколько всего человек?
Модель 1: DeepSeek R1 
Ответ модели DeepSeek R1
Всего шло 3 человека. Это муж, его жена (которая также является сестрой) и брат жены (шурин). Здесь:
Муж и жена — супружеская пара.
Брат (шурин) и сестра (жена) — родственные связи.
Шурин (брат жены) и зять (муж жены) — зятем для шурина является муж, так как он женат на его сестре.
Таким образом, все три роли покрываются тремя людьми: муж, жена и её брат.

Модель 2: QwenLM 
Ответ модели QwenLM
Таким образом, пять человек:
-
Муж
-
Жена
-
Брат жены (шурин)
-
Сестра жены
-
Зять (муж сестры жены)
Это seems logical and consistent.
Так что ответ должен быть пять человек.
Но давайте проверим еще раз.
Если зять - это муж дочери жены, тогда нужно учитывать дочь жены.
Но в задаче не упоминается дочь жены, поэтому возможно, что зять - это муж сестры жены.
Тогда пять человек.
Альтернативно, если зять - это муж сестры мужа, тогда это another person.
Но это becomes too complicated.
Думаю, что пять человек - это correct answer.
Final Answer 5

Модель 3: GPT o1 
Ответ модели GPT o1
Таким образом, все роли выполняются тремя людьми:
1. Человек 1 — Муж и зять.
2. Человек 2 — Жена и сестра.
3. Человек 3 — Брат и шурин.
Ответ: 3 человека.
---
Пояснение:
- Муж с женой — это Человек 1 и Человек 2.
- Брат с сестрой — это Человек 3 (брат) и Человек 2 (сестра).
- Шурин с зятем — это Человек 3 (шурин для Человека 1) и Человек 1 (зять для Человека 3).
Таким образом, все роли выполняются тремя людьми, без необходимости вводить дополнительных участников.

В целом, результаты DeepSeek R1 и GPT o1 хорошие, они смогли справиться с такой простой задачкой. Однако QwenLM почему-то подкачала, хотя в интернете можно найти бенчмарки этой модели, где она себя показывала очень даже достойно. Что еще забавно - это то что модели зачастую не дают ответ на русском, а смешивают языки: английский, русский, китайский (даже в моментах, когда просишь объяснить на русском)
Задача 1 (меняем немного условие)
А теперь давайте заменим “шурин” и “зять” на “невестку” и “золовку”. Для человека не трудно понять, что и первая задача и вторая абсолютно идентичны по структуре, в них лишь меняются немного роли людей в семье и всё
Шел муж с женой, брат с сестрой да невестка с золовкой. Сколько всего человек?
Модель 1: DeepSeek R1 
Ответ модели DeepSeek R1
Ответ: Всего 4 человека.
Объяснение:
Муж (М) и жена (Ж) — супружеская пара.
Брат жены (БЖ) и сестра мужа (З) — ещё одна пара, которые также могут быть мужем и женой.
Золовка — это сестра мужа (З), а невестка — жена брата жены (Н). Если брат жены (БЖ) женат на сестре мужа (З), то З одновременно является и золовкой (сестрой мужа), и невесткой (женой брата жены).
Таким образом, участники:
Муж (М),
Жена (Ж),
Брат жены (БЖ),
Сестра мужа (З).
Пары:
Муж и жена.
Брат жены и сестра мужа (БЖ и З).
Золовка (З) и невестка (З, так как она жена брата жены).
Хотя золовка и невестка формально одна и та же женщина, в загадке учитываются роли, а не отдельные люди. Итог: 4 человека.

Модель 2: QwenLM 
Ответ модели QwenLM
Альтернативно, если брат В является также сыном А, тогда золовка — жена В, Д, и невестка — также жена В, Д.
Тогда золовка и невестка — одно и то же person, Д.
Так что, people: А, Б, В, Г, Д.
Пять people.
Это sounds more likely.
Так что, ответ — пять.
Final Answer 5

Модель 3: GPT o1 
Ответ модели GPT o1
В этом выражении можно выделить 5 человек:
-
Муж
-
Жена
-
Брат
-
Сестра
-
Невестка
-
Золовка
Невестка – это жена брата, а золовка – это сестра мужа. По сути, это всё один и тот же круг людей, и имеется в виду, что:
-
Муж и жена – это одна пара.
-
Брат и сестра – это другая пара.
-
Невестка (жена брата) и золовка (сестра мужа) относятся к тем же самым людям.
Таким образом, в данной задаче всего 4 уникальных человека: муж, жена, брат и сестра.

В интернете можно найти первую интерпретацию задачи, где сказано именно про шурина и зятя, поэтому легко сделать вывод, что ИИ модели просто выучили первую задачу, а вот когда им попадаются новые понятия, они не могут выстроить ответ, так как нигде раньше ничего подобного не видели, а сами они не способны понять, кто к кому и как относится в родственных связях. Очень жаль, что модели, которые решают очень сложные математические задачи и которые способны писать код на уровне новичка-программиста, допускают ошибки и не могут понять таких простых вещей
Задача 2 (оригинал)
В двух кошельках лежат 4 монеты, причём в одном кошельке монет вдвое больше, чем в другом. Как такое возможно?
Модель 1: DeepSeek R1 
Ответ модели DeepSeek R1
Один кошелёк вложен в другой. Во внутреннем кошельке лежат 2 монеты, а внешний кошелёк содержит эти 2 монеты плюс ещё 2 своих. Таким образом, во внешнем кошельке оказывается 4 монеты, что вдвое больше, чем во внутреннем (2 монеты). Общее количество монет — 4, так как монеты внутреннего кошелька уже учтены в подсчёте внешнего.
Ответ: Один кошелёк вложен в другой. Во внешнем кошельке 4 монеты (включая 2 монеты из внутреннего кошелька), а во внутреннем — 2 монеты.

Модель 2: QwenLM 
Ответ модели QwenLM
Может быть, нужно принять, что в одном кошельке 1 монета, а в другом 3 монеты, и сказать, что 3 монеты втрое больше 1 монеты, что больше, чем вдвое.
Но это не точно соответствует условию.
Видимо, задача не имеет решения в целых числах, и ответ состоит в том, что такое распределение невозможно.
Может быть, это задача на то, чтобы понять, что такое распределение невозможно в целых числах.
Так что ответ: такое распределение невозможно.
Final Answer Такое распределение невозможно.

Модель 3: GPT o1 
А вот от кого, так от GPT o1 меньше всего ожидал неверного ответа, так как эта модель была первой и остается одной из лидирующих. Еще и ответ дала на английском языке, хотя просил писал на русском
Ответ модели GPT o1
The solution lies in understanding the way comparative expressions are sometimes used. In the problem, the phrase "вдвое больше, чем в другом" can be interpreted in two ways:
1. Twice as many: This would imply that one purse has double the number of coins in the other. Mathematically, if one purse has *x* coins, the other has *2x* coins. However, with a total of 4 coins, this doesn't yield integer solutions because it leads to fractions:
- Let *x* be the number of coins in the smaller purse.
- Then, the larger purse has *2x* coins.
- Total coins: *x + 2x = 3x = 4* ⇒ *x = 4/3*, which is not an integer.
2. Twice more than: This can be interpreted to mean that one purse has two times more coins than the other, which is equivalent to three times as many coins. Mathematically, this means one purse has *x* coins, and the other has *x + 2x = 3x* coins.
- Let *x* be the number of coins in the smaller purse.
- The larger purse has *3x* coins.
- Total coins: *x + 3x = 4x = 4* ⇒ *x = 1*, so the smaller purse has 1 coin, and the larger purse has 3 coins.
Therefore, one purse contains 3 coins, and the other contains 1 coin. The larger purse has "twice more coins" than the smaller one because 3 is two times more than 1 (since 3 = 1 + 2×1).
Answer: Because one purse has 3 coins and the other has 1—for a total of 4—and 3 coins are twice more than 1 coin.

Задача уже вызывает сложности у некоторых моделей. Неожиданно для меня лично модель GPT o1 ответила неверно, причем её ответ оказался очень сильно нелогичным. Даже модель QwenLM (на которую я делал меньше всего ставку) решила, что так распределить монеты нельзя (это хотя бы не выглядит абсурдно)
Но давайте усложним задачу буквально 2 незначительными пунктами:
-
укажем, что у нас уже не кошельки, а коробки;
-
скажем LLM информацию, что одна коробка в 3 раза больше другой
В целом для человека ничего не поменялось: есть емкость с монетами и одна находится внутри другой, а размеры их так вообще роли не играют
Задача 2 (меняем немного условие)
В двух коробках лежат 4 монеты, причём в одной коробке монет вдвое больше, чем в другой. А еще одна коробка в 3 раза больше другой. Как такое возможно?
Модель 1: DeepSeek R1 
Ответ модели DeepSeek R1
Это возможно, если есть три коробки:
В первой коробке 1 монета.
Во второй коробке 2 монеты (вдвое больше первой).
В третьей коробке 3 монеты (в три раза больше первой).
При этом в двух коробках (первой и третьей) суммарно лежат 1+3=4 монеты. Таким образом, выполняются оба условия:
Вторая коробка содержит вдвое больше монет, чем первая.
Третья коробка содержит в три раза больше монет, чем первая.
Итог:
Коробка A: 1 монета.
Коробка B: 2 монеты (A × 2)
Коробка C: 3 монеты (A × 3)
В коробках A и C вместе — 4 монеты.

Мало того что размышление у модели заняло почти 12 страниц в ворде (14 шрифтом Arial), так еще и откуда-то появилась 3 коробка, которой в условии не было. Модель повела себя странно, учитывая, что на прошлую задачу она потратила буквально 1 страницу размышлений
Модель 2: QwenLM 
Ответ модели QwenLM
Поэтому, похоже, что задача не имеет решения с целыми числами.
Может быть, задача задумана с дробными значениями, и ответ должен быть в дробных монетах.
Но это необычно.
Или может быть, что задача имеет решение только в дробных значениях, и это故意的, чтобы показать, что иногда математические модели не соответствуют реальности.
В любом случае, основываясь на вышеизложенных рассуждениях, можно заключить, что задача не имеет решения с целыми значениями монет, и любое решение будет содержать дробные значения.
Итоговое решение Задача не имеет решения с целыми значениями монет.

Модель 3: GPT o1 
Ответ модели GPT o1
В одной коробке лежит 1 монета, а в другой — 3 монеты (в сумме получается 4 монеты). Таким образом:
- В одной коробке монет вдвое больше, чем в другой, если понимать это как "на две монеты больше" (3 монеты против 1 монеты).
- Коробка с 3 монетами в 3 раза больше коробки с 1 монетой по размеру.
Поэтому такое распределение монет и размеров коробок возможно.

Заключение
Почему так происходит? LLM не способны мыслить конкретными объектами, они не способным воспринимать объекты с их свойствами: размерами, объемами, массами, и уж тем более не способны понимать и выстраивать внутри отношения одних объектов с другими
Для человека легко понять, что монеты зачастую бывают маленькие и легко могут поместиться в коробку, а одну коробку в другую вставить легче простого, если сказано, что одна в 3 раза больше другой - но всё это не свойственно для LLM
И что же дальше? А дальше есть 2 пути развития решения подобных проблем:
-
обучение LLM на еще большем объеме данных, которые будут покрывать ВСЕ возможные варианты интерпретаций разных задач - но для этого у человечества просто не хватит ни времени, ни ресурсов;
-
уход от парадигмы LLM и нейросетей в другие парадигмы, где мир для “ИИ” будет состоять из объектов и взаимосвязей, а не обучающих токенов
Автор: daniilgorbenko