Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год

2025-01-19 в 16:15, admin, рубрики: chatgpt, GigaChat, задачи на смекалку

Есть простая задачка: Масса арбуза – 1 кг. Из него выпарили 90% воды. Какая масса арбуза после выпаривания?

Если интересно, попробуйте решить самостоятельно, не используя интернет и другие подсказки – так результат будет честным :-)

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 1

Всё коварство в том, что на первый взгляд это типичная задача для средней школы на проценты. И решений на такие задачи в интернете очень много. Но в данном случае у нас недостаточно данных для получения числового ответа. Мы можем прямо это и указать как решение. Или дать ответ в общем виде – в виде формулы и ее объяснения.

Языковые модели, такие как ChatGPT или GigaChat, обучаются на информации из интернета. Мне стало интересно: а хватит ли логики у нейросетей, чтобы понять, что данная задача решается немного по-особенному. Эта мысль пришла мне в середине 2024 года, и я задала эту задачку нейросетям, которыми пользуюсь в работе.

Заранее скажу, что не являюсь экспертом в области нейросетей и логики, я рядовой пользователь.

Результаты, полученные в 2024 году

1) ChatGPT 4o

С первой попытки ChatGPT 4o не справился. Он воспринял 90% не только как массу выпаренной воды, но и как массу воды в арбузе. После уточняющих вопросов он смог дать ответ, который можно считать корректным.

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 2

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 3

2) GigaChat в Telegram

GigaChat можно использовать как в Telegram, так и в браузере, но мне привычнее именно в чате. С первой попытки GigaChat выдал очень неожиданный ответ – 51 кг, и привёл странные доводы. При попытке навести на правильную мысль так и не смог выдать ответ в общем виде.

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 4

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 5

Результаты, полученные в январе 2025 года

С начала декабря 2024 я начала периодически пользоваться в работе новой моделью ChatGPT o1. И мне стало интересно – сможет ли она справиться с той самой задачей про арбуз.

1) Новая модель ChatGPT o1

С первой попытки ChatGPT o1 выдал корректное решение. Да, ответ был числовым, но он написал "Предположим", а в конце четко указал, что мы не можем получить однозначный ответ. Так что, думаю, можно считать, что о1 справился с задачей.

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 6

2) GigaChat в Telegram

С первой попытки GigaChat не справился, но при уточнении смог дать правильный ответ. Правда, достаточно странно выглядит то, как он добавляет символы $ и cdot, но я не буду считать это за ошибку, ведь он старался.

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 7

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 8

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 9

3) ChatGPT 4o

С первой попытки снова не справился. После уточнения выдал корректный ответ.

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 10

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 11

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 12

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 13

И так, победитель – ChatGPT о1

Задача про арбуз, «ломающая» нейросети, или развитие логики у языковых моделей за год - 14

Второе место занимает GigaChat. Хоть он и не смог решить задачу, но показал улучшение результатов относительно прошлого года.

ChatGPT 4о – не показал улучшения результатов, поэтому третье место. Хотя улучшений, наверное, ожидать не стоило, так как вышла модель о1.

Мне также стало интересно: многие ли люди смогут решить данную задачу. Большинство моих знакомых справились, хотя сначала по много раз переспрашивали условие. Некоторые все же давали числовой ответ, это было либо 0.1, либо 0.19. Так что, задачкой можно сломать не только нейросеть.

Небольшой итог всего этого эксперимента: нейросети стремительно развиваются и учатся обрабатывать информацию логически, почти так же, как это делает человек. Интересно будет понаблюдать за тем, какими они станут через полгода и год.

Автор: fren29

Источник