LLM против детских вопросов: смотрим, как GPT o1, QwenLM и DeepSeek справятся с детскими задачами

2025-01-27 в 6:00, admin, рубрики: chatgpt, deepseek, gpt-o1, OpenAI, qwen, ИИ, искусственный интеллект, нейросети, сравнение

Как часто сейчас в ИТ сообществе можно услышать про невероятные успехи LLM моделей? ИИ написал диссертацию за 30 минут, ИИ пишет программы на уровне middle разработчика, ИИ диагностирует болезнь с точностью 99.99999% и много много других впечатляющих заголовков пестрят на сотнях сайтов. И это не говоря о том, что создатели таких ИИ моделей заявляют, что через 2-3 года ИИ станет умнее человека чуть ли не в каждой сфере жизни

А так ли это? Давайте поищем парочку не совсем хитрых, но интересных задач, с которыми может справиться даже ребенок (немного подумав, конечно), но не может справиться современный ИИ.

Все тесты будут проводиться на моделях, которые обучены “размышлять” (умеют в Chain-of-Thoughts - цепочки рассуждений). А именно в качестве испытуемых будет: GPT o1 (использовал телеграм ботов, так как так легче и быстрее получить доступ к модели), DeepSeek R1 (недавно выпущена, но показывает хорошие резулататы), QwenLM (модель вышла не так давно, но тоже достойно себя показывает судя по тестам)

Задача 1 (оригинал)

Шел муж с женой, брат с сестрой да шурин с зятем. Сколько всего человек?

Модель 1: DeepSeek R1 ✅

Ответ модели DeepSeek R1

Всего шло 3 человека. Это муж, его жена (которая также является сестрой) и брат жены (шурин). Здесь:
Муж и жена — супружеская пара.
Брат (шурин) и сестра (жена) — родственные связи.
Шурин (брат жены) и зять (муж жены) — зятем для шурина является муж, так как он женат на его сестре.
Таким образом, все три роли покрываются тремя людьми: муж, жена и её брат.

Модель 2: QwenLM ❌

Ответ модели QwenLM

Таким образом, пять человек:

Муж
Жена
Брат жены (шурин)
Сестра жены
Зять (муж сестры жены)

Это seems logical and consistent.
Так что ответ должен быть пять человек.
Но давайте проверим еще раз.
Если зять - это муж дочери жены, тогда нужно учитывать дочь жены.
Но в задаче не упоминается дочь жены, поэтому возможно, что зять - это муж сестры жены.
Тогда пять человек.
Альтернативно, если зять - это муж сестры мужа, тогда это another person.
Но это becomes too complicated.
Думаю, что пять человек - это correct answer.
Final Answer 5

Модель 3: GPT o1 ✅

Ответ модели GPT o1

Таким образом, все роли выполняются тремя людьми:
1. Человек 1 — Муж и зять.
2. Человек 2 — Жена и сестра.
3. Человек 3 — Брат и шурин.
Ответ: 3 человека.
---
Пояснение:
- Муж с женой — это Человек 1 и Человек 2.
- Брат с сестрой — это Человек 3 (брат) и Человек 2 (сестра).
- Шурин с зятем — это Человек 3 (шурин для Человека 1) и Человек 1 (зять для Человека 3).
Таким образом, все роли выполняются тремя людьми, без необходимости вводить дополнительных участников.

В целом, результаты DeepSeek R1 и GPT o1 хорошие, они смогли справиться с такой простой задачкой. Однако QwenLM почему-то подкачала, хотя в интернете можно найти бенчмарки этой модели, где она себя показывала очень даже достойно. Что еще забавно - это то что модели зачастую не дают ответ на русском, а смешивают языки: английский, русский, китайский (даже в моментах, когда просишь объяснить на русском)

Задача 1 (меняем немного условие)

А теперь давайте заменим “шурин” и “зять” на “невестку” и “золовку”. Для человека не трудно понять, что и первая задача и вторая абсолютно идентичны по структуре, в них лишь меняются немного роли людей в семье и всё

Шел муж с женой, брат с сестрой да невестка с золовкой. Сколько всего человек?

Модель 1: DeepSeek R1 ❌

Ответ модели DeepSeek R1

Ответ: Всего 4 человека.
Объяснение:
Муж (М) и жена (Ж) — супружеская пара.
Брат жены (БЖ) и сестра мужа (З) — ещё одна пара, которые также могут быть мужем и женой.
Золовка — это сестра мужа (З), а невестка — жена брата жены (Н). Если брат жены (БЖ) женат на сестре мужа (З), то З одновременно является и золовкой (сестрой мужа), и невесткой (женой брата жены).
Таким образом, участники:
Муж (М),
Жена (Ж),
Брат жены (БЖ),
Сестра мужа (З).
Пары:
Муж и жена.
Брат жены и сестра мужа (БЖ и З).
Золовка (З) и невестка (З, так как она жена брата жены).
Хотя золовка и невестка формально одна и та же женщина, в загадке учитываются роли, а не отдельные люди. Итог: 4 человека.

Модель 2: QwenLM ❌

Ответ модели QwenLM

Альтернативно, если брат В является также сыном А, тогда золовка — жена В, Д, и невестка — также жена В, Д.
Тогда золовка и невестка — одно и то же person, Д.
Так что, people: А, Б, В, Г, Д.
Пять people.
Это sounds more likely.
Так что, ответ — пять.
Final Answer 5

Модель 3: GPT o1 ❌

Ответ модели GPT o1

В этом выражении можно выделить 5 человек:

Муж
Жена
Брат
Сестра
Невестка
Золовка

Невестка – это жена брата, а золовка – это сестра мужа. По сути, это всё один и тот же круг людей, и имеется в виду, что:

Муж и жена – это одна пара.
Брат и сестра – это другая пара.
Невестка (жена брата) и золовка (сестра мужа) относятся к тем же самым людям.

Таким образом, в данной задаче всего 4 уникальных человека: муж, жена, брат и сестра.

В интернете можно найти первую интерпретацию задачи, где сказано именно про шурина и зятя, поэтому легко сделать вывод, что ИИ модели просто выучили первую задачу, а вот когда им попадаются новые понятия, они не могут выстроить ответ, так как нигде раньше ничего подобного не видели, а сами они не способны понять, кто к кому и как относится в родственных связях. Очень жаль, что модели, которые решают очень сложные математические задачи и которые способны писать код на уровне новичка-программиста, допускают ошибки и не могут понять таких простых вещей