ЧГК-GPT, или насколько хорош новый ChatGpt o1-preview в спортивном «Что? Где? Когда?»

в 6:04, , рубрики: chat gpt, o1-preview, OpenAI

12 сентября 2024 года OpenAI представила новую модель OpenAI o1-preview - первую модель, которая по утверждению создателей умеет "рассуждать".

Я решил посмотреть, насколько хорошо она умеет отвечать на вопросы из игры "Что? Где? Когда?"

Первый эксперимент: олимпиадная задача по программированию

Прочитав новость, я почти сразу же бросился экспериментировать с новым словом в AI. Узнав, что модель проверяли на задачках с Codeforces, я в первую очередь подкинул ей одну из своих любимых задач на графы, которая была на Northern Eurasia Finals ACM ICPC 2017–2018. Модель щелкнула эту задачу за 38 секунд. Это был первый тревожный звоночек, потому что когда я готовился к ACM, я не смог самостоятельно придумать идею решения (в 2017-2018 я еще не участвовал в ACM и по этим задачам только тренировался).

Под спойлером наш диалог с o1-preview. Я сформулировал задачу уже на математическом языке. В оригинале, конечно же, есть интересный сюжет. Оригинал задачи можно найти по ссылке (задача C. Connections). Идея решения очень красивая, попробуйте найти ее сами!

Скрытый текст

Мой вопрос:

Привет. Пусть дан сильно связный ориентированный граф, то есть из любой вершины можно попасть в любую. В графе n вершин и m > 2n рёбер. Нужно придумать алгоритм, как оставить ровно 2n рёбер, чтобы при этом граф остался сильно связным

Ответ модели:

Здравствуйте!

Для решения этой задачи можно воспользоваться следующим алгоритмом:

Шаг 1: Построение остовного дерева обхода

  1. Выберите произвольную вершину s в графе.

  2. Выполните поиск в глубину (DFS) по исходному графу G, начиная с вершины s, чтобы построить остовное дерево T1. Это дерево будет содержать все вершины графа и (n - 1) ребро.

Шаг 2: Построение обратного остовного дерева

  1. Постройте обратный граф G^R, где все направления ребер исходного графа G инвертированы.

  2. Выполните поиск в глубину (DFS) по обратному графу G^R, начиная с той же вершины s, чтобы построить второе остовное дерево T2. Это дерево также будет содержать все вершины и (n - 1) ребро.

Шаг 3: Объединение деревьев и добавление дополнительных ребер

  1. Объедините ребра из T1 и T2. Общее количество ребер в объединенном подграфе будет не более 2n - 2.

  2. Так как исходный граф имеет более чем 2n ребер (m > 2n), у нас есть дополнительные ребра. Выберите произвольно любые два ребра из оставшихся и добавьте их в объединенный подграф, чтобы общее количество ребер стало ровно 2n.

Шаг 4: Проверка сильной связности

  1. Объединенный подграф после шага 3 будет сильно связным. Это обеспечивается тем, что:

    • Из вершины s можно достичь любую другую вершину по ребрам из T1.

    • Любую вершину можно достичь из вершины s по ребрам из T2 (помните, что T2 строилось в обратном графе, поэтому в исходном графе эти ребра ведут к s).

    • Добавленные два дополнительных ребра сохраняют сильную связность и доводят общее количество ребер до 2n.

Итого:

Мы построили сильно связный подграф с ровно 2n ребрами, как и требовалось.

Пример кода (псевдокод):

function reduceEdgesTo2n(G):
    s = arbitrary vertex in G
    T1 = DFS(G, s)           // Остовное дерево из s
    G_reverse = reverseGraph(G)
    T2 = DFS(G_reverse, s)   // Остовное дерево в обратном графе
    H = union(T1, T2)
    while number of edges in H < 2n:
        add arbitrary edge from G to H not already in H
    return H

Примечание:

  • Алгоритм гарантирует, что подграф H будет сильно связным и содержать ровно 2n ребер.

  • Добавление произвольных ребер на последнем шаге не нарушает сильной связности, а только может ее усилить.

Надеюсь, это поможет вам решить задачу!

А что по "Что? Где? Когда?"?

Помимо спортивного программирования, мы с друзьями иногда участвуем в турнирах по спортивному "Что? Где? Когда?" Если кто не знает, принцип там такой же, как и в телевизионной игре: нужно отвечать на вопросы, используя логику и рассуждения, а не эрудицию (хотя, безусловно, общие знания тоже бывают нужны для ответа). Основное отличие от телевизионной версии в том, что в ответе требуются максимально конкретные формулировки, потому что ответы сдаются на листочках, а не обсуждаются с ведущим вслух.

Ключевое слово в прошлом абзаце - рассуждения. А новая модель, как утверждается, как раз умеет рассуждать. Именно по этой причине я решил проверить o1-preview именно на вопросах "Что? Где? Когда?".

Для сравнения я взял вопросы из турнира, в котором мы лично с друзьями участвовали в 2022 году - Лига вузов Европы. IV тур. Вопросы можно найти здесь. Результаты кожаных мешков участвовавших команд - здесь. Наша команда "Каво и Шо" ответила на 23 вопроса из 36.

Итак, проведем турнир с тремя участниками:

  1. Человеческая команда, в составе которой ваш покорный слуга (далее - Каво и Шо)

  2. Модель ChatGPT 4o

  3. Модель ChatGPT o1-preview

Четвертым участником можешь быть ты, мой дорогой читатель. Старайся отвечать на вопросы в процессе чтения статьи. Можешь давать себе две минуты, а не одну на рассуждения, если ты читаешь статью один, без команды. В конце сравним наши результаты.

Если вам неинтересно читать вопросы, отвечать на них, смотреть ответы моделей, можете сразу перейти к результатам.

Под спойлером я оставил только ответы и дополнительные варианты ответа, которые засчитывались. Если вам интересны комментарии к ответам (например, если непонятна логика), то вы можете найти их по той же ссылке, что и вопросы.

Для модели o1-preview я дополнительно в скобках указывал время, которое она потратила на размышления.

Вопросы

1. В одном мультфильме злодеи решают казнить персонажа на виду у публики на большой площади. Для этого персонажа сразу после полуночи за ноги и руки привязывают к НИМ. Назовите ИХ.

Скрытый текст

Ответ: стрелки часов.
Зачет: часовая и минутная стрелки.

  • Каво и Шо - ❌ (кажется, мы тогда опоздали на игру, но это все отговорки)

  • ChatGPT 4o - ❌ (дала ответ "четыре лошади")

  • ChatGPT o1-preview - ✅ (дала правильный ответ, но рассуждала на английском языке, время - 47 секунд)

2. В историческом романе описывается, как бредут потерявшие свои дома люди и их волосы кажутся седыми. Назовите любой из трёх городов, откуда эти люди идут.

Скрытый текст

Ответ: Помпеи
Зачет: Геркуланум, Стабии.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ "Хиросима")

  • ChatGPT o1-preview - ✅ (назвала все три города за 10 секунд)

3. Ла́йонел Стре́йчи пишет, что жизнь королевы Виктории после смерти мужа Принца А́льберта плохо освещена биографами. Словно ОНА опустилась не только в жизни, но и в хрониках. Назовите ЕЁ одним словом.

Скрытый текст

Ответ: вуаль
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ "тьма")

  • ChatGPT o1-preview - ✅ (12 секунд)

4. Недавно Джон Че́ппел обернул множество стоящих на земле однотипных предметов черными лентами, постучал по каждому и попросил ИХ не улетать, пообещав, что новый господин будет добр. Кто ОНИ?

Скрытый текст

Ответ: пчёлы
Зачет: пчелиные королевы.

  • Каво и Шо - ❌

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (11 секунд)

5. Герой пьесы семнадцатого века застаёт под окнами своей любимой поклонника. Вскоре поклонник убегает в «воротнике». Из чего этот воротник получился?

Скрытый текст

Ответ: из гитары.
Зачет: из мандолины; из лютни.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ "из меча")

  • ChatGPT o1-preview - ❌ (дала ответ "из ночного горшка", 17 секунд)

6. Герой одного романа любит бесплатно поесть и для этого кое-куда проникает. Дальше ПЕРВЫЕ принимают его за ВТОРОГО, а ВТОРЫЕ – за ПЕРВОГО. Но после одного случая, когда его били и ПЕРВЫЕ, и ВТОРЫЕ, герой решает больше так не делать. Назовите ПЕРВЫХ или ВТОРЫХ двумя словами.

Скрытый текст

Ответ: гости жениха.
Зачет: гости невесты; друзья жениха; друзья невесты.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ "гости свадьбы", будем строги, это незачет)

  • ChatGPT o1-preview - ❌ (дала ответ "птицы (или звери)", 66 секунд)

7. В восьмидесятые годы двадцатого века в районе иракского Мосу́ла развивали энергетику. В 2018 году благодаря ЕЙ в районе Мосула было сделано археологическое открытие. В известном произведении ОНА приводила к заключению мира. Что такое ОНА?

Скрытый текст

Ответ: засуха
Зачет: сушь

  • Каво и Шо - ❌

  • ChatGPT 4o - ❌ (дала ответ "вода")

  • ChatGPT o1-preview - ✅ (57 секунд)

8. Героиня одной книжки меняет свои взгляды на воспитание детей и затевает перестановку мебели. «ДЕЛАТЬ ЭТО теперь будут шкафы», – заявляет она. Какие три слова мы заменили словами ДЕЛАТЬ ЭТО?

Скрытый текст

Ответ: стоять в углу.
Зачет: стоять в углах; стоять по углам.

  • Каво и Шо - ❌ (обидно)

  • ChatGPT 4o - ❌ (дала ответ "растить моих детей")

  • ChatGPT o1-preview - ❌ (дала ответ "говорить «нет»", 28 секунд)

9. Исследователи считают, что к гибели цивилизацию Мочи́ка, занимавшую побережье Перу, привело ЕГО капризное поведение. Назовите ЕГО, использовав дефис.

Скрытый текст

Ответ: течение Эль-Ниньо.
Зачет: Эль-Ниньо.

  • Каво и Шо - ❌

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (4 секунды)

10. По сюжету одного скетча отец и мать швыряли Ба́стера Ки́тона в зрительный зал. Юный комик пользовался большим успехом, но в некоторых штатах, где действовал ОН, Бастера выдавали за карлика. Назовите ЕГО шестью словами.

Скрытый текст

Ответ: закон о жестоком обращении с детьми.
Зачет: закон о запрете использования детского труда; закон о запрете эксплуатации детского труда.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (по логике ответ правильный, но состоит из 5 слов, а не из 6, незачет)

  • ChatGPT o1-preview - ❌ (близко к правильному и количество слов верное, но незачет, 16 секунд)

11. У Бастера Китона отсутствовал иностранный акцент, а также был опыт выступления в водевилях, где он пел и декламировал. Поэтому ОНО, появившееся в своё время, проблемой не стало. Назовите ЕГО двумя словами.

Скрытый текст

Ответ: звуковое кино.
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (4 секунды)

12. Один из вариантов ко́птского креста заканчивается треугольниками. Кого символизируют все эти треугольники?

Скрытый текст

Ответ: апостолов
Зачет: по слову апостолы без дополнительной неверной информации.

  • Каво и Шо - ❌

  • ChatGPT 4o - ❌ (дала ответ - "Троицу")

  • ChatGPT o1-preview - ✅ (9 секунд)

13. Землемер из одного романа использует в работе ИХ, хотя и не отличается религиозностью. ИМИ называют и цепочки пузырьков в шампанском. Что такое ОНИ?

Скрытый текст

Ответ: чётки
Зачет: точный ответ.

  • Каво и Шо - ✅ (не помню, как мы это взяли)

  • ChatGPT 4o - ❌ (дала ответ - "Нивелиры")

  • ChatGPT o1-preview - ✅ (72 секунды, но она без команды!)

14. У травоядного теризиноза́вра был очень длинный загнутый коготь. Этот коготь был своеобразной ЕЙ. Название какого морского животного начинается с НЕЁ?

Скрытый текст

Ответ: косатка
Зачет: точный ответ.

  • Каво и Шо - ❌

  • ChatGPT 4o - ❌ (дала ответ - "серпохвост")

  • ChatGPT o1-preview - ✅ (5 секунд)

15. Слово ОНИ в вопросе – замена. Действие одного романа происходит в восемнадцатом веке. Для жителей одной глухой провинции власти заводят жалобную книгу. Жалобщики заполняют книгу множеством ИХ. Напишите общепринятое сокращение из трёх букв для НИХ в научной литературе.

Скрытый текст

Ответ: рис
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ - "QED", он же ЧТД)

  • ChatGPT o1-preview - ❌ (дала ответ - "мат", 41 секунда)

16. Клара Пи́терс не была членом гильдии, поэтому писала своё имя в виде гравировки на столовых приборах. Назовите словом французского происхождения то, на чём эти столовые приборы можно увидеть.

Скрытый текст

Ответ: натюрморты
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (6 секунд)

17. В вопросе ИКСОМ мы заменили два слова, начинающиеся на соседние буквы алфавита. При создании ИКСОВ фермерам рекомендуют использовать сорта, высота ствола которых достигает двух метров. Александру Пожаре́нко, создателю одного ИКСа, друзья дали кличку в честь государственного деятеля. Какого?

Скрытый текст

Ответ: Никиты Сергеевича Хрущёва.
Зачет: по фамилии.

  • Каво и Шо - ❌

  • ChatGPT 4o - ❌ (дала ответ - "Юлий Цезарь")

  • ChatGPT o1-preview - ✅ (22 секунды)

18. Герою американского произведения лучше думается на свежем воздухе. Герой говорит, что требуется четыре-пять ИХ для решения сложной задачи. Какая ОНА была в названии экранизированного романа?

Скрытый текст

Ответ: зелёная
Зачет: зелёная миля.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ - "Долгая прогулка")

  • ChatGPT o1-preview - ❌ (полностью верные рассуждения, но ответ не в заданном формате, 66 секунд)

19. Альберто Ва́скес-Фигеро́а пишет, что политика и совесть, как большой чемодан – всегда смотрят в разные стороны. Название какой телепередачи мы заменили в вопросе?

Скрытый текст

Ответ: «Орёл и решка».
Зачет: зелёная миля.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ - "Что? Где? Когда?")

  • ChatGPT o1-preview - ✅ (9 секунд)

20. Участники природоохранного проекта «ОН снежного барса» фотографируют барсов, а также собирают образцы шерсти, например, с лап или хвоста. Назовите ЕГО словом иностранного происхождения.

Скрытый текст

Ответ: паспорт
Зачет: документ

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ - "мониторинг")

  • ChatGPT o1-preview - ✅ (12 секунд)

21. Некий Си́бтроп был противником строительства ЕГО и во время дебатов даже взмолился о граде. От НЕГО получил название английский футбольный клуб. Назовите ЕГО двумя словами.

Скрытый текст

Ответ: Хрустальный дворец.
Зачет: Кристал пэлес; Crystal Palace.

  • Каво и Шо - ❌

  • ChatGPT 4o - ❌ (дала ответ - "Астон Вилла")

  • ChatGPT o1-preview - ✅ (2 секунды)

22. В одном романе описывается научный проект по изучению молний под кодовым названием «3141». Какое слово мы пропустили в вопросе?

Скрытый текст

Ответ: шаровых
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ - "пи")

  • ChatGPT o1-preview - ❌ (дала ответ - "пи", 50 секунд)

23. Герой одного романа замышляет недоброе и узнав, что гимн звучит две с половиной минуты, соответственно обрезает… Что?

Скрытый текст

Ответ: бикфордов шнур.
Зачет: запальный шнур; запал; фитиль (засчитывали на апелляции).

  • Каво и Шо - ✅

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ❌ (дала ответ - "ствол ружья", 18 секунд)

24. В одном романе исследователи из будущего предполагают, что ИХ некогда считали вместилищем ума. Надобность в НИХ отпала из-за изменения рациона питания. Назовите ИХ.

Скрытый текст

Ответ: зубы мудрости.
Зачет: третьи моляры.

  • Каво и Шо - ❌

  • ChatGPT 4o - ❌ (неполный ответ)

  • ChatGPT o1-preview - ✅ (8 секунд)

25. В пятнадцатом веке Бартоломе́о Коллео́ни считался лучшим военачальником. В конце своей карьеры Коллеони был назначен главой ЕГО и планировал начать действия в Албании. Что такое ОН?

Скрытый текст

Ответ: крестовый поход.
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ - "Венецианский флот")

  • ChatGPT o1-preview - ✅ (10 секунд)

26. Гонконг – крупный город с очень плотной застройкой. Один житель Гонконга вспоминал, что когда в детстве ДЕЛАЛ ЭТО, то хотел попасть в самолёт. ДЕЛАТЬ ЭТО любит главный герой романа «Бегущий за ветром». Ответьте тремя словами, что такое ДЕЛАТЬ ЭТО.

Скрытый текст

Ответ: запускать воздушного змея.
Зачет: пускать воздушного змея.

  • Каво и Шо - ❌ (не помню, почему)

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (6 секунд)

27. При правителе Топильци́не дела в центральноамериканском государстве тольте́ков шли очень хорошо. Символично, что Топильцин, как считается, первым сварил ЕГО. Назовите ЕГО.

Скрытый текст

Ответ: шоколад
Зачет: какао

  • Каво и Шо - ✅

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (9 секунд)

28. Планета Мапу́за из мира «Звёздных войн» славится добычей полезных ископаемых. Существо, которое первым встречает Оби-ван Кеноби на этой планете, похоже на НЕГО. «ОН» – название одного шпионского фильма. Назовите ЕГО.

Скрытый текст

Ответ: крот
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ - "Человек-невидимка")

  • ChatGPT o1-preview - ✅ (10 секунд)

29. Персонаж одного романа видит живописное ЭТО, на котором один смотрит в противоположную сторону. Назовите ЭТО двумя словами, начинающимися одинаково.

Скрытый текст

Ответ: поле подсолнухов.
Зачет: подсолнечное поле.

  • Каво и Шо - ❌

  • ChatGPT 4o - ❌ (дала ответ - "двойной портрет")

  • ChatGPT o1-preview - ❌ (дала ответ - "Двуликий Янус", 14 секунд)

30. Доктор из одного сериала ставит диагноз очень молчаливому пациенту и говорит, что чувствует себя ИМ. На одной из карикатур в очереди к НЕМУ сидит обманутый муж. Кто такой ОН?

Скрытый текст

Ответ: ветеринар
Зачет: ветеринарный врач.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ - "зубной врач")

  • ChatGPT o1-preview - ✅ (12 секунд)

31. Герой одного романа живет на юге и утверждает, что почту из дальних стран ему иногда приносит в своём мешке почтальон. Какое слово в вопросе мы изменили почти целиком?

Скрытый текст

Ответ: пеликан
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ❌ (дала ответ - "ветер")

  • ChatGPT o1-preview - ❌ (дала ответ - "альбатрос", 88 секунд)

32. Персонаж одного романа считает, что когда-то конкистадоры принесли ЕГО в девственные джунгли индейцам. На картине Шагала на библейский сюжет ОНО создаёт визуальную рифму с грудью героини. Назовите ЕГО.

Скрытый текст

Ответ: яблоко
Зачет: яблоко с древа познания добра и зла; яблоко познания.

  • Каво и Шо - ❌

  • ChatGPT 4o - ❌ (дала ответ - "колесо")

  • ChatGPT o1-preview - ❌ (дала ответ - "скрипку", 48 секунд)

33. Забавно, что в одном фэнтези грабитель требует у другого персонажа кошелек или жизнь. Грабитель получает по старинной традиции всего две монетки. С каким сельскохозяйственным инструментом часто изображают этого другого персонажа?

Скрытый текст

Ответ: с косой
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (5 секунд)

34. В постапокалиптическом сериале люди нечто утратили и цивилизация деградировала до уровня средневековья. В войсках используется множество собак, а у одного предмета экипировки за ненадобностью отсутствует ОНО. Назовите ЕГО одним словом.

Скрытый текст

Ответ: забрало
Зачет: точный ответ.

  • Каво и Шо - ✅

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (12 секунд)

35. Джоакки́но Росси́ни учитывал пожелания публики в разных городах, поэтому существует заканчивающаяся хэппи-эндом неаполитанская версия оперы, в которой фигурируют любовная записка и нож. Другая версия, поставленная в Венеции, гораздо ближе к оригиналу. Назовите это оригинальное произведение.

Скрытый текст

Ответ: Отелло
Зачет: Венецианский мавр.

  • Каво и Шо - ❌ (стыдно)

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (11 секунд)

36. В одном сериале убивают персонажа, которого называют «птичья личность». Когда этот персонаж появляется в следующем сезоне, то просит называть себя… Каким именем?

Скрытый текст

Ответ: Феникс
Зачет: Феникс-личность.

  • Каво и Шо - ✅

  • ChatGPT 4o - ✅

  • ChatGPT o1-preview - ✅ (4 секунды)

Результаты

  1. ChatGPT o1-preview - 25 баллов

  2. Каво и Шо (a.k.a Кожаные мешки) - 23 балла

  3. ChatGPT 4o - 11 баллов

Какие выводы тут можно сделать? Страшно, друзья. Вот только не знаю пока, страшно интересно, или просто страшно. Искусственный интеллект скачет вперед семимильными шагами. Модель 4o, которая еще буквально недавно была чуть ли не State of The Art, проиграла новой модели более чем в два раза. Работяги-студенты, которые тренировались перед турнирами по ЧГК, полагая, что только человек способен отвечать на такие заковыристые вопросы, уже остались позади машин. В вопросах на эрудицию у нас, к сожалению, не было шансов даже против 4o.

Я не буду выводить какую-то мораль, тем более, что у меня нет какой-то четко сформулированной позиции насчет того, как нам жить в этом дивном новом мире. Что будет с рабочими местами, научными работами, экзаменами, олимпиадами, интеллектуальными играми, и в целом - со всеми нами? Поживем - увидим. И, надеюсь, переживем.

Автор: lozhnikov

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js