Исследованием поделился Yuntian Deng в Твиттере.
Он протестировал умножение чисел с разным количеством знаков, вплоть до 20.
На примере сравнения o1, o1-mini и gpt-4o.
Оказалось, что GPT4o еле вывозит 4-значные числа, а o1 справляется даже с 9x9.
Исследованием поделился Yuntian Deng в Твиттере.
Он протестировал умножение чисел с разным количеством знаков, вплоть до 20.
На примере сравнения o1, o1-mini и gpt-4o.
Оказалось, что GPT4o еле вывозит 4-значные числа, а o1 справляется даже с 9x9.
Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.
12 сентября 2024 года OpenAI представила новую модель OpenAI o1-preview - первую модель, которая по утверждению создателей умеет "рассуждать".
Я решил посмотреть, насколько хорошо она умеет отвечать на вопросы из игры "Что? Где? Когда?"
Прочитав новость, я почти сразу же бросился экспериментировать с новым словом в AI. Узнав, что модель проверяли на задачках с Codeforces, я в первую очередь подкинул ей одну из своих любимых задач на графы, которая была на Northern Eurasia Finals ACM ICPC 2017–2018. Модель щелкнула эту задачу за 38 секундЧитать полностью »
o1-preview
За последние 24 часа мы получили доступ к недавно выпущенным моделям OpenAI, o1-mini
специально обученным для эмуляции рассуждений. Этим моделям дается дополнительное время для генерации и уточнения токенов рассуждений перед тем, как дать окончательный ответ.
Сотни людей спрашивали, как o1 выглядит на ARC Prize. Поэтому мы протестировали его, используя ту же базовую тестовую систему, которую мы использовали для оценки Claude 3.5 Sonnet, GPT-4o и Gemini 1.5. Вот результаты:
Модели OpenAI серии o1 — это новые большие языковые модели, обученные с помощью подкрепления для выполнения сложных рассуждений. Модели o1 думают, прежде чем ответить, и могут создавать длинную внутреннюю цепочку рассуждений, прежде чем ответить пользователю.
Модели o1 отлично справляются с научными рассуждениями, занимая 89-е место в процентах при решении конкурсных вопросов по программированию (Codeforces), входя в число 500 лучших студентов США в отборочном туре математической олимпиады США (AIME) и превышая точность человека на уровне доктора наук при решении задач по физике, биологии и химии (GPQA).
ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества.
Поводом написания этой статьи стал уход из России Notion, так как мы активно подключали в качестве баз данных к нашим GPT-ботам базы в Notion (статья про это: Читать полностью »
На написание и публикацию этого текста меня побудила необходимость быстро объяснить, как определять текст от больших языковых моделей (БЯМ). Важно, что речь идёт только про выявление очевидных случаев, а не бронебойное детектирование.
В голове инструкция выглядела как три коротких пункта. Списочек немедленно разросся обширным введением, замечаниями и примерами. Грех этой инструкцией не поделиться.
Желание обнаружить результат творчества больших языковых моделей возникло до их коммерциализации. Ещё в феврале 2019 года OpenAI порадовалаЧитать полностью »
Дисклеймер: это вольный перевод колонки Джона Хермана для издания New York Magazine, выполненный редакцией «Технократии». Подписывайтесь на наш каналЧитать полностью »