- PVSM.RU - https://www.pvsm.ru -

Open-source альтернативы Operator от OpenAI

Ну вот, буквально позавчера я написал статью про Browser Use [1], и уже на следующий день OpenAI объявил о выпуске Operator [2] — ИИ-агента, который может работать в браузере вместо вас.

Мало того, что OpenAI открыто манипулируют данными, не включая Browser Use в свой бенчмарк (потому что Browser Use лучше Operator — 89% против 87% в тестах Web Voyager), так ещё и работа идет в браузере на удаленном сервере (уже дико по отношению к приватности), то ещё и скрины всего, что происходит OpenAI будут хранить 3 месяца.

В общем, let's make AI open again: вот подборка альтернатив Operator, которые работают локально и не требуют ни денег, ни делиться своими данными.

Browser Use

Очевидно, что начать стоит с главного кандидата. Лидер сегодняшнего чарта, 15 тысяч звездочек на Гитхабе.

Ссылка [3]

CEO Browser Use не устоял и тоже решил воспользоваться хайпом

CEO Browser Use не устоял и тоже решил воспользоваться хайпом

Про то, как использовать Browser Use и почему он такой классный у меня есть отдельная статья на Хабре [1], поэтому повторно расписывать здесь подробно его я не буду.

Тем не менее, повторю главное: решения для LangChain, которые умеют сёрфить веб, используя Cheerio или Puppeteer уже были, но у всех у них очень низкая точность.

Принципиальное отличие browser-use в том, как он идентифицирует интерактивные элементы на веб-странице, и пробрасывает эту информацию в LLM, так, что LLM может легко принимать решение о том, куда кликнуть, где писать, и так далее.

Бенчмарк говорит сам за себя:

Open-source альтернативы Operator от OpenAI - 2

Stagehand от BrowserBase

Ссылка [4]

BrowserBase — это компания которая специализировалась на предоставлении AI‑агентам доступа к виртуальному браузеру — по сути, поднимала отдельную виртуалку с Chromium под управлением Playwright, и пробрасывала доступ к ней в AI‑агента. Это отличающийся от Browser Use сценарий, т.к. вместо локального решения используется виртуализация, но общий принцип остаётся таким же.

Open-source альтернативы Operator от OpenAI - 3

Их решение Stagehand практически полностью позволяет воспроизвести идею «напиши промпт, а дальше агент сделает всё в браузере за тебя».

Главная сложность в том, что вместо прямого управления браузером появляется прослойка в виде написания скрипта для Playwright, однако прямо в теле скрипта могут быть вставки, передающие дополнительные промпты в AI‑агента, который принимает решение о том, как действовать дальше.

Дополнительное удобство в том, что в случае, когда вы хотите вычленить из контента страницы какие‑то данные, в Stagehand можно пробросить JSON‑схему вместе с промптом, и он будет валидировать, что данные возвращаются в корректном формате.

В общем, удобный и проверенный тул, 6 тысяч звездочек на Гитхабе.

Computer Use от Anthropic

Ссылка [5]

Ссылка на видео [6]

Open-source альтернативы Operator от OpenAI - 4

В целом, про Computer Use слышали уже вероятно все, но важно было бы упомянуть, что в отличие от описанных выше моделей, Computer Use даёт возможность AI-агенту использовать весь компьютер, а не только браузер. Из-за этого сильно страдает непосредственно качество использования браузера (52% в бенчмарках WebVoyager), но зато количество задач, которые в целом может исполнять такая система радикально выше.

Простейший способ развернуть Computer Use у себя локально, это склонировать репозиторий computer-use-demo и следовать инструкциям по установке (а также не забыть прокинуть ключик от Claude). Дублирую ссылку на демку [7].

Заключение

Несмотря на то, что решения для использования браузера/компьютера уже существуют, но их качество и удобство для конечного пользователя оставляют желать лучшего. Не совсем ясно, как Operator от OpenAI, не имея доступа к сессиям в моем браузере сможет выполнять задачи вместо меня. Точно так же непонятно, как Browser Use, не имеющий UI обертки/приложения для конечных пользователей может полноценно конкурировать с Operator, хоть это и заявляется их командой.

Тем не менее, та скорость, с которой эти технологии развиваются, поражает, и многие эксперты прогнозируют [8], что к концу 2025 года явление AI-сотрудников может стать массовым в компаниях. И с этим трудно поспорить, особенно учитывая, что решения вроде DeepSeek R1 демонстрируют невероятный уровень качества моделей, при радикально меньших требованиях к ресурсам (вплоть до работы на мобильных устройствах).


P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал [9] в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как делаю компанию, в которой все сотрудники — AI-агенты. Велком!

Автор: ElKornacio

Источник [10]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/brauzery/408711

Ссылки в тексте:

[1] я написал статью про Browser Use: https://habr.com/ru/articles/875798/

[2] OpenAI объявил о выпуске Operator: https://habr.com/ru/companies/bothub/news/876196/

[3] Ссылка: https://github.com/browser-use/browser-use

[4] Ссылка: https://github.com/browserbase/stagehand

[5] Ссылка: https://github.com/anthropics/anthropic-quickstarts/blob/main/computer-use-demo

[6] Ссылка на видео: https://www.youtube.com/watch?v=vH2f7cjXjKI

[7] демку: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

[8] эксперты прогнозируют: https://www.youtube.com/watch?v=7LNyUbii0zw

[9] ссылку на свой Телеграм канал: https://t.me/elkornacio

[10] Источник: https://habr.com/ru/articles/876418/?utm_campaign=876418&utm_source=habrahabr&utm_medium=rss