- PVSM.RU - https://www.pvsm.ru -
Ну вот, буквально позавчера я написал статью про Browser Use [1], и уже на следующий день OpenAI объявил о выпуске Operator [2] — ИИ-агента, который может работать в браузере вместо вас.
Мало того, что OpenAI открыто манипулируют данными, не включая Browser Use в свой бенчмарк (потому что Browser Use лучше Operator — 89% против 87% в тестах Web Voyager), так ещё и работа идет в браузере на удаленном сервере (уже дико по отношению к приватности), то ещё и скрины всего, что происходит OpenAI будут хранить 3 месяца.
В общем, let's make AI open again: вот подборка альтернатив Operator, которые работают локально и не требуют ни денег, ни делиться своими данными.
Очевидно, что начать стоит с главного кандидата. Лидер сегодняшнего чарта, 15 тысяч звездочек на Гитхабе.
Ссылка [3]
Про то, как использовать Browser Use и почему он такой классный у меня есть отдельная статья на Хабре [1], поэтому повторно расписывать здесь подробно его я не буду.
Тем не менее, повторю главное: решения для LangChain, которые умеют сёрфить веб, используя Cheerio или Puppeteer уже были, но у всех у них очень низкая точность.
Принципиальное отличие browser-use в том, как он идентифицирует интерактивные элементы на веб-странице, и пробрасывает эту информацию в LLM, так, что LLM может легко принимать решение о том, куда кликнуть, где писать, и так далее.
Бенчмарк говорит сам за себя:

Ссылка [4]
BrowserBase — это компания которая специализировалась на предоставлении AI‑агентам доступа к виртуальному браузеру — по сути, поднимала отдельную виртуалку с Chromium под управлением Playwright, и пробрасывала доступ к ней в AI‑агента. Это отличающийся от Browser Use сценарий, т.к. вместо локального решения используется виртуализация, но общий принцип остаётся таким же.

Их решение Stagehand практически полностью позволяет воспроизвести идею «напиши промпт, а дальше агент сделает всё в браузере за тебя».
Главная сложность в том, что вместо прямого управления браузером появляется прослойка в виде написания скрипта для Playwright, однако прямо в теле скрипта могут быть вставки, передающие дополнительные промпты в AI‑агента, который принимает решение о том, как действовать дальше.
Дополнительное удобство в том, что в случае, когда вы хотите вычленить из контента страницы какие‑то данные, в Stagehand можно пробросить JSON‑схему вместе с промптом, и он будет валидировать, что данные возвращаются в корректном формате.
В общем, удобный и проверенный тул, 6 тысяч звездочек на Гитхабе.
Ссылка [5]
Ссылка на видео [6]

В целом, про Computer Use слышали уже вероятно все, но важно было бы упомянуть, что в отличие от описанных выше моделей, Computer Use даёт возможность AI-агенту использовать весь компьютер, а не только браузер. Из-за этого сильно страдает непосредственно качество использования браузера (52% в бенчмарках WebVoyager), но зато количество задач, которые в целом может исполнять такая система радикально выше.
Простейший способ развернуть Computer Use у себя локально, это склонировать репозиторий computer-use-demo и следовать инструкциям по установке (а также не забыть прокинуть ключик от Claude). Дублирую ссылку на демку [7].
Несмотря на то, что решения для использования браузера/компьютера уже существуют, но их качество и удобство для конечного пользователя оставляют желать лучшего. Не совсем ясно, как Operator от OpenAI, не имея доступа к сессиям в моем браузере сможет выполнять задачи вместо меня. Точно так же непонятно, как Browser Use, не имеющий UI обертки/приложения для конечных пользователей может полноценно конкурировать с Operator, хоть это и заявляется их командой.
Тем не менее, та скорость, с которой эти технологии развиваются, поражает, и многие эксперты прогнозируют [8], что к концу 2025 года явление AI-сотрудников может стать массовым в компаниях. И с этим трудно поспорить, особенно учитывая, что решения вроде DeepSeek R1 демонстрируют невероятный уровень качества моделей, при радикально меньших требованиях к ресурсам (вплоть до работы на мобильных устройствах).
P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал [9] в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как делаю компанию, в которой все сотрудники — AI-агенты. Велком!
Автор: ElKornacio
Источник [10]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/brauzery/408711
Ссылки в тексте:
[1] я написал статью про Browser Use: https://habr.com/ru/articles/875798/
[2] OpenAI объявил о выпуске Operator: https://habr.com/ru/companies/bothub/news/876196/
[3] Ссылка: https://github.com/browser-use/browser-use
[4] Ссылка: https://github.com/browserbase/stagehand
[5] Ссылка: https://github.com/anthropics/anthropic-quickstarts/blob/main/computer-use-demo
[6] Ссылка на видео: https://www.youtube.com/watch?v=vH2f7cjXjKI
[7] демку: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo
[8] эксперты прогнозируют: https://www.youtube.com/watch?v=7LNyUbii0zw
[9] ссылку на свой Телеграм канал: https://t.me/elkornacio
[10] Источник: https://habr.com/ru/articles/876418/?utm_campaign=876418&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.