Alibaba представила Page Agent — библиотеку, которая превращает веб-страницы в управляемые ИИ-агенты без сложной инфраструктуры

Alibaba открыла исходный код клиентской JavaScript-библиотеки Page Agent, которая принципиально меняет подход к автоматизации браузеров: вместо внешних инструментов вроде Selenium или Playwright, требующих запуска отдельного сервиса и работы с безголовыми браузерами, агент живёт непосредственно внутри веб-страницы и управляет интерфейсом напрямую через DOM.
Alibaba представила Page Agent — библиотеку, которая превращает веб-страницы в управляемые ИИ-агенты без сложной инфраструктуры

Alibaba представила Page Agent — библиотеку, которая превращает веб-страницы в управляемые ИИ-агенты без сложной инфраструктуры. Фото: из архива компании

Основная технология — «обезвоживание DOM», когда сложное дерево документа сжимается в компактное текстовое представление FlatDomTree, где каждый интерактивный элемент (кнопка, поле ввода, ссылка) получает уникальный числовой индекс.

Благодаря этому большая языковая модель может точно позиционировать элементы и выполнять команды «нажми кнопку входа» или «заполни форму», не обрабатывая тяжёлые скриншоты и не требуя мультимодальных возможностей.

Поскольку агент работает внутри страницы, он автоматически наследует куки, сессию и права доступа пользователя — никакой сложной аутентификации или настройки бэкенда не требуется. Библиотека модельно-независима и поддерживает любые LLM с OpenAI-совместимым API: от Qwen и GPT до локальных моделей в Ollama.

Разработчик может внедрить агент одной строкой кода через CDN или npm-пакет, а затем либо вызвать панель для интерактивного управления, либо программно выполнять команды через метод agent.execute().

Команда Alibaba уже опубликовала демо-страницу, где можно протестировать работу агента в реальном времени, наблюдая за его «мыслями» и действиями — он может управлять интерфейсом, например, создавать таблицы в облачных сервисах или настраивать приложения.

Хотя Page Agent открыт под лицензией MIT и предлагает очень низкий порог входа для создания AI-помощников в SaaS-продуктах, автоматизации ERP-систем или повышения доступности веб-приложений, у него есть чёткие ограничения: на данный момент библиотека работает только в пределах одной вкладки, а безопасность операций вроде «запретить автоматические платежи» строится на инструкциях модели, а не на жёсткой изоляции, поэтому для критических действий — переводов средств или удаления данных — разработчикам всё равно нужно оставлять серверную валидацию.

Упомянутый сервис
Qwen Нейросеть от китайского гиганта Alibaba.
Нейросеть от китайского гиганта Alibaba.

Актуальное

NASA и Red Hat создают автономного ИИ-врача для астронавтов: система CMO-DA работает без связи с Землёй
Alibaba ввела полный запрет на использование Claude на фоне обвинений в шпионаже и краже технологий
Контакты Outlook на iOS станут общесистемными: интеграция с Телефоном, Сообщениями и Siri запланирована на январь 2027 года
Ещё…

Популярные теги