Google đang giới thiệu một mô hình AI mới có khả năng tương tác với trình duyệt web y hệt con người, mở ra một kỷ nguyên mới cho các tác vụ tự động hóa. Mô hình này, được gọi là Gemini 2.5 Computer Use, cho phép các tác nhân AI thực hiện hành động trong các giao diện được thiết kế cho người dùng, loại bỏ nhu cầu về các kết nối API trực tiếp phức tạp. Đây là một bước tiến đáng kể, giúp AI vượt qua rào cản kỹ thuật để thực sự hoạt động như một trợ lý ảo trên nền tảng web.
Điểm đặc biệt của Gemini 2.5 Computer Use nằm ở việc nó sử dụng khả năng hiểu và suy luận hình ảnh để phân tích yêu cầu của người dùng và hoàn thành các nhiệm vụ. Điều này có nghĩa là AI có thể nhìn và hiểu một trang web như cách chúng ta làm, từ đó thực hiện các công việc như điền biểu mẫu hay thậm chí là kiểm thử giao diện người dùng (UI testing) một cách hiệu quả. Các phiên bản trước của mô hình này đã được áp dụng trong AI Mode và Project Mariner, một nguyên mẫu nghiên cứu cho phép AI tự động thêm các mục vào giỏ hàng dựa trên danh sách nguyên liệu.
Trong bối cảnh các đối thủ như OpenAI với ChatGPT Agent hay Anthropic với Claude AI cũng đang phát triển tính năng tương tự, Google chọn một hướng đi riêng biệt. Mô hình AI mới của Google chỉ truy cập trình duyệt web, không phải toàn bộ môi trường máy tính, cho thấy nó chưa được tối ưu hóa để kiểm soát cấp độ hệ điều hành. Tuy nhiên, khả năng này vẫn rất ấn tượng khi hỗ trợ 13 hành động cơ bản, bao gồm mở trình duyệt, gõ văn bản, cũng như kéo và thả các yếu tố trên trang.
Google khẳng định mô hình Computer Use của họ vượt trội so với các giải pháp hàng đầu khác trên nhiều tiêu chuẩn web và di động. Hiện tại, Gemini 2.5 Computer Use đã có sẵn cho các nhà phát triển thông qua Google AI Studio và Vertex AI. Ngoài ra, người dùng có thể trải nghiệm một bản demo trực tiếp trên Browserbase, nơi họ có thể quan sát AI hoàn thành các tác vụ như “Chơi trò 2048” hoặc “Duyệt Hacker News để tìm các cuộc tranh luận thịnh hành”.