Khi trình duyệt trở thành chiến trường tiếp theo của AI, ai sẽ bị loại bỏ?

Tương lai của AI nằm ở các tác nhân có thể điều hướng các trang web một cách tự động. Các công ty công nghệ đang đầu tư vào việc phát triển proxy trình duyệt để tự động hóa các tác vụ web và tăng năng suất. Bài viết này khám phá các trường hợp sử dụng, những thách thức hiện tại và cơ hội do các kịch bản gốc Web3 đưa ra. Bài viết này được viết bởi Mario Chow và Figo, @IOSG, và được biên soạn, biên soạn và đóng góp bởi BlockBeats. OpenAI Sam Altman: Tôi quan tâm đến việc mua lại Google Chrome!) Cuộc chiến trình duyệt lớn nhất ở các thị trường tham gia) (Nền được thêm vào: Perplexity cung cấp 34,5 tỷ đô la để mua lại trình duyệt Chrome, tay sai công cụ tìm kiếm AI chiến đấu với những gã khổng lồ) Trong 12 tháng qua, mối quan hệ giữa trình duyệt web và tự động hóa đã thay đổi đáng kể. Hầu hết tất cả các công ty công nghệ lớn đều đang tranh giành để xây dựng (browser agent) proxy trình duyệt của riêng họ. Từ cuối năm 2024, xu hướng này ngày càng trở nên rõ rệt hơn: OpenAI ra mắt chế độ Agent vào tháng Giêng, Anthropic phát hành "sử dụng máy tính" cho mô hình Claude, Google DeepMind ra mắt Project Mariner, Opera công bố trình duyệt proxy Neon và Perplexity AI ra mắt trình duyệt Comet. Tín hiệu rất rõ ràng: tương lai của AI nằm ở các tác nhân có thể điều hướng các trang web một cách tự động. Xu hướng này không chỉ là việc thêm chatbot thông minh hơn vào trình duyệt, mà còn là một sự thay đổi cơ bản trong cách máy móc tương tác với môi trường kỹ thuật số. Tác nhân trình duyệt là hệ thống AI "xem" các trang web và thực hiện hành động: nhấp vào liên kết, điền vào biểu mẫu, cuộn trang, nhập văn bản: giống như người dùng con người. Mô hình này hứa hẹn sẽ mở ra năng suất và giá trị kinh tế to lớn bằng cách tự động hóa các tác vụ vẫn còn thủ công hoặc quá phức tạp đối với kịch bản truyền thống. ▲ Bản demo GIF: Tác nhân trình duyệt AI đang hoạt động: làm theo hướng dẫn, điều hướng đến trang tập dữ liệu đích, tự động chụp ảnh màn hình và trích xuất dữ liệu cần thiết. Ai sẽ giành chiến thắng trong cuộc chiến trình duyệt AI? Hầu hết tất cả các công ty công nghệ lớn ( cũng như một số công ty khởi nghiệp ) đang phát triển các tác nhân AI trình duyệt của riêng họ. Dưới đây là một số dự án tiêu biểu nhất: OpenAI – Agent Mode của OpenAI ( tiền thân là Operator, ra mắt vào tháng 1 năm 2025 ) là một agent AI với trình duyệt riêng. Các nhà điều hành có thể xử lý nhiều tác vụ trực tuyến lặp đi lặp lại: điền vào biểu mẫu web, đặt hàng tạp hóa, lên lịch cuộc họp: tất cả thông qua giao diện web tiêu chuẩn thường được con người sử dụng. ▲ Các nhân viên AI lên lịch cuộc họp như trợ lý chuyên nghiệp: kiểm tra lịch, tìm các khoảng thời gian có sẵn, tạo sự kiện, gửi xác nhận và tạo tài liệu .ics cho bạn. Anthropic – "Sử dụng máy tính" của Claude Vào cuối năm 2024, Anthropic đã giới thiệu tính năng "Sử dụng máy tính ( )Use máy tính" mới cho Claude 3.5, mang lại cho nó khả năng vận hành máy tính và trình duyệt như con người. Claude có thể nhìn vào màn hình, di chuyển con trỏ, nhấp vào các nút và nhập văn bản. Đây là công cụ proxy mô hình lớn đầu tiên thuộc loại này bước vào bản beta công khai, cho phép các nhà phát triển cho phép Claude điều hướng các trang web và ứng dụng tự động. Anthropic định vị nó như một tính năng thử nghiệm với mục tiêu chính là tự động hóa quy trình làm việc nhiều bước trên các trang web. Sự bối rối - Công ty khởi nghiệp Comet AI Perplexity ( được biết đến nhiều nhất với công cụ Hỏi & Đáp ) ra mắt trình duyệt Comet vào giữa năm 2025 như một giải pháp thay thế được hỗ trợ bởi AI cho Chrome. Về cốt lõi, Comet là một công cụ tìm kiếm AI đàm thoại được tích hợp trong thanh URL (omnibox) cung cấp Hỏi & Đáp và tóm tắt tức thì thay vì các liên kết tìm kiếm truyền thống. Ngoài ra, Comet còn tích hợp Comet Assistant, một tác nhân cư trú trên thanh bên tự động hóa các tác vụ thông thường trên các trang web. Ví dụ: nó có thể tóm tắt các tin nhắn bạn mở, lên lịch cuộc họp, quản lý phân trang trình duyệt hoặc thay mặt bạn duyệt và thu thập dữ liệu thông tin web. Cho phép các đại lý nhận thức được nội dung web hiện tại thông qua giao diện thanh bên, Comet nhằm mục đích kết hợp liền mạch duyệt web với trợ lý AI. Các kịch bản ứng dụng trong thế giới thực của proxy trình duyệt Trong bài viết trước, chúng tôi đã xem xét cách ( các công ty công nghệ lớn như )OpenAI, Anthropic, Perplexity, v.v. đã (browser proxy trình duyệt thông qua các hình thức sản phẩm khác nhau agents) Chức năng Inject. Để hiểu giá trị của chúng một cách trực quan hơn, chúng ta có thể xem xét kỹ hơn cách những khả năng này có thể được áp dụng vào cuộc sống hàng ngày và quy trình làm việc của công ty trong các tình huống thực tế. Tự động hóa web hàng ngày # Thương mại điện tử và mua sắm cá nhân Một kịch bản rất thực tế là ủy thác các nhiệm vụ mua sắm và đặt phòng cho một đại lý. Nhân viên có thể tự động điền vào giỏ hàng trực tuyến của bạn và đặt hàng dựa trên danh sách cố định hoặc họ có thể tìm giá thấp nhất trên nhiều nhà bán lẻ và thay mặt bạn hoàn tất quy trình thanh toán. Đối với du lịch, bạn có thể yêu cầu AI thực hiện các tác vụ như: "Đặt cho tôi một chuyến bay đến Tokyo vào tháng tới ( giá vé dưới 800 đô la ) và đặt một khách sạn có Wi-Fi miễn phí". Đại lý xử lý toàn bộ quá trình: tìm kiếm chuyến bay, so sánh các tùy chọn, điền thông tin hành khách, hoàn thành đặt phòng khách sạn, tất cả thông qua các trang web của hãng hàng không và khách sạn. Mức độ tự động hóa này vượt xa các robot du lịch hiện có: nó không chỉ đề xuất mà còn trực tiếp thực hiện các giao dịch mua. # Cải thiện hiệu quả văn phòng Proxy có thể tự động hóa nhiều hành động kinh doanh lặp đi lặp lại mà mọi người thực hiện trong trình duyệt của họ. Ví dụ: sắp xếp email và trích xuất danh sách việc cần làm hoặc kiểm tra khoảng trống trong nhiều lịch và lên lịch cuộc họp tự động. Trợ lý sao chổi của Perplexity đã có thể tóm tắt nội dung hộp thư đến của bạn hoặc thêm chương trình làm việc cho bạn thông qua giao diện web. Các nhân viên cũng có thể đăng nhập vào công cụ SaaS để tạo báo cáo thường xuyên, cập nhật bảng tính hoặc gửi biểu mẫu sau khi được bạn ủy quyền. Hãy tưởng tượng một nhân viên nhân sự có thể tự động đăng nhập vào các bảng việc làm khác nhau để đăng công việc; Hoặc một đại lý bán hàng có thể cập nhật hồ sơ khách hàng tiềm năng cho hệ thống CRM. Những nhiệm vụ thông thường này sẽ tiêu tốn rất nhiều thời gian của nhân viên, nhưng AI có thể làm điều đó bằng cách tự động hóa các biểu mẫu web và hành động trang. Ngoài một tác vụ duy nhất, tổng đài viên có thể kết nối quy trình làm việc hoàn chỉnh trên nhiều hệ thống mạng. Tất cả các bước này cần được thực hiện trong các giao diện web khác nhau, đó là thế mạnh của tác nhân trình duyệt. Các nhân viên có thể đăng nhập vào các bảng điều khiển khác nhau để khắc phục sự cố và thậm chí điều phối các quy trình như giới thiệu nhân viên mới ( tạo ) tài khoản trên nhiều trang web SaaS. Về cơ bản, bất kỳ thao tác nhiều bước nào hiện yêu cầu nhấp vào nhiều trang web đều có thể được thực hiện bởi một nhân viên. Những thách thức và hạn chế ngày nay Bất chấp tiềm năng, proxy trình duyệt ngày nay vẫn còn lâu mới hoàn hảo. Các triển khai hiện tại cho thấy một số thách thức về kỹ thuật và cơ sở hạ tầng lâu dài: Kiến trúc không phù hợp Hiện đại...

AGENT-4.16%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)