ChatGPT đang chuẩn bị nhận được một bản nâng cấp khổng lồ, được thiết kế để tăng tốc cuộc sống của bạn và loại bỏ các tác vụ nền tảng nhàm chán, vốn làm chúng ta xao nhãng khỏi công việc, giải trí và nhiều hơn thế nữa. Tính năng mới ChatGPT Agent ra mắt khả năng duyệt web tự động hoàn toàn (agentic browsing) – và nó sẽ sớm đến tay bạn. Đây là một bước tiến vượt bậc của trí tuệ nhân tạo (AI), hứa hẹn biến ChatGPT thành một trợ lý cá nhân đa năng và có khả năng tự chủ.
OpenAI Nâng Tầm ChatGPT Với Sức Mạnh Vô Song
ChatGPT đang được trang bị khả năng sử dụng các tác nhân AI (AI agents) được tự động hóa hoàn toàn, được biết đến với tên gọi ChatGPT Agent. Hãy hình dung thế này: Cho đến nay, ChatGPT có thể duyệt web và tìm kiếm thông tin cho bạn, nhưng bạn vẫn cần duy trì sự tương tác và hướng dẫn quá trình nghiên cứu của nó.
Giao diện người dùng đang tương tác với ChatGPT Agent trong cửa sổ trò chuyện, chọn các tùy chọn để bắt đầu tác vụ tự động.
Tuy nhiên, giờ đây ChatGPT Agent có thể tự động hóa hoàn toàn mọi quy trình, yêu cầu và nhu cầu, hoàn thành các tác vụ gần như không cần người dùng nhập liệu. Theo nhiều cách, ChatGPT Agent kết hợp hai công cụ trước đây của OpenAI là Operator và Deep Research để tạo ra một công cụ mạnh mẽ hơn đáng kể, có khả năng tự chủ thực hiện các hành động. Operator là nỗ lực trước đây của OpenAI về một tác nhân AI, có khả năng duyệt web, đặt lịch và hoàn thành một số tác vụ cơ bản. Trong khi đó, Deep Research là một công cụ nghiên cứu chuyên sâu được thiết kế để đi sâu vào bất kỳ yêu cầu nào được đưa ra, tạo ra các báo cáo toàn diện chứa phân tích dữ liệu từ nhiều nguồn, nhưng nó không được thiết kế cho mức độ tương tác web tương tự như Operator.
Sự kết hợp các công cụ này với sức mạnh của AI tác nhân mang đến một công cụ có thể duyệt web hoàn toàn cho bạn, tính đến gần như mọi thông tin bạn cung cấp. Theo đó, ChatGPT Agent có thể truy cập “ChatGPT connectors” cho phép bạn liên kết các ứng dụng và tài khoản vào tác nhân, nơi nó có thể tìm thấy thông tin rất cụ thể về bạn và yêu cầu của bạn. Ví dụ, bạn có thể kết nối Gmail, ứng dụng lịch của mình, v.v., và biến AI tác nhân thành một trợ lý cá nhân toàn diện.
Hình ảnh minh họa cách ChatGPT Agent của OpenAI duyệt web một cách tự động, mô phỏng hành vi của con người để thu thập thông tin và hoàn thành nhiệm vụ.
Bạn có thể chia khả năng của ChatGPT Agent thành ba lĩnh vực chính:
- Tác vụ Tự động (Autonomous Tasks): ChatGPT Agent có thể hoàn thành các tác vụ phức tạp, nhiều bước mà không yêu cầu người dùng nhập liệu liên tục. Điều này bao gồm từ việc lập kế hoạch chuyến đi, quản lý lịch trình đến thực hiện các quy trình làm việc tự động.
- Duyệt web (Web Browsing): Tác nhân có thể duyệt web trong ChatGPT, mô phỏng chính xác một con người thật với các cú nhấp chuột và thao tác di chuyển. Nó cũng có thể điều hướng các biểu mẫu, điều rất quan trọng trong internet ngày nay. Đây là một máy tính ảo trong ChatGPT có cả giao diện dựa trên văn bản và trình duyệt trực quan, mà Agent có thể chọn sử dụng tùy theo tác vụ.
- Công cụ (Tools): OpenAI đã xác nhận rằng ChatGPT Agent có thể sử dụng tất cả các công cụ đã có sẵn để hoàn thành tác vụ của mình, chẳng hạn như truy cập API, thao tác tệp, nhập dữ liệu, suy luận và thậm chí lập trình để hoàn thành công việc. Ví dụ, Agent có quyền truy cập vào thiết bị đầu cuối của riêng nó để làm việc trên các tác vụ cụ thể hoặc sử dụng AI tạo sinh để tạo ra hình ảnh độc đáo.
ChatGPT Agent của OpenAI sử dụng các "connector" để liên kết với các ứng dụng và tài khoản khác, mở rộng khả năng thực hiện tác vụ cá nhân hóa.
Đây là mô hình đầu tiên mà OpenAI đã huấn luyện có thể di chuyển liền mạch giữa các chức năng khác nhau này và “hộp công cụ thống nhất” (unified toolbox). Sử dụng học tăng cường (reinforcement learning), Agent có thể quyết định khi nào nên sử dụng bất kỳ công cụ nào có sẵn, cho phép nó xử lý các yêu cầu và tác vụ phức tạp từng bước một. Theo thời gian, nó sẽ trở nên hiệu quả hơn trong việc hoàn thành tác vụ, tăng tốc quá trình và nâng cao độ chính xác.
ChatGPT Agent Liệu Có Tự Ý Hành Động? Vấn Đề Bảo Mật Ra Sao?
Buổi phát trực tiếp của OpenAI đã nêu bật một số tính năng bảo mật chính được tích hợp vào ChatGPT Agent.
Đầu tiên, mặc dù nó có thể hoàn thành các tác vụ theo yêu cầu, nhưng nó sẽ nhắc nhở bạn khi đến lúc gửi biểu mẫu, đăng nhập vào trang web và các tác vụ quan trọng khác. Những điểm dừng này được thiết kế để ngăn chặn các vấn đề phát sinh cụ thể trong những trường hợp này. Tự động hóa rất tuyệt vời, nhưng hiện tại, đầu vào của người dùng vẫn rất quan trọng.
OpenAI cũng đã huấn luyện Agent từ chối các yêu cầu nguy hiểm, không an toàn hoặc không rõ ràng mà nó không thể thực hiện. Nó được căn chỉnh mạnh mẽ với các tiêu chuẩn an toàn hiện có của OpenAI, đảm bảo nó không đi quá xa giới hạn hiện tại của ChatGPT. Điều này chắc chắn sẽ làm một số người khó chịu, những người tin rằng ChatGPT đã bị khóa quá nhiều, nhưng nó là điều hợp lý khi tung ra các tác nhân AI tự động ra thế giới. Hơn nữa, khi ra mắt, nó sẽ không thực hiện bất kỳ giao dịch mua sắm nào mà không có sự xác nhận.
Agent cũng đi kèm với một số công cụ mới để bảo vệ chống lại prompt injection, một loại tấn công độc hại mới tập trung vào các công cụ AI. Prompt injection là một vấn đề đối với tất cả các loại AI tạo sinh, nhưng nó đặc biệt đáng lo ngại khi các công cụ này bắt đầu duyệt web một cách tự chủ.
Theo đó, OpenAI đã xây dựng một số biện pháp bảo vệ mới vào Agent. Ví dụ, ChatGPT Agent chạy trong một môi trường sandbox (hộp cát). Mặc dù nó có thể thay đổi lịch của bạn, tải xuống tệp, v.v., nhưng OpenAI không muốn nó tương tác trực tiếp với hệ điều hành của bạn ở mức độ có thể gây hại, vì vậy nó cô lập công cụ. Ngoài ra, nó sử dụng các bộ phân loại cụ thể để xác định các cuộc tấn công prompt injection và các loại thao túng khác, đồng thời được thiết kế để ngăn chặn chúng.
Khi Nào ChatGPT Agent Chính Thức Ra Mắt?
Trên thực tế, trong một khoảnh khắc hiếm hoi đối với OpenAI, Sam Altman đã xác nhận rằng Agent đang được ra mắt ngay lập tức. Người đăng ký ChatGPT Pro sẽ nhận được 400 truy vấn mỗi tháng, trong khi người đăng ký Plus và Team có giới hạn hơn với 40 yêu cầu.
Tuy nhiên, giống như hầu hết các tính năng mới của ChatGPT, ngay cả khi nó được ra mắt ngay lập tức, vẫn mất vài ngày để tính năng này được cập nhật đến tài khoản cụ thể của bạn, ngay cả khi bạn đã đăng ký một trong các gói trên.
Đừng quên rằng, không gian duyệt web tác nhân trong trình duyệt là một lĩnh vực rất sôi động. Đầu năm 2025, Opera đã ra mắt trình duyệt tác nhân Neon ấn tượng của mình, trong khi Perplexity cũng đang thử nghiệm trình duyệt Comet được hỗ trợ bởi AI. Và đó là chưa kể đến gã khổng lồ chống vi-rút Norton cũng dự kiến sẽ ra mắt Neo, một trình duyệt được hỗ trợ bởi AI khác, vào khoảng năm 2025. Như đã nói, các trình duyệt được hỗ trợ bởi AI đang ở đây và chúng đang đến rất nhiều!
ChatGPT Agent là một bước tiến đáng kể, mang AI đến gần hơn với vai trò một trợ lý cá nhân tự động hoàn toàn. Với khả năng xử lý tác vụ phức tạp, duyệt web thông minh và tích hợp công cụ đa dạng, nó hứa hẹn sẽ tối ưu hóa đáng kể hiệu suất công việc và cuộc sống hàng ngày. Dù còn những lo ngại về bảo mật và giới hạn quyền tự chủ, OpenAI đã tích hợp nhiều lớp bảo vệ để đảm bảo an toàn cho người dùng. Hãy cùng chờ đợi và trải nghiệm sức mạnh của ChatGPT Agent để tận dụng tối đa những lợi ích mà công nghệ AI tự động hóa mang lại.