Vào ngày 16 tháng 4 năm 2025, OpenAI đã chính thức giới thiệu hai mô hình suy luận trí tuệ nhân tạo (AI) mới mang tên o3 và o4-mini. Sự ra đời của chúng đánh dấu một bước tiến vượt bậc trong năng lực AI của công ty, đặc biệt thể hiện rõ nét qua khả năng suy luận hình ảnh đột phá, mở ra kỷ nguyên mới cho cách AI tương tác và xử lý thông tin.
Khả Năng “Suy Nghĩ” Bằng Hình Ảnh Của AI
OpenAI khẳng định rằng các mô hình AI mới này có thể diễn giải mọi loại hình ảnh mà bạn tải lên, từ một bản phác thảo trên bảng trắng, sơ đồ trong sách giáo khoa cho đến một tệp PDF đồ họa phức tạp. Theo thông báo chính thức về việc ra mắt o3 và o4-mini của OpenAI, các mô hình này “không chỉ nhìn thấy một hình ảnh – chúng suy nghĩ cùng với nó”. Điều này mở khóa một cấp độ giải quyết vấn đề mới, kết hợp chặt chẽ suy luận thị giác và văn bản, được chứng minh qua hiệu suất vượt trội của chúng trên các tiêu chuẩn đa phương thức hiện đại.
Mô hình AI o4-mini của ChatGPT giải thích chi tiết nội dung từ một hình ảnh phức tạp
Quá trình phân tích hình ảnh được tích hợp sâu vào chuỗi suy luận của các mô hình. Các mô hình AI có khả năng phóng to, xoay hoặc cắt hình ảnh để tối ưu hóa việc xử lý, và chúng vẫn hoạt động hiệu quả ngay cả với những hình ảnh chất lượng thấp. Chẳng hạn, khi giải quyết một bài toán khoa học liên quan đến sơ đồ, mô hình có thể phóng to một phần cụ thể của hình ảnh, thực hiện các phép tính bằng Python, sau đó tạo biểu đồ để giải thích kết quả.
Tích Hợp Công Cụ và Ứng Dụng Thực Tiễn Đột Phá
Trong quá trình suy luận, o3 và o4-mini có thể tự động sử dụng tất cả các công cụ ChatGPT có sẵn, bao gồm duyệt web, thực thi mã Python và tạo hình ảnh. Khả năng “agentic” này cho phép chúng tự động chọn công cụ ChatGPT lý tưởng cho từng tác vụ cụ thể. Người dùng và nhà phát triển giờ đây có thể thực hiện các quy trình làm việc đa bước và giải quyết các nhiệm vụ phức tạp một cách hiệu quả hơn.
o4-mini-high là một biến thể của o4-mini, dành nhiều thời gian và tài nguyên tính toán hơn cho mỗi yêu cầu để mang lại kết quả chất lượng cao hơn. Một số kịch bản ứng dụng trong đời sống và công việc bao gồm:
- Tạo và đánh giá các nghiên cứu trong sinh học, kỹ thuật và các lĩnh vực STEM khác, cung cấp lý giải chi tiết từng bước và giải thích trực quan.
- Tìm kiếm và tổng hợp thông tin từ nhiều nguồn như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ để tạo ra các hiểu biết kinh doanh sâu sắc.
Các mô hình này đã được đào tạo thông qua học tăng cường (reinforcement learning), một khái niệm cốt lõi trong lĩnh vực AI. Giờ đây, chúng có thể xử lý các vấn đề “mờ” tốt hơn, vì chúng có khả năng suy luận khi nào nên sử dụng một công cụ cụ thể để đạt được kết quả mong muốn. Các mô hình o3, o4-mini và o4-mini-high hiện đã có sẵn cho tất cả người dùng có tài khoản ChatGPT Plus, Pro và Team, với o3-pro dự kiến ra mắt trong những tuần tới. Người dùng miễn phí có thể trải nghiệm mô hình o4-mini bằng cách chọn tùy chọn “Think” trong giao diện trước khi gửi yêu cầu.
Tiềm Năng Ưu Việt Của Khả Năng Đa Phương Thức ChatGPT
Bằng cách cho phép AI “suy nghĩ bằng hình ảnh”, các mô hình mới của OpenAI có thể giải quyết các vấn đề thực tế đòi hỏi việc diễn giải cả văn bản và hình ảnh. Điều này bao gồm việc gỡ lỗi mã từ ảnh chụp màn hình, đọc văn bản viết tay, phân tích sơ đồ khoa học hoặc trích xuất thông tin từ các biểu đồ phức tạp. Kết quả là ChatGPT đã trở nên nhận thức bối cảnh tốt hơn đáng kể.
Các mô hình này giờ đây tự chủ hơn và cũng có thể hiệu quả hơn khi tự động điều chỉnh mô hình phù hợp với một tác vụ cụ thể. Với khả năng xử lý các nhiệm vụ phức tạp, đa bước, năng lực suy luận và trí tuệ thị giác của các tác nhân AI (AI agent) tự động này trở nên quan trọng đối với các lĩnh vực như nghiên cứu, kinh doanh và công việc sáng tạo. Đây là bước tiến mạnh mẽ, củng cố vị thế dẫn đầu của OpenAI trong việc định hình tương lai của trí tuệ nhân tạo.