Ngày 16 tháng 4 năm 2025, OpenAI đã chính thức giới thiệu hai mô hình lý luận AI mới là o3 và o4-mini, đánh dấu một bước tiến đáng kể trong năng lực trí tuệ nhân tạo của công ty. Điểm nổi bật nhất của các mô hình AI mới này chính là khả năng lý luận hình ảnh tiên tiến, mở ra những tiềm năng ứng dụng vượt trội trong nhiều lĩnh vực công nghệ.
Các Mô Hình AI Mới của OpenAI Có Thể “Tư Duy” với Hình Ảnh
OpenAI tuyên bố rằng các mô hình AI mới này có thể giải thích bất kỳ hình ảnh nào mà người dùng tải lên, từ bản phác thảo trên bảng trắng, sơ đồ trong sách giáo khoa cho đến tài liệu PDF đồ họa. Theo thông báo phát hành về OpenAI o3 và o4-mini, công ty chia sẻ:
Chúng không chỉ đơn thuần nhìn thấy một hình ảnh—chúng tư duy với nó. Điều này mở khóa một loại hình giải quyết vấn đề mới, kết hợp lý luận thị giác và văn bản, được thể hiện qua hiệu suất vượt trội trên các tiêu chuẩn đa phương thức hàng đầu.
Khả năng phân tích hình ảnh được tích hợp sâu vào chuỗi suy luận của các mô hình này. Các mô hình trí tuệ nhân tạo có thể phóng to, xoay hoặc cắt ảnh để cải thiện quá trình xử lý. Chúng cũng có thể xử lý tốt với cả những hình ảnh chất lượng thấp.
Ví dụ, khi giải quyết một bài toán khoa học liên quan đến sơ đồ, mô hình có thể phóng to vào một phần cụ thể của hình ảnh, thực hiện các phép tính bằng Python, sau đó tạo biểu đồ để giải thích kết quả của mình.
ChatGPT o4-mini minh họa khả năng lý luận và mô tả nội dung hình ảnh phức tạp
Trong quá trình lý luận, o3 và o4-mini có thể sử dụng linh hoạt tất cả các công cụ ChatGPT hiện có, bao gồm duyệt web, thực thi mã Python và tạo hình ảnh. Khả năng tác nhân (agentic capability) này cho phép chúng tự động sử dụng công cụ ChatGPT lý tưởng nhất cho một tác vụ nhất định. Người dùng và nhà phát triển có thể thực hiện các quy trình làm việc nhiều bước và giải quyết các tác vụ phức tạp.
Mô hình o4-mini-high là một biến thể của o4-mini, tập trung nhiều thời gian và công sức tính toán hơn cho mỗi yêu cầu để mang lại kết quả chất lượng cao hơn. Một số kịch bản ứng dụng phổ biến có thể bao gồm:
- Tạo và đánh giá các nghiên cứu trong sinh học, kỹ thuật và các lĩnh vực STEM khác, cung cấp lý luận từng bước chi tiết và giải thích trực quan.
- Tìm kiếm và tổng hợp thông tin từ nhiều nguồn, chẳng hạn như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ, để tạo ra các hiểu biết kinh doanh sâu sắc.
Các mô hình này đã được huấn luyện thông qua học tăng cường (reinforcement learning), một khái niệm cốt lõi trong AI. Giờ đây, chúng có thể xử lý tốt hơn các vấn đề mơ hồ vì chúng có thể lý luận khi nào nên sử dụng một công cụ cụ thể để đạt được kết quả mong muốn.
Các mô hình o3, o4-mini và o4-mini-high hiện đã có sẵn cho tất cả người dùng có tài khoản ChatGPT Plus, Pro và Team, với o3-pro dự kiến ra mắt trong những tuần tới. Bạn có thể thấy chúng trong menu lựa chọn mô hình. Người dùng miễn phí có thể thử nghiệm mô hình o4-mini bằng cách chọn tùy chọn Think trong trình soạn thảo trước khi gửi yêu cầu của họ.
Tiềm Năng Đột Phá của Khả Năng Đa Phương Thức trên ChatGPT
Bằng cách cho phép AI “tư duy bằng hình ảnh”, các mô hình AI mới của OpenAI có thể giải quyết các vấn đề trong thế giới thực đòi hỏi việc diễn giải cả văn bản và hình ảnh. Điều này bao gồm việc gỡ lỗi mã từ ảnh chụp màn hình, đọc văn bản viết tay, phân tích sơ đồ khoa học hoặc trích xuất thông tin chi tiết từ các biểu đồ phức tạp. Kết quả là, ChatGPT đã trở nên nhận thức ngữ cảnh tốt hơn đáng kể.
Các mô hình giờ đây tự động hơn. Chúng cũng có thể hiệu quả hơn, tự động điều chỉnh một mô hình cụ thể cho một tác vụ. Khi các tác nhân AI tự động này có thể xử lý các tác vụ phức tạp, nhiều bước, khả năng lý luận và trí tuệ thị giác của chúng trở nên quan trọng đối với các lĩnh vực như nghiên cứu, kinh doanh và công việc sáng tạo.
Với những nâng cấp đáng kể này, OpenAI đang tiếp tục khẳng định vị thế dẫn đầu trong việc phát triển trí tuệ nhân tạo, mang lại công cụ mạnh mẽ hơn cho cộng đồng người dùng toàn cầu.