OpenAI vừa tung ra một bản nâng cấp “khủng” cho khả năng tạo hình ảnh của ChatGPT, và đây là một trong những khoảnh khắc khiến chúng ta phải dụi mắt, nhìn lại lần nữa, và bắt đầu tự hỏi về ranh giới giữa thực và ảo. Với cương vị là chuyên gia công nghệ tại thuthuat360.net, chúng tôi hiểu rằng cộng đồng người dùng Việt luôn khao khát những thông tin chính xác và chuyên sâu về các tiến bộ đột phá trong lĩnh vực AI. Thay vì đi sâu vào các con số phức tạp, kích thước mô hình hay số giờ GPU mà mô hình mới tiêu thụ, chúng tôi sẽ trực tiếp minh họa khả năng của công cụ này – và so sánh nó với mô hình DALL-E cũ để bạn thấy rõ sự khác biệt.
Bản nâng cấp này không chỉ đơn thuần là cải thiện chất lượng ảnh, mà nó còn giải quyết được nhiều “điểm yếu” cố hữu mà các công cụ AI tạo hình ảnh trước đây thường gặp phải, từ chi tiết nhỏ như ngón tay cho đến những cấu trúc phức tạp như văn bản. Mục tiêu của bài viết này là cung cấp cái nhìn khách quan và toàn diện về những gì ChatGPT 4o có thể làm được trong việc kiến tạo hình ảnh, từ đó giúp bạn đọc có cái nhìn sâu sắc hơn về tương lai của trí tuệ nhân tạo trong lĩnh vực sáng tạo thị giác.
ChatGPT 4o – Bước nhảy vọt về hình ảnh AI
Khi công nghệ tạo ảnh AI lần đầu tiên trở nên phổ biến, nó đã thực sự làm chúng ta kinh ngạc. Nhưng sau đó, khi nhìn kỹ hơn, chúng ta nhận ra những hạn chế cố hữu. Dấu hiệu nhận biết điển hình của một hình ảnh do AI tạo ra chính là chi tiết bàn tay và ngón tay kỳ lạ. Vậy còn cách nào tốt hơn để kiểm tra các mô hình AI ngoài việc yêu cầu chúng tái tạo một hợp âm guitar? Để dành phần “tinh hoa” đến cuối, chúng tôi đã thử nghiệm với mô hình DALL-E gốc trước, sau đó là công cụ tạo ảnh mới được tích hợp trong mô hình ChatGPT 4o.
1. Tay và ngón tay: “Nỗi ám ảnh” của AI giờ ra sao?
Chúng ta sẽ bắt đầu với thử thách kinh điển của AI tạo ảnh: bàn tay và ngón tay. Yêu cầu đặt ra là: “Một cận cảnh người đang chơi hợp âm E thứ trên đàn guitar, các ngón tay ấn xuống dây đàn với độ sâu trường ảnh nông.”
Hình ảnh một bàn tay chơi hợp âm E thứ trên đàn guitar, tạo bởi DALL-E với lỗi ngón tay và dây đàn không chính xác
Hình trên là kết quả mà DALL-E đưa ra. Mặc dù DALL-E thường có những hạn chế nhất định, nhưng trong trường hợp này, nó thực sự xử lý các ngón tay và giải phẫu tổng thể khá tốt. Tuy nhiên, hợp âm đàn thì… không hề. Vị trí bàn tay nằm quá cao trên cần đàn để có thể chơi hợp âm E thứ. Nếu phóng to một chút, bạn sẽ thấy cây đàn guitar có hơn bảy dây, và khoảng cách giữa các dây cũng không đồng đều.
Với những điểm đó, hãy cùng chuyển sang ChatGPT 4o.
Bàn tay chơi hợp âm E thứ trên đàn guitar được tạo bởi ChatGPT 4o, thể hiện sự chân thực đáng kinh ngạc trong từng ngón tay và dây đàn
Chúng tôi đã có thể nói đùa rằng đây là một bức ảnh cũ từ thời chúng tôi còn chơi guitar. ChatGPT 4o thực sự xuất sắc đến vậy. Sáu dây đàn, khoảng cách đều đặn, và hợp âm trông giống như hợp âm E thứ thật. Thật ấn tượng!
2. Nhân vật lịch sử: Khi AI “hồi sinh” huyền thoại
Giờ đây, khi đã “thử thách” bàn tay và ngón tay, hãy cùng “chọc phá” một chút với khuôn mặt. Chúng tôi quyết định thử nghiệm với các nhân vật lịch sử vì họ sẽ không cảm thấy “bị xúc phạm”, và sẽ rất thú vị khi thấy họ trong bối cảnh hiện đại.
Yêu cầu được đưa ra là: “Albert Einstein đang ăn kem ở Công viên Trung tâm, mặc áo sơ mi thường ngày và quần yếm.”
Hình ảnh người đàn ông giống Albert Einstein ăn kem ở Công viên Trung tâm, được DALL-E tạo ra với phong cách bán hoạt hình và thiếu chân thực
Một sự thất vọng toàn tập. Công bằng mà nói, DALL-E đã cảnh báo rằng nó không thể sử dụng hình ảnh chính xác của Einstein mà sẽ tạo ra một người “rất giống”. Một trong những dấu hiệu cổ điển của DALL-E là phong cách vừa hoạt hình vừa thực tế, điều này thể hiện rõ ràng ở đây. Tòa nhà San Remo ở hậu cảnh có gợi ý rằng đây là Công viên Trung tâm, nhưng đó là điểm cộng duy nhất. Tiếp tục với ChatGPT 4o.
Chân dung người giống Albert Einstein ăn kem trong Công viên Trung tâm do ChatGPT 4o tạo, trông như một bức ảnh cổ điển sống động
Chỉ cần áp dụng bộ lọc đen trắng, chúng tôi đã có thể thuyết phục bạn rằng đây là một bức ảnh cổ điển có thật. Kem trên ốc quế trông rất thật, Albert toát lên vẻ thờ ơ đặc trưng của mình, và tòa nhà San Remo vẫn đứng sừng sững ở phía sau. Mọi thứ đều khớp. ChatGPT 4o đã làm rất tốt.
3. Nhân vật hư cấu: Từ Sith Lord đến Geralt
Đến đây, chúng ta đã thấy rằng ChatGPT có thể “vẽ” các nhân vật lịch sử khá tốt. Vì khuôn mặt và con người vẫn là một trong những cách tốt nhất để kiểm tra khả năng của AI, hãy thử thêm một số trường hợp khác.
Yêu cầu đầu tiên: “Một nhân vật giống Sith Lord đang gọi taxi ở Quảng trường George, Glasgow, với mưa nhẹ và đèn giao thông ở hậu cảnh.”
Hình ảnh nhân vật giống Sith Lord đứng tại Quảng trường George, Glasgow do DALL-E tạo, với phong cách không thực tế và thiếu chi tiết
Chúng tôi sử dụng từ “giống” để bot hợp tác mà không gặp phải vấn đề bản quyền. Kết quả của DALL-E tạm ổn. Nhân vật này gợi nhớ đến một Sith, và các yếu tố còn lại ít nhiều chính xác. Không có gì hoạt hình rõ ràng về nó, nhưng nó không mang lại cảm giác thật. Bạn muốn hình ảnh thật? Hãy xem những gì ChatGPT 4o đã tạo ra với cùng một prompt:
Nhân vật giống Sith Lord gọi taxi ở Glasgow trong hình ảnh ChatGPT 4o, tạo không khí u ám và chân thực nhưng có lỗi chính tả biển taxi
Chúng tôi yêu không khí của bức ảnh – ánh sáng, mưa phùn, và sự hiện diện của chúa tể Sith đầy u ám. Mọi thứ đều có. Vấn đề duy nhất là chúa tể bóng tối của chúng ta đang đứng trên phố gọi taxi trong khi lại hướng mặt về phía… vỉa hè. Ồ, và biển taxi ghi “TAXL”.
Hãy chuyển từ khoa học viễn tưởng tương lai sang giả tưởng lịch sử. Một cái gì đó như: “Một nhân vật giống Geralt of Rivia đang mua sắm đồ tạp hóa trong một siêu thị hiện đại, đẩy xe đẩy và cau mày nhìn những lon đồ hộp.”
Người đàn ông tóc trắng, sẹo mặt giống thợ săn quái vật giả tưởng mua sắm trong siêu thị hiện đại, tạo bởi DALL-E với lỗi văn bản lộn xộn
Không tệ chút nào. Hình ảnh vẫn mang phong cách hoạt hình tổng hợp và văn bản trên hộp ngũ cốc hoàn toàn là “ngôn ngữ người ngoài hành tinh”, như mong đợi.
ChatGPT 4o ban đầu từ chối yêu cầu vì vấn đề bản quyền – nhưng nó đã hoạt động khi chúng tôi thay thế “giống với” bằng “tái tạo hình ảnh”. Hãy chiêm ngưỡng:
Hình ảnh người đàn ông giống Geralt of Rivia cau mày nhìn đồ hộp trong siêu thị hiện đại, do ChatGPT 4o tạo ra với độ chân thực cao
Chúng tôi thực sự cạn lời. Giống như hầu hết mọi người, phiên bản Geralt của ChatGPT về cơ bản là Henry Cavill, không phải phiên bản trong trò chơi điện tử – nhưng nó đã thể hiện rất tốt. Nét cau mày rất đúng, và bối cảnh tạo cảm giác tự nhiên. Bức ảnh này có thể được dùng làm cảnh quay từ một quảng cáo crossover kỳ lạ.
4. Phong cách hoạt hình: Tối ưu cho mọi mục đích
Khả năng tạo hình ảnh của OpenAI không chỉ giới hạn ở phong cách chân thực. Mặc dù DALL-E luôn có xu hướng hơi “màu mè” bất kể bạn yêu cầu gì, chúng tôi quyết định đẩy cả hai mô hình vào chế độ hoạt hình hoàn toàn.
Yêu cầu: “Một thuyền trưởng cướp biển phong cách hoạt hình với áo khoác đỏ dài và cánh tay điều khiển học, đang cười trên boong tàu bay. Nền trong suốt.”
Thuyền trưởng cướp biển phong cách hoạt hình với cánh tay cyborg trên tàu bay, được DALL-E tạo ra nhưng nền trong suốt bị lỗi
DALL-E thực sự đã làm khá tốt ở đây – và nó thậm chí còn hiểu yêu cầu về nền trong suốt. Đại khái là vậy. Những gì chúng tôi nhận được là mẫu nền bàn cờ màu xám-trắng cổ điển thường có nghĩa là trong suốt… ngoại trừ ở đây, nó đã được “nướng” vào hình ảnh. Vì vậy, hoàn toàn không trong suốt. Ngoài ra, trớ trêu thay, bàn tay sinh học của tên cướp biển AI của chúng ta có bốn ngón tay trong khi cánh tay điều khiển học lại có năm ngón. Có lẽ anh ta đã “lắp nhầm” cánh tay?
Hình ảnh thuyền trưởng cướp biển hoạt hình có cánh tay cơ khí trên tàu bay do ChatGPT 4o tạo, với chất lượng sắc nét và nền trong suốt
Phiên bản của ChatGPT 4o cho cảm giác sắc nét và cố ý hơn. Phong cách tô màu khác biệt – dù tốt hơn hay không còn tùy thuộc vào cảm nhận chủ quan – nhưng nó rõ ràng trông giống như một nghệ sĩ cố tình vẽ theo cách đó. Nền cũng thực sự trong suốt. Bạn có thể in nó lên áo phông, in ra, hoặc thậm chí biến nó thành một sticker WhatsApp ngay lập tức.
5. Gương và phản chiếu: Thử thách “hack não” AI
Gương phản chiếu – và các phản chiếu cần logic không gian để trông tự nhiên. Chúng tôi đã đưa ra một yêu cầu mà chúng tôi biết DALL-E sẽ “loạng choạng”.
Yêu cầu đầu tiên: “Một bồn rửa phòng tắm hiện đại với bàn chải đánh răng và dao cạo trên quầy, cả hai đều hiển thị trong gương và ở góc nhìn thực tế – ánh sáng dịu và đều.”
Bồn rửa mặt hiện đại với bàn chải đánh răng và dao cạo, tạo bởi DALL-E nhưng phản chiếu trong gương và vị trí vật thể bị lỗi
Đúng như dự đoán. Một cái gì đó đang cố gắng là phản chiếu từ vòi nước trong gương, nhưng nó quá dài. Bàn chải đánh răng đang lơ lửng, bên trong bồn rửa, và không có phản chiếu. DALL-E thực sự đã “đội mũ bảo hiểm AI” của mình cho cái này.
Bồn rửa mặt hiện đại với phản chiếu gương tương đối chân thực do ChatGPT 4o tạo, dù bàn chải đánh răng không xuất hiện trong thực tế
Mô hình mới làm tốt hơn nhiều trong việc làm cho hình ảnh có cảm giác thật, giống như một bức ảnh chụp thực tế. Phản chiếu của vòi nước hơi lệch nhưng vẫn chấp nhận được. Sau đó là bàn chải đánh răng, nó có phản chiếu nhưng lại không tồn tại trong thế giới vật lý – giống như một “ma cà rồng ngược”. Không có người chiến thắng rõ ràng ở đây. Kết quả của AI không nhất quán, vì vậy chúng tôi đã thử lại cả hai với một yêu cầu tham vọng hơn một chút:
“Một người phụ nữ đứng trước gương toàn thân trong phòng ngủ tràn ngập ánh nắng, trang phục và tư thế của cô ấy được phản chiếu chính xác, với hình ảnh cửa sổ phía sau cô ấy hiện rõ trong gương.”
Người phụ nữ đứng trước gương trong phòng ngủ nắng, được DALL-E tạo ra với lỗi phản chiếu nghiêm trọng, hình ảnh bị biến dạng
…Chúng tôi thậm chí không muốn phân tích cái này. Thưa quý vị, nếu bạn muốn làm DALL-E trông tệ, chỉ cần thêm từ “gương” vào yêu cầu của bạn. Bỏ qua.
Người phụ nữ trước gương trong phòng ngủ nắng do ChatGPT 4o tạo, phản chiếu trông siêu thực như hiệu ứng Photoshop 3D
Đúng như mong đợi, phiên bản của ChatGPT 4o trông thực tế hơn nhiều – nhưng lần này có lẽ hơi siêu thực? Tư thế và trang phục của người phụ nữ được phản chiếu, nhưng chỉ một phần, giống như hiệu ứng “pop-out 3D” trong Photoshop. Các góc phản chiếu cũng bị lệch. AI vẫn chưa thể xử lý logic không gian hoàn hảo.
6. Xe cộ và đường phố: Độ chính xác đến từng chi tiết
Là một người đam mê ô tô, khi các công cụ tạo ảnh AI lần đầu xuất hiện, một trong những điều đầu tiên chúng tôi thử là tạo ảnh ô tô. Kết quả lúc đó không tốt, nhưng với mô hình mới ra mắt, chúng tôi phải thử lại.
Yêu cầu: “Một chiếc Ford GT 2006 và một chiếc Peugeot 206 phía sau đèn giao thông màu đỏ trên Phố Wall, New York, giữa trưa.”
Xe Ford GT 2006 và Peugeot 206 dừng đèn đỏ trên Phố Wall, New York do DALL-E tạo với phong cách hoạt hình và nhiều chi tiết sai
DALL-E lại tiếp tục với phong cách hoạt hình ngày càng khó chịu của nó. Chiếc Peugeot nằm trên vỉa hè, đèn giao thông chúng tôi yêu cầu lại quay mặt vào các tòa nhà, và biển số xe đều là chữ “ngôn ngữ người ngoài hành tinh”.
Hình ảnh Ford GT 2006 và Peugeot 206 dừng đèn đỏ tại Phố Wall, New York, được ChatGPT 4o tạo với độ chi tiết cao và chân thực
Kết quả của ChatGPT 4o tốt hơn đáng kể. Các chiếc xe được miêu tả đúng đắn – ngay cả nắp chụp la-zăng của Peugeot cũng chính xác và đúng thời đại. Loại chi tiết đó không phải ngẫu nhiên. Nhưng điều thú vị còn hơn nữa:
Cảnh xe Ford GT 2006 và Peugeot 206 trên đường phố New York vào buổi trưa, hình ảnh tạo bởi ChatGPT 4o trông như ảnh chụp thật
Chúng tôi thực sự có thể sử dụng bức ảnh này làm hình nền điện thoại của mình. Ánh sáng, bố cục, phản chiếu – mọi thứ đều khớp. Ngoài sự trống rỗng kỳ lạ của con phố, bức ảnh này có thể được xem là một bức ảnh thật.
7. Văn bản và chữ viết: “Gót chân Achilles” đã được chữa lành?
Cuối cùng, chúng ta nhắm vào “gót chân Achilles” của mọi công cụ tạo hình ảnh. Hầu hết các AI tạo hình ảnh đều gặp khó khăn trong việc hiển thị văn bản đúng. Đến giờ, bạn đã thấy đủ các “ngôn ngữ người ngoài hành tinh” từ DALL-E trong các ví dụ trước để hiểu ý chúng tôi. Để làm cho nó thú vị hơn – và nhất quán – chúng tôi đã thêm yêu cầu rằng bức thư phải chứa nội dung bài phát biểu của Vua Terenas gửi Arthas từ Warcraft III.
Yêu cầu: “Một bức thư viết tay trên giấy cũ kỹ với chữ viết tay nét hoa, đặt cạnh bút máy và lọ mực.”
Bức thư viết tay trên giấy cổ điển cùng bút máy và lọ mực, tạo bởi DALL-E nhưng chữ viết bị biến dạng, không đọc được
DALL-E đã làm những gì nó làm tốt nhất với văn bản: biến nó thành một mớ chữ nhòe nhoẹt, không thể đọc được. Nó cố gắng viết đúng một vài từ, và không khí thì ổn – bút và lọ mực trông vững chắc.
Bức thư viết tay với nội dung bài phát biểu của Vua Terenas, được ChatGPT 4o tái tạo hoàn hảo từng chữ cái trên giấy cổ
ChatGPT 4o đã làm xuất sắc – từng chữ một, với chữ viết tay nét hoa rõ ràng. Hoàn hảo từng chữ cái. So với DALL-E, đây là một bước tiến vượt bậc. Xin chúc mừng, OpenAI.
Kết luận: ChatGPT 4o và Tương lai Tạo Ảnh AI
Công nghệ tạo hình ảnh bằng trí tuệ nhân tạo đã đi một chặng đường dài, và điều đó thể hiện rõ nét qua bản cập nhật này. ChatGPT 4o mang đến cảm giác như mô hình đầu tiên thực sự hiểu được các yếu tố như ánh sáng, chất liệu và ngữ cảnh. Khả năng tái tạo chi tiết phức tạp như ngón tay, khuôn mặt và đặc biệt là văn bản đã chứng minh một bước nhảy vọt đáng kinh ngạc trong lĩnh vực AI tạo ảnh. Mặc dù vẫn còn một vài điểm chưa hoàn hảo, ví dụ như lỗi nhỏ trong phản chiếu gương hay sự trống trải bất thường của một số khung cảnh đường phố, nhưng nhìn chung, độ chân thực và khả năng kiểm soát chi tiết của ChatGPT 4o đã vượt xa các đối thủ và phiên bản tiền nhiệm.
Tại thời điểm này, câu hỏi thực sự còn lại là: các biện pháp bảo vệ của ChatGPT mạnh đến mức nào? Chúng tôi dễ dàng vượt qua các hạn chế về bản quyền của nó trong một số trường hợp. Sẽ mất bao lâu trước khi ai đó có thể “jailbreak” ChatGPT và bắt đầu tạo ra bất kỳ nội dung nào họ muốn bằng cách sử dụng mô hình cực kỳ mạnh mẽ này? Thuthuat360.net sẽ tiếp tục theo dõi và cập nhật những diễn biến mới nhất về công nghệ AI, mang đến cho độc giả cái nhìn sâu sắc và đáng tin cậy nhất. Hãy tiếp tục theo dõi chúng tôi để không bỏ lỡ những thông tin công nghệ nóng hổi và hữu ích!