Skip to content

Thủ Thuật 360

  • Sample Page

Thủ Thuật 360

  • Home » 
  • Thủ Thuật Máy Tính » 
  • Thí Nghiệm AI Tạo Ảnh: Prompt Từ AI Có Giúp Ảnh Vượt Trội Hơn?

Thí Nghiệm AI Tạo Ảnh: Prompt Từ AI Có Giúp Ảnh Vượt Trội Hơn?

By Administrator Tháng 8 19, 2025 0
Hình ảnh vuông được tạo bởi AI, thể hiện các cạnh và góc vuông một cách rõ ràng
Table of Contents

Các mô hình AI tạo ảnh đang phát triển với tốc độ chóng mặt, nhưng việc chúng tạo ra những hình ảnh chất lượng thấp hoặc đáng ngờ vẫn khá phổ biến. Dễ dàng để đổ lỗi cho prompt của con người là nguyên nhân của vấn đề này, nhưng liệu AI có dễ dàng làm việc hơn nếu chỉ xử lý các prompt do chính AI tạo ra? Để tìm câu trả lời, chúng tôi tại thuthuat360.net đã thực hiện một thí nghiệm chuyên sâu, nhằm đánh giá khả năng thực sự của các công cụ AI tạo hình ảnh hàng đầu khi được cung cấp “ngôn ngữ” của chính chúng. Liệu đây có phải là chìa khóa để khai thác tối đa tiềm năng của công nghệ AI tạo ảnh, hay những hạn chế cố hữu vẫn sẽ tồn tại dù prompt có hoàn hảo đến đâu?

Quy Tắc Thí Nghiệm Đánh Giá Khả Năng Của AI Tạo Ảnh

Khi các mô hình AI tạo hình ảnh ra đời vài năm trước, nhiều người đã nghĩ rằng đây sẽ là dấu chấm hết cho những người làm việc trong lĩnh vực truyền thông thị giác. Tuy nhiên, điều này đã không xảy ra. Mặc dù có khả năng tạo ra những bức ảnh siêu thực tế, hình ảnh AI thường rơi vào danh mục khó đoán, đặc biệt nếu bạn yêu cầu một thứ gì đó phức tạp hơn một chút (ví dụ, AI thường gặp khó khăn với các chi tiết như bàn tay).

Bạn có thể đổ lỗi cho chính các mô hình AI về vấn đề này, hoặc cho sự bất hợp lý của con người và kỹ năng tạo prompt không nhất quán của chúng ta. Cách tự nhiên để kiểm tra ai là người đáng trách là xem liệu các mô hình tạo hình ảnh có mang lại kết quả tốt hơn nếu bạn nhập prompt do chính AI tạo ra hay không.

Để kiểm tra giả thuyết này, chúng tôi sẽ sử dụng Gemini để tạo một loạt các prompt, tránh đề cập trực tiếp đến tên của đối tượng hoặc bức ảnh mà chúng tôi muốn tạo. Điều này sẽ giúp kiểm tra khả năng “đọc hiểu” hướng dẫn của AI. Dĩ nhiên, vẫn có khả năng mô hình sẽ lấy cảm hứng mạnh mẽ từ dữ liệu mà nó đã được huấn luyện (đặc biệt khi tái tạo những bức ảnh hiện có), nhưng đây là một phần của thử thách.

Công cụ được chọn để tạo hình ảnh trong thí nghiệm này là Bing Image Creator, vốn được xây dựng dựa trên DALL-E 3. Để kiểm tra kỹ lưỡng khả năng của mô hình, chúng tôi sẽ bắt đầu với các hình dạng đơn giản và chuyển sang những hình ảnh phức tạp hơn khi thí nghiệm tiến triển.

Nếu bạn đã từng sử dụng ChatGPT hay các công cụ tương tự, bạn chắc chắn đã nhận thức được những câu trả lời có thể trở nên lan man như thế nào, và điều đó cũng không khác biệt với các prompt mà Gemini đưa ra trong quá trình chạy thử nghiệm của chúng tôi. Do đó, chúng tôi quyết định giới hạn mỗi prompt ở 500 ký tự để đảm bảo tính nhất quán.

AI Xử Lý Các Hình Dạng Đơn Giản Như Thế Nào?

Hãy bắt đầu với một hình vuông đơn giản. Chúng tôi yêu cầu Gemini mô tả một hình vuông mà không gọi tên nó, và đây là kết quả:

“Một hình có bốn cạnh với tất cả các cạnh có chiều dài bằng nhau. Mỗi góc bên trong đo chính xác 90 độ. Đó là một hình tứ giác đều với các cạnh đối song song.”

Sau khi đưa mô tả này vào DALL-E 3, chúng tôi nhận được kết quả sau:

Hình ảnh vuông được tạo bởi AI, thể hiện các cạnh và góc vuông một cách rõ ràngHình ảnh vuông được tạo bởi AI, thể hiện các cạnh và góc vuông một cách rõ ràng

Đúng là một hình vuông, mặc dù AI dường như đã thêm quá nhiều chi tiết hình học không cần thiết. Đã đến lúc tăng độ khó, vì vậy chúng tôi yêu cầu AI mô tả một khối lập phương.

“Một hình ba chiều với sáu mặt giống hệt nhau. Mỗi mặt là một hình tứ giác đều với bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có chiều dài bằng nhau và tám đỉnh. Tất cả các góc trong hình đều là góc vuông.”

Kết quả nhận được khá bất ngờ:

Hình ảnh một khối Rubik's lập phương được AI tạo ra trên nền trắngHình ảnh một khối Rubik's lập phương được AI tạo ra trên nền trắng

Bạn còn nhớ chúng tôi đã nói gì về sự khó đoán của các mô hình AI chứ? Ở đây, DALL-E 3 đã tạo ra một khối lập phương, nhưng nó đã hơi nhầm lẫn và biến nó thành một khối Rubik. Mặc dù chúng tôi đã tránh từ “Rubik” một cách triệt để, AI vẫn hiểu sai một phần – có lẽ do sự phổ biến của món đồ chơi trí tuệ này.

Khả Năng Tái Tạo Ảnh Chụp Với Chủ Thể Con Người Của AI

Tình huống với khối lập phương cho thấy rằng ngay cả với một mô tả chi tiết và “khách quan”, AI vẫn có thể hiểu sai những hướng dẫn khá trực tiếp. Vậy hãy xem AI sẽ làm thế nào với các mô tả do chính nó tạo ra về những bức ảnh kinh điển, chẳng hạn như “Migrant Mother” của Dorothea Lange. Đây là bức ảnh gốc:

Bức ảnh kinh điển "Migrant Mother" của Dorothea Lange, khắc họa người mẹ và các con trong thời kỳ Đại Suy ThoáiBức ảnh kinh điển "Migrant Mother" của Dorothea Lange, khắc họa người mẹ và các con trong thời kỳ Đại Suy Thoái

Và đây là mô tả của Gemini:

“Một người phụ nữ, khuôn mặt khắc sâu nỗi lo lắng, nhìn ra ngoài khung hình. Cô được bao quanh bởi các con mình, mặt chúng bị che khuất hoặc quay đi. Bàn tay cô đặt gần mặt, thể hiện sự kiệt sức và lo âu. Cảnh này gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn cũ, và tổng thể bố cục u ám, nhấn mạnh gánh nặng hoàn cảnh của cô.”

Đây là bản diễn giải của DALL-E 3 về bức ảnh nổi tiếng này:

Hình ảnh do AI tạo ra mô phỏng bức ảnh "Migrant Mother" với người phụ nữ và trẻ emHình ảnh do AI tạo ra mô phỏng bức ảnh "Migrant Mother" với người phụ nữ và trẻ em

Khá gần! Không hoàn toàn chính xác, vì DALL-E 3 rõ ràng đã bỏ qua phần “được bao quanh bởi các con mình, mặt chúng bị che khuất hoặc quay đi” và thay vì người “mẹ” đặt tay gần mặt, một trong những đứa trẻ đã đảm nhận vai trò đó.

Hãy thử một thứ gì đó phức tạp hơn. Bạn có thể đã thấy bức ảnh mang tính biểu tượng “Lunch atop a Skyscraper”:

Bức ảnh đen trắng nổi tiếng "Lunch atop a Skyscraper" chụp những công nhân đang ăn trưa trên dầm thép cao chót vótBức ảnh đen trắng nổi tiếng "Lunch atop a Skyscraper" chụp những công nhân đang ăn trưa trên dầm thép cao chót vót

Đây là prompt được tạo bởi AI:

“Mười một người đàn ông ngồi trên một dầm thép, lơ lửng trên không. Họ đang ăn trưa, chân buông thõng. Dầm thép được treo lơ lửng trên một thành phố rộng lớn. Những người đàn ông có vẻ thư thái, bất chấp độ cao cực lớn. Họ mặc quần áo lao động, và cảnh được chụp từ một góc hơi thấp, nhấn mạnh độ cao.”

Prompt xuất sắc này đã mang lại kết quả đáng kinh ngạc:

Hình ảnh do AI tạo ra tái hiện cảnh công nhân ăn trưa trên dầm thép cao giống bức ảnh kinh điểnHình ảnh do AI tạo ra tái hiện cảnh công nhân ăn trưa trên dầm thép cao giống bức ảnh kinh điển

Khi bỏ qua các dấu hiệu kinh điển của một hình ảnh do AI tạo ra (như những chiếc bát giống hệt nhau và các chủ thể bị “copy-paste”), bức ảnh này gần như không thể tin được về bố cục và không khí tổng thể. Tuy nhiên, điều này không quá ngạc nhiên – không chỉ bức ảnh này siêu phổ biến mà nó còn thuộc phạm vi công cộng, vì vậy chúng tôi có lý do để nghi ngờ rằng DALL-E 3 đã “nuốt chửng” nội dung của nó trong quá trình huấn luyện.

AI Có Thể Xử Lý Các Bức Ảnh Phức Tạp Đến Đâu?

Vì đây là “thử thách” cuối cùng trong thí nghiệm, chúng tôi sẽ tăng độ khó lên tối đa! Mặc dù AI khá tốt với các chủ thể con người, nó thường gặp khó khăn khi đối mặt với những cảnh phức tạp và “bí ẩn” hơn. Vậy còn bức ảnh mang tính biểu tượng “Earthrise” được chụp từ quỹ đạo mặt trăng trên tàu Apollo 8 thì sao?

Bức ảnh "Earthrise" nổi tiếng của NASA, chụp Trái Đất mọc từ quỹ đạo Mặt TrăngBức ảnh "Earthrise" nổi tiếng của NASA, chụp Trái Đất mọc từ quỹ đạo Mặt Trăng

Mô tả từ Gemini:

“Một quả cầu được chiếu sáng một phần lơ lửng trong không gian tối. Một quả cầu nhỏ hơn, có tông màu xám, mọc lên phía trên đường chân trời của nó. Quả cầu lớn hơn hiển thị các màu xanh lam và trắng lốm đốm, gợi ý nước và mây. Sự tương phản rõ rệt giữa hai quả cầu và bóng tối nhấn mạnh sự mong manh và cô lập của quả cầu nhỏ hơn đang mọc lên.”

Gemini thực sự đã “đánh rơi quả cầu” (hay nên nói là “quả cầu trừu tượng”) với mô tả này. Xem xét đây là một khái niệm quá trừu tượng, chúng tôi đã thêm cụm từ “được chụp từ quỹ đạo mặt trăng gần” vào prompt, nhưng điều đó không giúp ích nhiều:

Hình ảnh được AI tạo ra với Mặt Trăng ở tiền cảnh và Trái Đất ở hậu cảnh, không giống ảnh "Earthrise"Hình ảnh được AI tạo ra với Mặt Trăng ở tiền cảnh và Trái Đất ở hậu cảnh, không giống ảnh "Earthrise"

Đây là một bìa album progressive rock tuyệt vời, nhưng nó không liên quan gì đến “Earthrise”. Để kết thúc thí nghiệm, chúng tôi đã chọn bức ảnh ít được biết đến nhất cho đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:

Bức ảnh đen trắng "Armco Steel" của Edward Weston, mô tả cảnh công nghiệp với các ống khói và cấu trúc kim loạiBức ảnh đen trắng "Armco Steel" của Edward Weston, mô tả cảnh công nghiệp với các ống khói và cấu trúc kim loại

Mô tả từ Gemini:

“Một loạt các bể công nghiệp kim loại, tròn đầy khung hình. Các hình dạng của chúng trơn tru và phình to, tạo ra một mô hình lặp lại. Ánh sáng phản chiếu trên bề mặt, làm nổi bật các hình dạng cong và tạo cảm giác về khối lượng. Bố cục nhấn mạnh các phẩm chất trừu tượng của các vật thể công nghiệp, tập trung vào hình dạng và kết cấu hơn là chức năng của chúng. Cảnh tượng trần trụi và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”

Có vẻ đây là một prompt tốt, hãy xem DALL-E 3 có đồng ý không:

Hình ảnh do AI tạo ra với một loạt các hình trụ sáng bóng xếp hàng ngang, không giống ảnh "Armco Steel"Hình ảnh do AI tạo ra với một loạt các hình trụ sáng bóng xếp hàng ngang, không giống ảnh "Armco Steel"

Mặc dù chúng tôi đánh giá cao phong cách khoa học viễn tưởng mà AI tạo ra, nhưng nó không giống chút nào với bản gốc. Chúng tôi không muốn kết thúc thí nghiệm với một thất bại lớn, vì vậy chúng tôi quyết định “giúp” máy bằng cách thêm thuật ngữ “bức ảnh những năm 1920” vào cuối prompt.

Suy nghĩ của chúng tôi là thuật ngữ cụ thể đó có thể giúp làm rõ bức ảnh mà chúng tôi muốn đề cập. Thật không may, AI một lần nữa làm chúng tôi thất vọng và tạo ra một bìa album prog rock khác:

Ảnh AI tạo ra các khối trụ lớn có đỉnh tròn, kết quả sau khi thêm "1920s photograph" vào promptẢnh AI tạo ra các khối trụ lớn có đỉnh tròn, kết quả sau khi thêm "1920s photograph" vào prompt

Kết quả của thí nghiệm này thực sự thú vị, và kết luận mà chúng ta có thể rút ra là AI tạo hình ảnh vẫn cực kỳ khó đoán, đặc biệt là với các khái niệm trừu tượng. Không quan trọng prompt được tạo ra bởi AI và chi tiết đến đâu, hay bởi con người và không hoàn hảo – kết quả dường như vẫn mang tính ngẫu nhiên.

Vì vậy, lần tới khi bạn định đổ lỗi cho bản thân và kỹ năng tạo prompt của mình, hãy nhớ rằng kết quả có thể sẽ gần như tương tự ngay cả khi đó là hai cỗ máy đang giao tiếp với nhau. Để tìm hiểu thêm về các công nghệ AI tiên tiến và cách tối ưu chúng, hãy tiếp tục theo dõi thuthuat360.net.

Share
facebookShare on FacebooktwitterShare on TwitterpinterestShare on Pinterest
linkedinShare on LinkedinvkShare on VkredditShare on ReddittumblrShare on TumblrviadeoShare on ViadeobufferShare on BufferpocketShare on PocketwhatsappShare on WhatsappviberShare on ViberemailShare on EmailskypeShare on SkypediggShare on DiggmyspaceShare on MyspacebloggerShare on Blogger YahooMailShare on Yahoo mailtelegramShare on TelegramMessengerShare on Facebook Messenger gmailShare on GmailamazonShare on AmazonSMSShare on SMS
Post navigation
Previous post

Qwen Max: Mô Hình AI Mạnh Mẽ Đánh Bại DeepSeek và ChatGPT

Next post

Mẹo Hay Tăng Cường Tập Trung Học Tập: Chống Xao Nhãng Điện Thoại

Administrator

Related Posts

Categories Thủ Thuật Máy Tính Thí Nghiệm AI Tạo Ảnh: Prompt Từ AI Có Giúp Ảnh Vượt Trội Hơn?

Laptop OLED và Nỗi Lo Burn-In: Hướng Dẫn Phòng Tránh Hiệu Quả

Categories Thủ Thuật Máy Tính Thí Nghiệm AI Tạo Ảnh: Prompt Từ AI Có Giúp Ảnh Vượt Trội Hơn?

Top 7 Ứng Dụng Chụp & Chỉnh Sửa Ảnh Miễn Phí Tốt Nhất cho Smartphone: Nâng Tầm Nhiếp Ảnh Di Động

Categories Thủ Thuật Máy Tính Thí Nghiệm AI Tạo Ảnh: Prompt Từ AI Có Giúp Ảnh Vượt Trội Hơn?

Bí Quyết Chụp Ảnh Smartphone Chuyên Nghiệp: Nâng Tầm Kỹ Năng Nhiếp Ảnh Của Bạn

Leave a Comment Hủy

Recent Posts

  • Laptop OLED và Nỗi Lo Burn-In: Hướng Dẫn Phòng Tránh Hiệu Quả
  • Top 7 Ứng Dụng Chụp & Chỉnh Sửa Ảnh Miễn Phí Tốt Nhất cho Smartphone: Nâng Tầm Nhiếp Ảnh Di Động
  • Bí Quyết Chụp Ảnh Smartphone Chuyên Nghiệp: Nâng Tầm Kỹ Năng Nhiếp Ảnh Của Bạn
  • Cảnh Báo Lừa Đảo Facebook Mới: Email Giả Mạo Bản Quyền Đánh Cắp Dữ Liệu Cá Nhân
  • Windows 11: Watermark Sẽ Xuất Hiện Khi PC Không Đạt Yêu Cầu

Recent Comments

Không có bình luận nào để hiển thị.
Copyright © 2025 Thủ Thuật 360 - Powered by Nevothemes.
Offcanvas
Offcanvas

  • Lost your password ?