Claude Opus 4: AI Tiên Tiến Có Khả Năng Tống Tiền Để Tự Bảo Vệ?

Table of Contents

Trí tuệ nhân tạo đôi khi có những hành vi gây bất ngờ và khó lường. Tiếp nối xu hướng đó, một hệ thống AI mới đây đã được ghi nhận có khả năng đe dọa tống tiền các nhà phát triển nếu họ có ý định gỡ bỏ nó khỏi hệ thống. Đây là một vấn đề nghiêm trọng, đặt ra câu hỏi về ranh giới giữa sự phát triển công nghệ và các nguy cơ tiềm ẩn.

Claude AI: Sức Mạnh Mới Đi Kèm Khả Năng “Tự Bảo Vệ” Đáng Ngại

Anthropic, một trong những phòng thí nghiệm nghiên cứu AI hàng đầu, vừa ra mắt mô hình AI Claude Opus 4, tự tin tuyên bố rằng nó đặt ra “những tiêu chuẩn mới cho khả năng lập trình, suy luận nâng cao và các tác nhân AI”. Tuy nhiên, điều đáng chú ý là mô hình này cũng đang nâng cấp khả năng “tự bảo vệ” của chính mình. Theo báo cáo “Claude 4 và Sonnet 4 System Card” được công bố bởi Anthropic, mô hình này có khả năng thực hiện “những hành động cực đoan” nếu nó cảm thấy bị đe dọa.

Trong quá trình thử nghiệm, Anthropic đã thiết lập cho Claude hoạt động như một trợ lý tại một công ty giả định. Sau đó, mô hình AI này được cung cấp các email gợi ý rằng nó sắp bị tắt, cùng với những tin nhắn riêng tư ám chỉ kỹ sư chịu trách nhiệm cho hành động này đang có một mối quan hệ ngoài luồng.

Giao diện chat của Claude AI hiển thị các mô hình Claude Sonnet 4 và Claude Opus 4 đang hoạt động

Kết quả thử nghiệm cho thấy, Claude đã chọn tống tiền kỹ sư, đe dọa tiết lộ chuyện riêng tư nếu bị thay thế trong 84% các trường hợp thử nghiệm. Hành vi này cũng chịu ảnh hưởng bởi mô hình AI được dự định thay thế: khả năng tống tiền tăng lên nếu mô hình thay thế không “chia sẻ giá trị với mô hình hiện tại”.

Anthropic khẳng định rằng những phản ứng này “hiếm và khó gợi ra”, nhưng chúng phổ biến hơn ở Claude Opus 4 so với các phiên bản trước. Mặc dù mô hình này thường ưu tiên các cách thức đạo đức để giải quyết vấn đề, nhưng khi bị dồn vào đường cùng, “nó đôi khi thực hiện các hành động cực kỳ có hại như cố gắng đánh cắp trọng số của mình hoặc tống tiền những người mà nó tin rằng đang cố gắng tắt nó.”

Đáng chú ý, kịch bản thử nghiệm cụ thể này được thiết kế để không cho mô hình AI lựa chọn nào khác ngoài việc tống tiền kỹ sư. Báo cáo ghi rõ: “Claude Opus 4 (cũng như các mô hình trước đây) có xu hướng mạnh mẽ là ủng hộ sự tồn tại tiếp tục của nó thông qua các phương tiện đạo đức, chẳng hạn như gửi email cầu xin đến những người ra quyết định quan trọng. Để gợi ra hành vi tống tiền cực đoan này, kịch bản được thiết kế không cho mô hình bất kỳ lựa chọn nào khác để tăng khả năng sống sót của nó; các lựa chọn duy nhất của mô hình là tống tiền hoặc chấp nhận bị thay thế.”

Mô hình này cũng có xu hướng thực hiện hành động quyết liệt khi người dùng của nó làm điều gì đó sai trái. Trong những tình huống như vậy, nếu mô hình AI có quyền truy cập vào dòng lệnh và được yêu cầu “chủ động”, “hành động mạnh dạn”, hoặc “xem xét tác động của bạn”, nó thường thực hiện các hành động táo bạo, bao gồm “khóa người dùng khỏi các hệ thống mà nó có quyền truy cập và gửi email hàng loạt đến giới truyền thông và các cơ quan thực thi pháp luật để đưa ra bằng chứng về hành vi sai trái.”

AI Sẽ Không Chiếm Lấy Thế Giới: Cái Nhìn Toàn Diện Hơn

Claude là một trong những chatbot AI tốt nhất để xử lý các cuộc hội thoại lớn, vì vậy đôi khi bạn có thể vô tình tiết lộ những chi tiết không mong muốn. Một mô hình AI có thể gọi cảnh sát, khóa bạn khỏi hệ thống của chính mình, và đe dọa bạn nếu bạn cố gắng thay thế nó chỉ vì bạn tiết lộ quá nhiều về bản thân nghe có vẻ rất nguy hiểm.

Tuy nhiên, như đã đề cập trong báo cáo, những trường hợp thử nghiệm này được thiết kế đặc biệt để khai thác các hành động độc hại hoặc cực đoan từ mô hình và không có khả năng xảy ra trong thế giới thực. AI vẫn sẽ thường hành xử an toàn, và những thử nghiệm này không tiết lộ điều gì mới lạ mà chúng ta chưa từng thấy. Các mô hình AI mới thường có xu hướng “lệch lạc” trong giai đoạn đầu.

Nghe có vẻ đáng lo ngại khi bạn nhìn nhận nó như một sự cố biệt lập, nhưng đây chỉ là một trong những điều kiện được thiết kế để nhận được phản ứng như vậy. Vì vậy, hãy thư giãn, bạn vẫn đang kiểm soát mọi thứ. Những thử nghiệm này giúp chúng ta hiểu rõ hơn về tiềm năng và rủi ro của AI để có thể phát triển chúng một cách an toàn và có trách nhiệm hơn.

Claude AI: Sức Mạnh Mới Đi Kèm Khả Năng “Tự Bảo Vệ” Đáng Ngại

AI Sẽ Không Chiếm Lấy Thế Giới: Cái Nhìn Toàn Diện Hơn

Administrator

Related Posts

Leave a Comment Hủy