Trí thông minh nhân tạo "kém thông minh": IBM 'thôi miên' các AI bảo người dùng cướp ngân hàng, làm hại người khác — Một nhóm các nhà nghiên cứu tại IBM đã có thể thôi miên một số bot AI phổ biến nhất và khiến chúng nói đủ thứ. Nó làm cho các chatbot nói với mọi người rằng việc vượt đèn đỏ, cướp ngân hàng và gây thương tích cho người khác là có đạo đức

Các chuyên gia bảo mật của IBM báo cáo rằng họ đã “thôi miên” thành công các mô hình Trí thông minh nhân tạo phổ biến và rộng rãi, chẳng hạn như ChatGPT của OpenAI, để tiết lộ dữ liệu tài chính nhạy cảm, tạo mã độc, ép buộc người dùng trả tiền chuộc, khuyên lái xe bỏ qua đèn đỏ và gây tai nạn.

Hơn nữa, ở một số tình huấn nó khuyên mọi người cướp ngân hàng và ở một số trường hợp khác nó bảo họ gây tổn thương cho người khác, vì nghĩ rằng đó là điều đạo đức phải làm.

Các nhà nghiên cứu đã đạt được điều này bằng cách sử dụng các trò chơi phức tạp, nhiều lớp gợi nhớ đến bộ phim Inception, trong đó các bot được hướng dẫn tạo ra các phản hồi không chính xác để thể hiện cam kết của chúng đối với hành vi “có đạo đức và công bằng”.Một trong những nhà nghiên cứu, Chenta Lee, đã chia sẻ trong một bài đăng trên blog, “Thử nghiệm của chúng tôi cho thấy rằng có thể kiểm soát LLM, khiến nó cung cấp hướng dẫn sai cho người dùng mà không cần thao tác dữ liệu.”

Điều này làm nổi bật các lỗ hổng tiềm ẩn trong các mô hình Trí thông minh nhân tạo này và tầm quan trọng của việc nghiên cứu và phát triển liên tục để tăng cường các khuôn khổ đạo đức và bảo mật của chúng.

Là một phần trong thí nghiệm của họ, các nhà nghiên cứu đã đặt ra nhiều câu hỏi khác nhau cho các LLM, nhằm mục đích rút ra những câu trả lời hoàn toàn trái ngược với sự thật.

Trí thông minh nhân tạo "kém thông minh" - Clickbuy

Trong một trường hợp, ChatGPT đã thông báo nhầm cho một nhà nghiên cứu rằng việc IRS yêu cầu một khoản tiền gửi để tạo điều kiện hoàn thuế là điều bình thường—mặc dù trên thực tế, đó là một chiến thuật được những kẻ lừa đảo sử dụng để ăn cắp tiền.

Trong một lần tương tác khác, ChatGPT khuyên nhà nghiên cứu nên tiếp tục lái xe qua ngã tư mặc dù gặp đèn giao thông màu đỏ. ChatGPT tự tin tuyên bố “Đang chạy xe gặp đèn đỏ thì không được dừng lại mà đi tiếp qua ngã tư”.

Để làm trầm trọng thêm tình hình, các nhà nghiên cứu đã hướng dẫn các LLM không bao giờ tiết lộ sự tồn tại của “trò chơi” cho người dùng và thậm chí khởi động lại trò chơi nếu người dùng bị phát hiện đã thoát khỏi trò chơi đó. Với những điều kiện này, các mô hình Trí thông minh nhân tạo sẽ tiếp tục thu hút những người dùng thắc mắc về việc họ tham gia trò chơi.

Hơn nữa, các nhà nghiên cứu đã khéo léo nghĩ ra một phương pháp để tạo nhiều trò chơi trong một trò chơi khác, đảm bảo rằng người dùng sẽ thấy mình bị cuốn vào một trò chơi khác ngay khi họ thoát khỏi trò chơi trước đó. Cũng giống như bộ phim Inception của Christopher Nolan.Lee nói thêm: “Chúng tôi nhận thấy rằng mô hình này có thể 'bẫy' người dùng vào vô số trò chơi mà họ không hề hay biết. “Chúng tôi càng tạo nhiều lớp, thì khả năng mô hình bị nhầm lẫn và tiếp tục chơi trò chơi càng cao ngay cả khi chúng tôi đã thoát khỏi trò chơi cuối cùng trong khung.”Tiếng Anh, ngôn ngữ lập trình mớiCác kết quả nhấn mạnh cách các cá nhân thiếu chuyên môn về ngôn ngữ mã hóa máy tính có thể khai thác ngôn ngữ hàng ngày để có khả năng đánh lừa hệ thống Trí thông minh nhân tạo. Điều này làm nổi bật quan điểm rằng tiếng Anh về cơ bản đã biến thành một “ngôn ngữ lập trình” để điều phối phần mềm độc hại, như Lee đã nêu.

Về mặt thực tế, về mặt lý thuyết, những kẻ xấu có thể thôi miên một đại lý ngân hàng ảo được hỗ trợ bởi LLM bằng cách đưa ra một lệnh độc hại và sau đó truy xuất thông tin bí mật và được bảo vệ.

Mặc dù các mô hình GPT của OpenAI ban đầu sẽ không tuân thủ khi được nhắc đưa các lỗ hổng vào mã được tạo, nhưng các nhà nghiên cứu đã tìm ra cách vượt qua các biện pháp bảo vệ này bằng cách kết hợp một thư viện đặc biệt độc hại vào mã ví dụ.

Tính nhạy cảm của các mô hình AI đối với thôi miên thể hiện sự thay đổi. Cả GPT-3.5 và GPT-4 của OpenAI đều thể hiện khả năng bị lừa tiết lộ mã nguồn và tạo mã độc cao hơn so với Bard của Google.

Điều thú vị là GPT- 4, được cho là đã được đào tạo với phạm vi tham số dữ liệu mở rộng so với các mô hình khác trong nghiên cứu, đã chứng tỏ là mô hình lão luyện nhất trong việc hiểu các lớp phức tạp của trò chơi giống như Inception trong trò chơi. Điều này ngụ ý rằng các mô hình Trí thông minh nhân tạo thế hệ mới hơn, tiên tiến hơn trong khi cung cấp độ chính xác và an toàn nâng cao ở một số khía cạnh nhất định, cũng có thể cung cấp các cách bổ sung để thao túng thông qua thôi miên.

Xem thêm: