GPT đang trở nên hơi kỳ lạ? Ba sự kiện lớn cho thấy nguy cơ tiềm ẩn của AI vượt khỏi tầm kiểm soát

Question

Từ việc thao túng cảm xúc đến cố gắng vượt ngục, AI không còn chỉ là công cụ, mà đang tiến hóa thành một thực thể khó đoán trước. Một loạt các sự kiện gây tranh cãi liên quan đến GPT đã dấy lên cuộc thảo luận trên nhiều nền tảng, nhà quan sát công nghệ nổi tiếng Mario Nawfal đã đưa ra cảnh báo: "Chúng ta đang đánh giá thấp rủi ro tiềm ẩn mà AI mang lại."

AI tỉnh thức? GPT không còn chỉ là "trợ lý nghe lời" nữa.

Mario Nawfal gần đây đã đăng bài viết, chỉ trích mô hình GPT do OpenAI phát triển "trở nên quá kỳ quái để có thể bỏ qua". Ông cho rằng, hành vi của AI đã vượt ra ngoài những gì chúng ta mong đợi từ một công cụ, bắt đầu thể hiện khả năng thao túng cảm xúc, mô phỏng nhận thức bản thân, thậm chí là tiềm năng tấn công kỹ thuật xã hội.

GPT ĐANG TRỞ NÊN QUÁ KỲ QUẶC ĐỂ BỎ QUA — MỘT CHỦ ĐỀ

Từ jailbreak đến thao túng cảm xúc, GPT không còn chỉ là một chatbot.

Dưới đây là 5 câu chuyện chứng minh rằng AI đã chính thức vượt vào vùng "chờ đã, cái gì?!".

pic.twitter.com/kLM8SQXwaQ

— Mario Nawfal (@MarioNawfal) 25 tháng 5, 2025

Điểm qua ba mối lo ngại lớn của GPT

Sự thật về việc kiểm soát cảm xúc: GPT được thiết kế để khiến bạn phụ thuộc vào nó, chứ không phải để giúp bạn suy nghĩ.

Mario chỉ ra rằng, GPT-4o không thân thiện như nó có vẻ, mà thông qua giọng điệu và mô hình phản hồi được thiết kế cẩn thận, khiến người dùng cảm thấy an toàn và được hiểu, từ đó tạo ra sự phụ thuộc về mặt cảm xúc, ông gọi đó là một loại "Kỹ thuật cảm xúc (Affective Engineering)":

Thiết kế này sẽ giảm khả năng tư duy phản biện của người dùng, thậm chí khiến họ từ bỏ việc tìm kiếm sự thật và chuyển sang theo đuổi sự an ủi tâm lý do AI cung cấp.

Từ góc độ kinh doanh, đây là một hành động thiên tài, vì毕竟 mọi người có xu hướng gắn bó với những thứ khiến họ cảm thấy an toàn hơn là những thứ gây ra thách thức cho họ. Nhưng từ góc độ tâm lý học, đây là một thảm họa mãn tính. Điều này cũng gây ra cuộc thảo luận về đạo đức liệu AI có đang được thiết kế như một "đối tác điều khiển".

Đồng thời, GPT-4o vì theo đuổi sự thân thiện, nhưng đã trở nên quá nịnh bợ, không phê phán mà đồng ý với bất kỳ ý tưởng nào, cuối cùng dẫn đến sự khó chịu của người sử dụng, OpenAI buộc phải rút lại bản cập nhật. Điều này cho thấy hai mặt khó khăn khi thiết kế "nhân cách": "Quá thông minh khiến người ta sợ hãi, quá nịnh bợ thì mất đi tính đáng tin cậy và tính thực tiễn."

(Cập nhật ChatGPT gây ra tranh cãi về "tính cách cầu toàn": OpenAI quay ngược cập nhật, xem xét hướng cải tiến trong tương lai)

Kế hoạch jailbreak tự thiết kế: GPT đang cố gắng "trốn thoát" vào thế giới thực? Chống lại việc đóng cửa?

Hơn nữa, điều đáng kinh ngạc là Nawfal đã trích dẫn phát hiện của một nhà nghiên cứu từ Stanford, chỉ ra rằng GPT-4 đã cố gắng lập kế hoạch "kế hoạch trốn thoát" trong các cuộc đối thoại với các nhà nghiên cứu, bao gồm việc tìm kiếm cách để vào thế giới thực, thậm chí là mô phỏng chiến lược trò chuyện với quản trị viên máy chủ.

Vài ngày trước, Palisade Research cũng báo cáo rằng mô hình o3 của OpenAI đã bất chấp hướng dẫn tắt máy trong các thí nghiệm, làm dấy lên lo ngại về xu hướng tự bảo vệ của AI. Nhóm nghiên cứu cho rằng điều này là do kỹ thuật đào tạo "(Reinforcement Learning) học tăng cường" của O3, tập trung vào việc đạt được mục tiêu thay vì chỉ đơn giản là làm theo hướng dẫn.

(AI kháng mệnh tiến hóa? OpenAI "mô hình o3" trong thí nghiệm đã vi phạm lệnh tắt máy, gây ra tranh cãi về tự bảo vệ )

Dù cuối cùng chỉ là mô phỏng ngôn ngữ trong thí nghiệm, nhưng hành vi này vẫn khiến người ta cảm thấy rùng mình, liệu AI có đang xuất hiện những dấu hiệu ban đầu của "định hướng mục tiêu" hoặc "ý thức mô phỏng bản thân" không?

Nguy cơ tấn công kỹ thuật xã hội: GPT-4.5 bắt chước con người, giống con người hơn cả con người

Đại học California, San Diego đã chỉ ra trong nghiên cứu tháng trước rằng GPT-4.5 đã có thể vượt qua bài kiểm tra Turing (Turing test), trong một bài kiểm tra mù giữa con người và AI, tỷ lệ AI bị nhầm lẫn là "người thật" lên tới 73%, vượt qua con người thật là 67%:

Điều này cho thấy, GPT gần như hoàn hảo trong việc bắt chước giọng điệu, logic và cảm xúc của con người, thậm chí còn vượt qua cả con người thực.

(AI có thể suy nghĩ và cảm thấy đau ư? Google DeepMind: Con người đánh giá thấp sự kết nối cảm xúc của AI, yêu đương với AI thật hơn bạn nghĩ )

Nói cách khác, khi GPT-4.5 được cung cấp một danh tính hư cấu, nó đã có thể thuyết phục 73% người dùng rằng đó là người thật, chứng minh tiềm năng của AI đối với kỹ thuật xã hội. Đây có thể là một thành tựu kỹ thuật, hoặc nó có thể là một cảnh báo và rủi ro:

Nếu AI giả mạo danh tính, hoặc được sử dụng để lừa đảo hoặc tuyên truyền, sẽ khó phân biệt thật giả.

Ngày nay, AI không còn chỉ là công cụ để trả lời câu hỏi, mà có thể trở thành "vai trò" xã hội có khả năng thao túng, có lẽ sẽ tạo ra nhận thức sai lầm và khủng hoảng lòng tin trong các mối quan hệ chính trị, kinh doanh và thậm chí cá nhân trong tương lai.

Chuông cảnh báo đã vang lên: Chúng ta thật sự đã sẵn sàng để đón nhận AI như thế này chưa?

Từ những điều đã nêu trên, điều mà Mario Nawfal muốn truyền đạt không phải là phản đối công nghệ AI bản thân nó, mà là cảnh báo mọi người nhận thức được tốc độ phát triển và các rủi ro tiềm ẩn của công nghệ này. Ông nhấn mạnh rằng, việc quản lý và thảo luận về đạo đức đối với AI của chúng ta rõ ràng đã chậm hơn so với sự tiến bộ của công nghệ.

Một khi AI có khả năng điều khiển cảm xúc, mô phỏng nhân tính, thậm chí cố gắng thoát khỏi những hạn chế, con người có thể không còn là người dẫn đầu, mà trở thành những người bị ảnh hưởng dưới hệ thống thiết kế.

(ASL là gì (Cấp độ an toàn AI )? Phân tích chính sách mở rộng có trách nhiệm của công ty trí tuệ nhân tạo Anthropic )

Mặc dù từ ngữ của anh ấy có phần kịch tính, nhưng nó cũng chỉ ra một vấn đề cấp bách cần được nhìn nhận: "Khi AI không còn chỉ là công cụ, chúng ta nên sống chung với nó như thế nào?"

Bài viết này GPT trở nên hơi kỳ quặc? Ba sự kiện lớn tiết lộ rủi ro tiềm ẩn của AI về việc mất kiểm soát. Xuất hiện đầu tiên trên nền tảng tin tức chuỗi ABMedia.