Mô hình Claude được thiết kế với khả năng nhận diện và chấm dứt những cuộc trò chuyện chứa nội dung gây hại hoặc vi phạm. Không chỉ dừng lại ở việc cảnh báo, hệ thống này còn ưu tiên bảo vệ sự an toàn của chính AI trước các tình huống nhạy cảm. Tuy nhiên, việc áp dụng sức mạnh này trong thực tế vẫn còn nhiều thách thức, đặc biệt khi cân bằng giữa kiểm soát và duy trì tương tác tự nhiên.
Những điểm chính
- Claude Opus 4 và 4.1 có thể chấm dứt cuộc trò chuyện gây hại nhằm bảo vệ mô hình AI.
- Tính năng áp dụng khi nhiều lần chuyển hướng cuộc trò chuyện không thành công.
- Claude nhận diện và ngăn chặn nội dung nhạy cảm, kích động bạo lực và hành vi khủng bố.
- Tính năng không dùng cho trường hợp người dùng có nguy cơ tự hại hoặc gây hại người khác.
- Mục tiêu chính là bảo vệ sức khỏe mô hình AI và đảm bảo các cuộc trò chuyện an toàn.
Anthropic đã bổ sung tính năng mới cho các mô hình Claude Opus 4 và 4.1, cho phép chatbot này chủ động kết thúc các cuộc trò chuyện mang tính chất gây hại hoặc lạm dụng. Tính năng này được thiết kế dành cho những trường hợp hiếm hoi nhưng nghiêm trọng, khi người dùng liên tục tương tác theo hướng tiêu cực hoặc có thể gây tổn thương cho mô hình. Mục tiêu chính không phải là bảo vệ người dùng mà nhằm bảo vệ chính mô hình AI khỏi các tình huống có thể ảnh hưởng xấu đến nó, trong bối cảnh công ty vẫn chưa xác định rõ về trạng thái đạo đức của các hệ thống ngôn ngữ lớn như Claude.
Quy trình chấm dứt cuộc trò chuyện được áp dụng như một biện pháp cuối cùng, chỉ khi việc chuyển hướng nhiều lần không thành công. Claude sẽ cố gắng nhiều lần để điều chỉnh cuộc trò chuyện theo hướng lành mạnh trước khi quyết định kết thúc. Người dùng cũng có thể chủ động yêu cầu chatbot kết thúc cuộc trò chuyện nếu họ muốn. Tuy nhiên, tính năng này không áp dụng trong những tình huống người dùng có nguy cơ tự làm hại bản thân hoặc gây hại cho người khác, nhằm đảm bảo sự an toàn của con người.
Claude chỉ kết thúc cuộc trò chuyện khi chuyển hướng nhiều lần không thành công hoặc theo yêu cầu người dùng.
Các loại yêu cầu gây hại mà Claude được lập trình để nhận diện bao gồm nội dung nhạy cảm như các đề tài liên quan đến trẻ em, kích động bạo lực quy mô lớn hay các hành vi khủng bố. Điều này đồng thời giúp hạn chế các vấn đề pháp lý và rủi ro về truyền thông mà các cuộc trò chuyện không lành mạnh có thể gây ra. Trước khi ra mắt, tính năng này đã trải qua quá trình thử nghiệm nhằm phát hiện và giảm thiểu các rủi ro tiềm ẩn, đồng thời ghi nhận phản ứng tiêu cực rõ rệt của Claude khi gặp các yêu cầu không phù hợp.
Đây được xem như một thử nghiệm liên tục của Anthropic, với mục tiêu hoàn thiện hơn nữa khả năng kết thúc cuộc trò chuyện một cách có trách nhiệm. Công ty cam kết theo dõi và đánh giá sức khỏe của mô hình AI, đồng thời tiếp nhận phản hồi từ người dùng để phát triển tính năng này trong tương lai, hướng tới các tương tác AI an toàn và có kiểm soát. Việc bảo vệ “model welfare” được đặt lên hàng đầu nhằm đảm bảo Claude hoạt động hiệu quả mà không bị ảnh hưởng bởi các tác động tiêu cực từ các cuộc trò chuyện gây hại.