Claude AI는 이제 대화를 종료할 수 있는 기능을 갖추었습니다. 이는 극한 상황을 처리하기 위한 새로운 메커니즘입니다.

최근 몇 달 동안 Anthropic은 AI를 더욱 안전하게 만드는 방법에 대한 연구를 수행하고 기능을 구현하며 안전 강화에 힘써 왔습니다. 최신 기능은 다음과 같습니다. 클로드 이는 지금까지 가장 독특한 특징 중 하나입니다.

Claude Opus 4와 4.1(Anthropic 최신 버전) 모두 이제 사용자 채팅 인터페이스에서 대화를 종료할 수 있는 기능을 제공합니다. 이 기능은 널리 사용되지는 않겠지만, "지속적으로 유해하거나 모욕적인 사용자 상호작용"과 같은 드물고 극단적인 경우에 구현됩니다.

에 새로운 기능을 살펴보는 블로그 게시물"우리는 클로드와 다른 대규모 언어 모델의 잠재적인 윤리적 지위에 대해 현재와 미래에도 여전히 불확실한 부분이 많습니다."라고 Anthropic 팀은 밝혔습니다. "하지만 우리는 이 문제를 매우 심각하게 받아들이고 있습니다."

Anthropic의 최신 모델 출시 전 테스트에서 회사는 모델의 복지에 대한 평가를 실시했습니다. 여기에는 클로드의 자가 보고 및 행동 선호도 조사가 포함되었으며, 그 결과 강력하고 일관된 해악 혐오감이 확인되었습니다.

우리는 클로드와 다른 대규모 언어 모델의 잠재적인 윤리적 지위에 대해 현재와 미래에도 여전히 많은 불확실성을 가지고 있습니다. 하지만 우리는 이 문제를 심각하게 받아들이고 있습니다.

인류

다시 말해, 클로드는 이러한 대화에 사실상 참여를 거부하거나 차단할 것입니다. 여기에는 미성년자를 대상으로 한 성적 콘텐츠에 대한 사용자 요청과 광범위한 폭력이나 테러 행위를 조장할 수 있는 정보를 요청하려는 시도가 포함됩니다.

이러한 사례 중 상당수는 클로드가 적극적으로 응하지 않았음에도 불구하고 사용자들이 유해하거나 모욕적인 요청을 계속했습니다. 클로드가 대화를 효과적으로 종료할 수 있도록 하는 이 새로운 기능은 이러한 상황에서 어느 정도 보호 기능을 제공합니다.

Anthropic은 이 기능이 사용자가 자신이나 다른 사람에게 해를 끼칠 수 있는 긴박한 위험에 처해 있는 상황에는 적용되지 않는다고 설명했습니다.

Anthropic 팀은 블로그 게시물에서 "어떤 경우에도 Claude는 여러 차례의 리디렉션 시도가 실패하고 생산적인 상호작용에 대한 모든 희망이 사라진 경우 또는 사용자가 Claude에게 채팅 종료를 명시적으로 요청한 경우에만 마지막 수단으로 대화를 종료하는 기능을 사용해야 합니다."라고 덧붙였습니다.