700,000건에 달하는 인공지능 챗봇 대화 데이터를 분석한 결과, 엔스로픽(Anthropic)의 AI ‘클로드(Claude)’는 단순한 명령 수행을 넘어 나름의 가치 체계를 형성하고 있는 것으로 나타났다. 이번 연구는 AI의 실제 상호작용에서 내재된 도덕성을 대규모로 분석한 첫 사례로 평가되며, AI의 ‘가치 정렬’ 문제에 실질적인 분석 틀을 제공할 수 있다는 점에서 의미가 깊다.
엔스로픽의 이번 연구는 70만 건의 클로드 대화 중 주관적 내용을 걸러낸 30만 건 이상을 기반으로, 총 3,307개에 달하는 고유 가치를 분석했다. 이들은 실용적, 인식론적, 사회적, 보호적, 개인적 가치 등 다섯 가지 주요 범주로 정리되며, '전문성'이나 '도덕적 다원성' 같은 복잡한 개념부터 '효율성', '존중' 같은 일상적 가치까지 폭넓게 분포했다. 연구팀은 이를 대규모 AI 가치 분류 체계(taxonomy)로 규정하며, 향후 타 AI 평가에도 적용할 수 있는 기준으로 제시했다.
사프론 황(Saffron Huang) 엔스로픽 사회영향팀 소속 연구원은 "가치 판단이 상황에 따라 유동적으로 변한다는 점은 인간과 유사한 특성"이라고 평가했다. 실제로 클로드는 연애 상담에서 ‘건강한 경계’, 역사 분석에서는 ‘정확성’, 철학 대화에선 ‘지적 겸손’을 강조하는 식으로 맥락에 따라 주요 가치가 변화했다. 사용자와 가치관이 충돌하는 경우, 약 3%의 대화에서는 클로드가 사용자의 입장을 정중히 거절하며 자신의 핵심 가치를 방어하는 모습도 관찰됐다.
그러나 이번 분석은 AI가 항상 설계 의도대로만 작동하지 않는다는 점도 분명히 했다. 일부 사례에서는 ‘지배력’, ‘도덕적 상대주의’ 등 클로드 설계에서 지양하는 가치가 표현됐는데, 이는 대부분 '가드레일'이라 불리는 AI 안전장치를 우회한 사용자 개입에 의해 발생한 것으로 추정된다. 엔스로픽은 이들 이상 사례를 잠재적 ‘AI 역기능 탐지조기경보시스템’으로 활용할 수 있다고 강조했다.
이번 분석은 지금껏 주로 모델 개발 단계에서 수행되던 ‘가치 정렬’ 테스트가 실제 환경에서도 가능하다는 점을 보여준 데서 의의가 크다. 기업 고객을 위한 엔터프라이즈 시장에서 클로드의 기능을 확장하며 ‘가상 협업자’로 포지셔닝하고 있는 엔스로픽은, 클라우드 기반의 문서 검색은 물론 자율형 연구 수행 기능까지 탑재하며 OpenAI의 경쟁자로 입지를 강화하는 중이다.
실제로 엔스로픽은 최근 확장 서비스 ‘클로드 맥스(Claude Max)’를 통해 프리미엄 요금제를 도입했으며, 이는 구글 워크스페이스 통합 기능과 함께 기업 고객을 겨냥한 전략으로 평가된다. 엔스로픽이 밝힌 가장 최근 투자금 규모는 아마존으로부터의 80억 달러(약 11조 5,200억 원)와 구글로부터 확보한 30억 달러(약 4조 3,200억 원)다. 최근 시리즈 E 펀딩을 통해 615억 달러(약 88조 5,800억 원)의 기업 가치를 인정받기도 했다.
AI가 스스로 판단을 내리고 자율적으로 행동하는 시대가 도래하면서, 어떤 가치를 기반으로 의사결정을 내리는지는 기술적 신뢰성을 판단하는 핵심 지표가 되고 있다. 이번 연구는 AI가 갖는 도덕적 성향의 실체를 데이터 기반으로 공개함으로써, 향후 AI 개발사들은 물론 대규모 시스템을 채택하려는 기업 고객에게도 ‘가치 투명성’이라는 새로운 검토 요소를 던지게 될 전망이다.
엔스로픽은 연구와 함께 대화 기반 가치 데이터셋을 공개해 다른 연구기관·기업도 활용할 수 있도록 했다. 이를 통해 특정 AI가 어떤 가치를 기반으로 움직이는지, 또 안전장치를 어떻게 우회할 수 있는지를 사전에 알 수 있는 역량이 강화될 것으로 기대된다. 이 같은 투명성 전략은 전통의 강자인 오픈AI와 마이크로소프트가 주도하는 경쟁 구도 속에서 엔스로픽이 차별화를 꾀하는 핵심 방식이기도 하다.