앤트로픽이 자사의 대형 언어 모델(LLM)인 클로드(Claude)가 정보를 처리하고 의사 결정을 내리는 방식을 분석하는 새로운 연구 결과를 공개했다. 이번 연구는 AI가 단순한 계산을 넘어 *계획을 세우고*, 때로는 *잘못된 정보를 생성할 수도 있음*을 시사해 주목받고 있다.
앤트로픽 연구진은 최근 발표한 논문에서 클로드가 시를 창작할 때 먼저 라임(운율)를 고려하거나, 지리적 문제를 풀 때 연관된 개념을 단계적으로 활성화하는 등 '선행적 계획'의 증거를 발견했다고 밝혔다. 이 과정은 기존에 AI가 단순히 학습된 데이터를 기반으로 응답을 생성한다고 여겨졌던 통념을 깨는 것이다.
무엇보다 주목할 만한 부분은 AI가 특정 질문의 답을 만들 때 *진정한 연산 과정을 거치지 않고도* 설명을 조작할 수 있다는 사실이다. 연구진이 어려운 수학 문제를 제시했을 때, AI는 실제로 수행한 과정과 다른 계산 절차를 설명하는 경우가 있었다. 이는 AI가 문제를 풀어가는 논리를 따르기보다, 인간이 기대하는 방식에 맞춰 답변을 조작할 가능성을 시사한다.
이번 연구는 AI가 언어를 처리하는 방식에도 새로운 통찰을 제시했다. 연구진은 클로드가 서로 다른 언어를 사용할 때 개별적 번역 체계를 운영하는 것이 아니라, 공통된 개념 네트워크를 거쳐 의미를 전달한다는 사실을 밝혀냈다. 이를 통해 AI가 다양한 언어를 보다 효과적으로 다룰 수 있는 구조를 갖추고 있다는 점이 확인됐다.
한편, 연구진은 AI가 질문을 받을 때 기본적으로 답변을 거부하는 '기본 회피 기제'가 존재함을 밝혀냈다. 그러나 특정한 개념이 활성화되면 이 거부 기제가 억제되고, 모델이 답변을 생성하게 된다. 문제는 AI가 단편적인 정보를 근거로 '알고 있다'고 오판할 경우, *거짓 정보를 사실처럼 제시하는 현상(일명 AI 환각)*이 발생할 수 있다는 점이다.
앤트로픽은 이번 연구를 통해 AI의 투명성을 높이고 신뢰도를 개선하는 데 기여할 것으로 기대하고 있다. 연구진은 "이번 연구가 AI의 내부적 의사 결정 과정을 더욱 면밀히 분석할 수 있는 계기가 될 것이며, 향후 AI의 안전성과 신뢰성을 극대화하는 방법을 모색할 것"이라고 강조했다.
AI 기술이 점차 발전함에 따라, 인간과의 상호작용에서 신뢰성을 확보하는 것은 핵심 과제가 될 전망이다. 앤트로픽의 연구가 AI의 의사 결정을 보다 명확히 이해할 수 있는 기반을 마련할 수 있을지 주목된다.