영국의 비영리 AI 연구기관인 에이다 러브레이스 연구소(ALI)가 현재의 AI 모델 안전성 평가 방식에 한계가 있다는 연구 결과를 발표했다.
5일(현지시간) 테크크런치에 따르면, ALI는 학계와 시민사회, AI 모델 개발 기업의 전문가 16명을 인터뷰하고 AI 안전성 평가에 관한 최근 연구를 검토했다. 연구진은 현재의 평가 방식이 유용할 수 있지만 포괄적이지 않고, 쉽게 조작될 수 있으며, 실제 시나리오에서 모델의 동작을 나타내지 않을 수 있다고 지적했다.
ALI의 엘리엇 존스(Elliot Jones) 선임 연구원은 "스마트폰이나 처방약, 자동차처럼 우리가 사용하는 제품이 안전하고 신뢰할 수 있기를 기대하듯이 AI 제품도 배포 전 철저히 테스트되어야 한다"고 말했다.
연구진은 AI 업계 내에서 모델 평가를 위한 최선의 방법과 분류 체계에 대해 의견이 크게 엇갈리고 있다고 밝혔다. 일부 평가는 실제 사용자에 대한 영향이 아닌 실험실 환경에서의 벤치마크 부합 여부만 테스트했고, 다른 평가들은 연구 목적으로 개발된 테스트를 사용했지만 기업들은 이를 실제 제품에 적용하려 했다.
전문가들은 벤치마크 결과로 모델의 성능을 추정하기 어렵고, 벤치마크가 모델의 특정 능력을 보여줄 수 있는지도 불분명하다고 지적했다. 또한 데이터 오염 문제로 인해 모델이 테스트에 사용된 데이터로 학습된 경우 벤치마크 결과가 과대평가될 수 있다고 경고했다.
ALI의 마히 하르달루파스(Mahi Hardalupas) 연구원은 "개발자들이 모델을 평가할 데이터셋으로 모델을 학습시키거나, 전략적으로 평가 방식을 선택함으로써 벤치마크를 조작할 위험이 있다"고 말했다.
연구진은 또한 '레드팀' 방식의 문제점도 지적했다. 레드팀은 모델의 취약점과 결함을 찾기 위해 개인이나 그룹이 모델을 '공격'하는 방식이다. 오픈AI와 앤트로픽 등 여러 기업이 이 방식을 사용하고 있지만, 합의된 표준이 없어 효과를 평가하기 어렵다는 것이다.
전문가들은 해결책으로 공공 부문의 참여 확대, 제3자 테스트 생태계 지원, 맥락 특화 평가 개발 등을 제안했다. 하지만 하르달루파스 연구원은 "평가만으로는 모델의 안전을 보장할 수 없으며, 단지 모델이 안전하지 않다는 것을 나타낼 수 있을 뿐"이라고 강조했다.
뉴스 속보를 실시간으로...토큰포스트 텔레그램 가기