미국 국립표준기술연구소(NIST)가 AI 모델 학습 데이터에 대한 악성 공격의 영향을 측정하는 테스트베드 '디오프트라(Dioptra)'를 재출시했다. 디오프트라는 AI 모델 훈련 중 데이터 '독성' 공격 등을 평가하고, 분석하며 추적할 수 있는 도구로, 오픈 소스로 제공된다.
28일(현지시간) 테크크런치에 따르면, 미국 상무부 산하 국립표준기술연구소(NIST)는 AI 모델 학습 데이터를 '독성' 공격으로부터 보호하는 방법을 연구하는 테스트베드인 '디오프트라(Dioptra)'를 재출시했다. 디오프트라는 모듈형 오픈 소스 웹 기반 도구로, 처음에는 2022년에 공개되었다. 이 도구는 기업과 AI 모델 사용자들이 AI 위험을 평가, 분석 및 추적할 수 있도록 돕는다. NIST는 디오프트라가 모델을 벤치마킹하고 연구하는 데 사용될 수 있으며, '레드 팀' 환경에서 모델을 시뮬레이션된 위협에 노출시키는 공통 플랫폼을 제공한다고 설명했다.
NIST는 보도 자료에서 "기계 학습 모델에 대한 적대적 공격의 영향을 테스트하는 것이 디오프트라의 목표 중 하나"라며 "이 오픈 소스 소프트웨어는 무료 다운로드가 가능하며, 정부 기관 및 중소기업을 포함한 커뮤니티가 AI 개발자의 시스템 성능 주장에 대한 평가를 수행하는 데 도움을 줄 수 있다"고 밝혔다.
디오프트라는 NIST와 NIST의 최근 설립된 AI 안전 연구소가 AI의 위험성을 완화하는 방법을 설명하는 문서들과 함께 공개되었다. 이러한 위험성에는 비동의 포르노그래피 생성 등의 악용 사례가 포함된다. 디오프트라는 영국 AI 안전 연구소의 유사한 도구셋 '인스펙트(Inspect)'의 출시를 따르며, 이는 모델의 기능과 전반적인 모델 안전성을 평가하는 것을 목표로 한다. 미국과 영국은 지난해 11월 블레츨리 파크에서 열린 영국 AI 안전 서밋에서 발표된 바와 같이, 고급 AI 모델 테스트를 공동 개발하기 위해 협력하고 있다.
디오프트라는 또한 조 바이든 대통령의 AI 관련 행정명령(EO)의 산물로, 이 명령은 NIST가 AI 시스템 테스트를 지원하도록 명시하고 있다. 해당 행정명령은 AI 안전 및 보안 표준을 설정하고, 모델을 개발하는 기업들이 연방 정부에 모든 안전 테스트 결과를 공개하고 배포 전에 결과를 공유할 것을 요구하는 내용을 포함하고 있다.
AI 벤치마크는 어렵다. 특히 오늘날 가장 정교한 AI 모델들은 그 인프라, 학습 데이터 및 기타 주요 세부 사항이 기업들에 의해 비공개로 유지되기 때문에 더욱 그렇다. 영국 기반의 비영리 연구소인 에이다 러브레이스 연구소(Ada Lovelace Institute)가 이번 달 발표한 보고서에 따르면, 현재 정책은 AI 공급업체가 선택적으로 평가를 수행할 수 있도록 허용하고 있어 평가만으로는 AI 모델의 실제 안전성을 판단하기에 충분하지 않다.
NIST는 디오프트라가 모델의 모든 위험을 완전히 제거할 수 있다고 주장하지는 않는다. 그러나 디오프트라는 특정 공격이 AI 시스템 성능에 미치는 영향을 밝히고, 성능 저하를 정량화할 수 있을 것이라고 제안한다.
그러나 주요 한계점은 디오프트라가 메타(Meta)의 라마(Llama)와 같이 다운로드하여 로컬에서 사용할 수 있는 모델에서만 작동한다는 것이다. 오픈AI의 GPT-4와 같이 API 뒤에 있는 모델은 현재로서는 사용할 수 없다.
뉴스 속보를 실시간으로...토큰포스트 텔레그램 가기