AI 기반 코드 생성의 정밀도를 높이기 위한 새로운 접근 방식이 학계에서 제시됐다. 미국 MIT를 비롯한 맥길대, ETH 취리히, 존스홉킨스대, 예일대, 밀라 퀘벡 인공지능연구소 등이 공동 개발한 이 기술은 ‘시퀀셜 몬테카를로(Sequential Monte Carlo, SMC)’ 방식을 대형 언어 모델에 적용하는 것을 골자로 한다. 연구진은 이를 통해 다양한 프로그래밍 언어에 맞게 AI가 생성하는 코드를 더 정확하고 유효하게 만들 수 있다고 주장했다.
그동안 AI의 코드 생성 도우미는 프로그래밍의 효율성과 생산성을 끌어올리는 데 일조해왔지만, 언어 구조나 의미론적 제약을 무시한 오류 가능성도 꾸준히 지적돼 왔다. 이를 해결하기 위해 기존엔 재정렬 기반(reranking) 방식이 사용돼 왔지만, 성능 개선에는 한계가 있었다. 연구진은 이번 연구에서 SMC 알고리즘을 활용해 생성 과정에서 의미적 오류를 미리 걸러내고, 실행 가능성 높은 코드에만 학습 자원을 집중하도록 설계했다.
SMC는 원래 필터링 문제 해결에 쓰이는 통계 기반 샘플링 기법으로, 이번에는 코드 생성이라는 새로운 분야에 적용됐다. 핵심은 코드 토큰을 하나씩 생성해가며 특정 조건 또는 제약이 충족되는지를 실시간으로 점검하고, 조건을 만족시키지 못하는 코드는 생성 중간에 폐기하는 방식이다. 이를 통해 시간과 연산 자원을 절약하면서도 더 높은 정확도의 코드를 확보할 수 있는 것이다.
이번 연구를 이끈 조아오 루라(João Loula)는 MIT와의 인터뷰에서 “SMC 기반 접근 방식은 단순한 코드 자동화 보조를 넘어, AI 활용 데이터를 과학적으로 분석하거나 연구 도구로 사용하는 분야에도 많은 응용 가능성을 지닌다”고 밝혔다. 그는 또 기존 방식 대비 계산 비용이 낮고 코드 활성화 가능성이 높다고 강조했다.
실험도 진행됐다. 연구팀은 각각 텍스트-투-SQL, 파이썬 기반 데이터 사이언스, 계획 수행을 위한 목표 추론, 제약 기반 분자 합성과 같은 다양한 작업을 통해 SMC의 효과를 검증했다. 특히 LLama 3 모델을 기반으로 한 이들 실험에서 SMC 적용 시, 작은 언어 모델의 성능이 큰 모델을 능가하거나 근접할 정도로 개선된 것으로 나타났다. 이는 곧 AI 모델의 경량화와 정확도 향상이라는 두 마리 토끼를 잡았다는 의미다.
AI 모델이 코드 생성에서 널리 쓰이면서, 엔지니어들이 일상 개발 업무에서 더 빠른 의사결정과 실행을 할 수 있게 됐다. 하지만 동시에 복합 로직이나 고난이도 코딩에 대한 AI 지원 부족, 혹은 과다한 연산 자원 소비에 대한 회의도 커지고 있다. 이번 연구처럼 SMC를 통한 구조적 접근이 이 같은 한계를 극복하고 AI 기반 코딩의 신뢰도를 끌어올리는 계기가 될 수 있을지 주목된다.
시장에서도 AI 코딩 보조 기능 강화 노력이 이어지고 있다. 구글은 최근 ‘코드 어시스트’ 기능을 업그레이드했으며, 토게더AI와 에이전티카도 경량화된 ‘딥코더 14B’를 선보여 효율적인 AI 코딩을 겨냥하고 있다. 이러한 흐름 속에서 SMC 기반 모델 역시 엔터프라이즈용 AI 개발 환경에서 빠른 시간 내에 채택될 가능성이 점쳐진다.