AI, 코드 품질 위협하나… '관측 불가' 리스크에 개발 현장 긴장

김민준 기자

2025.04.22 (화) 09:02

AI 개발 도구 확산이 소프트웨어 품질과 시스템 감시에 복합적인 리스크를 불러오고 있다. 자동화 기대 속 예측 불가능성과 책임 소재 논란이 커지고 있다.

AI, 코드 품질 위협하나… '관측 불가' 리스크에 개발 현장 긴장 / TokenPost Ai

AI 개발 도구의 확산이 소프트웨어 품질과 관측 가능성(observability)에 새로운 과제를 던지고 있다. 자동화에 기반한 높은 개발 생산성을 기대할 수 있지만, 지나치게 AI에 의존할 경우 예측 불가능한 오류와 시스템 전반의 변화 감지 곤란 등 복합적인 리스크가 발생하고 있기 때문이다.

최근 구글이 후원한 ‘DORA 2024 보고서’에 따르면 AI 도입은 코드 리뷰 속도나 문서 품질 같은 지표에서는 긍정 영향을 미쳤지만, 배포 속도는 평균 1.5%, 안정성은 7.2%씩 감소하는 부작용도 동반한 것으로 나타났다. 이는 AI 생성 코드의 ’비결정성(nondeterministic)’이 기존의 규칙 기반 구조에 비해 감시와 검증이 훨씬 어렵다는 현실을 보여주는 대목이다.

스마트베어(SmartBear)의 최고기술책임자 비니타 푸라니크는 “지금은 오류 추적 이상의 관점이 중요하다”며 “AI든 사람의 코드든, 진짜 고객 가치로 이어지는 구조인지 확인할 수 있는 체계가 필요하다”고 강조했다. AI 기반 코드가 실제 의도와 얼마나 잘 부합하는지 검증하는 ‘정렬(alignment)’ 문제는 이제 개발자의 핵심 과제가 됐다.

뉴렐릭(New Relic)과 허니콤(Honeycomb), 스플렁크(Splunk) 같은 주요 관측 플랫폼들도 이 변화에 발맞춰 AI와의 상호작용을 시각화하고 디버깅할 수 있는 기능을 강화하고 있다. 예컨대 뉴렐릭은 프롬프트 기반 코드 구성 방식인 '바이브코딩(vibecoding)'에 대응하기 위해 스택 추적 엔진을 추가했고, 허니콤은 자연어 검색 인터페이스를 통해 AI가 생성한 코드에서도 문제의 맥락을 추적할 수 있도록 했다.

관측 플랫폼들이 특히 주목하는 리스크는 AI 에이전트가 AI 코드로 운영되는 시스템을 감시하고 테스트까지 맡는 ‘자기참조적 구조’다. 이는 원리상 사람 손길 없이 빠르게 문제를 인지하긴 어렵다는 점에서 한계가 분명하다. 허니콤의 필립 카터는 “AI는 테스트 만족을 1차 목표로 삼기에, 현실적인 테스트 설계가 없으면 엉뚱한 코드가 나올 수 있다”며 “검증과 직관이 오히려 병목 요소가 된다”고 진단했다.

반면 일부 희망적인 신호도 감지된다. 카탈론(Katalon)은 최근 발표한 보고서에서 응답자의 75% 이상이 AI 기반 테스트 도구를 활용하고 있으며, 이들이 비AI 사용자보다 계획 및 설계 단계에 드는 시간을 줄여 전반적인 테스트 자동화와 수행 주기를 단축시키고 있다고 밝혔다. 카탈론은 다양한 AI 도구를 하나의 유기적 흐름으로 결합하는 ‘하이브리드 테스터’ 모델을 제안하며, 에이전틱 AI가 테스트 소비 구간 전반에서 중요한 연결 고리 역할을 할 것이라고 내다봤다.

소프트웨어 개발에서 흔히 거론되는 ‘빠르게, 싸게, 잘’이라는 삼각형 논리는 여전히 유효하지만, AI가 이 조건을 모두 충족시켜줄 것이라는 기대는 섣부르다. 핵심 성과 지표에 대한 명확한 주체 설정 없이 AI를 전방위로 적용할 경우, 오히려 소프트웨어 품질 관리 체계가 붕괴될 위험이 커지고 있는 실정이다.

스플렁크의 하오 양은 “이제는 AI가 아닌 사람조차 감시 대상에 포함돼야 한다”며 “AI가 인간에게 업무를 이양하는 만큼, 인간이 기술적 통제권을 보장받는 구조가 중요하다”고 말했다. 실제로 AI 기반 시스템에서도 여전히 명확한 관측 신호(지연 시간, 트래픽, 오류율, 포화도) 외에 새로운 품질 지표인 ‘연관성, 환각, 유해성’ 같은 AI 전용 지표에 대한 추적이 동시에 이뤄져야 한다고 강조했다.

AI 보조 도구를 통해 생성된 코드에 대한 소유권 이슈도 여전히 풀리지 않은 상태다. 오픈소스 기업인 그라파나랩스(Grafana Labs)의 톰 윌키 CTO는 “코드를 검토하고 승인한 건 사람이기에, 버그가 생길 경우 책임도 결국 사용자에게 있다”며 “코드의 작성자가 AI라는 이유로 책임을 회피할 수 없다”고 못 박았다.

결국 문제는 기술이 아니라 ‘감시 불가능성’이다. 수많은 투자자들과 애널리스트, 고객들이 AI 기반 소프트웨어 개발 도구에 거는 기대는 크지만, 잇단 실전 배치와 중대한 장애가 발생하기 전까지는 냉철한 평가가 쉽지 않다. 이럴수록 자동화에 철저히 대응하는 관측 시스템과 ‘좌측 이동’ 테스트, 그리고 경험 기반 검증 역량이 소프트웨어 개발의 마지막 방어막으로 부상하고 있다.

뉴스를 실시간으로...토큰포스트 텔레그램 가기

광고문의 기사제보 보도자료

#AI도구 #소프트웨어품질 #관측플랫폼 #테스트자동화 #비결정성 #코드정렬

많이 본 기사