오픈AI(OpenAI)가 기업용 AI 시장에서의 경쟁 심화에 대응해 새로운 AI 모델군인 GPT-4.1 시리즈를 공개했다. 이번에 발표된 모델은 최대 100만 토큰을 처리할 수 있는 강력한 문맥 파악 능력과 개선된 코딩 문제 해결 능력을 바탕으로, 실전에서의 효용성을 극대화하는 데 초점을 맞췄다. 특히 모델 성능을 대폭 끌어올리면서도 비용은 줄여 보다 넓은 기업 고객층을 겨냥한 전략으로 업계의 주목을 받고 있다.
이번에 공개된 GPT-4.1, GPT-4.1 미니, GPT-4.1 나노는 모두 API를 통해 즉시 사용 가능하며, 특히 주력 모델인 GPT-4.1은 가격이 기존 대비 26% 낮아졌다. 나노 모델은 백만 토큰당 0.12달러로, 지금까지 오픈AI가 출시한 AI 중 가장 저렴하다. 기업 고객의 가장 큰 불편함 중 하나였던 실행 비용 문제를 정면 돌파한 셈이다.
실제 성능 측정 결과도 인상적이다. 소프트웨어 엔지니어링 과제를 평가하는 SWE-bench Verified에서 GPT-4.1은 이전 모델 GPT-4o 대비 21.4%포인트 상승한 54.6%의 정확도를 기록했다. 복잡한 문제 해결 능력을 측정하는 Scale의 MultiChallenge 벤치마크에서도 GPT-4o 대비 10.5%포인트 높은 점수를 얻었다. 이는 특히 복잡한 작업을 자동으로 실행하는 AI를 개발하는 기업에게 강력한 동기 부여 요인이 될 것으로 분석된다.
한편, 오픈AI는 지난 2개월 전 출시했던 고성능 모델 GPT-4.5 Preview를 7월 중 API에서 제외할 계획이다. 고비용·고성능 전략을 일시적으로 취했으나, 이번 GPT-4.1으로 성능 수준은 유지하면서도 비용과 지연시간을 획기적으로 낮춰 전면적인 방향 전환에 나선 것이다.
기업 현장의 반응도 긍정적이다. 톰슨 로이터는 자사 법률 AI 어시스턴트인 '코카운슬(CoCounsel)'에 GPT-4.1을 도입한 뒤 복수 문서 검토 정확도가 17% 향상됐다고 밝혔다. 투자회사 칼라일(Carlyle)은 복잡한 재무 데이터를 추출하는 작업에서 50% 이상의 성능 향상을 확인했다. 개발 도구 업체 윈드서프(Windsurf)의 바룬 모한 CEO는 “GPT-4.1이 불필요한 파일 접근을 기존 모델보다 40% 줄였고, 불필요한 파일 수정을 70%나 줄였다”고 설명했다.
이번 GPT-4.1 모델군의 가장 주목할 만한 특징은 바로 100만 토큰이라는 긴 문맥창 크기다. 이는 약 75만 단어에 해당하며 GPT-4o보다 8배 확대된 수치다. 긴 코드베이스나 대용량 문서 콜렉션 등 고난도 작업에서 탁월한 성능을 발휘할 수 있는 기반이 된다. 실제로 오픈AI는 1995년 NASA 서버 로그 45만 토큰 분량의 데이터를 분석해, 품질 저하 없이 이상 로그를 효과적으로 찾아내는 데 성공했다고 밝혔다.
다만 오픈AI 측은 매우 긴 입력값을 사용할 경우 정확도 저하 현상이 동반될 수 있다고 덧붙이며, 자사 테스트에서 8,000토큰 처리 시 정확도 84%였던 것이 100만 토큰 입력 시 50%로 떨어졌다고 설명했다. 따라서 실전 배치 시 토큰 크기와 정확도 간 균형을 고려해야 함을 시사한다.
이러한 신제품 출시는 구글과 앤트로픽도 긴 문맥 대응 모델을 공개하며 경쟁이 본격화된 기업용 AI 시장에서 오픈AI가 유리한 입지를 다지기 위한 전략적 포석으로 해석된다. 구글은 최근 제미니(Gemini) 2.5 프로를, 앤트로픽은 클로드(Claude) 3.7 소네트를 선보였으며, 중국 AI 스타트업 딥시크(DeepSeek)도 자사 모델의 성능을 강화하며 시장 확장을 노리고 있다.
오픈AI는 향후 GPT-4.1의 기능을 점진적으로 챗GPT(ChatGPT)에 통합할 예정이며, 당장은 API 중심 제공으로 기업과 개발자 타깃에 집중한다는 계획이다. 또한 장문 문맥 이해 능력을 테스트하기 위한 새로운 벤치마크 데이터셋 두 종을 출시해 연구 생태계 지원에도 나섰다.
GPT-4.1 시리즈는 논문 수치보다 실질적인 효용에 집중한 모델로, AI 기술의 상용화와 실전 배치를 본격화하려는 기업들에 새로운 기회를 제공하고 있다. AI가 점차 필수 기술로 자리잡는 현재, 고비용·고성능 중심의 경쟁보다는 실용성과 비용 효율이 미래 시장을 주도할 핵심 키워드가 되고 있다는 분석이 설득력을 얻고 있다.