AI 이미지 생성 분야에서 ‘황금 기준’으로 불리는 미드저니(Midjourney)가 최신 버전 'v7'을 출시하며 주목을 받고 있다. 이번 업데이트의 핵심은 *음성 기반 프롬프트 입력* 기능과 향상된 *초안 모드(Draft Mode)*다. 그러나 음성과 속도라는 파격적인 진보에도 불구하고 초기 사용자들의 반응은 엇갈리고 있다.
미드저니 v7은 이제 사용자가 마이크를 통해 음성으로 프롬프트를 전달하면, 해당 *음성 입력*을 기반으로 이미지를 생성한다. 기존에는 텍스트 입력과 이미지를 조합해 스타일을 결정하는 방식이었지만, v7에서는 말로만 설명해도 자동으로 텍스트 프롬프트로 변환된 결과가 시각화된다. 다만, 이 기능이 미드저니 자체 기술인지, 외부 음성 인식 API를 활용한 것인지는 명확하게 공개되지 않았다.
이번 v7에서 새롭게 탑재된 초안 모드는 이전 버전인 v6.1보다 훨씬 빠르게 이미지를 생성한다. 일부 경우 30초 이내 출력도 가능해졌으며, 사용자들은 생성 결과를 바로 ‘강화’ 혹은 ‘변형’ 버튼으로 고화질 전환이 가능하다. 특히 초안 모드는 꼭 음성 입력 기능과 함께 사용해야 활성화되도록 설계돼, 실시간 피드백 기반의 ‘플로우 상태’ 창작 경험을 겨냥하고 있다.
사용자는 이미지 출력을 위해 먼저 ‘개인화 스타일’을 설정해야 한다. 이는 v6에서도 있었던 기능이지만, 이번 v7에서는 사용을 위해 이를 먼저 생성해야만 하는 *필수 절차*로 바뀌었다. 개인 맞춤형 스타일은 200쌍의 이미지 중 선호하는 것을 선택하는 방식으로 사용자 성향을 반영해 자동 적용된다.
v7은 터보 모드와 초안 모드 등 운영 속도별 옵션을 제공하며, 터보 모드는 v6보다 2배 비용이 드는 대신 출력 속도는 대폭 향상된다. 반면 초안 모드는 비용을 절반으로 낮춘 대신 해상도는 낮다. 아직 고속과 일반 속도 모드 외에 기본형 속도(fast 모드)도 개발 중이다.
기능면에서는 아직 부족한 점도 많다. 확대(Upscaling), 이미지 복원(Inpainting), 텍스처 보정(Retexturing) 등은 v6 기술에 의존하고 있으며, 미드저니 측은 앞으로 2개월 내 모든 기능을 v7 전용으로 이전할 계획이다. 추가로 v7 전용 *캐릭터 및 객체 참조 시스템(cref, sref)*도 개발 중이다.
출시 초기 반응은 기대에 미치지 못했다는 실망감과 기대 이상의 성능이라는 호평이 교차하고 있다. 이전 출시 때마다 거의 만장일치에 가까운 찬사를 받았던 것과 달리, 음성 입력과 속도 개선 외엔 기존 v6와 성능 차이가 느껴지지 않는다는 지적도 많다. 일부 사용자들은 미드저니가 해결하지 못한 손 표현, 텍스트 출력 부정확 문제 등도 그대로라는 점을 들어 'v6.2 수준의 마이너 업데이트'라고 평가하기도 했다.
반면, 빠른 출력 속도와 작동 유연성에 만족한다는 긍정적인 반응도 있다. '더 예술적인 이미지', '톤과 질감이 개선됐다'는 평가도 일부 사용자들로부터 나왔다.
미드저니는 앞으로 사용자 피드백을 수집해 기능 우선순위를 조정하는 공개 로드맵 투표를 진행하고, 커뮤니티 중심의 개발을 이어가겠다고 밝혔다. 이제 사용자들은 음성으로 AI와 ‘대화하듯’ 이미지를 만들 수 있는 시대를 맞이하게 됐지만, 그 진화의 방향과 속도는 여전히 사용자들의 눈높이에 미치지 못하고 있다.