맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크가 복사되었습니다.

카카오브레인, 이미지 생성 모델 'RQ-트랜스포머' 공개

작성자 이미지
토큰포스트 기자

2022.04.19 (화) 13:56

대화 이미지 0
하트 이미지 0

사진 = 사막에 있는 에펠탑(the Eiffel Tower in the desert)'이라는 텍스트 조건에 의해 생성된 샘플 이미지 / 카카오

카카오브레인이 지난해 12월에 공개한 초거대 멀티모달(multimodal) 인공지능(AI) '민달리(minDALL-E)(민달리)'의 업그레이드 버전인 이미지 생성 모델 'RQ-트랜스포머(Transformer)'를 최대 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다고 19일 밝혔다.

RQ-트랜스포머는 3000만쌍의 텍스트·이미지를 학습한 텍스트이미지AI 모델이다. 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시켰다. 또 카카오브레인이 공개한 RQ-트랜스포머는 공개된 이미지 생성 모델 중 국내 최대 크기의 이미지 생성 모델이다.

RQ-트랜스포머는 카카오브레인의 초거대 멀티모달 AI 민달리의 업그레이드 버전으로, '민달리' 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. 특히 민달리의 경우 미국의 인공지능 개발 기업 '오픈AI(OpenAI)'가 공개한 '달리(DALL-E)'를 재현하는 것에 가까웠던 것에 반해, RQ-트랜스포머의 경우 카카오브레인 만의 독자적인 기술로 개발된 점이 특징이다.

RQ-트랜스포머는 3차원의 코드맵으로 표현된 이미지를 순차적으로 예측하여 생성하도록 학습된 이미지 생성 모델이다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적다. 높은 품질의 이미지를 저해상도의 코드맵으로 표현하는 것이 특징이다. 이를 통해 RQ-트랜스포머는 기존 이미지 생성 모델보다 적은 계산 비용과 높은 이미지 생성 속도를 달성할 수 있다.

김일두 카카오브레인 대표는 "인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다"며 "이번에 우리가 공개한 획기적인 text-to-image AI 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것"이라고 말했다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

많이 본 기사

미션

매일 미션을 완료하고 보상을 획득!

출석 체크

0 / 0

기사 스탬프

0 / 0

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1