카카오브레인, 초거대 멀티모달 AI 업그레이드 버전 공개

입력 2022.04.19 08:48 수정 2022.04.19 08:49 최은수 기자 (sinpausa@dailian.co.kr)

이미지 생성속도와 데이터셋 크기 2배 늘려

‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건에 의해 생성된 샘플 이미지.ⓒ카카오브레인

카카오브레인은 작년 12월에 공개한 초거대 멀티모달(multimodal) 인공지능(AI) ‘민달리(minDALL-E)의 업그레이드 버전인 이미지 생성 모델 ‘RQ-트랜스포머(Transformer)’를 최대 오픈소스 커뮤니티 깃허브(GitHub)1에 19일 공개했다.

39억 개의 매개변수(파라미터)로 구성된 RQ-트랜스포머는 3000만 쌍의 텍스트-이미지를 학습한 텍스트-투-이미지(text-to-image) AI 모델로, 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시킨 모델이다.

RQ-트랜스포머는 카카오브레인의 초거대 멀티모달 AI 민달리의 업그레이드 버전으로 민달리 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. 민달리의 경우 미국의 인공지능 개발 기업 ‘오픈AI(OpenAI)’가 공개한 ‘달리(DALL-E)’를 재현하는 것에 가까웠던 것에 반해, RQ-트랜스포머는 카카오브레인 만의 독자적인 기술로 개발됐다.

RQ-트랜스포머는 3차원의 코드맵으로 표현된 이미지를 순차적으로 예측해 생성하도록 학습된 이미지 생성 모델이다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어, 높은 품질의 이미지를 저해상도의 코드맵으로 표현하는 것이 특징이다. 이를 통해 기존 이미지 생성 모델보다 적은 계산 비용과 높은 이미지 생성 속도를 달성할 수 있다.

대규모 데이터셋을 바탕으로 학습된 RQ-트랜스포머는 처음보는 텍스트의 조합을 이해하고, 이에 대응되는 이미지를 생성할 수 있다.

한편 카카오브레인은 RQ-트랜스포머 기술의 우수성을 종합적으로 인정받아, 오는 6월에 열리는 세계적인 학술대회 CVPR 20222에서 해당 논문을 발표할 예정이다.

김일두 카카오브레인 대표는 “인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다”며, “이번에 우리가 공개한 획기적인 텍스트-투-이미지 AI 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것“이라고 말했다.

#카카오브레인

#초거대AI

카카오브레인, 초거대 멀티모달 AI 업그레이드 버전 공개

댓글 0