글자 입력하면 AI가 이미지 제작…카카오브레인 기술 공개
'초거대 인공지능 이미지 생성 모델' 공개
이미지 생성 속도와 데이터셋 크기 2배 늘려
컴퓨터 비전 분야 학술대회 'CVPR'서 논문 발표

【서울=뉴시스】송종호 기자 = 카카오브레인이 입력된 영어 텍스트를 이해하고 대응되는 이미지를 만들어내는 새 초거대 인공지능(AI) 모델 'RQ-트랜스포머(Transformer)'를 공개했다. 특히 이번 공개는 오픈소스 소프트웨어(누구든지 어떤 목적으로든 수정·배포할 수 있는 권한 지닌 소프트웨어)로 이뤄졌다.
18일 카카오브레인에 따르면 39억 개의 매개변수(파라미터)로 구성된 'RQ-트랜스포머'는 3000만 쌍의 텍스트-이미지를 학습한 텍스트투이미지(text-to-image) AI 모델이다. 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시켰다.
카카오브레인이 공개한 RQ-트랜스포머는 공개된 이미지 생성 모델 중 국내 최대 크기의 이미지 생성 모델이며, 이를 공공 목적을 위해 공개했다는 점에서 AI 커뮤니티에 기여가 클 것으로 기대된다.
RQ-트랜스포머는 지난해 12월 공개한 민달리(minDALL-E) 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다. RQ-트랜스포머는 카카오브레인 만의 독자적인 기술로 개발됐다.
RQ-트랜스포머는 고해상도의 이미지를 2차원의 코드맵으로 표현하는 기존 기술과 달리, 3차원의 코드맵으로 표현된 이미지를 순차적으로 예측해 생성하도록 학습된 이미지 생성 모델이다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어, 높은 품질의 이미지를 저해상도의 코드맵으로 표현할 수 있다.
또 처음보는 텍스트의 조합을 이해하고, 이에 대응되는 이미지를 생성할 수 있다. 예를 들어 '사막에 있는 에펠탑(the Eiffel Tower in the desert)'이라는 텍스트를 입력하면 AI가 이 조건에 부합하는 이미지를 만들어준다.
김일두 카카오브레인 대표는 "인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다"며 "이번에 공개한 획기적인 텍스트투이미지 AI 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것"이라고 말했다.
한편 카카오브레인은 RQ-트랜스포머 기술의 우수성을 종합적으로 인정받아, 오는 6월에 열리는 세계적인 학술대회 'CVPR 20222'에서 해당 논문을 발표할 예정이다.
◎공감언론 뉴시스 [email protected]
Copyright © NEWSIS.COM, 무단 전재 및 재배포 금지





























