AI가 사용자의 텍스트 프롬프트 "청바지와 흰색 티셔츠를 입은 여자가 겨울 폭풍의 남극에서 기분 좋은 산책"에 맞춰 고화질의 동영상을 제작한다.
뿐만 아니라, '베레모와 검은색 터틀넥을 입은 시바견'과 같은 이미지를 프롬프트에 입력하면 움직이는 동영상까지 만들어준다.
챗GPT 개발사 오픈AI는 15일(현지시간) 블로그를 통해 고화질 동영상을 생성하는 AI 모델 '소라(Sora)'를 공개했다. 특히 "소라는 언어에 대한 깊은 이해를 갖고 있어 프롬프트를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다"는 설명을 덧붙였다.
'소라'는 다양한 해상도와 화면 비율의 고화질 동영상을 최대 1분 분량까지 생성할 수 있는 범용 시각 데이터 모델이다. 이를 통해 '소라'는 다양한 디바이스의 기본 화면 비율로 직접 콘텐츠를 제작할 수 있다. 또는 전체 해상도로 생성하기 전에 더 작은 크기의 프로토타입(시제품)으로 콘텐츠를 빠르게 제작할 수도 있다.
'소라'는 사용자의 짧은 프롬프트를 GPT를 활용해 더 길고 상세한 캡션으로 변환한다. 이를 통해 '소라'는 사용자 프롬프트를 정확하게 따르는 고품질 동영상을 생성할 수 있다. 기존의 이미지나 동영상을 프롬프트에 입력할 수도 있다. 이 기능을 통해 소라는 정적인 이미지를 애니메이션으로 구현하거나, 기존 비디오 영상을 확장하는 등 다양한 편집 작업을 수행할 수 있다.
다만 '소라'는 제한된 창작자에 한해 이용 접근이 허용된다고 샘 알트만 오픈AI 최고경영자(CEO)이 소셜미디어 'X(옛 트위터)'를 통해 밝혔다. 오픈AI는 소라를 자사 제품에 통합하기 전에 전문가팀에게 맡겨 안전성 여부를 평가할 계획이라고 전했다.
AI 슈퍼앱 탄생하나…챗GPT의 무한 확장
나아가 오픈AI는 생성형 AI 기술을 활용한 웹 검색 서비스도 준비 중인 것으로 알려졌다. IT 전문매체 디인포메이션 보도에 따르면 소식통은 오픈AI는 구글이 장악한 검색 시장에 도전할 준비를 하고 있으며, 이 서비스는 마이크로소프트(MS)의 검색 엔진 '빙'을 기반으로 일부 구동될 것이라고 전했다.
오픈AI가 이번에 공개한 동영상 AI 모델 '소라'는 물론, '웹 검색 서비스'가 챗GPT 서비스와 연계되는 것인지에 대해선 알려지지 않았다. 다만 이런 다양한 기능이 챗GPT에 담겨질 경우 오픈AI의 영향력이 더욱 막강해질 것은 자명한 일이다.
이미 챗GPT 앱은 AI 챗봇 역할을 넘어서, 생성형 AI 스토어로서의 존재감을 키우고 있다. 챗GPT 출시 1년 만에 GPT 기반의 스토어 'GPTs'를 오픈했고, 이미 300만 개의 챗봇이 등록됐다. 애플에 등록된 178만 개의 앱보다 많은 규모다.
구글 "챗GPT에 밀리지 않는다"…'제미나이 1.5 프로' 공개
특히 구글은 오픈AI가 개발한 GPT-4 터보의 토큰 처리 규모 12만8000개를 훌쩍 뛰어넘는 최대 100만개 규모라며 '제미나이 1.5 프로' 성능에 자신감을 드러냈다. 이는 ▲영상 1시간 ▲음성 11시간 ▲코드 3만줄 ▲단어 70만개 등의 방대한 정보를 한 번에 처리할 수 있는 규모다.
또 구글은 '제미나이 1.5 프로'가 보다 정교한 이해 능력과 추론 능력을 갖췄다고 전했다. 예를 들어 44분 분량인 미국 무성 영화의 정확한 주요 줄거리와 사건들을 분석하고 영화 속 사소한 부분까지도 추론해 낼 수 있다고 설명했다. 400페이지가 넘는 분량의 아폴로 11호 달 탐사 임무 관련 문서가 주어지면 전체 내용과 이미지, 세부 정보를 추론할 수 있다.
순다 피차이 구글 및 알파벳 CEO는 이날 "제미나이 1.5 프로는 다양한 부문에서 놀라운 발전을 이뤘다"며 “더 적은 컴퓨팅 자원으로 '제미나이 1.0 울트라(최상위 모델)'에 필적하는 성능을 갖추고 있다"고 밝혔다.
특히 구글의 제미나이는 챗GPT와 달리 무료 버전임에도 최신 정보의 답변을 제공한다. 또한 오픈AI 이전에 이미 '소라'와 같은 텍스트 입력 기반의 동영상 생성 AI 모델도 개발한 바 있다. 구글 역시 '제미나이'를 중심으로 생성형 AI 생태계를 확장하고 있다.
◎공감언론 뉴시스 [email protected]