"여기는 뉴시스 방송입니다"…KT AI 휴먼 스튜디오로 영상 만들어 보니

[서울=뉴시스]윤정민 기자 = "안녕하십니까? 뉴시스 앵커 '근우'입니다. 차가운 겨울바람에 감기 조심하시길 바라며 11월 넷째 주 IT 주요 이슈를 소개해 드리겠습니다."

"두 번째 소식은 샘 올트먼 오픈AI CEO 복귀입니다. 미국 현지시간으로 지난 19일 오픈AI에 해임됐던 '챗GPT의 아버지' 샘 올트먼이 3일 만에 다시 오픈AI CEO로 복귀했습니다."

영상 속 앵커, 기자들이 한 주간 있었던 IT 주요 이슈를 전달하고 있다. 깔끔한 발음과 얼굴이 신뢰도를 높인다. 하지만 이들은 뉴시스가 실제로 채용한 앵커와 기자가 아니다. 인공지능(AI)으로 구현한 가상인간으로 KT AI 휴먼 스튜디오가 개발한 모델들이다.

KT가 지난 15일 출시한 AI 휴먼 스튜디오는 영상·음성 AI 기술로 가상인간 동영상 콘텐츠 제작을 가능케 해 주는 웹 서비스다.

따로 촬영할 필요 없이 생성형 AI 기술이 만든 다양한 AI 휴먼 모델과 목소리를 선택하면 텍스트 입력 만으로 동영상 콘텐츠를 제작할 수 있다. AI 휴먼 모델은 모두 실존 인물이 아닌 이미지 생성 기술을 통해 만들어 낸 가상 캐릭터이기 때문에 초상권과 저작권 제약 없이 자유롭게 콘텐츠 제작에 활용할 수 있다.

현재 회원가입 시 무료로 6명의 AI 휴먼 캐릭터를 활용한 영상(월 10분 한도) 제작 서비스를 체험해 볼 수 있다. 이에 뉴시스는 IT 주요 이슈 중 일부를 정리한 뉴스를 제작해 어떤 장단점이 있는지 분석했다.

실제 사람 같은 목소리와 사투리도 가능…누구나 AI 영상 제작자될 수 있어

[서울=뉴시스] 기자가 KT AI 휴먼 스튜디오 웹 서비스에서 영상을 제작하는 모습 (사진=KT AI 휴먼 스튜디오 캡처) *재판매 및 DB 금지

파워포인트 프레젠테이션(PPT)처럼 AI 휴먼 스튜디오는 장면별로 들어갈 사진, 캐릭터, 목소리 등을 설정할 수 있는 사용자 환경(UI)을 갖췄다. 익숙한 UI라 약 4분 영상을 제작하는 데 든 시간은 30분 가량에 불과했다. 오히려 스튜디오에서 편집하는 시간보다 대사, 사진 등을 정하는 데 시간이 많이 소요됐다.

KT가 현재 무료로 제공하는 AI 휴먼은 총 6명이다. 한국어가 가능한 4명(남성 2명, 여성 2명)과 영어를 구사할 수 있는 백인 2명(남성 1명, 여성 1명)으로 구성됐다. 특정 캐릭터는 정장, 캐주얼, 한복 등 영상 스타일에 맞춰 옷차림을 바꿀 수 있었고 옷 스타일에 따라 파이팅, 손으로 만든 하트, 손 흔들기 등의 동작도 구현할 수 있었다.

제작자는 다섯 가지 감정(화남, 슬픔, 중립, 침착함, 즐거움)과 언어, 속도, 발화 높낮이 등 AI 휴먼 목소리 스타일도 설정할 수 있다. 아울러 대본 입력 시 AI 휴먼이 말을 중간에 멈춰야 하는 부분도 별도로 정할 수 있다.

무료 회원은 한국어, 영어 두 언어만 구사할 수 있으며 향후 출시될 요금제에 따라 유료 회원은 중국어, 일본어, 스페인어를 구사할 수 있는 AI 휴먼을 쓸 수 있고 4K 화질 영상도 만들 수 있다.

KT는 일반 고객들을 위한 웹 서비스 외에도 기업, 지자체, 공공기관 등을 위해 맞춤형 AI 휴먼을 제작해 주는 커스텀 AI 휴먼 서비스를 제공할 계획이다. 커스텀 AI 휴먼은 실존 인물을 활용할 수 있으며 성별, 연령, 목소리 등 고객이 요청하는 가상인물도 제작할 수 있다. 이를 위해 촬영부터 모델 생성과 영상 합성까지 가능한 전용 스튜디오를 지원할 예정이다.

영상 미리보기 기능 필요…KT→'케이티' 발음 따로 만들어야

[서울=뉴시스] KT가 영상·음성 생성 인공지능(AI) 기술로 가상인간 동영상 콘텐츠 제작을 가능케 해 주는 KT AI 휴먼 스튜디오 서비스를 출시했다고 15일 밝혔다. 사진은 KT AI 휴먼 스튜디오 콘셉트 배너 (사진=KT 제공) *재판매 및 DB 금지

다만 AI 휴먼 스튜디오의 개선점도 필요해 보였다. 우선 PPT를 만들 때처럼 장면별 순서를 바꾸는 기능이 없었다. 예를 들어 '장면 2'를 '장면 4'와 '장면 5' 사이에 옮기고 싶은데 옮길 방법이 없어 장면 4 뒤에 새로운 장면을 추가해 작업해야 하는 번거로움이 있었다.

일부 단어를 일일이 발음을 수정해야 하는 작업도 필요했다. 예를 들어 'IT'를 '아이티'로 발음해야 하는데 3인칭 대명사로 인식해 '잇'으로 발음했고 KT도 '키티'로 발음하는 경우도 있었다.

휴먼 스튜디오는 이러한 문제를 해결하기 위해 '스마트 단어장' 기능을 두고 있었는데 이 기능을 통해 특정 단어를 제작자가 원하는 발음으로 교정할 수 있도록 했다. 'AI'는 '에이아이'로 고정 설정돼 있었고 'T1'을 '티원', 'CEO'를 '씨이오', 갤럭시 S24의 'S24'를 '에스이십사'로 처리해야 했다.

영상 미리보기가 제공되지 않다는 점도 아쉬운 부분 중 하나다. 영상을 제작하면서 편집자가 모델들의 동작 등이 어떻게 작동되는지 확인하고 싶으나 영상을 최종 생성하기 전까지는 확인할 방법이 없다. 영상을 만들면 해당 영상 분량만큼 제작 가능 시간이 차감되기 때문에 이를 보완할 수 있는 기능이 필요해 보인다.

◎공감언론 뉴시스 [email protected]