• 페이스북
  • 트위터
  • 유튜브

[신년특집-AI 3.0 시대①]보고 듣고 말하는 '멀티모달' AI 대세

등록 2023.12.30 13:00:00수정 2024.01.02 13:39:16

  • 이메일 보내기
  • 프린터
  • PDF
[신년특집-AI 3.0 시대①]보고 듣고 말하는 '멀티모달' AI 대세



[편집자주] 2022년말 오픈AI가 '챗GPT'를 선보이며 AI 3.0 시대가 열렸다. 구글과 메타 등 글로벌 빅테크 기업은 물론, 네이버와 카카오 등 한국 기업들도 생성형 AI 경쟁에 뛰어들면서 전 세계 AI 패권 경쟁이 본격화됐다. 대규모언어모델(LLM)을 기반으로 하는 AI 기술은 계속 고도화되면서 이제는 텍스트 대화는 물론 사람과 음성으로 대화를 나누는 수준으로 발전했다. 심지어 AI가 사물과 이미지를 구분하고, 그림까지 생성해주는 수준에 이르렀다. 이런 멀티모달 AI는 스마트폰과 PC로 확장돼 우리의 일상 깊숙이 파고들 것으로 전망된다. 점점 똑똑해지는 AI의 기술 발전 동향과 각국의 대응 방안 등을 짚어봤다.

[서울=뉴시스] 오동현 기자 = "멀티모달 AI는 AI의 미래입니다." (오픈AI CEO 샘 알트만)

"멀티모달 AI가 본격적으로 상용화되면, 우리의 삶은 보다 풍요로워질 것입니다." (AI 최고 석학 얀 르쿤)

바야흐로 AI 3.0 시대다 열렸다. 챗GPT와 같은 AI는 이제 단순한 텍스트 대화를 넘어서 이미지·영상·음성 분석과 생성까지 가능한 멀티모달로 진화했으며, 이는 곧 우리 일상에 더 깊이 파고들 전망이다.

멀티모달 AI는 텍스트, 이미지, 영상, 음성 등 서로 다른 데이터를 함께 학습하고 사고하는 AI를 말한다. 이미 오픈AI, 구글, 마이크로소프트, 메타 등 글로벌 IT 기업들은 멀티모달 AI를 개발하고 다양한 방식으로 활용하고 있다.

'챗GPT·바드' 글로벌 빅테크 '멀티모달' 경쟁…한국 기업도 참전

특히 오픈AI는 지난 3월 멀티모달 연산이 가능한 'GPT-4'를 발표하며 또 다시 전 세계 산업계에 신선한 충격을 안겼다. 지난 9월 오픈AI는 챗GPT에 음성 및 이미지 기능을 출시했다. 챗GPT가 이제 보고 듣고 말하기 시작한 것이다. 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성한다.

챗GPT 사용자는 사진을 찍거나 이미지를 올려 챗GPT와 텍스트로 대화를 나눌 수도 있다. 예를 들어 자전거 사진을 올린 뒤 "내 자전거 좌석을 내리는 것을 도와줘"라고 입력하면 챗GPT가 텍스트로 해결 방법을 제시한다. 업무에도 활용할 수 있다. 챗GPT가 복잡한 그래프 이미지 속에서 업무 관련 데이터를 분석해준다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱에서 그리기 도구를 사용할 수 있다.

구글도 'GPT-4'에 맞서기 위해 멀티모달로 설계된 차세대 AI 모델 '제미나이'를 공개했다. 구글에 따르면, 사용자와 챗봇 간의 음성 대화는 물론, 제미나이가 사진과 실제 물체를 인식하고 그 차이를 알아내는 능력을 갖췄다. 챗봇 '바드'를 통해 이미지를 분석하고 생성해준다.

국내 기업들도 AI 연구 개발을 멀티모달로 확장하고 있다. LG AI 연구원은 언어와 이미지 간의 양방향 생성이 가능한 멀티모달 모델 '엑사원 2.0'을 발표했다. 사용자 질문에 대한 답변은 물론, 이미지 생성과 이미지 이해에 특화된 기능을 제공한다. 또 화학 및 바이오 분야의 발전을 앞당기기 위해 신소재·신물질·신약 관련 탐색에 적용하고 있다.

네이버와 카카오, SK텔레콤, KT 등에서도 멀티모달 서비스를 속속 선보이고 있다. 카카오의 경우 오픈소스 기반의 언어모델 코(Ko)GPT와 이미지 생성모델 칼로(Karlo)를 개발해 선보였다. SK텔레콤은 AI 플랫폼 '에이닷(A.)'에 장기기억, 멀티 모달 인식 기능을 추가하며 서비스를 고도화하고 있다.

[보스턴=AP/뉴시스]지난달 21일(현지시간) 미국 보스턴에서 한 사용자가 컴퓨터로 인공지능(AI) 챗봇 '챗(Chat)GPT'를 사용하고 있다. 화면 앞에는 챗GPT를 개발한 오픈 AI 로고가 스마트폰 화면에 떠 있다. 2023.04.06.

[보스턴=AP/뉴시스]지난달 21일(현지시간) 미국 보스턴에서 한 사용자가 컴퓨터로 인공지능(AI) 챗봇 '챗(Chat)GPT'를 사용하고 있다. 화면 앞에는 챗GPT를 개발한 오픈 AI 로고가 스마트폰 화면에 떠 있다. 2023.04.06.


"내년 AI 화두는 멀티모달"…"기업들 AI 전략 강화할 것"

전문가들은 내년부터 본격적인 멀티모달 AI의 경쟁이 전개될 것으로 예상하고 있다. 이로 인한 경제적·사회적 파급효과도 상당할 것으로 전망된다.

김현정 한국IBM 컨설팅 대표는 최근 간담회에서 "올해는 생성형 AI가 가져올 수 있는 여러 가지 가능성들을 점검하는 해였다면, 내년에는 AI 서비스가 보다 더 확산하는 해가 될 것"이라며 "특히 내년에는 LLM 중심 보다는 멀티모달에 대한 관심도가 높아질 것"이라고 전망했다.

글로벌 AI 및 분석 기업 SAS 역시 '2024년 AI 시장 전망' 보고서를 통해 "새로운 첨단 기술로 멀티모달 AI와 AI 시뮬레이션이 부상할 것"이라며 "일례로 3D 객체, 환경 및 공간 데이터의 생성이 가능하며 증강현실(AR), 가상현실(VR), 디지털 트윈과 같은 복잡한 물리적 시스템의 시뮬레이션 등에 적용될 수 있다"고 내다봤다. 또 "기업들은 생성형 AI를 산업별 AI 전략을 보완 및 강화하는 요소로 활용하게 될 것"이라고 예상했다.

오픈AI에서 발간한 'GPTS are GPTS'에서는 LLM 출시만으로도 미국 노동시장의 80%는 기존 일의 10% 정도 영향이 갈 것으로 전망했고, 나머지 19%는 50%의 영향을 받을 것으로 전망했다. 이에 대해 박세라 대신증권 애널리스트는 "앞으로 우리의 일상 생활 침투율이 점차 높아질 것을 시사한다"며 "앞으로 일하는 방식의 변화와 직업의 변화도 불러일으킬 것으로 볼 수 있다"고 전했다.

우리 생활에 더욱 깊숙이 침투하고 있는 AI 서비스는 글로벌 경제에도 영향을 미칠 전망이다. 글로벌 컨설팅 그룹 맥킨지에 따르면 AI가 기존의 분석, 머신러닝, 딥러닝을 통해 11.0~17.7조 달러의 경제적 영향을 끼칠 것으로 추정되고 있다. 생성형 AI는 약 2.6조~4.4조 달러에 달하는 추가 경제적 영향을 가져올 것으로 예상되며, 전체 사용 사례에 기반한 잠재적 경제 효과는 약 13.6조~22.1조 달러로 추정된다.

[신년특집-AI 3.0 시대①]보고 듣고 말하는 '멀티모달' AI 대세


10명 중 4명 써봤다…대중성 확보 이면엔 악용 범죄 우려

생성형 AI는 텍스트, 이미지, 음악, 영상 등 다양한 콘텐츠를 생성하고 활용할 수 있는 대중 서비스로 확장하고 있다. 이를 통해 일상 생활부터 비즈니스 분야에 이르기까지 큰 변화를 이끌고 있다. 과거에 며칠이 걸리던 과제와 업무들이 이제 몇 개의 키워드(프롬프트)만 입력하면 짧은 시간 내 AI가 작성해주기 때문이다.

실제로 우리나라 1050세대 10명 중 4명은 이미 생성형AI를 이용해본 경험이 있는 것으로 조사됐다. 메조미디어의 '생성형 AI에 대한 소비자 인식 조사'에 따르면, 특히 신기술에 대해 친화성이 높은 1020세대에서 이용 경험이 가장 많았다. 이들이 가장 많이 이용한 서비스는 사람처럼 대화할 수 있고 기사·소설·시 등의 창작물을 만들어주는 '텍스트 생성AI'였다.

멀티모달 AI의 활용 분야는 광범위하다. 예를 들어, 병변 이미지를 분석해 진단을 보조하거나, 고객의 표정과 음성을 통해 그들의 감정 상태를 파악해서 맞춤형 서비스를 제공하는 것이 현실화되고 있다. 또한 교통사고 현장에서 차량 번호판과 파손 부위의 이미지를 AI가 분석해 보험사의 사고 접수와 처리를 도와주는 것도 가능해진다.

광고·마케팅 업계에서도 텍스트·이미지·영상·음악 분야의 생성형AI를 활용해 광고 콘텐츠를 기획·제작하고 있다. 제품 이미지를 음악으로 변환해 광고의 BGM으로 사용하고, 영상의 장면들을 AI로 그려내는 등 활용 범위는 다양하다.

반면 AI 기술 발전이 딥페이크 등 사이버 범죄에 악용될 수 있다는 우려의 목소리도 나오고 있다. 이에 대해 오픈AI 역시 "음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다"고 인정했다. 다만 "우리는 전문 성우와 협력해 각 목소리를 만들었다. 또한 오픈 소스 음성 인식 시스템인 위스퍼(Whisper)를 사용해 사용자가 말한 내용을 텍스트로 변환한다"고 설명했다.


◎공감언론 뉴시스 [email protected]

많이 본 기사