• 페이스북
  • 트위터
  • 유튜브

'지브리풍' 그리던 챗GPT, 이젠 한글도 안 깨진다…이미지 2.0 공개

등록 2026.04.22 10:55:35수정 2026.04.22 12:02:24

  • 이메일 보내기
  • 프린터
  • PDF

한국어·일본어 등 非라틴 문자 텍스트 자연스럽게 렌더링

최대 2K 해상도, 단일 프롬프트로 캐릭터 일관성 8장 생성

동영상 '소라'는 26일 종료…기업·생산성 도구 중심으로 재편

행복한 비명을 지르는 오픈AI 샘 올트먼 CEO의 모습을 지브리 화풍으로 생성한 이미지 *재판매 및 DB 금지

행복한 비명을 지르는 오픈AI 샘 올트먼 CEO의 모습을 지브리 화풍으로 생성한 이미지 *재판매 및 DB 금지

[서울=뉴시스]오동현 기자 = 오픈AI가 21일(현지시간) 차세대 이미지 생성 모델 '챗GPT 이미지 2.0(ChatGPT Images 2.0)'을 공식 발표했다.

지난해 봄 '지브리풍' 열풍을 일으킨 'GPT-4o 이미지 생성' 이후 약 1년여 만의 대대적 업그레이드로, 지난해 12월 공개된 'GPT-이미지-1.5'의 후속 모델이다

동영상 생성 AI '소라(Sora)' 앱 종료를 앞둔 시점에 이미지 모델은 오히려 강화하는 행보여서 배경에도 관심이 쏠린다.

"이미지는 장식이 아닌 언어"…한글도 안 깨진다

오픈AI는 공식 블로그를 통해 챗GPT 이미지 2.0에 대해 "복잡한 창작 작업을 위해 더 정밀해진 이미지 생성 기능"이라며 "이미지 생성을 단순한 시각적 실험이 아니라 실제 업무에서 쓸 수 있도록 만드는 것이 목표"라고 밝혔다.

지원 해상도는 최대 2K(2048픽셀)까지 확대됐고, 가로세로 비율도 3:1에서 1:3까지 다양하게 지원한다. 배너, 슬라이드, 포스터, 모바일 화면 등 실무 포맷에 바로 활용할 수 있다는 설명이다. API에서는 4K까지 베타 형태로 제공된다.

가장 두드러진 변화는 텍스트 렌더링 정확도다. 그동안 AI 이미지 생성기의 고질적 약점으로 꼽혔던 '글자 깨짐' 문제를 상당 부분 해소했다. 라틴 문자뿐 아니라 한국어, 일본어, 중국어, 힌디어, 벵골어 등 비(非)라틴 문자도 자연스럽게 렌더링된다는 점이 강조됐다. 인포그래픽, 도면, 메뉴판, 슬라이드 등 정보 밀도가 높은 콘텐츠 제작이 가능해졌다는 평가다.

챗GPT 이미지 2.0은 '인스턴트(Instant)'와 '씽킹(Thinking)' 두 가지 모드를 제공한다.

씽킹 모드에서는 모델이 작업을 추론하고 필요시 웹을 검색해 결과물에 반영한다. 특히 단일 프롬프트로 캐릭터·사물의 일관성을 유지한 채 최대 8장의 이미지를 한 번에 생성할 수 있다. 만화 스토리보드, 동화책, 광고 시안 등 시리즈물 제작에 활용도가 높을 것으로 보인다.

오픈AI는 "이미지는 장식이 아니라 언어"라며 "좋은 이미지는 좋은 문장이 그러하듯 선택하고, 배열하고, 드러낸다"고 했다.

챗GPT 이미지 2.0은 오늘부터 무료 사용자를 포함한 모든 챗GPT 및 코덱스(Codex) 사용자에게 순차 제공된다. 다만 씽킹 모드를 비롯한 일부 기능은 챗GPT 플러스·프로·비즈니스 등 유료 사용자에게만 제공된다.

프리미엄 한옥 스테이 예약 유도용 카드 이미지, 고즈넉한 골목을 지나 체크인하는 순간, 마당이 보이는 창가에서 차를 마시는 순간, 따뜻한 조명 아래 객실에서 쉬는 순간의 3장면이 한 화면 안에서 자연스럽게 이어지는 구성, 같은 한국 여성이 반복 등장하며 우아하고 여유로운 여행 분위기, 크림과 우드 톤, 부드러운 자연광, 정갈한 한옥 공간, 저장하고 싶은 프리미엄 여행 카드 무드, 제목과 짧은 라벨, 예약 안내를 얹기 쉬운 여백, 모바일 중심 4:5 비율 (이미지 = 오픈AI가 한국어 프롬프트로 제작한 광고물 예시) *재판매 및 DB 금지

프리미엄 한옥 스테이 예약 유도용 카드 이미지, 고즈넉한 골목을 지나 체크인하는 순간, 마당이 보이는 창가에서 차를 마시는 순간, 따뜻한 조명 아래 객실에서 쉬는 순간의 3장면이 한 화면 안에서 자연스럽게 이어지는 구성, 같은 한국 여성이 반복 등장하며 우아하고 여유로운 여행 분위기, 크림과 우드 톤, 부드러운 자연광, 정갈한 한옥 공간, 저장하고 싶은 프리미엄 여행 카드 무드, 제목과 짧은 라벨, 예약 안내를 얹기 쉬운 여백, 모바일 중심 4:5 비율 (이미지 = 오픈AI가 한국어 프롬프트로 제작한 광고물 예시) *재판매 및 DB 금지


'지브리풍' 그리던 AI와 달라진 점…정확한 렌더링, 출처 식별 기능

지난해 3월 공개된 GPT-4o 이미지 생성 기능은 '지브리풍 변환' 열풍을 일으키며 전 세계적 화제가 됐다. 사용자가 자신의 사진이나 밈, 영화 장면을 업로드하면 스튜디오 지브리 특유의 파스텔톤 화풍으로 바꿔주는 기능이 폭발적 인기를 끌었고, 샘 올트먼 오픈AI 최고경영자(CEO)도 자신의 X(옛 트위터) 프로필을 지브리풍으로 바꿨을 정도였다. 한때 수요 폭주로 서버가 마비되는 사태도 빚어졌다.

다만 GPT-4o는 화풍 모방과 사진 변환에 강점이 있었던 반면, 작은 글씨와 UI(사용자 인터페이스) 요소, 정보가 빽빽한 레이아웃을 정확히 그려내는 데는 한계가 있다는 지적을 받아왔다.

이번 챗GPT 이미지 2.0은 이러한 약점을 보완하는 데 초점을 맞췄다. 오픈AI 측은 "작은 텍스트, 아이콘, UI 요소, 밀도 높은 구도, 미묘한 스타일 제약 같이 기존 이미지 모델이 무너지던 영역을 정확히 렌더링한다"고 설명했다.

지브리풍 열풍 당시 불거졌던 저작권 논란에 대해서도 대비했다. 오픈AI는 이번 발표에서 차세대 워터마킹 기능과 출처 식별 기능(provenance classifiers)을 모델에 내장했다고 밝혔다. AI 학습 데이터를 둘러싸고 미국과 유럽에서 소송이 진행 중인 가운데, 기업 고객을 겨냥한 책임 있는 활용 근거를 마련하려는 포석으로 풀이된다.

동영상 '소라'는 접고, 이미지는 강화…왜?

이번 발표는 오픈AI가 동영상 생성 앱 '소라'를 오는 26일 종료하기로 한 가운데 나와 더욱 주목된다. 소라 API(응용 프로그래밍 인터페이스)는 9월 24일 종료된다.

오픈AI는 소라 종료 사유에 대해 "소라 연구팀은 컴퓨팅 수요가 늘어나는 가운데 로보틱스 등 실제 물리적 과제 해결에 도움이 되는 월드 시뮬레이션 연구에 집중할 것"이라며 "컴퓨팅 비용이 큰 제품에 대해서는 선택과 집중이 필요했다"고 밝힌 바 있다.

업계에서는 소라의 사업성 부진이 결정적이었다는 분석이 나온다. 월스트리트저널(WSJ) 등 외신 보도에 따르면 소라 앱의 전 세계 사용자 수는 출시 직후 약 100만명으로 정점을 찍은 뒤 50만명 미만으로 떨어진 것으로 알려졌다. 다만 운영 비용이 하루 약 100만 달러에 달했던 것으로 전해졌다. 디즈니가 약속했던 10억 달러 규모 지분 투자와 캐릭터 라이선스 계약도 소라 종료 결정과 함께 무산됐다.

반면 이미지 생성은 사정이 다르다. 동영상 대비 컴퓨팅 비용이 훨씬 낮으면서도 마케팅·디자인·문서 작성 등 기업 업무에 즉시 활용 가능한 영역이다. 오픈AI가 후기 단계 IPO(기업공개)를 준비하며 기업·생산성 도구 중심으로 사업을 재편하고 있다는 분석과 맥을 같이한다.

실제로 오픈AI는 이번 모델 출시와 함께 기업 고객용 'gpt-image-2' API를 공개했고, 기업의 코덱스(Codex) 도입을 지원하는 '코덱스 랩스(Codex Labs)' 프로그램도 발표했다. WSJ는 앞서 오픈AI가 소비자용 제품에서 기업 고객용 제품으로 사업 무게중심을 옮기고 있다고 보도한 바 있다.


◎공감언론 뉴시스 [email protected]

많이 본 기사