• 페이스북
  • 트위터
  • 유튜브

[K-AI 열전③] 한국판 오픈AI 있다…중소·스타트업의 세계 도전

등록 2023.09.30 12:00:00수정 2023.09.30 16:12:05

  • 이메일 보내기
  • 프린터
  • PDF

20년 업력으로 토종 LLM 개발 '코난' '솔트룩스'

생성형 AI 서비스로 대중화 앞장 '뤼튼' '업스테이지'

[바르셀로나=뉴시스] 사진공동취재단 = 유영상 SK텔레콤 사장이 26일(현지시각) MWC23이 열리고 있는 스페인 바로셀로나에서 가진 기자간담회에서 주요 파트너사들과 함께 'K-AI 얼라이언스'를 구축하고 기념촬영을 하고있다. 왼쪽부터 조형기 팬텀AI 대표, 류수정 사피온 대표, 이한주 베스핀글로벌 대표, 유영상 SK텔레콤 사장, 안익진 몰로코 대표, 양승현 코난테크놀로지 CTO, 이주환 스윗 대표, 조수원 투아트 대표. 2023.02.27. photo@newsis.com

[바르셀로나=뉴시스] 사진공동취재단 = 유영상 SK텔레콤 사장이 26일(현지시각) MWC23이 열리고 있는 스페인 바로셀로나에서 가진 기자간담회에서 주요 파트너사들과 함께 'K-AI 얼라이언스'를 구축하고 기념촬영을 하고있다. 왼쪽부터 조형기 팬텀AI 대표, 류수정 사피온 대표, 이한주 베스핀글로벌 대표, 유영상 SK텔레콤 사장, 안익진 몰로코 대표, 양승현 코난테크놀로지 CTO, 이주환 스윗 대표, 조수원 투아트 대표. 2023.02.27. [email protected]

[서울=뉴시스] 오동현 기자 = "대한민국 인공지능(AI) 주권을 지키고 한반도 넘어 세계로 나아가겠다."

국내에도 챗GPT를 개발한 오픈AI처럼 오랜 인공지능(AI) 연구개발 역량을 바탕으로 글로벌 빅테크 기업에 도전하는 중소·스타트업들의 포부다. 빅테크의 전유물로 여겨졌던 거대언어모델(LLM) 개발에 나서거나 응용 서비스를 발굴하며 K-AI 생태계에 기여한다.

대표적으로 독자적인 LLM을 개발한 코난테크놀로지와 솔트룩스를 들 수 있다. 두 기업이 AI 기술 개발에 쏟아부은 업력은 코난 25년, 솔트룩스 24년에 달한다. 최근 코난테크놀로지는 '코난 LLM'을 공개했고, 솔트룩스는 '루시아'를 선보였다.

LLM 응용 서비스로 두각을 나타내고 있는 기업 중에는 뤼튼테크놀로지와 업스테이지 등이 있다. 뤼튼테크놀로지는 네이버의 하이퍼클로바를 활용한 생성형 AI 서비스 '뤼튼'을 지난 1월 출시해 약 7개월 만에 국내 사용자 100만명을 돌파했다. 업스테이지는 AI 챗봇 'AskUp(아숙업)'을 카카오톡에 출시해 국내 최다인 140만명의 이용자를 확보했다.

영상 이해를 위한 초거대 AI 모델을 자체 개발하는 생성 AI 스타트업 트웰브랩스의 행보도 주목된다. 지난 2021년에 설립된 이 회사는 글로벌 리서치 기업 CB인사이트가 발표한 '세계 50대 생성 AI 스타트업'에 국내 기업으로는 처음으로 선정되면서 오픈AI 등 세계적인 AI 기업들과 어깨를 나란히 했다.

코난테크놀로지가 자체 개발 대규모 언어모델 ‘코난 LLM’을 윤석열 대통령께 시연했다. (사진=코난테크놀로지 제공) *재판매 및 DB 금지

코난테크놀로지가 자체 개발 대규모 언어모델 ‘코난 LLM’을 윤석열 대통령께 시연했다. (사진=코난테크놀로지 제공) *재판매 및 DB 금지


25년 업력 빛낸 '코난 LLM'…"한국어 최다 학습"

1999년에 설립된 코난테크놀로지는 2대 주주인 SK텔레콤과 협력하며 자체 LLM을 고도화하고 있다. 코난테크놀로지가 강조하는 코난 LLM의 차별점은 ▲국내 최다 학습 토큰 ▲20억 건에 달하는 양질의 문서기반 데이터 ▲벡터검색 기술이다.

코난 LLM은 전체 토큰 4920억 개, 한국어 토큰 2840억 개를 학습했다. 11월께 내놓을 모델에는 전체 학습 토큰 7000억 개, 한국어 토큰 3220억 개가 쓰인다. 파라미터는 각각 131억 개, 410억 개 버전으로 제공된다. LLM의 고비용 이슈를 해결하기 위해 학습 토큰은 많이, 파라미터 크기는 줄이는 방식을 택하며 비용 효율성을 달성했다. 코난 LLM의 토큰 규모는 국내 최대 수준이다. 오픈소스 기반의 라마2(LLAMA2)보다 한국어를 270배 많이 학습했다.

코난테크놀로지는 자체 데이터를 보유하고 있다. 2007년부터 국내외 데이터를 실시간 수집·분석해온 온라인 미디어 심화 분석 서비스 펄스케이(PulseK)를 통해 약 205억 개 문서를 자체 확보했다. 이 중 트위터나 뉴스 댓글 등 단문을 제외한 20억 건을 학습에 사용했다. 또한 벡터 검색 기반의 '코난 서치'가 연동돼 답변과 함께 명확한 근거 및 출처가 '참고문서' 형태로 제시된다. 이를 통해 잘못된 정보를 내놓는 할루시네이션(환각)을 줄인다.

특히 코난 LLM은 한국어 특성에 기반한 구조로 답변 성능이 우수하고, 보고서 초안 생성에 특화된 B2B(기업 간 거래)∙B2G(기업과 정부 간 거래) LLM을 표방한다. 코난 LLM은 보안을 강점으로 내세운다. 기업 전용 LLM을 온프레미스로 제공해 기업 내부 데이터 유출을 막겠단 전략이다. 간단한 프롬프트 만으로 4000자 분량의 문서를 만들어내고, 문서 생성 중 추가적인 질의, 첨삭 및 참고자료 생성도 동시에 수행한다.

솔트룩스가 7일 서울 코엑스에서 개최한 인공지능 컨퍼런스 'SAC 2023'에서 발표하는 이경일 솔트룩스 대표. (사진=솔트룩스 제공) *재판매 및 DB 금지

솔트룩스가 7일 서울 코엑스에서 개최한 인공지능 컨퍼런스 'SAC 2023'에서 발표하는 이경일 솔트룩스 대표. (사진=솔트룩스 제공) *재판매 및 DB 금지


솔트룩수 LLM '루시아'…"내년 생성형 AI 도입기 본격 공략"

솔트룩스는 환각 현상을 획기적으로 줄인 토종 LLM '루시아'와 그 생태계를 공개했다. 다양한 생성형 AI 기반 서비스들을 출시해 국내를 넘어 글로벌 시장을 개척하겠다는 포부다.

루시아는 AI 데이터 구축 관련 정부 사업뿐 아니라 특허청, 행정안전부 등 다양한 분야의 사업을 수행하며 솔트룩스가 축적해온 한글 데이터를 약 1테라바이트(TB) 이상 학습했다. 특히 오픈AI의 'GPT-3.5' 및 메타의 '라마2'와 비교했을 때, 한국어 환각 현상 자체 평가에서 대략 40% 더 우수한 성능을 확인했다고 강조한다.

솔트룩스는 70억·130억·200억·500억 등 다양한 파라미터 크기의 LLM 모델을 개발했다. 루시아GPT 외에 ▲노코드 기반 언어모델 구축 솔루션 '랭기지 스튜디오' ▲인지검색 솔루션 '서치 스튜디오' ▲AI 기반 지식그래프 솔루션 '날리지 스튜디오' 등 다양한 제품이 포함된 '루시아 엔터프라이즈'도 공개됐다.

솔트룩스는 ▲챗봇 AI가 사용자에게 보고서를 작성해주거나 지식을 제공하는 서비스 '구버' ▲AI 직원을 기업 특성에 맞게 커스텀 생성할 수 있는 옴니채널 AI 직원 서비스 '플루닛 워크센터' ▲ 모바일 어플리케이션으로 개인용 AI 비서 서비스를 제공하는 '손비서' 등을 올 연말부터 순차적으로 출시할 예정이다.

이경일 대표는 "본격적인 생성형 AI 도입기가 시작되는 내년부터 루시아에 20년 이상 축적된 다양한 AI 기술들을 융합, 엔터프라이즈 초거대 언어모델 시장뿐만 아니라 AI 응용 서비스를 위한 클라우드 및 APIs 사업도 가속화할 예정"이라고 말했다.

업스테이지, 글로벌 기술력 입증…"국내 LLM 독립" 선언

업스테이지는 오픈LLM 사상 최초로 챗GPT의 메인모델인 GPT-3.5의 벤치마크를 뛰어넘는 점수를 기록하며, AI 기술력을 인정받았다. 최근엔 LLM 모델 '솔라(SOLAR)'가 글로벌 생성 AI 활용 플랫폼 'Poe'에 메인 모델로 등록되며 오픈AI, 구글, 메타, 엔트로픽 등 빅테크 기업들과 어깨를 나란히 하는 쾌거를 이뤘다.

또한 카카오톡을 통해 서비스하는 챗봇 '아숙업’은 국내 최대 규모인 150만명의 사용자를 보유하며, 국내 생성AI의 대중화를 이끌고 있다. B2B로는 신뢰할 수 있는 프라이빗 LLM의 표준을 제시하며, 다양한 기업들과 협력하고 있다.

최근엔 국내 LLM의 독립과 글로벌 경쟁력을 확보하겠다며 '1T 클럽'을 발족했다. '1T 클럽'은 1 Trillion(조) 토큰 클럽을 줄인 것으로 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들로 구성된다. 파트너사들에게 응용프로그래밍인터페이스(API) 사용료 할인과 LLM의 API 사업 수익 공유 등의 혜택을 제공하며 상생 생태계를 구축한다.

김성훈 업스테이지 대표는 "LLM은 오늘날 생성형 AI의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능의 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다"며 "우리는 '1T 클럽’을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다 할 것"이라고 말했다.

업스테이지가 개발한 ‘눈 달린 챗GPT’ 아숙업(AskUp)이 채널친구 30만 돌파를 맞아 실시간 정보를 제공하는 기능을 제공한다.(사진=업스테이지 제공) *재판매 및 DB 금지

업스테이지가 개발한 ‘눈 달린 챗GPT’ 아숙업(AskUp)이 채널친구 30만 돌파를 맞아 실시간 정보를 제공하는 기능을 제공한다.(사진=업스테이지 제공) *재판매 및 DB 금지

K-스타트업, 생성형 AI 성공 사례 만든다

초거대 AI 서비스 시장은 아직 초기 단계로 혁신적인 응용 서비스 개발을 통한 시장 선점 및 성공 사례 창출이 중요한 만큼, K-AI 생태계에서 스타트업의 역할은 빠질 수 없는 요소다.

이에 과학기술정보통신부는 대기업, 중소·스타트업이 협업해 법률·의료·심리상담·콘텐츠·학술 등 민간 전문영역에 초거대 AI를 접목하는 '초거대 AI 플래그십 프로젝트'를 추진할 계획이다. 내년도 예산으로 383억원을 편성했다.

최근에는 국내 생성형 AI 전문 스타트업 협의체인 '생성AI스타트업협회'가 공식 출범했다.
 
뤼튼테크놀로지스, 라이너, 스캐터랩, 업스테이지, 콕스웨이브, 프렌들리AI 등 6개사가 발기인으로 협회 설립을 추진했다. 이 외에 누보AI, 리버티랩스, 매스프레소, BHSN, 세타원코리아, 셀렉트스타, 수퍼톤, 스냅태그, 스위트앤데이너, 오노마AI, 위코버 플랫폼스, 젠아이피, 포자랩스, 포티투마루 등 14개사가 추가 참여했다.

이들의 3대 목표는 ▲모두를 위한, 모두가 함께 하는 AI 생태계 조성 ▲사회적 책임을 다하는 건강하고 안전한 AI서비스 ▲대한민국 AI 산업의 글로벌 경쟁력 제고다.

AI 관련 사업을 영위하는 국내 기업체 수는 매년 증가하고 있다. 소프트웨어정책연구소의 인공지능산업실태조사에 따르면 국내 AI 기업은 2020년 933개, 2021년 1365개, 2022년 1915개로 증가했다. 최근 2년 새 2배 이상 증가한 수치다. 이 가운데 87% 정도가 중소·스타트업 기업이다.

하지만 산업의 근간인 스타트업에 대한 투자는 제한적이다. 기술 전문매체 비주얼캐피털리스트가 발표한 국가별 AI 스타트업 투자 규모에서 한국은 10위권 밖으로 밀려났다. 이에 'K-AI'의 본격적인 해외시장 진출을 통해 글로벌 시장 주권에 도전하고 파이를 키워야 한다는 목소리가 커지고 있다.

최근 하이퍼클로바X를 전격 발표하며 토종 초거대 AI 잰걸음을 뗀 네이버는 한국은 주요 공략 시장의 일환이라며 향후 글로벌 진출 가능성을 시사한 바 있다. 최수연 네이버 대표는 "이길 수 있는 시장을 먼저 잡기 위해 한국 타깃의 국내 스타트업 수요를 맞춘 것으로, 글로벌 진출 요구에도 대응하겠다"고 언급하기도 했다.


◎공감언론 뉴시스 [email protected]

많이 본 기사