• 페이스북
  • 트위터
  • 유튜브

플리토, 국립국어원 '한국어-외국어 말뭉치 구축 사업' 수주

등록 2026.04.13 09:07:35

  • 이메일 보내기
  • 프린터
  • PDF

595만 어절 규모 말뭉치 구축

동남아 저자원 언어 데이터 부족 해소

플리토, 국립국어원 '한국어-외국어 말뭉치 구축 사업' 수주


[서울=뉴시스]오동현 기자 = 인공지능(AI) 데이터 및 솔루션 전문 기업 플리토가 국립국어원이 주관하는 ‘2026년 한국어-외국어 말뭉치 구축 사업’의 수행 기업으로서 사업 수주에 성공했다고 13일 밝혔다.
 
‘한국어-외국어 말뭉치 구축 사업’은 AI 시대에 한국어 중심의 언어 데이터 주권을 확보하고, 통번역 및 음성인식 등 AI 언어 기술 개발을 지원하기 위해 추진되는 국립국어원의 대표적인 대규모 데이터 구축 사업이다.
 
이번 사업은 경희대학교 산학협력단이 주관하며 플리토는 공동 수행 업체로 참여한다. 총 사업 규모는 약 38억원으로, 플리토는 이 중 전체 545만 어절과 음성 50만 어절, 총 595만 어절의 병렬 말뭉치 구축을 담당한다. ▲베트남어 ▲인도네시아어 ▲태국어 ▲힌디어 ▲크메르어 ▲타갈로그어 ▲러시아어 ▲우즈베크어 ▲영어 등 기존 9개 언어에 신규 언어 아랍어를 추가해 총 10개 언어 데이터 구축을 진행한다.
 
올해의 경우, AI 통번역 기술 개발을 위한 언어 자원으로 활용하기 위해 문장 단위에서 문단 단위로 변환해 병렬 말뭉치를 구축한다. 또한 기존 9개 언어에 대한 STS(Speech to Speech) 기반 말뭉치도 함께 구축해 AI 음성 인터페이스 성능 향상을 도모한다. 신규 언어·유형에 맞춘 평가 기준 및 도구 마련, 번역 플랫폼 개선 등 데이터 정제 및 검수 체계 고도화 연구도 병행한다.
 
플리토는 글로벌 시장에서 검증된 다년간의 데이터 정제 노하우를 바탕으로 국립국어원의 핵심 파트너로 자리매김했다. 그 결과, 이번 연도에 구축할 데이터까지 포함하면 음성 포함 누적 구축 어절은 약 6100만 개에 달할 예정이다.
 
구축한 데이터는 한국어와 동남아 지역 내 저자원 언어 데이터 부족 문제를 해소하고 국내외 AI 연구 및 기술 상용화에 활용된다. 이를 통해 글로벌 시장에서의 인공지능 기술 격차를 줄이고 문맥 이해와 추론 능력을 갖춘 차세대 번역 모델 개발 촉진에 기여할 것으로 기대된다.
 
이정수 플리토 대표는 “플리토의 언어 데이터 전문성과 검수 품질을 높이 평가받아 올해 국립국어원 말뭉치 구축 사업에 참여하게 돼 매우 기쁘다”며 “앞으로도 정부 및 연구기관과 협력해 고품질의 AI 언어 데이터를 지속적으로 공급함으로써 글로벌 시장에서 경쟁력 있는 데이터 중심 한국형 AI 모델 강국으로 자리매김하는 데 힘을 보태겠다”고 밝혔다.


◎공감언론 뉴시스 [email protected]

많이 본 기사