[따뜻한 ICT]③ 잃어버린 목소리, KT 인공지능 기술로 되찾다

등록 2022.05.27 12:00:00

AI 기술로 목소리 구현…본인 목소리 없어도 가능한 첫 기술

동성 가족 음성 데이터에 대상자 성별·구강구조 등 특성 반영

'마음톡' 앱으로 서비스…최근엔 루게릭병 환자 8명에 제공

[서울=뉴시스] KT가 청력을 잃었거나 사고나 질병 등으로 후천적으로 목소리를 잃은 이들의 목소리를 만들어 주는 '마음톡' 서비스를 제공하고 있다. (사진=KT 유튜브 캡처) 2022.5.24 *재판매 및 DB 금지

【서울=뉴시스】심지혜 기자 = #태어나자마자 청각을 잃었다. 그렇게 48년을 살았다. 가장 갖고 싶은 건 목소리다. 가족들에게 꼭 하고 싶은 말이 있다. 그러던 와중 목소리를 복원해주는 KT의 '마음톡'을 알게됐다. 동성 가족의 음성 데이터와 함께 성별, 나이, 구강구조 등 개인의 특성을 인공지능(AI)으로 분석해 예상 목소리를 만든다.

"앞으로 하고 싶은 말 들려줄께, 사랑해."

KT가 청력을 잃었거나 사고나 질병 등으로 후천적으로 목소리를 잃은 농인의 목소리를 만들어 주는 '마음톡'을 지원하고 있다. 이는 AI 기반 개인화 합성 기술(P-TTS)과 음성-문자 자동변환(STT) 기술을 기반으로 한다.

개인화 음성합성기술은 딥러닝 기반 학습을 통해 사람의 목소리를 만든다. 기존 음성합성기술은 한 문장이라도 본인 목소리 녹음이 필요했으나, KT는 2020년 국내 최초로 본인 목소리 학습 데이터 없이 목소리를 구현한다.

구현할 목소리는 동성 가족의 동성 가족의 음성 데이터에 성별, 나이, 구강구조 등 개인의 특성을 AI 엔진으로 분석해 참가자만의 특색 있는 목소리를 만드는 것이다.

동성 가족 구성원들은 목소리 구현을 위해 1000문장 가량을 녹음한다. 인당 평균 6시간이 소요된다. KT는 가족의 목소리 데이터와 구강구조 데이터를 양 축으로 두고 목소리 모델링을 진행했다.

이용자들은 이렇게 만든 목소리를 마음톡 앱을 통해 일상 생활에서 의사 소통 시에 활용할 수 있다. 이용자가 KT의 마음톡 앱에 텍스트를 입력하면 이 앱이 해당 이용자의 목소리로 읽어준다.

텍스트를 음성으로 변환하는 과정에서 KT의 그래픽처리장치(GPU) 클라우드가 수천만 번의 연산을 거치는데 연산 시간은 1초 내외로 체감 지연이 없어 타인과 실시간으로 대화할 수 있다. 자주 사용하는 문장은 저장해뒀다가 필요할 때 즉시 재생 버튼만 누르면 상대방에게 음성을 전할 수 있다. 음성 및 영상통화도 가능하며, 음성통화 도중 끊김 없이 영상통화로 전환할 수도 있다.

최근 KT는 이 기술을 이용해 루게릭병 환자 8명의 목소리를 복원했다. 상태 악화에 따라 기도 절개술 이후에도 본인의 목소리를 계속해서 가족들이 들을 수 있도록 마음톡 앱으로 제공했다.

루게릭병은 운동 세포가 파괴돼 신체 근육이 약화됨에 따라 여러 증상이 나타날 수 있는데, 혀의 근육이 약해질 경우 분명한 발음이 점차 어려워지며 마비가 진행돼 기도를 절개해야 하는 상황에 이르게 되면 결국 완전히 목소리를 잃게 된다.

목소리 찾기는 KT가 2003년 시작한 '소리찾기 사업'과 맞닿아 있다. 소리찾기는 청각장애인들에게 인공와우·인공중이·뇌간이식 등 수술을 지원하고, 수술 후 재활 프로그램인 'KT꿈품교실'을 운영하는 사업이다.

2010년부터는 연세의료원과 손잡고 인공와우 수술, 뇌간 이식 등의 필요한 수술도 지원하고 있다. 평창동계올림픽 봅슬레이 은메달리스트 김동현 선수를 포함해 200여 명의 수혜자가 인공와우 수술비를 지원받았고, 청각재활 지원을 포함하면 20년여 간 이어져온 KT 소리찾기 사업의 전체 수혜자는 2만1000여 명이다.

◎공감언론 뉴시스 [email protected]