"악보 인식해 오디오로 만든다"…서강대, '모달리티 범용 모델' 구현
정다샘 교수 연구팀, 서울대·미국 CMU와 공동 연구
음향·음성 처리 분야 최상위 학술지 'IEEE TASLP'에 논문 게재
![[서울=뉴시스] (왼쪽 위부터 시계방향) 서강대 아트&테크놀로지학과 정다샘 교수, 정종민 석사, 조설아 석사과정, 이시훈 박사과정, 김동민 석사. (사진=서강대 제공) 2026.04.20. photo@newsis.com *재판매 및 DB 금지](https://img1.newsis.com/2026/04/20/NISI20260420_0002115834_web.jpg?rnd=20260420170901)
[서울=뉴시스] (왼쪽 위부터 시계방향) 서강대 아트&테크놀로지학과 정다샘 교수, 정종민 석사, 조설아 석사과정, 이시훈 박사과정, 김동민 석사. (사진=서강대 제공) 2026.04.20. [email protected] *재판매 및 DB 금지
음악은 악보 이미지와 심볼릭 악보, 미디(MIDI), 오디오 등의 다양한 '모달리티'로 존재한다. 또한 자동 음악 전사나 광학적 악보 인식과 같은 모달리티 간의 번역 작업은 음악 정보 검색(MIR) 분야의 핵심 과제이다.
기존 연구들이 개별의 번역 과제에 특화된 모델을 제안하는 데에 그친 반면, 연구진은 여러 모달리티 간의 번역 과제를 동시에 학습할 수 있는 범용 모델을 제안했다.
해당 모델은 피아노 악보 인식에서 최저 수준의 기호 오류율을 달성했으며, 세계 최초로 제안된 악보 이미지에서 중간 과정 없이 바로 표현력 있는 연주(expressive performance) 오디오를 생성할 수 있도록 구현됐다.
![[서울=뉴시스] 정다샘 교수 연구팀이 제안한 모델 도식. (사진=서강대 제공) 2026.04.20. photo@newsis.com *재판매 및 DB 금지](https://img1.newsis.com/2026/04/20/NISI20260420_0002115836_web.jpg?rnd=20260420171033)
[서울=뉴시스] 정다샘 교수 연구팀이 제안한 모델 도식. (사진=서강대 제공) 2026.04.20. [email protected] *재판매 및 DB 금지
한편 서울대 및 미국 카네기멜런대(Carnegie Mellon University) 연구팀과 공동으로 수행한 이번 논문은 다음 달 4일부터 스페인 바르셀로나에서 열리는 신호처리 분야 세계 최대 규모 학회 'ICASSP 2026'에서도 발표될 예정이다.
◎공감언론 뉴시스 [email protected]
Copyright © NEWSIS.COM, 무단 전재 및 재배포 금지





























