• 페이스북
  • 트위터
  • 유튜브

"돌발 상황서 올바른 판단 내린다" AI 강화학습 기법 개발

등록 2025.04.21 09:46:18

  • 이메일 보내기
  • 프린터
  • PDF

UNIST 윤성환 교수팀

로보틱스·자율주행 등 활용


[울산=뉴시스] 구미현 기자 = 사진 왼쪽부터 차례대로 이현규 연구원과 윤성환 교수 (사진=UNIST 제공) 2025.04.21. photo@newsis.com *재판매 및 DB 금지

[울산=뉴시스] 구미현 기자 = 사진 왼쪽부터 차례대로 이현규 연구원과 윤성환 교수 (사진=UNIST 제공) 2025.04.21. [email protected] *재판매 및 DB 금지


[울산=뉴시스] 구미현 기자 = 국내 연구진이 낯선 상황에서도 스스로 올바른 판단을 내리는 인공지능 기술을 개발했다. 자율주행차가 눈길을 만나거나, 로봇이 운반하던 상자의 무게가 갑자기 바뀐 상황에서 AI의 안전성과 신뢰성을 높일 수 있을 것으로 기대된다.

울산과학기술원(UNIST)은 인공지능대학원 윤성환 교수팀이 환경 변화에도 성능 저하 없이 안정적으로 작동하는 강화학습 기법을 개발해 세계 3대 인공지능 학회인 ICLR의 구두 발표 논문으로 채택됐다고 21일 밝혔다. 전체 1만1672편의 제출 논문 중 2% 이내인 단 207편만이 구두 발표 기회를 얻었다.

연구팀은 누적 보상의 민감도를 낮추는 학습법을 제안했다. 행동 변화에 따른 누적 보상 값의 변화가 지나치게 커지지 않도록 정책 파라미터 공간에서 누적보상의 곡면을 평탄하게 만드는 학습 전략이다. 기존 방식은 자율주행차가 눈길에서 감속 타이밍을 살짝 놓치면 큰 보상 손실로 이어져 전체 성능이 무너졌지만, 제안된 방식은 정책이 조금 바뀌어도 성능이 일정하게 유지된다.
 
실제 로봇의 마찰 조건이나 무게 등 물리적 요소를 변화시킨 상황에서, 새롭게 제안된 학습 기법은 평균 보상 유지율이 80~90%에 달하며 높은 수준의 안정성과 강인함을 입증했다. 반면 기존의 학습법은 동일한 조건에서 평균 보상이 절반 이하로 감소하는 등 성능 유지에 한계를 드러냈다.     
[울산=뉴시스] 구미현 기자 =누적보상함수의 3D 시각화 그래프. (사진=UNIST 제공) 2025.04.21. photo@newsis.com *재판매 및 DB 금지

[울산=뉴시스] 구미현 기자 =누적보상함수의 3D 시각화 그래프. (사진=UNIST 제공) 2025.04.21. [email protected] *재판매 및 DB 금지


제1저자인 이현규 연구원은 "강화학습 파라미터 공간에서 누적보상의 민감도를 낮추기 위해 지도학습 분야에서 사용되던 SAM(Sharpness-Aware Minimization) 기법을 차용해 이 같은 학습법을 개발했다"며 "효과적이면서도 적용이 쉬운 방식"이라고 설명했다.

윤성환 교수는 "높은 수준의 일반화 성능을 갖는 강화학습 모델이 필요한 로보틱스, 자율주행 등에 활용될 것"이라고 기대했다.

한편, ICLR(International Conference on Learning Representations)은 ICML, Neurips와 더불어 세계 3대 AI 학회로 꼽힌다. ICLR 2025는 4월 24일부터 28일까지 싱가포르에서 개최되며, 전 세계에서 제출된 1만1672편의 논문 중에서 3646편이 채택됐다.

연구 수행은 정보통신기획평가원, 한국연구재단, UNIST의 지원을 받아 이뤄졌다.


◎공감언론 뉴시스 [email protected]

많이 본 기사