서강대, AI 답변 속도 2배 높이는 기술 개발…학술대회 'ASPLOS' 채택
AI 핵심 엔진 'FFN' 연산 속도 5.46배 단축
데이터 이상치 재배열해 GPU 효율 극대화
![[서울=뉴시스] 서강대 인공지능학과 이영민(왼쪽) 교수, 송근수 석사과정생(제1저자). (사진=서강대 제공) 2026.03.17. photo@newsis.com *재판매 및 DB 금지](https://img1.newsis.com/2026/03/17/NISI20260317_0002085628_web.jpg?rnd=20260317100747)
[서울=뉴시스] 서강대 인공지능학과 이영민(왼쪽) 교수, 송근수 석사과정생(제1저자). (사진=서강대 제공) 2026.03.17. [email protected] *재판매 및 DB 금지
이번에 채택된 논문의 제목은 'oFFN: 정확도를 유지하면서 속도를 높인 대규모 언어 모델 추론용 이상치·뉴런 인식형 구조적 피드포워드 네트워크(Outlier and Neuron-aware Structured FFN for Fast yet Accurate LLM Inference)'이다.
연구의 핵심은 인공지능(AI) 모델 내에서 가장 많은 계산을 처리하는 '피드포워드 네트워크(FFN)' 층의 효율을 극대화한 것이다. 연구진은 AI가 계산을 수행할 때 결과에 큰 영향을 미치는 중요한 값인 '이상치(Outlier)'가 특정 위치에 집중되며 나타나는 규칙을 발견했다.
기존에는 어떤 계산 과정이 불필요할지 예측하기 어려워 모든 연산을 일일이 수행해야 했다. 하지만 연구진이 제안한 'oFFN' 기술은 이 이상치와 자주 쓰이는 계산(뉴런)의 위치를 미리 파악해, 이를 계산하기 좋은 순서로 가지런히 재배열하는 방식을 취한다.
해당 기술을 적용한 결과, AI의 핵심 엔진인 FFN의 연산 속도는 최대 5.46배 빨라졌으며, 사용자가 체감하는 전체 답변 생성 시간은 기존보다 최대 2.01배 단축됐다.
특히 연산 효율을 대폭 높였음에도 AI의 답변 수준이나 정확도는 거의 떨어지지 않았고, 기존의 최신 기술(SOTA)보다도 13% 더 빠른 속도를 기록했다.
이 교수는 "GPU(그래픽처리장치)의 텐서 코어와 CUDA 코어를 상호보완적으로 활용해, 단일 배치뿐만 아니라 멀티 배치 추론에서도 활성 희소도를 실질적인 추론 가속으로 실현한 연구라는 점에서 의미가 크다"고 밝혔다.
한편 이번 연구가 채택된 학술대회 'ASPLOS'는 한국정보과학회 인정 최우수학술대회로, 오는 22일부터 26일까지 미국 피츠버그에서 개최될 예정이다.
◎공감언론 뉴시스 [email protected]
Copyright © NEWSIS.COM, 무단 전재 및 재배포 금지





























