카이스트, 한국어 AI 댓글 탐지기술 개발…"여론 조작 꼼짝 마"
국보연과 협업해 최초로 AI 생성 댓글 탐지기술 'XDAC' 확보
AI 생성 댓글 98.5% 탐지, 어떤 AI가 생성했는지 84.3% 식별
ACL 2025에 논문 채택…"AI 여론 조작 대응 위한 핵심 기술"
![[대전=뉴시스] AI 댓글 생성 프레임워크 구성도.(사진=KAIST 제공) *재판매 및 DB 금지](https://img1.newsis.com/2025/06/23/NISI20250623_0001874643_web.jpg?rnd=20250623171952)
[대전=뉴시스] AI 댓글 생성 프레임워크 구성도.(사진=KAIST 제공) *재판매 및 DB 금지
한국과학기술원(KAIST)은 전기및전자공학부 김용대 교수팀이 국가보안기술연구소(국보연)와 협력해 한국어 AI 생성댓글을 탐지하는 기술 'XDAC'를 세계 최초로 개발했다고 23일 밝혔다.
생성형 AI는 뉴스기사 맥락에 맞춰 감정과 논조까지 조절할 수 있으며 몇 시간 만에 수십만 개의 댓글을 자동생성할 수 있어 여론조작에 악용될 수 있다. OpenAI의 GPT-4o API를 기준으로 하면 댓글 1개 생성 비용은 약 1원 수준이고 국내 주요 뉴스 플랫폼의 하루 평균 댓글 수인 20만 개를 생성하는 데 단 20만 원이면 가능할 정도다.
이번에 연구팀은 AI 생성댓글과 사람이 작성한 댓글을 사람이 구별할 수 있는지 실험했다. 이를 위해 총 210개의 댓글을 평가한 결과, AI 생성댓글의 67%를 사람이 작성한 것으로 착각했고 실제 사람 작성 댓글도 73%만 정확히 구분해냈다.
이는 사람조차 AI 생성댓글을 정확히 구별하기 어렵다는 의미다. AI 생성댓글은 오히려 기사 맥락 관련성(95% vs 87%), 문장 유창성(71% vs 45%), 편향성 인식(33% vs 50%)에서 사람 작성 댓글보다 높은 평가를 받았다.
그동안 AI 생성글 탐지기술은 대부분 영어로 된 장문의 정형화된 글을 기반으로 개발돼 한국어의 짧은 댓글에는 적용이 어려웠다. 짧은 댓글은 통계적 특징이 불충분하고 이모지·비속어·반복문자 등 비정형 구어표현이 많아 기존 탐지모델이 효과적으로 작동하지 않는다.
이에 연구팀은 ▲14종의 다양한 LLM(대규모 언어모델) 활용 ▲자연스러움 강화 ▲세밀한 감정 제어 ▲참조자료를 통한 증강 생성 등 4가지 전략을 적용한 AI 댓글 생성 프레임워크를 개발, 실제 이용자 스타일을 모방한 한국어 AI 생성댓글 데이터셋을 구축하고 이 중 일부를 벤치마크 데이터셋으로 공개했다.
또 설명가능한 AI(XAI) 기법을 적용해 언어표현을 정밀 분석한 결과, AI 생성댓글에는 사람과 다른 고유한 말투 패턴이 있음을 확인했다.
연구팀은 "예를 들어 AI는 '것 같다' '에 대해' 등 형식적 표현과 높은 접속어 사용률을 보였고 사람은 반복 문자(ㅋㅋㅋㅋ), 감정 표현, 줄바꿈, 특수기호 등 자유로운 구어체 표현을 즐겨 사용했다"고 설명했다.
특수문자 사용에서도 AI는 전 세계적으로 통용되는 표준화된 이모지(휴대전화에서 사용하는 그림문자)를 주로 사용하는 반면 사람은 한국어 자음(ㅋ, ㅠ, ㅜ 등)이나 특수 기호(ㆍ, ♡, ★, • 등) 등 문화적 특수성이 담긴 다양한 문자를 활용했다.
특히 서식문자(줄바꿈, 여러 칸 띄어쓰기 등) 사용에서 사람 작성댓글의 26%는 서식문자를 포함했지만 AI 생성댓글은 단 1%만 사용했다. 'ㅋㅋㅋㅋ, ㅎㅎㅎㅎ' 같은 반복문자 사용 비율도 사람 작성댓글이 52%로, AI 생성댓글(12%)보다 훨씬 높았다.
이번에 개발된 XDAC는 줄바꿈, 공백 등 서식문자를 변환하고 반복 문자패턴을 기계가 이해할 수 있도록 변환하는 방식이 적용됐으며 각 LLM의 고유 말투 특징을 파악해 어떤 AI 모델이 댓글을 생성했는지도 식별 가능해 탐지 성능이 매우 높다.
이런 최적화로 XDAC는 AI 생성댓글 탐지에서 98.5% F1 점수로 기존 연구 대비 68%나 성능이 향상됐고 댓글생성 LLM 식별에서도 84.3% F1 성능을 기록했다.
XDAC는 플랫폼 사업자가 의심스러운 계정이나 조직적 여론 조작 시도를 정밀 감시·대응하는 데 활용될 수 있으며 정밀 탐지 기술의 존재 자체가 AI 악용 시도를 줄일 수 있는 억제 효과도 갖는다.
이번 연구는 다음 달 27일 개최되는 인공지능 자연어처리 분야 최고 권위 학술대회 'ACL 2025' 메인 콘퍼런스에 채택돼 공유된다.
논문 제1저자 고우영 선임연구원은 "이번 연구는 생성형 AI가 작성한 짧은 댓글을 높은 정확도로 탐지하고 생성모델까지 식별할 수 있는 세계 최초 기술"이라며 "AI 기반 여론 조작 대응의 기술적 기반을 마련한 데 큰 의의가 있다"고 강조했다.
◎공감언론 뉴시스 [email protected]
Copyright © NEWSIS.COM, 무단 전재 및 재배포 금지