CCTV 영상 데이터 AI 학습 시 흉터·문신 지워야 할까

등록 2024.02.04 12:00:00수정 2024.02.04 12:37:29

개인정보위, '가명정보 처리 가이드라인' 개정…비정형데이터 처리 기준 마련

"인공지능 개발·활용 시 기업·연구자의 안전한 데이터 활용 확대 기대"

[그래픽=뉴시스] 재배포 및 DB금지.

[서울=뉴시스]송혜리 기자 = "구강질환 진단 인공지능(AI) 개발 시, 연구에 필요한 충치 영역은 그대로 활용하고 연구에 필요 없는 그 외 영역은 블러링(Blurring)처리해야 합니다."

"한국어 대화가 가능한 AI챗봇 개발할 때 대화에 참여한 사용자 아이디(ID)를 삭제하고 랜덤ID로 대체해 특정 개인을 구분해 낼 수 없도록 해야 합니다. 아울러 학습에 활용된 가명정보가 AI 챗봇 답변에 그대로 노출 되지 않도록 조치해야 합니다."

정부가 인공지능(AI) 시대 기술개발의 핵심 재료인 비정형데이터에 대한 가명처리 기준을 새롭게 마련했다.

4일 개인정보보호위원회는 이미지·영상·음성·문자 등 비정형데이터 활용을 위한 가명처리 기준을 개정 '가명정보 처리 가이드라인(이하 가이드라인)'에 담았다고 밝혔다.

비정형 데이터는 일정한 규격이나 정해진 형태 없이 구조화되지 않은 데이터를 말한다. 이러한 특징 때문에 연구목적·환경에 따라 데이터 처리방식과 가명처리 기술·방법이 복잡하고 다양하다. 사진·이미지, 비디오, 통화음성, 대화기록, 논문·보고서, 블로그 등이 이에 해당한다.

최근 AI 기술과 컴퓨팅 자원의 발달로 데이터 활용 수요는 전통적 정형데이터(수치)에서 비정형데이터로 이동하고 있다. 실제, IDC 발표에 따르면 지난해 전 세계서 유통된 데이터 중 비정형 데이터가 최대 90%를 차지했다.

그러나 정책은 이같은 상황을 담아내지 못하고 있었다. 기존의 가이드라인은 정형 데이터에 대한 처리기준만 제시하고 있어, 기업·연구기관 등은 적합한 비정형 데이터 가명처리방법이나 수준을 알지 못하는 등 현장의 불확실성이 컸다.

이에 따라 개인정보위는 정책연구용역, 각 분야 전문가로 구성된 태스크포스(TF) 운영, 산업계·학계·법조계·시민사회와 관계부처 의견수렴 등 1년여 기간 동안 준비 작업을 거쳐 가이드라인을 대폭 개정했다.

개정된 가이드라인에는 비정형데이터를 가명처리하고 활용하는 과정에서 특수하게 나타날 수 있는 개인정보 위험을 사전에 확인하고 통제하기 위한 원칙과 함께, 의료·교통·챗봇 등 각 분야 사례와 시나리오를 제시해 현장에서 손쉽게 활용할 수 있도록 했다.

'개인식별 위험성 검토 체크리스트' 제시…개인 특정할 수 있는 위험 사전에 진단

정형데이터의 경우, 주민번호, 전화번호, 주소 등과 같이 개인을 알아 볼 수 있는 정보가 비교적 명확히 구분되지만, 비정형 데이터는 그렇지 않다.

눈·코·입을 알아볼 수 없는 거리·각도에서 찍힌 폐쇄회로카메라(CCTV) 영상·사진도 머리 스타일, 흉터, 문신 등 특이한 신체적 특징 때문에 대상을 알아 볼 수 있다. 또 흉부 CT 촬영사진 그 자체로는 개인을 식별할 수 있는 위험이 높지 않지만, 3차원 재건기술 악용 혹은 특이한 흉터 등은 식별 요소가 될 수 있다.

이같은 특징에 따라 개인정보위는 가이드라인에 '개인 식별 위험성 검토 체크 리스트'를 담았다. 체크리스트를 활용해 기업과 연구기관이 개인 식별 위험을 사전에 진단하고, 이의 위험을 낮추기 위한 관리적·환경적 통제방안을 마련하도록 했다.

이와 더불어 연구목적 달성에 필수적인 정보항목을 남기는 대신, 그 외 정보에 대한 가명처리 수준을 높이는 등 충분한 안전조치를 시행하도록 했다. 비정형 데이터를 가명처리하는 경우엔 해당 가명처리 기술의 적절성·신뢰성을 확인할 수 있는 근거를 작성·보관하도록 했다. 솔루션의 객체 인식률·처리 정확도(오류율)에 대한 증빙자료 등을 남기는 것이다. 이후엔 가명처리 결과에 대해 자체적인 추가검수를 수행하도록 했다.

아울러 목적이 달성된 가명정보는 신속히 파기하도록 하고, AI·데이터 복원기술로 개인을 다시 식별해낼 수 없도록, 시스템·소프트웨어(SW)의 접근·사용 제한 등 통제방안을 마련하도록 했다.

의료·교통·챗봇 등 분야별 7종 시나리오 통해 가명정보 활용 전 과정 상세 안내

개인정보위는 이번 개정 가이드라인 80장 분량을 할애해 가명정보 활용 전 과정을 상세하게 안내한 7종의 시나리오를 담았다.

의료데이터(MRI, CT, X-ray 등), CCTV 영상, 음성 대화·상담 정보를 활용하는 바이오·헬스, AI, 데이터 솔루션 개발 등 여러 분야에서 안전하게 가명처리를 하는 데, 유용하게 참고할 수 있을 것으로 기대된다고 설명했다.

고학수 개인정보위원장은 "AI 등 많은 신기술 영역은 현장의 불확실성을 해소할 수 있는 세밀한 데이터 처리정책이 중요하다"면서 "이번 가이드라인을 시작으로 대규모 언어모형 등 생성형 AI와 관련한 '공개된 개인정보 처리 가이드라인'등 현장의 어려움을 해소할 수 있는기준을 올해 중에 순차적으로 발표하겠다"고 밝혔다.

◎공감언론 뉴시스 [email protected]