'인터넷 쌍끌이' 생성AI…재난·사건 피해자 사진까지 학습
영국 스타트업 개발한 이미지 생성 AI '스테이블 디퓨전'
연쇄 살인, 동일본 대지진 등 사건·사고 희생자 사진 학습
희생자와 유사한 이미지 생성할 가능성도 배제할 수 없어

[서울=뉴시스] 오동현 기자 = "내 딸의 사진이 그런 일에 쓰일 줄이야."
2015년 과로로 숨진 일본 광고회사 덴츠의 신입사원 다카하시 마츠리(당시 24세)씨의 어머니 유키미(61)씨는 "딸의 사진을 AI 학습에 사용하지 말아 달라"고 호소했다.
이미지 생성 인공지능(AI)의 정확도를 높이기 위한 학습에 사용되는 방대한 이미지 데이터에 사건 및 재해 피해자의 얼굴 사진이 다수 포함돼 있는 것이 요미우리 신문 취재 결과 밝혀졌다.
요미우리 신문은 8일 "뉴스 사이트 등에서 수집한 것을 무단으로 사용한 것으로 보이며, AI가 피해자와 유사한 이미지를 생성할 가능성도 배제할 수 없어 향후 논란이 예상된다"고 보도했다.
어머니 유키미씨는 과로노동의 실태를 널리 알리고 다시는 같은 일이 반복되지 않기를 바라는 마음에서 딸의 사진을 언론에 제공하고 소셜미디어(SNS)에 공개해왔다.
그러나 이 사진들은 세계적인 이미지 생성 AI 중 하나인 스테이블 디퓨전(Stable Diffusion)의 학습에 사용된 데이터 세트에 포함됐다. 요미우리 신문이 지난해 12월 온라인에 공개된 데이터셋의 내용을 조사해 밝혀냈다.
이미지 생성 AI는 프롬프트를 기반으로 고품질의 이미지를 생성한다. 다만 AI가 다양한 스타일과 주제의 이미지를 만들어내고, 이미지의 정확도를 높이려면 방대한 양의 데이터 학습이 필수적이다.
스테이블 디퓨전을 개발한 영국의 스타트업 '스태빌리티 AI'는 독일의 비영리단체 '라이온 라이온(LAION Lion)'이 무상으로 제공하는 데이터 세트를 활용하고 있다.
이미지 데이터는 약 58억 개에 달하며, 마츠리 씨 외에도 사건이나 사고의 희생자 사진이 다수 발견됐다. 1997년 고베시에서 발생한 연쇄 아동 살해 사건의 피해 아동과 도쿄 세타가야 일가족 살해 사건(2000년)의 가족 4명의 사진, 동일본 대지진(2011년)과 같은 재해나 미국 동시 다발 테러(2001년) 등 사건의 희생자 사진도 있었다.
데이터 세트의 이미지는 인터넷을 자동 순회하는 프로그램으로 수집되고 있으며, 수집 대상에는 뉴스 사이트나 거기서 전재된 인터넷 게시판 등이 포함돼 있다. 뉴스 보도에서는 사건이나 재난 피해의 실상을 전달하기 위해 피해자의 얼굴 사진을 게재하는 경우가 있다.
한편, 이미지 생성 AI가 학습에 활용하는 데이터 세트는 이미지의 내용을 불문하고 기계적으로 무차별적으로 수집되고 있다. 이 때문에 일러스트 등 저작물의 무단 학습도 문제가 되고 있다. 아동 성매매 및 아동 포르노 금지법에 저촉될 수 있는 실제 아동의 성적인 이미지도 데이터 세트에 포함돼 있는 것으로 드러났다.
스테이블 디퓨전 측은 요미우리 신문의 이메일 취재에 "(희망자가 신청하면) 학습 대상에서 제외할 수 있는 구조가 있다"고 답했다. 그러나 데이터 세트에 피해자의 얼굴 사진이 포함된 것에 대한 인식이나 견해에 대해서는 답변이 없었던 것으로 전해졌다.
전문가들은 AI가 학습한 이미지와 유사한 이미지를 생성할 가능성을 배제할 수 없다고 말한다. 피해자의 명예를 훼손하는 이미지가 생성되거나, 생성된 이미지가 허위사실 유포에 악용될 가능성도 있다.
간토가쿠인대학의 오오리타 아키코 정보사회학 교수는 "사건이나 재해의 교훈을 호소하기 위해 희생자의 얼굴 사진을 공개한 유족 입장에서는 AI의 학습에 사용되는 것은 예상치 못한 일이며, 사망자의 존엄성에도 영향을 미친다. 공익성이 있는 보도와는 다르다"며 "AI 개발사가 '신청이 있으면 제외하겠다'는 식의 대응으로는 충분하지 않다"고 지적했다.
◎공감언론 뉴시스 [email protected]
Copyright © NEWSIS.COM, 무단 전재 및 재배포 금지





























