[초이스경제 이문숙 기자] 소셜 네트워크의 사진이 인공지능(AI))을 훈련시키는 데 사용되었는가? 이렇게 말하면 질문이 터무니없어 보일 수 있다. 페이스북이나 인스타그램에 게시된 사진이 AI에게 숲이 어떻게 생겼는지 가르치는 데 사용될 수 있다고 누가 상상이나 했을까?

"그러나 그것은 사실"이라는 보도가 나왔다. 이미지 생성 인공지능은 인터넷에서 찾은 거대한 사진 모음에서 훈련되었다고 'numerama' 매체는 전했다. 이 사진은 자신의 사진인지 알아보기 위해 HaveIBeenTrained라는 도구를 사용할 수 있다는 게 매체의 설명이다. 

매체에 따르면 HaveIBeenTrained는 인공 지능 Stable Diffusion 및 Imagen을 교육하는 데 사용된 각각 4억 장 및 50억 장의 사진이 포함된 두 개의 거대한 데이터베이스를 참조할 수 있게 한다. Laion 400M 및 Laion 5B가 그것들이다. 이들은 AI가 두 아이디어를 더 잘 연관시킬 수 있도록 텍스트로 설명된 두 개의 가장 큰 이미지 데이터베이스다.

인터넷에서 공유한 그림 중 하나가 이 두 개의 거대한 데이터베이스의 일부인지 확인하려면 이보다 더 간단한 방법은 없다. 이미지나 텍스트로 검색하면 된다. '숲 사진'에 대한 쿼리는 해당 설명과 일치하는 데이터베이스에 있는 모든 이미지를 표시한다.

그러나 HaveIBeenTrained는 주로 소셜 네트워크에 있는 아티스트와 Laion에 의해 작품이 흡수될 수 있는 아티스트를 대상으로 한다. 따라서 사이트는 이러한 데이터베이스에서 자신의 작업에 대한 링크를 검색하고 제거를 요청할 수 있도록 아티스트에게 제공한다. 

이 사이트가 특별히 아티스트를 대상으로 한다는 사실은 중요하지 않다. 2023년 1월 초(현지시간) 디자이너 사라 앤더슨을 비롯한 3명의 아티스트가 Midjourney와 Stable Diffusion에 대한 불만을 제기했다. 인터넷에서 가져온 수십억 개의 이미지를 사용하여 훈련하는 이러한 인공 지능은 '동의하지 않고 보상 영수증을 받지 못한 수백만 명 아티스트'의 저작권을 침해했다.

HaveIBeenTrained를 사용하면 사라 앤더슨의 그림이 Laion의 데이터베이스에 표시된다는 사실을 쉽게 알 수 있다.

지금까지 50억 항목의 거대한 데이터베이스에 무엇이 있는지 정확히 아는 것은 매우 어려웠다. Laion 400M과 Laion 5B는 통합될 이미지를 분류할 필요가 없는 복잡한 전자동 절차로 조립되었다. 그리고 그것은 때때로 일부 사진이 반드시 권리로부터 자유롭지 않다는 것을 의미한다.

사진 에이전시 게티 이미지(Getty Image)는 최근 저작권 사용료를 받았다. AI가 유명한 저작권 배너를 재현할 수 있을 정도로 많은 수의 사진에 대해 훈련되었음을 깨달았다. 게티 이미지는 저작권이 있는 수백만 장의 사진을 불법적으로 복사하고 분석한 것에 대해 Stable Diffusion에 대해 불만을 제기했다.

빠른 테스트를 통해 거기에서 찾은 다양한 것을 실현할 수 있다. 풍경 사진뿐만 아니라 책 표지, 광고 이미지, 이름이 명확하게 식별되는 페이스북 간행물의 발췌, Skyblog에 게시된 익명의 사람들의 사진도 있다고 매체는 전했다.

저작권자 © 초이스경제 무단전재 및 재배포 금지