AI 생태계

데이터 중독: 아티스트가 이미지 생성기에 복수하기 위해 AI를 방해하는 방법

DobongLive 2023. 12. 19. 18:46

 

이것을 상상해보세요. 작업 프레젠테이션을 위해서는 풍선 이미지가 필요하며 Midjourney 또는 DALL-E와 같은 텍스트-이미지 생성기를 사용하여 적합한 이미지를 생성합니다.

"푸른 하늘에 빨간색 풍선"이라는 프롬프트를 입력했지만 생성기는 대신 계란 이미지를 반환합니다. 다시 시도했지만 이번에는 생성기에 수박 이미지가 표시됩니다.

무슨 일이야?

당신이 사용하고 있는 발전기가 "중독"되었을 수 있습니다.

'데이터 중독'이란 무엇입니까?

텍스트-이미지 생성기는 수백만 또는 수십억 개의 이미지가 포함된 대규모 데이터 세트에 대한 교육을 통해 작동합니다. Adobe 또는 Getty에서 제공하는 것과 같은 일부 생성기는 생성기 제조업체가 소유하거나 사용 라이센스가 있는 이미지로만 훈련됩니다.

그러나 다른 생성자들은 온라인 이미지를 무분별하게 스크랩하는 방식으로 훈련을 받았는데, 그 중 상당수는 저작권이 있을 수 있습니다. 이로 인해 예술가들이 거대 기술 기업이 자신의 작품을 훔치고 이익을 취했다고 비난하는 수많은 저작권 침해 사건이 발생했습니다.

 

여기서 '독'이라는 개념이 등장합니다. 개별 아티스트에게 권한을 부여하려는 연구원들은 최근 'Nightshade' 무단 이미지 스크래핑에 맞서 싸우기 위해.

 

이 도구는 컴퓨터 비전에 큰 피해를 주지만 사람의 눈에는 이미지가 변경되지 않은 상태로 유지되는 방식으로 이미지의 픽셀을 미묘하게 변경하는 방식으로 작동합니다.

그런 다음 조직이 미래 AI 모델을 교육하기 위해 이러한 이미지 중 하나를 스크랩하면 해당 데이터 풀은 "중독"됩니다. 이로 인해 알고리즘이 이미지를 인간이 시각적으로 사실이 아닌 것으로 분류하는 방법을 실수로 학습하게 될 수 있습니다. 결과적으로 생성기는 예측할 수 없고 의도하지 않은 결과를 반환하기 시작할 수 있습니다.

중독의 증상

이전 예에서와 같이 풍선이 달걀이 될 수 있습니다. Monet 스타일의 이미지를 요청하면 대신 Picasso 스타일의 이미지가 반환될 수 있습니다.

 

예를 들어 손을 정확하게 렌더링하는 데 문제가 있는 등 이전 AI 모델의 일부 문제가 다시 발생할 수 있습니다. 모델은 또한 이미지에 다른 이상하고 비논리적인 특징을 도입할 수도 있습니다. 예를 들어 다리가 6개인 개나 변형된 소파를 생각해 보세요.

훈련 데이터에서 "중독된" 이미지의 수가 많을수록 혼란이 커집니다. 생성 AI의 작동 방식으로 인해 "중독된" 이미지로 인한 피해는 관련 프롬프트 키워드에도 영향을 미칩니다.

 

 

예를 들어 페라리의 "중독된" 이미지가 훈련 데이터에 사용되는 경우 다른 자동차 브랜드 및 기타 관련 용어(예: 차량 및 자동차)에 대한 즉각적인 결과도 영향을 받을 수 있습니다.

Nightshade의 개발자는 이 도구를 통해 거대 기술 기업이 저작권을 더욱 존중하게 되기를 바라지만, 사용자가 도구를 남용하고 의도적으로 "중독된" 이미지를 생성기에 업로드하여 서비스를 방해할 수도 있습니다.

해독제가 있나요?

이에 대해 이해관계자들은 다양한 기술적, 인간적 솔루션을 제안했습니다. 가장 분명한 것은 입력 데이터의 출처와 사용 방법에 더 많은 관심을 기울이는 것입니다. 그렇게 하면 무차별적인 데이터 수집이 줄어듭니다.

이러한 접근 방식은 온라인에서 발견된 데이터가 적합하다고 생각하는 모든 목적에 사용될 수 있다는 컴퓨터 과학자들의 일반적인 믿음에 도전합니다.

 

기타 기술적 수정 사항에는 다양한 모델이 다양한 데이터 하위 집합에 대해 학습되고 위치를 비교하는 '앙상블 모델링' 사용도 포함됩니다. 특정 이상치. 이 접근 방식은 훈련뿐만 아니라 의심되는 '중독된' 이미지를 감지하고 삭제하는 데에도 사용할 수 있습니다.

감사는 또 다른 옵션입니다. 한 가지 감사 접근 방식에는 훈련에 전혀 사용되지 않는 "홀드아웃" 데이터를 사용하여 작고 고도로 선별되고 잘 레이블이 지정된 데이터 세트인 "테스트 배터리"를 개발하는 것이 포함됩니다. 그런 다음 이 데이터 세트를 사용하여 모델의 정확성을 검사할 수 있습니다.

기술에 대한 전략

데이터 중독을 포함하여 소위 "적대적 접근 방식"(AI 시스템을 저하, 거부, 속이거나 조작하는 접근 방식)은 새로운 것이 아닙니다. 그들은 또한 역사적으로 얼굴 인식 시스템을 우회하기 위해 메이크업과 의상을 사용하는 것을 포함했습니다.

예를 들어, 인권 운동가들은 더 넓은 사회에서 머신 비전이 무차별적으로 사용되는 것에 대해 한동안 우려해 왔습니다.

이러한 우려는 특히 얼굴 인식과 관련하여 심각합니다.

 

인터넷에서 스크랩한 얼굴에 대한 검색 가능한 대규모 데이터베이스를 호스팅하는 Clearview AI와 같은 시스템은 전 세계 법 집행 기관 및 정부 기관에서 사용됩니다. . 2021년에 호주 정부는 Clearview AI가 호주인의 개인정보를 침해했다고 판단했습니다.

 

합법적 시위자를 포함한 특정 개인의 프로필을 작성하는 데 얼굴 인식 시스템이 사용되는 것에 대응하여 예술가들은 들쭉날쭉한 선의 적대적 메이크업 패턴을 고안했습니다. 감시 시스템이 이를 정확하게 식별하지 못하게 하는 비대칭 곡선.

 

이러한 사례와 데이터 중독 문제 사이에는 명확한 연관성이 있습니다. 둘 다 기술 거버넌스와 관련된 더 큰 문제와 관련되어 있기 때문입니다.

 

많은 기술 공급업체에서는 데이터 중독을 성가신 문제로 간주하여 기술 솔루션으로 해결해야 합니다.

하지만 데이터 중독은 아티스트와 이용자의 기본 인격권 침해에 대한 혁신적인 해결책으로 보는 것이 더 나을 수도 있습니다.