[AI 프리즘] 스태빌리티AI 모스타크 CEO “통제가 없으면 AI는 점점 미쳐갈 것이다”
[AI 프리즘] 스태빌리티AI 모스타크 CEO “통제가 없으면 AI는 점점 미쳐갈 것이다”
  • 최정미 기자
  • 승인 2023.05.29 07:24
  • 수정 2023.05.29 07:24
  • 댓글 0
이 기사를 공유합니다

인공지능(AI)의 명암에 대한 논란이 확산되고 있다. [사진=더 컨버세이션]
인공지능(AI)의 명암에 대한 논란이 확산되고 있다. [사진=더 컨버세이션]

"오픈AI의 챗GPT와 구글의 람다(LaMDA)와 같은 LLM(large language models, 대규모언어모델)을 인터넷 전반에 대해 지속적으로 훈련하는 것은 이들 인공지능을 너무나 예측불가능하게 만드는 것이며, 인류에게 실존 위협이 될 수 있다." (스태빌리티AI의 CEO 에마드 모스타크)  

영국의 AI 스타트업 선두주자 중 하나인 스태빌리티AI 같은 개발자들이 입력된 텍스트로 이미지를 형성하는 텍스트투이미지(text-to-image) AI 모델을 훈련시키기 위해 사용되는 데이터의 상당 부분은 인터넷에서 수집되는 것이다.

여기에는 저작권 문제가 걸린 무수한 이미지들이 포함돼 있고, 이러한 AI가 만든 제품의 궁극적인 소유주에 대한 문제도 걸려 있다.

스태빌리티AI는 텍스트 기반 이미지 생성 AI 분야의 선두에 있는 스테이블 디퓨전(Stable Diffusion) 개발에 참여했다. 또한 새로운 모델 딥 플로이드(Deep Floyd)를 출시했는데, 가장 진보된 이미지 생성AI라고 주장하고 있다.

스태빌리티AI의 책임 연구원 다리아 바크샨다에바는 28일(현지시간) '스카이뉴스'에 AI 안전을 위해 필요한 것의 하나로 훈련에 쓰이는 데이터에서 불법적이고, 폭력적이며, 포르노적인 이미지들을 지우는 것이라고 말했다.

AI가 훈련하면서 해롭고 착취적인 이미지들을 본다면, 이를 출력물로 재생산할 수 있다. 이를 막기 위해 개발자들은 이러한 이미지들을 훈련용 데이터에서 삭제해, AI가 이러한 이미지를 프로세스 과정에서 인식할 수 없게 만드는 것이다.   

그러나 온라인 소스에서 훈련을 위해 취해진 이미지는 20억여 개에 달한다. 스태빌리티 AI는 사람들의 데이터 권리를 존중하는 AI 모델 훈련을 위한 새로운 데이터세트 작업을 하고 있다고 말했지만, 미국에서 이미지 공유 플랫폼 게티이미지로부터 1200만 개의 이미지를 인공지능 모델 훈련에 사용한 것으로 소송을 당했다. 스태빌리티 AI는 이미지의 공정 이용에 관한 규정을 대며 저작권을 침해한 적이 없다고 대응했다. 

그러나 문제는 저작권에서 끝나지 않는다. 이미지든 텍스트든, 컴퓨터 코드든 웹 상에서 AI가 생성하는 데이터가 점점 무수하게 나타난다는 것이라고 스카이뉴스는 시사했다. “현재 생성되는 코딩의 50%가 AI가 생성한 것으로 1년 또는 18개월만의 놀라운 변화이다”라고 모스타크는 말했다.

미국의 온라인 콘텐츠 인증회사 뉴스가드(NewsGuard)는 최근 AI생성 가짜 뉴스 웹사이트 49곳을 발견한 것으로 알려졌다. 뉴스가드의 총괄 대표 매트 스키빈스키는 “우리는 보통의 인터넷 이용자들이 정보를 찾고 이것이 정확한 정보인지 알 수 있는 능력에 대해 정말 우려하고 있다”고 말했다.

AI로 만든 고의적으로 오도하고 비방하고 피해를 주는 콘텐츠로 인터넷을 오염시키는 일들이 발생하고 있으며, 급기야 AI가 다른 AI가 만든 데이터로 훈련하는 결과까지 낳을 수 있다는 것이다.

영국의 명문 사립학교 엡솜컬리지의 교장 안토니 셀든은 AI가 반감을 일으키고 위험할 것이라고 말했다. 또 오픈AI의 CEO 샘 알트만은 미 의회 청문회에서 인공지능 기술이 잘못될 수 있다며 규제를 촉구한 바 있다.

모스타크는 “인공지능에 정크푸드를 먹이면 안 된다. 우리는 바로 지금 더 좋은 방목된 유기농 모델을 만들 수 있다. 그렇지 않으면, 인공지능은 더 미쳐돌아가게 될 것이다”라며 AI 개발을 식품으로 양육하는 것에 비유했다.

좋은 출발점은 텍스트든 이미지든 사용하는 이들에게 더 특화된 데이터로 훈련된 AI를 만드는 것이라고 그는 주장하고 있다. 지금 대부분의 AI들은 미 캘리포니아에서 설계되고 훈련되고 있다.

이에 모스타크는 “인류의 다양성을 반영하기 위해 우리 자체 데이터세트 또는 자체 모델이 필요하다. 이는 더 안전하며, 세계에서 가장 부유한 사람들에게만 가능한 매우 제한된 데이터세트와 매우 제한된 경험을 가지는 것보다 인간의 가치와 더 함께 갈 수 있다”라고 말했다.

[위키리크스한국 = 최정미 기자]

prtjami@wikileaks-kr.org


  • 서울특별시 마포구 마포대로 127, 1001호 (공덕동, 풍림빌딩)
  • 대표전화 : 02-702-2677
  • 팩스 : 02-702-1677
  • 청소년보호책임자 : 소정원
  • 법인명 : 위키리크스한국 주식회사
  • 제호 : 위키리크스한국
  • 등록번호 : 서울 아 04701
  • 등록일 : 2013-07-18
  • 발행일 : 2013-07-18
  • 발행인 : 박정규
  • 편집인 : 박찬흥
  • 위키리크스한국은 자체 기사윤리 심의 전문위원제를 운영합니다.
  • 기사윤리 심의 : 박지훈 변호사
  • 위키리크스한국 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2024 위키리크스한국. All rights reserved.
  • [위키리크스한국 보도원칙] 본 매체는 독자와 취재원 등 뉴스 이용자의 권리 보장을 위해 반론이나 정정보도, 추후보도를 요청할 수 있는 창구를 열어두고 있음을 알립니다.
    고충처리 : 02-702-2677 | 메일 : laputa813@wikileaks-kr.org
ND소프트