[월드 프리즘] 인공지능 전문가들 “2026년 AI 훈련용 데이터가 고갈된다” 경고

인공지능의 훈련에 사용할 데이터가 고갈될 수 있으며, 이는 AI 모델, 특히 LLM(large language models: 대규모 언어 모델)의 성장을 더디게 만들 수 있다고 전문가들이 경고하고 있다.

'컨버세이션'은 인터넷 상에 데이터가 넘치는데, 데이터 부족 문제가 대두될 수 있다고 지적했다.

고성능의 정확한 AI 알고리즘을 훈련시키기 위해서는 많은 양의 데이터가 필요하다. 챗GPT의 경우 570 기가바이트, 즉 3천억 단어의 텍스트로 훈련했다.

미드저니, DALL-E와 같은 AI 이미지 생성 어플리케이션에 쓰이는 스테이블 디퓨전(stable diffusion) 알고리즘은 58억 개 이미지-텍스트 쌍 구성의 데이터 셋으로 훈련한다. 알고리즘이 충분한 데이터로 훈련되지 않으면, 부정확하거나 품질이 낮은 결과물을 생산하게 된다.

또한 인공지능 훈련을 위한 데이터가 얼마나 양질인지도 중요하다. 소셜미디어 포스트나 선명하지 않은 사진 등의 질이 낮은 데이터는 수집하기는 쉽지만, 고성능 AI 모델 훈련에 적합하지 않다.

소셜미디어 플랫폼에서 가져온 텍스트는 편향된 내용일 수 있거나, 가짜뉴스 또는 불법적인 콘텐츠일 수 있다. 예를 들어, 마이크로소프트가 트위터 콘텐츠를 이용해 AI봇을 훈련시키려고 하자, 인종차별 및 성차별적인 결과를 만들었다고 한다.

이 때문에 AI 개발자들이 책 속의 텍스트, 온라인 기사, 과학 저널 등 고품질의 콘텐츠를 가져오려고 하고 있는 것이다. 구글 어시스턴트는 보다 더 자연스러운 대화 형태를 만들기 위해 11,000개의 로맨스 소설로 훈련했다고 한다.

이처럼 AI 업계가 방대한 양의 데이터로 AI 시스템을 훈련시키고 있고, 그 덕분에 챗GPT, DALL-E 3 같은 고성능 모델이 나올 수 있었다. 그런데 온라인 데이터 축적이 AI 훈련에 이용되는 것보다 속도가 훨씬 느리다는 것이 연구를 통해 나타났다.

지난해 한 연구 단체가, 현재의 AI 훈련 기조가 계속되면, 2026년 전에 고품질의 텍스트 데이터가 고갈될 것이라고 예측했다.

또한 저품질의 언어 데이터도 2030년에서 2050년 사이에, 저품질 이미지 데이터는 2030년에서 2060년 사이에 고갈될 것이라고 추정했다.

AI는 2030년까지 세계 경제에 15조 7천억 달러 규모를 기여할 수 있다고 영국 기반의 글로벌 회계 컨설팅 그룹 PwC(Pricewaterhouse Coopers, 프라이스워터하우스 쿠퍼스)는 전망했다.

AI 모델들이 미래에 얼마나 어떻게 개발이 될지 가늠할 수는 없지만, 데이터 부족의 문제를 해결할 방안이 몇 가지 있다고 한다.

그 중 하나는 AI 개발자들이 이미 갖고 있는 데이터를 더 효율적으로 사용하도록 알고리즘을 향상시키는 것이다.

이는 더 적은 데이터로도 고성능의 AI 시스템을 훈련시킬 수 있을 뿐 아니라 컴퓨팅 파워를 덜 쓰기 때문에 AI 탄소 발자국도 줄이는 이중 효과를 볼 수 있다.

또 다른 방안은 AI를 이용해 시스템 훈련을 위한 합성 데이터(synthetic data)를 만드는 것이다. 개발자들이 특정 AI 모델에 맞게 필요한 데이터를 만드는 것을 말한다.

합성 데이터를 이용하는 몇몇 프로젝트들이 이미 있는데, 모스틀리 AI(Mostly AI) 같은 데이터 생성 서비스로부터 자원을 공급받기도 한다. 미래에는 이러한 방식이 더 통용될 것이라는 분석이다.

또한 개발자들은 대형 출판언론사의 무료 온라인 공간 및 오프라인 저장소에서 콘텐츠를 찾기도 한다. 인터넷이 나오기 이전의 방대한 양의 텍스트를 떠올리면 된다. 이것들을 디지털화하면 AI의 새로운 데이터 자원이 될 수 있다고 한다.

세계 최대의 미디어 기업 중 하나인 뉴스 코퍼레이션(News Corp)은 최근 AI 개발자들과 협상 중이라고 했는데, 지금까지는 AI 기업들이 인터넷 상에서 데이터를 거의 무료로 수집해 왔지만, 앞으로는 언론사 같은 콘텐츠 제공자들과의 거래로 훈련용 데이터를 위한 비용을 지불하게 될 것으로 전망된다.

지금도 여러 콘텐츠 제공자들이 AI 개발사들이 무단으로 자신들의 자료를 사용하고 있다고 반발하고 있으며, 심지어 마이크로소프트, 오픈AI 등의 AI 개발사들을 고소하기도 했다. 콘텐츠 제공자와 AI 개발사 간의 불균형 문제가 예시된 것과 같은 콘텐츠 사용에 대한 지불 합의를 통해 해결될 수 있을 것으로 보이고 있다.

[위키리크스한국 = 최정미 기자]

prtjami@wikileaks-kr.org

최정미 기자 다른기사 보기