[AI 프리즘] 소진되는 AI 훈련용 데이터, 빅테크 기업들의 해결 방안은?
[AI 프리즘] 소진되는 AI 훈련용 데이터, 빅테크 기업들의 해결 방안은?
  • 최정미 기자
  • 승인 2024.04.10 05:57
  • 수정 2024.04.10 08:15
  • 댓글 0
이 기사를 공유합니다

구글로고 [출처=연합]
구글로고 [출처=연합]

 

AI는 훈련에 데이터를 많이 이용할수록 더 강력해진다. 그런데 AI 개발 경쟁이 심화되면서 오픈AI, 메타, 구글 등의 빅테크 기업들은 훈련에 쓸 데이터가 소진돼가고 있는 문제에 부딪혔다.

현재 시장을 선도하고 있는 주요 AI 모델들은 온라인을 통해 제공되고 있는 방대한 양의 데이터를 이용해 훈련받고 있다. 그러나 AI 리서치 기관 에포크(Epoch)에 따르면, 2026년까지 양질의 데이터가 전부 소진될 것으로 예측되고 있다.

이에 빅테크 기업들이 자사 AI의 지속적인 학습을 위해 새로운 데이터 자원을 물색하며, 방안을 마련하고 있다.

타임즈의 보도에 따르면, 지난 해 구글의 법무팀이 직원들에게 이용자 데이터를 사용하는 데 있어 언어를 확장하라고 요청하기 시작했다. 일부 직원들은 구글 독스(Google Docs), 구글 시트(Google Sheets), 구글 슬라이드(Google Slides)의 무료 이용 버전과 구글 맵의 식당 리뷰까지도 이용하라는 지시를 받았다고 한다.

구글은 2023년 7월 개인정보 정책에 대해 업데이트했지만, AI 모델 훈련에 쓰이는 데이터의 형태를 확장하지 않았다고 말하고 있다.

메타는 이용가능한 데이터의 공급이 줄어들고 있어 경영진이 이를 크게 우려하면서 지난 해 3월과 4월 거의 매일 모여 이 문제에 대한 대책 회의를 열었다고 타임즈가 보도했다.

회의를 통해 나온 방안 중 하나는 출판사 사이먼 앤 슈스터(Simon & Schuster)를 인수하는 것이다. 사이먼 앤 슈스터는 스티븐 킹, 제니퍼 와이너 등의 저명한 작가들의 책을 출판하고 있으며, 지난 해 사모펀드 회사 KKR이 16억 2천만 달러에 인수했다.

보다 비용절감적인 방법으로는 책 한 권 당 라이센스 이용료로 10달러를 지불하는 것이다.

AI 시스템에 의해 발생되는 데이터를 합성 데이터(Synthetic Data)라고 하는데, 오픈AI는 이런 합성 데이터를 쓰는 방법도 고려하고 있다고 한다.

오픈AI의 CEO 샘 올트먼은 지난 해 5월 한 컨퍼런스에서 “AI 모델이 양질의 합성 데이터를 만들 수 있을 정로도 똑똑해지는 시점인 합성 데이터로의 전환점을 넘어설 수 있으면, 모든 게 좋아질 것이다”라고 말했다.

합성 데이터로 AI를 훈련시키는 데 문제점은 AI의 오류와 한계를 심화시킬 수 있다는 것이다. 오픈AI는 한 AI가 데이터를 생성하면, 다른 AI가 이를 판정하는 것으로 문제를 해결하려고 하고 있다고 한다.

오픈AI는 또한 위스퍼(Whisper)를 만들었다. 이는 음성 인식 도구로 유튜브 영상과 팟캐스트 등에서 나오는 음성을 텍스트로 변환할 수 있다. 오픈AI의 가장 최신 버전 LLM GPT-4는 위스퍼가 이렇게 유튜브 영상에서 추출한 데이터로 훈련받고 있다고 한다.

위스퍼의 핵심 개발자이자 오픈AI의 공동설립자인 그렉 브로크만은 타임즈에, 오픈AI가 수많은 데이터 자원에 의존하고 있다고 말했다.

한편, 세계 최대의 이미지 호스팅 사이트였었던 포토버켓(Photobucket)이자사의 데이터베이스의 라이센스를 곧 AI를 훈련시키려고 하는 테크 기업들에 팔 수도 있다고 로이터가 보도했다. 

 

[위키리크스한국 = 최정미 기자]

prtjami@wikileaks-kr.org


  • 서울특별시 마포구 마포대로 127, 1001호 (공덕동, 풍림빌딩)
  • 대표전화 : 02-702-2677
  • 팩스 : 02-702-1677
  • 청소년보호책임자 : 소정원
  • 법인명 : 위키리크스한국 주식회사
  • 제호 : 위키리크스한국
  • 등록번호 : 서울 아 04701
  • 등록일 : 2013-07-18
  • 발행일 : 2013-07-18
  • 발행인 : 박정규
  • 편집인 : 박찬흥
  • 위키리크스한국은 자체 기사윤리 심의 전문위원제를 운영합니다.
  • 기사윤리 심의 : 박지훈 변호사
  • 위키리크스한국 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2024 위키리크스한국. All rights reserved.
  • [위키리크스한국 보도원칙] 본 매체는 독자와 취재원 등 뉴스 이용자의 권리 보장을 위해 반론이나 정정보도, 추후보도를 요청할 수 있는 창구를 열어두고 있음을 알립니다.
    고충처리 : 02-702-2677 | 메일 : laputa813@wikileaks-kr.org
ND소프트