[인공지능 줌인] 아기에게 단 카메라로 아기의 시선에서 학습하는 AI

한 인공지능 모델이 아기가 쓴 헤드캠을 통해 아기의 시선으로 세상을 보면서 단어들을 습득하고 있다고 네이처 등이 보도했다.

연구 보고서를 공동 작성한 뉴욕대학교의 연구원 와이 킨 봉은, 이 연구를 통해 인간이 어떻게 학습을 하는지 이해하는 데 AI가 도움이 된다는 것을 알 수 있다고 시사했다. 이 전에는 이 분야를 연구하는 것에 한계가 있었는데, 챗GPT 같은 다른 대규모 언어모델(LLM)들은 수십억 개 규모의 데이터로 학습을 해 인간 아기의 현실 경험과는 맞지 않기 때문이다. 봉은 사람이 태어나자마자 인터넷을 이용하지는 않는다는 점을 짚었다.

지난 2월 1일 사이언스 지에 공개된 이 연구가 아이들이 어떻게 언어를 학습하는지에 대한 오랜 논쟁에 도움이 될 것으로 기대되고 있다. 연구에 쓰인 AI는 이미지와 단어를 함께 보며 그 상관관계를 습득했을 뿐 언어에 대한 정보가 어떠한 것도 사전에 프로그래밍 되지 않았다고 한다. 이는 인지과학이론에 일부 상충되는 점이 있는데, 단어에 의미를 부여하기 위해서 아기들은 언어가 어떻게 작용하는지 어느 정도 선천적인 지식이 필요하다고 봉은 말했다.

UC머세트의 인지과학자 헤더 보트펠드는 이 연구가 아이들의 초기 언어 습득을 이해하는 데 훌륭한 접근이라고 말했다.

봉과 그의 동료들은, 호주에 사는 ‘샘’이라는 남자 아기의 머리에 씌운 카메라로 한 주에 두 번, 한 시간씩, 총 61시간 동안 기록한 자료를 이용했다. 샘이 6개월일 때부터 2년 동안 진행했는데, 샘이 깨어있는 시간의 약 1%에 해당하는 양이라고 한다.

연구원들은 인간의 뇌 구조에서 영감을 얻은 AI 신경망을 영상 프레임과 샘이 말하는 단어들을 텍스트로 바꾼 것으로 훈련시켰다. 이 AI 모델은 샘이 놀이를 하고, 읽고, 먹는 동안 포착된 25만 개의 단어와 이에 대응하는 이미지 들에 노출됐다. 이미지와 텍스트를 짝짓고, 정보를 쌓기 위해 ‘대조 학습(contrastive learning)’이라고 하는 기술을 이용했다고 한다.

연구원들은 테스트를 위해 이 AI 모델에 4개의 이미지를 보여 주고 그 중 단어와 맞는 것을 찾도록 했는데, 이는 어린이들의 언어 능력을 평가하는 데도 사용되는 방법이다. 이렇게 대상을 분류하는 데에 성공률은 기대했던 25%보다 훨씬 큰 62%로 나왔다고 하는데, 이는 4억 개의 이미지와 텍스트 쌍으로 훈련한 AI 모델에 견주는 것이라고 한다.

또한 인간이 쉽게 인지하는 ‘사과’나 ‘강아지’ 같은 단어들은 연구에 사용된 AI 역시 이전에 보여 주지 않은 예시들도 정확하게 분류했다고 한다. 이처럼 훈련 데이터에서 벗어난 대상들을 성공적으로 인식하는 비율은 평균 35%인 것으로 나타났다. 형태가 크게 다르지 않은 대상은 능숙하게 분류했지만, ‘장난감’처럼 그 형태가 매우 다양한 것은 학습하기 어려워 했다고 봉은 말했다.

다만 아기 한 명으로부터 나오는 데이터로 연구한 것으로 일반화할 수는 없다. 아이들마다 환경과 경험이 매우 다르기 때문이라고 보트펠드는 말했다. 그러나 아기가 초기 단계에서 다양한 감각 데이터 사이의 관련성을 형성하면서 많은 것을 배운다는 것이 연구를 통해 드러났다고 덧붙였다. 또한 미국의 언어학자 노암 촘스키 같은 과학자들이 말하는, 인간은 정보의 입력이 희박해도 매우 복잡하고 정교하게 언어를 발달시킬 수 있어, 인간의 언어 습득은 일반적인 학습 과정을 통해 일어나지 않는다는 주장에 반박하는 것이라고 한다. 보트펠드는 “그런 특별한 매카니즘이 필요하지 않다는 것을 보여 주는, 내가 이제껏 본 가장 강한 데이터이다”라고 말했다.

현실 세계에서 언어 학습은 연구에 사용된 AI가 경험한 것보다 더욱 풍부하고 다양한 환경에서 이뤄진다. AI는 정지된 이미지와 쓰여진 텍스트를 통해 학습하는 한계가 있어, 진짜 아기가 일상에서 겪는 교감은 경험할 수 없다. 예를 들어, 아기들이 초기 단계에서 배우게 되는 ‘손’을 AI는 어렵게 학습했는데, 아기들에게는 자기 손이 있고 그 손으로 많은 체험을 하지만, AI 모델은 그럴 수 없기 때문이라고 봉은 말했다.

캐나다 몬트리올대학교 머신러닝 과학자 아니루드 고얄은 “복잡한 인간의 학습에 맞추기 위한 AI 모델의 세밀한 조정의 가능성이 인지과학의 발전을 위한 흥미진진한 길을 제공하고 있다”라고 말했다.

[위키리크스한국 = 최정미 기자]

prtjami@wikileaks-kr.org

최정미 기자 다른기사 보기