[녹색경제신문 = 조아라 기자]
최근 AI(인공지능)의 활용이 전산업군으로 계속해서 확장되면서 AI열풍이 식지 않고 오히려 더 뜨거워지는 추세다.
이같은 AI의 성능을 결정짓는 것은 데이터의 학습인데 AI가 인간이 만든 데이터가 아닌 AI가 이미 만들어낸 데이터를 재학습할 경우 AI 모델이 발전하기 보다 오히려 붕괴될 수 있다는 연구 결과가 나왔다.
말하자면, 결국 AI가 제대로 작동하고 성능을 향상시키기 위해서는 기존의 사회에서 만들어진 데이터와 함께 인간의 선별 작업을 거친 데이터를 학습해야 한다는 이야기다.
이는 영국 캐임브리지 대학 AI 연구원 자카르 슈마일로프( Zakhar Shumaylov)의 연구로 이를 데이터의 동족포식, 근친상간 현상이라고 비유했다.
이 현상은 ‘AI 모델 붕괴(model collapse)라고 하는데, 인터넷 상에 인간이 생성한 데이터가 부족해지고 그와 반대로 AI가 생성한 데이터가 더 많아질 경우 LLM( large language model, 거대언어모델)의 발전을 저해하기도 한다.
슈마일로프는 “중요한 것은 (AI의) 학습 데이터에 어떤 것이 담겨있냐는 것이며 우리는 데이터를 선정할 때 매우 신중해야 할 필요가 있다”라고 언급했다.
연구팀은 이같은 현상이 비단 이미지 생성 AI뿐만 아니라 정제된 데이터를 사용하지 않은 모든 규모의 언어 모델에 발생할 수 있는 보편적인 문제라는 점을 지적했다.
연구팀은 AI 모델 붕괴 현상을 “You are what you eat”(당신이 먹는 것이 곧 당신 그 자체다)라는 명쾌한 한 문장으로 정리했다.
언어모델은 인터넷에서 방대한 텍스트에서 단어 혹은 단어의 일부 사이의 연관성을 구축하는 방식으로 작동한다.
이런 학습 패턴 상에서 언어모델은 통계적으로 다음에 올 가능성이 가장 높은 단어를 뱉어내방식으로 텍스트를 생성한다.
본질적으로 AI 모델 붕괴현상이 나타나는 이유는 AI 모델이 반드시 ’학습된‘데이터 샘플을 사용하는 데 있다. 그러다보니 원래 데이터에서 ’빈도가 낮았던 단어‘는 재생산될 가능성이 낮아지고 그와 반대로 일반적으로 사용 빈도가 높은 단어는 반복될 확률이 높아지는 것이다.
말하자면 AI모델이 실제 현실이 아닌 선행 모델의 예측을 기반으로 학습하기 때문에 이같은 과정을 반복할수록 오류가 쌓이면서 결국에는 모델 붕괴로까지 이어진다는 것이다.
슈마일로프는 “시간이 지날수록 오류가 반복되고 쌓일수록 결국 모델은 오류만 학습하게 되고 다른 것은 학습하지 못하게 된다.”라고 설명했다.
여기에 더해 ,“개발자는 ’워터마킹‘과 같은 방법으로 A(가 생성한) 데이터와 실제 데이터를 구별해야 하며, 이는 빅테크기업들의 전례없는 협조가 필요하다”라고 조언한다.
(*워터마킹:인터넷으로 주고받는 전자문서의 텍스트·그림·동영상·음악파일 등의 위조나 변조여부를 확인할 수 있는 기술.)
조아라 기자 lycaon@greened.kr