이미지 받아들이듯...문장 형성도 확률에 의존
AI 학습방식, 뇌연구와 맞물려 변화할 가능성도
[녹색경제신문 = 우연주 기자] 여러 생성형 AI가 "Strawberry에 R이 몇 개냐"는 기초적 질문에도 대답하지 못한 것이 화제다. AI의 기본 원리를 이해할 수 있는 계기인 한편, 앞으로 AI의 학습방식이 변화할지에도 관심이 쏠린다.
해당 이슈는 "딸기(Strawberry)에는 R이 몇 개야(How many Rs in strawberry)"라는 기본적인 질문에 다수의 생성형 AI가 오답을 내놓는 것이 발견되면서 시작됐다.
기자가 지난 11일 확인한 결과, 챗GPT 4.0, 챗GPT 3.5, 클로드 3.5 소넷은 "2개"라고 대답해 오답을 내놨고, 클로드 3 오푸스, 클로드 3 하이쿠, 퍼플렉시티, 마이크로소프트 코파일럿, A.X는 "3개"라고 대답해 정답을 내놨다.
출처를 표기하는 것으로 유명한 퍼플렉시티의 답에 따르면, 퍼플렉시티는 관련 논란을 담은 웹 문서를 참고한 것으로 보인다.
이에 질문을 바꿔 "Institution(기관)에 I가 몇 개야"고 묻자, 챗GPT 3.5와 챗GPT 4.0은 "2개"라고 대답하며 오답을 냈고 A.X와 마이크로소프트 코파일럿은 각각 "질문을 이해할 수 없다", "기관에 소속된 사람 수는 다양하다"는 답을 내놨다.
퍼플렉시티, 클로드 3.5 소넷, 클로드 3 오푸스, 클로드 3 하이쿠는 "3개"라고 정답을 말했지만 "Illegally에 L이 몇 개냐"고 질문을 바꾸자, 클로드 3 오푸스와 클로드 3 하이쿠를 제외한 나머지는 오답을 말했다.
알파벳 갯수를 정확히 맞추는 데에 특출난 모델은 없다고 봐도 무방한 상황이다.
생성형 AI들이 이러한 어려움을 겪는 이유는 AI 학습방식 때문이다.
AI 연구를 오래해 온 A씨는 "지금 쓰는 생성형 AI 모델은 한국어로 치면 어근에 해당하는 부분만 토큰화해서 받아들인다. 즉, 알파벳 또는 자음과 모음 단위의 코딩은 안 된다"고 설명했다.
AI가 사람처럼 원리를 이해하는 것이 아니라, 마치 이미지를 받아들이듯 학습하는 것도 원인이다. AI는 문장을 형성하는 방식도 확률에 의존한다.
민정익 전주대학교 인공지능학과 교수는 "사람은 원리를 학습해 답을 도출하지만 AI는 원리를 이해하는 것이 아니라 '이미지'처럼 학습한다고 보면 된다. '나는 학교에'라는 말이 나오면 확률적 계산에 의해 그 뒤에는 '간다'는 단어가 가장 적합하다고 판단하는 식"이라고 말했다.
전문가는 AI의 학습방이 아기가 언어를 배우는 과정과 비슷하다고 말한다.
민 교수는 "원래 AI는 학습할 때 단어 덩어리의 위치와 순서를 고려한다. 오늘날 AI는 아기가 언어를 배우는 것과 비슷하게 학습한다. 아기에게 처음부터 ㅇ,ㅓ,ㅁ,ㅁ,ㅏ 이렇게 개별 자음과 모음을 가르치진 않는다. 엄마가 자꾸 얼굴을 보여주고, 그 단어를 덩어리째 들으면서 알게 되지 않나. AI도 비슷하다"고 말했다.
다만 미래에도 AI의 학습방식이 지금과 똑같으리라는 보장은 없다.
민 교수는 "만약 뇌연구와 맞물려 지금의 뉴럴네트워크 모형이 바뀌거나 새로운 형태가 제시된다면 AI의 학습방식이 바뀔 수도 있다. 단, 지금으로서는 아무도 알 수 없는 상태"라고 말했다.
A씨도 "인공지능은 워낙 변화 속도가 빠르다"며 "5년 전만 해도 트랜스포머 모델이 이렇게 많은 문제 해결에 사용될 수 있으리라 생각치 않았다. 그 때는 아예 다른 모델로 문제를 해결하려고 했다. 이런 점에 비추어 보면 앞으로 5년이 지나면 '누가 트랜스포머 모델을 쓰냐'는 식으로 상황이 바뀔 수도 있지 않을까"라고 말했다.
우연주 기자 lycaon@greened.kr