PaLM 2로 연관성 높은 언어 학습 도와
1000개 언어 이니셔티브…”더 큰 포용성”
[녹색경제신문 = 우연주 기자] ‘구글 번역’에 110개 언어가 추가됐다. ‘포용성’을 확장하려는 전략인 동시에 AI를 활용한 결과물이라는 분석이다.
구글은 지난 6월 27일 블로그를 통해 이같이 알리며 구글의 언어 모델인 ‘PaLM 2’가 결정적 도구라고 밝혔다.
구글은 “언어에는 지역적 다양성, 방언, 다양한 스펠링 방식 등 변주가 많다. 딱 하나의 올바른 샘플이 존재하지 않는 셈”이라며 “그래서 각 언어의 가장 흔한 변주에 우선순위를 두기로 했다”고 말했다.
구글은 이어 “PaLM 2의 역할은 구글 번역이 연관성 높은 언어들을 더 효과적으로 학습하도록 돕는 것이다. 예를 들어 ‘로마니’는 유럽 전역에 걸쳐 방언이 많은 언어다. 우리 모델은 일단 가장 사용 빈도가 높은 남부 로마니에 가까운 결과물을 만들어내지만 북부 로마니나 발칸 로마니도 융합한다”고 말했다.
한편, 110개의 언어가 추가됐지만 이 언어를 사용하는 인구는 전 세계의 8%에 불과한 것으로 알려졌다.
배경에는 구글이 지난 2022년 발표한 ‘1000개 언어 이니셔티브’가 있다.
구글은 해당 이니셔티브의 취지에 대해 “전 세계적으로 7,000개 이상의 언어가 사용되지만 오늘날 온라인에서 제대로 표현되는 언어는 소수에 불과하다”며 “오늘날 가장 많이 사용되는 1,000개 언어를 지원하는 AI 모델을 구축함으로써 전 세계 소외된 커뮤니티의 수십억 명의 사람들에게 더 큰 포용성을 제공하고자 한다”고 밝힌 바 있다.
우연주 기자 lycaon@greened.kr