인류에게는 7000가지 언어가 있는데 그중에는 사용자수가 적고 관련 자료가 희소한 ‘소중언어(小众语言)’가 있다. 미국 ‘메타’회사가 새로 개발한 인공지능모델은 200가지의 다른 언어를 번역할 수 있는데 비교적 많은 ‘소중언어’의 온라인번역을 실현했다.
인공지능번역은 현재 인공신경망을 기반으로 한 모델을 사용하여 다양한 언어를 번역한다. 이런 모델에는 일반적으로 온라인으로 얻을 수 있는 많은 량의 훈련데터가 필요하다. 하지만 일부 특정언어에 대한 데터는 공개적이고 저렴한 비용으로 얻을 수 없거나 보편적으로 접근할 수 없는데 이런 언어를 ‘저자원언어’라고도 한다.
‘메타’회사팀이 새로 연구개발한 교차언어기술은 인공신경망을 기반으로 한 번역모델이 기존 고자원언어 번역능력을 사용하여 저자원언어를 번역하는 방법을 배울 수 있도록 한다. 팀은 이 기술을 응용하여 NLLB-200이라는 온라인 다중언어번역도구를 개발하였고 200가지 언어를 용납할 수 있으며 번역할 수 있는 저자원언어의 수량은 고자원언어 수량의 3배이다. 이 연구성과는 최근 영국의 《자연》 잡지에 발표되였다.
연구단체는 많은 저자원언어에서 1000개 내지 2000개의 샘플 밖에 획득하지 못했다. 그리하여 NLLB-200의 훈련데터량을 확대하기 위해 그들은 하나의 언어식별시스템을 리용해 이런 특정언어의 보다 많은 실제 사례를 발견하였다. 팀은 또 인터넷자료를 통해 일부 언어와 영어의 이중언어 문자데터를 발굴하여 모델의 번역품질을 향상시키는 데 도움을 주었다.
연구자들은 번역도구는 저자원언어 사용자가 인터넷과 같은 기술을 사용하는 데 도움이 될 수 있으며 이런 모델은 이런 사람들이 보다 많은 도서와 론문 자료를 얻을 수 있도록 교육하는 데에도 사용할 수 있다고 말했다. 하지만 연구자들은 이런 도구는 여전히 오역이 발생할 수 있다고 부언했다.