삼성리서치 요르단 연구소(SRJO)의 갤럭시 AI 언어 개발 담당자들.사진제공|삼성전자
삼성전자는 이날 갤럭시 AI의 언어 모델 개발 과정도 공개했다. 삼성전자는 언어를 넘어 문화를 이해하고 지식을 갖춘 고도화된 갤럭시 AI를 위해 전 세계 총 20여개의 연구개발(R&D)센터에서 언어 모델 연구·개발에 힘을 쏟고 있다.
삼성리서치 요르단 연구소(SRJO)는 아랍어 방언을 이해하면서, 답변은 표준 아랍어로 할 수 있는 언어 모델을 개발했다. 이를 위해 각기 다른 방언의 음성 녹음 데이터를 수집하고, 이를 직접 텍스트로 변환하는 과정을 거쳤다.
삼성리서치 베트남 연구소(SRV)는 성조의 미세한 차이를 인식할 수 있도록, 음성 데이터를 매우 정교하게 다듬고 정제하는 과정을 거쳤다. 성조를 정확히 구분해 내기 위해 한 단어를 0.02초 전후의 짧은 프레임으로 잘라내고 이를 데이터베이스화했다.
삼성리서치 브라질 연구소(SRBR)는 갤럭시 AI가 중남미 국가의 스페인어 차이를 이해할 수 있도록, 각 국가의 오디오와 텍스트 등 방대한 양의 데이터를 수집해 관리하고 지속해서 개선했다.
삼성리서치 인도네시아 연구소(SRIN)는 인간의 뇌가 학습하는 과정과 유사한 인공신경망번역(NMT) 방식을 적용했다. 단어가 아닌 문장 단위로 언어를 학습시켜, 갤럭시 AI가 의사소통의 맥락과 규칙을 이해할 수 있도록 했다.
김명근 기자 dionys@donga.com 기자의 다른기사 더보기