“감정표현까지?…동영상에 AI 더빙 넣어볼까”

입력 2022-07-20 09:01:00
카카오톡 공유하기
프린트
공유하기 닫기

KT AI 보이스 스튜디오를 활용해 콘텐츠를 만들고 있는 어린이들(왼쪽)과 네이버 클로바 AI 음성합성 기술로 AI 보이스를 갖게 된 가상인간 로지. 사진제공|KT·네이버

진화하는 AI 음성합성

KT, ‘AI 보이스 스튜디오’ 서비스
100가지 목소리로 5가지 감정표현
다국어 합성·셀럽 음성 제공까지
네이버도 ‘클로바더빙’ 서비스 제공
가상인간 로지·방송 등에 실제 활용
‘인간의 감정을 담은 인공지능(AI) 음성으로 콘텐츠를 만든다.’

AI 음성합성 기술이 진화하고 있다. 음성합성은 컴퓨터로 사람의 목소리를 기계적으로 합성하는 것을 말한다. 국내 정보기술(IT) 기업들은 AI 기술을 더해 음성을 보다 자연스럽게 만들고, 감정까지 더했다. 또 가상인간의 목소리를 만들고, 유명인들의 음성을 제공하는 서비스도 선보였다.


●KT, AI 보이스 스튜디오 출시

KT는 인간의 감정을 담은 AI 음성합성 콘텐츠를 제작할 수 있는 ‘AI 보이스 스튜디오’ 서비스를 출시했다. 100개의 AI 목소리를 활용해 즐거움, 침착함, 중립, 슬픔, 화남의 5가지 감정으로 합성할 수 있는 ‘AI 보이스’와 이 AI 보이스를 활용해 영상 등 오디오 합성 콘텐츠를 제작할 수 있는 ‘스튜디오’로 구성됐다. 특히 AI 보이스 스튜디오엔 국내 최초로 적용된 ‘감정 더빙’ 기술이 탑재돼 있다. 이 기능을 활용하면 AI 보이스를 낭독한 감정 그대로 더빙할 수 있어 더 생생한 AI 음성을 만들 수 있다.

또 AI 보이스 스튜디오가 제공하는 모든 AI 목소리는 한국어, 영어, 중국어, 일본어 4개 국어로 ‘다국어 합성’이 가능해 글로벌 시장을 겨냥한 제작자들에게 유용하다. KT는 유명인들의 음성을 AI로 제공하는 ‘셀럽 AI 보이스’도 준비했다. 첫 번째 셀럽 AI 보이스는 가수 윤도현이다. AI 윤도현 목소리는 오디오북을 제작할 수 있도록 낭독체와 대화체가 담겼으며, 감정 표현도 제공한다.

다만 셀럽의 권리 보호를 위해 홈페이지의 문의하기 기능을 활용해 별도 정책에 따라서 이용할 수 있다. KT는 AI 보이스 스튜디오를 체험할 수 있도록 독서 플랫폼 ‘밀리의서재’와 협업했다. AI 윤도현의 목소리로 인기도서 ‘인간관계가 힘들어서 퇴사했습니다’를 오디오북으로 제작했다.

최준기 KT AI/빅데이터사업본부장은 “KT만의 차별화된 AI 기술로 인간에 가까운 감정을 표현하는 등 AI 목소리의 가치를 향상시켰다”며 “향후 그룹사를 비롯한 다양한 파트너와 협력해 더 혁신적인 AI 보이스 스튜디오 서비스를 출시하겠다”고 말했다.


●네이버, 가상인간 ‘로지’ 목소리 제작

네이버는 AI 보이스로 동영상을 더빙할 수 있는 ‘클로바더빙’을 통해 음성합성 기술을 서비스하고 있다. 클로바더빙에선 다양한 성별, 연령대, 스타일의 105개 보이스를 자유롭게 사용할 수 있다. 영어, 일본어, 중국어, 스페인어 등 외국어도 제공한다. 클로바더빙의 AI 보이스는 채널A의 ‘오은영의 금쪽 상담소’, ‘요즘 육아 금쪽같은 내 새끼’ 등 실제 방송에서도 활용됐다. 네이버는 자신의 목소리로 손쉽게 AI 보이스를 제작할 수 있는 ‘보이스메이커’ 서비스도 오픈했다.

네이버는 이런 음성합성 기술로 싸이더스스튜디오엑스의 가상인간 로지의 목소리도 만들었다. 로지의 AI 보이스는 지난 5월 SBS 파워FM ‘두시탈출 컬투쇼’에서 공개됐는데, 가상 인간이 라디오 방송에 출연한 첫 사례였다. 로지의 AI 보이스는 네이버 클로바에서 자체 개발한 NES 기술을 통해 제작됐다. 약 40분 수준의 짧은 녹음만으로도 분야에 대한 제약 없이 사용할 수 있으면서, 사람에 가까운 자연스러운 목소리를 구현할 수 있는 게 특징이다.

김명근 기자 dionys@donga.com 기자의 다른기사 더보기




오늘의 핫이슈

뉴스스탠드