’워’(whoa)라는 단어를 스펙토그램으로 표시한 것. (Lorenzo Tlacaelel /CC BY 2.0)
인공지능이 사람의 목소리까지 완벽한 수준으로 구현하기에 이르렀다. 구글이 최근 온라인 논문공유집 <아카이브>(arXiv)에 발표한 연구보고서에 따르면, 알파고를 개발한 딥마인드의 문자-음성 변환 시스템 '태코트론2'(Tacotron 2)가 사람과 구분할 수 없을 정도로 자연스런 발성 능력을 확보했다. 이 보고서는 아직 동료검토를 마치지는 않은 상태다. 이 태코트론은 두 개의 신경망으로 구성돼 있다. 첫번째 신경망은 글을 스펙토그램으로 변환한다. 스펙토그램이란 음파를 시간 흐름에 따라 시각적으로 표현한 것을 말한다. 소리의 진폭을 흑색의 농담 차이로 구분해 나타내는데 농담이 짙으면 진폭이 큰 것이고, 엷으면 진폭이 작은 것이다. 이 스펙토그램을 구글 인공지능 연구랩 딥마인드가 만든 음성 합성 소프트웨어 '웨이브넷'에 넣으면 웨이브넷이 이를 분석해 사람 목소리로 읽어낸다. 태코트론2의 평균 발성 점수(MOS)는 4.53점으로, 숙련된 사람의 녹음 목소리 4.58점에 근접한다는 평가를 받았다. 이는 지난해의 4.21점보다 크게 높아진 것으로 사람 목소리와의 간극이 사실상 없어졌다.
영화 <그녀>(Her, 2013)에서 주인공 테오도르가 인공지능 목소리와 대화를 하고 있는 장면.
구글 연구진은 또 태코트론2가 발음하기 어려운 단어들도 능숙하게 처리해내는 모습도 보여준다고 밝혔다. 문장부호를 읽고 그에 맞춰 발음할 줄도 안다. 예컨대 대문자로 쓰인 단어는 더 강조해서 읽는다. 사람들이 어떤 문장에서 중요한 부분이라는 걸 표시하고 싶을 때 이런 방식을 쓴다는 걸 학습해 놓았기 때문이다.
인공지능 목소리와 실제 사람의 목소리가 얼마나 비슷한지는
이곳( https://google.github.io/tacotron/publications/tacotron2/index.html)을 방문해 직접 확인해 볼 수 있다.
이 기술의 장점은 당장 써먹을 수 있다는 점이다. 지난해 처음 공개된 웨이브넷은 현재 인공지능 스피커인 구글 어시스턴트에 적용돼 쓰이고 있다. 이번에 소개된 2.0버전이 어시스턴트에 쓰이면 더욱 자연스러운 음성 서비스가 가능해질 것이다. SF영화 <그녀>(Her, 2013)에서 인공지능 운영체제인 사만다는 매혹적인 목소리로 주인공 테오도르와 대화를 한다. 그 목소리에 빠져 테오도르는 인공지능에 사랑의 감정을 느낀다. 구글의 태코트론2는 이런 영화의 상상력이 실제 현실이 될 수도 있음을 시사한다. 이 시스템의 한계는 아직까지 한 여성의 목소리만 흉내낼 줄 안다는 점이다. 그렇게 훈련받았기 때문이다. 남성이나 다른 여성의 목소리처럼 말하려면 처음부터 다시 훈련을 시켜야 한다.
곽노필 선임기자
nopil@hani.co.kr
▶곽노필의 미래창 바로가기