전기/전자/ IT/게임

네이버, 짧은 녹음만으로 사람에 가까운 목소리 만드는 음성 합성 기술 ‘NES’ 공개

[KJtimes=김봄내 기자]네이버(대표이사 한성숙)가 짧은 녹음만으로 고품질의 합성음을 제작할 수 있는 클로바의 음성 합성 신기술 ‘NES(Natural Endto-end Speech Synthesis)’을 공개하고, 이를 기반으로 보이스 비즈니스 서비스를 제공한다.

 

 

‘NES’40분 수준의 음성 데이터(400문장)로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있는 기술로, 40시간에서 100시간 정도의 음성이 필요했던 기존과 비교하여 쉽고 빠르게 음성 서비스를 개발할 수 있다는 것이 특장점이다. 특정 분야에 대한 제약 없이 사용할 수 있으며, 기본 목소리 외에 기쁨·슬픔 등 감정이 반영된 목소리도 제공한다. 현재 클로바 보이스 홈페이지에서 무료로 ‘NES’ 기술로 제작한 음성합성을 체험해볼 수 있다.

 

 

네이버는 기업 이용자를 대상으로, ‘NES’ 기반의 보이스 비즈니스 서비스인 클로바 프리미엄 보이스(CPV)’도 판매하고 있다. 기업 광고, 고객 응대, 오디오 콘텐츠 등 고품질의 합성음이 필요한 다양한 서비스에 활용할 수 있으며, 네이버 클라우드 플랫폼에서 유료 API 형태로 제공된다.

 

 

네이버 Clova Voice 김재민 책임리더는 “NES 기술을 통해 향후에는 누구나 쉽고 편리하게 나만의 보이스 폰트를 제작할 수 있을 것으로 기대한다면서, “기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 확대해나갈 것이라고 말했다.

 









[스페셜 인터뷰]‘소통 전도사’ 안만호 “공감하고 소통하라”
[KJtimes=견재수 기자]“디지털 기술의 발전으로 인한 사회변화는 타인의 생각을 이해하고 존중하는 능력을 자라지 못하게 방해하고 있다. 공감과 소통이 어려워진 것이다.(공감과 소통의) 의미가 사라지고 충동만 남게 됐다.” 한국청소년퍼실리테이터협회(KFA: Korea Facilitators Association)를 이끌고 있는 안만호 대표는 신종 코로나바이러스감염증(코로나19) 사태 이후 디지털 사회로 급격하게 진행되고 있는 현재 상황에 대해 이 같이 진단했다. 또 이제 공감능력 없이는 생존하기 힘든 시대가 다가오고 있다면서 비대면 사회에 대한 깊은 우려를 나타냈다. 소통 전문가로 통하는 안 대표는 “자신을 바라보고 다른 사람을 이해하며 공감하고 소통하는 방법이 필요한데 스마트폰이나 SNS, 유튜브 등을 통해 간접적으로 경험하게 되면서 어느 순간 사회성은 경험의 산물이 아니라 지식의 산물이 되어 버렸다”며 “요즘 인간의 탈사회화가 진행되는 것에 비례해 인간성의 급격한 하락을 경험하고 있다”고 지적했다. 그러면서도 “코로나 사태는 사회적 거리를 두더라도 우리가 독립적으로 살아가는 개체가 아니라 더불어 살아가는 관계이자 연대라는 점이 더욱 분명하게 밝혀졌다”면