KR101015522B1

KR101015522B1 - 음질 변환 시스템

Info

Publication number: KR101015522B1
Application number: KR1020087012959A
Authority: KR
Inventors: 쓰요시 마스다
Original assignee: 아사히 가세이 가부시키가이샤
Priority date: 2005-12-02
Filing date: 2006-11-28
Publication date: 2011-02-16
Also published as: EP2017832A4; JP4928465B2; EP2017832A1; CN101351841A; US8099282B2; CN101351841B; US20100198600A1; JPWO2007063827A1; WO2007063827A1; KR20080070725A

Abstract

적은 학습 부담으로 음질 변환을 행하는 것을 가능하게 하는 음질 변환 학습 시스템, 음질 변환 시스템, 음질 변환 클라이언트 서버 시스템, 및 프로그램을 제공한다.

서버(10)의 중간 변환 함수 생성부(101)는 중간 변환 함수 F를 생성하고, 목표 변환 함수 생성부(102)는 목표 변환 함수 G를 생성한다. 휴대 단말기(20)의 중간 음질 변환부(211)는, 변환 함수 F를 사용하여 원화자의 음성으로부터 중간 화자의 음성을 생성하고, 목표 음질 변환부(212)는, 변환 함수 G를 사용하여 중간 음질 변환부(211)에 의해 생성된 중간 화자의 음성을 목표 화자의 음성으로 변환한다.

Description

음질 변환 시스템{VOICE QUALITY CONVERSION SYSTEM}

본 발명은, 원화자(元話者)의 음성을 목표 화자의 음성으로 변환하는 음질 변환 학습 시스템, 음질 변환 시스템, 음질 변환 클라이언트 서버 시스템, 및 프로그램에 관한 것이다.

종래, 어느 화자의 음성을 다른 화자의 음성으로 변환하는 음질 변환 기술이 알려져 있다(예를 들면, 특허 문헌 1, 비특허 문헌 1 참조).

도 22에는, 기본적인 음질 변환 처리의 과정을 나타낸다. 음질 변환 처리의과정은, 학습 과정과 변환 과정으로 구성된다. 학습 과정에서는, 원화자 및 변환 목표가 되는 목표 화자의 음성을 수록하여 학습용 음성 데이터를 축적해 두고, 상기 학습용 음성 데이터에 기초하여 학습을 행함으로써, 원화자의 음성을 목표 화자의 음성으로 변환하기 위한 변환 함수를 생성한다. 변환 과정에서는, 학습 과정에서 생성된 변환 함수를 사용하여, 원화자가 발성한 임의의 음성을 목표 화자의 음성으로 변환한다. 이들 처리는 컴퓨터로 행해진다.

[특허 문헌 1] 일본국 특개 2002-215198호 공보

[비특허 문헌 1] Alexander Kain and Michael W. Macon “SPECTRAL VOICE CONVERSION FOR TEXT-TO-SPEECH SYNTHESIS”

[발명이 해결하려고 하는 과제]

이와 같은 음질 변환 기술에서는, 원화자의 음성을 목표 화자의 음성으로 변환하기 위해서는, 원화자의 음질과 목표 화자의 음질의 조합에 고유의 변환 함수를 생성할 필요가 있다. 따라서, 원화자 및 목표 화자가 복수 존재하고, 원화자의 음성 각각으로부터 목표 화자의 음성 각각으로 변환하기 위한 변환 함수를 생성하고자 하는 경우에는, 원화자와 목표 화자의 조합의 개수만큼 학습을 행할 필요가 있다.

예를 들면, 도 23에 나타낸 바와 같이, 26명의 원화자 A, B, ···, Z와 10명의 목표 화자 1, 2, ···, 10이 존재하고, 원화자의 음성 각각을 목표 화자의 음성 각각으로 변환하기 위한 변환 함수를 작성하는 경우, 원화자 26명과 목표 화자 10명과의 조합의 개수 260(= 26×10)만큼 학습을 행하고 변환 함수를 생성할 필요가 있다. 음질 변환을 실용화하여 음질 변환 서비스를 원화자에게 제공하고자 하는 경우, 원화자 및 목표 화자의 수의 증가에 수반하여 변환 함수의 수가 증가하므로, 컴퓨터가 학습 및 변환 함수 생성을 행하는 부하가 증대한다. 또한, 대량으로 생성한 변환 함수를 축적해 두기 위한 대용량의 기억 장치가 필요하게 된다.

또한, 학습용 음성 데이터로서, 원화자와 목표 화자가 같은 발성 내용의 문장을 약 50문장(이것을 1세트의 음성 내용이라 한다) 수록할 필요가 있다. 만약, 목표 화자 10명으로부터 수록된 음성 세트가 각각 상이한 음성 내용인 경우에는, 1명의 원화자는 10가지의 음성 세트를 수록할 필요가 있다. 1세트의 음성 내용을 수록하는데 30분의 시간을 요한다고 상정한 경우, 1명의 원화자는 학습용 음성 데이터의 수록에 5시간이나 소비하게 된다.

또한, 목표 화자의 음성이 애니메이션의 캐릭터, 유명인의 음성, 타계한 사람 등인 경우에는, 이들 사람들에게 음질 변환에 필요로 하는 음성 세트의 발성을 의뢰하여 음성 수록을 행하는 것은, 비용적으로 현실적이지 않기도 하고 불가능하기도 하다.

본 발명은, 이상의 같은 종래의 문제를 해결하기 위해 이루어진 것이며, 적은 학습 부담으로 음질 변환을 행하는 것을 가능하게 하는 음질 변환 학습 시스템, 음질 변환 시스템, 음질 변환 클라이언트 서버 시스템, 및 프로그램을 제공한다.

[과제를 해결하기 위한 수단]

전술한 과제를 해결하기 위하여, 청구항 1에 기재된 발명은, 원화자의 음성을 목표 화자의 음성으로 변환하는 음질 변환 시스템에 있어서, 원화자의 음성을, 중간 화자의 음성으로의 변환을 통하여, 목표 화자의 음성으로 변환하는 음질 변환 수단을 구비하는 것을 특징으로 하는 음질 변환 시스템을 제공한다.

본 발명에 의하면, 음질 변환 시스템은, 원화자의 음성을, 중간 화자의 음성으로의 변환을 통하여 목표 화자의 음성으로 변환하므로, 원화자와 목표 화자가 복수 존재하는 경우, 원화자의 음성 각각을 중간 화자의 음성으로 변환하기 위한 변환 함수, 및 중간 화자의 음성을 목표 화자의 음성 각각으로 변환하기 위한 변환 함수를 준비해 두면, 원화자의 음성 각각을 목표 화자의 음성 각각으로 변환하는 것이 가능하게 된다. 따라서, 종래와 같이 원화자의 음성 각각을 직접 목표 화자의 음성 각각으로 변환하는 것보다 필요로 하는 변환 함수의 수가 감소하므로, 적은 학습 부담으로 생성된 변환 함수를 사용하여 음질 변환을 행하는 것이 가능하게 된다.

청구항 2에 기재된 발명은, 하나 이상의 원화자 각각의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하기 위한 함수를 학습하는 음질 변환 학습 시스템에 있어서, 상기 원화자의 음성을, 상기 하나 이상의 원화자 각각에 대하여 공통으로 설치된 하나의 중간 화자의 음성으로 변환하기 위한 중간 변환 함수를 학습하고 생성하는 중간 변환 함수 생성 수단과, 상기 중간 화자의 음성을 상기 목표 화자의 음성으로 변환하기 위한 목표 변환 함수를 학습하고 생성하는 목표 변환 함수 생성 수단을 구비한 것을 특징으로 하는 음질 변환 학습 시스템을 제공한다.

본 발명에 의하면, 음질 변환 학습 시스템은, 하나 이상의 원화자 각각의 음성을 하나의 중간 화자의 음성으로 변환하기 위한 중간 변환 함수와, 하나의 중간 화자의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하기 위한 목표 변환 함수를 학습하고 생성하므로, 원화자와 목표 화자가 복수 존재하는 경우, 원화자 각각의 음성을 직접 목표 화자 각각의 음성으로 변환하는 것보다 생성해야 할 변환 함수의 수가 감소하여, 적은 부담으로 음질 변환 학습을 행하는 것이 가능해지고, 적은 학습의 부담으로 생성된 중간 변환 함수 및 목표 변환 함수를 사용하여, 원화자의 음성을 목표 화자의 음성으로 변환하는 것이 가능하게 된다.

청구항 3에 기재된 발명은, 청구항 2에 기재된 음질 변환 학습 시스템에 있어서, 상기 목표 변환 함수 생성 수단은, 상기 원화자의 음성이 상기 중간 변환 함수에 의해 변환된 후의 음성을 상기 목표 화자의 음성으로 변환하기 위한 함수를, 상기 목표 변환 함수로서 생성하는 것을 특징으로 한다.

본 발명에 의하면, 실제 음질 변환을 행할 때는, 원화자의 음성을 중간 변환 함수에 의해 변환하고, 그 변환 후의 음성을 목표 변환 함수로 변환함으로써 목표 화자의 음성을 생성하는 것이 되므로, 수록한 실제의 중간 화자의 음성을 목표 화자의 음성으로 변환하기 위한 함수를 목표 변환 함수로서 생성하는 것보다, 음질 변환 시의 음질의 정밀도가 높아진다.

청구항 4에 기재된 발명은, 청구항 2 또는 청구항 3에 기재된 음질 변환 학습 시스템에 있어서, 상기 중간 화자의 음성은, 임의의 음성 내용을 소정의 음질로 출력하는 음성 합성 장치로부터 출력되는 음성인 것을 특징으로 한다.

본 발명에 의하면, 학습에 사용되는 중간 화자의 음성을 음성 합성 장치로부터 출력되는 음성으로 함으로써, 원화자나 목표 화자의 음성 내용과 같은 음성 내용을 음성 합성 장치로부터 용이하게 출력할 수 있으므로, 학습 시의 원화자나 목표 화자의 발성 내용이 제약되지 않고, 편리성이 높아진다.

청구항 5에 기재된 발명은, 청구항 2 내지 청구항 4 중 어느 한 항에 기재된 음질 변환 학습 시스템에 있어서, 상기 원화자의 음성은, 임의의 음성 내용을 소정의 음질로 출력하는 음성 합성 장치로부터 출력되는 음성인 것을 특징으로 한다.

본 발명에 의하면, 학습에 사용되는 원화자의 음성을 음성 합성 장치로부터 출력되는 음성으로 함으로써, 목표 화자의 음성 내용과 같은 음성 내용을 음성 합성 장치보다 용이하게 출력할 수 있다. 그러므로, 학습 시의 목표 화자의 음성 내용이 제약되지 않고, 편리성이 높아진다. 예를 들면, 목표 화자의 음성으로서 영화에서 수록된 배우의 음성을 사용한 경우, 한정된 음성 내용만 수록되어 있어도 용이하게 학습을 행할 수 있다.

청구항 6에 기재된 발명은, 청구항 2 내지 청구항 5 중 어느 한 항에 기재된 음질 변환 학습 시스템에 있어서, 상기 중간 변환 함수 생성 수단에 의해 생성된 중간 변환 함수와, 상기 목표 변환 함수 생성 수단에 의해 생성된 목표 변환 함수를 합성함으로써, 상기 원화자의 음성을 상기 목표 화자의 음성으로 변환하기 위한 함수를 생성하는 변환 함수 합성 수단을 더 구비한 것을 특징으로 한다.

본 발명에 의하면, 합성한 함수를 사용하는 경우 쪽이, 중간 변환 함수 및 목표 변환 함수를 사용하는 경우보다, 원화자의 음성을 목표 화자의 음성으로 변환하는데 필요한 계산 시간이 단축된다. 또한, 음질 변환 처리 시에 사용되는 메모리 사이즈를 삭감하는 것이 가능하게 된다.

청구항 7에 기재된 발명은, 청구항 2 내지 청구항 6 중 어느 한 항에 기재된 음질 변환 학습 시스템에 의해 생성된 함수를 사용하여, 상기 원화자의 음성을 상기 목표 화자의 음성으로 변환하는 음질 변환 수단을 구비하는 것을 특징으로 하는 음질 변환 시스템을 제공한다.

본 발명에 의하면, 음질 변환 시스템은, 적은 학습의 부담으로 생성된 함수를 사용하여, 하나 이상의 원화자 각각의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하는 것이 가능하게 된다.

청구항 8에 기재된 발명은, 청구항 7에 기재된 음질 변환 시스템에 있어서, 상기 음질 변환 수단으로서, 상기 중간 변환 함수를 사용하여, 상기 원화자의 음성으로부터 상기 중간 화자의 음성을 생성하는 중간 음질 변환 수단과, 상기 목표 변환 함수를 사용하여, 상기 중간 음질 변환 수단에 의해 생성된 상기 중간 화자의 음성으로부터 상기 목표 화자의 음성을 생성하는 목표 음질 변환 수단을 구비한 것을 특징으로 한다.

본 발명에 의하면, 음질 변환 시스템은, 종래보다 적은 수의 변환 함수를 사용하여, 원화자 각각의 음성을 목표 화자 각각의 음성으로 변환하는 것이 가능하게 된다.

청구항 9에 기재된 발명은, 청구항 7에 기재된 음질 변환 시스템에 있어서, 상기 음질 변환 수단은, 상기 중간 변환 함수와 상기 목표 변환 함수가 합성된 함수를 사용하여, 상기 원화자의 음성을 상기 목표 화자의 음성으로 변환하는 것을 특징으로 한다.

본 발명에 의하면, 음질 변환 시스템은, 중간 변환 함수와 목표 변환 함수가 합성된 함수를 사용하여 원화자의 음성을 목표 화자의 음성으로 변환할 수 있다. 그러므로, 중간 변환 함수 및 목표 변환 함수를 사용하는 경우보다, 원화자의 음성을 목표 화자의 음성으로 변환하는데 필요한 계산 시간이 단축된다. 또한, 음질 변환 처리 시에 사용되는 메모리 사이즈를 삭감하는 것이 가능하게 된다.

청구항 10에 기재된 발명은, 청구항 7 내지 청구항 9 중 어느 한 항에 기재된 음질 변환 시스템에 있어서, 상기 음질 변환 수단은, 음성의 특징량인 스펙트럼 계열을 변환하는 것을 특징으로 한다.

본 발명에 의하면, 기존의 음성 인코더로부터 음성 디코더에 송신되는 부호 데이터를 변환함으로써 용이하게 음질 변환을 행할 수 있다.

청구항 11에 기재된 발명은, 클라이언트 컴퓨터와 서버 컴퓨터가 네트워크를 통하여 접속되고, 하나 이상의 사용자 각각의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하는 음질 변환 클라이언트 서버 시스템에 있어서, 상기 클라이언트 컴퓨터는, 상기 사용자의 음성을 취득하는 사용자 음성 취득 수단과; 상기 사용자 음성 취득 수단에 의해 취득한 상기 사용자의 음성을 상기 서버 컴퓨터에 송신하는 사용자 음성 송신 수단과; 상기 사용자의 음성을 상기 하나 이상의 사용자 각각에 공통으로 설치된 하나의 중간 화자의 음성으로 변환하기 위한 중간 변환 함수를 상기 서버 컴퓨터로부터 수신하는 중간 변환 함수 수신 수단과; 상기 중간 화자의 음성을 상기 목표 화자의 음성으로 변환하기 위한 목표 변환 함수를, 상기 서버 컴퓨터로부터 수신하는 목표 변환 함수 수신 수단을 구비하고, 상기 서버 컴퓨터는, 상기 클라이언트 컴퓨터로부터 상기 사용자의 음성을 수신하는 사용자 음성 수신 수단과; 상기 중간 화자의 음성을 미리 기억하는 중간 화자 음성 기억 수단과; 상기 사용자의 음성을 상기 중간 화자의 음성으로 변환하기 위한 중간 변환 함수를 생성하는 중간 변환 함수 생성 수단과; 상기 목표 화자의 음성을 미리 기억하는 목표 화자 음성 기억 수단과; 상기 중간 화자의 음성을 상기 목표 화자의 음성으로 변환하기 위한 목표 변환 함수를 생성하는 목표 변환 함수 생성 수단과; 상기 중간 변환 함수를 상기 클라이언트 컴퓨터에 송신하는 중간 변환 함수 송신 수단과; 상기 목표 변환 함수를 상기 클라이언트 컴퓨터에 송신하는 목표 변환 함수 송신 수단을 구비하고, 또한 상기 클라이언트 컴퓨터는, 상기 중간 변환 함수를 사용하여, 상기 사용자의 음성으로부터 상기 중간 화자의 음성을 생성하는 중간 음질 변환 수단과; 상기 목표 변환 함수를 사용하여, 상기 중간 화자의 음성으로부터 상기 목표 화자의 음성을 생성하는 목표 음질 변환 수단을 구비한 것을 특징으로 하는 음질 변환 클라이언트 서버 시스템을 제공한다.

본 발명에 의하면, 서버 컴퓨터가 사용자용의 중간 변환 함수, 및 목표 변환 함수의 생성을 행하고, 클라이언트 컴퓨터가 서버 컴퓨터로부터 중간 변환 함수 및 목표 변환 함수를 수신함으로써, 클라이언트 컴퓨터는 사용자의 음성을 목표 화자의 음성으로 변환할 수 있다.

청구항 12에 기재된 발명은, 컴퓨터에, 하나 이상의 원화자 각각의 음성을 하나의 중간 화자의 음성으로 변환하기 위한 중간 변환 함수 각각을 생성하는 중간 변환 함수 생성 단계와, 하나의 중간 화자의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하기 위한 목표 변환 함수 각각을 생성하는 목표 변환 함수 생성 단계 중 적어도 한쪽 단계를 실행하도록 하기 위한 프로그램을 제공한다.

본 발명에 의하면, 상기 프로그램을 하나 또는 2개 이상의 컴퓨터에 기억시켜 둠으로써, 음질 변환에 사용하기 위한 중간 변환 함수, 및 목표 변환 함수를 생성할 수 있다.

청구항 13에 기재된 발명은, 컴퓨터에, 원화자의 음성을 중간 화자의 음성으로 변환하기 위한 중간 변환 함수, 및 상기 중간 화자의 음성을 목표 화자의 음성으로 변환하기 위한 목표 변환 함수를 취득하는 변환 함수 취득 단계와; 상기 변환 함수 취득 단계에서 취득된 중간 변환 함수를 사용하여, 상기 원화자의 음성으로부터 상기 중간 화자의 음성을 생성하는 중간 음질 변환 단계와; 상기 변환 함수 취득 단계에서 취득된 목표 변환 함수를 사용하여, 상기 중간 음질 변환 단계에서 생성된 상기 중간 화자의 음성으로부터 상기 목표 화자의 음성을 생성하는 목표 음질 변환 단계를 실행하도록 하기 위한 프로그램을 제공한다.

본 발명에 의하면, 상기 프로그램을 컴퓨터에 기억시켜 둠으로써, 컴퓨터는 원화자의 음성을 중간 화자의 음성으로의 변환을 통하여 목표 화자의 음성으로 변환하는 것이 가능하게 된다.

[발명의 효과]

본 발명에 의하면, 음질 변환 학습 시스템은, 하나 이상의 원화자 각각의 음성을 하나의 중간 화자의 음성으로 변환하기 위한 중간 변환 함수와, 상기 하나의 중간 화자의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하기 위한 목표 변환 함수를 학습하고 생성하므로, 원화자와 목표 화자가 복수 존재하는 경우, 종래와 같이 원화자 각각의 음성을 직접 목표 화자 각각의 음성으로 변환하는 것보다, 생성해야 할 변환 함수의 수가 감소하여, 적은 부담으로 음질 변환 학습을 행하는 것이 가능하게 된다. 음질 변환 시스템은, 음질 변환 학습 시스템에 의해 생성된 함수를 사용하여, 원화자의 음성을 목표 화자의 음성으로 변환하는 것이 가능하게 된다.

도 1은 본 발명의 실시예에 따른 음질 학습·변환 시스템의 구성을 나타낸 도면이다.

도 2는 상기 실시예에 따른 서버의 구성 기능을 나타낸 도면이다.

도 3은 변환 함수 F(x) 및 변환 함수 Gy(i)를 사용하는 대신, 변환 함수 F(x) 및 변환 함수 Gy(i)를 합성함으로써 생성한 변환 함수 Hy(x)를 사용하여, 원화자 x의 음성을 목표 화자 y의 음성으로 변환하는 단계를 나타내기 위한 도면이다.

도 4는 상기 실시예에 따른 w1(f), w2(f), w’(f)의 일례를 나타내기 위한 그래프이다.

도 5는 상기 실시예에 따른 휴대 단말기의 기능 구성을 나타낸 도면이다.

도 6은 상기 실시예에 따른 각 원화자로부터 각 목표 화자로의 음질 변환에 필요한 변환 함수의 수를 설명하기 위한 도면이다.

도 7은 상기 실시예에 따른 서버에서의 변환 함수 Gy(i)의 학습 및 축적 처리의 흐름을 나타내는 흐름도이다.

도 8은 상기 실시예에 따른 휴대 단말기에서의 원화자 x용의 변환 함수 F의 취득 단계를 나타내는 흐름도이다.

도 9는 상기 실시예에 따른 휴대 단말기에서의 음질 변환 처리의 단계를 나타내는 흐름도이다.

도 10은 상기 실시예에 따른 변환 함수 학습 방식이 변환 후 특징량 변환 방 식인 경우의 변환 함수 생성 처리 및 음질 변환 처리의 첫번째 패턴에 대하여 설명하기 위한 흐름도이다.

도 11은 상기 실시예에 따른 변환 함수 학습 방식이 변환 후 특징량 변환 방식인 경우의 변환 함수 생성 처리 및 음질 변환 처리의 2번째 패턴에 대하여 설명하기 위한 흐름도이다.

도 12는 상기 실시예에 따른 변환 함수 학습 방식이 변환 후 특징량 변환 방식인 경우의 변환 함수 생성 처리 및 음질 변환 처리의 3번째 패턴에 대하여 설명하기 위한 흐름도이다.

도 13은 상기 실시예에 따른 변환 함수 학습 방식이 변환 후 특징량 변환 방식인 경우의 변환 함수 생성 처리 및 음질 변환 처리의 4번째 패턴에 대하여 설명하기 위한 흐름도이다.

도 14는 상기 실시예에 따른 변환 함수 학습 방식이 변환 전 특징량 변환 방식인 경우의 변환 함수 생성 처리 및 음질 변환 처리의 첫번째 패턴에 대하여 설명하기 위한 흐름도이다.

도 15는 상기 실시예에 따른 변환 함수 학습 방식이 변환 전 특징량 변환 방식인 경우의 변환 함수 생성 처리 및 음질 변환 처리의 2번째 패턴에 대하여 설명하기 위한 흐름도이다.

도 16은 상기 실시예에 따른 변환 함수 학습 방식이 변환 전 특징량 변환 방식인 경우의 변환 함수 생성 처리 및 음질 변환 처리의 3번째 패턴에 대하여 설명하기 위한 흐름도이다.

도 17은 상기 실시예에 따른 방법과 종래법에서의 켑스트럼 왜곡(cepstrum distortions)을 비교하기 위한 그래프이다.

도 18은 변형예에 따른 휴대 단말기가 중간 변환 함수 생성부를 구비하고 있는 경우의, 휴대 단말기에서의 변환 함수 F의 생성 단계를 나타내는 흐름도이다.

도 19는 변형예에 따른, 송신 측의 휴대 전화기에 입력된 음성의 음질을 변환하여 수신 측의 휴대 전화기로부터 출력하는 경우에, 송신 측의 휴대 전화기로 음질 변환을 행하는 경우의 처리 패턴의 일례를 나타낸 도면이다.

도 20은 변형예에 따른, 송신 측의 휴대 전화기에 입력된 음성의 음질을 변환하여 수신 측의 휴대 전화기로부터 출력하는 경우에, 수신측의 휴대 전화기로 음질 변환을 행하는 경우의 처리 패턴의 일례를 나타낸 도면이다.

도 21은 변형예에 따른, 서버로 음질 변환을 행하는 경우의 처리 패턴의 일례를 나타낸 도면이다.

도 22는 종래의 기본적인 음질 변환 처리의 과정을 나타낸 도면이다.

도 23은 종래의 원화자의 음성을 목표 화자의 음성으로 변환하는데 필요로 하는 변환 함수의 수의 일례를 설명하기 위한 도면이다.

[부호의 설명]

1: 음질 변환 클라이언트 서버 시스템

10: 서버

101: 중간 변환 함수 생성부

102: 목표 변환 함수 생성부

20: 휴대 단말기

21: 음질 변환부

211: 중간 음질 변환부

212: 목표 음질 변환부

이하, 도면을 참조하여, 본 발명에 따른 실시예에 대하여 설명한다.

도 1은, 본 발명의 실시예에 따른 음질 변환 클라이언트 서버 시스템(1)의 구성을 나타낸 도면이다.

도 1에 나타낸 바와 같이, 본 발명의 실시예에 따른 음질 변환 클라이언트 서버 시스템(1)은, 서버(“음질 변환 학습 시스템”에 해당)(10)와, 복수개의 휴대 단말기(“음질 변환 시스템”에 해당)(20)를 포함하여 구성되어 있다. 서버(10)는 휴대 단말기(20)를 소지하는 사용자의 음성을 목표 화자의 음성으로 변환하기 위한 변환 함수를 학습하고 생성한다. 휴대 단말기(20)는, 서버(10)로부터 변환 함수를 취득하고, 상기 변환 함수에 기초하여 사용자의 음성을 목표 화자의 음성으로 변환한다. 여기서, 음성은, 파형 또는 그 파형으로부터 어떠한 방법으로 추출된 파라미터 계열 등을 나타내는 것으로 한다.

(서버의 기능 구성)

다음에, 서버(10)의 구성 기능에 대하여 설명한다. 도 2에 나타낸 바와 같이, 서버(10)는, 중간 변환 함수 생성부(101)와, 목표 변환 함수 생성부(102)를 구비하고 있다. 이들 기능은, 서버(10)에 탑재되어 있는 CPU가 기억 장치에 기억되 어 있는 프로그램에 따라 처리를 실행함으로써 실현된다.

중간 변환 함수 생성부(101)는, 원화자의 음성과 중간 화자의 음성에 기초하여 학습을 행함으로써, 원화자의 음성을 중간 화자의 음성으로 변환하기 위한 변환 함수 F(“중간 변환 함수”에 해당)를 생성한다. 여기서, 원화자의 음성 및 중간 화자의 음성은, 미리 원화자와 중간 화자에게 동일한 약 50문장(1세트의 음성 내용)을 발성시키고 수록해 둔 것을 사용한다. 중간 화자는 1명(소정의 음질)이며, 원화자가 복수 존재하는 경우에는, 복수의 원화자 각각의 음성과 하나의 중간 화자의 음성의 학습을 각각 행한다. 즉, 하나의 중간 화자가 하나 이상의 원화자 각각에 대하여 공통으로 설치되어 있다고 할 수 있다. 학습의 방법으로서는, 예를 들면, 혼합 정규 분포 모델(GMM)에 기초한 특징량 변환법을 이용할 수 있다. 이외에도, 모든 공지의 방법을 이용할 수 있다.

목표 변환 함수 생성부(102)는, 중간 화자의 음성을 목표 화자의 음성으로 변환하기 위한 변환 함수 G(“목표 변환 함수”에 해당)를 생성한다.

여기서, 목표 변환 함수 생성부(102)가 행하는 변환 함수 G의 학습 방식은 2가지 방법이 존재한다. 첫번째 학습 방식은, 수록된 원화자의 음성을 변환 함수 F에 의해 변환한 후의 음성의 특징량과, 수록된 목표 화자의 음성의 특징량과의 대응 관계를 학습하는 방식이다. 이 첫번째 변환 방식을 “변환 후 특징량 변환 방식”이라 한다. 실제의 음질 변환 시에는, 원화자의 음성을 변환 함수 F에 의해 변환하고, 그 변환 후의 음성을 변환 함수 G로 변환함으로써 목표 화자의 음성을 생성하므로, 이 방식에서는 실제의 음질 변환 시의 처리 단계를 고려한 학습을 행 할 수 있다.

2번째 학습 방식은, 실제의 음질 변환 시의 처리 단계는 고려하지 않고, 수록된 중간 화자의 음성의 특징량과, 수록된 목표 화자의 음성의 특징량과의 대응 관계를 학습하는 방식이다. 이 2번째 변환 방식을 “변환 전 특징량 변환 방식”이라 한다.

그리고, 변환 함수 F 및 변환 함수 G의 형식은 수식으로 한정되지 않고, 변환 테이블의 형태로 나타나 있어도 된다.

변환 함수 합성부(103)는, 중간 변환 함수 생성부(101)에 의해 생성된 변환 함수 F와, 목표 변환 함수 생성부(102)에 의해 생성된 변환 함수 G를 합성함으로써, 원화자의 음성을 목표 화자의 음성으로 변환하기 위한 함수를 생성한다.

도 3은, 변환 함수 F(x) 및 변환 함수 Gy(i)를 사용하여 원화자 x의 음성을 목표 화자 y의 음성으로 변환하는(도 3의 (a)) 대신, 변환 함수 F(x) 및 변환 함수 Gy(i)를 합성함으로써 생성한 변환 함수 Hy(x)를 사용하여, 원화자 x의 음성을 목표 화자 y의 음성으로 변환하는(도 3의 (b)) 단계를 나타낸 도면이다. 변환 함수 Hy(x)를 사용하는 경우의 쪽이, 변환 함수 F(x) 및 변환 함수 Gy(i)를 사용하는 경우와 비교하여, 원화자 x의 음성을 목표 화자 y의 음성으로 변환하는데 필요한 계산 시간이 약 1/2이 된다. 또한, 중간 화자의 특징량을 생성하지 않으므로 음질 변환 처리 시에 사용되는 메모리 사이즈를 삭감하는 것이 가능하게 된다.

이하, 변환 함수 F와 변환 함수 G를 합성함으로써, 원화자의 음성을 목표 화자의 음성으로 변환하기 위한 함수를 생성하는 것이 가능한 것을 설명한다. 구체 적인 예로서, 특징량이 스펙트럼 파라미터인 경우에 대하여 나타낸다. 스펙트럼 파라미터에 대한 함수를 1차 함수로 나타낸 경우, f를 주파수라 하면, 변환 전 스펙트럼 s(f)로부터 변환 후 스펙트럼 s’(f)로의 변환은, 다음 식에 의해 나타낸다.

s’(f)=s(w(f))

단, w( )는 주파수의 변환을 나타내는 함수이다. 원화자로부터 중간 화자로의 주파수의 변환을 w1( ), 중간 화자로부터 목표 화자로의 주파수의 변환을 w2( ), 원화자의 스펙트럼을 s(f), 중간 화자의 스펙트럼을 s’(f), 목표 화자의 스펙트럼을 s”(f)라 하면,

s’(f)=s(w1(f))

s”(f)=s’(w2(f))

가 된다. 예를 들면, 도 4에 나타낸 바와 같이,

w1(f)=f/2

w2(f)=2f+5

라 하고, w1(f)와 w2(f)의 합성 함수를 w’(f)라 하면,

w’(f)=2(f/2)+5=f+5

가 된다. 이 결과,

s”(f)=s(w’(f))

로 나타낼 수 있다. 이로부터, 변환 함수 F와 변환 함수 G를 합성함으로써 원화자의 음성을 목표 화자의 음성으로 변환하기 위한 함수의 생성이 가능한 것을 알 수 있다.

(휴대 단말기의 기능 구성)

다음에, 휴대 단말기(20)의 기능 구성에 대하여 설명한다. 휴대 단말기(20)는, 예를 들면, 휴대 전화기가 해당된다. 그리고, 휴대 전화기 이외에도, 마이크로폰이 접속된 퍼스널 컴퓨터일 수도 있다. 도 5에는, 휴대 단말기(20)의 기능 구성을 나타낸다. 그리고, 이 기능 구성은, 휴대 단말기(20)에 탑재되어 있는 CPU가 불휘발성 메모리에 기억되어 있는 프로그램에 따라 처리를 실행함으로써 실현된다. 도 5에 나타낸 바와 같이, 휴대 단말기(20)는 음질 변환부(21)를 구비하고 있다. 음질 변환 방법으로서는, 예를 들면, 음질 변환부(21)는, 스펙트럼 계열을 변환함으로써 음질을 변환한다. 또는, 음질 변환부(21)는, 스펙트럼 계열의 변환과 음원 신호의 양쪽의 변환을 행함으로써 음질 변환을 행한다. 스펙트럼 계열로서는, 켑스트럼 계수 또는 LSP(Line Spectral Pair；선형 스펙트럼쌍) 계수 등을 사용할 수 있다. 스펙트럼 계열뿐만 아니라 음원 신호에 대해서도 음질 변환을 행함으로써, 보다 목표 화자에 가까운 음성을 얻는 것이 가능하다.

음질 변환부(21)는, 중간 음질 변환부(211)와 목표 음질 변환부(212)로 구성된다.

중간 음질 변환부(211)는, 변환 함수 F를 사용하여, 원화자의 음성을 중간 화자의 음성으로 변환한다.

목표 음질 변환부(212)는, 변환 함수 G를 사용하여, 중간 음질 변환부(211)에 의해 변환된 중간 화자의 음성을 목표 화자의 음성으로 변환한다.

그리고, 본 실시예에서는, 변환 함수 F 및 변환 함수 G는 서버(10)로 작성되고, 휴대 단말기(20)에 다운로드된다.

도 6는, 원화자 A, B, ···, Y, Z와, 중간 화자 i와, 목표 화자 1, 2, ···, 9, 10이 존재하는 경우에, 각 원화자로부터 각 목표 화자로의 음질 변환에 필요한 변환 함수의 수를 설명하기 위한 도면이다.

도 6에 나타낸 바와 같이, 원화자 A, B, ···, Y, Z 각각의 음성을 중간 화자 i의 음성으로 변환할 수 있도록 하기 위해서는, 변환 함수 F는, F(A), F(B), ···, F(Y), F(Z)의 26종류가 필요하게 된다. 또한, 중간 화자 i의 음성을 목표 화자 1, 2, ···, 9, 10 각각의 음성으로 변환할 수 있도록 하기 위해서는, 변환 함수 G는 G1(i), G2(i), ···, G9(i), G10(i)의 10종류가 필요하게 된다. 따라서, 합계 26+10=36종류의 변환 함수가 필요하게 된다. 이에 비해, 종래예에서는, 전술한 바와 같이, 260종류의 변환 함수가 필요하게 된다. 이와 같이, 본 실시예에서는, 변환 함수의 수를 대폭 삭감하는 것이 가능하게 된다.

(서버에서의 변환 함수 G의 학습 및 축적 처리)

다음에, 도 7을 참조하여, 서버(10)에서의 변환 함수 Gy(i)의 학습 및 축적 처리를 설명한다.

여기서, 원화자 x 및 중간 화자 i는, 사람 또는 TTS(Text-to-Speech)이며, 서버(10)를 소지하는 벤더(vendor) 측에서 준비된다. TTS는, 임의의 텍스트(문자)를 대응하는 음성으로 변환하고, 상기 음성을 소정의 음질로 출력하는 공지의 장치이다.

도 7의 (a)에는, 변환 후 특징량 변환 방식에 의해 변환 함수 G를 학습하는 경우의 처리 단계를 나타낸다.

도 7의 (a)에 나타낸 바와 같이, 먼저, 중간 변환 함수 생성부(101)는, 원화자 x의 음성과 미리 입수하여 기억 장치에 기억되어 있는 중간 화자 i의 음성(“중간 화자 음성 기억 수단”에 해당)에 기초하여 학습을 행하고, 변환 함수 F(x)를 생성한다. 그리고, 원화자 x의 음성을 변환 함수 F(x)로 변환한 후의 음성 x’를 출력한다(단계 S101).

다음에, 목표 변환 함수 생성부(102)는, 변환 음성 x’와 미리 입수하여 기억 장치에 기억되어 있는 목표 화자 y(“목표 화자 음성 기억 수단”에 해당)의 음성에 기초하여 학습을 행하고, 변환 함수 Gy(i)를 생성하고(단계 S102), 생성된 변환 함수 Gy(i)를 서버(10)가 구비하는 기억 장치에 축적한다(단계 S103).

도 7의 (b)에는, 변환 전 특징량 변환 방식에 의해 변환 함수 G를 학습하는 경우의 처리 단계를 나타낸다.

도 7의 (b)에 나타낸 바와 같이, 목표 변환 함수 생성부(102)는, 중간 화자 i의 음성과 목표 화자 y의 음성에 기초하여 학습을 행하고, 변환 함수 Gy(i)를 생성한다(단계 S201). 그리고, 생성된 변환 함수 Gy(i)를 서버(10)가 구비하는 기억 장치에 축적한다(단계 S202).

종래에는, 서버(10)에서 원화자의 인원수×목표 화자의 인원수 만큼 학습을 행할 필요가 있었지만, 본 실시예에서는, 중간 화자의 인원수 1명×목표 화자의 인원수 만큼 학습을 행하면 되므로, 생성되는 변환 함수 G의 수가 감소한다. 따라 서, 학습을 위한 처리 부하가 저감되고, 또한, 변환 함수 G의 관리가 용이하게 된다.

(휴대 단말기에서의 변환 함수 F의 취득 단계)

다음에, 도 8을 참조하여, 휴대 단말기(20)에서의 원화자 x용의 변환 함수 F(x)의 취득 단계에 대하여 설명한다.

도 8의 (a)에는, 중간 화자 i의 음성으로서 사람의 음성을 사용하는 경우의 단계를 나타낸다.

도 8의 (a)에 나타낸 바와 같이, 먼저, 원화자 x가 휴대 단말기(20)를 향해 발성하면, 휴대 단말기(20)는, 원화자 x의 음성을 마이크로폰으로 수집하고(“사용자 음성 취득 수단”에 해당), 상기 음성을 서버(10)에 송신한다(“사용자 음성 송신 수단”에 해당)(단계 S301). 서버(10)는 원화자 x의 음성을 수신하고(“사용자 음성 수신 수단”에 해당), 중간 변환 함수 생성부(101)는, 원화자 x의 음성과 중간 화자 i의 음성에 기초하여 학습하고, 변환 함수 F(x)를 생성한다(단계 S302). 서버(10)는 생성된 변환 함수 F(x)를 휴대 단말기(20)에 송신한다(“중간 변환 함수 송신 수단”에 해당)(단계 S303).

도 8의 (b)에는, 중간 화자 i의 음성으로서 TTS로부터 출력되는 음성을 사용하는 경우의 처리 단계를 나타낸다.

도 8의 (b)에 나타낸 바와 같이, 먼저, 원화자 x가 휴대 단말기(20)를 향해 발성하면, 휴대 단말기(20)는 원화자 x의 음성을 마이크로폰으로 수집하고, 상기 음성을 서버(10)에 송신한다(단계 S401).

서버(10)에 수신된 원화자 x의 음성의 내용은, 음성 인식 장치 또는 수작업으로 텍스트로 변환되고(단계 S402), 상기 텍스트는 TTS에 입력된다(단계 S403). TTS는 입력된 텍스트에 기초하여 중간 화자 i(TTS)의 음성을 생성하여 출력한다(단계 S404).

중간 변환 함수 생성부(101)는, 원화자 x의 음성과 중간 화자 i의 음성에 기초하여 학습을 행하고, 변환 함수 F(x)를 생성한다(단계 S405). 서버(10)는, 생성된 변환 함수 F(x)를 휴대 단말기(20)에 송신한다(단계 S406).

휴대 단말기(20)는, 수신한 변환 함수 F(x)를 불휘발성 메모리에 기억한다. 변환 함수 F(x)가 휴대 단말기(20)에 기억된 후에는, 도 1에 나타낸 바와 같이, 원화자 x는, 원하는 변환 함수 G를 서버(10)로부터 휴대 단말기(20)에 다운로드하면(“목표 변환 함수 송신 수단”, “목표 변환 함수 수신 수단”에 해당), 원화자 x의 음성을 원하는 목표 화자의 음성으로 변환하는 것이 가능하게 된다. 종래에는, 원화자 x는 각 목표 화자의 음성 세트의 내용에 맞추어 발성을 행하고, 목표 화자마다의 변환 함수를 취득할 필요가 있었지만, 본 실시예에서는, 원화자 x는 1세트 분의 음성을 발성하여 1개의 변환 함수 F(x)를 취득하기만 하면 되고, 원화자 x의 부담이 경감된다.

(음질 변환 처리)

다음에, 도 9를 참조하여, 휴대 단말기(20)가 음질 변환을 행할 때의 처리 단계에 대하여 설명한다. 그리고, 휴대 단말기(20)의 불휘발성 메모리에는, 원화자 A의 음성을 중간 화자의 음성으로 변환하기 위한 변환 함수 F(A)와, 중간 화자 의 음성을 목표 화자 y의 음성으로 변환하기 위한 변환 함수 G가, 서버(10)로부터 다운로드되어 기억되어 있는 것으로 한다.

먼저, 휴대 단말기(20)에 원화자 A의 음성이 입력되면, 중간 음질 변환부(211)는, 변환 함수 F(A)를 사용하여, 원화자 A의 음성을 중간 화자의 음성으로 변환한다(단계 S501). 다음에, 목표 음질 변환부(212)는, 그 중간 화자의 음성을, 변환 함수 Gy(i)를 사용하여 목표 화자 y의 음성으로 변환하고(단계 S502), 목표 화자 y의 음성을 출력한다(단계 S503). 여기서, 출력된 음성은, 예를 들면, 통신 네트워크를 통하여 통신 상대의 휴대 단말기에 송신되고, 상기 휴대 단말기가 구비하는 스피커로부터 출력된다. 또한, 원화자 A가 변환 후의 음성을 확인하기 위하여, 휴대 단말기(20)가 구비하는 스피커로부터 출력되도록 해도 된다.

(변환 함수 생성 처리 및 음질 변환 처리의 각종 처리 패턴)

다음에, 도 10∼도 16을 참조하여, 변환 함수 생성 처리 및 음질 변환 처리의 각종 처리 패턴에 대하여 설명한다.

[1] 변환 후 특징량 변환 방식

먼저, 변환 함수 학습 방식이 변환 후 특징량 변환 방식인 경우에 대하여 설명한다.

(1) 도 10에는, 학습에 사용하기 위하여 수록된 중간 화자의 음성이 1세트(setA)인 경우의 학습 과정 및 변환 과정을 나타낸다.

먼저, 중간 변환 함수 생성부(101)는, 원화자 Src.1의 음성 setA와 중간 화자 In.의 음성 setA에 기초하여 학습을 행하고, 변환 함수 F(Src.1(A))를 생성한 다(단계 S1101).

마찬가지로, 중간 변환 함수 생성부(101)는, 원화자 Src.2의 음성 setA와 중간 화자 In.의 음성 setA에 기초하여 학습을 행하고, 변환 함수 F(Src.2(A))를 생성한다(단계 S1102).

다음에, 목표 변환 함수 생성부(102)는, 원화자 Src.1의 음성 setA를 단계 S1101에서 생성한 변환 함수 F(Src.1(A))로 변환하여, 변환 후 Tr.setA를 생성한다(단계 S1103). 그리고, 목표 변환 함수 생성부(102)는, 변환 후 Tr.setA와 목표 화자 Tag.1의 음성 setA에 기초하여 학습을 행하고, 변환 함수 G1(Tr.(A))를 생성한다(단계 S1104).

마찬가지로, 목표 변환 함수 생성부(102)는, 변환 후 Tr.setA와, 목표 화자 Tag.2의 음성 setA에 기초하여 학습을 행하고, 변환 함수 G2(Tr.(A))를 생성한다(단계 S1105).

변환 과정에서는, 중간 음질 변환부(211)는, 원화자 Src.1의 임의의 음성을, 학습 과정에서 생성한 변환 함수 F(Src.1(A))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1107). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을 변환 함수 G1(Tr.(A)) 또는 변환 함수 G2(Tr.(A))를 사용하여 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1108).

마찬가지로, 중간 음질 변환부(211)는, 원화자 Src.2의 임의의 음성을 변환 함수 F(Src.2(A))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1109). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을 변환 함수 G1(Tr.(A)) 또는 변환 함수 G2(Tr.(A))를 사용하여 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1110).

이상과 같이, 학습 시에 중간 화자의 발성을 setA의 1세트만 사용한 경우에는, 원화자의 발성 내용과 목표 화자의 발성 내용도 같은 setA일 필요가 있지만, 종래와 비교하여, 생성해야 할 변환 함수의 수를 감소시킬 수 있다.

(2) 도 11에는, 중간 화자의 음성이 TTS 또는 사람에 의해 발성된 복수 세트분(setA, setB)의 음성인 경우의 학습 과정 및 변환 과정을 나타낸다.

먼저, 중간 변환 함수 생성부(101)는, 원화자 Src.1의 음성 setA와 중간 화자 In.의 음성 setA에 기초하여 학습을 행하고, 변환 함수 F(Src.1(A))를 생성한다(단계 S1201).

마찬가지로, 중간 변환 함수 생성부(101)는, 원화자 Src.2의 음성 setB와 중간 화자 In.의 음성 setB에 기초하여 학습을 행하고, 변환 함수 F(Src.2(B))를 생성한다(단계 S1202).

다음에, 목표 변환 함수 생성부(102)는, 원화자 Src.1의 음성 setA를 단계 S1201에서 생성한 변환 함수 F(Src.1(A))로 변환하여, 변환 후 Tr.setA를 생성한다(단계 S1203). 그리고, 목표 변환 함수 생성부(102)는, 변환 후 Tr.setA와, 목표 화자 Tag.1의 음성 setA에 기초하여 학습을 행하고, 변환 함수 G1(Tr.(A))를 생성한다(단계 S1204).

마찬가지로, 목표 변환 함수 생성부(102)는, 원화자 Src.2의 음성 setB를 단계 S1202에서 생성하고 변환 함수 F(Src.2(B))로 변환하여, 변환 후 Tr.setB를 생 성한다(단계 S1205). 그리고, 목표 변환 함수 생성부(102)는, 변환 후 Tr.setB와, 목표 화자 Tag.2의 음성 setB에 기초하여 학습을 행하고, 변환 함수 G2(Tr.(B))를 생성한다(단계 S1206).

변환 과정에서는, 중간 음질 변환부(211)는, 원화자 Src.1의 임의의 음성을, 변환 함수 F(Src.1(A))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1207). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을 변환 함수 G1(Tr.(A)) 또는 변환 함수 G2(Tr.(B))를 사용하여 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1208).

마찬가지로, 중간 음질 변환부(211)는, 원화자 Src.2의 임의의 음성을, 변환 함수 F(Src.2(B))를 사용하여, 중간 화자 In.의 음성으로 변환한다(단계 S1209). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을 변환 함수 G1(Tr.(A)) 또는 변환 함수 G2(Tr.(B))를 사용하여 목표 화자 Tag.1 또는 목표 화자 Tag.2로 변환한다(단계 S1210).

이 패턴의 경우에는, 학습 시에, 원화자의 발성 내용과 목표 화자의 발성 내용과는 동일할(setA끼리, setB끼리) 필요가 있다. 한편, 중간 화자를 TTS로 한 경우에는, 중간 화자의 발성 내용은 원화자 및 목표 화자의 음성 내용에 맞추어서 발성시킬 수 있으므로, 원화자와 목표 화자의 발성 내용을 맞추기만 하면 되고, 학습 시의 편리성이 높아진다. 또한, 중간 화자를 TTS로 한 경우에는, 반영구적으로 중간 화자의 음성을 발성시킬 수 있다.

(3) 도 12에는, 학습에 사용되는 원화자의 음성의 일부가 TTS 또는 사람에 의해 발성된 복수 세트분(setA, setB, setC)의 음성이며, 중간 화자의 음성이 1세트분(setA)의 음성인 경우의 학습 과정 및 변환 과정을 나타낸다.

먼저, 중간 변환 함수 생성부(101)는, 원화자의 음성 setA와 중간 화자 In.의 음성 setA에 기초하여, 원화자의 음성을 중간 화자 In.의 음성으로 변환하기 위한 변환 함수 F(TTS(A))를 생성한다(단계 S1301).

다음에, 목표 변환 함수 생성부(102)는, 생성한 변환 함수 F(TTS(A))로 원화자의 음성 setB를 변환하고, 변환 후 Tr.setB를 작성한다(단계 S1302). 다음에, 목표 변환 함수 생성부(102)는, 변환 후 Tr.setB와 목표 화자 Tag.1의 음성 setB에 기초하여 학습을 행하고, 중간 화자 In.의 음성을 목표 화자 Tag.1의 음성으로 변환하기 위한 변환 함수 G1(Tr.(B))를 작성한다(단계 S1303).

마찬가지로, 목표 변환 함수 생성부(102)는, 생성한 변환 함수 F(TTS(A))로 원화자의 음성 setC를 변환하고, 변환 후 Tr.setC를 작성한다(단계 S1304).

다음에, 목표 변환 함수 생성부(102)는, 변환 후 Tr.setC와 목표 화자 Tag.2의 음성 setC에 기초하여 학습을 행하고, 중간 화자 In.의 음성을 목표 화자 Tag.2의 음성으로 변환하기 위한 변환 함수 G2(Tr.(C))를 작성한다(단계 S1305).

또한, 중간 변환 함수 생성부(101)는, 원화자 Src.1의 음성 setA와 중간 화자 In.의 음성 setA에 기초하여 원화자 Src.1의 음성을 중간 화자 In.의 음성으로 변환하기 위한 변환 함수 F(Src.1(A))를 생성한다(단계 S1306).

마찬가지로, 중간 변환 함수 생성부(101)는, 원화자 Src.2의 음성 setA와 중간 화자 In.의 음성 setA에 기초하여 원화자 Src.2의 음성을 중간 화자 In.의 음성으로 변환하기 위한 변환 함수 F(Src.2(A))를 생성한다(단계 S1307).

변환 과정에서는, 중간 음질 변환부(211)는, 원화자 Src.1의 임의의 음성을 변환 함수 F(Src.1(A))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1308). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을, 변환 함수 G1(Tr.(B)) 또는 변환 함수 G2(Tr.(C))를 사용하여, 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1309).

마찬가지로, 중간 음질 변환부(211)는, 원화자 Src.2의 임의의 음성을 변환 함수 F(Src.2(A))를 사용하여, 중간 화자 In.의 음성으로 변환한다(단계 S1310). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을, 변환 함수 G1(Tr.(B)) 또는 변환 함수 G2(Tr.(C))를 사용하여, 목표 화자 Tag.1 또는 목표 화자 Tag.2로 변환한다(단계 S1311).

이상과 같이, 이 패턴의 경우에는, 중간 화자의 음성 내용과 목표 화자의 음성 내용을 비패럴렐 코퍼스(nonparallel corpuses)로 할 수 있다. 또한, 원화자로서 TTS를 사용한 경우에는, 목표 화자의 발성 내용에 맞추어 원화자로서의 TTS의 발성 내용을 유연하게 변화시킬 수 있으므로 변환 함수의 학습을 유연하게 행할 수 있다. 그리고, 중간 화자 In.의 음성 내용은 1세트(setA)뿐이므로, 휴대 단말기(20)를 소지하는 원화자 Src.1 및 Src.2가 음질 변환을 행하기 위한 변환 함수 F를 취득하는 경우에는, 원화자 Src.1 및 Src.2가 발성하는 내용은 중간 화자 In.의 발성 내용과 동일한 setA일 필요가 있다.

(4) 도 13에는, 학습에 사용되는 원화자의 음성의 일부가, TTS 또는 사람에 의해 발성된 복수 세트분(setA, setB)의 음성이며, 중간 화자의 음성이 TTS 또는 사람에 의해 발성된 복수 세트분(setA, setC, setD)의 음성인 경우의 학습 과정 및 변환 과정을 나타낸다.

먼저, 중간 변환 함수 생성부(101)는, 원화자의 음성 setA와 중간 화자의 음성 In.의 음성 setA에 기초하여 학습을 행하고, 원화자의 음성 setA를 중간 화자 In.의 음성 setA로 변환하기 위한 변환 함수 F(TTS(A))를 생성한다(단계 S1401).

다음에, 목표 변환 함수 생성부(102)는, 단계 S1401에서 생성된 변환 함수 F(TTS(A))로 원화자의 음성 setA를 변환함으로써, 변환 후 Tr.setA를 작성한다(단계 S1402).

다음에, 목표 변환 함수 생성부(102)는, 변환 후 Tr.setA와 목표 화자 Tag.1의 음성 setA에 기초하여 학습을 행하고, 중간 화자의 음성을 목표 화자 Tag.1의 음성으로 변환하기 위한 변환 함수 G1(Tr.(A))를 작성한다(단계 S1403).

마찬가지로, 목표 변환 함수 생성부(102)는, 변환 함수 F(TTS(A))로 원화자의 음성 setB를 변환함으로써, 변환 후 Tr.setB를 작성한다(단계 S1404). 다음에, 목표 변환 함수 생성부(102)는, 변환 후 Tr.setB와 목표 화자 Tag.2의 음성 setB에 기초하여 학습을 행하고, 중간 화자의 음성을 목표 화자 Tag.2의 음성으로 변환하기 위한 변환 함수 G2(Tr.(B))를 작성한다(단계 S1405).

또한, 중간 변환 함수 생성부(101)는, 원화자 Src.1의 음성 setC와 중간 화자 In.의 음성 setC에 기초하여 학습을 행하고, 원화자 Src.1의 음성을 중간 화자 In.의 음성으로 변환하기 위한 함수 F(Src.1(C))를 생성한다(단계 S1406).

마찬가지로, 중간 변환 함수 생성부(101)는, 원화자 Src.2의 음성 setD와 중간 화자 In.의 음성 setD에 기초하여 학습을 행하고, 원화자 Src.2의 음성을 중간 화자 In.의 음성으로 변환하기 위한 함수 F(Src.2(D))를 생성한다(단계 S1407).

변환 과정에서는, 중간 음질 변환부(211)는, 원화자 Src.1의 임의의 음성을 변환 함수 F(Src.1(C))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1408). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을 변환 함수 G1(Tr.(A)) 또는 변환 함수 G2(Tr.(B))를 사용하여 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1409).

마찬가지로, 중간 음질 변환부(211)는, 원화자 Src.2의 임의의 음성을 변환 함수 F(Src.2(D))를 사용하여, 중간 화자 In.의 음성으로 변환한다(단계 S1410). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을, 변환 함수 G1(Tr.(A)) 또는 변환 함수 G2(Tr.(B))를 사용하여 목표 화자 Tag.1 또는 목표 화자 Tag.2로 변환한다(단계 S1411).

이 패턴의 경우에는, 학습 시의 원화자와 중간 화자, 및 중간 화자와 목표 화자의 음성 내용을 비패럴렐 코퍼스로 할 수 있다.

또한, 중간 화자가 TTS인 경우에는, TTS로부터 임의의 발성 내용을 출력할 수 있으므로 휴대 단말기(20)를 소지하는 원화자 Src.1 및 Src.2가 음질 변환을 행하기 위한 변환 함수 F를 취득하는 경우에는, 원화자 Src.1 및 Src.2가 발성하는 내용은 결정된 것이 아니어도 된다. 또한, 원화자가 TTS인 경우에는, 목표 화자의 발성 내용이 결정된 것이 아니어도 된다.

[2] 변환 전 특징량 변환 방식

다음에, 변환 함수 학습 방식이 변환 전 특징량 변환 방식인 경우에 대하여 설명한다. 전술한 변환 후 특징량 변환 방식에서는, 실제의 음질 변환 처리의 단계를 고려하여 변환 함수 G를 생성하였다. 이에 비해, 변환 전 특징량 변환 방식에서는, 변환 함수 F와 변환 함수 G를 독립적으로 학습한다. 이 방식에서는, 학습 단계는 감소하지만, 변환 후의 음질의 정밀도가 약간 저하되게 된다.

(1) 도 14에는, 학습용의 중간 화자의 음성이 1세트분(setA)의 음성인 경우의 학습 과정 및 변환 과정을 나타낸다.

먼저, 중간 변환 함수 생성부(101)는, 원화자 Src.1의 음성 setA와 중간 화자 In.의 음성 setA에 기초하여 학습을 행하고, 변환 함수 F(Src.1(A))를 생성한다(단계 S1501). 마찬가지로, 중간 변환 함수 생성부(101)는, 원화자 Src.2의 음성 setA와 중간 화자 In.의 음성 setA에 기초하여 학습을 행하고, 변환 함수 F(Src.2(A))를 생성한다(단계 S1502).

다음에, 목표 변환 함수 생성부(102)는, 중간 화자 In.의 음성 setA와 목표 화자 Tag.1의 음성 setA에 기초하여 학습을 행하고, 변환 함수 G1(In.(A))를 생성한다(단계 S1503). 마찬가지로, 목표 변환 함수 생성부(102)는, 중간 화자 In.의 음성 setA와 목표 화자 Tag.2의 음성 setA에 기초하여 학습을 행하고, 변환 함수 G2(In.(A))를 생성한다(단계 S1504).

변환 과정에서는, 중간 음질 변환부(211)는, 원화자 Src.1의 임의의 음성을 변환 함수 F(Src.1(A))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1505). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을, 변환 함수 G1(In.(A)) 또는 변환 함수 G2(In.(A))를 사용하여, 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1506).

마찬가지로, 중간 음질 변환부(211)는, 원화자 Src.2의 임의의 음성을 변환 함수 F(Src.2(A))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1507). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을, 변환 함수 G1(In.(A)) 또는 변환 함수 G2(In.(A))를 사용하여, 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1508).

이와 같이, 중간 화자의 발성 내용을 setA의 1세트만 수록하여 학습을 행하는 경우에는, 변환 후 특징량 변환 방식과 마찬가지로, 원화자의 발성 내용과 목표 화자의 발성 내용이 동일한 발성 내용의 세트(setA)일 필요가 있지만, 종래와 비교하여, 학습에 의해 생성해야 할 변환 함수의 수가 감소한다.

(2) 도 15에는, 중간 화자의 음성이 TTS 또는 사람에 의해 발성된 복수 세트분(setA, setB, setC, setD)의 음성인 경우의 학습 과정 및 변환 과정을 나타낸다.

먼저, 중간 변환 함수 생성부(101)는, 원화자 Src.1의 음성 setA와 중간 화자 In.의 음성 setA에 기초하여 학습을 행하고, 변환 함수 F(Src.1(A))를 생성한다(단계 S1601). 마찬가지로, 중간 변환 함수 생성부(101)는, 원화자 Src.2의 음성 setB와 중간 화자 In.의 음성 setB에 기초하여 학습을 행하고, 변환 함수 F(Src.2(B))를 생성한다(단계 S1602).

다음에, 목표 변환 함수 생성부(102)는, 중간 화자 In.의 음성 setC와 목표 화자 Tag.1의 음성 setC에 기초하여 학습을 행하고, 변환 함수 G1(In.(C))를 생성한다(단계 S1603). 마찬가지로, 목표 변환 함수 생성부(102)는, 중간 화자 In.의 음성 setD와 목표 화자 Tag.2의 음성 setD에 기초하여 학습을 행하고, 변환 함수 G2(In.(D))를 생성한다(단계 S1604).

변환 과정에서는, 중간 음질 변환부(211)는, 원화자 Src.1의 임의의 음성을 변환 함수 F(Src.1(A))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1605). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을 변환 함수 G1(In.(C)) 또는 변환 함수 G2(In.(D))를 사용하여 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1606).

마찬가지로, 중간 음질 변환부(211)는, 원화자 Src.2의 임의의 음성을 변환 함수 F(Src.2(B))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1607). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을 변환 함수 G1(In.(C)) 또는 변환 함수 G2(In.(D))를 사용하여 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1608).

이상과 같이, 중간 화자를 TTS로 한 경우에는, 반영구적으로 중간 화자에게 소정의 음질의 음성을 발성시킬 수 있다. 또한, 원화자 및 중간 화자의 발성 내용에 관계없이, 원화자 및 중간 화자의 발성 내용에 맞춘 음성 내용을 TTS로부터 출력할 수 있으므로, 학습 시의 원화자 및 중간 화자의 발성 내용이 제약되지 않는다. 그러므로 편리성이 높아지고, 변환 함수를 용이하게 생성할 수 있다. 또한, 원화자와 목표 화자의 발성 내용을 비패럴렐 코퍼스로 할 수 있다.

(3) 도 16에는, 원화자의 음성의 일부가 TTS 또는 사람에 의해 발성된 복수 세트분(여기서는, setC, setD)의 음성이며, 중간 화자의 음성이 TTS 또는 사람에 의해 발성된 복수 세트분(여기서는, setA, setB, setC, setD)의 음성인 경우의 학습 과정 및 변환 과정을 나타낸다.

목표 변환 함수 생성부(102)는, 중간 화자 In.의 음성 setA와 목표 화자 Tag.1의 음성 setA에 기초하여 학습을 행하고, 변환 함수 G1(In.(A))를 생성한다(단계 S1701).

마찬가지로, 목표 변환 함수 생성부(102)는, 중간 화자 In.의 음성 setB와 목표 화자 Tag.2의 음성 setB에 기초하여 학습을 행하고, 변환 함수 G2(In.(B))를 생성한다(단계 S1702).

중간 변환 함수 생성부(101)는, 원화자 Src.1의 음성 setC와 중간 화자 In.의 음성 setC에 기초하여 학습을 행하고, 변환 함수 F(Src.1(C))를 생성한다(단계 S1703).

마찬가지로, 중간 변환 함수 생성부(101)는, 원화자 Src.2의 음성 setD와 중간 화자 In.의 음성 setD에 기초하여 학습을 행하고, 변환 함수 F(Src.2(D))를 생성한다(단계 S1704).

변환 과정에서는, 중간 음질 변환부(211)는, 원화자 Src.1의 임의의 음성을 변환 함수 F(Src.1(C))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1705). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을, 변환 함수 G1(In.(A)) 또는 변환 함수 G2(In.(B))를 사용하여, 목표 화자 Tag.1 또는 목표 화 자 Tag.2의 음성으로 변환한다(단계 S1706).

마찬가지로, 중간 음질 변환부(211)는, 원화자 Src.2의 임의의 음성을 변환 함수 F(Src.2(D))를 사용하여 중간 화자 In.의 음성으로 변환한다(단계 S1707). 다음에, 목표 음질 변환부(212)는, 중간 화자 In.의 음성을, 변환 함수 G1(In.(A)) 또는 변환 함수 G2(In.(B))를 사용하여, 목표 화자 Tag.1 또는 목표 화자 Tag.2의 음성으로 변환한다(단계 S1708).

이 패턴의 경우에는, 중간 화자를 TTS로 한 경우에는, 원화자 및 목표 화자의 발성 내용에 따라 중간 화자의 발성 내용을 변화시킬 수 있고, 유연하게 변환 함수의 학습을 행할 수 있다. 또한, 학습 시의 원화자와 목표 화자의 음성 내용을 비패럴렐 코퍼스로 할 수 있다.

(평가)

다음에, 종래법 및 본원 방법에서의 음질 변환의 정밀도를 객관적으로 평가하기 위해 실시한 실험 수순 및 실험 결과에 대하여 설명한다.

여기서는, 음질 변환의 방법으로서 혼합 정규 분포 모델(GMM)에 따른 특징량 변환법(예를 들면, A. Kain and M. W. Macon, “Spectral voice conversion for text-to-speech synthesis”, Proc. ICASSP, pp. 285-288, Seattle, U.S.A. May, 1998. 참조)을 사용한다.

이하, GMM에 따른 음질 변환 방법에 대하여 설명한다. 시간 영역에서 프레임마다 대응한, 변환원이 되는 화자의 음성의 특징량 x 및 변환처가 되는 화자의 음성의 특징량 y를, 각각

[수 1]

로 나타낸다. 여기서, p는 특징량의 차원 수이며, T는 전치를 나타낸다. GMM에서는, 음성의 특징량 x의 확률 분포 p(x)를

[수 2]

로 나타낸다. 여기서, αi는 클래스 i의 가중치, m은 클래스 수이다. 또한, N(x；μi, Σi)는 클래스 i에서의 평균 벡터 μi 및 공분산 행렬 Σi를 가지는 정규 분포이며,

[수 3]

로 나타낸다. 다음에, 원화자의 음성의 특징량 x로부터 목표 화자의 음성의 특징량 y로 변환을 행하는 변환 함수 F(x)는,

[수 4]

로 나타낸다. 여기서, μi(x) 및 μi(y)는 각각 x 및 y의 클래스 i에서의 평균 벡터를 나타낸다. 또한, Σi(xx)는 x의 클래스 i에서의 모두 공분산 행렬을 나타내고, Σi(yx)는 y와 x에서의 클래스 i에서의 상호 공분산 행렬을 나타낸다. hi(x)는,

[수 5]

이다. 변환 함수 F(x)의 학습은, 변환 파라미터인 αi, μi(x), μi(y), Σi(xx), Σi(yx)를 추정함으로써 행해진다. x 및 y의 결합 특징량 벡터 z를

[수 6]

로 정의한다. z의 확률 분포 p(z)는 GMM에 의해

[수 7]

로 나타낸다. 여기서, z의 클래스 i에서의 공분산 행렬 Σi(z) 및 평균 벡터μi(z)는 각각

[수 8]

로 나타낸다. 변환 파라미터(αi, μi(x), μi(y), Σi(xx), Σi(yx))의 추정은, 공지된 EM 알고리즘에 의해 행할 수 있다.

학습에는 텍스트 등의 언어 정보는 일체 사용하지 않고, 특징량의 추출이나 GMM의 학습은 컴퓨터를 사용하여 모두 자동으로 행한다. 실험에는, 원화자로서 남녀 각 1명(남성 화자 A, 여성 화자 B), 중간 화자 I로서 여성 화자 1명, 목표 화자 T로서 남성 1명을 사용한다.

학습 데이터로서, ATR 음소 밸런스 문장(예를 들면, 아베 마사노부, 사기사카 요시노리, 우메다 테쓰오, 쿠와바라 히사오, “연구용 일본어 음성 데이터 베이스 이용 해설서(연속 음성 데이터 편)”, ATR 테크니컬 리포트, TR-I-0166, 1990. 참조) 중 서브 세트 50문장을 사용하고, 평가 데이터로서 학습 데이터에 포함되지 않은 서브 세트 50문장을 사용한다.

음성에 대해서는, STRAIGHT 분석(예를 들면, H. Kawahara et al. “Restructuring speech representation using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based f0 extraction: possible role of a repetitive structure in sounds”, Speech Communication, Vol.27, No.3-4, pp. 187-207, 1999. 참조)를 행한다. 샘플링 주기는 16kHz, 프레임 시프트는 5ms이다. 음성의 스펙트럼 특징량으로서, STRAIGHT 스펙트럼으로부터 변환된 1차∼41차의 켑스트럼 계수를 사용한다. GMM의 혼합수는 64로 한다. 변환 정밀도의 평가 척도로서 켑스트럼 왜곡(Cepstral Distortion)을 사용한다. 평가는 원화자로부터 변환한 켑스트럼과 목표 화자의 켑스트럼의 왜곡을 계산한다. 켑스트럼 왜곡은 식 (1)에 의해 나타내고, 값이 작을수록 높은 평가가 된다.

[수 9]

여기서, Ci(x)는 목표 화자의 음성의 켑스트럼 계수, Ci(y)는 변환 음성의 켑스트럼 계수, p는 켑스트럼 계수의 차수를 나타낸다. 본 실험에서는, p=41이다.

실험 결과의 그래프를 도 17에 나타낸다. 그래프 세로 축은 켑스트럼 왜곡이며, 해당되는 값은 각 프레임마다 식 (1)에 의해 구해진 켑스트럼 왜곡을, 모든 프레임에서 평균한 값이다.

(a)는 원화자 A 및 B의 켑스트럼과 목표 화자 T의 켑스트럼의 왜곡을 나타낸다. (b)는, 종래법에 해당하며, 원화자 A 및 B와 목표 화자 T로 직접 학습을 행한 경우의 원화자 A 및 B로부터 변환한 켑스트럼과 목표 화자 T의 켑스트럼의 왜곡을 나타낸다. (c) 및 (d)는 본원의 방법을 적용한 것이다. (c)에 대하여 구체적으로 설명하면, 원화자 A로부터 중간 화자 I로의 중간 변환 함수를 F(A), 원화자 A로부터 F(A)를 사용하여 생성된 음성으로부터 목표 화자 T의 음성으로의 목표 변환 함수를 G(A)로 한다. 또한 마찬가지로, 원화자 B로부터 중간 화자 I로의 중간 변환 함수를 F(B), 원화자 B로부터 F(B)를 사용하여 생성된 음성으로부터 목표 화자 T의 음성으로의 목표 변환 함수를 G(B)로 한다. 여기서, 원화자 A로부터 F(A)를 사용하고, 중간 화자 I의 켑스트럼으로 한 번 변환하고, 또한 G(A)를 사용하여 목표 화자 T로 변환한 켑스트럼과 목표 화자 T의 켑스트럼의 왜곡(원화자 A→목표 화자 T)을 나타낸다. 마찬가지로, 원화자 B로부터 F(B)를 사용하고, 중간 화자 I의 켑스트럼으로 한 번 변환하고, 또한 G(B)를 사용하여 목표 화자 T로 변환한 켑스트럼과, 목표 화자 T의 켑스트럼의 왜곡(원화자 B→목표 화자 T)도 나타낸다.

(d)는, (c)에서 본인 이외의 목표 변환 함수 G를 사용한 경우에 대하여 나타낸다. 구체적으로는, 원화자 A로부터 F(A)를 사용하여 중간 화자 I로 변환한 후, G(B)를 사용하여 목표 화자 T로 변환한 켑스트럼과. 목표 화자 T의 켑스트럼과의 왜곡(원화자 A→목표 화자 T)을 나타낸다. 또한 마찬가지로, 원화자 B로부터 F(B)를 사용하여 중간 화자 I로 변환한 후, G(A)를 사용하여 목표 화자 T로 변환한 켑스트럼과 목표 화자 T의 켑스트럼과의 왜곡(원화자 B→목표 화자 T)도 나타낸다.

이들 그래프로부터, 종래법 (b)와 본원 방법 (c)에서 켑스트럼의 왜곡은 거의 같은 값을 취하고 있으므로, 중간 화자를 통한 변환을 행해도 종래법과 같은 정도의 품질을 일정하게 유지할 수 있는 것을 알 수 있다. 또한, 종래법 (b)와 본원 방법 (d)에서 켑스트럼의 왜곡은 거의 같은 값을 취하고 있으므로, 중간 화자를 통 한 변환을 행할 때, 중간 화자로부터 목표 화자로의 목표 변환 함수는, 임의의 원화자에 의해 작성된 목표 화자마다 1종류의 G를 공통으로 사용해도, 종래법과 같은 정도의 품질을 일정하게 유지할 수 있는 것을 알 수 있다.

이상 설명한 바와 같이, 서버(10)는, 하나 이상의 원화자 각각의 음성을 하나의 중간 화자의 음성으로 변환하기 위한 변환 함수 F와, 상기 하나의 중간 화자의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하기 위한 변환 함수 G를 학습하고 생성하므로, 원화자와 목표 화자가 복수 존재하는 경우, 원화자의 음성 각각을 중간 화자의 음성으로 변환하기 위한 변환 함수, 및 중간 화자의 음성을 목표 화자의 음성 각각으로 변환하기 위한 변환 함수를 준비하면, 원화자 각각의 음성을 목표 화자 각각의 음성으로 변환할 수 있다. 즉, 종래와 같이, 원화자의 음성 각각을 목표 화자의 음성 각각으로 변환하기 위한 변환 함수를 준비하는 것보다 적은 변환 함수로 음질 변환을 행하는 것이 가능하게 된다. 따라서, 적은 부담으로 학습을 행하여 변환 함수를 생성하고, 상기 변환 함수를 사용하여 음질 변환을 행하는 것이 가능하게 된다.

또한, 휴대 단말기(20)를 이용하여 자기의 음성의 음질 변환을 행하는 사용자는, 자기의 음성을 중간 화자의 음성으로 변환하기 위한 변환 함수 F를 1개 작성하여 휴대 단말기(20)에 기억시켜 두고, 중간 화자로부터 사용자가 원하는 목표 화자의 음성으로 변환하기 위한 변환 함수 G를 서버(10)로부터 다운로드함으로써, 용이하게 자기의 음성을 목표 화자의 음성으로 변환하는 것이 가능하게 된다.

또한, 목표 변환 함수 생성부(102)는, 원화자의 음성이 변환 함수 F에 의해 변환된 후의 음성을 목표 화자의 음성으로 변환하기 위한 함수를, 목표 변환 함수로서 생성할 수 있다. 그러므로, 실제의 음질 변환 시의 처리에 맞춘 변환 함수를 생성할 수 있고, 중간 화자로부터 직접 수집된 음성을 목표 화자의 음성으로 변환하기 위한 변환 함수를 생성하는 것보다, 실제의 음질 변환시의 음질 정밀도를 향상시킬 수 있다.

또한, 중간 화자의 음성을 TTS로부터 출력되는 음성으로 함으로써, 원화자나 목표 화자가 어떠한 내용의 음성을 발성해도, TTS에 같은 내용의 음성을 발성시킬 수 있다. 그러므로, 학습 시의 원화자나 목표 화자의 발성 내용의 제약이 없어지고, 원화자나 목표 화자로부터 특정한 음성 내용을 수집하기 위한 수고를 줄일 수 있고, 변환 함수의 학습을 용이하게 행할 수 있다.

또한, 변환 후 특징량 변환 방식에서 원화자의 음성을 TTS로 함으로써, 목표 화자의 발성 내용에 맞추어서 원화자로서의 TTS에 임의의 음성 내용을 발성시킬 수 있고, 목표 화자의 발성 내용에 제약되지 않고 용이하게 변환 함수 G를 학습하는 것이 가능하게 된다.

예를 들면, 목표 화자의 음성이 애니메이션의 캐릭터나 영화 배우의 음성이라 하더라도, 과거에 수록된 음원을 사용하여 용이하게 학습을 행할 수 있다.

또한, 변환 함수 F와 변환 함수 G를 합성한 변환 함수를 사용하여 음질 변환을 행함으로써, 음질 변환에 필요한 시간이나 메모리를 감소시킬 수 있다.

(변형예)

(1) 전술한 실시예에서는, 음질 변환 클라이언트 서버 시스템(1)을 구성하는 장치 중, 서버(10)가 중간 변환 함수 생성부(101) 및 목표 변환 함수 생성부(102)를 구비하고, 휴대 단말기(20)가 중간 음질 변환부(211) 및 목표 음질 변환부(212)를 구비하고 있는 것으로 설명하였다. 그러나, 이에 한정되지 않고, 음질 변환 클라이언트 서버 시스템(1)의 장치 구성, 및 음질 변환 클라이언트 서버 시스템(1)을 구성하는 장치에서의 중간 변환 함수 생성부(101), 목표 변환 함수 생성부(102), 중간 음질 변환부(211), 및 목표음질 변환부(212)의 배치는 어떤 배치라도 상관없다.

예를 들면, 1개의 장치가 중간 변환 함수 생성부(101), 목표 변환 함수 생성부(102), 중간 음질 변환부(211), 목표 음질 변환부(212)의 모든 기능을 포함하고 있어도 된다.

또한, 변환 함수 학습 기능 중, 휴대 단말기(20)가 중간 변환 함수 생성부(101)를 구비하고 있고, 서버(10)가 목표 변환 함수 생성부(102)를 구비하고 있어도 된다. 이 경우에는, 휴대 단말기(20)의 불휘발성 메모리에 변환 함수 F를 학습하고 생성하기 위한 프로그램을 기억시켜 둘 필요가 있다.

이하, 도 18을 참조하여, 휴대 단말기(20)가 중간 변환 함수 생성부(101)를 구비하고 있는 경우의, 휴대 단말기(20)에서의 변환 함수 F의 생성 단계에 대하여 설명한다.

도 18의 (a)에는, 원화자 x의 발성 내용이 고정된 경우의 단계를 나타낸다. 원화자 x의 발성 내용이 고정된 경우에는, 미리 해당되는 내용의 중간 화자의 음성을 휴대 단말기(20)의 불휘발성 메모리에 기억시켜 둔다. 그리고, 휴대 단말기(20)가 구비하는 마이크로폰으로 수집된 원화자 x의 음성과 휴대 단말기(20)에 기억시켜 둔 중간 화자 i의 음성에 기초하여 학습하고(단계 S601), 변환 함수 F(x)를 취득한다(단계 S602).

도 18의 (b)에는, 원화자 x의 발성 내용이 자유로운 경우의 처리 단계를 나타낸다. 이 경우에는, 음성을 텍스트로 변환하는 음성 인식 장치와, 텍스트를 음성으로 변환하는 TTS를 휴대 단말기(20)에 탑재해 둔다.

먼저, 음성 인식 장치는, 휴대 단말기(20)가 구비하는 마이크로폰으로 수집된 원화자 x의 음성의 음성 인식을 행하고, 원화자 x의 발성 내용을 텍스트로 변환하고(단계 S701), TTS에 입력한다. TTS는 텍스트로부터 중간 화자 i(TTS)의 음성을 생성한다(단계 S702).

중간 변환 함수 생성부(101)는, 중간 화자 i(TTS)의 음성과 원화자의 음성에 기초하여 학습하고(단계 S703), 변환 함수 F(x)를 취득한다(단계 S704).

(2) 전술한 실시예에서는, 음질 변환부(21)는, 변환 함수 F를 사용하여 원화자의 음성을 중간 화자의 음성으로 변환하는 중간 음질 변환부(211)와, 변환 함수 G를 사용하여 중간 화자의 음성을 목표 화자의 음성으로 변환하는 목표 음질 변환부(212)로 구성되어 있는 것으로 설명하였다. 이것은 일례에 지나지 않고, 음질 변환부(21)는, 변환 함수 F와 변환 함수 G가 합성된 함수를 사용하여, 원화자의 음성을 직접 목표 화자의 음성으로 변환하는 기능을 포함하고 있어도 된다.

(3) 본 발명에 따른 음질 변환 기능을 송신측 및 수신측의 휴대 전화기에 적용함으로써, 송신측의 휴대 전화기에 입력된 음성의 음질을 변환하여, 수신측의 휴 대 전화기로부터 출력하는 것이 가능하게 된다. 이 경우, 송신측 및 수신측의 휴대 전화기에서의 처리 패턴으로서는, 이하의 패턴이 고려된다.

1) 송신측의 휴대 전화기로 LSP(Line Spectral Pair) 계수를 변환한 후(도 19의 (a) 참조), 수신측의 휴대 전화기로 디코딩한다(도 19의 (c) 참조).

2) 송신측의 휴대 전화기로 LSP 계수 및 음원 신호를 변환한 후(도 19의 (b)참조), 수신측의 휴대 전화기로 디코딩한다(도 19의 (c) 참조).

3) 송신측의 휴대 전화기로 인코딩한 후(도 20의 (a) 참조), 수신측의 휴대 전화기로 LSP 계수를 변환한 후 디코딩한다(도 20의 (b) 참조).

4) 송신측의 휴대 전화기로 인코딩한 후(도 20의 (a)참조), 수신측의 휴대 전화기로 LSP 계수 및 음원 신호를 변환한 후, 디코딩한다(도 20의 (c) 참조).

그리고, 상기 (3) 및 상기 (4)와 같이 수신측의 휴대 전화기로 변환을 행하기 위해서는, 정확하게는, 송신자(음성 입력자)의 변환 함수 또는 송신자가 속하는 변환 함수의 클러스터를 결정하는 인덱스 등, 송신자의 변환 함수에 관한 정보가 필요하게 된다.

이상과 같이, 기존의 휴대 전화기에 대하여, LSP 계수 변환, 음원 신호 변환 등을 이용한 음질 변환의 기능을 추가하기만 하면, 시스템이나 인프라의 변경을 수반하지 않고, 휴대 전화기 사이에서 송수신되는 음성의 음질 변환을 행할 수 있다.

또한, 도 21에 나타낸 바와 같이, 서버에서 음질 변환을 행할 수도 있다. 도 21에서는, LSP 계수 및 음원 신호의 양쪽을 변환하고 있지만, LSP 계수만 변환해도 된다.

(4) 전술한 실시예에서는, 음성 합성 장치로서 TTS를 사용하였지만, 입력된 음성 내용을, 소정의 음질로 변환하여 출력하는 장치를 사용해도 된다.

(5) 전술한 실시예에 있어서는, 중간 화자의 음성으로의 변환을 개입시키는 2단계의 음질 변환에 대하여 설명하고 있다. 그러나, 이에 한정되지 않고, 복수의 중간 화자의 음성으로의 변환을 개입시키는 다단계의 음질 변환일 수도 있다.

적은 변환 학습 및 적은 변환 함수로, 많은 사용자의 음성을 다양한 목표 화자의 음성으로 변환하는 것을 가능하게 하는 음질 변환 서비스에 이용할 수 있다.

Claims

하나 이상의 원화자의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하는 음질 변환 시스템에 있어서,

상기 원화자의 음성을, 상기 하나 이상의 원화자 각각에 대하여 공통으로 설치된 하나의 중간 화자의 음성으로의 변환을 통하여, 상기 목표 화자의 음성으로 변환하는 음질 변환 수단을 포함하는, 음질 변환 시스템.
하나 이상의 원화자 각각의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하기 위한 함수를 학습하는 음질 변환 학습 시스템에 있어서,

상기 원화자의 음성을, 상기 하나 이상의 원화자 각각에 대하여 공통으로 설치된 하나의 중간 화자의 음성으로 변환하기 위한 중간 변환 함수를 학습하고 생성하는 중간 변환 함수 생성 수단과,

상기 중간 화자의 음성을 상기 목표 화자의 음성으로 변환하기 위한 목표 변환 함수를 학습하고 생성하는 목표 변환 함수 생성 수단

을 포함하는 음질 변환 학습 시스템.
제2항에 있어서,

상기 목표 변환 함수 생성 수단은,

상기 원화자의 음성이 상기 중간 변환 함수에 의해 변환된 후의 음성을 상기 목표 화자의 음성으로 변환하기 위한 함수를, 상기 목표 변환 함수로서 생성하는, 음질 변환 학습 시스템.
제2항 또는 제3항에 있어서,

상기 중간 화자의 음성은, 임의의 음성 내용을 소정의 음질 로 출력하는 음성 합성 장치로부터 출력되는 음성인, 음질 변환 학습 시스템.
제2항 또는 제3항 중 어느 한 항에 있어서,

상기 원화자의 음성은, 임의의 음성 내용을 소정의 음질로 출력하는 음성 합성 장치로부터 출력되는 음성인, 음질 변환 학습 시스템.
제2항 또는 제3항 중 어느 한 항에 있어서,

상기 중간 변환 함수 생성 수단에 의해 생성된 중간 변환 함수와, 상기 목표 변환 함수 생성 수단에 의해 생성된 목표 변환 함수를 합성함으로써, 상기 원화자의 음성을 상기 목표 화자의 음성으로 변환하기 위한 함수를 생성하는 변환 함수 합성 수단을 더 포함하는, 음질 변환 학습 시스템.
제2항 또는 제3항 중 어느 한 항에 기재된 음질 변환 학습 시스템에 의해 생성된 함수를 사용하여, 상기 원화자의 음성을 상기 목표 화자의 음성으로 변환하는 음질 변환 수단을 포함하는, 음질 변환 시스템.
제7항에 있어서,

상기 음질 변환 수단은,

상기 중간 변환 함수를 사용하여, 상기 원화자의 음성으로부터 상기 중간 화자의 음성을 생성하는 중간 음질 변환 수단과,

상기 목표 변환 함수를 사용하여, 상기 중간 음질 변환 수단에 의해 생성된 상기 중간 화자의 음성으로부터 상기 목표 화자의 음성을 생성하는 목표 음질 변환 수단을 포함하는, 음질 변환 시스템.
제7항에 있어서,

상기 음질 변환 수단은,

상기 중간 변환 함수와 상기 목표 변환 함수가 합성된 함수를 사용하여, 상기 원화자의 음성을 상기 목표 화자의 음성으로 변환하는, 음질 변환 시스템.
제7항에 있어서,

상기 음질 변환 수단은, 음성의 특징량인 스펙트럼 계열을 변환하는, 음질 변환 시스템.
클라이언트 컴퓨터와 서버 컴퓨터가 네트워크를 통하여 접속되고, 하나 이상의 사용자 각각의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하는 음질 변환 클라이언트 서버 시스템에 있어서,

상기 클라이언트 컴퓨터는,

상기 사용자의 음성을 취득하는 사용자 음성 취득 수단과,

상기 사용자 음성 취득 수단에 의해 취득한 상기 사용자의 음성을 상기 서버 컴퓨터에 송신하는 사용자 음성 송신 수단과,

상기 사용자의 음성을 상기 하나 이상의 사용자 각각에 공통으로 설치된 하나의 중간 화자의 음성으로 변환하기 위한 중간 변환 함수를 상기 서버 컴퓨터로부터 수신하는 중간 변환 함수 수신 수단과,

상기 중간 화자의 음성을 상기 목표 화자의 음성으로 변환하기 위한 목표 변환 함수를, 상기 서버 컴퓨터로부터 수신하는 목표 변환 함수 수신 수단

을 포함하고,

상기 서버 컴퓨터는,

상기 클라이언트 컴퓨터로부터 상기 사용자의 음성을 수신하는 사용자 음성 수신 수단과,

상기 중간 화자의 음성을 미리 기억하는 중간 화자 음성 기억 수단과,

상기 사용자의 음성을 상기 중간 화자의 음성으로 변환하기 위한 중간 변환 함수를 생성하는 중간 변환 함수 생성 수단과,

상기 목표 화자의 음성을 미리 기억하는 목표 화자 음성 기억 수단과,

상기 중간 화자의 음성을 상기 목표 화자의 음성으로 변환하기 위한 목표 변환 함수를 생성하는 목표 변환 함수 생성 수단과,

상기 중간 변환 함수를 상기 클라이언트 컴퓨터에 송신하는 중간 변환 함수 송신 수단과,

상기 목표 변환 함수를 상기 클라이언트 컴퓨터에 송신하는 목표 변환 함수 송신 수단

을 포함하고,

또한, 상기 클라이언트 컴퓨터는,

상기 중간 변환 함수를 사용하여, 상기 사용자의 음성으로부터 상기 중간 화자의 음성을 생성하는 중간 음질 변환 수단과,

상기 목표 변환 함수를 사용하여, 상기 중간 화자의 음성으로부터 상기 목표 화자의 음성을 생성하는 목표 음질 변환 수단

을 더 포함하는 음질 변환 클라이언트 서버 시스템.
컴퓨터에,

하나 이상의 원화자 각각의 음성을 하나의 중간 화자의 음성으로 변환하기 위한 중간 변환 함수 각각을 생성하는 중간 변환 함수 생성 단계와,

하나의 중간 화자의 음성을 하나 이상의 목표 화자 각각의 음성으로 변환하기 위한 목표 변환 함수 각각을 생성하는 목표 변환 함수 생성 단계

중 적어도 한쪽 단계를 실행하도록 하기 위한 프로그램이 기록된, 컴퓨터로 재생 가능한 기록 매체.
컴퓨터에,

원화자의 음성을 중간 화자의 음성으로 변환하기 위한 중간 변환 함수, 및 상기 중간 화자의 음성을 목표 화자의 음성으로 변환하기 위한 목표 변환 함수를 취득하는 변환 함수 취득 단계와,

상기 변환 함수 취득 단계에서 취득된 중간 변환 함수를 사용하여, 상기 원화자의 음성으로부터 상기 중간 화자의 음성을 생성하는 중간 음질 변환 단계와,

상기 변환 함수 취득 단계에서 취득된 목표 변환 함수를 사용하여, 상기 중간 음질 변환 단계에서 생성된 상기 중간 화자의 음성으로부터 상기 목표 화자의 음성을 생성하는 목표 음질 변환 단계

를 실행하도록 하기 위한 프로그램이 기록된, 컴퓨터로 재생 가능한 기록 매체.