KR20150118974A

KR20150118974A - 음성 처리 장치

Info

Publication number: KR20150118974A
Application number: KR1020157024316A
Authority: KR
Inventors: 류이치 나리야마; 가츠미 이시카와; 슈이치 마츠모토
Original assignee: 야마하 가부시키가이샤
Priority date: 2013-03-15
Filing date: 2014-03-12
Publication date: 2015-10-23
Also published as: CN105051811A; TW201443874A; JP2014178620A; WO2014142200A1

Abstract

기억 장치(12)는, 가창 표현을 나타내는 가창 표현 데이터 DS와 그 가창 표현에 관련된 속성 데이터 DA를 상이한 복수의 가창 표현에 대해서 기억한다. 구간 지정부(34)는, 이용자로부터의 지시에 따라서 선택 음성 신호 X의 각 대상 구간을 지정한다. 표현 선택부(36)는, 각 속성 데이터 DA를 참조함으로써 이용자로부터의 지시(검색 조건)에 따른 가창 표현 데이터 DS를 대상 구간마다 선택한다. 표현 부여부(38)는, 선택 음성 신호 X의 각 대상 구간에 대하여, 그 대상 구간에 대해서 표현 선택부(36)가 선택한 가창 표현 데이터 DS가 나타내는 가창 표현을 부여한다.

Description

음성 처리 장치{VOICE PROCESSING DEVICE}

본 발명은 가창 음성의 가창 표현을 제어하는 기술에 관한 것이다.

가창 음성을 처리하는 각종 기술이 종래부터 제안되고 있다. 예를 들어 특허문헌 1에는, 소편 접속형의 가창 합성에 이용되는 소편 데이터를 수집하는 기술이 개시되어 있다. 특허문헌 1의 기술에서 수집된 소편 데이터를 적절하게 선택해서 서로 접속함으로써 임의의 가사의 가창 음성을 합성하는 것이 가능하다.

일본 특허 공개 제2003-108179호 공보

실제의 가창 음성에는 가창자에게 고유의 가창 표현(노래하는 법)이 부여된다. 그러나, 특허문헌 1의 기술에서는 가창 음성의 각종 가창 표현이 가미되어 있지 않기 때문에, 소편 데이터를 이용해서 합성된 가창 음성이 청감적으로 단조로운 인상이 되기 쉽다는 문제가 있다. 이상의 사정을 고려하여, 본 발명은 다양한 가창 표현의 가창 음성을 생성하는 것을 목적으로 한다.

이상의 과제를 해결하기 위해서, 본 발명의 음성 처리 장치는, 상이한 가창 표현을 나타내는 복수의 가창 표현 데이터로부터 적용 대상의 가창 표현 데이터를 선택하는 표현 선택부와, 표현 선택부가 선택한 가창 표현 데이터가 나타내는 가창 표현을 가창 음성의 특정 구간에 부여하는 표현 부여부를 구비한다.

이상의 양태에서는, 가창 표현 데이터가 나타내는 가창 표현이 가창 음성에 부여되기 때문에, 특허문헌 1의 기술과 비교하여, 다양한 가창 표현의 가창 음성을 생성하는 것이 가능하다. 특히, 가창 표현 데이터가 나타내는 복수의 가창 표현이 가창 음성의 특정 구간에 선택적으로 부여되기 때문에, 다양한 가창 표현의 가창 음성을 생성할 수 있다는 효과는 각별히 현저하다.

표현 선택부는, 상이한 가창 표현을 나타내는 제1 가창 표현 데이터와 제2 가창 표현 데이터를 선택하고, 표현 부여부는, 제1 가창 표현 데이터가 나타내는 가창 표현을 가창 음성의 제1 구간에 부여함과 함께, 제2 가창 표현 데이터가 나타내는 가창 표현을, 가창 음성 중 제1 구간과는 다른 제2 구간에 부여해도 된다.

이상의 형태에서는, 가창 음성의 구간마다 별개의 가창 표현이 부여되기 때문에, 다양한 가창 표현의 가창 음성을 생성할 수 있다는 효과는 각별히 현저하다.

표현 선택부는, 상이한 가창 표현을 나타내는 2 이상의 가창 표현 데이터를 선택하고, 표현 부여부는, 표현 선택부가 선택한 2 이상의 가창 표현 데이터의 각각이 나타내는 가창 표현을, 가창 음성의 특정 구간에 중복해서 부여해도 된다.

이상의 형태에서는, 복수의 가창 표현(전형적으로는 상이한 종류의 가창 표현)이 가창 음성에 중복해서 부여되기 때문에, 다양한 가창 표현의 가창 음성을 생성할 수 있다는 효과는 각별히 현저하다.

가창 표현에 관련된 속성 데이터를 그 가창 표현의 가창 표현 데이터에 대응지어서 기억하는 기억부를 구비하고, 표현 선택부는, 각 가창 표현 데이터의 속성 데이터를 참조하여 기억부로부터 가창 표현 데이터를 선택해도 된다.

이상의 형태에서는, 각 가창 표현 데이터에 속성 데이터가 대응지어지기 때문에, 가창 음성에 부여되는 가창 표현의 가창 표현 데이터를 속성 데이터의 참조에 의해 선택(검색)하는 것이 가능하다.

표현 선택부는, 이용자로부터의 지시에 따라서 가창 표현 데이터를 선택해도 된다.

이상의 형태에서는, 이용자로부터의 지시에 따른 가창 표현 데이터가 선택되기 때문에, 이용자의 의도나 기호를 반영한 다양한 가창 음성을 생성할 수 있다는 이점이 있다.

표현 부여부는, 가창 음성 중 이용자로부터의 지시에 따른 특정 구간에, 표현 선택부가 선택한 가창 표현 데이터가 나타내는 가창 표현을 부여해도 된다.

이상의 형태에서는, 가창 음성 중 이용자로부터의 지시에 따른 구간에 가창 표현이 부여되기 때문에, 이용자의 의도나 기호를 반영한 다양한 가창 음성을 생성할 수 있다는 이점이 있다.

그런데, 가창의 교졸을 평가하는 각종 기술이 종래부터 제안되고 있다. 예를 들어, 가창 음성의 음고나 음량의 천이와 사전에 준비된 기준적(모범적)인 가창 음성의 음고나 음량의 천이를 대비함으로써 가창 음성이 평가된다. 그러나, 실제 가창의 평가는, 음고나 음량의 정확성뿐만 아니라 가창 표현의 교졸에도 의존한다.

이상의 사정을 고려하여, 본 발명의 음성 처리 장치는, 복수의 가창 표현 데이터 중 가창 음성에 유사한 가창 표현의 가창 표현 데이터에 대응하고, 그 가창 표현의 평가를 나타내는 평가값에 따라서 가창 음성을 평가하는 가창 평가부를 구비해도 된다.

이상의 양태에서는, 가창 음성에 유사한 가창 표현의 가창 표현 데이터에 대응한 평가값에 따라서 가창 음성이 평가되기 때문에, 가창 표현의 교졸이라고 하는 관점에서 가창 음성을 적절하게 평가할 수 있다는 이점이 있다.

가창 평가부는, 가창 음성의 복수의 대상 구간의 각각에 대해서 그 대상 구간의 가창 표현에 유사한 가창 표현의 가창 표현 데이터를 선택하고, 그 각 가창 표현 데이터에 대응하는 평가값에 따라서 가창 음성을 평가해도 된다.

이상의 형태에서는, 가창 음성의 복수의 대상 구간의 각각에 대해서 선택된 가창 표현 데이터에 대응한 평가값에 따라서 가창 음성이 평가되기 때문에, 가창 음성의 특정한 대상 구간을 중점적으로 평가할 수 있다는 이점이 있다. 단, 대상 구간을 음성 신호의 전체 구간(악곡 전체)으로 하는 것도 가능하다.

음성 처리 장치는, 가창 표현을 나타내는 가창 표현 데이터와 그 가창 표현의 평가를 나타내는 평가값을 상이한 복수의 가창 표현에 대해서 기억하는 기억부를 구비하고, 가창 평가부는, 상기 복수의 가창 표현 데이터 중 가창 음성에 유사한 가창 표현의 가창 표현 데이터에 대응하여, 상기 기억부에 기억된 평가값에 따라서 상기 가창 음성을 평가해도 된다.

이상의 양태에서는, 가창 음성에 유사한 가창 표현의 가창 표현 데이터에 대응한 평가값에 따라서 가창 음성이 평가되기 때문에, 기억부에 등록된 가창 표현과 유사한지의 여부라고 하는 관점에서 가창 음성을 적절하게 평가할 수 있다는 이점이 있다.

본 발명에 있어서, 상이한 가창 표현을 나타내는 복수의 가창 표현 데이터로부터 적용 대상의 가창 표현 데이터를 선택하고, 상기 선택한 가창 표현 데이터가 나타내는 가창 표현을 가창 음성의 특정 구간에 부여하는 음성 처리 방법이 제공된다.

이상의 각 형태에 관한 음성 처리 장치는, 가창 음성의 처리에 전용되는 DSP(Digital Signal Processor) 등의 하드웨어(전자 회로)에 의해 실현되는 것 외에, CPU(Central Processing Unit) 등의 범용의 연산 처리 장치와 프로그램의 협동에 의해서도 실현된다. 구체적으로는, 본 발명의 제1 형태에 관한 프로그램은, 상이한 가창 표현을 나타내는 복수의 가창 표현 데이터로부터 적용 대상의 가창 표현 데이터를 선택하는 표현 선택 처리와, 표현 선택 처리에서 선택한 가창 표현 데이터가 나타내는 가창 표현을 가창 음성의 특정 구간에 부여하는 표현 부여 처리를 실행한다. 또한, 본 발명의 제2 형태에 관한 프로그램은, 가창 표현을 나타내는 가창 표현 데이터와 그 가창 표현의 평가를 나타내는 평가값을 상이한 복수의 가창 표현에 대해서 기억하는 기억부를 구비하는 컴퓨터에, 복수의 가창 표현 데이터 중 가창 음성에 유사한 가창 표현의 가창 표현 데이터에 대응하는 평가값에 따라서 가창 음성을 평가하는 가창 평가 처리를 실행시킨다.

이상의 각 형태에 관한 프로그램은, 컴퓨터가 판독 가능한 기록 매체에 저장된 형태로 제공되어 컴퓨터에 인스톨될 수 있다. 기록 매체는, 예를 들어 비일과성(non-transitory)의 기록 매체이며, CD-ROM 등의 광학식 기록 매체(광 디스크)가 좋은 예이지만, 반도체 기록 매체나 자기 기록 매체 등의 공지된 임의의 형식의 기록 매체를 포함할 수 있다. 또한, 예를 들어 본 발명의 프로그램은, 통신망을 통한 배신의 형태로 제공되어 컴퓨터에 인스톨될 수 있다.

도 1은 본 발명의 제1 실시 형태에 관한 음성 처리 장치의 블록도이다.
도 2는 표현 등록 처리에 관련된 요소의 기능적인 구성도이다.
도 3은 가창 구분부의 블록도이다.
도 4는 표현 등록 처리의 흐름도이다.
도 5는 표현 부여 처리에 관련된 요소의 기능적인 구성도이다.
도 6은 표현 부여 처리의 흐름도이다.
도 7은 표현 부여 처리의 구체예(비브라토의 부여)의 설명도이다.
도 8은 표현 부여 처리의 설명도이다.
도 9는 표현 부여 처리의 설명도이다.
도 10은 제2 실시 형태의 가창 평가 처리에 관련된 요소의 기능적인 구성도이다.
도 11은 가창 평가 처리의 흐름도이다.
도 12는 변형예에 관한 음성 처리 장치의 블록도이다.

<제1 실시 형태>

도 1은 본 발명의 제1 실시 형태에 관한 음성 처리 장치(100)의 블록도이다. 도 1에 도시한 바와 같이, 음성 처리 장치(100)는 연산 처리 장치(10)와 기억 장치(12)와 수음 장치(14)와 입력 장치(16)와 방음 장치(18)를 구비하는 컴퓨터 시스템에서 실현된다.

연산 처리 장치(10)는, 기억 장치(12)가 기억하는 프로그램을 실행함으로써 음성 처리 장치(100)의 각 요소를 통괄적으로 제어한다. 기억 장치(12)는, 연산 처리 장치(10)가 실행하는 프로그램이나 연산 처리 장치(10)가 사용하는 각종 데이터를 기억한다. 반도체 기록 매체나 자기 기록 매체 등의 공지된 기록 매체 또는 복수종의 기록 매체의 조합이 기억 장치(12)로서 임의로 채용된다. 또한, 음성 처리 장치(100)와는 별체의 외부 장치(예를 들어 외부 서버 장치)에 기억 장치(12)를 설치하고, 음성 처리 장치(100)가 인터넷 등의 통신망을 통해서 기억 장치(12)에 대한 정보의 기입이나 판독을 실행하는 구성도 채용될 수 있다. 즉, 기억 장치(12)는 음성 처리 장치(100)의 필수적인 요소가 아니다.

제1 실시 형태의 기억 장치(12)는, 상이한 가창 음성(예를 들어 별개의 가창자의 가창 음성)의 시간 파형을 나타내는 복수의 음성 신호 X를 기억한다. 복수의 음성 신호 X의 각각은, 악곡(가창곡)를 가창한 가창 음성을 수록함으로써 사전에 준비된다. 또한, 기억 장치(12)는, 상이한 가창 표현을 나타내는 복수의 가창 표현 데이터 DS와, 각 가창 표현 데이터 DS가 나타내는 가창 표현에 관련된 복수의 속성 데이터 DA를 기억한다. 가창 표현은, 가창의 특징(가창자에게 특유의 노래하는 법이나 가창법 등)이다. 상이한 가창자가 발음한 가창 음성으로부터 추출되는 복수종의 가창 표현에 대해서 기억 장치(12)에 가창 표현 데이터 DS가 기억되고, 복수의 가창 표현 데이터 DS의 각각에 속성 데이터 DA가 대응지어진다.

가창 표현 데이터 DS는, 예를 들어 음고 또는 음량(분포 범위), 주파수 스펙트럼(예를 들어 특정 대역 내의 스펙트럼)의 특징량, 특정한 차수의 포먼트의 주파수나 강도, 성질에 관련된 특징량(예를 들어 배음 성분과 원음 성분의 강도비나 주파 성분과 비주파 성분의 강도비) 또는 MFCC(Mel-Frequency Cepstrum Coefficients) 등, 가창 음성의 음악적인 표정에 관한 각종 특징량을 지정한다. 또한, 이상에 예시한 가창 표현은 비교적 단시간의 가창 음성의 경향이지만, 음고 또는 음량의 시간적인 변화의 경향이나, 각종 가창 기법(예를 들어 비브라토, 폴, 롱톤)의 경향 등의 장시간에 걸친 가창 음성의 경향을 가창 표현 데이터 DS가 지정하는 구성도 적합하다.

각 가창 표현의 속성 데이터 DA는, 가창 음성의 가창자나 악곡에 관련된 정보(메타데이터)로, 가창 표현 데이터 DS의 검색에 이용된다. 구체적으로는, 각 가창 표현으로 가창한 가창자의 정보(예를 들어 성명, 연령, 출신지, 연령, 성별, 인종, 모국어, 음역)나, 각 가창 표현으로 가창된 악곡의 정보(예를 들어 악곡명, 작곡자, 작사자, 장르, 템포, 키, 코드, 음역, 언어)를 속성 데이터 DA는 지정한다. 가창 음성의 인상이나 분위기를 표현하는 말(예를 들어 「리드미컬」이나 「달콤하다」와 같은 한 말)을 속성 데이터 DA가 지정하는 것도 가능하다. 또한, 제1 실시 형태의 속성 데이터 DA는, 각 가창 표현으로 가창된 가창 음성의 평가 결과에 따른 평가값(상기 가창 표현 데이터 DS의 가창 표현의 교졸의 평가 지표) Q를 포함한다. 예를 들어, 공지된 가창 평가 처리에서 산정된 평가값 Q나 가창자 이외의 각 이용자에 의한 평가를 반영한 평가값 Q가 속성 데이터 DA에 포함된다. 또한, 속성 데이터 DA가 지정하는 사항은 이상의 예시에 한정되지 않는다. 예를 들어, 악곡을 구분한 음악 구조 상의 각 구간(예를 들어 A 멜로디, 하이라이트, B 멜로디 등의 각 프레이즈) 중 어느 것에서 가창 표현이 가창된 것인지를 속성 데이터 DA가 지정하는 것도 가능하다.

도 1의 수음 장치(14)는, 주위의 음향을 수음하는 장치(마이크로폰)이다. 제1 실시 형태의 수음 장치(14)는, 가창자가 악곡(가창곡)을 가창한 가창 음성을 수음함으로써 음성 신호 R을 생성한다. 음성 신호 R을 아날로그에서 디지털로 변환하는 A/D 변환기의 도시는 편의적으로 생략하였다. 또한, 음성 신호 R을 기억 장치(12)에 기억한 구성(따라서 수음 장치(14)는 생략될 수 있음)도 적합하다.

입력 장치(16)는, 음성 처리 장치(100)에 대한 이용자로부터의 지시를 접수하는 조작 기기이며, 예를 들어 이용자가 조작 가능한 복수의 조작자를 포함하여 구성된다. 예를 들어 음성 처리 장치(100)의 하우징에 설치된 조작 패널이나 음성 처리 장치(100)와는 별체의 리모콘 장치가 입력 장치(16)로서 채용된다.

연산 처리 장치(10)는, 기억 장치(12)에 기억된 프로그램의 실행으로 각종 제어 처리 및 연산 처리를 실행한다. 구체적으로는, 연산 처리 장치(10)는, 수음 장치(14)로부터 공급되는 음성 신호 R의 해석으로 가창 표현 데이터 DS를 추출해서 기억 장치(12)에 저장하는 처리(이하 「표현 등록 처리」라고 함)와, 표현 등록 처리에서 기억 장치(12)에 기억된 각 가창 표현 데이터 DS가 나타내는 가창 표현을 기억 장치(12) 내의 음성 신호 X에 부여함으로써 음성 신호 Y를 생성하는 처리(이하 「표현 부여 처리」라고 함)를 실행한다. 즉, 음성 신호 Y는, 음성 신호 X의 발음 내용(가사)을 유지한 채, 음성 신호 X의 가창 표현을 가창 표현 데이터 DS의 가창 표현에 합치 또는 유사시킨 음향 신호이다. 예를 들어 입력 장치(16)에 대한 이용자로부터의 지시에 따라서 표현 등록 처리 및 표현 부여 처리의 한쪽이 선택적으로 실행된다. 도 1의 방음 장치(18)(예를 들어 스피커나 헤드폰)는 연산 처리 장치(10)가 표현 부여 처리에서 생성한 음성 신호 Y에 따른 음향을 재생한다. 또한, 음성 신호 Y를 디지털에서 아날로그로 변환하는 D/A 변환기나 음성 신호 Y를 증폭하는 증폭기의 도시는 편의적으로 생략하였다.

<표현 등록 처리>

도 2는 음성 처리 장치(100) 중 표현 등록 처리에 관련된 요소의 기능적인 구성도이다. 연산 처리 장치(10)는, 기억 장치(12)에 기억된 프로그램(표현 등록 프로그램)을 실행함으로써, 도 2에 도시한 바와 같이, 표현 등록 처리를 실현하기 위한 복수의 요소(해석 처리부(20), 가창 구분부(22), 가창 평가부(24), 가창 해석부(26), 속성 취득부(28))로서 기능한다. 또한, 도 2의 각 기능을 복수의 집적 회로로 분산한 구성이나, 도 2에 예시된 기능의 일부를 전용 전자 회로(예를 들어 DSP)가 실현하는 구성도 채용될 수 있다.

도 2의 해석 처리부(20)는, 수음 장치(14)로부터 공급되는 음성 신호 R을 해석한다. 도 3에 예시되는 바와 같이, 제1 실시 형태의 해석 처리부(20)는, 악곡 구조 해석부(20A)와 가창 기법 해석부(20B)와 성질 해석부(20C)를 포함하여 구성된다. 악곡 구조 해석부(20A)는, 음성 신호 R에 대응하는 악곡의 음악 구조 상의 구간(예를 들어 A 멜로디, 하이라이트, B 멜로디 등의 각 프레이즈)을 해석한다. 가창 기법 해석부(20B)는, 비브라토(음고를 미세하게 변동시키는 가창 기법)나 꺾기(목표의 음고를 하회하는 음고에서 목표의 음고로 변화시키는 가창 기법)나 폴(목표의 음고를 상회하는 음고에서 목표의 음고로 변화시키는 가창 기법) 등의 각종 가창 기법을 음성 신호 R로부터 검출한다. 성질 해석부(20C)는, 가창 음성의 성질(예를 들어 배음 성분과 원음 성분의 강도비나 주파 성분과 비주파 성분의 강도비)을 해석한다.

도 2의 가창 구분부(22)는, 수음 장치(14)로부터 공급되는 음성 신호 R에 대해서 가창 표현 데이터 DS의 생성에 적용되는 각 구간(이하 「단위 구간」이라고 함)을 획정한다. 제1 실시 형태의 가창 구분부(22)는, 악곡 구조와 가창 기법과 성질에 따라서 음성 신호 R의 각 단위 구간을 획정한다. 구체적으로는, 가창 구분부(22)는, 악곡 구조 해석부(20A)가 해석한 악곡의 음악 구조 상의 각 구간의 끝점과, 가창 기법 해석부(20B)가 각종 가창 기법을 검출한 각 구간의 끝점과, 성질 해석부(20C)가 해석한 성질이 변동하는 시점을 경계로 해서 음성 신호 R을 각 단위 구간으로 구분한다. 또한, 음성 신호 R을 복수의 단위 구간으로 구분하는 방법은 이상의 예시에 한정되지 않는다. 예를 들어, 입력 장치(16)에 대한 조작으로 이용자가 지정한 구간을 단위 구간으로 해서 음성 신호 R을 구분하는 것도 가능하다. 또한, 시간축 상에 랜덤하게 설정된 시점에서 음성 신호 R을 복수의 단위 구간으로 구분하는 구성이나, 가창 평가부(24)가 산정한 평가값 Q에 따라서 음성 신호 R을 복수의 단위 구간으로 구분하는 구성(예를 들어 평가값 Q가 변동하는 시점을 경계로 해서 각 단위 구간을 획정하는 구성)도 채용될 수 있다. 또한, 음성 신호 R의 전체 구간(악곡 전체)을 단위 구간으로 하는 것도 가능하다.

가창 평가부(24)는, 수음 장치(14)로부터 공급되는 음성 신호 R이 나타내는 가창의 교졸을 평가한다. 구체적으로는, 가창 평가부(24)는, 음성 신호 R의 가창의 교졸을 평가한 평가값 Q를, 가창 구분부(22)가 획정한 단위 구간마다 순차적으로 산정한다. 가창 평가부(24)에 의한 평가값 Q의 산정에는, 공지된 가창 평가 처리가 임의로 채용된다. 또한, 전술한 가창 기법 해석부(20B)가 해석한 가창 기법이나 성질 해석부(20C)가 해석한 성질을 가창 평가부(24)에 의한 가창의 평가에 적용하는 것도 가능하다.

도 2의 가창 해석부(26)는, 음성 신호 R을 해석함으로써 단위 구간마다 가창 표현 데이터 DS를 생성한다. 구체적으로는, 가창 해석부(26)는, 음고나 음량 등의 음향적인 특징량(가창 표현에 영향을 미치는 특징량)을 음성 신호 R로부터 추출하고, 각 특징량의 단기적 또는 장기적인 경향(즉 가창 표현)을 나타내는 가창 표현 데이터 DS를 생성한다. 가창 표현의 추출에는 공지된 음향 해석 기술(예를 들어 일본 특허 공개 제2011-013454호 공보나 일본 특허 공개 제2011-028230호 공보에 개시된 기술)이 임의로 채용된다. 상이한 종류의 가창 표현에 대응하는 복수의 가창 표현 데이터 DS를 1개의 단위 구간으로부터 생성하는 것도 가능하다. 또한, 이상의 예시에서는 단위 구간마다 1개의 가창 표현 데이터 DS를 생성했지만, 상이한 단위 구간의 복수의 특징량으로부터 1개의 가창 표현 데이터 DS를 생성하는 것도 가능하다. 예를 들어, 속성 데이터 DA가 근사 또는 합치하는 복수의 단위 구간의 특징량을 평균함으로써 가창 표현 데이터 DS를 생성하는 구성이나, 가창 평가부(24)에 의한 각 단위 구간의 평가값 Q에 따른 가중치를 적용해서 복수의 단위 구간에 걸친 특징량을 가중 가산함으로써 가창 표현 데이터 DS를 생성하는 구성이 채용된다.

속성 취득부(28)는 가창 구분부(22)가 획정한 각 단위 구간에 대해서 속성 데이터 DA를 생성한다. 구체적으로는, 속성 취득부(28)는 이용자가 입력 장치(16)의 조작으로 지시한 각종 정보를 속성 데이터 DA에 등록한다. 또한, 속성 취득부(28)는, 가창 평가부(24)가 각 단위 구간에 대해서 산정한 평가값 Q(예를 들어 단위 구간 내의 평가값의 평균)를 그 단위 구간의 속성 데이터 DA에 포함시킨다.

가창 해석부(26)가 단위 구간마다 생성한 가창 표현 데이터 DS와 속성 취득부(28)가 단위 구간마다 생성한 속성 데이터 DA가, 단위 구간이 공통되는 것끼리 서로 대응지어진 후에 기억 장치(12)에 저장된다. 이상으로 예시한 표현 등록 처리가, 상이한 복수의 가창 음성의 음성 신호 R에 대해서 반복됨으로써, 복수의 가창자의 각각이 발성한 가창 음성으로부터 추출된 복수종의 가창 표현의 각각에 대해서, 가창 표현 데이터 DS와 속성 데이터 DA가 기억 장치(12)에 축적된다. 즉, 다종다양한 가창 표현(가창자가 다른 가창 표현이나 종류가 다른 가창 표현)의 데이터베이스가 기억 장치(12)에 구축된다. 또한, 복수의 가창 표현 데이터 DS를 통합해서 1개의 가창 표현 데이터 DS를 생성하는 것도 가능하다. 예를 들어, 속성 데이터 DA가 근사 또는 합치하는 복수의 가창 표현 데이터 DS를 평균함으로써 신규의 가창 표현 데이터 DS를 생성하는 구성이나, 가창 평가부(24)에 의한 평가값 Q에 따른 가중치를 적용해서 복수의 가창 표현 데이터 DS를 가중 가산함으로써 신규의 가창 표현 데이터 DS를 생성하는 구성이 채용된다.

도 4는 표현 등록 처리의 흐름도이다. 도 4에 도시한 바와 같이, 입력 장치(16)의 조작으로 이용자가 표현 등록 처리의 실행을 지시하면(SA1), 해석 처리부(20)는, 수음 장치(14)로부터 공급되는 음성 신호 R을 해석한다(SA2). 가창 구분부(22)는, 해석 처리부(20)에 의한 해석 결과에 따라서 음성 신호 R을 각 단위 구간으로 구분하고(SA3), 가창 해석부(26)는, 음성 신호 R을 해석함으로써 단위 구간마다 가창 표현 데이터 DS를 생성한다(SA4). 또한, 가창 평가부(24)는, 음성 신호 R이 나타내는 가창의 교졸에 따른 평가값 Q를 단위 구간마다 산정하고(SA5), 속성 취득부(28)는, 가창 평가부(24)가 단위 구간마다 산정한 평가값 Q를 포함하는 속성 데이터 DA를 단위 구간마다 생성한다(SA6). 가창 해석부(26)가 생성한 가창 표현 데이터 DS와 속성 취득부(28)가 생성한 속성 데이터 DA가 단위 구간마다 기억 장치(12)에 저장된다(SA7). 이상으로 설명한 표현 등록 처리에서 기억 장치(12)에 축적된 가창 표현 데이터 DS에서 지정되는 가창 표현이, 이하에 설명하는 표현 부여 처리에서 음성 신호 X에 부여된다.

<표현 부여 처리>

도 5는 음성 처리 장치(100) 중 표현 부여 처리에 관련된 요소의 기능적인 구성도이다. 연산 처리 장치(10)는, 기억 장치(12)에 기억된 프로그램(표현 부여 프로그램)을 실행함으로써, 도 5에 도시한 바와 같이, 표현 부여 처리를 실현하기 위한 복수의 기능(가창 선택부(32), 구간 지정부(34), 표현 선택부(36), 표현 부여부(38))으로서 기능한다. 또한, 도 5의 각 기능을 복수의 집적 회로로 분산한 구성이나, 도 5에 예시된 기능의 일부를 전용 전자 회로(예를 들어 DSP)가 실행하는 구성도 채용될 수 있다.

가창 선택부(32)는, 기억 장치(12)에 기억된 복수의 음성 신호 X 중 어느 하나(이하 「선택 음성 신호 X」라고 함)를 선택한다. 예를 들어 가창 선택부(32)는, 입력 장치(16)에 대한 이용자로부터의 지시(음성 신호 X의 선택 지시)에 따라서 기억 장치(12)의 복수의 음성 신호 X로부터 선택 음성 신호 X를 선택한다.

구간 지정부(34)는, 가창 선택부(32)가 선택한 선택 음성 신호 X 중 가창 표현 데이터 DS의 가창 표현을 부여해야 할 1개 이상의 구간(이하 「대상 구간」이라고 함)을 지정한다. 구체적으로는, 구간 지정부(34)는, 입력 장치(16)에 대한 이용자로부터의 지시에 따라서 각 대상 구간을 지정한다. 예를 들어, 입력 장치(16)의 조작으로 이용자가 시간축 상(예를 들어 선택 음성 신호 X의 파형 상)에 지정한 2점간의 구간을 구간 지정부(34)는 대상 구간으로서 획정한다. 구간 지정부(34)가 지정하는 복수의 대상 구간은 시간축 상에서 서로 중복할 수 있다. 또한, 선택 음성 신호 X의 전체 구간(악곡 전체)을 대상 구간으로서 지정하는 것도 가능하다.

도 5의 표현 선택부(36)는, 기억 장치(12)에 기억된 복수의 가창 표현 데이터 DS 중 표현 부여 처리에 실제로 적용되는 가창 표현 데이터 DS(이하 「대상 표현 데이터 DS」라고 함)를, 구간 지정부(34)가 지정한 대상 구간마다 순차적으로 선택한다. 제1 실시 형태의 표현 선택부(36)는, 각 가창 표현 데이터 DS에 대응지어서 기억 장치(12)에 기억된 속성 데이터 DA를 이용한 검색 처리에서 복수의 가창 표현 데이터 DS로부터 대상 표현 데이터 DS를 선택한다.

예를 들어 이용자는, 입력 장치(16)를 적절하게 조작함으로써 대상 표현 데이터 DS의 검색 조건(예를 들어 검색어)을 대상 구간마다로 지정하는 것이 가능하다. 표현 선택부(36)는, 기억 장치(12)의 복수의 가창 표현 데이터 DS 중 이용자가 지정한 검색 조건에 합치하는 속성 데이터 DA에 대응한 가창 표현 데이터 DS를 대상 표현 데이터 DS로서 대상 구간마다 선택한다. 예를 들어, 이용자가 가창자의 검색 조건(예를 들어 연령이나 성별)을 지정하면, 검색 조건에 합치하는 가창자의 속성 데이터 DA에 대응한 대상 표현 데이터 DS(즉 검색 조건에 합치하는 가창자의 가창 표현)가 검색된다. 또한, 이용자가 악곡의 검색 조건(예를 들어 악곡의 장르나 음역)을 지정하면, 검색 조건에 합치하는 악곡의 속성 데이터 DA에 대응한 대상 표현 데이터 DS(즉 검색 조건에 합치하는 악곡의 가창 표현)가 검색된다. 또한, 이용자가 가창 음성의 평가값 Q의 검색 조건(예를 들어 수치 범위)을 지정하면, 검색 조건에 합치하는 평가값 Q의 속성 데이터 DA에 대응한 대상 표현 데이터 DS(즉 이용자가 의도한 수준의 가창자의 가창 표현)가 검색된다. 이상의 설명으로부터 이해되는 바와 같이, 제1 실시 형태의 표현 선택부(36)는, 이용자로부터의 지시에 따라서 가창 표현 데이터 DS(대상 표현 데이터 DS)를 선택하는 요소로서 표현된다.

도 5의 표현 부여부(38)는, 가창 선택부(32)가 선택한 선택 음성 신호 X에 대하여 대상 표현 데이터 DS의 가창 표현을 부여함으로써 음성 신호 Y를 생성한다. 구체적으로는, 표현 부여부(38)는, 선택 음성 신호 X 중 구간 지정부(34)가 지정한 복수의 대상 구간의 각각에 대하여 표현 선택부(36)가 그 대상 구간에 대해서 선택한 대상 표현 데이터 DS의 가창 표현을 부여한다. 즉, 선택 음성 신호 X 중 이용자로부터의 지시에 따른 각 대상 구간에 대하여 이용자로부터의 지시(검색 조건의 지정)에 따른 가창 표현이 부여된다. 선택 음성 신호 X에 대한 가창 표현의 부여에는 공지된 기술이 임의로 채용된다. 또한, 선택 음성 신호 X의 가창 표현을 대상 표현 데이터 DS의 가창 표현으로 치환하는 구성(선택 음성 신호 X의 가창 표현이 음성 신호 Y에는 잔류하지 않는 구성) 외에, 선택 음성 신호 X의 가창 표현에 대상 표현 데이터 DS의 가창 표현을 누적적으로 부여하는 구성(예를 들어 선택 음성 신호 X의 가창 표현과 대상 표현 데이터 DS의 가창 표현의 양쪽이 음성 신호 Y에 반영되는 구성)도 채용될 수 있다.

도 6은, 표현 부여 처리의 흐름도이다. 도 6에 도시한 바와 같이, 입력 장치(16)의 조작으로 이용자가 표현 부여 처리의 실행을 지시하면(SB1), 가창 선택부(32)는, 기억 장치(12)에 기억된 복수의 음성 신호 X로부터 선택 음성 신호 X를 선택하고(SB2), 구간 지정부(34)는, 선택 음성 신호 X에 대해서 1개 이상의 대상 구간을 지정한다(SB3). 또한, 표현 선택부(36)는, 기억 장치(12)에 기억된 복수의 가창 표현 데이터 DS로부터 대상 표현 데이터 DS를 선택하고(SB4), 표현 부여부(38)는, 가창 선택부(32)가 선택한 선택 음성 신호 X의 각 대상 구간에 대하여 대상 표현 데이터 DS의 가창 표현을 부여함으로써 음성 신호 Y를 생성한다(SB5). 표현 부여부(38)가 생성한 음성 신호 Y가 방음 장치(18)로부터 재생된다(SB6).

도 7은 비브라토를 나타내는 가창 표현 데이터 DS를 적용한 표현 부여 처리의 구체예의 설명도이다. 선택 음성 신호 X의 음고(피치)의 시간 변화와, 복수의 가창 표현 데이터 DS(DS[1] 내지 DS[4])가 도 7에서는 예시되어 있다. 각 가창 표현 데이터 DS는, 상이한 가창자의 가창 음성을 수록한 각 음성 신호 R에 대한 표현 등록 처리에서 생성된다. 따라서, 각 가창 표현 데이터 DS(DS[1] 내지 DS[4])가 나타내는 비브라토는, 음고의 변동 주기(속도)나 변동폭(심도) 등의 특성이 다르다. 도 7에 도시한 바와 같이, 예를 들어 이용자로부터의 지시에 따라서 선택 음성 신호 X의 대상 구간이 지정되고(SB3), 복수의 가창 표현 데이터 DS로부터 예를 들어 이용자로부터의 지시에 따라서 대상 표현 데이터 DS[3]가 선택되면(SB4), 대상 표현 데이터 DS[3]가 나타내는 비브라토를 선택 음성 신호 X의 대상 구간에 부여한 음성 신호 Y가 표현 부여 처리에 의해 생성된다(SB5). 이상의 설명으로부터 이해되는 바와 같이, 비브라토를 부여하지 않고 가창된 가창 음성(예를 들어 비브라토를 부여한 가창이 서투른 가창자의 가창 음성)의 음성 신호 X에 있어서의 원하는 대상 구간에 원하는 가창 표현 데이터 DS의 비브라토가 부여된다. 또한, 이용자가 복수의 가창 표현 데이터 DS로부터 대상 표현 데이터 DS를 선택하기 위한 구성은 임의이다. 예를 들어, 각 가창 표현 데이터 DS의 가창 표현이 부여된 소정의 가창 음성을 방음 장치(18)로부터 재생해서 이용자에게 수청(즉 시험 청취)시켜, 이용자가 수청의 결과를 근거로 해서 입력 장치(16)(예를 들어 버튼이나 터치 패널)를 조작함으로써 대상 표현 데이터 DS를 선택하는 구성이 적합하다.

도 8에서는, 선택 음성 신호 X의 대상 구간 S1에 대해서 표현 선택부(36)가 대상 표현 데이터 DS1을 선택하여, 대상 구간 S1과는 다른 대상 구간 S2에 대해서 표현 선택부(36)가 대상 표현 데이터 DS2를 선택한 경우가 상정되고 있다. 표현 부여부(38)는, 대상 표현 데이터 DS1이 나타내는 가창 표현 E1을 대상 구간 S1에 부여함과 함께, 대상 표현 데이터 DS2가 나타내는 가창 표현 E2를 대상 구간 S2에 부여한다.

또한, 도 9에 도시한 바와 같이, 대상 구간 S1과 대상 구간 S2가 중복되는 경우(대상 구간 S2가 대상 구간 S1에 내포되는 경우), 선택 음성 신호 X 중 대상 구간 S1과 대상 구간 S2의 중복 구간(즉 대상 구간 S2)에는, 대상 표현 데이터 DS1의 가창 표현 E1과 대상 표현 데이터 DS2의 가창 표현 E2가 중복해서 부여된다. 즉, 선택 음성 신호 X의 특정 구간에 복수(전형적으로는 복수종)의 가창 표현이 중복해서 부여된다. 예를 들어, 음고의 변동에 관한 가창 표현 E1과 음량의 변동에 관한 가창 표현 E2의 양쪽이 선택 음성 신호 X(대상 구간 S2)에 부여된다. 이상의 처리에서 생성된 음성 신호 Y가 방음 장치(18)에 공급됨으로써 음향으로서 재생된다.

이상으로 설명한 바와 같이, 제1 실시 형태에서는, 상이한 가창 표현을 나타내는 복수의 가창 표현 데이터 DS의 각각의 가창 표현이 선택 음성 신호 X의 대상 구간에 선택적으로 부여된다. 따라서, 특허문헌 1의 기술과 비교해서 다양한 가창 표현의 가창 음성(음성 신호 Y)을 생성하는 것이 가능하다.

제1 실시 형태에서는 특히, 선택 음성 신호 X로 지정된 복수의 대상 구간 각각에 대해서 별개의 가창 표현이 부여되기 때문에(도 8, 도 9), 가창 표현이 부여되는 대상 구간이 선택 음성 신호 X의 1개의 구간에 제한되는 구성과 비교하면, 다양한 가창 표현의 가창 음성을 생성할 수 있다고 하는 전술한 효과는 각별히 현저하다. 또한, 제1 실시 형태에서는, 복수(복수종)의 가창 표현이 선택 음성 신호 X의 대상 구간에 중복해서 부여될 수 있기 때문에(도 9), 대상 구간에 부여되는 가창 표현이 1종에 제한되는 구성과 비교하여, 다양한 가창 표현의 가창 음성을 생성할 수 있다는 효과는 각별히 현저하다. 단, 가창 표현이 부여되는 대상 구간이 선택 음성 신호 X의 1개의 구간에 제한되는 구성이나, 대상 구간에 부여되는 가창 표현이 1종으로 제한되는 구성도, 본 발명의 범위에는 포함된다.

또한, 제1 실시 형태에서는, 선택 음성 신호 X의 대상 구간이 이용자로부터의 지시에 따라서 지정되고, 또한 속성 데이터 DA의 검색 조건이 이용자로부터의 지시에 따라서 설정되기 때문에, 이용자의 의도나 기호를 충분히 반영한 다양한 가창 음성을 생성할 수 있다는 이점도 있다.

<제2 실시 형태>

본 발명의 제2 실시 형태를 설명한다. 제1 실시 형태의 음성 처리 장치(100)에서는, 기억 장치(12)에 기억된 복수의 가창 표현 데이터 DS를 음성 신호 X의 가창 표현의 조정에 이용하였다. 제2 실시 형태의 음성 처리 장치(100)에서는, 기억 장치(12)에 기억된 복수의 가창 표현 데이터 DS를 음성 신호 X의 평가에 이용한다. 또한, 이하에 예시하는 각 형태에 있어서 작용이나 기능이 제1 실시 형태와 마찬가지인 요소에 대해서는, 제1 실시 형태의 설명에서 참조한 부호를 유용해서 각각의 상세한 설명을 적절하게 생략한다.

도 10은 제2 실시 형태의 음성 처리 장치(100) 중 음성 신호 X를 평가하는 처리(이하 「가창 평가 처리」라고 함)에 관련된 요소의 기능적인 구성도이다. 제2 실시 형태의 기억 장치(12)는, 제1 실시 형태와 마찬가지의 표현 등록 처리에서 생성된 가창 표현 데이터 DS 및 속성 데이터 DA의 복수조를 기억한다. 각 가창 표현 데이터 DS에 대응하는 속성 데이터 DA는, 제1 실시 형태에 대해서 전술한 바와 같이, 도 2의 가창 평가부(24)가 산정한 평가값(상기 가창 표현 데이터 DS의 가창 표현의 교졸의 평가 지표) Q를 포함하여 구성된다.

연산 처리 장치(10)는, 기억 장치(12)에 기억된 프로그램(가창 평가 프로그램)을 실행함으로써, 도 10에 도시한 바와 같이, 가창 평가 처리를 실현하기 위한 복수의 요소(가창 선택부(42), 구간 지정부(44), 가창 평가부(46))로서 기능한다. 예를 들어 입력 장치(16)에 대한 이용자로부터의 지시에 따라서 제1 실시 형태의 표현 부여 처리와 이하에 상세하게 설명하는 가창 평가 처리가 선택적으로 실행된다. 단, 제2 실시 형태에서는 표현 부여 처리를 생략하는 것도 가능하다. 또한, 도 10의 각 기능을 복수의 집적 회로로 분산한 구성이나, 도 10에 예시된 기능의 일부를 전용 전자 회로(예를 들어 DSP)가 실현하는 구성을 채용하는 것도 가능하다.

도 10의 가창 선택부(42)는, 기억 장치(12)에 기억된 복수의 음성 신호 X 중 평가 대상으로 되는 선택 음성 신호 X를 선택한다. 구체적으로는, 가창 선택부(42)는, 제1 실시 형태의 가창 선택부(32)와 마찬가지로, 입력 장치(16)에 대한 이용자로부터의 지시에 따라서 기억 장치(12)로부터 선택 음성 신호 X를 선택한다. 또한, 구간 지정부(44)는, 가창 선택부(42)가 선택한 선택 음성 신호 X 중 평가 대상으로 되는 1개 이상의 대상 구간을 지정한다. 구체적으로는, 구간 지정부(44)는, 제1 실시 형태의 구간 지정부(34)와 마찬가지로, 입력 장치(16)에 대한 이용자로부터의 지시에 따라서 각 대상 구간을 지정한다. 또한, 선택 음성 신호 X의 전체 구간을 대상 구간으로 해서 지정하는 것도 가능하다.

도 10의 가창 평가부(46)는, 기억 장치(12)에 기억된 각 가창 표현 데이터 DS 및 각 속성 데이터 DA(평가값 Q)를 이용하여, 가창 선택부(42)가 선택한 선택 음성 신호 X의 가창의 교졸을 평가한다. 즉, 가창 평가부(46)는, 기억 장치(12)의 복수의 가창 표현 데이터 DS 중 선택 음성 신호 X의 각 대상 구간에 유사한 가창 표현의 가창 표현 데이터 DS에 대응한 속성 데이터 DA 내의 평가값 Q에 따라서 선택 음성 신호 X의 평가값 Z를 산정한다. 가창 평가부(46)의 구체적인 동작을 이하에 설명한다.

가창 평가부(46)는, 먼저 가창 표현 데이터 DS가 나타내는 가창 표현과 선택 음성 신호 X의 대상 구간의 가창 표현의 유사도(상관 또는 거리)를 기억 장치(12) 내의 복수의 가창 표현 데이터 DS의 각각에 대해서 대상 구간마다 산정하고, 복수의 가창 표현 데이터 DS 중 대상 구간의 가창 표현과의 유사도가 최대로 되는 가창 표현 데이터 DS를 선택 음성 신호 X의 복수의 대상 구간의 각각에 대해서 순차적으로 선택한다. 가창 표현의 유사도의 산정에는, 특징량을 비교하기 위한 공지된 기술이 임의로 채용된다.

그리고, 가창 평가부(46)는, 선택 음성 신호 X의 각 대상 구간에 대해서 선택된 가창 표현 데이터 DS에 대응하는 속성 데이터 DA의 평가값 Q를, 선택 음성 신호 X의 복수의 대상 구간에 대해서 가중 가산(또는 평균)함으로써 선택 음성 신호 X의 평가값 Z를 산정한다. 이상의 설명으로부터 이해되는 바와 같이, 평가값 Q가 높은 가창 표현에 유사한 가창 표현으로 가창된 대상 구간이 선택 음성 신호 X 내에 많이 포함될수록, 선택 음성 신호 X의 평가값 Z는 큰 수치로 설정된다. 가창 평가부(46)가 산정한 평가값 Z는, 예를 들어 표시 장치(도시 생략)에 의한 화상 표시나 방음 장치(18)에 의한 음성 재생으로 이용자에게 통지된다.

도 11은, 가창 평가 처리의 흐름도이다. 도 11에 도시한 바와 같이, 입력 장치(16)의 조작으로 이용자가 가창 평가 처리의 실행을 지시하면(SC1), 가창 선택부(42)는, 기억 장치(12)에 기억된 복수의 음성 신호 X로부터 선택 음성 신호 X를 선택하고(SC2), 구간 지정부(44)는, 선택 음성 신호 X에 대해서 1개 이상의 대상 구간을 지정한다(SC3). 가창 평가부(46)는, 기억 장치(12)에 기억된 각 가창 표현 데이터 DS와 각 속성 데이터 DA를 이용해서 선택 음성 신호 X의 평가값 Z를 산정한다(SC4). 가창 평가부(46)가 산정한 평가값 Z가 이용자에게 통지된다(SC5).

이상으로 설명한 바와 같이, 제2 실시 형태에서는, 가창 표현이 선택 음성 신호 X에 유사한 가창 표현 데이터 DS의 평가값 Q에 따라서 선택 음성 신호 X의 평가값 Z가 산정된다. 따라서, 가창 표현의 교졸(표현 등록 처리에서 등록된 가창 표현과의 유사 여부)이라고 하는 관점에서 선택 음성 신호 X를 적절하게 평가하는 것이 가능하다. 또한, 이상의 설명으로부터도 이해되는 바와 같이, 제2 실시 형태에서는, 속성 데이터 DA 중 평가값 Q 이외의 정보는 생략될 수 있다. 즉, 제2 실시 형태의 기억 장치(12)는, 가창 표현을 나타내는 가창 표현 데이터 DS와 그 가창 표현의 평가를 나타내는 평가값 Q를 상이한 복수의 가창 표현에 대해서 기억하는 요소로서 표현된다.

<변형예>

전술한 각 형태는 다양하게 변형될 수 있다. 구체적인 변형의 형태를 이하에 예시한다. 이하의 예시로부터 임의로 선택된 2 이상의 형태는 적절하게 병합될 수 있다.

(1) 제1 실시 형태의 표현 부여 처리의 대상이나 제2 실시 형태의 가창 평가 처리의 대상은, 사전에 수록되어 기억 장치(12)에 저장된 음성 신호 X에 한정되지 않는다. 예를 들어, 수음 장치(14)가 생성한 음성 신호 X나, 가반형 또는 내장형의 기록 매체(예를 들어 CD)로부터 재생된 음성 신호 X나, 다른 통신 단말기로부터 통신망을 통해서 수신한 음성 신호(예를 들어 스트리밍 형식의 음성 신호) X를, 표현 부여 처리나 가창 평가 처리의 대상으로 하는 것도 가능하다. 또한, 공지된 음성 합성 처리(예를 들어 소편 접속형의 가창 합성 처리)에서 생성된 음성 신호 X에 대해서 표현 부여 처리나 가창 평가 처리를 실행하는 구성도 채용된다. 또한, 전술한 각 형태에서는, 수록된 음성 신호 X에 대하여 표현 부여 처리나 가창 평가 처리를 실행했지만, 예를 들어 시간축 상의 각 대상 구간을 사전에 지정하면, 음성 신호 X의 공급에 병행해서 실시간적으로 표현 부여 처리나 가창 평가 처리를 실행하는 것도 가능하다.

또한, 상술한 각 형태에서는, 복수의 음성 신호 X 중 어느 하나를 선택 음성 신호 X로 해서 선택했지만, 음성 신호 X의 선택(가창 선택부(32) 또는 가창 선택부(42))은 생략될 수 있다. 또한, 음성 신호 X의 전체 구간(악곡 전체)을 대상 구간으로 해서 지정하는 구성에서는, 구간 지정부(34)를 생략하는 것도 가능하다. 따라서, 표현 부여 처리를 실행하는 음성 처리 장치는, 도 12에 예시되는 바와 같이, 복수의 가창 표현 데이터 DS로부터 적용 대상의 가창 표현 데이터 DS를 선택하는 표현 선택부(36)와, 표현 선택부(36)가 선택한 가창 표현 데이터 DS가 나타내는 가창 표현을 가창 음성(음성 신호 X)의 특정 구간에 부여하는 표현 부여부(38)를 구비하는 장치로서 포괄적으로 표현된다.

표현 등록 처리의 대상도 마찬가지로, 수음 장치(14)가 생성한 음성 신호 R에는 한정되지 않는다. 예를 들어, 가반형 또는 내장형의 기록 매체로부터 재생된 음성 신호 R이나, 다른 통신 단말기로부터 통신망을 통해서 수신한 음성 신호 R을 표현 등록 처리의 대상으로 하는 것도 가능하다. 또한, 음성 신호 R의 공급에 병행해서 실시간적으로 표현 등록 처리를 실행하는 것도 가능하다.

(2) 상술한 각 형태에서는, 가창 음성의 시간 파형을 나타내는 음성 신호 X를 대상으로 해서 제1 실시 형태의 표현 부여 처리나 제2 실시 형태의 가창 평가 처리를 실행했지만, 표현 부여 처리나 가창 평가 처리의 대상으로 되는 가창 음성의 표현 형식은 임의이다. 구체적으로는, 악곡의 음표마다 음고와 발음 문자(가사)를 시계열로 지정하는 합성 정보(예를 들어 VSQ 형식의 파일)에서 가창 음성을 표현하는 것도 가능하다. 예를 들어 제1 실시 형태의 표현 부여부(38)는, 합성 정보에서 지정되는 가창 음성을 예를 들어 소편 접속형의 음성 합성 처리에서 순차적으로 합성하면서 제1 실시 형태와 마찬가지의 표현 부여 처리에 의해 가창 표현을 부여한다. 마찬가지로, 제2 실시 형태의 가창 평가부(46)는, 합성 정보에서 지정되는 가창 음성을 음성 합성 처리에서 순차적으로 합성하면서 제2 실시 형태와 마찬가지의 가창 평가 처리를 실행한다.

(3) 제1 실시 형태에서는 대상 구간마다 1개의 대상 표현 데이터 DS를 선택했지만, 1개의 대상 구간에 대해서 표현 선택부(36)가 복수(전형적으로는 복수종)의 대상 표현 데이터 DS를 선택하는 것도 가능하다. 표현 선택부(36)가 선택한 복수의 대상 표현 데이터 DS의 각각의 가창 표현이 선택 음성 신호 X의 1개의 대상 구간에 대하여 중복해서 부여된다. 또한, 1개의 대상 구간에 대해서 선택된 복수의 대상 표현 데이터 DS를 통합한 1개의 가창 표현 데이터 DS(예를 들어 복수의 대상 표현 데이터 DS를 가중 가산한 가창 표현 데이터 DS)의 가창 표현을 그 대상 구간에 부여하는 것도 가능하다.

(4) 제1 실시 형태에서는 검색 조건을 지정함으로써 이용자로부터의 지시에 따른 가창 표현 데이터 DS를 선택했지만, 표현 선택부(36)가 가창 표현 데이터 DS를 선택하는 방법은 임의이다. 예를 들어, 각 가창 표현 데이터 DS가 나타내는 가창 표현의 가창 음성을 방음 장치(18)로부터 재생함으로써 이용자에게 시험 청취시켜서, 이용자가 시험 청취 결과를 고려해서 지정한 가창 표현 데이터 DS를 표현 선택부(36)가 선택하는 것도 가능하다. 또한, 기억 장치(12)에 기억된 각 가창 표현 데이터 DS를 랜덤하게 선택하는 구성이나, 사전에 선택된 소정의 규칙으로 각 가창 표현 데이터 DS를 선택하는 구성도 채용된다.

(5) 제1 실시 형태에서는, 표현 부여부(38)가 생성한 음성 신호 Y를 방음 장치(18)에 공급해서 재생했지만, 음성 신호 Y의 출력 방법은 임의이다. 예를 들어, 표현 부여부(38)가 생성한 음성 신호 Y를 특정한 기록 매체(예를 들어 기억 장치(12)나 가반형의 기록 매체)에 저장하는 구성이나, 음성 신호 Y를 통신 장치로부터 다른 통신 단말기로 송신하는 구성도 채용된다.

(6) 제1 실시 형태에서는 표현 등록 처리 및 표현 부여 처리의 양쪽을 실행하는 음성 처리 장치(100)를 예시했지만, 표현 등록 처리를 실행하는 음성 처리 장치와 표현 부여 처리를 실행하는 음성 처리 장치를 별개로 구성하는 것도 가능하다. 등록용 음성 처리 장치의 표현 등록 처리에서 생성된 복수의 가창 표현 데이터 DS가 표현 부여용 음성 처리 장치로 전송되어 표현 부여 처리에 적용된다. 마찬가지로, 제2 실시 형태에서는, 표현 등록 처리를 실행하는 음성 처리 장치와 가창 평가 처리를 실행하는 음성 처리 장치를 별개로 구성하는 것도 가능하다.

(7) 휴대 전화기 등의 단말기 장치와 통신하는 서버 장치에서 음성 처리 장치(100)를 실현하는 것도 가능하다. 예를 들어, 음성 처리 장치(100)는 단말 장치로부터 수신한 음성 신호 R의 해석에 의해 가창 표현 데이터 DS를 추출해서 기억 장치(12)에 저장하는 표현 등록 처리나, 가창 표현 데이터 DS가 나타내는 가창 표현을 음성 신호 X에 부여한 음성 신호 Y를 단말 장치로 송신하는 표현 부여 처리를 실행한다. 즉, 서로 통신하는 음성 처리 장치(서버 장치)와 단말 장치를 구비하는 음성 처리 시스템으로서도 본 발명은 실현될 수 있다. 또한, 상술한 각 형태의 음성 처리 장치(100)는 각 기능을 복수의 장치로 분산한 시스템(음성 처리 시스템)으로서도 실현될 수 있다.

(8) 제2 실시 형태에서는, 기억 장치(12)에 기억된 각 가창 표현 데이터 DS 및 각 속성 데이터 DA(평가값 Q)를 이용해서, 가창 평가부(46)는, 음성 신호 X의 가창의 교졸을 평가했지만, 가창 평가부(46)는, 평가값 Q를 기억 장치(12)와는 다른 장치로부터 입수하여, 음성 신호 X의 가창의 교졸을 평가해도 된다.

본 출원은, 2013년 3월 15일 출원된 일본 특허 출원(일본 특허 출원 제2013-053983)에 기초하는 것으로, 그 내용은 여기에 참조로서 도입된다.

본 발명에 따르면, 다양한 가창 표현의 가창 음성을 생성하는 것이 가능하다.

100 : 음성 처리 장치
10 : 연산 처리 장치
12 : 기억 장치
14 : 수음 장치
16 : 입력 장치
18 : 방음 장치
20 : 해석 처리부
20A : 악곡 구조 해석부
20B : 가창 기법 해석부
20C : 성질 해석부
22 : 가창 구분부
24, 46 : 가창 평가부
26 : 가창 해석부
28 : 속성 취득부
32, 42 : 가창 선택부
34, 44 : 구간 지정부
36 : 표현 선택부
38 : 표현 부여부

Claims

상이한 가창 표현을 나타내는 복수의 가창 표현 데이터로부터 적용 대상의 가창 표현 데이터를 선택하는 표현 선택부와,
상기 표현 선택부가 선택한 가창 표현 데이터가 나타내는 가창 표현을 가창 음성의 특정 구간에 부여하는 표현 부여부
를 구비하는 음성 처리 장치.
제1항에 있어서,
상기 표현 선택부는, 상이한 가창 표현을 나타내는 2 이상의 가창 표현 데이터를 선택하고,
상기 표현 부여부는, 상기 표현 선택부가 선택한 상기 2 이상의 가창 표현 데이터의 각각이 나타내는 가창 표현을, 상기 가창 음성의 특정 구간에 중복해서 부여하는 음성 처리 장치.
제1항 또는 제2항에 있어서,
가창 표현에 관련된 속성 데이터를 그 가창 표현의 가창 표현 데이터에 대응지어서 기억하는 기억부를 구비하고,
상기 표현 선택부는, 상기 각 가창 표현 데이터의 속성 데이터를 참조하여 상기 기억부로부터 가창 표현 데이터를 선택하는 음성 처리 장치.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 표현 선택부는, 이용자로부터의 지시에 따라서 상기 가창 표현 데이터를 선택하고,
상기 표현 부여부는, 가창 음성 중 이용자로부터의 지시에 따른 특정 구간에, 상기 표현 선택부가 선택한 가창 표현 데이터가 나타내는 가창 표현을 부여하는 음성 처리 장치.
제1항에 있어서,
상기 복수의 가창 표현 데이터 중 가창 음성에 유사한 가창 표현의 가창 표현 데이터에 대응하여, 그 가창 표현의 평가를 나타내는 평가값에 따라서 상기 가창 음성을 평가하는 가창 평가부를 구비하는 음성 처리 장치.
제5항에 있어서,
가창 표현을 나타내는 가창 표현 데이터와 그 가창 표현의 평가를 나타내는 평가값을 상이한 복수의 가창 표현에 대해서 기억하는 기억부를 구비하고,
상기 가창 평가부는, 상기 복수의 가창 표현 데이터 중 가창 음성에 유사한 가창 표현의 가창 표현 데이터에 대응하여, 상기 기억부에 기억된 평가값에 따라서 상기 가창 음성을 평가하는 음성 처리 장치.
상이한 가창 표현을 나타내는 복수의 가창 표현 데이터로부터 적용 대상의 가창 표현 데이터를 선택하고,
선택한 상기 가창 표현 데이터가 나타내는 가창 표현을 가창 음성의 특정 구간에 부여하는
음성 처리 방법.