KR101016978B1

KR101016978B1 - 소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템

Info

Publication number: KR101016978B1
Application number: KR1020057004512A
Authority: KR
Inventors: 에르캔 에프 기기
Original assignee: 코닌클리즈케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-09-17
Filing date: 2003-08-05
Publication date: 2011-02-25
Also published as: JP2005539262A; EP1543497A1; DE60305944T2; AU2003250410A1; CN1682278A; JP4490818B2; KR20050057372A; DE60305944D1; ATE329346T1; EP1543497B1; WO2004027753A1; TW200425059A; ES2266908T3; CN100343893C; TWI307876B; US20060178873A1; US7558727B2

Abstract

본 발명은 제 2 소리 신호에 기초해서 제 1 소리 신호를 합성하는 방법에 관한 것으로, 제 1 소리 신호는 필수 제 1 기본 주파수를 갖고, 제 2 소리 신호는 제 2 기본 주파수를 가지며, 이 방법은 a) 제 1 기본 주파수의 한 주기만큼 이격된, 제 1 소리 신호의 시간 영역 내의 필수 피치 벨 위치를 결정하는 단계와, b) 제 2 기본 주파수의 한 주기만큼 이격된, 제 2 소리 신호의 시간 영역 내의 피치 벨 위치 상의 제 2 소리 신호를 윈도윙함으로써 피치 벨을 제공하는 단계와, c) 필수 피치 벨 위치 각각에 대해 제공된 피치 벨로부터 피치 벨을 임의로 선택하는 단계와, d) 제 1 신호를 합성하기 위해 선택된 피치 벨에 대해 중첩 및 추가 동작을 수행하는 단계를 포함한다.

Description

소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템{METHOD OF SYNTHESIS FOR A STEADY SOUND SIGNAL}

본 발명은 음성 또는 음악을 합성하는(synthesizing) 분야에 관한 것으로, 보다 구체적으로는 텍스트-음성 합성(text-to-speech synthesis) 분야에 관한 것이다.

텍스트-음성 합성(TTS) 시스템의 기능은 주어진 언어의 일반적인 텍스트로부터 음성을 합성하는 것이다. 현재, TTS 시스템은 전화 네트워크를 통한 데이터베이스로의 액세스 또는 장애인을 지원하는 것과 같은 다수의 애플리케이션에서 실제 운영에 사용되고 있다. 음성을 합성하는 한 방법은 반음절 또는 다음절(polyphone)과 같은 녹음되어 있는 음성의 세부 단위의 세트의 요소들을 연결하는 것이다. 상업적으로 성공한 시스템의 대부분이 다음절의 연결을 이용하고 있다. 다음절은 2개(2음절), 3개(3음절) 또는 그 이상의 음절의 그룹을 포함하고, 이는 안정된 분석 영역(stable spectral regions)에서 원하는 음절의 그룹을 분할함으로써 무의미한 단어로부터 결정될 수 있다. 연결 기반 합성에서, 2개의 인접하는 음절 사이의 변이의 컨버세이션이 합성된 음성의 품질을 보장하는데 중요하다. 다음절을 기본 세부 단위로 선택함으로써, 2개의 인접 음절 사이의 변이가 녹음된 세부 단위 내에서 유지되고, 유사한 음절 사이에서 연결이 수행된다.

그러나, 합성하기 전에, 음절들은 이들 음절로 이루어지는 새로운 단어의 운율 조건을 만족시키도록 수정된 음량 및 피치를 가져야 한다. 이러한 처리는 단조로운 소리인 합성 음성이 나오는 것을 방지하는 데 필요하다. TTS 시스템에서, 이러한 기능은 운율 모듈이 수행한다. 녹음되어 있는 세부 단위 내에서 음량 및 피치 수정을 가능하게 하기 위해서, 많은 연결 기반 TTS 시스템은 TD-PSOLA(time-domain pitch-synchronous overlap-add)(E.Moulines와 F.Charpentier, "Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones, "Speech Commun., vol.9, pp.453-467, 1990)의 합성 모델을 사용한다. 합성될 신호가 연장된 음량을 가지려 할 때, 이는 원신호로부터 획득된 피치 벨을 반복함으로써 수행된다. 이 반복 처리가 도 1에 도시되어 있다. 시간 축(100)은 원신호의 시간 영역에 속한다. 원신호는 시간 축(100) 상에서 0과 T 사이의 시간을 갖는 T의 길이를 갖는다. 또한, 원신호는 주기 p에 대응하는 기본 주파수(f)를 갖고 있으며, 피치 벨은 윈도우(102)를 통해서 원신호를 윈도윙함으로써 원신호로부터 획득된다. 여기서 고려되는 실시예에서, 윈도우는 시간 축(100)의 영역에서 주기 p만큼 이격되어 있다. 이런 식으로, 피치 벨 위치 i가 시간 축(100) 상에서 결정된다. 시간 축(104)은 합성될 신호의 시간 영역에 속한다. 합성될 신호는 yT의 음량을 가질 필요가 있으며, 여기서 y는 임의의 수이다. 다음으로 다수의 피치 벨 위치 j가 시간 축(104) 상에서 결정된다. 시간 축(100) 상에서와 마찬가지로, 피치 벨 위치 j는 원신호의 기본 주파수 f에 대응하는 주기 p만큼 서로 이격되어 있다. 원신호의 음량을 증가시키기 위해서, 원신호로부터 획득된 원래의 피치 벨 각각은 y번 반복된다. 이로써 다수의 간격(106, 108...)이 시간 축(104) 영역에 형성되며, 각각의 간격(106, 108,...)은 같은 피치 벨의 반복으로 이루어진다. 예컨대 간격(106)은 피치 벨 위치 j(j=1, k=1)부터 j(j=1, k=y)까지에 있는 원신호로부터의 피치 벨 위치 i=1로부터 획득된 피치 벨의 반복을 포함한다. 이는 간격(106)이 원신호의 시간 축(100) 상의 피치 벨 위치 i=1로부터 획득된 피치 벨의 y번 반복을 포함한다는 것을 의미한다. 유사하게, 다음 간격(108)은 원신호의 시간 축(100) 상의 피치 벨 위치 i=2로부터 획득된 피치 벨의 y번 반복을 포함한다. 결과적으로 합성된 신호는 연결된 피치 벨 반복의 시퀀스로 이루어진다.

이러한 PSOLA 방법의 공통된 단점은 극단적인 음량의 조정은 시퀀스들 사이의 가청의 변이를 신호에 도입한다는 점이다. 특히, 이는 원래의 소리가 노이즈 및 주기 성분을 모두 갖는 유성 마찰음과 같은 혼성 소리일 때 문제가 된다. 피치 벨을 반복함으로써 노이즈 성분에 주기성을 도입시키고, 이는 합성된 신호 소리를 부자연스럽게 한다.

따라서, 본 발명은 특히 노래와 같이 극한적인 음량 변화에서, 소리 신호를 합성하는 개선된 방법을 제공하는 것을 목적으로 한다.

본 발명은 원래의 신호의 음량을 조정하기 위해서 원래의 신호에 기초해서 소리 신호를 합성하는 방법을 제공한다. 특히, 본 발명은 가청의 아티펙트 없이 원래의 신호의 극도의 음량 및 피치 변화를 가능하게 한다. 이는 특히 원신호의 4배 내지 100배 정도의 극한적인 음량 조정이 일어날 수 있는 노래의 합성에 유용하다.

기본적으로, 본 발명은, 한 일련의 반복하는 피치 벨로부터 다음 반복하는 피치 벨까지의 변이를 들을 수 있기 때문에, 종래의 PSOLA 방법이 음량 조정 이후에 합성 신호에 아티펙트를 도입시킨다는 연구에 기초하고 있다. 극도의 음량 조정에 대해서 종래의 PSOLA 타입의 방법이 사용될 때 경험하게 되는 이러한 현상은 노이즈 및 주기 성분을 모두 갖고 있는 혼성 소리에 대해서 특히 손해이다.

본 발명에 따라서, 피치 벨은 합성될 신호의 필요한 피치 벨 위치 각각에 대해서 원신호로부터 임의로 선택된다. 이런 식으로, 노이즈 성분에 주기성이 도입되는 것을 방지할 수 있어서, 원래 소리의 자연스러움이 보존된다. 본 발명의 바람직한 실시예에 따라서, 원래의 소리는 노이즈 및 주기 성분을 모두 가진 유성 마찰음이다. 본 발명을 이러한 유성 마찰음에 적용하면 특히 유익하다.

본 발명의 다른 바람직한 실시예에 따라서, 유성 마찰음의 윈도윙에 상승 코사인(raised cosine)이 사용된다. 무성음 간격에 대해서는, 사인 윈도우가 사용되며, 이는 제곱 영역의 전체 신호 인벨롭이 일정하게 유지된다는 이점이 있다. 주기 신호와는 다르게, 2개의 노이즈 샘플이 추가되면, 전체 합이 2개의 샘플 중 어느 하나의 절대값보다 작을 수 있다. 이는 신호가 (대부분) 동상이 아니기 때문이며, 사인 윈도우가 이러한 효과를 조정해서, 인벨롭-모듈레이션을 제거한다.

본 발명의 다른 바람직한 실시예에 따라서, 원래의 소리 신호는 스펙트럼적으로 유사하며, 기본적으로 같은 정보 컨텐츠를 가진 주기를 갖는다. 유성인 주기는 제 1 분류자에 의해 분류되며, 무성인 주기는 제 2 분류자에 의해 분류된다.

본 발명의 또 다른 실시예에 따라서, 원신호의 분류 정보는 텍스트-음성 시스템과 같은 컴퓨터 시스템에 저장된다. 스펙트럼적으로 유사한 유성 또는 무성 스태디(steady) 주기로 분류된 원신호의 간격이 본 발명에 따라서 처리되면, 여기서 유성 간격에 대해서는 상승 코사인 윈도우가 사용되고, 무성 간격에 대해서는 사인 윈도우가 사용된다.

이하, 본 발명의 실시예가 도면을 참조하면서 더 상세하게 설명될 것이다.

도 1은 종래의 PSOLA 타입의 방법을 도시하는 도면,

도 2는 본 발명에 따라 소리 신호를 합성하는 예를 도시하는 도면,

도 3은 본 발명의 방법의 실시예의 흐름도를 도시하는 도면,

도 4는 원신호와 합성 신호의 예를 도시하는 도면,

도 5는 컴퓨터 시스템의 바람직한 실시예의 블록도.

도 2는 원신호에 기초해서 신호를 합성하는 예를 도시하고 있다. 시간 축(200)은 원신호의 시간 영역을 나타낸다. 원신호는 음량(T)을 갖고 있으며, 시간 축(200) 상에서 0과 T 사이의 시간에 걸쳐있다. 원신호는 주기 p에 대응하는 기본 주파수 f를 갖고 있다. 주기 p은 윈도우(202)를 통한 원신호의 윈도윙을 위해서 시간 축(200) 상에서 위치 i를 결정한다. 여기서 고려되는 실시예에서, 원신호는 다음 공식에 따라서 코사인 윈도우가 사용되는 유성의 혼성 소리이다.

위의 관계식에서, m은 윈도우의 길이를 나타내고, n은 실행 인덱스이다.

원신호가 무성음 신호이면, 다음 윈도우를 사용하는 것이 바람직하다.

합성될 신호의 시간 영역이 시간 축(204)에 도시되어 있다. 합성될 신호는 yT의 음량을 가져야 하며, 여기서 y는 예컨대 y=4 또는 y=6 또는 y=20 또는 y=50 또는 y=100과 같은 임의의 수이다.

주기 p는 시간 축(204)에서 피치 벨 위치 j도 결정한다. 시간 축(200)에서도 유사하게 피치 벨 위치는 주기 p 만큼 서로 이격되어 있다. 각각의 필수 피치 벨 위치 j에 대해서, 시간 축(200)의 시간 영역에서 피치 벨 i의 위치를 임의로 선택한다. 여기서 고려되는 실시예에서, 시간 축(200)의 시간 영역의 원신호의 윈도윙에 의해서 획득된 피치 벨은 6개이다. 피치 벨 위치 j에 대해서 획득된 이들 피치 벨 중 하나를 선택하기 위해서, 1과 6 사이 중 임의의 수가 생성된다. 이런 식으로, 피치 벨 위치 i=1 내지 i=6에서 사용 가능한 피치 벨로부터 임의로 하나를 선택한다. 이러한 처리는 시간 축(204) 상의 모든 필요한 피치 벨 위치 j에 대해서 반복된다. 예컨대 필요한 피치 벨 위치 j=1의 피치 벨이 1과 6 중 임의의 수를 생성함으로써 생성된다. 여기서 고려되는 실시예에서, 수 6이 획득되어서, 시간 축(200) 상의 피치 벨 위치 i=6으로부터 획득되는 피치 벨이 시간 축(204) 상의 필수 피치 벨 위치 j=1에 대해서 선택된다. 유사하게, 필수 피치 벨 위치 j=2에 대해서 무작위 수가 생성된다. 이 실시예에서, 무작위 수는 4로, 시간 축(200) 상의 피치 벨 위치 i=4의 피치 벨이 필수 피치 벨 위치 j=2에 대해서 선택된다. 이러한 처리는 시간 축(204) 상의 모든 필수 피치 벨 위치 j=1 내지 j=z에 대해서 수행된다. 원신호의 영역으로부터 피치 벨의 위치를 임의로 선택하기 때문에, 간격(106, 108,...)(도 1과 비교)은 방지된다. 결과적으로, 심지어 극도의 음량 조정이 이루어지는 경우에도 이러한 아티펙트가 합성 신호에 도입되지 않아서 합성 신호 소리가 자연스럽다.

도 3은 이러한 방법을 나타내는 흐름도이다. 단계(300)에서, 원래의 소리를 녹음하는 단계가 제공된다. 단계(302)에서, 혼성 소리 간격이 원래의 소리 녹음에서 유성음인지 무성음인지 분류된다. 이는 전문가가 수동으로 행하거나 컴퓨터 프로그램을 사용해서 행해지며, 이로써 스태디 주기 동안의 원래의 신호 및/또는 주파수 스펙트럼을 분석한다. 첫번째 분석은 프로그램을 통해서 수행하고, 전문가가 프로그램의 출력을 검토하는 것이 바람직하다. 단계(304)에서, 피치 벨은 윈도윙을 통해서 원래의 소리 신호로부터 획득된다. 윈도윙은 원래의 소리 신호의 기본 주파수와 동기식으로 위치된 윈도우를 사용해서 수행되며, 즉 윈도우가 원래의 소리 신호의 영역에서 원래의 소리 신호의 주기 p 만큼 이격된다. 단계(306)에서, 신호를 합성하기 위해서 피치 벨이 필요한 피치 벨 위치 j가 결정된다. 다시 필요한 피치 벨 위치 j는 주기 p만큼 이격되어 있다. 다른 방안으로, 피치 벨 위치 j는 합성될 신호의 더 높거나 더 낮은 필수 기본 주파수에 대응하는 다른 주기 q만큼 이격될 수 있다. 이런 식으로, 음량 및 주파수가 수정될 수 있다. 단계(308)에서, 혼성로 분류된 소리 간격 내의 필요한 피치 벨 위치 j 각각에 대해서, 피치 벨의 무작위 선택이 행해진다. 다른 소리 간격에 대해서, PSOLA 타입의 방법이 사용되거나 사용되지 않을 수 있다. 단계(310)에서, 합성된 신호의 영역에서 피치 벨 위치 j 상에서 피치 벨이 중첩되거나 추가된다.

도 4는 /z/에서 /z/변이의 2음절인 원래의 소리 신호(400)의 예를 도시하고 있다. 또한 소리 신호(400)의 주파수 스펙트럼(402)도 도 4에 도시되어 있다.

본 발명에 따라서 합성된 소리 신호(404)의 시간 영역에서 필수 피치 벨 위치에 대해서 소리 신호(400)로부터 획득된 피치 벨을 임의로 선택함으로써, 소리 신호(404)가 소리 신호(400)로부터 획득된다. 본 발명에서 고려되는 예시에서, 합성된 소리 신호(404)는 원 소리 신호(400)보다 y=5배 더 길다. 소리 신호(404)의 주파수 스펙트럼(406)도 도 4에 도시되어 있다. 소리 신호(404) 및 그 주파수 스펙트럼으로부터 분명한 바와 같이, 원래의 소리 신호(400)의 특성이 합성된 신호에서도 보존되며, 아티펙트는 도입되지 않는다. 결과적으로, 소리 신호(404)는 소리 신호(400)와 동일하지만 5배 더 길다.

도 5는 텍스트-음성 합성 시스템과 같은 컴퓨터 시스템의 블록도를 도시하고 있다. 컴퓨터 시스템(500)은 원래의 소리 신호를 저장하는 모듈(502)을 포함한다. 모듈(504)은 모듈(503)에 저장된 원래의 소리 신호에 대한 소리 분류 정보를 입력하고 저장하는 역할을 한다. 예컨대, 원래의 소리 신호에서 스태디 유성 주기는 'r'로 표시되고, 스태디 무성 주기는 's'로 표시된다. 모듈(506)은 피치 벨을 획득하기 위해서 모듈(502)의 원래의 소리 신호를 윈도윙하는 역할을 한다. 소리 분류에 따라서, 상승된 코사인 또는 사인 윈도우가 각각 스태디 유성 주기 또는 스태디 무선 주기에 대해서 사용된다. 모듈(508)은 합성될 신호의 시간 영역에서 필수 피치 벨 위치 j를 결정하는 역할을 한다. 필수 피치 벨 위치 j를 결정하기 위해서 입력 파라미터 '길이 y'가 사용된다. 입력 파라미터 길이 y는 원래의 신호의 음량의 배수를 나타낸다. 또한, 음량에 더해서, 또는 그 대신에 기본 주파수를 수정하는 추가적인 입력 파라미터로서 동적으로 변하는 피치를 제공할 수 있다.

모듈(510)은 원래의 소리 신호로부터 획득된 피치 벨의 세트로부터 피치 벨을 선택한다. 모듈(510)은 의사 랜덤 수 생성기(512)에 연결된다. 각각의 필수 합성 신호의 영역 내의 각각의 피치 벨 위치에 대해서, 의사 랜덤 수가 의사 랜덤 수 생성기(512)에 의해 생성된다. 모듈(510)에서, 합성될 신호의 시간 영역의 필수 피치 벨 위치 각각에 대해서 이들 랜덤 수를 사용해서 피치 벨 세트로부터 피치 벨이 선택된다. 모듈(514)은 합성될 신호의 시간 영역 내에서 선택된 피치 벨에 대해서 중첩 및 추가 동작을 수행하는 역할을 한다. 이런식으로, 필요한 음량을 가진 합성 신호가 획득된다.

본 발명이 스태디 영역에 적용될 수 있다는 점에 주의한다. 예컨대, 이러한 스태디 영역은 모음 또는 /z/ 소리와 노이즈 같은 유성음이 될 수 있다. 따라서 본 발명은 '혼성' 소리에 한정되는 것이 아니다.

또한, 합성 신호가 원신호와 같은 피치(기본 주파수)를 가질 필요가 없다는 점에 주의한다. 일부 실시예에서는, 예컨대 노래를 합성하기 위해서 피치를 변화시켜야 한다. 이러한 합성 신호에서의 기본 주파수의 변화를 수행하기 위해서, 합성 신호 내의 주기 위치는 원신호보다 더 가깝거나 더 멀어질 것이다. 이것은 그 외의 합성 절차를 변화시키지 않는다.

또한, 본 발명이 특정 윈도우의 선택에 한정되는 것이 아니라는 점에 주의한다. 상승 코사인 또는 사인 윈도우 대신에 삼각 윈도우와 같은 다른 윈도우가 사용될 수 있다.

Claims

제 2 기본 주파수를 갖는 제 2 소리 신호에 기초하여 필수 제 1 기본 주파수를 갖는 제 1 소리 신호를 합성하는 방법으로서,

상기 제 1 기본 주파수의 한 주기만큼 이격된, 상기 제 1 소리 신호의 시간 영역 내의 필수 피치 벨(pitch bell) 위치를 결정하는 단계와,

상기 제 2 기본 주파수의 한 주기만큼 이격된, 상기 제 2 소리 신호의 시간 영역 내의 피치 벨 위치 상의 상기 제 2 소리 신호를 윈도윙(windowing) 함으로써 피치 벨들을 제공하는 단계와,

상기 필수 피치 벨 위치 각각에 대해 제공된 피치 벨들로부터 피치 벨을 임의로 선택하는 단계와,

상기 제 1 신호를 합성하기 위해 상기 선택된 피치 벨에 대해 중첩(overlap) 및 추가(add) 동작을 수행하는 단계를 포함하는

소리 신호 합성 방법.
제 1 항에 있어서,

상기 제 2 소리 신호는 노이즈 및 주기 성분을 포함하는 혼성 소리(a hybrid sound)인

소리 신호 합성 방법.
제 1 항 또는 제 2 항에 있어서,

상기 제 2 소리 신호는 유성 마찰 소리 신호(a voiced fricative sound signal)인

소리 신호 합성 방법.
제 1 항 또는 제 2 항에 있어서,

상기 제 2 소리 신호는 유성음 신호(a voiced sound signal)이고, 따라서 상승 코사인(a raised cosine)을 사용해서 상기 제 2 소리 신호를 윈도윙하는

소리 신호 합성 방법.
제 1 항 또는 제 2 항에 있어서,

상기 제 2 소리 신호는 무성 소리 신호(a unvoiced sound signal)이고, 따라서 사인 윈도우를 사용해서 상기 제 2 소리 신호를 윈도윙하는

소리 신호 합성 방법.
제 1 항 또는 제 2 항에 있어서,

상기 제 2 소리 신호는 스펙트럼적으로 유사한 주기를 가지며,

상기 스펙트럼적으로 유사한 주기는 기본적으로 동일한 정보 컨텐츠를 갖는

소리 신호 합성 방법.
제 1 항 또는 제 2 항에 있어서,

상기 필수 제 1 기본 주파수 및 상기 제 2 기본 주파수는 동일한

소리 신호 합성 방법.
제 2 기본 주파수를 갖는 제 2 소리 신호에 기초하여 필수 제 1 기본 주파수를 갖는 제 1 소리 신호를 합성하는 프로그램 수단을 포함하는 컴퓨터 판독가능 저장 매체로서,

상기 프로그램 수단은,

상기 제 1 기본 주파수의 한 주기만큼 이격된, 상기 제 1 소리 신호의 시간 영역 내의 필수 피치 벨 위치를 결정하는 단계와,

상기 제 2 기본 주파수의 한 주기만큼 이격된, 상기 제 2 소리 신호의 시간 영역 내의 피치 벨 위치 상의 상기 제 2 소리 신호를 윈도윙 함으로써 피치 벨들을 제공하는 단계와,

상기 필수 피치 벨 위치 각각에 대해 제공된 피치 벨들로부터 피치 벨을 임의로 선택하는 단계와,

상기 제 1 신호를 합성하기 위해 상기 선택된 피치 벨에 대해 중첩 및 추가 동작을 수행하는 단계를 수행하는

컴퓨터 판독가능 저장 매체.
제 2 기본 주파수를 갖는 제 2 소리 신호에 기초하여 필수 제 1 기본 주파수를 갖는 제 1 소리 신호를 합성하는 컴퓨터 시스템으로서,

상기 제 1 기본 주파수의 한 주기만큼 이격된, 상기 제 1 소리 신호의 시간 영역 내의 필수 피치 벨 위치를 결정하는 수단과,

상기 제 2 기본 주파수의 한 주기만큼 이격된, 상기 제 2 소리 신호의 시간 영역 내의 피치 벨 위치 상의 상기 제 2 소리 신호를 윈도윙 함으로써 피치 벨들을 제공하는 수단과,

상기 필수 피치 벨 위치 각각에 대해 제공된 피치 벨들로부터 피치 벨을 임의로 선택하는 수단과,

상기 제 1 신호를 합성하기 위해 상기 선택된 피치 벨에 대해 중첩 및 추가 동작을 수행하는 수단을 포함하는

컴퓨터 시스템.
제 9 항에 있어서,

원(original) 소리 신호 내의 상기 제 2 소리 신호를 포함하는 간격을 나타내는 데이터를 저장하기 위한 소리 분류 데이터 저장 수단을 더 포함하는

컴퓨터 시스템.
삭제
제 9 항에 있어서,

상기 컴퓨터 시스템은 텍스트-음성 합성 시스템(text-to-speech synthesis system)을 포함하는

컴퓨터 시스템.