KR101016978B1 - 소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템 - Google Patents

소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템 Download PDF

Info

Publication number
KR101016978B1
KR101016978B1 KR1020057004512A KR20057004512A KR101016978B1 KR 101016978 B1 KR101016978 B1 KR 101016978B1 KR 1020057004512 A KR1020057004512 A KR 1020057004512A KR 20057004512 A KR20057004512 A KR 20057004512A KR 101016978 B1 KR101016978 B1 KR 101016978B1
Authority
KR
South Korea
Prior art keywords
sound signal
pitch
fundamental frequency
signal
pitch bell
Prior art date
Application number
KR1020057004512A
Other languages
English (en)
Other versions
KR20050057372A (ko
Inventor
에르캔 에프 기기
Original Assignee
코닌클리즈케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리즈케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리즈케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050057372A publication Critical patent/KR20050057372A/ko
Application granted granted Critical
Publication of KR101016978B1 publication Critical patent/KR101016978B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 제 2 소리 신호에 기초해서 제 1 소리 신호를 합성하는 방법에 관한 것으로, 제 1 소리 신호는 필수 제 1 기본 주파수를 갖고, 제 2 소리 신호는 제 2 기본 주파수를 가지며, 이 방법은 a) 제 1 기본 주파수의 한 주기만큼 이격된, 제 1 소리 신호의 시간 영역 내의 필수 피치 벨 위치를 결정하는 단계와, b) 제 2 기본 주파수의 한 주기만큼 이격된, 제 2 소리 신호의 시간 영역 내의 피치 벨 위치 상의 제 2 소리 신호를 윈도윙함으로써 피치 벨을 제공하는 단계와, c) 필수 피치 벨 위치 각각에 대해 제공된 피치 벨로부터 피치 벨을 임의로 선택하는 단계와, d) 제 1 신호를 합성하기 위해 선택된 피치 벨에 대해 중첩 및 추가 동작을 수행하는 단계를 포함한다.

Description

소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템{METHOD OF SYNTHESIS FOR A STEADY SOUND SIGNAL}
본 발명은 음성 또는 음악을 합성하는(synthesizing) 분야에 관한 것으로, 보다 구체적으로는 텍스트-음성 합성(text-to-speech synthesis) 분야에 관한 것이다.
텍스트-음성 합성(TTS) 시스템의 기능은 주어진 언어의 일반적인 텍스트로부터 음성을 합성하는 것이다. 현재, TTS 시스템은 전화 네트워크를 통한 데이터베이스로의 액세스 또는 장애인을 지원하는 것과 같은 다수의 애플리케이션에서 실제 운영에 사용되고 있다. 음성을 합성하는 한 방법은 반음절 또는 다음절(polyphone)과 같은 녹음되어 있는 음성의 세부 단위의 세트의 요소들을 연결하는 것이다. 상업적으로 성공한 시스템의 대부분이 다음절의 연결을 이용하고 있다. 다음절은 2개(2음절), 3개(3음절) 또는 그 이상의 음절의 그룹을 포함하고, 이는 안정된 분석 영역(stable spectral regions)에서 원하는 음절의 그룹을 분할함으로써 무의미한 단어로부터 결정될 수 있다. 연결 기반 합성에서, 2개의 인접하는 음절 사이의 변이의 컨버세이션이 합성된 음성의 품질을 보장하는데 중요하다. 다음절을 기본 세부 단위로 선택함으로써, 2개의 인접 음절 사이의 변이가 녹음된 세부 단위 내에서 유지되고, 유사한 음절 사이에서 연결이 수행된다.
그러나, 합성하기 전에, 음절들은 이들 음절로 이루어지는 새로운 단어의 운율 조건을 만족시키도록 수정된 음량 및 피치를 가져야 한다. 이러한 처리는 단조로운 소리인 합성 음성이 나오는 것을 방지하는 데 필요하다. TTS 시스템에서, 이러한 기능은 운율 모듈이 수행한다. 녹음되어 있는 세부 단위 내에서 음량 및 피치 수정을 가능하게 하기 위해서, 많은 연결 기반 TTS 시스템은 TD-PSOLA(time-domain pitch-synchronous overlap-add)(E.Moulines와 F.Charpentier, "Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones, "Speech Commun., vol.9, pp.453-467, 1990)의 합성 모델을 사용한다. 합성될 신호가 연장된 음량을 가지려 할 때, 이는 원신호로부터 획득된 피치 벨을 반복함으로써 수행된다. 이 반복 처리가 도 1에 도시되어 있다. 시간 축(100)은 원신호의 시간 영역에 속한다. 원신호는 시간 축(100) 상에서 0과 T 사이의 시간을 갖는 T의 길이를 갖는다. 또한, 원신호는 주기 p에 대응하는 기본 주파수(f)를 갖고 있으며, 피치 벨은 윈도우(102)를 통해서 원신호를 윈도윙함으로써 원신호로부터 획득된다. 여기서 고려되는 실시예에서, 윈도우는 시간 축(100)의 영역에서 주기 p만큼 이격되어 있다. 이런 식으로, 피치 벨 위치 i가 시간 축(100) 상에서 결정된다. 시간 축(104)은 합성될 신호의 시간 영역에 속한다. 합성될 신호는 yT의 음량을 가질 필요가 있으며, 여기서 y는 임의의 수이다. 다음으로 다수의 피치 벨 위치 j가 시간 축(104) 상에서 결정된다. 시간 축(100) 상에서와 마찬가지로, 피치 벨 위치 j는 원신호의 기본 주파수 f에 대응하는 주기 p만큼 서로 이격되어 있다. 원신호의 음량을 증가시키기 위해서, 원신호로부터 획득된 원래의 피치 벨 각각은 y번 반복된다. 이로써 다수의 간격(106, 108...)이 시간 축(104) 영역에 형성되며, 각각의 간격(106, 108,...)은 같은 피치 벨의 반복으로 이루어진다. 예컨대 간격(106)은 피치 벨 위치 j(j=1, k=1)부터 j(j=1, k=y)까지에 있는 원신호로부터의 피치 벨 위치 i=1로부터 획득된 피치 벨의 반복을 포함한다. 이는 간격(106)이 원신호의 시간 축(100) 상의 피치 벨 위치 i=1로부터 획득된 피치 벨의 y번 반복을 포함한다는 것을 의미한다. 유사하게, 다음 간격(108)은 원신호의 시간 축(100) 상의 피치 벨 위치 i=2로부터 획득된 피치 벨의 y번 반복을 포함한다. 결과적으로 합성된 신호는 연결된 피치 벨 반복의 시퀀스로 이루어진다.
이러한 PSOLA 방법의 공통된 단점은 극단적인 음량의 조정은 시퀀스들 사이의 가청의 변이를 신호에 도입한다는 점이다. 특히, 이는 원래의 소리가 노이즈 및 주기 성분을 모두 갖는 유성 마찰음과 같은 혼성 소리일 때 문제가 된다. 피치 벨을 반복함으로써 노이즈 성분에 주기성을 도입시키고, 이는 합성된 신호 소리를 부자연스럽게 한다.
따라서, 본 발명은 특히 노래와 같이 극한적인 음량 변화에서, 소리 신호를 합성하는 개선된 방법을 제공하는 것을 목적으로 한다.
본 발명은 원래의 신호의 음량을 조정하기 위해서 원래의 신호에 기초해서 소리 신호를 합성하는 방법을 제공한다. 특히, 본 발명은 가청의 아티펙트 없이 원래의 신호의 극도의 음량 및 피치 변화를 가능하게 한다. 이는 특히 원신호의 4배 내지 100배 정도의 극한적인 음량 조정이 일어날 수 있는 노래의 합성에 유용하다.
기본적으로, 본 발명은, 한 일련의 반복하는 피치 벨로부터 다음 반복하는 피치 벨까지의 변이를 들을 수 있기 때문에, 종래의 PSOLA 방법이 음량 조정 이후에 합성 신호에 아티펙트를 도입시킨다는 연구에 기초하고 있다. 극도의 음량 조정에 대해서 종래의 PSOLA 타입의 방법이 사용될 때 경험하게 되는 이러한 현상은 노이즈 및 주기 성분을 모두 갖고 있는 혼성 소리에 대해서 특히 손해이다.
본 발명에 따라서, 피치 벨은 합성될 신호의 필요한 피치 벨 위치 각각에 대해서 원신호로부터 임의로 선택된다. 이런 식으로, 노이즈 성분에 주기성이 도입되는 것을 방지할 수 있어서, 원래 소리의 자연스러움이 보존된다. 본 발명의 바람직한 실시예에 따라서, 원래의 소리는 노이즈 및 주기 성분을 모두 가진 유성 마찰음이다. 본 발명을 이러한 유성 마찰음에 적용하면 특히 유익하다.
본 발명의 다른 바람직한 실시예에 따라서, 유성 마찰음의 윈도윙에 상승 코사인(raised cosine)이 사용된다. 무성음 간격에 대해서는, 사인 윈도우가 사용되며, 이는 제곱 영역의 전체 신호 인벨롭이 일정하게 유지된다는 이점이 있다. 주기 신호와는 다르게, 2개의 노이즈 샘플이 추가되면, 전체 합이 2개의 샘플 중 어느 하나의 절대값보다 작을 수 있다. 이는 신호가 (대부분) 동상이 아니기 때문이며, 사인 윈도우가 이러한 효과를 조정해서, 인벨롭-모듈레이션을 제거한다.
본 발명의 다른 바람직한 실시예에 따라서, 원래의 소리 신호는 스펙트럼적으로 유사하며, 기본적으로 같은 정보 컨텐츠를 가진 주기를 갖는다. 유성인 주기는 제 1 분류자에 의해 분류되며, 무성인 주기는 제 2 분류자에 의해 분류된다.
본 발명의 또 다른 실시예에 따라서, 원신호의 분류 정보는 텍스트-음성 시스템과 같은 컴퓨터 시스템에 저장된다. 스펙트럼적으로 유사한 유성 또는 무성 스태디(steady) 주기로 분류된 원신호의 간격이 본 발명에 따라서 처리되면, 여기서 유성 간격에 대해서는 상승 코사인 윈도우가 사용되고, 무성 간격에 대해서는 사인 윈도우가 사용된다.
이하, 본 발명의 실시예가 도면을 참조하면서 더 상세하게 설명될 것이다.
도 1은 종래의 PSOLA 타입의 방법을 도시하는 도면,
도 2는 본 발명에 따라 소리 신호를 합성하는 예를 도시하는 도면,
도 3은 본 발명의 방법의 실시예의 흐름도를 도시하는 도면,
도 4는 원신호와 합성 신호의 예를 도시하는 도면,
도 5는 컴퓨터 시스템의 바람직한 실시예의 블록도.
도 2는 원신호에 기초해서 신호를 합성하는 예를 도시하고 있다. 시간 축(200)은 원신호의 시간 영역을 나타낸다. 원신호는 음량(T)을 갖고 있으며, 시간 축(200) 상에서 0과 T 사이의 시간에 걸쳐있다. 원신호는 주기 p에 대응하는 기본 주파수 f를 갖고 있다. 주기 p은 윈도우(202)를 통한 원신호의 윈도윙을 위해서 시간 축(200) 상에서 위치 i를 결정한다. 여기서 고려되는 실시예에서, 원신호는 다음 공식에 따라서 코사인 윈도우가 사용되는 유성의 혼성 소리이다.
Figure 112005013823343-pct00001
위의 관계식에서, m은 윈도우의 길이를 나타내고, n은 실행 인덱스이다.
원신호가 무성음 신호이면, 다음 윈도우를 사용하는 것이 바람직하다.
Figure 112005013823343-pct00002
합성될 신호의 시간 영역이 시간 축(204)에 도시되어 있다. 합성될 신호는 yT의 음량을 가져야 하며, 여기서 y는 예컨대 y=4 또는 y=6 또는 y=20 또는 y=50 또는 y=100과 같은 임의의 수이다.
주기 p는 시간 축(204)에서 피치 벨 위치 j도 결정한다. 시간 축(200)에서도 유사하게 피치 벨 위치는 주기 p 만큼 서로 이격되어 있다. 각각의 필수 피치 벨 위치 j에 대해서, 시간 축(200)의 시간 영역에서 피치 벨 i의 위치를 임의로 선택한다. 여기서 고려되는 실시예에서, 시간 축(200)의 시간 영역의 원신호의 윈도윙에 의해서 획득된 피치 벨은 6개이다. 피치 벨 위치 j에 대해서 획득된 이들 피치 벨 중 하나를 선택하기 위해서, 1과 6 사이 중 임의의 수가 생성된다. 이런 식으로, 피치 벨 위치 i=1 내지 i=6에서 사용 가능한 피치 벨로부터 임의로 하나를 선택한다. 이러한 처리는 시간 축(204) 상의 모든 필요한 피치 벨 위치 j에 대해서 반복된다. 예컨대 필요한 피치 벨 위치 j=1의 피치 벨이 1과 6 중 임의의 수를 생성함으로써 생성된다. 여기서 고려되는 실시예에서, 수 6이 획득되어서, 시간 축(200) 상의 피치 벨 위치 i=6으로부터 획득되는 피치 벨이 시간 축(204) 상의 필수 피치 벨 위치 j=1에 대해서 선택된다. 유사하게, 필수 피치 벨 위치 j=2에 대해서 무작위 수가 생성된다. 이 실시예에서, 무작위 수는 4로, 시간 축(200) 상의 피치 벨 위치 i=4의 피치 벨이 필수 피치 벨 위치 j=2에 대해서 선택된다. 이러한 처리는 시간 축(204) 상의 모든 필수 피치 벨 위치 j=1 내지 j=z에 대해서 수행된다. 원신호의 영역으로부터 피치 벨의 위치를 임의로 선택하기 때문에, 간격(106, 108,...)(도 1과 비교)은 방지된다. 결과적으로, 심지어 극도의 음량 조정이 이루어지는 경우에도 이러한 아티펙트가 합성 신호에 도입되지 않아서 합성 신호 소리가 자연스럽다.
도 3은 이러한 방법을 나타내는 흐름도이다. 단계(300)에서, 원래의 소리를 녹음하는 단계가 제공된다. 단계(302)에서, 혼성 소리 간격이 원래의 소리 녹음에서 유성음인지 무성음인지 분류된다. 이는 전문가가 수동으로 행하거나 컴퓨터 프로그램을 사용해서 행해지며, 이로써 스태디 주기 동안의 원래의 신호 및/또는 주파수 스펙트럼을 분석한다. 첫번째 분석은 프로그램을 통해서 수행하고, 전문가가 프로그램의 출력을 검토하는 것이 바람직하다. 단계(304)에서, 피치 벨은 윈도윙을 통해서 원래의 소리 신호로부터 획득된다. 윈도윙은 원래의 소리 신호의 기본 주파수와 동기식으로 위치된 윈도우를 사용해서 수행되며, 즉 윈도우가 원래의 소리 신호의 영역에서 원래의 소리 신호의 주기 p 만큼 이격된다. 단계(306)에서, 신호를 합성하기 위해서 피치 벨이 필요한 피치 벨 위치 j가 결정된다. 다시 필요한 피치 벨 위치 j는 주기 p만큼 이격되어 있다. 다른 방안으로, 피치 벨 위치 j는 합성될 신호의 더 높거나 더 낮은 필수 기본 주파수에 대응하는 다른 주기 q만큼 이격될 수 있다. 이런 식으로, 음량 및 주파수가 수정될 수 있다. 단계(308)에서, 혼성로 분류된 소리 간격 내의 필요한 피치 벨 위치 j 각각에 대해서, 피치 벨의 무작위 선택이 행해진다. 다른 소리 간격에 대해서, PSOLA 타입의 방법이 사용되거나 사용되지 않을 수 있다. 단계(310)에서, 합성된 신호의 영역에서 피치 벨 위치 j 상에서 피치 벨이 중첩되거나 추가된다.
도 4는 /z/에서 /z/변이의 2음절인 원래의 소리 신호(400)의 예를 도시하고 있다. 또한 소리 신호(400)의 주파수 스펙트럼(402)도 도 4에 도시되어 있다.
본 발명에 따라서 합성된 소리 신호(404)의 시간 영역에서 필수 피치 벨 위치에 대해서 소리 신호(400)로부터 획득된 피치 벨을 임의로 선택함으로써, 소리 신호(404)가 소리 신호(400)로부터 획득된다. 본 발명에서 고려되는 예시에서, 합성된 소리 신호(404)는 원 소리 신호(400)보다 y=5배 더 길다. 소리 신호(404)의 주파수 스펙트럼(406)도 도 4에 도시되어 있다. 소리 신호(404) 및 그 주파수 스펙트럼으로부터 분명한 바와 같이, 원래의 소리 신호(400)의 특성이 합성된 신호에서도 보존되며, 아티펙트는 도입되지 않는다. 결과적으로, 소리 신호(404)는 소리 신호(400)와 동일하지만 5배 더 길다.
도 5는 텍스트-음성 합성 시스템과 같은 컴퓨터 시스템의 블록도를 도시하고 있다. 컴퓨터 시스템(500)은 원래의 소리 신호를 저장하는 모듈(502)을 포함한다. 모듈(504)은 모듈(503)에 저장된 원래의 소리 신호에 대한 소리 분류 정보를 입력하고 저장하는 역할을 한다. 예컨대, 원래의 소리 신호에서 스태디 유성 주기는 'r'로 표시되고, 스태디 무성 주기는 's'로 표시된다. 모듈(506)은 피치 벨을 획득하기 위해서 모듈(502)의 원래의 소리 신호를 윈도윙하는 역할을 한다. 소리 분류에 따라서, 상승된 코사인 또는 사인 윈도우가 각각 스태디 유성 주기 또는 스태디 무선 주기에 대해서 사용된다. 모듈(508)은 합성될 신호의 시간 영역에서 필수 피치 벨 위치 j를 결정하는 역할을 한다. 필수 피치 벨 위치 j를 결정하기 위해서 입력 파라미터 '길이 y'가 사용된다. 입력 파라미터 길이 y는 원래의 신호의 음량의 배수를 나타낸다. 또한, 음량에 더해서, 또는 그 대신에 기본 주파수를 수정하는 추가적인 입력 파라미터로서 동적으로 변하는 피치를 제공할 수 있다.
모듈(510)은 원래의 소리 신호로부터 획득된 피치 벨의 세트로부터 피치 벨을 선택한다. 모듈(510)은 의사 랜덤 수 생성기(512)에 연결된다. 각각의 필수 합성 신호의 영역 내의 각각의 피치 벨 위치에 대해서, 의사 랜덤 수가 의사 랜덤 수 생성기(512)에 의해 생성된다. 모듈(510)에서, 합성될 신호의 시간 영역의 필수 피치 벨 위치 각각에 대해서 이들 랜덤 수를 사용해서 피치 벨 세트로부터 피치 벨이 선택된다. 모듈(514)은 합성될 신호의 시간 영역 내에서 선택된 피치 벨에 대해서 중첩 및 추가 동작을 수행하는 역할을 한다. 이런식으로, 필요한 음량을 가진 합성 신호가 획득된다.
본 발명이 스태디 영역에 적용될 수 있다는 점에 주의한다. 예컨대, 이러한 스태디 영역은 모음 또는 /z/ 소리와 노이즈 같은 유성음이 될 수 있다. 따라서 본 발명은 '혼성' 소리에 한정되는 것이 아니다.
또한, 합성 신호가 원신호와 같은 피치(기본 주파수)를 가질 필요가 없다는 점에 주의한다. 일부 실시예에서는, 예컨대 노래를 합성하기 위해서 피치를 변화시켜야 한다. 이러한 합성 신호에서의 기본 주파수의 변화를 수행하기 위해서, 합성 신호 내의 주기 위치는 원신호보다 더 가깝거나 더 멀어질 것이다. 이것은 그 외의 합성 절차를 변화시키지 않는다.
또한, 본 발명이 특정 윈도우의 선택에 한정되는 것이 아니라는 점에 주의한다. 상승 코사인 또는 사인 윈도우 대신에 삼각 윈도우와 같은 다른 윈도우가 사용될 수 있다.

Claims (12)

  1. 제 2 기본 주파수를 갖는 제 2 소리 신호에 기초하여 필수 제 1 기본 주파수를 갖는 제 1 소리 신호를 합성하는 방법으로서,
    상기 제 1 기본 주파수의 한 주기만큼 이격된, 상기 제 1 소리 신호의 시간 영역 내의 필수 피치 벨(pitch bell) 위치를 결정하는 단계와,
    상기 제 2 기본 주파수의 한 주기만큼 이격된, 상기 제 2 소리 신호의 시간 영역 내의 피치 벨 위치 상의 상기 제 2 소리 신호를 윈도윙(windowing) 함으로써 피치 벨들을 제공하는 단계와,
    상기 필수 피치 벨 위치 각각에 대해 제공된 피치 벨들로부터 피치 벨을 임의로 선택하는 단계와,
    상기 제 1 신호를 합성하기 위해 상기 선택된 피치 벨에 대해 중첩(overlap) 및 추가(add) 동작을 수행하는 단계를 포함하는
    소리 신호 합성 방법.
  2. 제 1 항에 있어서,
    상기 제 2 소리 신호는 노이즈 및 주기 성분을 포함하는 혼성 소리(a hybrid sound)인
    소리 신호 합성 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 제 2 소리 신호는 유성 마찰 소리 신호(a voiced fricative sound signal)인
    소리 신호 합성 방법.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 제 2 소리 신호는 유성음 신호(a voiced sound signal)이고, 따라서 상승 코사인(a raised cosine)을 사용해서 상기 제 2 소리 신호를 윈도윙하는
    소리 신호 합성 방법.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 제 2 소리 신호는 무성 소리 신호(a unvoiced sound signal)이고, 따라서 사인 윈도우를 사용해서 상기 제 2 소리 신호를 윈도윙하는
    소리 신호 합성 방법.
  6. 제 1 항 또는 제 2 항에 있어서,
    상기 제 2 소리 신호는 스펙트럼적으로 유사한 주기를 가지며,
    상기 스펙트럼적으로 유사한 주기는 기본적으로 동일한 정보 컨텐츠를 갖는
    소리 신호 합성 방법.
  7. 제 1 항 또는 제 2 항에 있어서,
    상기 필수 제 1 기본 주파수 및 상기 제 2 기본 주파수는 동일한
    소리 신호 합성 방법.
  8. 제 2 기본 주파수를 갖는 제 2 소리 신호에 기초하여 필수 제 1 기본 주파수를 갖는 제 1 소리 신호를 합성하는 프로그램 수단을 포함하는 컴퓨터 판독가능 저장 매체로서,
    상기 프로그램 수단은,
    상기 제 1 기본 주파수의 한 주기만큼 이격된, 상기 제 1 소리 신호의 시간 영역 내의 필수 피치 벨 위치를 결정하는 단계와,
    상기 제 2 기본 주파수의 한 주기만큼 이격된, 상기 제 2 소리 신호의 시간 영역 내의 피치 벨 위치 상의 상기 제 2 소리 신호를 윈도윙 함으로써 피치 벨들을 제공하는 단계와,
    상기 필수 피치 벨 위치 각각에 대해 제공된 피치 벨들로부터 피치 벨을 임의로 선택하는 단계와,
    상기 제 1 신호를 합성하기 위해 상기 선택된 피치 벨에 대해 중첩 및 추가 동작을 수행하는 단계를 수행하는
    컴퓨터 판독가능 저장 매체.
  9. 제 2 기본 주파수를 갖는 제 2 소리 신호에 기초하여 필수 제 1 기본 주파수를 갖는 제 1 소리 신호를 합성하는 컴퓨터 시스템으로서,
    상기 제 1 기본 주파수의 한 주기만큼 이격된, 상기 제 1 소리 신호의 시간 영역 내의 필수 피치 벨 위치를 결정하는 수단과,
    상기 제 2 기본 주파수의 한 주기만큼 이격된, 상기 제 2 소리 신호의 시간 영역 내의 피치 벨 위치 상의 상기 제 2 소리 신호를 윈도윙 함으로써 피치 벨들을 제공하는 수단과,
    상기 필수 피치 벨 위치 각각에 대해 제공된 피치 벨들로부터 피치 벨을 임의로 선택하는 수단과,
    상기 제 1 신호를 합성하기 위해 상기 선택된 피치 벨에 대해 중첩 및 추가 동작을 수행하는 수단을 포함하는
    컴퓨터 시스템.
  10. 제 9 항에 있어서,
    원(original) 소리 신호 내의 상기 제 2 소리 신호를 포함하는 간격을 나타내는 데이터를 저장하기 위한 소리 분류 데이터 저장 수단을 더 포함하는
    컴퓨터 시스템.
  11. 삭제
  12. 제 9 항에 있어서,
    상기 컴퓨터 시스템은 텍스트-음성 합성 시스템(text-to-speech synthesis system)을 포함하는
    컴퓨터 시스템.
KR1020057004512A 2002-09-17 2003-08-05 소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템 KR101016978B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02078848 2002-09-17
EP02078848.5 2002-09-17

Publications (2)

Publication Number Publication Date
KR20050057372A KR20050057372A (ko) 2005-06-16
KR101016978B1 true KR101016978B1 (ko) 2011-02-25

Family

ID=32010977

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057004512A KR101016978B1 (ko) 2002-09-17 2003-08-05 소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템

Country Status (11)

Country Link
US (1) US7558727B2 (ko)
EP (1) EP1543497B1 (ko)
JP (1) JP4490818B2 (ko)
KR (1) KR101016978B1 (ko)
CN (1) CN100343893C (ko)
AT (1) ATE329346T1 (ko)
AU (1) AU2003250410A1 (ko)
DE (1) DE60305944T2 (ko)
ES (1) ES2266908T3 (ko)
TW (1) TWI307876B (ko)
WO (1) WO2004027753A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60305716T2 (de) * 2002-09-17 2007-05-31 Koninklijke Philips Electronics N.V. Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
JP5141688B2 (ja) * 2007-09-06 2013-02-13 富士通株式会社 音信号生成方法、音信号生成装置及びコンピュータプログラム
US9640172B2 (en) * 2012-03-02 2017-05-02 Yamaha Corporation Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods
CN103295574B (zh) * 2012-03-02 2018-09-18 上海果壳电子有限公司 唱歌语音转换设备及其方法
CN103295577B (zh) * 2013-05-27 2015-09-02 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
CN108831437B (zh) * 2018-06-15 2020-09-01 百度在线网络技术(北京)有限公司 一种歌声生成方法、装置、终端和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208960B1 (en) 1997-12-19 2001-03-27 U.S. Philips Corporation Removing periodicity from a lengthened audio signal

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4344148A (en) * 1977-06-17 1982-08-10 Texas Instruments Incorporated System using digital filter for waveform or speech synthesis
FR2636163B1 (fr) 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
US5357048A (en) * 1992-10-08 1994-10-18 Sgroi John J MIDI sound designer with randomizer function
IT1266943B1 (it) 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JPH09198089A (ja) * 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US6170073B1 (en) * 1996-03-29 2001-01-02 Nokia Mobile Phones (Uk) Limited Method and apparatus for error detection in digital communications
JP4040126B2 (ja) * 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6026356A (en) * 1997-07-03 2000-02-15 Nortel Networks Corporation Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP3576840B2 (ja) * 1997-11-28 2004-10-13 松下電器産業株式会社 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
US6253171B1 (en) * 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
US6829577B1 (en) * 2000-11-03 2004-12-07 International Business Machines Corporation Generating non-stationary additive noise for addition to synthesized speech
JP2002244693A (ja) * 2001-02-16 2002-08-30 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
US7251601B2 (en) * 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
EP1543500B1 (en) * 2002-09-17 2006-02-22 Koninklijke Philips Electronics N.V. Speech synthesis using concatenation of speech waveforms
CN1682281B (zh) * 2002-09-17 2010-05-26 皇家飞利浦电子股份有限公司 在语音合成中用于控制持续时间的方法
DE60305716T2 (de) * 2002-09-17 2007-05-31 Koninklijke Philips Electronics N.V. Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208960B1 (en) 1997-12-19 2001-03-27 U.S. Philips Corporation Removing periodicity from a lengthened audio signal

Also Published As

Publication number Publication date
JP2005539262A (ja) 2005-12-22
EP1543497A1 (en) 2005-06-22
DE60305944T2 (de) 2007-02-01
AU2003250410A1 (en) 2004-04-08
CN1682278A (zh) 2005-10-12
JP4490818B2 (ja) 2010-06-30
KR20050057372A (ko) 2005-06-16
DE60305944D1 (de) 2006-07-20
ATE329346T1 (de) 2006-06-15
EP1543497B1 (en) 2006-06-07
WO2004027753A1 (en) 2004-04-01
TW200425059A (en) 2004-11-16
ES2266908T3 (es) 2007-03-01
CN100343893C (zh) 2007-10-17
TWI307876B (en) 2009-03-21
US20060178873A1 (en) 2006-08-10
US7558727B2 (en) 2009-07-07

Similar Documents

Publication Publication Date Title
US8326613B2 (en) Method of synthesizing of an unvoiced speech signal
Macon et al. A singing voice synthesis system based on sinusoidal modeling
HU176776B (en) Method and apparatus for synthetizing speech
Macon et al. Concatenation-based midi-to-singing voice synthesis
KR101016978B1 (ko) 소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템
US7596497B2 (en) Speech synthesis apparatus and speech synthesis method
CN100508025C (zh) 合成语音的方法和设备及分析语音的方法和设备
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP6834370B2 (ja) 音声合成方法
JPH09179576A (ja) 音声合成方法
JP3310217B2 (ja) 音声合成方法とその装置
JP3515268B2 (ja) 音声合成装置
US20060074675A1 (en) Method of synthesizing creaky voice
JPS59204098A (ja) 音声合成装置
Macon et al. E. Bryan George** School of Electrical and Computer Engineering, Georgia Institute of Technology, Atlanta, GA 30332-0250
KR20060027645A (ko) 감정정보 음색변환 장치 및 그 방법
JP2001092480A (ja) 音声合成方法
JPH04281495A (ja) 音声波形ファイル装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140214

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150211

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160211

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170206

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180212

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190213

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20200115

Year of fee payment: 10