KR100624439B1 - 유/무성음 합성방법 - Google Patents

유/무성음 합성방법 Download PDF

Info

Publication number
KR100624439B1
KR100624439B1 KR1020040084876A KR20040084876A KR100624439B1 KR 100624439 B1 KR100624439 B1 KR 100624439B1 KR 1020040084876 A KR1020040084876 A KR 1020040084876A KR 20040084876 A KR20040084876 A KR 20040084876A KR 100624439 B1 KR100624439 B1 KR 100624439B1
Authority
KR
South Korea
Prior art keywords
frame
voice
unvoiced
speech
sound
Prior art date
Application number
KR1020040084876A
Other languages
English (en)
Other versions
KR20060035397A (ko
Inventor
김동관
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040084876A priority Critical patent/KR100624439B1/ko
Publication of KR20060035397A publication Critical patent/KR20060035397A/ko
Application granted granted Critical
Publication of KR100624439B1 publication Critical patent/KR100624439B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2101/00Indexing scheme relating to the type of digital function generated
    • G06F2101/04Trigonometric functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 삼각함수법 음성부호화기에서의 유/무성음 합성방법에 관한 것으로서, 본 발명에 의한 유/무성음 합성방법은 종래의 기술에 의한 유성음 합성 과정에 하이브리드 위상을 추가하여 합성하되, 음성부호화기로부터 유성음 정보를 전송받은 경우에는 하이브리드 위상을 0으로 하고, 무성음 정보를 전송받은 경우에는 하이브리드 위상을 직전 프레임의 위상과 현재 프레임의 위상을 선형적으로 연결하는 직선 상에서 소정의 편차 범위 내에서 변하는 난수 중 하나를 선택하는 것을 특징으로 한다.
본 발명에 의하면, 계산시간이 단축되고, 무성음의 원음색을 더욱 정확하게 표현할 수 있으며, 무성음을 생성하기 위한 과정이 종래 기술의 유성음 생성 과정에 흡수됨으로써 그 구현이 간결한다.

Description

유/무성음 합성방법{Method for synthesizing voiced/unvoiced speech}
도 1은 종래의 기술에 의한 음성 합성기의 구성을 도시한 블록도이다.
도 2는 종래의 기술에 의한 음성 합성기에 의해 생성된 시간 영역의 음성파형을 도시한 것이다.
도 3은 본 발명에 의해 도 1의 유성음 합성기와 무성음 합성기가 하나의 블록으로 결합된 것을 도시한 것이다.
도 4는 화자의 음성에서 음성 프레임의 기본 주파수를 구하는 방법에 대한 흐름도를 도시하고 있다.
본 발명은 음성부호화기에서의 음성 합성에 관한 것으로서, 특히 삼각함수법 음성부호화기(Sinusoidal vocoder)에서의 음성 합성방법에 관한 것이다.
도 1에 의하면, 종래의 음성 합성기는 음성 신호를 유성음과 무성음으로 분리하여 각각 합성하고, 최종적으로 이들을 결합함으로써 완전한 음성을 생성한다. 즉, 삼각함수법 음성부호화기로부터 전달받은 위상(Φl), 기본 주파수(ωo) 및 진폭 (Ml)를 이용하여 유성음 정보 v가 전송된 경우에는 유성음 합성기(voiced speech synthesis)(10)를 이용하여 음성을 생성하고, 무성음 정보 uv가 전송된 경우에는 무성음 합성기(unvoiced speech synthesis)(12)를 이용하여 음성을 생성한다.
종래의 기술에 의한 무성음 합성기(12)에 의해 무성음을 합성하는 과정은 다음과 같다.
음성의 한 분석구간인 프레임 단위로 구성된 랜덤 노이즈 u(n)를 구하고, 이 랜덤 노이즈를 고속 퓨리에 변환(fast Fourier transform : 이하 FFT라 한다)하여 U(w)를 구한다. 음성 하모닉에 대응하는 이 스펙트럼의 영역은 0으로 설정된다. 음성의 무성음 부분에 대응하는 나머지 스펙트럼 성분은 다음과 같이 무성음 하모닉 크기로 정상화된다.
Figure 112004048318990-pat00001
여기서, al 및 bl은 임의의 음성 프레임에 대한 FFT 스펙트럼 상에서 무성음 구간을 나타내는 인덱스로서, 무성음 부분에 해당하는 주파수 빈의 위치를 나타낸다.
한편, γw는 다음과 같이 정해지는 고정된 가중요소이다.
Figure 112004048318990-pat00002
여기서, WS(n)은 합성기 윈도우이고, WR(n)은 FFT를 취하기 위하여 사용한 윈도우이고, S+1은 그 윈도우의 크기이다. 무성음 영역에서는 위상이 변경되지 않는 것으로 하여, 원래의 노이즈 시퀀스의 위상에 대응한다. 변경된 노이즈 스펙트럼
Figure 112006031400569-pat00003
의 역 변환은 그 프레임에서의 음성의 무성음 부분
Figure 112006031400569-pat00004
에 대응한다. 그러나, 합성기 윈도우의 길이가 프레임의 크기보다 크기 때문에 각 세그먼트에 대하여 무성음은 인접하는 프레임에 중첩한다. 따라서, 중첩 영역에서 이들 시퀀스를 평균하기 위하여 가중된 중첩과정이 이용된다.
Figure 112004048318990-pat00005
여기에서,
Figure 112004048318990-pat00006
는 j번째 프레임의 n번째 샘플에 대응하고, j와 j-1은 현재와 직전 프레임을 나타낸다.
도 2에는 종래의 기술에 의한 음성 합성기에 의해 생성된 시간 영역의 음성(원 음성, 합성음의 유성음 부분, 합성음의 무성음 부분 및 합성음) 파형을 도시한 다.
상술한 바와 같이, 종래의 기술에 의한 음성합성기에 의하면, 무성음 합성과정에서 고속 퓨리에 변환 뿐만 아니라 역 고속 퓨리에 변환(inverse fast Fourier transform : 이하 IFFT라 한다)이 요구되므로 계산시간이 길다. 뿐만 아니라, 수학식 1의 U(m)에서 사용하는 위상 정보는 실제 무성음이 갖고 있는 위상과는 다르다. 그럼에도 불구하고, 종래의 기술에서는 U(m)에서 생성된 위상을 원래의 무성음의 위상인 것처럼 가정하고 음성을 생성하는 단점을 갖는다.
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 삼각함수법 음성부호화기에서 단일 과정에 의해 유성음 및 무성음을 합성하는 유/무성음 합성방법을 제공함을 그 목적으로 한다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 화자의 음성 프레임에서 유성음과 프레임을 합성하는 방법은 (a)상기 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 각 음성 프레임에 대한 기본 주파수(ωo)를 결정하는 단계; (b)삼각함수법 음성부호화기로부터 전달받은 위상(Φl), 진폭(Ml) 및 v/uv(유성음/무성음) 정보를 전송받는 단계; (c)음성 프레임의 n번째 샘플에 대하여, l번째 하모닉이 현재의 프레임에 대해서는 무성음이고, 직전의 프레임에 대해서는 유성음인 경우, 수학식
Figure 112004048318990-pat00007
에 의해 음성을 합성하는 단계; (d)음성 프레임의 n번째 샘플에 대하여, l번째 하모닉이 현재의 프레임에 대해서는 유성음이고, 직전의 프레임에 대해서도 유성음이면서 일정하지 않은 상태의 음성인 경우 또는 현재의 프레임에 대해서는 무성음이고, 직전의 프레임에 대해서도 무성음이면서 일정하지 않은 상태의 음성인 경우에는, 수학식
Figure 112004048318990-pat00008
여기서,
Figure 112004048318990-pat00009
Figure 112004048318990-pat00010
에 의해 음성을 합성하는 단계; 및 (e)음성 프레임의 n번째 샘플에 대하여, l번째 하모닉이 현재의 프레임에 대해서는 유성음이고, 직전의 프레임에 대해서도 유성음이면서 일정한 상태의 음성인 경우 또는 현재의 프레임에 대해서는 무성음이고, 직 전의 프레임에 대해서도 무성음이면서 일정한 상태의 음성인 경우에는, 수학식
Figure 112006031400569-pat00040
여기서,
Figure 112004048318990-pat00012
Figure 112004048318990-pat00013
에 의해 음성을 합성하는 단계를 포함하되,
상기 삼각함수법 음성부호화기로부터 v를 전송받은 경우에는 상기 ΔA, ΔB1, ΔB2, ΔC를 0으로 두고, uv를 전송받은 경우에는 상기 ΔA, ΔB1 , ΔB2, ΔC를 직전 프레임의 위상 θl(0)과 현재 프레임의 위상 θl(N)을 선형적으로 연결하는 직선 상에서 소정의 편차 내에서 변하는 난수 중 하나를 선택하는 것을 특징으로 한다(여기서, wS(n)은 음성합성기 윈도우이고, N은 음성합성기 프레임의 크기이고, L은 하모닉의 최대갯수이고, j는 현재 프레임이고, j-1은 직전 프레임이다).
이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 3에 의하면, 본 발명에 의한 음성 합성기(30)는 도 1에 도시된 종래의 음성 합성기와 같이 삼각함수법 음성부호화기로부터 전달받은 위상(Φl), 진폭(Ml) 및 v/uv(유성음/무성음) 정보를 전달받는다. 한편, 상기 음성 프레임에 대한 기본 주파수는 상기 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 획득된다. 상기 기본 주파수는 상기 삼각함수법 음성부호화기를 통해 획득되거나 다른 기본 주파수 측정부를 통해 획득될 수 있다. 본 발명에 따른 음성 합성기(30)는 위상(Φl), 진폭(Ml), v/uv(유성음/무성음) 및 기본 주파수(ωo) 정보를 이용하여 음성을 합성한다.
그러나, 본 발명에 의한 음성 합성기는 유성음/무성음 정보에 따라 별도의 음성 합성기를 사용하지 않고 단일 블록에 의해 음성을 합성한다.
이하에서 그 과정을 상세히 설명한다.
(1) 먼저, 음성 프레임의 n번째 샘플에 대하여, l번째 하모닉이 현재의 프레임에 대해서는 무성음이고, 직전의 프레임에 대해서는 유성음인 경우, 즉 v1(j)=0, v1(j-1)=1인 경우에는 다음 수학식에 의해 음성이 합성된다.
Figure 112004048318990-pat00014
여기서, N은 음성합성기 프레임의 크기이고, L은 하모닉의 최대갯수이다.
(2) 음성 프레임의 n번째 샘플에 대하여, l번째 하모닉이 현재의 프레임에 대해서는 유성음이고, 직전의 프레임에 대해서도 유성음이면서 일정하지 않은 상태의 음성인 경우 또는 현재의 프레임에 대해서는 무성음이고, 직전의 프레임에 대해서도 무성음이면서 일정하지 않은 상태의 음성인 경우에는, 즉 v1(j)=1, v1(j-1)=1, 그리고
Figure 112004048318990-pat00015
인 경우 또는 v1(j)=0, v1(j-1)=0, 그리고
Figure 112004048318990-pat00016
인 경우에는 다음 수학식에 의해 음성이 합성된다(여기에서 ρ는 소정의 값으로 전형적으로 0.1이 사용된다).
Figure 112004048318990-pat00017
여기서,
Figure 112004048318990-pat00018
Figure 112004048318990-pat00019
(3) 음성 프레임의 n번째 샘플에 대하여, l번째 하모닉이 현재의 프레임에 대해서는 유성음이고, 직전의 프레임에 대해서도 유성음이면서 일정한 상태의 음성 인 경우 또는 현재의 프레임에 대해서는 무성음이고, 직전의 프레임에 대해서도 무성음이면서 일정한 상태의 음성인 경우에는, 즉 v1(j)=1, v1(j-1)=1, 그리고
Figure 112004048318990-pat00020
인 경우 또는 v1(j)=0, v1(j-1)=0, 그리고
Figure 112004048318990-pat00021
인 경우에는 다음 수학식에 의해 음성이 합성된다.
Figure 112006031400569-pat00041
여기서, 음성 프레임 처음과 마지막의 연속성을 확보하기 위하여, 수학식 6에서의 n 번째 샘플의 진폭 함수 al(n)은 다음 수학식을 사용하여 현재 프레임의 추정값과 이전 프레임의 값을 선형적으로 보간한다.
Figure 112004048318990-pat00023
이와 유사하게 l번째 하모닉의 위상은 다음과 같이 표현된다.
Figure 112004048318990-pat00024
여기서,
Figure 112004048318990-pat00025
Figure 112004048318990-pat00026
Figure 112004048318990-pat00027
여기서, Luv는 무성음 하모닉의 갯수이고, L은 하모닉의 전체 개수이고, φl은 [-π,π]의 범위에 균일하게 분포된 난수를 생성하는 노이즈 생성기이고, ψl은 다음과 같이 계산된다.
Figure 112004048318990-pat00028
음성의 합성시, 음성부호화기로부터 유성음 정보 v를 전송받은 경우에는 유성음을 생성하게 되고, 이 때에는 수학식 4, 수학식 6, 수학식 7, 수학식 8에 각각 포함된 ΔA, ΔB1, ΔB2, ΔC는 모두 0의 값을 갖도록 한다.
한편, 음성부호화기로부터 무성음 정보 uv를 전송받은 경우에는 무성음을 생성하게 되고, 이 때에는 수학식 4, 수학식 6, 수학식 7, 수학식 8에 각각 포함된 ΔA, ΔB1, ΔB2, ΔC는 직전 프레임의 위상 θl (0)과 현재 프레임의 위상 θl(N)을 선형적으로 연결하는 직선 상에서 소정의 편차 σ 내에서 변하는 값으로 결정한다. 따라서, 그 값의 범위는 [θl(0), θl(0)-θl(N)]이 된다.
도 4는 화자의 음성에서 음성 프레임의 기본 주파수를 구하는 방법에 대한 흐름도를 도시하고 있다. 도 4를 참고로, 음성 신호의 프레임에 소정의 윈도우 신호를 곱하여 윈도우된 신호에 대한 정규화 자기 상관 함수를 계산한다(단계 410). 상기 윈도우된 신호에 대한 정규화 자기 상관 함수로부터 후보 기본 주파수를 결정한다(단계 420). 상기 음성 신호에 대한 후보 기본 주파수들은 상기 윈도우된 신호에 대한 정규화 자기 상관 함수에서 소정의 제1 임계값(TH1)을 초과하는 피크 값으로부터 결정된다. 상기 결정된 후보 기본 주파수들에 대한 주기와 상기 주기의 주기성을 나타내는 주기 평가값(pr)을 보간(interpolate)한다(단계 430). 상기 기본 주파수는 상기 윈도우된 신호에 대한 정규화 자기 상관 함수의 피크 값으로부터 평가된 후보 기본 주파수로부터 유도된다.
상기 보간된 주기의 주기 평가값(pr)에 기초하여, 제2 임계값(TH2) 이상의 보간 주기 평가값을 가지는 후보 기본 주파수들을 선택하고(이하에서 상기 제2 임계값 이상의 보간 주기 평가값을 가지는 후보 기본 주파수들을 앵커 기본 주파수라 한다), 상기 앵커 기본 주파수들에 대한 가우시안 분포(Gaussian distribution)를 생성한다(단계 440). 상기 생성된 가우시안 분포들 중에서 제3 임계값(TH3) 이하의 거리에 있는 가우시안 분포를 통합(cluster)하여 통합 가우시안 분포를 생성하고, 상기 생성된 통합 가우시안 분포들 중에서 제4 임계값(TH4)을 초과하는 가능도(likelihood)를 가지는 적어도 1개 이상의 통합 가우시안 분포를 선택한다(단계 450).
상기 윈도우된 신호에 대한 정규화 자기 상관 함수의 피크 값으로부터 결정된 후보 기본 주파수들과 상기 선택된 통합 가우시안 분포에 기초하여, 상기 음성 신호의 각 프레임에 대한 후보 기본 주파수들에 대해 동적 프로그램(dynamic programming)을 실행한다(단계 460). 각 프레임에 대한 후보 기본 주파수들에 대해 동적 프로그램을 실행하는 동안, 각 프레임의 후보 기본 주파수에 대한 거리값이 저장되며, 마지막 프레임(N)까지 상기 동적 프로그램을 실행하여 가장 큰 거리값을 가지는 후보 기본 주파수가 상기 마지막 프레임에 대한 기본 주파수로 추적된다. 상기 가장 큰 거리값을 가지는 경로의 후보 기본 주파수들로부터 각 프레임에 대한 기본 주파수를 결정하게 된다.
본 발명에 의하면, 첫째, 무성음 합성에서 IFFT 과정이 필요하지 않으므로 계산시간이 단축된다.
둘째, 음성의 분석에서 구해진 기본 파라메터인 ω0와 이로부터 추정되는 위상을 근간으로 하여 무성음 자체가 갖는 위상의 무작위성을 추가함으로써, 무성음의 원음색을 더욱 정확하게 표현할 수 있다.
셋째, 무성음을 생성하기 위한 과정이 종래 기술의 유성음 생성 과정에 흡수됨으로써 그 구현이 간결한다.

Claims (2)

  1. 화자의 음성 프레임에서 유성음과 프레임을 합성하는 방법에 있어서,
    (a) 상기 음성 프레임에 대한 정규화 자기 상관 함수의 피크치로부터 상기 음성 프레임의 후보 기본 주파수를 결정하고, 상기 후보 기본 주파수와 상기 후보 기본 주파수로부터 생성된 통합 가우시안 분포들에 따라 상기 음성 프레임에 대한 동적 프로그램을 실행하여 각 음성 프레임에 대한 기본 주파수(ωo)를 결정하는 단계;
    (b)삼각함수법 음성부호화기로부터 전달받은 위상(Φl), 진폭(Ml) 및 v/uv(유성음/무성음) 정보를 전송받는 단계;
    (c) 음성 프레임의 n번째 샘플에 대하여, l번째 하모닉이 현재의 프레임에 대해서는 무성음이고, 직전의 프레임에 대해서는 유성음인 경우, 수학식
    Figure 112006031400569-pat00029
    에 의해 음성을 합성하는 단계;
    (d) 음성 프레임의 n번째 샘플에 대하여, l번째 하모닉이 현재의 프레임에 대해서는 유성음이고, 직전의 프레임에 대해서도 유성음이면서 일정하지 않은 상태의 음성인 경우 또는 현재의 프레임에 대해서는 무성음이고, 직전의 프레임에 대해서도 무성음이면서 일정하지 않은 상태의 음성인 경우에는, 수학식
    Figure 112006031400569-pat00030
    여기서,
    Figure 112006031400569-pat00031
    Figure 112006031400569-pat00032
    에 의해 음성을 합성하는 단계; 및
    (e) 음성 프레임의 n번째 샘플에 대하여, l번째 하모닉이 현재의 프레임에 대해서는 유성음이고, 직전의 프레임에 대해서도 유성음이면서 일정한 상태의 음성인 경우 또는 현재의 프레임에 대해서는 무성음이고, 직전의 프레임에 대해서도 무성음이면서 일정한 상태의 음성인 경우에는, 수학식
    Figure 112006031400569-pat00042
    여기서,
    Figure 112006031400569-pat00034
    Figure 112006031400569-pat00035
    에 의해 음성을 합성하는 단계를 포함하되,
    상기 삼각함수법 음성부호화기로부터 v를 전송받은 경우에는 상기 ΔA, ΔB1, ΔB2, ΔC를 0으로 두고, uv를 전송받은 경우에는 상기 ΔA, ΔB1, ΔB2, ΔC를 직전 프레임의 위상 θl(0)과 현재 프레임의 위상 θl(N)을 선형적으로 연결하는 직선 상에서 소정의 편차 내에서 변하는 난수 중 하나를 선택하는 것을 특징으로 하는 유/무성음 합성방법(여기서, wS(n)은 음성합성기 윈도우이고, N은 음성합성기 프레임의 크기이고, L은 하모닉의 최대갯수이고, j는 현재 프레임이고, j-1은 직전 프레임이다).
  2. 제 1 항에 있어서, 상기 (a) 단계는
    (a1)음성 신호의 프레임에 윈도우 신호(W(t))를 곱하여 윈도우된 신호(Sw(t))에 대한 정규화 자기 상관 함수(Ro(i))를 계산하고 상기 윈도우된 신호에 대한 정규화 자기 상관 함수의 피크 값으로부터 후보 기본 주파수들을 결정하는 단계;
    (a2)상기 결정된 후보 기본 주파수들에 대한 주기와 상기 주기의 주기성을 나타내는 주기 평가값을 보간하는 단계;
    (a3)제1 임계값(TH1) 이상의 상기 보간 주기 평가값을 가지는 각 프레임의 후보 기본 주파수들에 대한 가우시안 분포를 생성하는 단계;
    (a4)상기 가우시안 분포들 중에서 제2 임계값(TH2) 이하의 거리에 있는 가우시안 분포를 통합하여 통합 가우시안 분포를 생성하고, 상기 생성된 가우시안 분포들 중에서 제3 임계값(TH3)을 초과하는 가능도(likelihood)를 가지는 적어도 1개 이상의 통합 가우시안 분포를 선택하는 단계; 및
    (a5)상기 각 프레임의 후보 기본 주파수들과 상기 선택된 통합 가우시안 분포들에 기초하여, 상기 프레임들에 대해 동적 프로그램(dynamic programming)을 실행하여 상기 각 프레임의 기본 주파수를 결정하는 단계를 포함하는 것을 특징으로 하는 유/무성음 합성방법.
KR1020040084876A 2004-10-22 2004-10-22 유/무성음 합성방법 KR100624439B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040084876A KR100624439B1 (ko) 2004-10-22 2004-10-22 유/무성음 합성방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040084876A KR100624439B1 (ko) 2004-10-22 2004-10-22 유/무성음 합성방법

Publications (2)

Publication Number Publication Date
KR20060035397A KR20060035397A (ko) 2006-04-26
KR100624439B1 true KR100624439B1 (ko) 2006-09-15

Family

ID=37143965

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040084876A KR100624439B1 (ko) 2004-10-22 2004-10-22 유/무성음 합성방법

Country Status (1)

Country Link
KR (1) KR100624439B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292672B (zh) * 2023-11-27 2024-01-30 厦门大学 一种基于矫正流模型的高质量语音合成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000020200A (ko) * 1998-09-18 2000-04-15 윤종용 유/무성음 합성방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000020200A (ko) * 1998-09-18 2000-04-15 윤종용 유/무성음 합성방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
1020000020200

Also Published As

Publication number Publication date
KR20060035397A (ko) 2006-04-26

Similar Documents

Publication Publication Date Title
Morise et al. World: a vocoder-based high-quality speech synthesis system for real-time applications
Agiomyrgiannakis Vocaine the vocoder and applications in speech synthesis
US8280724B2 (en) Speech synthesis using complex spectral modeling
Mowlaee et al. Interspeech 2014 special session: Phase importance in speech processing applications
KR100225687B1 (ko) 음성 분석 및 음성 합성 방법
US7092881B1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
Tabrikian et al. Maximum a-posteriori probability pitch tracking in noisy environments using harmonic model
US10510363B2 (en) Pitch detection algorithm based on PWVT
JP2003513339A (ja) 信号分析方法及び装置
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
Morise Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error
JP5141397B2 (ja) 音声処理装置およびプログラム
Pannala et al. Robust Estimation of Fundamental Frequency Using Single Frequency Filtering Approach.
Marafioti et al. Audio inpainting of music by means of neural networks
Mittal et al. Significance of aperiodicity in the pitch perception of expressive voices
Roebel et al. Analysis and modification of excitation source characteristics for singing voice synthesis
Amado et al. Pitch detection algorithms based on zero-cross rate and autocorrelation function for musical notes
Stahl et al. A pitch-synchronous simultaneous detection-estimation framework for speech enhancement
KR100624439B1 (ko) 유/무성음 합성방법
Verfaille et al. Adaptive digital audio effects
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
JP4469986B2 (ja) 音響信号分析方法および音響信号合成方法
Kafentzis et al. Pitch modifications of speech based on an adaptive harmonic model
Rigaud et al. Drum extraction from polyphonic music based on a spectro-temporal model of percussive sounds
KR100383668B1 (ko) 시간 분리 부호화 알고리즘을 이용한 음성 부호화기 및부호화 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee