KR20080113111A - 가우시안 혼합 모델 기반 변환에서의 소프트 정렬 - Google Patents

가우시안 혼합 모델 기반 변환에서의 소프트 정렬 Download PDF

Info

Publication number
KR20080113111A
KR20080113111A KR1020087028160A KR20087028160A KR20080113111A KR 20080113111 A KR20080113111 A KR 20080113111A KR 1020087028160 A KR1020087028160 A KR 1020087028160A KR 20087028160 A KR20087028160 A KR 20087028160A KR 20080113111 A KR20080113111 A KR 20080113111A
Authority
KR
South Korea
Prior art keywords
sequence
vector
source
data
vectors
Prior art date
Application number
KR1020087028160A
Other languages
English (en)
Other versions
KR101103734B1 (ko
Inventor
질레이 티안
야니 누르미넨
빅토르 포파
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20080113111A publication Critical patent/KR20080113111A/ko
Application granted granted Critical
Publication of KR101103734B1 publication Critical patent/KR101103734B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

가우시안 혼합 모델 (GMM) 기반 및 다른 벡터 변환들에서의 소프트 정렬을 수행하는 시스템들 및 방법들이 제공된다. 소프트 정렬은 소스 및 타겟 피쳐 벡터 쌍들에 대해 정렬 확률들을 할당할 수도 있다. 그러면 그 벡터 쌍들 및 연관된 확률들은, 예를 들어 결합 벡터들 및 정렬 확률들로부터 GMM 훈련 파라미터들을 컴퓨팅함으로써, 변환 기능을 계산하여 소스 화자로부터 타겟 화자로 발화 사운드들을 변환하기 위한 음성 변환 기능을 생성하는데 사용될 수도 있다.

Description

가우시안 혼합 모델 기반 변환에서의 소프트 정렬{Soft alignment in gaussian mixture model based transformation}
본 개시물은, 예를 들어 음성 변환 기능 (voice conversion function)의 생성을 위한 가우시안 혼합 모델 (Gaussian Mixture Model; GMM) 기반 기술을 이용하는, 스칼라들 또는 벡터들의 변환에 관한 것이다.
음성 변환은 소스 화자(speaker)의 음성 특질들 (예: 음조(pitch), 발음(pronunciation))을 타겟 화자의 그것들로 조절하는 것(adaptation)이다. 최근의 시기에, 음성 변환 시스템들 및 다른 관련된 변환 모델들의 효율적인 생성을 위한 응용(application)들에 대한 관심은 상당히 높아졌다. 이러한 시스템들을 위한 하나의 응용은 개성화된(individualized) 문자음성변환 (text-to-speech; TTS) 시스템들에서의 음성 변환의 사용자에 관련된다. 서로 다른 화자들로부터의 발화(speech) 벡터들의 효율적인 변환들 및 음성 변환 기술 없이는, 새로운 음성들은 단지, 대량의 레코딩들 및 수작업 어노테이션들(annotations)과 같이, 시간낭비적이고 고비용의 프로세스들을 이용하여서만 생성될 수 있다.
잘 알려진 GMM 기반 벡터 변환은, 소스 및 타겟 화자들의 피쳐(feature) 벡터들에 기초하여 결합(joint) 피쳐 벡터들을 생성하고, 그리고 나서, 그 결합 벡터 들을 사용하여 GMM 파라미터들을 훈련시키고(training) 그리고 궁극적으로는 소스 및 타겟 음성들 간 변환 기능을 생성함으로써, 음성 변환 및 다른 변환 응용들에서 사용될 수 있다. 전형적인 음성 변환 시스템들은 다음의 세 주요 단계들을 포함한다: 피쳐 추출 (feature extractiion), 소스 및 타겟 화자들의 추출된 피쳐 벡터들 간 정렬(alignment) 및 정렬된 소스 및 타겟 벡터들에 대한 GMM 훈련. 전형적인 시스템들에서, 소스 벡터 시퀀스 및 타겟 벡터 시퀀스 간 벡터 정렬은 GMM 파라미터들을 훈련시키거나 또는 변환 기능을 생성하기 전에 수행되어야 한다. 예를 들어, 만일 서로 다른 두 화자들로부터의 일련의 등가적 발성(발언)들 (equivalent utterances)이 레코딩된다면, 변환 기능을 만들려고 시도하기 전에, 대응되는 발성들이 양쪽 레코딩들에서 식별되어야 한다 (identified). 이 개념은 소스 및 타겟 벡터들의 정렬(alignment)로서 알려져 있다.
벡터 정렬에 관한 기존의 기술들은, 전형적으로, 예를 들어 인간 전문가들에 의해 수동적으로, 그렇지 않으면 동적 시간 워핑 (dynamic time warping; DTW) 프로세스에 의해 자동적으로, 수행된다. 그러나, 수동 정렬 및 DTW 양자 모두는 벡터 변환의 전체적인 품질 및 효율성에 부정적으로 강한 영향을 줄 수 있는 상당한 약점들을 가진다. 예를 들면, 양쪽 방식들은 모두 "하드 정렬"(hard alignment)의 개념에 의지한다. 즉, 각 소스 벡터는 정확히 하나의 타겟 벡터와 완전히 정렬되도록 결정되거나 또는 전혀 정렬되지 않도록 결정되고, 각 타겟 벡터에 대해서도 또한 마찬가지이다.
도 1을 참조하면, 기존의 하드 정렬 방식의 예가 소스 벡터 시퀀스(110) 및 타겟 벡터 시퀀스(120) 간에 제시된다. 벡터 시퀀스들(110, 120)은 각각 피쳐 벡터들 x1-x16 및 y1-y12로 이루어진 집합들을 포함하고, 여기서 각 피쳐 벡터 (발화 벡터)는 예를 들어 더 큰 음성 세그먼트(segment)에서의 기본적 발화 사운드를 나타낼 수도 있다. 이들 벡터 시퀀스들(110, 120)은, 예를 들어 같은 단어 또는 구(phrase)를 발화하는 두 명의 다른 사람들의 오디오 레코딩들로부터 형성된 벡터 시퀀스들과 같이 등가적일 수도 있다 (즉 다수의 같은 발화 피쳐들을 포함할 수도 있다). 도 1에서 보여지는 바와 같이, 등가적인 벡터 시퀀스들일지라도 종종 다른 개수들의 벡터들을 포함하고, 또한 시퀀스 내 서로 다른 위치들에서 등가적인 발화 피쳐들(예: x16 및 y12)을 가질 수도 있다. 예를 들면, 소스 화자는 타겟 화자보다 더 느리게 일정 사운드들을 발음할 수도 있고, 또는 그 타겟 화자보다 사운드들 간에 약간 더 길게 멈출 수도 있는 등등이 있다. 따라서, 소스 및 타겟 벡터들 간의 일대일 하드 정렬은 대개 어느 정도의 피쳐 벡터들 (예: x4, x5, x10, ...)을 폐기하는 결과를 가져오거나 또는 정렬 매칭(alignment matching)을 위한 부가적인 쌍들을 생성하기 위해 피쳐 벡터들을 복제(duplication)하거나 삽입(interpolation)하는 결과를 가져온다. 결과적으로, 작은 정렬 오차(error)들이 더 큰 오차들로 확대될 수도 있고, 전체적인 정렬 프로세스는 더 복잡해지고 더 비용이 발생하게 될 수도 있다. 결국, 하드 정렬은 간단히 말하면 많은 경우들에 있어서 불가능할 수도 있다. 인간의 발화로부터 추출된 피쳐 벡터들은 대개 최고의 인간 전문가들 또는 어떠한 DTW 자동 작업에 의해서조차도 완전하게 정렬될 수 없다. 따라서, 하드 정 렬은 그것이 완벽하게 수행될지라도 어느 정도의 오차를 수반한다.
하드 정렬 방식으로부터 발생되는 정렬 오차 확대의 예로서, 도 2는 벡터 변환을 위해 정렬되는 소스 시퀀스(210) 및 타겟 시퀀스(220)의 블록 다이어그램을 보여준다. 시퀀스들(210, 220)은 이 예에서 동일하지만(identical), 별개의 패러티(parity)들 상에서 두 개마다 배제되었다(decimated). 따라서, 많은 실제세계에서의 시나리오들에서처럼, 완벽한 일대일 피쳐 벡터 매칭은, 완전하게 정렬된 소스-타겟 벡터 쌍들이 이용가능하지 않기 때문에, 불가능하다. 하드 정렬 방식을 사용할 때, 각 타겟 벡터는 그것의 최근접 소스 벡터와 짝지어져 있고 그 쌍은 그 후에 완벽하게 그리고 완전하게 정렬되는 것으로 가정된다. 따라서, 다른 근처의 벡터들은 정렬 프로세스에서 고려되지 않기 때문에 정렬 오차들은 탐지되지 않거나 또는 고려되지 않을 수도 있다. 결과적으로, 하드 정렬 방식은 데이터 모델 내 잡음(noise)을 도입하는 것, 정렬 에러를 증가시키는 것을 발생시킬 수도 있고, 정렬 프로세스에 있어서의 더 큰 복잡성을 일으킬 수도 있다.
이에 따라, 음성 변환을 위한 GMM 기반 변환들과 같은 벡터 변환들을 위해 데이터 시퀀스들을 정렬하는 방법들 및 시스템들이 필요하다.
전술한 배경기술에 비추어, 다음에서 본 발명의 몇몇의 측면들의 기초적인 이해를 제공하기 위해 본 개시물의 단순화된 설명을 제공한다. 이 설명은 본 발명의 광대한 개관은 아니다. 그것은 본 발명의 주요 또는 결정적인 요소들을 식별하거나 또는 본 발명의 범위를 묘사하고자 하는 것은 아니다. 다음의 설명은 단지 아래에서 제공되는 더 상세한 실시예에 대한 서두로서 단순화된 형식으로 본 발명의 몇몇 개념들을 나타낼 뿐이다.
본 개시물의 하나의 측면에 따르면, 소스 및 타겟 벡터들 간 정렬은, 변환 프로세스, 예를 들어 소스 화자 및 타겟 화자 간 발화 벡터들의 가우시안 혼합 모델 (GMM) 기반 변환 동안, 수행될 수도 있다. 소스 및 타겟 벡터들은, 변환 모델들 및 변환 기능들의 생성에 앞서, 각 소스-타겟 벡터 쌍이 일대일로 완전하게 정렬될 필요가 없도록 소프트 정렬 방식을 사용하여, 정렬된다. 대신에, 단일의 소스 또는 타겟 벡터를 포함하는 다수의 벡터 쌍들은, 각 쌍 편성에 대한 정렬 확률을 따라, 식별될 수도 있다. 결합 피쳐 벡터들의 시퀀스는 그 벡터 쌍들 및 연관된 확률들에 기초하여 생성될 수도 있다.
본 개시물의 또 하나의 측면에 따르면, 변환 모델 예컨대 GMM 모델 및 벡터 변환 기능은 소스 및 타겟 벡터들 및 추정되는 정렬 확률들에 기반하여 컴퓨팅될 수도 있다. 변환 모델 파라미터들은 추정 알고리즘들, 예컨대 기대값-최대화(Expectation-maximization) 알고리즘에 의해 결정될 수도 있다. 이들 파라미터들로부터, 모델 훈련 및 변환 피쳐들이 생성될 수도 있고, 다음의 소스 및 타겟 벡터들을 변환하기 위한 변환 기능도 마찬가지이다.
따라서, 본 개시물의 몇몇 측면들에 따라, 예를 들어 음성 변환에서 사용되는 GMM기반 변환들에서 소프트 정렬을 사용함으로써 자동적인 벡터 정렬이 향상될 수도 있다. 개시된 소프트 정렬 기술들은 정렬 오차들을 감소시키고 벡터 변환들을 수행시 증가된 효율성 및 품질을 가능하게 할 수도 있다.
따라서 일반적인 용어들로 본 발명을 기술하면서, 이제 첨부된 도면들에 대한 언급이 이루어질 것이고, 여기서 이 도면들은 반드시 일정한 비례로 그려진 것은 아니다.
도 1은 벡터 변환에서 사용하기 위한 기존의 하드 정렬 방식을 도해하는 라인 다이어그램 (line diagram)이다.
도 2는 벡터 변환에서 사용하기 위한 기존의 하드 정렬 방식을 도해하는 블록 다이어그램으로, 도2는 추적 기기(tracking device)의 블록 다이어그램을 도해한다.
도 3은 본 개시물의 측면들에 따라, 컴퓨팅 기기를 도해하는 블록 다이어그램이다.
도 4는 본 개시물의 측면들에 따라, 소스 및 타겟 벡터 시퀀스들 간 소프트 정렬을 수행하기 위한 도해적 단계들을 보여주는 흐름도이다.
도 5는 본 개시물의 측면들에 따라, 벡터 변환에서 사용하기 위한 소프트 정렬 방식을 도해하는 라인 다이어그램이다.
도 6은 본 개시물의 측면들에 따라, 벡터 변환에서 사용하기 위한 소프트 정렬 방식을 도해하는 블록 다이어그램이다.
다양한 실시예들에 관한 이하의 기술에서, 첨부된 도면들, 즉 본 발명이 실행될 수도 있는 다양한 실시예들이 예시로서 제시되고, 이 문서의 일부를 구성하는 첨부된 도면들을 참조한다. 다른 실시예들이 활용될 수도 있고 구조적 및 기능적 변형예들이 본 발명의 범위와 사상을 벗어남이 없이 만들어질 수도 있다는 것이 이해되어야 할 것이다.
도 3은 본 발명의 예시적인 실시예에 따라 사용될 수도 있는 일반적인 컴퓨팅 기기(301)의 블록 다이어그램을 예시한다. 기기(301)는 그 컴퓨팅 기기의 전체적인 동작을 제어하기 위한 프로세서(303) 및 그것과 연관된 콤포넌트들 - 이는 RAM(305), ROM(307), 입력/출력 모듈(309) 및 메모리(315)를 포함 - 을 구비할 수도 있다.
I/O(309)는 기기(301)의 사용자가 입력을 제공할 수도 있게 하는 마이크로폰, 키패드, 터치스크린 및/또는 스타일러스(stylus)를 포함할 수도 있고, 또한 오디오 출력을 제공하기 위한 하나 이상의 스피커(speaker) 및 문자적인, 시청각적인 및/또는 그래픽적인 출력을 제공하기 위한 비디오 디스플레이 기기를 포함할 수도 있다.
메모리(315)는, 운영 시스템(317), 어플리케이션 프로그램들(319) 및 연관 데이터(321)와 같이, 기기(301)에 의해 사용되는 소프트웨어를 저장할 수도 있다. 예를 들면, 본 발명의 예시적인 실시예에 따라 기기(301)에 의해 사용되는 하나의 어플리케이션 프로그램(321)은 이 문서에서 기술되는 것과 같은 벡터 정렬 방식들 및 음성 변환 알고리즘들을 수행하기 위한 컴퓨터 실행가능 명령들을 포함할 수도 있다.
도 4를 참조하면, 흐름도가, 예를 들어, GMM 벡터 변환에서 사용되는 변환 기능의 생성을 기술하며 제시된다. 이 예에서, 그 기능은 음성 변환 / 발화 변환에 관련되고, 소스 및 타겟 화자의 발화 특질들을 나타내는 벡터들의 변환을 수반할 수도 있다. 그러나, 본 개시물이 이러한 용도들로 제한되는 것은 아니다. 예를 들어, 임의의 가우시안 혼합 모델 (GMM) 기반 변환, 또는 스칼라나 벡터 정렬을 요구하는 다른 데이터 변환들 (data transformations)이 본 개시물과 함께 사용될 수도 있다. GMM-기반 기술들에 더하여, 본 개시물은, 예를 들어, 코드북(codebook)-기반 벡터 변환 및/또는 음성 변환과 같은, 다른 기술들을 사용하는 벡터 변환들 및 데이터 변환에 관련될 수도 있다.
단계(401)에서, 소스 및 타겟 피쳐 벡터들이 수신된다. 이 예에서, 그 피쳐 벡터들은 소스 화자 및 타겟 화자에 의해 만들어지고, 그리고 디지털로 표현되는 데이터 벡터들로 레코딩되고 분절되는(segmented) 등가적 발성들에 대응할 수도 있다. 더 구체적으로는, 그 소스 및 타겟 벡터들은, 음조 또는 선 스펙트럼 주파수 (line spectral frequency; LSF)와 같이, 화자 음성의 일정한 특질에 각각 기초할 수도 있다. 이 예에서, 소스 화자와 연관된 피쳐 벡터들은 변수 x = [x1, x2, x3 ... xt ...xm]에 의해 표현될 수도 있고, 반면 타겟 화자와 연관된 피쳐 벡터들은 변수 y = [y1, y2, y3 ... yt ... yn]에 의해 표현될 수도 있다 - 여기서 xt 및 yt는 시간 t에서의 화자 벡터들이다.
단계(402)에서, 정렬 확률들이, 서로 다른 소스-타겟 벡터 쌍들에 대해, 예를 들어 컴퓨팅 기기(301)에 의해 추정된다. 이 예에서, 그 정렬 확률들은, 데이터 분포 모델에서 관찰가능한 파라미터들로부터 미지의 또는 숨겨진 파라미터들을 추출하는 것에 관련된 통계적 모델들, 은닉 마코브 모델들 (Hidden Markov Models; HMM)에 관련된 기술들을 사용하여 추정될 수도 있다. 예를 들어, 소스 및 타겟 벡터 시퀀스들에서의 각각 개별적인 벡터는, 시간 단위(time unit)마다 한 번씩 상태(state)를 변경하는 좌-우 유한 상태 머신 (left-to-right finite state machine)에 의해 생성될 수도 있다. 이러한 유한 상태 머신들은 마코브 모델들 (Markov Models)로서 알려질 수도 있다. 게다가, 정렬 확률들은 또한 훈련 가중치들(training weights), 예를 들어 GMM 기반 변환을 위한 훈련 파라미터들을 생성하는데 사용되는 가중치(weight)들을 나타내는 값들일 수도 있다. 따라서, 정렬 확률은 확률 범위 (예: 0에서 1까지, 또는 0에서 100까지) 내 값으로서 표현될 필요는 없고, 다만 변환에서 사용되는 훈련 가중치 방식에서의 소정의 가중치에 해당하는 값일 수도 있다.
소스 및 타겟 벡터 시퀀스들에서의 더 작은 벡터 집합들은, 음소(phoneme), 즉 발화의 기본 단위를 나타내거나 그것에 속할 수도 있다. 음소는 단어의 의미에 영향을 끼치는 최소 사운드 단위에 해당할 수 있다. 예를 들어, 단어 "book"에서의 음소 'b'는 단어 "took"에서의 음소 't' 또는 단어 "hook"에서의 음소 'h'와 대조되어 그 발화된 단어의 의미에 영향을 미친다. 따라서, 또한 피쳐 벡터들로도 알려진, 소스 및 타겟 벡터 시퀀스들로부터의, 짧은 벡터 시퀀스들 또는 심지어는 개별적인 벡터들은, 이들 'b', 't', 및 'h' 사운드들에 또는 다른 기본적인 발화 사운드들에 대응할 수도 있다. 피쳐 벡터들은, 사운드 프레임들(sound frames)과 같은, 음소들보다 더 작은 사운드 단위들을 나타낼 수도 있어서, 변환에서 캡쳐되는 시간 및 발음 정보는 더욱 더 정확해질 수도 있다. 하나의 실시예에서, 개별적인 피쳐 벡터는 짧은 발화 세그먼트, 예를 들어, 10 밀리세컨드(milliseconds)를 나타낼 수도 있다. 그때, 유사한 크기의 피쳐 벡터들의 집합은 함께 음소를 나타낼 수도 있다. 피쳐 벡터는 또한 더 큰 발화 세그먼트에서의 두 음소들 간의 전환기(transition)와 같이, 발화의 경계 세그먼트를 나타낼 수도 있다.
각 HMM 하부단어 모델 (subword model)은 하나 이상의 상태들에 의해 표현될 수도 있고, HMM 하부단어 모델들의 전체 집합은, 결합 피쳐 벡터들의 상태 시퀀스 M, 또는 상태들로 이루어져 있는, 복합 HMM 모델을 형성하도록 연접될(concatenate) 수도 있다. 예를 들어, 복합 HMM 모델은 언어내적(intra-lingual) 언어 음성 변환 (language voice conversion)을 위한 화자-무관 음소 기반 HMM들의 집합을 연접시킴으로써 생성될 수도 있다. 다른 예로서, 복합 HMM 모델은 심지어 언어간(cross-lingual) 언어 음성 변환을 위한 언어-무관 음소 기반 HMM들의 집합을 연접시켜 생성될 수도 있다. 상태 시퀀스 M의 각 상태 j에서, 시간 t에서의 소스의 j번째 상태 점유의 확률은 LSj(t)로서 표시될 수도 있고, 반면에 같은 시간 t에서의 같은 상태 j에 관한 타겟 점유의 확률은 LTj(t)로서 표시될 수도 있다. 이들 값들의 각각은, 예를 들어, 특히 HMM 모델들에 관한 문맥(context)에 있어서, 관찰되는 이벤트들의 시퀀스의 확률을 계산하기 위해 관련 기술분야에서 숙련된 자들이 공통적으로 알고 있는, 포워드-백워드 알고리즘 (forward-backward algorithm)을 이용하여, 컴퓨팅 기기(301)에 의해, 계산될 수도 있다. 이 예에서, 소스의 j번째 상태 점유의 포워드(forward) 확률은 다음의 등식을 사용하여 컴퓨팅될 수도 있다:
Figure 112008079524100-PCT00001
.
반면 소스의 j번째 상태 점유의 백워드(backward) 확률은 유사한 등식을 사용하여 컴퓨팅될 수도 있다:
Figure 112008079524100-PCT00002
.
따라서, 시간 t에서의 소스의 j번째 상태 점유의 총 확률은 다음의 등식으로 컴퓨팅될 수도 있다:
Figure 112008079524100-PCT00003
소스 및 타겟 시퀀스에서의 다양한 시간들 및 상태들에서의 점유 확률은 유사하게 컴퓨팅될 수도 있다. 즉, 상기의 수학식 1 내지 3에 해당하는 등식들은 타겟 화자의 피쳐 벡터들에 적용될 수도 있다. 또한, 이들 값들은 소스-타겟 벡터 쌍이 정렬되는 확률을 컴퓨팅하는데 사용될 수도 있다. 이 예에서, 잠재적으로 정렬되는 소스-타겟 벡터 쌍 (예: xp T 및 yq T, 여기서 xp는 시간 p에서의 소스 화자의 피쳐 벡터이고, yq는 시간 q에서의 타겟 화자의 피쳐 벡터)에 대하여, 피쳐 벡터들 xp 및 yq가 정렬되는 확률을 나타내는 정렬 확률 (PApq)은 다음의 등식을 사용하여 계산될 수도 있다:
Figure 112008079524100-PCT00004
.
단계(403)에서, 결합 피쳐 벡터들이 소스-타겟 벡터들에 기초하여, 그리고 소스 및 타겟 벡터 쌍들의 정렬 확률들에 기초하여 생성된다. 이 예에서, 그 결합 벡터들은 zk = zpq = [xp T, yq T, PApq]T로서 정의될 수도 있다. 본 개시물에서 기술되는 결합 피쳐 벡터들은 소프트 정렬될 수도 있기 때문에, 정렬 확률 PApq는, 다른 정렬 방식들에서처럼, 단순히 0 도는 1일 필요는 없다. 오히려, 소프트 정렬 방식에서는, 정렬 확률 PApq는, 단지 비정렬 또는 정렬을 나타내는 불리언 값 (Boolean value) (예; 0 또는 1) 이 아닌, 어떠한 값도 될 수도 있다. 따라서, 비-불리언(non-Boolean) 확률 값들, 예컨대, 0과 1 사이의 연속 범위 내 비정수 값들은 소스 및 타겟 벡터 쌍 간 정렬 가능성을 나타내기 위해 불리언 값들과 마찬가지로 사용될 수도 있다. 게다가, 상기에서 언급한 바와 같이, 정렬 확률은 또한, 특정 확률로의 맵핑(mapping)보다는 오히려, 훈련 가중치와 같은 가중치를 나타낼 수도 있 다.
단계(404)에서, 단계(403)에서 결정된 결합 벡터 시퀀스에 기초하여, 예를 들어, 컴퓨팅 기기(301)에 의해, 변환 모델 파라미터들이 컴퓨팅된다. 모델 기능들 또는 변환 기능들을 위한 적절한 파라미터들의 결정은, 대개 혼합 모델들, 또는 유사한 "빠진 데이터"(missing data) 문제들의 문맥에서의 추정으로서 알려져 있다. 즉, 모델에서 관찰되는 데이터 포인트들 (즉, 소스 및 타겟 벡터 시퀀스들)은 데이터를 모델링하는데 사용되는 분포로 구성원을 가지는 것으로 가정될 수도 있다. 그 구성원은 처음에는 미지이지만, 개별 모델 분포들에서의 데이터 포인트들의 구성원으로서 표현되는 그 데이터 포인트들에 대한 연결들을 이용하여, 선택된 변환 기능들을 위해 적절한 파라미터들을 선택함으로써 계산될 수도 있다. 그 파라미터들은, 예를 들어, GMM 기반 변환을 위한 훈련 파라미터들일 수도 있다.
이 예에서, GMM 훈련 파라미터들을 계산하기 위해 기대값-최대화 알고리즘이 사용될 수도 있다. 이 2-단계 알고리즘에서, 사전 확률 (prior probability)은 기대값 단계에서 다음의 등식으로 측정될 수도 있다:
Figure 112008079524100-PCT00005
.
최대화 단계는, 이 예에서, 다음의 등식에 의해 계산될 수도 있다:
Figure 112008079524100-PCT00006
.
어떤 실시예들에서는, 피쳐들의 별도 집합이 단계(404)에서 GMM 훈련 및 변환을 위해 생성될 수도 있다는 것을 유념하여야 한다. 즉, 소프트 정렬 피쳐 벡터들은 GMM 훈련 및 변환 피쳐들과 같은 필요는 없다.
최종적으로, 단계(405)에서, 소스 모델 x에서 타겟 모델 y로 피쳐를 변환할 수도 있는 변환 모델, 예컨대 변환 기능이 생성된다. 이 예에서의 변환 기능은 다음의 등식으로 표현될 수도 있다:
Figure 112008079524100-PCT00007
이제 이 변환 기능, 또는 모델 기능은, 추가적인 소스 벡터들 예컨대 소스 화자로부터의 발화 신호 벡터들을, 타겟 벡터들로 변환하기 위해 사용될 수도 있다. 음성 변환에 적용시의 소프트 정렬되는 GMM 기반 벡터 변환들은, 예를 들어, 문자음성변환(TTS) 응용의 일부로서, 발화 벡터들을 대응하는 개성화된 타겟 화자로 변환하도록 사용될 수도 있다. 도 5를 참조하면, 소스 및 타겟 벡터 시퀀스들에 대한 정렬 확률 추정들의 생성에 관련된 본 개시물의 측면을 도해하는 블록 다이어그램이 제시된다. 소스 피쳐 벡터 시퀀스(510)는 5개의 발화 벡터들(511-515)을 포함하고, 반면에 타겟 피쳐 벡터 시퀀스(520)는 단지 3개의 발화 벡터들(521-523)만 을 포함한다. 상기에서 언급한 바와 같이, 이 예는, 서로 다른 개수들의 피쳐 벡터들을 소스 및 타겟이 가지는, 다른 공통적인 벡터 변환 시나리오들을 예시할 수도 있다. 이러한 경우들에서, 많은 기존의 방법들은, 양 시퀀스들이 같은 수의 벡터들을 포함하고 일대일로 짝지어질 수 있도록, 벡터 정렬 동안 피쳐 벡터들을 폐기하는 것, 복제하는 것, 또는 삽입하는 것을 요구할 수도 있다.
그러나, 상기에서 기술된 바와 같이, 본 개시물의 측면들은 하드 일대일 매칭을 요구하기보다는 오히려 소스 및 타겟 벡터들의 소프트 정렬을 기술한다. 이 예에서, 상태 벡터(530)는 3개의 상태들(531-533)을 포함한다. 소스 시퀀스 벡터들(511-515)을 상태 시퀀스(531)로 연결하는 각각의 라인은 시간 t에서 그 소스 벡터(511-515)에 의해 상태(531)를 점유하는 확률을 나타낼 수도 있다. 은닉 마코브 모델 (HMM) 또는 유사한 모델링 시스템에 따라 상태 시퀀스를 생성시, 그 상태 시퀀스(530)는 각 시간 유닛 t에 대응하는 상태(531-533)를 가질 수도 있다. 도 5에서 보여지는 바와 같이, 소스 피쳐 벡터들(511-515) 및 타겟 피쳐 벡터들(521-523) 양쪽들 중 하나 이상은 소정의 정렬 확률로 상태(531)를 점유할 수도 있다. 이 예에서, 복합 HMM 모델은 상태 시퀀스(530)에서의 모든 상태들을 연접함으로써 생성될 수도 있다.
따라서, 비록 상태 시퀀스(530)에서의 한 상태가, 도 4를 참조하여 상기에서 기술된 바와 같은, [xp T, yq T, PApq]T처럼, 단일의 정렬된 쌍 위에 형성될 수도 있지만, 본 개시물은 단일의 정렬된 쌍 및 한 상태에 대한 한 확률 추정에 제한되는 것 은 아니다. 예를 들면, 상태 시퀀스(530) 내 상태(531)는, 5개의 소스 벡터들(511-515), 3개의 타겟 벡터들(521-523), 및 잠재적으로 정렬되는 소스-타겟 벡터 쌍들의 각각에 대한 확률 추정들로부터 형성된다.
도 6을 참조하면, 소스 및 타겟 벡터 시퀀스들의 변환에 관련된 본 개시물의 측면을 도해하는 블록 다이어그램이 제시된다. 단순화된 소스 벡터 시퀀스(610) 및 타겟 벡터 시퀀스(620)가 이 예에서, 도 2에서 보여진 것과 같은 기존의 하드 정렬된 방법들에 비해 본 개시물의 잠재적인 이점들을 도해하기 위해, 선택되었다. 이 예에서, 소스 벡터 시퀀스(610) 및 타겟 벡터 시퀀스(620)는, 서로 다른 시퀀스들(610, 620)에 대해 별개의 패러티들 상에서 두 개마다의 배제(decimation)가 적용되었다는 점만 제외하고는, 동일하다. 이러한 배제는, 예를 들어, 소스 및 타겟으로부터의 발화 신호들의 출력 샘플링 율 (sampling rate)의 감소와 함께, 일어날 수도 있어서, 샘플들은 더 적은 저장 공간을 요구할 수도 있다.
도 2를 참조하여 기술된 기존의 하드 정렬을 다시 상기시켜 본다. 그 기존의 일대일 맵핑에서, 각각의 타겟 피쳐 벡터는 단순하게 그것의 최근접의 소스 피쳐 벡터와 정렬되었다. 이 기존의 시스템은 가까운 쌍들이 완전히 그리고 완벽히 정렬되는 것을 가정하기 때문에, 작은 정렬 오차들이 탐지되거나 또는 고려되지 않아야 할 수도 있는데, 왜냐하면 다른 가까운 벡터들이 고려되지 않기 때문이다. 결과적으로, 그 하드 정렬은 궁극적으로 덜 정확하고 정렬 오차들에 더 취약할 수도 있다.
도 6을 참조하면, 이 단순한 예에서, 각 타겟 벡터 샘플은 소스 벡터 시퀀스 에서의 그것의 가장 가까운 2개의 피쳐 벡터들에 대해 같은 확률들(0.5)로 짝지어진다. 소프트 정렬로 생성된 변환된 피쳐들은 항상 일대일로 짝지어지지는 않고, 또한 다른 관련 피쳐 벡터들을 고려할 수도 있다. 따라서, 소프트 정렬을 이용한 변환은 더 정확하고 초기의 정렬 오차들에 덜 민감할 수도 있다.
본 개시물의 또 하나의 측면에 따라, 하드-정렬된 / 소프트-정렬된 GMM 성능(performance)은 도 2 및 도 6의 데이터와 같은 대비 테스트 데이터를 사용하여 비교될 수 있다. 예를 들어, 대비 데이터의 하드 정렬 및 소프트 정렬 후의 변환된 피쳐들은, 타겟 피쳐들에 대비하여 평균 제곱 오차 (mean squared error; MSE) 계산을 사용하여, 벤치마크(benchmark)되거나 또는 평가될 수도 있다. 잘 알려진 오차 연산 방법인 MSE는 표준 오차 (standard error) 제곱 및 편의(bias) 제곱의 합의 제곱근이다. MSE는 샘플 추정에 대해 기대되는 총 오차의 수치를 제공한다. 음성 변환 문맥에서, 예를 들어, 음조 또는 선 스펙트럼 주파수 (LSF)와 같은, 서로 다른 발화 특질들의 MSE는, 하드 정렬 대 소프트 정렬 기반 GMM 변환의 전체적인 GMM 성능을 결정하기 위해 컴퓨팅되고 비교될 수도 있다. 그 비교는 음조 특질에 대하여 개별적으로 각 발화 세그먼트에 대해 배제 및 쌍-편성(pairing) 절차를 수행함으로써 더 강건하게 만들어질 수도 있고, 따라서 교차-세그먼트 짝짓기들을 피할 수도 있다. 대조적으로, LSF 비교는 단지 배제 및 쌍-편성 절차가 전체 데이터집합에 대하여 한번 적용될 것을 요구할 수도 있는데, 왜냐하면 LSF는 그 데이터 집합에서 발화 및 비발화 세그먼트들에 대하여 연속적이기 때문이다.
이 예에서 소프트 정렬을 사용함으로써 얻어지는 잠재적인 이익들에 더하여, 추가적인 이점들이 더 복잡한 실제세계의 피쳐 벡터 변환들에서 실현될 수도 있다. 예를 들어 더 큰 초기 정렬 오차들 및 다른 수들의 소스 및 타겟 피쳐 벡터들을 가진, 더 복잡한 벡터 데이터를 사용할 때, 하드 정렬 기술들은 대개 정렬 동안 벡터들을 폐기하는 것, 복제하는 것 또는 삽입하는 것을 요구한다. 이러한 작업들은 그 변환의 복잡성 및 비용을 증가시킬 수도 있고, 또한 초기 정렬 오차들을 확대함으로써 그 변환의 품질에 부정적인 영향을 끼칠 수도 있다. 대조적으로, 정렬 동안 벡터들을 폐기하는 것, 복제하는 것 또는 삽입하는 것을 요구하지 않을 수도 있는 소프트 정렬 기술들은, 향상된 데이터 변환 품질 및 효율성을 제공할 수도 있다.
본 발명의 다양한 측면들을 구현한, 이 문서에서 기술된 바와 같은 예시적인 시스템들 및 방법이 제시되었지만, 본 발명은 이들 실시예들에 제한되지는 않는 것이, 관련 기술분야에서 숙련된 자들에 의해 이해될 것이다. 변형예들이 관련 기술분야에서 숙련된 자들에 의해, 특히 전술한 교시들에 비추어 만들어질 수도 있다. 예를 들어, 전술된 실시예들의 요소들의 각각은 단독으로 또는 다른 실시예들의 요소들과 조합하여 또는 부차적으로 조합하여 활용될 수도 있다. 또한 변형예들이 본 발명의 진정한 사상 및 범위로부터 벗어남이 없이 만들어질 수도 있다는 것이 인식되고 이해될 것이다. 따라서 본 기술내용은 본 발명에 대하여 한정적인 것으로서 대신에 예시적인 것으로서 간주되어야 할 것이다.

Claims (20)

  1. 피쳐 벡터들 (feature vectors)의 제1 시퀀스를 피쳐 벡터들의 제2 시퀀스와 시간 정렬 (time aligning)하는 방법에 있어서, 상기 방법은,
    소스와 연관된 피쳐 벡터들의 제1 시퀀스를 수신하는 단계;
    타겟과 연관된 피쳐 벡터들의 제2 시퀀스를 수신하는 단계; 및
    결합(joint) 피쳐 벡터들의 제3 시퀀스를 생성하는 단계를 포함하고,
    각 결합 피쳐 벡터의 생성은
    상기 제1 시퀀스로부터의 제1 벡터;
    상기 제2 시퀀스로부터의 제1 벡터; 및
    상기 제1 시퀀스로부터의 제1 벡터와 상기 제2 시퀀스로부터의 제1 벡터가 그들의 각자 시퀀스들에서 같은 피쳐로 정렬되는 확률을 나타내는 제1 확률값에 기초하는, 방법.
  2. 제1항에 있어서,
    상기 제1 시퀀스는 상기 제2 시퀀스와 다른 수의 피쳐 벡터들을 포함하는, 방법.
  3. 제1항에 있어서,
    상기 제1 시퀀스는 제1 화자(speaker)에 의해 만들어지는 복수의 발성 들(utterances)에 대응하고,
    상기 제2 시퀀스는 제2 화자에 의해 만들어지는 상기 복수와 동수의 발성들에 대응하는, 방법.
  4. 제1항에 있어서,
    결합 벡터들의 상기 제3 시퀀스는 은닉 마코브 모델 (Hidden Markov Model)을 포함하는, 방법.
  5. 제1항에 있어서,
    상기 확률은 비-불리언(non-Boolean) 값인, 방법.
  6. 제1항에 있어서,
    상기 결합 피쳐 벡터들의 제3 시퀀스의 생성에 있어서, 상기 제3 시퀀스에서의 각 결합 피쳐 벡터에 관하여 상기 제1 시퀀스로부터의 벡터와 상기 제2 시퀀스로부터의 벡터는 서로 다른 벡터들인, 방법.
  7. 제1항에 있어서,
    상기 결합 피쳐 벡터들의 적어도 하나의 생성은
    상기 제1 시퀀스로부터의 제2 벡터;
    상기 제2 시퀀스로부터의 제2 벡터; 및
    상기 제1 시퀀스로부터의 제2 벡터와 상기 제2 시퀀스로부터의 제2 벡터가 그들의 각자 시퀀스들에서 같은 피쳐로 정렬되는 확률을 나타내는 제2 확률값에 또한 기초하는, 방법.
  8. 컴퓨터-실행가능 명령들을 저장하는 하나 이상의 컴퓨터 판독가능 매체에 있어서,
    상기 컴퓨터-실행가능 명령들은, 컴퓨터 시스템 상에서 실행될 때,
    소스와 연관된 피쳐 벡터들 (feature vectors)의 제1 시퀀스를 수신하고;
    타겟과 연관된 피쳐 벡터들의 제2 시퀀스를 수신하고; 그리고
    결합(joint) 피쳐 벡터들의 제3 시퀀스를 생성하는 것을 포함하는 방법을 수행하며,
    각 결합 피쳐 벡터는
    상기 제1 시퀀스로부터의 제1 벡터;
    상기 제2 시퀀스로부터의 제2 벡터; 및
    상기 1 벡터와 상기 제2 벡터가 그들의 각자 시퀀스들에서 같은 피쳐로 정렬되는 확률을 나타내는 확률값에 기초하는, 컴퓨터 판독가능 매체.
  9. 제8항에 있어서,
    상기 제1 시퀀스는 상기 제2 시퀀스와 다른 수의 피쳐 벡터들을 포함하는, 컴퓨터 판독가능 매체.
  10. 제8항에 있어서,
    상기 제1 시퀀스는 제1 화자(speaker)에 의해 만들어지는 복수의 발성(utterances)에 대응하고,
    상기 제2 시퀀스는 제2 화자에 의해 만들어지는 상기 복수와 동수의 발성들에 대응하는, 컴퓨터 판독가능 매체.
  11. 제8항에 있어서,
    결합 벡터들의 상기 제3 시퀀스는 은닉 마코브 모델 (Hidden Markov Moel)을 포함하는, 컴퓨터 판독가능 매체.
  12. 제8항에 있어서,
    상기 확률은 비-불리언(non-Boolean) 값인, 컴퓨터 판독가능 매체.
  13. 제8항에 있어서,
    상기 결합 피쳐 벡터들의 제3 시퀀스의 생성에 있어서, 상기 제3 시퀀스에서의 각 결합 피쳐 벡터에 관하여 상기 제1 시퀀스로부터의 벡터와 상기 제2 시퀀스로부터의 벡터는 서로 다른 벡터들인, 컴퓨터 판독가능 매체.
  14. 제8항에 있어서,
    상기 결합 피쳐 벡터들의 적어도 하나의 생성은
    상기 제1 시퀀스로부터의 제2 벡터;
    상기 제2 시퀀스로부터의 제2 벡터; 및
    상기 제1 시퀀스로부터의 제2 벡터와 상기 제2 시퀀스로부터의 제2 벡터가 그들의 각자 시퀀스들에서 같은 피쳐로 정렬되는 확률을 나타내는 제2 확률값에 또한 기초하는, 컴퓨터 판독가능 매체.
  15. 데이터 변환 (data transformation)의 방법에 있어서,
    제1 소스와 연관된 제1 데이터 시퀀스를 수신하고;
    제2 소스와 연관된 제2 데이터 시퀀스를 수신하고;
    각 데이터 쌍이 상기 제1 데이터 시퀀스로부터의 아이템(item) 및 상기 제2 데이터 시퀀스로부터의 아이템을 포함하는, 복수의 데이터 쌍들을 식별하고,
    각 정렬 확률이 상기 복수의 데이터 쌍들 중 하나와 연관되는, 복수의 정렬 확률들을 결정하고; 그리고
    상기 복수의 데이터 쌍들 및 연관되는 복수의 정렬 확률들에 기초하여 데이터 변환 기능을 결정하는 것을 포함하는 데이터 변환 방법.
  16. 제15항에 있어서,
    상기 데이터 변환 기능을 결정하는 것은 가우시안 혼합 모델 (Gaussian Mixture Model; GMM) 기술들 및 코드북기반(codebook-based) 기술들 중 하나에 따 라, 상기 데이터 변환과 연관된 파라미터들을 계산하는 것을 포함하는, 데이터 변환 방법.
  17. 제16항에 있어서,
    상기 파라미터들의 추정은 기대값-최대화 (Expectation-Maximization) 알고리즘의 실행을 포함하는, 데이터 변환 방법.
  18. 제15항에 있어서,
    상기 복수의 정렬 확률들 중 적어도 하나는 비-불리언(non-Boolean) 값인, 데이터 변환 방법.
  19. 제15항에 있어서,
    상기 제1 데이터 시퀀스는 제1 소스 화자(speaker)에 의해 만들어지는 복수의 발성들(utterances)에 대응하고,
    상기 제2 데이터 시퀀스는 제2 소스 화자에 의해 만들어지는 복수의 발성들에 대응하며,
    데이터 변환 기능은 음성 변환 기능 (voice conversion function)을 포함하는, 데이터 변환 방법.
  20. 제19항에 있어서,
    상기 제1 소스 화자에 의해 만들어지는 발화(speech) 벡터들에 대응하며, 상기 제1 소스에 연관된, 제3 데이터 시퀀스를 수신하고; 그리고
    상기 제3 데이터 시퀀스에 상기 음성 변환 기능을 적용하는 것을 더 포함하는, 데이터 변환 방법.
KR1020087028160A 2006-04-26 2007-04-04 가우시안 혼합 모델 기반 변환에서의 소프트 정렬 KR101103734B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/380,289 US7505950B2 (en) 2006-04-26 2006-04-26 Soft alignment based on a probability of time alignment
US11/380,289 2006-04-26
PCT/IB2007/000903 WO2007129156A2 (en) 2006-04-26 2007-04-04 Soft alignment in gaussian mixture model based transformation

Publications (2)

Publication Number Publication Date
KR20080113111A true KR20080113111A (ko) 2008-12-26
KR101103734B1 KR101103734B1 (ko) 2012-01-11

Family

ID=38649848

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087028160A KR101103734B1 (ko) 2006-04-26 2007-04-04 가우시안 혼합 모델 기반 변환에서의 소프트 정렬

Country Status (5)

Country Link
US (1) US7505950B2 (ko)
EP (1) EP2011115A4 (ko)
KR (1) KR101103734B1 (ko)
CN (1) CN101432799B (ko)
WO (1) WO2007129156A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140080429A (ko) * 2012-12-20 2014-06-30 삼성전자주식회사 오디오 보정 장치 및 이의 오디오 보정 방법

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7848924B2 (en) * 2007-04-17 2010-12-07 Nokia Corporation Method, apparatus and computer program product for providing voice conversion using temporal dynamic features
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
US8727991B2 (en) 2011-08-29 2014-05-20 Salutron, Inc. Probabilistic segmental model for doppler ultrasound heart rate monitoring
CN104217721B (zh) * 2014-08-14 2017-03-08 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
US10176819B2 (en) * 2016-07-11 2019-01-08 The Chinese University Of Hong Kong Phonetic posteriorgrams for many-to-one voice conversion
CN109614148B (zh) * 2018-12-11 2020-10-02 中科驭数(北京)科技有限公司 数据逻辑运算方法、监测方法及装置
US11410684B1 (en) * 2019-06-04 2022-08-09 Amazon Technologies, Inc. Text-to-speech (TTS) processing with transfer of vocal characteristics
US11929058B2 (en) * 2019-08-21 2024-03-12 Dolby Laboratories Licensing Corporation Systems and methods for adapting human speaker embeddings in speech synthesis

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
US7386454B2 (en) 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140080429A (ko) * 2012-12-20 2014-06-30 삼성전자주식회사 오디오 보정 장치 및 이의 오디오 보정 방법

Also Published As

Publication number Publication date
US7505950B2 (en) 2009-03-17
WO2007129156A2 (en) 2007-11-15
CN101432799A (zh) 2009-05-13
EP2011115A4 (en) 2010-11-24
WO2007129156A3 (en) 2008-02-14
KR101103734B1 (ko) 2012-01-11
CN101432799B (zh) 2013-01-02
US20070256189A1 (en) 2007-11-01
EP2011115A2 (en) 2009-01-07

Similar Documents

Publication Publication Date Title
KR101103734B1 (ko) 가우시안 혼합 모델 기반 변환에서의 소프트 정렬
CN101989424B (zh) 语音处理设备和方法
US8010362B2 (en) Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector
US7454340B2 (en) Voice recognition performance estimation apparatus, method and program allowing insertion of an unnecessary word
EP3061086B1 (en) Text-to-speech performance evaluation
CA2652302A1 (en) Intersession variability compensation for automatic extraction of information from voice
KR20120054845A (ko) 로봇의 음성인식방법
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP5717097B2 (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
Latorre et al. Multilevel parametric-base F0 model for speech synthesis.
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
CN113963715A (zh) 语音信号的分离方法、装置、电子设备及存储介质
JP2008216488A (ja) 音声処理装置及び音声認識装置
JP6580911B2 (ja) 音声合成システムならびにその予測モデル学習方法および装置
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JP5375612B2 (ja) 周波数軸伸縮係数推定装置とシステム方法並びにプログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
Zhuang et al. A minimum converted trajectory error (MCTE) approach to high quality speech-to-lips conversion.
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
Martens et al. Word Segmentation in the Spoken Dutch Corpus.
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
Vinotha et al. Advancing Accessibility: Voice Cloning and Speech Synthesis for Individuals with Speech Disorders
JP2008275698A (ja) 所望のイントネーションを備えた音声信号を生成するための音声合成装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee