KR20160032138A

KR20160032138A - 청각 장면 분석 및 음성 모델링에 기초한 음성 신호 분리 및 합성

Info

Publication number: KR20160032138A
Application number: KR1020167002690A
Authority: KR
Inventors: 카를로스 아벤다노; 데이비드 클레인; 존 우드러프; 마이클 굿윈
Original assignee: 오디언스 인코포레이티드
Priority date: 2013-07-19
Filing date: 2014-07-21
Publication date: 2016-03-23
Also published as: CN105474311A; US9536540B2; WO2015010129A1; DE112014003337T5; US20150025881A1; TW201513099A

Abstract

잡음과 음성의 혼합물을 표시하는 음성 신호로부터 선명한 음성을 생성하는 시스템 및 방법이 제공된다. 상기 선명한 음성은 합성 음성 파라미터로부터 생성될 수 있다. 상기 합성 음성 파라미터는 청각 및 음성 생성 원리를 이용하여 음성 신호 컴포넌트 및 음성 모델에 기초하여 도출된다. 상기 모델링은 음성 신호의 음원-필터 구조를 활용한다. 상기 음성 신호에 대한 하나 이상의 스펙트럼 분석은 스펙트럼 표시를 생성하도록 수행된다. 상기 피처 데이터는 스펙트럼 표시에 기초하여 도출된다. 상기 음성 모델에 따라 상기 타겟 음성에 대응하는 피처는 그룹화되고 피처 데이터로부터 분리된다. 스펙트럼 포락선, 피치 데이터 및 유성음 분류 데이터를 포함하는 합성 음성 파라미터는 타겟 음성에 대응하는 피처에 기초하여 생성된다.

Description

청각 장면 분석 및 음성 모델링에 기초한 음성 신호 분리 및 합성{SPEECH SIGNAL SEPARATION AND SYNTHESIS BASED ON AUDITORY SCENE ANALYSIS AND SPEECH MODELING}

(관련 출원의 상호 참조)

본 출원은 "청각 장면 분석과 음성 모델링에 기초한 음성 신호 분리 및 합성을 위한 시스템 및 방법"이라는 제하의 2013년 7월 19일 출원된 미국가출원번호 제61/856,577호, 및 "동시 개체의 다중 속성 추적"이라는 제하의 2014년 3월 28일 출원된 미국가출원번호 제61/972,112호의 우선권을 주장한다. 상기 출원은 모든 목적을 위해 본원에 참조에 의해 통합된다.

본 발명은 오디오 처리에 관한 것으로, 특히 잡음과 음성의 혼합물로부터 선명한 음성 신호를 생성하는 것에 관한 것이다.

위너 필터링(Wiener filtering)과 같은 현재의 잡음 억제 기술은 전역 신호 대 잡음비(SNR)를 개선하고 저 SNR 영역을 감쇠를 도모하여 음성 신호로의 변형을 도입하도록 한다. 변환 영역에서의 크기 변조와 같은 필터링을 수행하는 것이 일반적이다. 일반적으로, 손상된 신호는 크기 변조로 신호를 재구성하는 데에 이용된다. 이러한 접근 방식은 잡음 지배 신호 컴포넌트를 손실하도록(miss) 하여, 바람직하지 않고 자연스럽지 않은 스펙트럼-시간 변조를 가져올 수 있다.

타겟 신호가 잡음이 우세하게 되는 경우, 변조를 통해 손상된 오디오를 개선하는 대신에 선명한 음성 신호를 합성하는 시스템이 고 신호 대 잡음 비 개선(SNRI) 값과 낮은 신호 왜곡을 달성하는 데에 효익이 있다.

본 요약은 하기의 상세한 설명에 더 기술되는 간략한 형태로 된 개념 중 선택한 것을 소개하기 위해 제공된다. 본 요약은 청구된 본 발명의 주요한 특징 또는 필수적인 특징을 식별하도록 의도되지 않고, 본 발명의 범위를 판정하는 보조 장치로서 사용되는 것을 의도하지도 않는다.

본 발명의 하나의 양태에 따르면, 잡음과 음성의 혼합물로부터 선명한 음성(speech)을 생성하는 방법이 제공된다. 본 방법은 잡음 및 음성의 상기 혼합물 및 음성의 모델에 기초하여 합성 음성 파라미터를 도출하는 단계 및, 상기 음성 파라미터에 적어도 부분적으로 기초하여 선명한 음성을 합성하는 단계를 포함한다.

일부 실시예에서, 음성 파라미터를 도출하는 단계는 하나 이상의 스펙트럼 표시를 생성하기 위해 잡음과 음성의 상기 혼합물에 대한 하나 이상의 스펙트럼 분석을 실시하는 것으로 시작한다. 상기 하나 이상의 스펙트럼 표시는 그런다음 피처 데이터를 도출하도록 사용될 수 있다. 타겟 음성에 대응하는 피처는 그런다음 음성의 모델에 따라서 그룹화되고 피처 데이터로부터 분리될 수 있다. 피처 표시의 분석은 음성 컴포넌트 후보의 세그멘테이션 및 그룹화를 하도록 할 수 있다. 특정한 실시예에서, 타겟 음성에 대응하는 피처에 대한 후보자는 음성 모델에 의해 보조를 받는 다중 가설 추적(multi-hypothesis tracking) 시스템에 의해 평가된다. 합성 음성 파라미터는 상기 타겟 음성에 대응하는 피처에 부분적으로 기초하여 생성될 수 있다.

일부 실시예에서, 상기 생성된 합성 음성 파라미터들은 스펙트럼 포락선 및 유성음(voicing) 정보를 포함한다. 유성음 정보는 피치 데이터 및 유성음 분류 데이터를 포함할 수 있다. 일부 실시예에서, 스펙트럼 포락선은 희소(sparse) 스펙트럼 포락선으로부터 추정된다.

다양한 실시예에서, 본 방법은 잡음 모델에 기초하여 상기 피처 데이터 내에서의 비음성 컴포넌트를 판정하는 단계를 포함한다. 판정된 비음성 컴포넌트는 음성 컴포넌트와 잡음 컴포넌트 사이를 구별하기 위해 부분적으로 사용될 수 있다.

다양한 실시예에서, 음성 컴포넌트는 피치 데이터를 판정하기 위해 사용될 수 있다. 일부 실시예에서, 비음성 컴포넌트는 또한 피치 판정에 사용될 수 있다.(예를 들면, 잡음 컴포넌트가 음성 컴포넌트를 차단하는(occlude) 것에 관한 지식이 사용될 수 있다.) 피치 데이터는 선명한 음성을 합성하기 전에 손실(missing) 프레임을 채우기 위해 보간될 수 있고; 여기서 손실 프레임은 좋은 피치 추정치가 판정 될 수 없는 프레임을 가리킨다.

일부 실시예에서, 상기 방법은 피치 데이터에 기초하여, 유성음 음성을 나타내는 고조파 맵을 생성하는 단계를 포함한다. 본 방법은 피처 데이터와 고조파 맵으로부터 비음성 컴포넌트에 기초하여 무성음 음성(unvoiced speech)용 맵을 추정하는 단계를 더 포함할 수 있다. 고조파 맵과 무성음용 맵은 잡음과 음성의 혼합물의 스펙트럼 표시로부터 희소 스펙트럼 포락선을 추출하기 위한 마스크를 생성하기 위해 사용될 수 있다.

본 발명의 추가적인 예시적인 실시예에서, 방법의 단계들은 하나 이상의 프로세서에 의해 구현될 때, 인용된 단계를 수행하는 명령어들을 포함하는 기계 판독 가능 매체에 저장된다. 그러나, 추가적인 예시적인 실시예에서, 하드웨어 시스템 또는 장치는 인용된 단계들을 수행하도록 조정될 수 있다. 다른 특징, 예시 및 실시예들이 하기에 기술된다.

실시예들은 첨부 도면에서 예시의 방법에 의해(그러나 제한은 아님) 예시되고, 여기서 유사한 참조번호는 유사한 엘리먼트를 가리킨다:
도 1은 잡음과 음성의 혼합물로부터 선명한 음성을 생성하기 위한 방법의 다양한 실시예들을 구현하는데 적합한 예시적인 시스템을 도시한다.
도 2는 예시적인 실시예에 따른, 음성 처리를 위한 시스템을 도시한다.
도 3은 예시적 실시예에 따른, 음성 신호의 분리 및 합성을 위한 시스템을 도시한다.
도 4는 유성음 프레임의 예를 도시한다.
도 5는 예시적인 실시예에 따라, 유성음 프레임에 대한 희소 포락선 추정의 시간-주파수 플롯이다.
도 6은 포락선 추정의 예를 도시한다.
도 7은 예시적 실시예에 따른, 음성 합성 장치를 나타낸 도면이다.
도 8a는 선명한 여성 음성 샘플에 대한 예시적 합성 파라미터를 도시한다.
도 8b는 선명한 여성 음성 샘플에 대한 예시적인 합성 파라미터를 나타내는 도 8a의 상세이다.
도 9는 예시적인 실시예에 따른, 음성 신호의 분리 및 합성을 위한 시스템의 입출력을 도시한다.
도 10은 잡음과 음성의 혼합물로부터 선명한 음성을 생성하기 위한 예시적인 방법을 도시한다.
도 11은 본 기술의 실시예들을 구현하는데 사용될 수 있는 예시적인 컴퓨터 시스템을 도시한다.

하기의 상세한 설명은 상세한 설명의 일부를 형성하는 첨부 도면에 대한 참조를 포함한다. 도면은 예시적인 실시예에 따른 예시를 도시한다. 또한, 본 명세서에서 "예시"로서 참조되는 이러한 예시적인 실시예들은, 당업자들이 본 발명을 실시할 수 있기에 충분히 상세하게 설명된다. 실시예들은 조합될 수 있고, 다른 실시예들이 이용 될 수 있고, 구조적, 논리적, 및 전기적 변경이 청구되는 것의 범위에서 벗어나지 않고 이루어질 수 있다. 하기의 상세한 설명은 따라서 한정의 의미로 간주되지 말아야하고, 상기 범위는 첨부된 청구 범위 및 그 등가물에 의해 한정된다.

잡음과 음성의 혼합물로부터 선명한 음성을 생성하도록 하는 시스템 및 방법이 제공된다. 본 명세서에 기술된 실시예들은 개인용 컴퓨터(PC), 태블릿 컴퓨터, 모바일 장치, 휴대폰, 전화 단말기, 헤드셋, 미디어 장치, 인터넷 연결(사물 인터넷) 장치 및 텔레컨퍼런스 애플리케이션용 시스템을 포함하는(그러나 이에 한정되는 것은 아님) 음성 신호를 수신 및/또는 제공하도록 구성되는 임의의 장치상에서 실시될 수 있다. 본 개시물의 기술은 또한 개인용 청취장치, 비의학용 보청기, 보청기 및 인공귀에서 사용될 수 있다.

다양한 실시예에 따르면, 잡음과 음성의 혼합물로부터 선명한 음성 신호를 생성하는 방법은, 청각(예를 들면, 지각) 및 음성 생성 원리(예를 들면 소스의 분리 및 필터 컴포넌트)를 이용하여 잡음 혼합물로부터 음성 파라미터를 추정하는 단계를 포함한다. 추정된 파라미터는 그런다음 선명한 음성을 합성하는 데에 이용되고 음성 신호가 필수적으로 합성되지는 않지만 선명한 음성 신호에 대응하는 특정한 파라미터 또는 피처가 필요한(예를 들면, 자동음성 인식 및 화자식별(speaker identification)과 같은) 다른 애플리케이션에서 잠재적으로 사용될 수 있다.

도 1은 본 명세서에 기술된 다양한 실시예들에 대한 방법들을 구현하기에 적합한 예시적인 시스템(100)을 도시한다. 일부 실시예에서, 시스템(100)은 수신기(110), 프로세서(120), 마이크로폰(130), 오디오 처리 시스템(140), 및 출력 장치(150)를 포함한다. 시스템(100)은 특정 동작 또는 기능을 제공하기 위한 더 많은 또는 다른 컴포넌트를 포함할 수 있다. 유사하게, 시스템(100)은 도 1에 도시 된 것과 유사하거나 동일한 기능을 수행하는 더 적은 수의 컴포넌트를 포함할 수 있다. 추가로, 시스템(100)의 엘리먼트는 프로세서(120)를 포함하는(그러나 이에 한정되지 않음) 클라우드 기반일 수 있다.

수신기(110)는 인터넷, 광역 네트워크(WAN), 근거리 통신망(LAN), 셀룰러 네트워크 등의 네트워크와 통신하고, 오디오 데이터 스트림을 수신하도록 구성될 수 있으며, 이는 하나 이상의 오디오 데이터 채널을 포함할 수 있다. 수신된 오디오 데이터 스트림은 그런다음 오디오 처리 시스템(140) 및 출력 장치(150)로 포워딩될 수 있다.

프로세서(120)는 시스템(100)(예를 들면, 통신 장치 또는 컴퓨터)의 유형에 따라 오디오 데이터 처리 및 다양한 기타 동작을 구현하는 하드웨어 및 소프트웨어를 포함할 수 있다. 메모리(예를 들면, 비-일시적 컴퓨터 판독 가능 저장 매체)는 프로세서(120)에 의한 실행을 위해 적어도 부분적으로 명령어 및 데이터를 저장할 수 있다.

오디오 처리 시스템(140)은 본 명세서에 개시된 다양한 실시예들에 따른 방법을 구현하는 하드웨어 및 소프트웨어를 포함한다. 오디오 처리 시스템(140)은 또한 (하나 이상의 마이크로폰 또는 음향 센서일 수 있는) 마이크로폰(130)을 통해 음원으로부터 음향 신호를 수신하고, 음향 신호를 처리하도록 더 구성될 수 있다. 마이크로폰(130)에 의해 수신한 후, 음향 신호는 아날로그-디지털 변환기에 의해 전기 신호로 변환될 수 있다.

출력 장치(150)는 청자(listener)(예를 들면, 음원)에 오디오 출력을 제공하는 임의의 장치를 포함한다. 예를 들면, 출력 장치(150)는 시스템(100) 상에 스피커, 클래스 D 출력, 헤드셋의 이어폰, 또는 단말기를 포함할 수 있다.

도 2는 실시예에 따라, 음성 처리를 위한 시스템(200)을 도시한다. 예시적인 시스템(200)은 적어도 분석 모듈(210), 피처 추정 모듈(220), 그룹화 모듈(230), 및 음성 정보 추출 및 모델링 모듈(240)을 포함한다. 특정한 실시예에서, 시스템(200)은 음성 합성 모듈(250)을 포함한다. 다른 실시예에서, 시스템(200)은 화자 인식 모듈(260)을 포함한다, 추가적인 실시예에서, 시스템(200)은 자동 음성 인식 모듈(270)을 포함한다.

일부 실시예에서, 분석 모듈(210)은 하나 이상의 시간-영역(time-domain) 음성 입력 신호를 수신하도록 동작 가능하다. 음성 입력은 다양한 미리정해진 시간-주파수 해상도에서의 스펙트럼 표시를 제공하는 다중 해상도 프론트 엔드로 분석될 수 있다.

일부 실시예에서, 피처 추정 모듈(220)은 분석 모듈(210)로부터 다양한 분석 데이터를 수신한다. 신호 피처는 다차원 피처 공간을 생성하기 위해 피처의 유형에 따른 다양한 분석(예를 들면, 톤 검출을 위한 협소대역 스펙트럼 분석 및 과도(transient) 검출을 위한 광대역 스펙트럼 분석)으로부터 도출될 수 있다.

다양한 실시예에서, 그룹화 모듈(230)은 피처 추정 모듈(220)로부터 피처 데이터를 수신한다. 타겟 음성에 대응하는 피처는 그런 다음 음성 장면 분석 원리(예를 들면, 공통운명(common fate)과 같은)에 따라 그룹화되고 피처의 간섭 또는 잡음으로부터 분리된다. 특정한 실시예에서, 다중 화자(talker) 입력 또는 음성과 같은 기타 방해 자극의 경우, 다중 가설 그루퍼가 장면 구성에 사용될 수 있다.

일부 실시예에서, 그룹화 모듈(230)과 피처 추정 모듈(220)의 순서는, 피처 데이터가 피처 추정 모듈(220)에서 도출되기 전에 그룹화 모듈(230)이 스펙트럼 표시(예를 들면, 분석 모듈(210)로부터)를 그룹화하도록 역전(reverse)될 수 있다.

그 결과인 희소 다차원 피처 설정은 그룹화 모듈(230)로부터 음성 정보 추출 및 모델링 모듈(240)로 전달될 수 있다. 음성 정보 추출 및 모델링 모듈(240)은 잡음 음성 입력에서 타겟 음성을 나타내는 출력 파라미터를 생성하도록 동작할 수 있다.

일부 실시예에서, 음성 정보 추출 및 모델링 모듈(240)의 출력은 합성 파라미터 및 음향 피처를 포함한다. 특정 실시예에서, 합성 파라미터는 선명한 음성 출력을 합성하는 음성 합성 모듈(250)로 전달된다. 다른 실시예에서, 음성 정보 추출 및 모델링 모듈(240)에 의해 생성된 음성 피처는 자동 음성 인식 모듈(270) 또는 화자 인식 모듈(260)로 전달된다.

도 3은 다른 예시적 실시예에 따라 잡음 억제를 위한 음성 처리, 구체적으로는, 음성 분리 및 합성을 위한 시스템(300)을 도시한다. 시스템(300)은 다중 해상도 분석(MRA) 모듈(310), 잡음 모델 모듈(320), 피치 추정 모듈(330), 그룹화 모듈(340), 고조파 맵 유닛(350), 희소 포락선 유닛(360), 음성 포락선 모델 모듈(370), 및 합성 모듈(380)을 포함할 수 있다.

일부 실시예에서, MRA 모듈(310)은 음성 입력 신호를 수신한다. 음성 입력 신호는 부가 잡음 및 실내의 반향에 의해 오염될 수 있다. MRA 모듈(310)은 하나 이상의 단기간 스펙트럼 표시를 생성하도록 동작할 수 있다.

MRA 모듈(310)로부터의 이러한 단기간 분석은 잡음 모델 모듈(320)을 통해 배경 잡음의 추정을 도출하기 위해 먼저 사용될 수 있다. 잡음 추정은 그런다음 그룹화 모듈(340)에서의 그룹화를 하고 피치 추정 모듈(330)에서의 견고성을 개선하기 위해 사용될 수 있다. 유성음 판정을 포함하는 피치 추정 모듈(330)에 의해 생성된 피치 추적은 고조파 맵을 생성하기 위해(고조파 맵 유닛(350)에서) 그리고 합성 모듈(380)로의 입력으로서 사용될 수 있다.

일부 실시예에서, 고조파 맵 유닛(350)으로부터의 고조파 맵(유성음 음성을 나타냄), 잡음 모델 모듈(320)로부터의 잡음 모델이 무성음 음성 맵을 추정하는 데에(즉, 무성음 프레임에서의 입력 및 잡음 모델 사이의 차이) 사용된다. 유성음 및 무성음 맵은 그런다음 그룹화되고(그룹화 모듈(340)에서), 입력 신호 표시로부터 희소 포락선(희소 포락선 유닛(360)에서)을 추출하기 위한 마스크를 생성하는 데에 이용될 수 있다. 마지막으로, 음성 포락선 모델 모듈(370)은 희소 포락선으로부터 스펙트럼 포락선(ENV)를 추정하고, 유성음 정보와 함께(피치 추정 모듈(330)로부터의 유성음/무성음(V/U)과 같은 피치(F0) 및 유성음 분류) 최종 음성 출력을 생성할 수 있는 음성 합성기(예를 들면, 합성 모듈(380))로 ENV를 공급할 수 있다.

일부 실시예에서, 도 3의 시스템은 인간의 청각 인식과 음성 생산 원리 모두에 기초한다. 특정한 실시예에서, 분석 및 처리는 개별적으로(그러나, 반드시 독립적일 필요는 없다) 포락선 및 여기(excitation)에 대해 수행된다. 다양한 실시예에 따라, 음성 파라미터(즉, 이 경우, 포락선 및 유성음)는 관측 잡음으로부터 추출되고 추정치는 합성기를 통해 선명한 음성을 생성하는 데에 이용된다.

잡음 모델링

잡음 모델 모듈(320)은 오디오 입력으로부터 비음성 컴포넌트를 식별 및 추출할 수 있다. 이는 예를 들면 음성 및 비음성 간의 구별이 가능한 피질(cortical) 표시와 같은 다차원 표시를 생성함으로써 달성될 수 있다. 피질 표시상의 일부 배경은 그 개시물의 전체가 참조에 의해 본문에 통합되어있는 M. Elhilali 및 S.A. Shamma의 "A cocktail party with a cortical twist: How cortical mechanisms contribute to sound segregation,", J. Acoust. Soc. Am. 124(6): 3751-3771(2008년 12월)에서 제공된다.

예시적인 시스템(300)에서, 다중 해상도 분석이 잡음 모델 모듈(320)에 의해 잡음을 추정하기 위해 사용될 수 있다. 피치와 같은 유성음 정보가 음성과 잡음 컴포넌트 사이를 구별하기 위해 추정시 사용될 수 있다. 광대역 정상 잡음(stationary noise)에 대해, 변조-영역 필터는 잡음의(그러나 타겟 음성의 것은 아닌) 느리게 변하는(저 변조) 컴포넌트 특징을 추정 및 추출하기 위해 구현될 수 있다. 일부 실시예에서, 최소 통계법과 같은 대안의 모델링 접근 방식이 사용될 수 있다.

피치 분석 및 추적

피치 추정 모듈(330)은 자기상관도(autocorrelogram) 피처에 기초하여 구현될 수 있다. 자기상관도 피처에 대한 일부 배경은 그 개시물의 전체가 참조에 의해 본 명세서에 통합되어 있는 Z. Jin 및 D. Wang의 "HMM-Based Multipitch Tracking for Noisy and Reverberant Speech," IEEE Transactions on Audio, Speech, and Language Processing, 19(5):1091-1102 (2011년 7월)에서 제공된다. 다중 해상도 분석이 해석(resolved) 고조파(협소대역 분석) 및 비해석(unresolved) 고조파(광대역 분석) 모두로부터 피치 정보를 추출하도록 사용될 수 있다. 잡음 추정치는 신호가 잡음이 우세한 불안정한 서브 대역을 폐기함으로써 피치 큐를 수정하도록 통합될 수 있다. 일부 실시예에서, 베이지안 필터(Bayesian Filter) 또는 베이지안 추적기(예를 들면, 숨겨진 마르코프 모델(HMM))가 연속 피치 트랙을 생성하기 위해 시간적 제약을 가지고 프레임 당 피치 큐를 통합하기 위해 사용된다. 그 결과인 피치 트랙은 그런다음 고조파 에너지가 존재하는 시간-주파수 영역을 강조하는 고조파 맵 추정을 위해 사용될 수 있다. 일부 실시예에서, 자기상관도 피처에 기초한 방법 이외의 적합한 대안의 피치 추정 및 추적 방법이 사용된다.

합성을 위해, 피치 트랙은 손실 프레임을 위해 보간될 수 있고 보다 자연스러운 음성 윤곽을 만들기 위해 평탄화될 수 있다. 일부 실시예에서, 통계적 피치 윤곽선(pitch contour) 모델이 내삽/외삽 및 평탄화에 사용된다. 유성음 정보가 피치 추정치의 현출(saliency) 및 신뢰도로부터 도출될 수 있다.

희소 포락선 추출

유성음 음성 및 배경 잡음 영역이 식별되면, 무성음 음성 영역의 추정치가 도출될 수 있다. 일부 실시예에서, 프레임이 음성이 없는 경우(판정이 예를 들면 프레임이 어떻게 경사졌는지의 측정인 피치 현출에 기초하여 이루어질 수 있는) 피처 영역은 무성음으로 선언되고, 신호는 잡음 모델을 따르지 않고, 예를 들면, 신호 레벨(또는 에너지)이 잡음 임계치를 벗어나거나 피처 공간에서의 신호 표시가 피처 공간 내의 잡음 모델 영역을 벗어난다.

유성음 정보가 피치 추정치에 대응하는 고조파 스펙트럼 피크를 식별하고 선택하기 위해 이용될 수 있다. 이 프로세스에서 발견된 스펙트럼 피크는 희소 포락선을 생성하기위해 저장될 수 있다.

무성음 프레임들에 대해, 모든 스펙트럼 피크가 식별될 수 있고, 희소 포락선 신호에 추가될 수 있다. 유성음 프레임에 대한 예시가 도 4에 도시된다. 도 5는 유성음 프레임에 대한 희소 포락선 추정치의 예시적인 시간-주파수 플롯이다.

스펙트럼 포락선 모델링

스펙트럼 포락선은 보간법에 의해 희소 포락선으로부터 도출될 수 있다. 보다 자연스럽고 왜곡되지 않은 음성을 산출할 수 있는 보다 복잡한 데이터-도출 방법 또는 간단한 2차원 메쉬 보간법(예를 들면, 이미지 처리 기술)을 포함하는 다수의 방법이 희소 포락선을 도출하기 위해 적용될 수 있다.

도 6에 도시된 예시에서, 대수 영역(logarithmic domain)에서의 큐빅 보간은 평탄한 스펙트럼 포락선을 획득하기 위해 희소 스펙트럼에 대해 프레임 당 단위로 적용된다. 이 접근 방식을 이용하여, 여기(excitation)에 기인한 미세 구조를 제거하거나 최소화할 수 있다. 잡음이 음성 고조파를 초과하는 경우, 포락선이 일부 억제 법(예를 들면, 위너 필터) 또는 음성 포락선 모델에 기초하여 가중치가 할당될 수 있다.

음성 합성

도 7은 예시적 실시예에 따른, 음성 합성 장치(700)의 블록도이다. 예시적인 음성 합성 장치(700)는 선형 예측 코딩(LPC) 모델링 블록(710), 펄스 블록(720), 백색 가우시안 잡음(WGN) 블록(730), 섭동 모델링 블록(760), 섭동 필터(740 및 750), 및 합성 필터(780)를 포함한다.

피치 트랙 및 스펙트럼 포락선이 연산되면, 선명한 음성 발언이 합성될 수 있다. 이러한 파라미터로, 하기와 같이 혼합 여기 합성 장치가 구현될 수 있다. 스펙트럼 포락선(ENV)이 성도(vocal tract)의 상세를 유지하지만 다른 여기 관련 인공물(artifact)은 배제하도록 높은 오더의 선형 예측 코딩(LPC) 필터(예를 들면, 64번째 오더)에 의해 모델링될 수 있다. 여기(유성음 정보의(도 7의 예시에서의 유성음/무성음 (V/U)과 같은 피치(F0) 및 유성음 분류))는 각각의 프레임에서의 피치 값과 필터링된 백색 가우시안 잡음원(WGN 블록(730), 도 7)에 의해 도출된 필터링된 펄스 열(train)의 합에 의해 모델링될 수 있다. 도 7의 예시적 실시예에서 도시된 바와 같이, 유성음/무성음(V/U)과 같은 피치(F0) 및 유성음 분류가 펄스 블록(720), WGN 블록(730), 및 섭동 모델링 블록(760)으로 입력될 수 있다. 섭동 필터(P(z)(750) 및 Q(z))는 포락선의 스펙트럼 시간 에너지 프로파일로부터 도출될 수 있다.

다른 공지된 방법과는 반대로, 주기적인 펄스열의 섭동은 다양한 실시 형태에 따라, 스페트럼 포락선의 상대적인 국부적(local) 및 전역(global) 에너지에만 기초하고 여기 분석에는 기초하지 않으면서 제어될 수 있다. 필터 (P(z)(750))는 여기시 잡음 컴포넌트에 대해 스펙트럼 정형(shaping)을 추가할 수 있고, 필터(Q(z) (740))는 분산 및 자연스러움을 증가시키기 위해 펄스열의 위상을 수정하도록 사용될 수 있다.

섭동 필터 (P(z)(750) 및 Q(z)(740))를 도출하기 위해, 각 프레임 내에서 동적 범위가 연산될 수 있고, 주파수 종속적인 가중치가 프레임에서의 최소 및 최대 에너지에 대해 상대적인 각각의 스펙트럼 값의 레벨에 기초하여 적용된다. 그런다음, 전역 가중치가 시간 경과에 따라 추적된 최대 및 최소 전역 에너지에 대해 상대적인 프레임 레벨에 기초하여 적용될 수 있다. 이 접근 방식 뒤의 근거는 온셋 및 오프셋 동안(상대적으로 낮은 전역 에너지) 성문 영역이 감소되어 더 높은 레이놀즈 수(난류의 증가 가능성)를 가져온다는 것이다. 정상 상태 동안, 로컬 주파수 섭동이 난류 에너지가 우세한 더 낮은 에너지에서 관찰될 수 있다.

섭동이 유성음 프레임내의 스펙트럼 포락선으로부터 연산될 수 있지만, 실제로는, 일부 실시예에 대해, 섭동은 무성음 영역 중 최대값이 할당된다는 것에 유의해야 한다. 선명한 여성 음성 샘플에 대한 합성 파라미터의 예가 도 8a에 도시된다(또한 도 8b에보다 상세히 도시됨). 섭동 함수는 비주기성(aperiodicity) 함수로서 dB 영역으로 도시된다.

시스템(300)의 성능의 예는 도 9에 도시되고, 여기서 잡음 음성 입력이 시스템(300)에 의해 처리되어, 합성 무잡음 출력을 산출한다.

도 10은 잡음과 음성의 혼합물로부터 선명한 음성을 생성하기 위한 방법(1000)의 플로우 차트이다. 방법(1000)은 하드웨어(예를 들면, 전용 로직, 프로그래머블 로직, 및 마이크로 코드), 소프트웨어(예를 들면, 범용 컴퓨터 시스템 또는 전용 머신에서 실행되는 것과 같은), 또는 이들의 조합을 포함하는 처리 로직에 의해 수행될 수 있다. 일 실시예에서, 처리 로직은 오디오 처리 시스템(140)에 상주한다.

동작(1010)에서, 예시적인 방법(1000)은 잡음과 음성의 혼합물 및 음성의 모델에 기초하여 음성 파라미터를 도출하는 단계를 포함할 수 있다. 음성 파라미터들은 스펙트럼 포락선 및 유성음 정보를 포함할 수 있다. 유성음 정보는 피치 데이터 및 유성음 분류를 포함할 수 있다. 동작(1020)에서, 방법(1000)은 음성 파라미터로부터 선명한 음성을 합성하면서 진행할 수 있다.

도 11은 본 발명의 일부 실시예를 구현하는데 사용될 수 있는 예시적인 컴퓨터 시스템(1100)을 도시한다. 도 11의 컴퓨터 시스템(1100)은 컴퓨팅 시스템, 네트워크, 서버, 또는 이들의 조합과 같은 것들의 의미로 구현될 수 있다. 도 11의 컴퓨터 시스템(1100)은 하나 이상의 프로세서 유닛(1110) 및 메인 메모리(1120)를 포함한다. 메인 메모리(1120)는 프로세서 유닛(1110)에 의해 실행하기 위해 명령어 및 데이터를 부분적으로 저장한다. 메인 메모리(1120)는 동작시 본 예시에서 실행가능한 코드를 저장한다. 도 11의 컴퓨터 시스템(1100)는 대용량 데이터 저장 장치(1130), 휴대용 저장 장치(1140), 출력 장치(1150), 사용자 입력 장치(1160), 그래픽 디스플레이 시스템(1170), 및 주변 장치(1180)를 더 포함한다.

도 11에 도시된 컴포넌트는 단일 버스(1190)를 통해서 연결되는 것으로 도시된다. 컴포넌트들은 하나 이상의 데이터 전송 수단을 통해 연결될 수 있다. 프로세서 유닛(1110) 및 메인 메모리(1120)는 로컬 마이크로프로세서 버스를 통해 연결되고, 대용량 데이터 저장장치(1130), 주변 장치(들)(1180), 휴대용 저장 장치(1140), 및 그래픽 디스플레이 시스템(1170)은 하나 이상의 입/출력(I/O) 버스를 통해 연결된다.

자기 디스크 드라이브, 솔리드 스테이트 드라이브, 또는 광학 디스크 드라이브로 구현될 수 있는 대용량 저장 장치(1130)는 프로세서 유닛(1110)에 의해 사용하기 위한 데이터 및 명령어들을 저장하는 비휘발성 저장 장치이다. 대용량 저장 장치(1130)는 본 개시물의 실시예들을 구현하기 위한 시스템 소프트웨어를 메인 메모리(1120)로 로딩하는 목적으로 시스템 소프트웨어를 저장한다.

휴대용 저장 장치(1140)는 예를 들면 플래시 드라이브, 플로피 디스크, 컴팩트 디스크, 디지털 비디오 디스크, 또는 범용 직렬 버스(USB) 저장 장치와 같은 휴대용 비휘발성 저장 매체와 함께 도 11의 컴퓨터 시스템(1100)으로 데이터 및 코드를 입출력하도록 동작한다. 본 발명의 실시예들을 구현하기 위한 시스템 소프트웨어는 이러한 휴대용 매체에 저장되고 휴대용 저장 장치(1140)를 통해 컴퓨터 시스템 (1100)에 입력된다.

사용자 입력 장치(1160)는 사용자 인터페이스의 일부를 제공할 수 있다. 사용자 입력 장치(1160)는 하나 이상의 마이크로폰, 문자숫자와 기타 정보를 입력하기 위한 키보드와 같은 문자숫자 키패드, 마우스, 트랙볼, 스타일러스, 또는 커서 방향 키와 같은 포인팅 장치를 포함할 수 있다. 사용자 입력 장치(1160)는 또한 터치스크린을 포함할 수 있다. 또한, 도 11에 도시된 것과 같은 컴퓨터 시스템(1100)은 출력 장치(1150)를 포함한다. 적절한 출력 장치(1150)는 스피커, 프린터, 네트워크 인터페이스, 및 모니터를 포함한다.

그래픽 디스플레이 시스템(1170)은 액정 디스플레이(LCD) 또는 다른 적합한 디스플레이 장치를 포함한다. 그래픽 디스플레이 시스템(1170)은 텍스트 및 그래픽 정보를 수신하도록 구성가능하며, 디스플레이 장치에 출력하기 위한 정보를 처리한다.

주변 장치(1180)는 컴퓨터 시스템에 부가 기능을 추가하는 임의의 유형의 컴퓨터 지원 장치를 포함할 수 있다.

도 11의 컴퓨터 시스템(1100)에 제공되는 컴포넌트는 본 개시물의 실시예로 사용하기에 적합할 수 있는 컴퓨터 시스템에서 일반적으로 발견되는 것들이고 종래 기술에 공지된 이러한 컴퓨터 컴포넌트의 폭넓은 카테고리를 표시하도록 의도된다. 따라서, 도 11의 컴퓨터 시스템(1100)은 개인용 컴퓨터(PC), 핸드헬드 컴퓨터 시스템, 전화기, 모바일 컴퓨터 시스템, 워크스테이션, 태블릿, 패블릿, 휴대 전화, 서버, 미니 컴퓨터, 메인 프레임 컴퓨터, 웨어러블, 인터넷 접속 장치, 또는 기타 컴퓨터 시스템일 수 있다. 컴퓨터는 또한 상이한 버스 구성들, 네트워크 플랫폼, 멀티 프로세서 플랫폼 등을 포함할 수 있다. 유닉스, 리눅스, 윈도우, 맥 OS, 팜 OS, QNX 안드로이드, IOS, 크롬, 타이젠, 및 기타 적절한 운영 시스템을 포함하는 다양한 운영 체제가 사용될 수 있다.

다양한 실시예들을 위한 처리가 클라우드 기반 소프트웨어로 구현될 수 있다. 일부 실시예에서, 컴퓨터 시스템(1100)은 컴퓨팅 클라우드 내에서 동작하는 가상 머신과 같은 클라우드 기반 컴퓨팅 환경으로 구현된다. 다른 실시예에서, 컴퓨터 시스템(1100) 자체는 컴퓨터 시스템(1100)의 기능이 분산 방식으로 실행되는 클라우드 기반 컴퓨팅 환경을 포함할 수 있다. 따라서, 컴퓨팅 클라우드로서 구성될 때 컴퓨터 시스템(1100)은 따라서 하기에 더 상술되는 바와 같이 다양한 형태의 복수의 컴퓨팅 장치를 포함할 수 있다.

일반적으로, 클라우드 기반 컴퓨팅 환경은 일반적으로 (예를 들면 웹 서버 내에서와 같은) 큰 그룹의 프로세서의 연산 능력을 조합하고 및/또는 큰 그룹의 컴퓨터 메모리 또는 저장 장치의 저장 능력을 조합하는 자원이다. 클라우드 기반 자원을 제공하는 시스템은 소유자에 의해 배타적으로 이용될 수 있고, 또는 이러한 시스템은 대용량 연산 또는 저장 자원의 효익을 얻기 위해 컴퓨팅 설비 내의 애플리케이션을 사용하는 외부 사용자가 액세스할 수 있다.

클라우드는 예를 들면 각 서버(또는 적어도 복수의 서버)가 프로세서 및/또는 저장 자원을 제공하는 컴퓨터 시스템(1100)과 같은 복수의 컴퓨팅 장치를 포함하는 웹 서버의 네트워크에 의해 형성될 수 있다. 이들 서버는 다중 사용자(예를 들면, 클라우드 자원 고객 또는 기타 사용자)에 의해 제공된 워크로드를 관리할 수 있다. 일반적으로, 각 사용자는 실시간으로 변하는, 때때로 급격하게 변하는 클라우드에 대한 워크로드 요구를 제시한다. 이들 변형의 속성 및 정도는 일반적으로 사용자와 연관된 사업의 유형에 따라 달라진다.

본 기술은 예시적인 실시예를 참조하여 상술한다. 따라서, 예시적인 실시예에 대한 기타 변형은 본 명세서에 포함되는 것으로 의도된다.

Claims

잡음과 음성(speech)의 혼합물로부터 선명한(clean) 음성을 생성하는 방법으로서:
잡음 및 음성의 상기 혼합물 및 음성 모델에 기초하여, 음성 파라미터를 도출하는 단계로서, 상기 도출하는 단계는 적어도 하나의 하드웨어 프로세서를 이용하는 상기 도출하는 단계; 및
상기 음성 파라미터에 적어도 부분적으로 기초하여 선명한 음성을 합성하는 단계;
를 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제1 항에 있어서, 상기 음성 파라미터를 도출하는 단계는:
하나 이상의 스펙트럼 표시를 생성하기 위해 잡음과 음성의 상기 혼합물에 대한 하나 이상의 스펙트럼 분석을 실시하는 단계;
상기 하나 이상의 스펙트럼 표시에 기초하여 피처 데이터를 도출하는 단계;
상기 음성 모델에 따라 상기 피처 데이터 내의 타겟 음성 피처를 그룹화하는 단계;
상기 피처 데이터로부터 상기 타겟 음성 피처를 분리하는 단계; 및
타겟 음성 피처에 적어도 부분적으로 기초하여, 상기 음성 파라미터를 생성하는 단계;
를 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제2 항에 있어서, 타겟 음성 피처에 대한 후보자는 상기 음성 모델에 의해 보조를 받는 다중 가설 추적(multi-hypothesis tracking) 시스템에 의해 평가되는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제2 항에 있어서, 상기 음성 파라미터는 스펙트럼 포락선(spectral envelope) 및 유성음(voicing) 정보를 포함하고, 상기 유성음 정보는 피치 데이터 및 유성음 분류(voice classification) 데이터를 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제4 항에 있어서, 상기 피처 데이터를 그룹화하기 전에, 잡음 모델에 기초하여 상기 피처 데이터 내에서의 비음성(non-speech) 컴포넌트를 판정하는 단계를 더 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제5 항에 있어서, 상기 피치 데이터는 적어도 부분적으로 상기 비음성 컴포넌트에 기초하여 판정되는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제5 항에 있어서, 상기 피치 데이터는 잡음 컴포넌트가 음성 컴포넌트를 차단하는(occlude) 것에 관한 지식에 적어도 기초하여 판정되는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제6 항에 있어서, 상기 음성 파라미터를 생성하는 동안:
유성음(voiced) 음성을 나타내는 고조파 맵을 상기 피치 데이터에 기초하여 생성하는 단계; 및
상기 비음성 컴포넌트와 상기 고조파 맵에 기초하여 무성음(unvoiced) 음성 맵을 추정하는 단계;
를 더 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제8 항에 있어서, 마스크를 이용하여 상기 하나 이상의 스펙트럼 표시로부터 희소(sparse) 스펙트럼 포락선을 추출하는 단계를 더 포함하고, 상기 마스크는 고조파 맵과 무성음 음성 맵에 기초하여 생성되는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제9 항에 있어서, 상기 희소 스펙트럼 포락선에 기초하여 상기 스펙트럼 포락선을 추정하는 단계를 더 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제4 항에 있어서, 상기 피치 데이터는 선명한 음성을 합성하기 전에 손실(missing) 프레임을 채우도록 보간되는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
제1 항에 있어서, 음성 파라미터를 도출하는 단계는:
하나 이상의 스펙트럼 표시를 생성하기 위해 잡음과 음성의 상기 혼합물에 대한 하나 이상의 스펙트럼 분석을 실시하는 단계;
상기 하나 이상의 스펙트럼 표시를 그룹화하는 단계;
상기 그룹화된 스펙트럼 표시 중 하나 이상에 기초하여 피처 데이터를 도출하는 단계;
상기 피처 데이터로부터 상기 타겟 음성 피처를 분리하는 단계; 및
타겟 음성 피처에 적어도 부분적으로 기초하여, 상기 음성 파라미터를 생성하는 단계;
를 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 방법.
잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템으로서:
하나 이상의 프로세서; 및
상기 프로세서와 통신가능하게 결합되는 메모리;
를 포함하고,
상기 하나 이상의 프로세서에 의해 실행될 때, 상기 메모리는:
잡음 및 음성의 상기 혼합물 및 음성 모델에 기초하여, 음성 파라미터를 도출하는 단계, 및
상기 음성 파라미터에 적어도 부분적으로 기초하여 선명한 음성을 합성하는 단계;
를 구비하는 방법을 수행하는 명령어들을 저장하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제13 항에 있어서, 상기 음성 파라미터를 도출하는 단계는:
하나 이상의 스펙트럼 표시를 생성하기 위해 잡음과 음성의 상기 혼합물에 대한 하나 이상의 스펙트럼 분석을 실시하는 단계;
상기 하나 이상의 스펙트럼 표시에 기초하여 피처 데이터를 도출하는 단계;
상기 음성 모델에 따라 상기 피처 데이터 내의 타겟 음성 피처를 그룹화하는 단계;
상기 피처 데이터로부터 상기 타겟 음성 피처를 분리하는 단계; 및
타겟 음성 피처에 적어도 부분적으로 기초하여, 상기 음성 파라미터를 생성하는 단계;
를 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제14 항에 있어서, 타겟 음성 피처에 대한 후보자는 상기 음성 모델에 의해 보조를 받는 다중 가설 추적 시스템에 의해 평가되는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제14 항에 있어서, 상기 음성 파라미터는 스펙트럼 포락선 및 유성음(voicing) 정보를 포함하고, 상기 유성음 정보는 피치 데이터 및 유성음 분류 데이터를 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제16 항에 있어서, 상기 피처 데이터를 그룹화하기 전에, 잡음 모델에 기초하여 상기 피처 데이터 내에서의 비음성 컴포넌트를 판정하는 단계를 더 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제17 항에 있어서, 상기 피치 데이터는 부분적으로 상기 비음성 컴포넌트에 기초하여 판정되는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제17 항에 있어서, 상기 피치 데이터는 잡음 컴포넌트가 음성 컴포넌트를 차단하는 것에 관한 지식에 적어도 기초하여 판정되는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제18 항에 있어서, 상기 음성 파라미터를 생성하는 동안:
유성음(voiced) 음성을 나타내는 고조파 맵을 상기 피치 데이터에 기초하여 생성하는 단계; 및
상기 비음성 컴포넌트와 상기 고조파 맵에 기초하여 무성음(unvoiced) 음성 맵을 추정하는 단계;
를 더 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제18 항에 있어서, 마스크를 이용하여 상기 하나 이상의 스펙트럼 표시로부터 희소 스펙트럼 포락선을 추출하는 단계를 더 포함하고, 상기 마스크는 고조파 맵과 무성음 음성 맵에 기초하여 생성되는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제21 항에 있어서, 상기 희소 스펙트럼 포락선에 기초하여 상기 스펙트럼 포락선을 추정하는 단계를 더 포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
제13 항에 있어서, 음성 파라미터를 도출하는 단계는:
하나 이상의 스펙트럼 표시를 생성하기 위해 잡음과 음성의 상기 혼합물에 대한 하나 이상의 스펙트럼 분석을 실시하는 단계;
상기 하나 이상의 스펙트럼 표시를 그룹화하는 단계;
상기 그룹화된 스펙트럼 표시 중 하나 이상에 기초하여 피처 데이터를 도출하는 단계;
상기 피처 데이터로부터 상기 타겟 음성 피처를 분리하는 단계; 및
타겟 음성 피처에 적어도 부분적으로 기초하여, 상기 음성 파라미터를 생성하는 단계;
포함하는 것을 특징으로 하는 잡음과 음성의 혼합물로부터 선명한 음성을 생성하는 시스템.
내부에서 프로그램을 구현하는 비일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 프로그램은 잡음과 음성의 혼합물로부터 선명한 음성을 생성하기 위한 방법을 수행하기 위해 프로세서에 의해 실행가능한 상기 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 방법은:
잡음 및 음성의 상기 혼합물 및 음성 모델에 기초하여, 메모리에 저장되고 하나 이상의 프로세서에 의해 실행되는 명령어들을 통해서 음성 파라미터를 도출하는 단계; 및
상기 음성 파라미터에 적어도 부분적으로 기초하여, 상기 메모리에 저장되고 상기 하나 이상의 프로세서에 의해 실행되는 명령어들을 통해 선명한 음성을 합성하는 단계;
를 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.