KR20140000260A

KR20140000260A - 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩

Info

Publication number: KR20140000260A
Application number: KR1020137014138A
Authority: KR
Inventors: 마이클 엘 셀저; 제임스 지 드로포; 헨리케 에스 말바르; 알레한드로 아세로; 싱 판
Original assignee: 마이크로소프트 코포레이션
Priority date: 2010-12-03
Filing date: 2011-12-03
Publication date: 2014-01-02
Also published as: US20120143599A1; US8532985B2; WO2012075476A3; WO2012075476A2; EP2647004A2; CN102568484B; CN102568484A; EP2647004A4

Abstract

오리지널 오디오 신호의 왜곡 스펙트럼 추정을 이용하여 오리지널 신호의 정밀 추정의 표현을 인코딩할 수 있다. 왜곡 스펙트럼 추정의 표현 및 정밀 추정의 표현은 음성 인식 시스템으로 전송될 수 있다. 왜곡 스펙트럼 추정의 표현은 음성 인식 엔진으로 전달될 수 있으며, 그곳에서 음성 인식을 위해 사용될 수 있다. 왜곡 스펙트럼 추정의 표현은 또한 정밀 추정의 표현과 더불어 오리지널 오디오 신호의 표현을 재구성하는 데 사용될 수 있다.

Description

왜곡 스펙트럼 및 정밀 추정 오디오 인코딩{WARPED SPECTRAL AND FINE ESTIMATE AUDIO ENCODING}

이동 전화들 및 VOIP(Voice Over IP) 네트워크들에서 사용되는 것들과 같은 전형적인 음성 코덱들은 음성 인식 성능을 위해서가 아니라 인간 청취자들에 대한 지각 품질(perceptual quality)의 개선을 위해 설계된 방안(scheme)을 이용하여 오리지널 음성 신호를 인코딩한다. 이에 반해, 음성 인식 시스템들은 종종 음성 인식 성능의 개선을 위해 설계된 방안을 이용하여 (본 명세서에서 왜곡(warped) 스펙트럼 추정들이라고도 지칭되는) 왜곡 주파수 스펙트럼 추정들의 표현들과 같은 음성 인식 특징들을 인코딩한다. 일부 방안들은 인코딩된 음성 인식 특징들을 이용하여 오디오 신호들을 구성하려고 시도하였으며, 일부 방안들은 인코딩된 음성 코덱 특징들을 이용하여 음성 인식을 수행하려고 시도해왔다.

인코딩된 음성 인식 특징들을 이용하여 오디오 신호들을 구성하기 위한 이전의 시도들은 제한적인 성공만을 거두었으며, 결과적으로 오리지널 오디오 신호의 표현들에 근접하지 않은 오디오 신호들을 구성하였다. 마찬가지로, 음성 인식을 위해 인코딩된 음성 코덱 특징들을 이용하기 위한 이전의 시도들도 제한된 성공을 거두었다. 본 명세서에서 설명되는 도구들 및 기술들은 오리지널 오디오 신호의 왜곡 스펙트럼 추정을 이용하여 오리지널 신호의 정밀한 특징들의 정밀 추정을 인코딩하는 것을 포함할 수 있다. 왜곡 스펙트럼 추정의 표현은 음성 인식을 위해 사용될 수 있으며, 또한 정밀 추정의 표현과 더불어 오리지널 오디오 신호를 표현하는 재구성된 오디오 신호를 재구성하는 데 사용될 수 있다.

본 명세서에서 사용되는 바와 같이, 오리지널 오디오 신호 또는 오리지널 음성 신호는 왜곡 스펙트럼 추정 표현을 인코딩하는 데 사용되는 오디오 신호이다. 오리지널 신호는 미처리(raw) 오디오 신호, 또는 다양한 방식들 중 하나 이상의 방식으로 사전 처리된 오디오 신호일 수 있다. 왜곡 스펙트럼 추정은 스펙트럼에 의해 표현된 주파수 빈들(bins)의 범위를 변경함으로써 왜곡된 오디오 신호의 주파수 도메인 추정이다. 평활 추정(smooth estimate)은 대응하는 오디오 신호에 대한 하이 레벨 또는 코스 상세들을 제공하는 평활화된 추정이다. 정밀 추정(fine estimate)은 오리지널 오디오 신호의 파형의 정밀한 상세들의 추정이며, 정밀한 상세들은 정밀 추정을 인코딩하는 데 사용되는 평활 추정에서 제공되는 것들보다 정밀하다. 정밀 추정은 단순히 피치 정보와 같은 정보는 아니고, 오디오 파형의 특징들에 대한 일부 상세들을 제공하며, 그렇다고 파형의 정밀한 상세들을 실제로 추정하는 것은 아니다. 재구성된 오디오 신호는 오리지널 오디오 신호의 추정들로부터 구성된 신호이며, 따라서 재구성된 오디오 신호는 오리지널 오디오 신호의 근사화를 나타낸다.

일 실시예에서, 도구들 및 기술들은 오리지널 오디오 신호로부터 왜곡 주파수 스펙트럼 추정의 표현을 인코딩하는 것을 포함할 수 있다. 인코딩은 왜곡 주파수 스펙트럼에 기초할 수 있으며, 동적 범위 축소 연산을 포함할 수 있다. 왜곡 주파수 스펙트럼 추정 표현을 이용하여 오리지널 오디오 신호의 평활 추정의 표현이 생성될 수 있다. 게다가, 평활 추정의 표현을 이용하여 오리지널 오디오 신호의 정밀한 상세들의 정밀 추정 표현이 인코딩될 수 있다.

도구들 및 기술들의 다른 실시예에서, 오리지널 오디오 신호의 왜곡 주파수 스펙트럼 추정의 표현이 디코딩될 수 있다. 오리지널 오디오 신호의 정밀 추정의 표현도 디코딩될 수 있다. 왜곡 주파수 스펙트럼 추정의 표현은 음성 인식 엔진으로 전달될 수 있다. 게다가, 오리지널 오디오 신호를 표현하는 오디오 신호가 왜곡 주파수 스펙트럼 추정의 표현 및 정밀 추정의 표현을 이용하여 재구성될 수 있다. 재구성은 왜곡 주파수 스펙트럼 추정의 표현의 동적 범위를 확대하는 것을 포함할 수 있다.

본 요약은 개념들의 발췌를 간단한 형태로 소개하기 위해 제공된다. 개념들은 아래의 상세한 설명에서 더 설명된다. 본 요약은 청구된 발명 대상의 중요한 특징들 또는 본질적인 특징들을 식별하도록 의도되지 않으며, 청구 발명의 범위를 한정하는 데 사용되도록 의도되지도 않는다. 마찬가지로, 본 발명은 배경 기술, 상세한 설명 또는 첨부된 도면들에서 설명되는 특정 기술들, 도구들, 환경들, 단점들 또는 장점들을 다루는 구현들로 한정되지 않는다.

도 1은 설명되는 실시예들 중 하나 이상이 구현될 수 있는 적절한 컴퓨팅 환경의 블록도이다.
도 2는 오디오 코딩 시스템의 개략도이다.
도 3은 음성 인식 시스템의 개략도이다.
도 4는 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩을 위한 기술의 흐름도이다.
도 5는 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩을 위한 다른 기술의 흐름도이다.
도 6은 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩을 위한 또 다른 기술의 흐름도이다.

본 명세서에서 설명되는 실시예들은 음성 인식에 이용될 수 있으며 오디오 신호 재구성에도 이용될 수 있는 특징들의 개선된 인코딩/디코딩과 같은 오디오 특징들의 개선된 인코딩/디코딩을 위한 기술들 및 도구들에 관한 것이다. 그러한 개선들은 다양한 기술들 및 도구들의 이용으로부터 개별적으로 또는 조합하여 달성될 수 있다.

그러한 기술들 및 도구들은 음성 인식을 위해 전통적으로 이용되어 온 왜곡 스펙트럼 추정을 이용하여 오리지널 오디오 신호의 정밀 추정을 인코딩하는 것을 포함할 수 있다. 왜곡 스펙트럼 추정 및 정밀 추정의 표현들이 음성 인식 시스템으로 전송되어, 음성 인식은 물론 오리지널 오디오 신호의 표현의 재구성을 위해 사용될 수 있다. 예를 들어, 왜곡 스펙트럼 추정 표현이 음성 인식 엔진으로 전달될 수 있다. 게다가, 왜곡 스펙트럼 추정 표현은 정밀 추정 표현과 더불어 오디오 신호의 표현을 재구성하는 데 사용될 수 있다. 예를 들어, 왜곡 스펙트럼 추정 표현은 오리지널 오디오 신호를 표현하는 재구성된 오디오 신호를 인코딩하기 위해 정밀 추정과 결합될 수 있는 평활 추정을 생성하는 데 사용될 수 있다.

따라서, 본 명세서에서 설명되는 도구들 및 기술들로부터 하나 이상의 실질적인 이익이 실현될 수 있다. 예를 들어, 음성 인식 특징들(왜곡 스펙트럼 추정 표현)은 음성 인식을 위해서는 물론, 오리지널 오디오 신호의 정밀 추정의 인코딩 및 오리지널 오디오 신호를 표현하는 오디오 신호의 재구성을 위해서도 사용될 수 있다. 첨부된 청구항들에서 정의되는 발명은 본 명세서에서 설명되는 이익들로 반드시 한정되지는 않는다. 본 발명의 특정 구현은 본 명세서에서 설명되는 이익들의 전부 또는 일부를 제공하거나 아무것도 제공하지 않을 수 있다. 본 명세서에서는 다양한 기술들을 위한 동작들이 프레젠테이션을 위해 특정 순서로 설명되지만, 이러한 설명 방식은 특정 순서가 요구되지 않는 한 동작들의 순서의 재배열들을 포함한다는 것을 이해해야 한다. 예를 들어, 순차적으로 설명되는 동작들은 일부 예들에서 재배열되거나 동시에 수행될 수 있다. 흐름도들을 참조하여 본 명세서에서 설명되는 기술들은 본 명세서에서 설명되는 시스템들 중 하나 이상과 함께 그리고/또는 하나 이상의 다른 시스템과 함께 사용될 수 있다. 예를 들어, 본 명세서에서 설명되는 다양한 절차들은 하드웨어 또는 소프트웨어, 또는 이 둘의 조합을 이용하여 구현될 수 있다. 더욱이, 간소화를 위해, 흐름도들은 특정 기술들이 다른 기술들과 함께 이용될 수 있는 다양한 방식들을 나타내지 않을 수도 있다.

I. 예시적인 컴퓨팅 환경

도 1은 설명되는 실시예들 중 하나 이상이 구현될 수 있는 적절한 컴퓨팅 환경(100)의 일반화된 예를 나타낸다. 예를 들어, 하나 이상의 그러한 컴퓨팅 환경은 인코딩 시스템 및/또는 음성 인식 시스템으로서 사용될 수 있다. 일반적으로, 다양한 상이한 범용 또는 특수 목적 컴퓨팅 시스템 구성들이 사용될 수 있다. 본 명세서에서 설명되는 도구들 및 기술들과 함께 사용하기에 적합할 수 있는 공지된 컴퓨팅 시스템 구성들의 예들은 서버 팜들 및 서버 클러스터들, 개인용 컴퓨터들, 서버 컴퓨터들, 핸드헬드 또는 랩탑 장치들, 멀티프로세서 시스템들, 마이크로프로세서 기반 시스템들, 프로그래밍 가능 소비자 전자 장치들, 네트워크 PC들, 미니컴퓨터들, 메인프레임 컴퓨터들, 위의 시스템들 또는 장치들 중 임의의 것을 포함하는 분산형 컴퓨팅 환경들 등을 포함하지만 이에 한정되지 않는다.

본 발명은 다양한 범용 또는 특수 목적 컴퓨팅 환경들에서 구현될 수 있으므로, 컴퓨팅 환경(100)은 본 발명의 이용 또는 기능의 범위에 관하여 어떠한 한정도 제시하는 것을 의도하지 않는다.

도 1을 참조하면, 컴퓨팅 환경(100)은 적어도 하나의 처리 유닛(110) 및 메모리(120)를 포함한다. 도 1에서, 이러한 가장 기본적인 구성(130)은 점선 내에 포함된다. 처리 유닛(110)은 컴퓨터 실행 가능 명령어들을 실행하며, 실제 또는 가상 프로세서일 수 있다. 다중 처리 시스템에서는, 처리 능력을 증가시키기 위해 다수의 처리 유닛이 컴퓨터 실행 가능 명령어들을 실행한다. 메모리(120)는 휘발성 메모리(예로서, 레지스터들, 캐시, RAM), 비휘발성 메모리(예로서, ROM, EEPROM, 플래시 메모리), 또는 이 둘의 소정 조합일 수 있다. 메모리(120)는 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩을 구현하는 소프트웨어(180)를 저장한다.

도 1의 다양한 블록들은 명료성을 위해 선들로 도시되지만, 실제로 다양한 컴포넌트들의 묘사는 그렇게 명료하지 않으며, 은유적으로 도 1 및 후술하는 다른 도면들의 선들은 더 정확하게는 흐리거나 희미할 것이다. 예를 들어, 디스플레이 장치와 같은 프레젠테이션 컴포넌트는 I/O 컴포넌트인 것으로 간주할 수 있다. 또한, 프로세서들은 메모리를 갖는다. 본 발명의 발명자들은 그러한 것이 기술의 본질임을 인식하며, 도 1의 도면은 본 발명의 하나 이상의 실시예와 관련하여 사용될 수 있는 예시적인 컴퓨팅 장치를 예시할 뿐이라는 것을 거듭 밝혀둔다. "워크스테이션", "서버", "랩탑", "핸드헬드 장치" 등과 같은 카테고리들 간에는 차이가 없으며, 그 이유는 이들 모두가 도 1의 범위 내에서 고려되며 "컴퓨터", "컴퓨팅 환경" 또는 "컴퓨팅 장치"를 참조하기 때문이다.

컴퓨팅 환경(100)은 추가적인 특징들을 가질 수 있다. 도 1에서, 컴퓨팅 환경(100)은 저장 장치(140), 하나 이상의 입력 장치(150), 하나 이상의 출력 장치(160) 및 하나 이상의 통신 접속(170)을 포함한다. 버스, 제어기 또는 네트워크와 같은 상호접속 메커니즘(도시되지 않음)이 컴퓨팅 환경(100)의 컴포넌트들을 상호접속시킨다. 전형적으로, 운영 체제 소프트웨어(도시되지 않음)는 컴퓨팅 환경(100)에서 실행되는 다른 소프트웨어를 위한 운영 환경을 제공하며, 컴퓨팅 환경(100)의 컴포넌트들의 활동들을 조정한다.

저장 장치(140)는 이동식 또는 비이동식일 수 있으며, 자기 디스크들, 자기 테이프들 또는 카세트들, CD-ROM들, CD-RW들, DVD들, 또는 정보를 저장하는 데 사용될 수 있으며 컴퓨팅 환경(100) 내에서 액세스될 수 있는 임의의 다른 매체와 같은 비일시적 컴퓨터 판독 가능 저장 매체들을 포함할 수 있다. 저장 장치(140)는 소프트웨어(180)를 위한 명령어들을 저장한다.

입력 장치(들)(150)는 키보드, 마우스, 펜 또는 트랙볼과 같은 터치 입력 장치; 음성 입력 장치; 스캐닝 장치; 네트워크 어댑터; CD/DVD 판독기; 또는 컴퓨팅 환경(100)에 입력을 제공하는 다른 장치일 수 있다. 출력 장치(들)(160)는 디스플레이, 프린터, 스피커, CD/DVD 기록기, 네트워크 어댑터, 또는 컴퓨팅 환경(100)으로부터 출력을 제공하는 다른 장치일 수 있다.

통신 접속(들)(170)은 통신 매체를 통한 다른 컴퓨팅 엔티티에 대한 통신을 가능하게 한다. 따라서, 컴퓨팅 환경(100)은 개인용 컴퓨터, 서버, 라우터, 네트워크 PC, 피어(peer) 장치 또는 다른 일반 네트워크 노드와 같은 하나 이상의 원격 컴퓨팅 장치에 대한 논리 접속들을 이용하여 네트워킹된 환경에서 동작할 수 있다. 통신 매체는 데이터 또는 컴퓨터 실행 가능 명령어들 또는 요청들과 같은 정보를 변조된 데이터 신호 내에서 운반한다. 변조된 데이터 신호는 신호 내에 정보를 인코딩하는 방식으로 신호의 특성들 중 하나 이상을 설정 또는 변경한 신호이다. 한정이 아니라 예로서, 통신 매체들은 전기, 광학, RF, 적외선, 음향 또는 다른 반송파를 이용하여 구현되는 유선 또는 무선 기술들을 포함한다.

도구들 및 기술들은 일반적으로 컴퓨터 판독 가능 저장 매체들과 관련하여 설명될 수 있다. 컴퓨터 판독 가능 저장 매체들은 컴퓨팅 환경 내에서 액세스될 수 있는 임의의 이용 가능한 비일시적 저장 매체들이다. 한정이 아니라 예로서, 컴퓨팅 환경(100)과 관련하여, 컴퓨터 판독 가능 저장 매체들은 메모리(120), 저장 장치(140) 및 이들의 조합들을 포함한다.

도구들 및 기술들은 일반적으로 컴퓨팅 환경에서 타겟 실제 또는 가상 프로세서 상에서 실행되는, 프로그램 모듈들 내에 포함된 것들과 같은 컴퓨터 실행 가능 명령어들과 관련하여 설명될 수 있다. 일반적으로, 프로그램 모듈들은 특정 작업들을 수행하거나 특정 추상 데이터 타입들을 구현하는 루틴들, 프로그램들, 라이브러리들, 객체들, 클래스들, 컴포넌트들, 데이터 구조들 등을 포함한다. 프로그램 모듈들의 기능은 다양한 실시예들에서 필요에 따라 결합되거나 프로그램 모듈들 사이에 분산될 수 있다. 프로그램 모듈들을 위한 컴퓨터 실행 가능 명령어들은 로컬 또는 분산 컴퓨팅 환경 내에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 로컬 및 원격 컴퓨터 저장 매체들 양쪽에 배치될 수 있다.

프레젠테이션을 위해, 상세한 설명은 컴퓨팅 환경에서의 컴퓨터 동작들을 설명하기 위해 "결정", "선택", "조정" 및 "동작"과 같은 용어들을 사용한다. 이들 및 다른 유사한 용어들은 컴퓨터에 의해 수행되는 동작들에 대한 하이 레벨 추상화들이며, ("사용자"와 같은) 사람에 의한 행위의 이행이 명시적으로 지시되지 않는 한은 사람에 의해 이행되는 행위들과 혼동되지 않아야 한다. 이러한 용어들에 대응하는 실제 컴퓨터 동작들은 구현에 따라 다르다.

II. 오디오 코딩 시스템 및 환경

도 2는 오디오 코딩 시스템(200)의 개략도이다. 오디오 코딩 시스템(200)은 도 2를 참조하여 후술하는 동작들을 수행하기 위한 소프트웨어 및/또는 하드웨어를 포함할 수 있다. 오디오 코딩 시스템(200)은 이동 핸드헬드 장치로서 도시되지만, 오디오 코딩 시스템은 도 1을 참조하여 전술한 컴퓨터 시스템들의 타입들 중 하나 이상과 같은 소정의 다른 타입의 컴퓨터 시스템일 수 있다.

오리지널 음성 신호(220)가 오디오 코딩 시스템(200)에서 수신될 수 있다. 오리지널 음성 신호(220)는 미처리 오디오 신호, 또는 하나 이상의 방식으로 사전 처리된 오디오 신호일 수 있다. 오디오 코딩 시스템은 오리지널 음성 신호(220)를 시간 기반 프레임들로 분해하기 위해 프레임 추출(230)을 수행할 수 있다. 프레임들은 오버랩핑될 수 있다. 예를 들어, 프레임들은 50 퍼센트 또는 소정의 다른 퍼센트에 의해 오버랩핑될 수 있다. 도 2의 다른 동작들은 물론, 후술하는 도 3의 동작들은 (예를 들어, 오버랩 가산 기술들을 이용하여) 프레임들을 결합할 수 있는 오디오 신호의 재구성까지 프레임별로 수행될 수 있다.

각각의 프레임에 대해, 오디오 코딩 시스템(200)은 왜곡 주파수 스펙트럼 추정(240)을 수행할 수 있다. 예를 들어, 왜곡 스펙트럼 추정(240)은 오디오 프레임당 24개 또는 소정의 다른 수의 멜(mel) 스펙트럼 에너지를 계산할 수 있는 멜-스펙트럼 추정일 수 있다. 일례로서, 협대역 음성에 대해, 추정(240)은 0 내지 4 kHz의 범위에 걸치는 22개의 필터를 적용할 수 있다. 다른 예로서, 광대역 음성에 대해, 추정(240)은 0 내지 8 kHz의 범위에 걸치는 24개의 필터를 적용할 수 있다. 대안으로서, 왜곡 스펙트럼 추정(240)은 선형 또는 지수 스케일과 같은 멜 스케일 외의 소정의 다른 주파수 스케일에 기초하는 왜곡 주파수 스펙트럼 추정과 같은 소정의 다른 타입의 추정일 수 있다. 오디오 코딩 시스템(200)은 멜 스펙트럼 에너지들의 동적 범위 축소(242)를 수행할 수 있다. 예를 들어, 이것은 로그 연산(예로서, 자연 로그 연산 또는 밑수 10 로그 연산), 제곱근 연산(세제곱근 연산, 15 제곱근 등), 또는 동적 범위 축소(242)를 위한 소정의 다른 연산을 수행함으로써 이루어질 수 있다. 오디오 코딩 시스템(200)은 이산 코사인 변환과 같은 변환(244)을 에너지들에 대해 수행하여, 범위 축소되고 변환된 멜 주파수 캡스트럼 계수들(MFCCs)을 생성할 수도 있다.

오디오 코딩 시스템은 MFCC들에 대해 양자화(246)와 같은 손실 많은 압축 동작을 수행하여, 왜곡 스펙트럼 추정 표현(248)을 생성할 수 있다(물론, 왜곡 스펙트럼 추정(240), 범위 축소(242) 및 변환(244) 각각에 의해 생성되는 값들도 왜곡 스펙트럼 추정 표현들로 간주될 수 있다). 양자화(246)는 임의의 다양한 상이한 타입의 양자화일 수 있다. 일례로서, 양자화(246)는 적응성 미분 코딩을 이용하는 스칼라 양자화할 수 있다. 이러한 양자화(246)는 MFCC들을 표현하는 벡터의 각각의 성분이 파형인 것처럼 이러한 성분에 양자화가 적용될 수 있다는 것을 제외하고는, 적응성 미분 펄스 코드 변조(ADPCM)를 위해 수행되는 양자화와 유사할 수 있다. 일례로서, 24개의 MFCC가 존재하는 경우, 적응성 미분 코딩은 24개의 MFCC 각각을 시간 급수로서 취급하며, 그러한 급수에 적응성 미분 코딩을 적용할 수 있다. 양자화(246)에서 그리고 후술하는 역양자화 연산들에서 동적 평균 정규화가 적용될 수 있다. 예를 들어, 이러한 정규화는 처음 2개의 MFCC, C₀ 및 C₁에서만 수행될 수 있다. 시간에 걸쳐 계수들을 역상관시키기 위하여, 아래의 식 1에 따라, 이전에 양자화된 값의 스케일링된 버전을 현재 샘플로부터 감산함으로써, 계수 시간 급수 내의 n 번째 값에 대한 에러 값 e(n)을 산출할 수 있다.

식 1에서, x(n)은 현재 샘플이고, α는 스케일링 팩터이며,

은 양자화된 이전 값이다. 에러 값 e(n)은 균일 스칼라 양자화기에 제공될 수 있다. 전통적인 ADPCM에서와 같이, 양자화 단차 크기는 e(n)의 가장 최근 값에 기초하여 동적으로 조정될 수 있다. 이러한 양자화 연산은 2 단계 탐색표를 이용하여 구현될 수 있다. 현재 양자화된 값은 단차 크기 조정 팩터를 탐색하기 위한 인덱스로서 사용될 수 있다. 이 값은 현재 조정 팩터에 더해질 수 있으며, 결과적인 새로운 값은 단차 크기 표에서 단차 크기를 탐색하기 위한 인덱스로서 사용될 수 있다. 대안으로서, 양자화(246)는 코드북들을 이용하는 벡터 양자화와 같은 소정의 다른 타입의 양자화를 포함할 수 있다.

양자화(246)와 매칭되는 역양자화(260)를 수행하여, 역양자화된 왜곡 스펙트럼 추정 표현을 생성할 수 있다. 이러한 역양자화된 왜곡 스펙트럼 추정 표현은 평활 추정(262)을 수행하는 데 사용될 수 있다. 결과적인 평활 추정 표현은, 대응하는 프레임에 대한 프레임 추출 오디오 신호와 더불어, 오디오 신호의 정밀한 특징들의 표현을 생성할 수 있는 정밀 추정(264)을 수행하는 데 사용될 수 있다.

평활 추정(262)은 수행될 정밀 추정(264)의 타입에 따라 다를 수 있으며, 정밀 추정(264)은 기존의 음성 코덱 방안들에 따라 수행될 수 있다. 예를 들어, 정밀 추정(264)은 변환 코덱 방안을 이용하여 수행될 수 있다. 대안으로서, 정밀 추정은 소스-필터 모델 방안을 이용하여 수행될 수 있다. 예를 들어, 평활 추정은 소스-필터 모델 방안에서 필터들을 정의할 수 있다. 어느 경우에나, 평활 추정(262)은 정밀 추정(264)을 생성하기 위해 코덱 방안에서 사용될 수 있는 방식으로 포맷팅되는 평활 추정(262)을 제공하는 방식으로 수행될 수 있다.

평활 추정(262)을 구현하기 위한 상황을 제공하기 위해 사이렌(Siren) 코덱을 이용하는 평활 추정(262)의 일례가 이어진다. 그러나, 평활 추정(262) 및 본 명세서에서 설명되는 전반적인 도구들 및 기술들은 다양한 변환 코덱들 및 다양한 소스-필터 모델 코덱들을 포함하는 다양한 코덱들과 함께 사용될 수 있다. 사이렌은 0-7 kHz의 오디오를 인코딩하는 광대역 코덱이다. 이것은 50% 프레임 오버랩을 갖는 40 ms 프레임들(640개의 샘플) 상에 작용한다. 각각의 프레임은 320개의 실수 값 MLT 계수를 산출하는 MLT(Modulated Lapper Transform)에 의해 처리된다. 인코딩 및 디코딩은 각각의 프레임에 대해 독립적으로 수행된다. 신호를 인코딩하기 위하여, 다음과 같이 평활 스펙트럼 추정이 계산된다. 각각의 프레임에 대한 MLT 계수들은 먼저 500 Hz의 폭에 대응하는, 0과 7 kHz 사이의 14개의 균일한 영역으로 분할된다. 각각의 영역에서의 평균 제곱근(RMS) 에너지를 MLT 계수들로부터 계산하여, 스펙트럼 포락선의 대략적 표현을 제공한다.

RMS 에너지 값들에 기초하여, 14개 영역 각각에서의 MLT 계수들이 카테고리화라고 하는 프로세스를 이용하여 양자화된다. 카테고리화 프로세스 동안, 결정론적 검색을 수행하여, 주어진 비트 예산을 최대화하지만 초과하지 않으면서 각각의 영역에서의 MLT 계수들을 가장 정확히 표현하는 양자화 및 코딩 파라미터들의 세트를 발견한다.

요컨대, 사이렌에 의해 수행되는 인코딩은 2개의 단계, 즉 (1) 14개의 스펙트럼 부대역에서 RMS 에너지를 포함하는 평활 스펙트럼 추정의 계산; 및 (2) RMS 에너지 값들을 이용하여 MLT 계수들 모두를 인코딩하는 카테고리화 절차에 기초한다.

평활 추정(262)에서, 14개의 RMS 에너지 값은 MLT 계수들로부터 이들을 직접 계산하는 것이 아니라, 인코딩된 MFCC 계수들로부터 도출될 수 있다. 이어서, 정밀 추정(264)은 도출된 RMS 에너지 값들을 이용하여 MLT 계수들 모두를 인코딩하는 카테고리화 절차를 포함할 수 있다.

예를 들어, 평활 추정(262)을 수행하여, 사이렌 코덱에 따른 정밀 추정(264)에서 사용하기 위한 평활 추정 표현을 생성하기 위하여, (24개의 멜-이격 주파수 부대역의 에너지 값들을 나타내는) 24개의 MFCC를 이용하여, 14개의 균일 이격 주파수 부대역에서 에너지를 계산할 수 있다. 프레임 추출(230)은 정밀 추정(264)에 제공되는 것들과 다른 프레임 크기들 및 프레임 레이트들을 왜곡 스펙트럼 추정(240)에 제공할 수 있다(예컨대, 프레임 추출(230)은 2개의 상이한 프레임 추출 절차를 포함할 수 있거나, 2개의 상이한 절차를 통합할 수 있다). 일례로서, 프레임 추출(230)은 음성 코덱에 대해 표준인 프레임 크기들 및 레이트들을 정밀 추정(264)에 제공할 수 있으며, 음성 인식 방안들에 대해 표준인 프레임 크기들 및 레이트들을 왜곡 스펙트럼 추정(240)에 제공할 수 있다. 특정 구현에서, 왜곡 스펙트럼 추정(240)은 초당 100 프레임의 레이트로 25 ms 프레임들을 수신할 수 있는 반면, 정밀 추정(264)은 초당 50 프레임으로 40 ms 프레임들을 사용할 수 있다. 게다가, 왜곡 스펙트럼 추정(240) 및 정밀 추정(264)은 상이한 도메인들에서 상이한 표현들을 사용할 수 있다. 일례로서, 왜곡 스펙트럼 추정(240)은 고속 푸리에 변환(FFT)에 기초하는 스펙트럼 표현을 사용할 수 있는 반면, 정밀 추정은 MLT로부터 도출된 스펙트럼을 사용할 수 있다. 평활 추정(262)은 그러한 차이들을 설명하기 위한 변환들을 포함할 수 있다.

예를 들어, 14개의 균일 이격 부대역에서 에너지를 계산하기 위하여, (왜곡 스펙트럼 추정(240), 범위 축소(242), 변환(244) 및 양자화(246)를 포함하는) MFCC 처리 파이프라인을 기본적으로 반전시켜 전력 스펙트럼의 추정을 획득할 수 있다. MFCC들을 계산하는 통상적인 방법들과 관련하여, 프로세스는 사실상 반전 가능하지 않은데, 그 이유는 MFCC 인코딩이 손실 많은 프로세스이기 때문이다. 그러나, 아래의 식 2에 따라 평활 전력 스펙트럼이 추정될 수 있다.

식 2에서, M ⁺ 는 멜 필터 뱅크를 포함하는 행렬의 의사 역(pseudo-inverse)이고, C ^-1은 제곱 역 이산 코사인 변환이며, exp() 연산자는 MFCC 벡터에 엘리먼트-와이즈(element-wise)를 적용한다. 이러한 평활 전력 스펙트럼으로부터, 적절한 FFT 빈들 내의 값들을 평균함으로써 0과 7 kHz 사이의 14개의 균일 이격 부대역 내의 RMS 에너지가 추정될 수 있다.

전술한 바와 같이, 왜곡 스펙트럼 추정(240) 및 정밀 추정(264)은 상이한 변환들에 기초하는 주파수 표현들을 사용할 수 있다. 예를 들어, 왜곡 스펙트럼 추정(240)은 FFT에 기초하는 표현을 사용하는 반면, 정밀 추정(264)은 MLT에 기초하는 표현을 사용할 수 있다. FFT 기반 전력 스펙트럼으로부터 추정되는 RMS 에너지 값들은 MLT로부터 계산되는 값들에 비해 한쪽으로 치우칠 수 있다. 예를 들어, 20개의 MLT 계수의 평균으로부터 계산되는, 500 Hz 부대역들 중 하나에서의 하나의 RMS 에너지에 대한 아래의 식 3을 고려한다.

식 3에서, O(m) = (R ² - I ²)sin(2A),

, R 및 I는 fft(m + 0.5)의 실수 및 허수 부분들이며, N은 MLT의 크기이다. 따라서, MLT로부터 계산되는 RMS는 FFT로부터 계산되는 것과 상수 스케일 팩터만큼 다른 것으로 간주될 수 있다. 따라서, MFCC들로부터 도출되는 RMS 에너지 값들은 정밀 추정(264)에서의 그들의 사용 전에 적절히 스케일링될 수 있다.

전술한 바와 같이, 상이한 프레임 크기들 및 레이트들도 고려될 수 있다. 예를 들어, 왜곡 스펙트럼 추정(240)은 초당 100 프레임의 레이트로 25 ms 프레임들을 수신할 수 있는 반면, 정밀 추정(264)은 초당 50 프레임으로 40 ms 프레임들을 사용할 수 있다. 따라서, MFCC 특징들로부터 계산되는 RMS 추정은 대응하는 코덱 프레임의 일부에 대해서만 정확할 수 있다. 왜곡 스펙트럼 추정(240)에 대한 프레임 레이트는 정밀 추정(264)에 대한 프레임 레이트의 2배이므로, 다음과 같이 추정이 수행될 수 있는데, 즉 2개의 연속적인 MFCC 특징 벡터로부터의 RMS 에너지 추정들을 평균하여, 정밀 추정(264)에 대한 대응하는 프레임에 대한 추정을 획득할 수 있다. MFCC 특징 벡터들로부터 도출된 결과적인 14개의 RMS 에너지 값이 정밀 추정(264)을 위해 사용될 수 있으며, 이러한 정밀 추정은 사이렌 코덱의 카테고리화를 이용하는 것과 같은 다양한 오디오 코덱들 중 하나에 따라 진행될 수 있다.

양자화(266)는 정밀 추정 표현(268)을 산출할 수 있는 정밀 추정(264)으로부터 생성되는 값들에 대해 수행될 수 있다(양자화(266) 전의 추정의 표현도 그러한 표현이다). 예를 들어, 이러한 양자화(266)는 규칙 기반 벡터 양자화일 수 있다. 양자화된 왜곡 스펙트럼 추정 표현(248) 및 정밀 추정 표현(268)에 대해 데이터 스트림 패키징(280)이 수행될 수 있다. 이러한 패키징(280)은 엔트로피 인코딩, 비트들의 전송을 위한 패킷들로의 분할 등을 포함할 수 있다. 따라서, 패키징(280)은 왜곡 스펙트럼 추정 표현(248) 및 정밀 추정 표현(268)을 포함하는 결합된 데이터 스트림(290)을 생성할 수 있다. 이러한 결합된 데이터 스트림(290)은 도 3을 참조하여 후술하는 것과 같은 음성 인식 시스템으로 전송될 수 있다.

III. 음성 인식 시스템 및 환경

도 3은 음성 인식 시스템(300)의 개략도이다. 음성 인식 시스템(300)은 도 3을 참조하여 후술하는 동작들을 수행하기 위한 소프트웨어 및/또는 하드웨어를 포함할 수 있다. 음성 인식 시스템(300)은 서버 장치로서 도시되지만, 음성 인식 시스템은 도 1을 참조하여 전술한 컴퓨터 시스템들의 타입들 중 하나 이상과 같은 소정의 다른 타입의 컴퓨터 시스템일 수 있다. 사실상, 도 2의 오디오 코딩 시스템(200) 및 도 3의 음성 인식 시스템(300)은 동일한 컴퓨터 시스템에서(예를 들어, 동일한 물리 및/또는 가상 기계에서) 또는 (예를 들어, 컴퓨터 시스템들이 상이한 실제 및/또는 가상 기계들 내에 포함되는 경우에) 서로 떨어진 컴퓨터 시스템들에서와 같이 다양한 환경들에서 구현될 수 있다.

음성 인식 시스템(300)은 결합된 데이터 스트림(320)을 수신하고, 데이터 스트림 언패키징(330)을 수행할 수 있으며, 이러한 데이터 스트림 언패키징은 도 2의 데이터 스트림 패키징(280)의 동작들을 거꾸로 하여, 결합된 데이터 스트림(320)을 왜곡 스펙트럼 추정 표현(332) 및 정밀 추정 표현(334)으로 분할할 수 있다. 왜곡 스펙트럼 추정 표현(332)은 역양자화(340)될 수 있으며(이는 양자화(246)에 대응하는 역양자화 동작을 이용하여 수행될 수 있음), 역양자화된 표현(예로서, MFCC들)은 음성 인식 엔진(352)으로 전송될 수 있다. 오디오 신호가 재구성되지 않는 하나의 동작 모드에서는, 후술하는 나머지 동작들 중 하나 이상이 수행되지 않을 수도 있다. 그러나, 오디오 신호가 재구성되는 경우, 아래의 동작들이 수행될 수 있다. 이러한 오디오 재구성 동작들은 음성 인식 동작들과 동시에 또는 소정의 다른 시간에 수행될 수 있다. 유사하게, 이러한 오디오 재구성 동작들은 음성 인식과 동일한 기계(들)에서 또는 음성 인식 기계(들)로부터 가까이에 그리고/또는 멀리 위치할 수 있는 소정의 다른 기계(들)에서 수행될 수 있다. 평활 추정 표현(362)을 생성하기 위해 왜곡 스펙트럼 추정의 역양자화된 표현에 대해 평활 추정(360)이 수행될 수 있다. 이러한 평활 추정(360)은 도 2의 오디오 코딩 시스템(200)에서의 정밀 추정(264)에 사용될 평활 추정 표현을 생성하기 위해 행해졌던 평활 추정(262)과 동일할 수 있다.

게다가, 역양자화된 정밀 추정 표현(366)을 생성하기 위해 정밀 추정 표현(334)에 대해 역양자화(364)가 수행될 수 있다. 이러한 역양자화(364)는 오디오 코딩 시스템(200)에서 수행된 양자화(266)에 대응할 수 있으며, 평활 추정 표현(362)을 사용할 수 있다. 음성 인식 시스템(300)은 인코딩 시스템(200)에서 인코딩된 오리지널 음성 신호(220)를 표현하는 음성 신호(372)의 재구성(370)을 수행할 수 있다. 이러한 재구성(370)은 평활 추정 표현(362) 및 역양자화된 정밀 추정 표현(366)을 이용하여, 음성 코덱에 따라 이들 표현(362, 366)을 결합할 수 있다. 예를 들어, 이러한 재구성(370)은 정밀 추정 표현(366) 및 평활 추정 표현(362)의 값들을 더하고, 역 MLT를 수행하며, 프레임들을 오버랩 가산하는 것을 포함할 수 있다.

전술한 바와 같이, 변환 코덱 및 MFCC 값들을 이용하는 음성 인식 시스템을 포함하는 특정 예가 본 명세서에서 제공되었다. 그러나, 본 명세서에서 설명되는 도구들 및 기술들은 왜곡 주파수 스펙트럼 추정을 이용하는 다양한 상이한 음성 인식 방안들과 함께 그리고/또는 다양한 상이한 오디오 코덱 방안들(예로서, 변환 코덱, 소스-필터 모델 코덱 등)과 함께 사용될 수도 있다.

IV. 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩을 위한 기술들

이제, 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩을 위한 여러 기술이 설명된다. 이러한 기술들 각각은 컴퓨팅 환경에서 수행될 수 있다. 예를 들어, 각각의 기술은 적어도 하나의 프로세서 및 적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금 기술을 수행하게 하는 명령어들을 저장한 메모리를 포함하는 컴퓨터 시스템에서 수행될 수 있다(메모리는 명령어들(예를 들어, 객체 코드)을 저장하며, 프로세서(들)는 이러한 명령어들을 실행할 때, 기술을 수행한다). 유사하게, 하나 이상의 컴퓨터 판독 가능 저장 매체는 적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금 기술을 수행하게 하는 컴퓨터 실행 가능 명령어들을 그 위에 구현할 수 있다.

도 4를 참조하여, 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩을 위한 기술이 설명된다. 이 기술은 멜 주파수 스펙트럼 추정과 같은 오리지널 오디오 신호로부터의 왜곡 주파수 스펙트럼 추정의 표현을 인코딩하는 단계(420)를 포함할 수 있다. 인코딩(420)은 왜곡 주파수 스펙트럼에 기초할 수 있다. 게다가, 인코딩(420)은 동적 범위 축소 동작을 포함할 수 있으며, 또한 왜곡 주파수 스펙트럼에 대해 이산 코사인 변환 동작을 수행하며/하거나 적응성 미분 코딩을 이용하여 양자화하는 단계를 포함할 수 있다. 이 기술은 오리지널 오디오 신호의 평활 추정의 표현을 생성하는 단계(430)도 포함할 수 있다. 이러한 생성(430)은 왜곡 주파수 스펙트럼 추정 표현을 사용할 수 있으며, 변환 동작을 수행하는 것을 포함할 수 있다. 평활 추정 표현은 오리지널 오디오 신호의 정밀한 상세들의 정밀 추정 표현을 인코딩(440)하는 데 사용될 수 있다. 정밀 추정 표현은 변환 코덱 프레임워크에 따라 구성될 수 있다. 예를 들어, 정밀 추정은 사이렌 코덱 또는 소정의 다른 코덱에 따라 구성될 수 있다. 정밀 추정은 주파수 도메인에서 정밀 스펙트럼 추정을 표현할 수 있으며, 정밀 추정의 인코딩(440)은 주파수 도메인에서 적어도 부분적으로 수행될 수 있다.

왜곡 주파수 스펙트럼 추정의 표현이 음성 인식 시스템으로 전송될 수 있다(450). 왜곡 주파수 스펙트럼 추정의 표현은 음성 인식 엔진으로 전달될 수 있다(460). 게다가, 이 기술은 왜곡 주파수 스펙트럼 추정의 표현 및 정밀 추정의 표현을 이용하여 오리지널 오디오 신호를 표현하는 재구성된 오디오 신호를 생성하는 단계(470)를 포함할 수 있다. 본 명세서에서 사용될 때, 표현은 다양한 방식으로, 예를 들어 표현을 변환하고, 다손실 및/또는 무손실 압축 기술들을 수행하는 것 등에 의해 처리될 수 있으며, 그러한 처리 전후에 여전히 동일 아이템(들)을 표현하는 한은 동일한 표현으로서 여전히 간주될 수 있다. 예를 들어, 정밀 스펙트럼 추정의 표현은 양자화 및 엔트로피 코딩될 수 있으며, 여전히 정밀 스펙트럼 추정의 표현인 것으로 간주될 수 있다.

도 5를 참조하여, 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩을 위한 다른 기술이 설명된다. 이 기술은 오리지널 오디오 신호의 왜곡 주파수 스펙트럼 추정의 표현을 디코딩하는 단계(510)를 포함할 수 있다. 이 기술은 오리지널 오디오 신호의 정밀 추정의 표현을 디코딩하는 단계(520)도 포함할 수 있으며, 이 단계는 디코딩된 왜곡 주파수 스펙트럼 추정을 이용하는 단계를 포함할 수 있다. 왜곡 주파수 스펙트럼 추정의 표현 및 정밀 추정의 표현은 모두 동일 데이터 스트림으로부터 추출될 수 있다. 왜곡 주파수 스펙트럼 추정의 표현은 음성 인식 엔진으로 전달될 수 있다(530). 오리지널 오디오 신호를 표현하는 오디오 신호가 왜곡 주파수 스펙트럼 추정의 표현 및 정밀 추정의 표현을 이용하여 재구성될 수 있다(540). 재구성(540)은 왜곡 주파수 추정의 표현의 동적 범위를 확대하는 단계를 포함할 수 있다. 게다가, 재구성(540)은 왜곡 주파수 스펙트럼 추정의 표현에 대해 변환 동작의 역동작을 수행하는 단계를 포함할 수 있다. 예를 들어, 변환 동작은 이산 코사인 변환 동작일 수 있으며, 따라서 변환 동작의 역동작은 이산 코사인 역변환 동작이다.

아래의 설명에서의 명료화를 위해, 왜곡 주파수 스펙트럼 추정은 제1 왜곡 주파수 스펙트럼 추정으로 지칭될 수 있으며, 오리지널 오디오 신호는 제1 오리지널 오디오 신호로 지칭될 수 있다. 게다가, 제1 왜곡 주파수 스펙트럼 추정의 표현을 디코딩하는 단계, 정밀 추정의 표현을 디코딩하는 단계, 제1 왜곡 주파수 스펙트럼 추정의 표현을 음성 인식 엔진으로 전달하는 단계, 및 제1 오리지널 오디오 신호를 표현하는 오디오 신호를 재구성하는 단계는 모두 제1 동작 모드(550)에서 수행될 수 있다. 이 기술은 오디오 신호 재구성을 생략하는 제2 동작 모드(552)에서 동작들을 수행하는 단계를 포함할 수 있다. 예를 들어, 제1 동작 모드(550)는 때때로 오디오 신호를 재구성하고 재생하는 것이 바람직할 때 이용될 수 있으며, 제2 동작 모드(552)는 오디오 신호 재구성 및 재생이 필요하지 않은 다른 시간들에 이용될 수 있다. 제2 동작 모드(552)에서, 제2 오리지널 오디오 신호의 제2 왜곡 주파수 스펙트럼 추정의 표현이 디코딩될 수 있다(570). 또한, 제2 동작 모드(552)에서, 제2 왜곡 주파수 스펙트럼 추정의 표현이 음성 인식 엔진으로 전달될 수 있다(580). 그러나, 제2 모드(552)는 제2 오리지널 오디오 신호를 표현하는 오디오 신호의 재구성을 생략할 수 있다. 따라서, 음성 인식 시스템은 음성 인식만이 수행되어야 하는지 또는 음성 인식 및 오디오 신호 재구성이 수행되어야 하는지에 따라 제1 동작 모드(550)와 제2 동작 모드(552) 사이에서 전환할 수 있다. 음성 인식 시스템은 음성 인식을 수행하지 않고 오디오 신호 재구성만을 수행하는 제3 모드도 포함할 수 있다.

도 6을 참조하여, 왜곡 스펙트럼 및 정밀 추정 오디오 인코딩을 위한 또 다른 기술이 설명된다. 이 기술은 이동 핸드헬드 장치 또는 소정의 다른 장치에 의해 수행될 수 있다. 이 기술은 인코딩 시스템(620)에서 수행될 동작들 및 디코딩 및 인식 시스템(650)에서 수행될 동작들로 분할될 수 있다. 인코딩 시스템(620)에서 수행되는 동작들은 왜곡 주파수 스펙트럼에 기초하여 오리지널 오디오 신호의 왜곡 주파수 스펙트럼 추정의 표현을 인코딩하는 단계(625)를 포함할 수 있다. 인코딩(625)은 동적 범위 축소 동작 및 코사인 변환 동작을 포함할 수 있다. 인코딩 시스템(620)에서 수행되는 동작들은 왜곡 주파수 스펙트럼 추정 표현을 이용하여 오리지널 오디오 신호의 스펙트럼의 평활 스펙트럼 추정의 표현을 생성하는 단계(630)도 포함할 수 있다. 게다가, 인코딩 시스템(620)에서 수행되는 동작들은 평활 추정 표현을 이용하여 오리지널 오디오 신호의 정밀한 상세들의 정밀 주파수 스펙트럼 추정의 표현을 인코딩하는 단계(640)를 포함할 수 있다. 또한, 인코딩 시스템(620)에서, 왜곡 주파수 스펙트럼 추정의 표현 및 정밀 추정의 표현은 양자화되고(642), 데이터 스트림 내에 패키징될 수 있으며(644), 데이터 스트림은 음성 디코딩 및 인식 시스템으로 전송될 수 있다(646).

디코딩 및 인식 시스템(650)에서, 데이터 스트림이 수신되며(652), 데이터 스트림의 성분들이 디코딩될 수 있다(654). 디코딩(654)은 오리지널 오디오 신호의 왜곡 주파수 스펙트럼 추정의 표현을 디코딩하는 단계, 및 오리지널 오디오 신호의 정밀 스펙트럼 추정의 표현을 디코딩하는 단계를 포함할 수 있다. 왜곡 주파수 스펙트럼 추정의 표현은 음성 인식 시스템 내의 음성 인식 엔진으로 전달될 수 있다(660). 게다가, 오리지널 오디오 신호를 표현하는 오디오 신호가 재구성될 수 있다(670). 재구성은 왜곡 주파수 스펙트럼 추정의 표현의 동적 범위를 확대하는 단계, 코사인 변환 동작의 역동작을 수행하는 단계, 왜곡 주파수 스펙트럼 추정 표현을 이용하여 평활 스펙트럼 추정 표현을 생성하는 단계, 및 평활 스펙트럼 추정과 정밀 스펙트럼 추정을 결합하는 단계를 포함할 수 있다. 성분들의 디코딩(654), 전달(660) 및 재구성(670)은 모두 음성 디코딩 및 인식 시스템에서 수행될 수 있다. 그러나, 이러한 동작들은 서로 멀리 떨어질 수 있는 상이한 서브시스템들에서 수행될 수도 있으며, 동작들은 서로 상이한 시간에 그리고/또는 음성 인코딩 시스템(620)에서 수행되는 동작들 중 하나 이상과 다른 시간에 수행될 수도 있다.

본 발명의 대상은 구조적 특징들 및/또는 방법적 동작들에 특정한 언어로 설명되었지만, 첨부 청구범위에서 정의되는 본 발명의 대상은 반드시 전술한 특정한 특징들 또는 동작들로 한정되는 것은 아니라는 것을 이해해야 한다. 오히려, 전술한 특정한 특징들 및 동작들은 청구범위를 구현하는 예시적인 형태들로서 개시된다.

Claims

오리지널 오디오 신호로부터 왜곡 주파수 스펙트럼 추정(warped frequency spectral estimate)의 표현을 인코딩하는 단계- 상기 인코딩은 왜곡 주파수 스펙트럼에 기초함 -,
상기 왜곡 주파수 스펙트럼 추정 표현을 이용하여 상기 오리지널 오디오 신호의 평활 추정(smooth estimate)의 표현을 생성하는 단계, 및
상기 평활 추정의 상기 표현을 이용하여 상기 오리지널 오디오 신호의 정밀한 상세(fine details)의 정밀 추정 표현을 인코딩하는 단계를 포함하는
컴퓨터 구현 방법.
제1항에 있어서,
왜곡 주파수 스펙트럼 추정은 멜 주파수 스펙트럼 추정(mel-frequency spectral estimate)인
컴퓨터 구현 방법.
제1항에 있어서,
상기 정밀 추정 표현은 변환 코덱 프레임워크에 따라 구성되는
컴퓨터 구현 방법.
제1항에 있어서,
상기 정밀 추정 표현은 주파수 도메인에서 정밀 스펙트럼 추정을 표현하는
컴퓨터 구현 방법.
제1항에 있어서,
상기 평활 추정의 상기 표현을 생성하는 단계는 역변환 동작을 수행하는 단계를 포함하는
컴퓨터 구현 방법.
제1항에 있어서,
상기 정밀 추정을 인코딩하는 단계는 주파수 도메인에서 적어도 부분적으로 수행되는
컴퓨터 구현 방법.
컴퓨터 실행 가능 명령어를 구비한 하나 이상의 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 실행 가능 명령어는 적어도 하나의 프로세서에 의해 실행될 때 상기 적어도 하나의 프로세서로 하여금 동작들을 수행하게 하고,
상기 동작들은,
오리지널 오디오 신호의 왜곡 주파수 스펙트럼 추정의 표현을 디코딩하는 동작,
상기 오리지널 오디오 신호의 정밀 추정(fine estimate)의 표현을 디코딩하는 동작,
상기 왜곡 주파수 스펙트럼 추정의 상기 표현을 음성 인식 엔진으로 전달하는 동작, 및
상기 왜곡 주파수 스펙트럼 추정의 상기 표현 및 상기 정밀 추정의 상기 표현을 이용하여 상기 오리지널 오디오 신호를 표현하는 오디오 신호를 재구성하는 동작을 포함하는
하나 이상의 컴퓨터 판독 가능 저장 매체.
제7항에 있어서,
상기 왜곡 주파수 스펙트럼 추정은 제1 왜곡 주파수 스펙트럼 추정이고,
상기 오리지널 오디오 신호는 제1 오리지널 오디오 신호이고,
상기 제1 왜곡 주파수 스펙트럼 추정의 상기 표현을 디코딩하는 동작, 상기 정밀 추정의 상기 표현을 디코딩하는 동작, 상기 제1 왜곡 주파수 스펙트럼 추정의 상기 표현을 상기 음성 인식 엔진으로 전달하는 동작, 및 상기 제1 오리지널 오디오 신호를 표현하는 상기 오디오 신호를 재구성하는 동작은 모두 제1 동작 모드에서 수행되고,
상기 동작들은 상기 제1 동작 모드로부터 제2 동작 모드로 전환하는 동작 및 상기 제2 동작 모드에서의 동작들을 수행하는 동작을 더 포함하고,
상기 제2 동작 모드에서의 상기 동작들은
제2 오리지널 오디오 신호의 제2 왜곡 주파수 스펙트럼 추정의 표현을 디코딩하는 동작, 및
상기 제2 왜곡 주파수 스펙트럼 추정의 상기 표현을 상기 음성 인식 엔진으로 전달하는 동작을 포함하며,
상기 제2 동작 모드는 상기 제2 오리지널 오디오 신호를 표현하는 오디오 신호를 재구성하는 동작을 포함하지 않는
하나 이상의 컴퓨터 판독 가능 저장 매체.
컴퓨터 구현 방법으로서,
음성 인코딩 시스템에서,
왜곡 주파수 스펙트럼에 기초하여 오리지널 오디오 신호의 왜곡 주파수 스펙트럼 추정의 표현을 인코딩하는 동작- 상기 인코딩은 동적 범위 축소 동작 및 코사인 변환 동작을 포함함 -,
상기 왜곡 주파수 스펙트럼 추정 표현을 이용하여 상기 오리지널 오디오 신호의 스펙트럼의 평활 스펙트럼 추정의 표현을 생성하는 동작,
상기 평활 추정 표현을 이용하여 상기 오리지널 오디오 신호의 정밀한 상세의 정밀 주파수 스펙트럼 추정의 표현을 인코딩하는 동작,
상기 정밀 추정의 상기 표현 및 상기 왜곡 주파수 스펙트럼 추정의 상기 표현을 데이터 스트림 내에 패키징하는 동작, 및
상기 데이터 스트림을 음성 디코딩 및 인식 시스템으로 전송하는 동작을 포함하는 동작을 수행하는 단계를 포함하는
컴퓨터 구현 방법.
제9항에 있어서,
상기 음성 디코딩 및 인식 시스템에서 상기 데이터 스트림을 수신하는 단계,
상기 음성 디코딩 및 인식 시스템에서,
상기 오리지널 오디오 신호의 상기 왜곡 주파수 스펙트럼 추정의 상기 표현을 디코딩하는 동작 및 상기 오리지널 오디오 신호의 상기 정밀 추정의 상기 표현을 디코딩하는 동작을 포함하는, 상기 데이터 스트림의 성분을 디코딩하는 동작,
상기 왜곡 주파수 스펙트럼 추정의 상기 표현을 상기 음성 인식 시스템 내의 음성 인식 엔진으로 전달하는 동작, 및
상기 오리지널 오디오 신호를 표현하는 오디오 신호를 재구성하되, 상기 재구성은 상기 왜곡 주파수 스펙트럼 추정의 상기 표현의 동적 범위를 확대하는 동작, 상기 코사인 변환 동작의 역동작을 수행하는 동작, 상기 왜곡 주파수 스펙트럼 추정 표현을 이용하여 평활 스펙트럼 추정 표현을 생성하는 동작, 및 상기 평활 스펙트럼 추정과 상기 정밀 추정을 결합하는 동작을 포함하는 동작을 포함하는 동작을 수행하는 단계를 더 포함하는
컴퓨터 구현 방법.