KR101668401B1 - 오디오 신호를 인코딩하기 위한 방법 및 장치 - Google Patents

오디오 신호를 인코딩하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR101668401B1
KR101668401B1 KR1020157010638A KR20157010638A KR101668401B1 KR 101668401 B1 KR101668401 B1 KR 101668401B1 KR 1020157010638 A KR1020157010638 A KR 1020157010638A KR 20157010638 A KR20157010638 A KR 20157010638A KR 101668401 B1 KR101668401 B1 KR 101668401B1
Authority
KR
South Korea
Prior art keywords
signal
gap
time
encoder
coder
Prior art date
Application number
KR1020157010638A
Other languages
English (en)
Other versions
KR20150060897A (ko
Inventor
조나단 에이. 기브스
홀리 엘. 프랜코이스
Original Assignee
모토로라 모빌리티 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티 엘엘씨 filed Critical 모토로라 모빌리티 엘엘씨
Publication of KR20150060897A publication Critical patent/KR20150060897A/ko
Application granted granted Critical
Publication of KR101668401B1 publication Critical patent/KR101668401B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

하이브리드 음성 인코더(200)가 음악과 유사한 소리들로부터 음성과 유사한 소리들로의 변화를 검출한다. 음악과 유사한 소리들(예를 들어, 음악)을 상기 인코더(200)가 검출할 때, 상기 인코더(200)는 제1 모드에서 동작하고, 제1 모드에서 인코더(200)는 주파수 도메인 코더(300a)를 이용한다. 음성과 유사한 소리들(예를 들어, 사람의 음성)을 상기 인코더(200)가 검출할 때, 상기 인코더(200)는 제2 모드에서 동작하고, 상기 인코더(200)는 시간 도메인 코더 또는 시간 파형 코더(300b)를 이용한다. 스위칭이 발생할 때, 상기 인코더(200)는 신호에서의 갭(416)을 상기 갭(416) 이후에 발생하는 신호의 부분(406)으로 백필링한다.

Description

오디오 신호를 인코딩하기 위한 방법 및 장치{METHOD AND APPARATUS FOR ENCODING AN AUDIO SIGNAL}
본 발명은 일반적으로 오디오 프로세싱에 관한 것이고, 더 특별히는 오디오 인코더 모드들을 스위칭하는 것에 관한 것이다.
가청 주파수 범위(사람의 귀에 들리는 주기적 진동의 주파수)는 약 50Hz부터 약 22kHz까지이지만, 청력은 나이에 따라 퇴화되고 대부분의 성인들은 약 14-15 kHz 위의 주파수 범위의 소리를 듣는 데 어려움을 느낀다. 사람 음성 신호들의 에너지의 대부분은 일반적으로 250Hz부터 3.4kHz까지의 범위에 한정된다. 그러므로, 통상적인 보이스 전송 시스템들은 이 범위의 주파수들에 한정되었고, 종종 "협대역"으로 불렸다. 하지만, 더 나은 소리 품질을 가능하게 하기 위해, 듣는 사람들이 보이스들을 인식하는 것을 더 쉽게 하기 위해, 그리고 듣는 사람들이, "마찰음들"(예를 들어 's' 및 'f')로 알려진, 공기로 하여금 좁은 채널을 통하도록 강제하는 것을 요구하는 음성 요소들을 구별하는 것을 가능하게 하기 위해, 더 새로운 시스템들이 이 범위를 약 50Hz부터 7kHz까지로 연장해왔다. 이 더 넓은 범위의 주파수들은 종종 "광대역"(WB) 또는 종종 고선명도 보이스(HD 보이스)이라고 불렸다.
WB 범위보다 높은 주파수들-약 7kHz부터 약 15kHz까지-은 본 명세서에서 대역폭 연장(BWE) 영역이라고 불린다. 약 50Hz부터 약 15kHz까지의 소리 주파수들의 전체 범위는 "초광대역"(SWB)으로 불린다. BWE 영역에서, 사람의 귀는 소리 신호들의 위상에 특별히 민감하지 않다. 하지만, 사람의 귀는 소리 고조파들의 규칙성 및 에너지의 존재 및 분포에 대해서는 민감하다. 그러므로, BWE 소리를 프로세싱하는 것은 음성 소리를 더 자연스럽게 하는 데 도움을 주고 또한 "현실감"을 제공한다.
도 1은 본 발명의 다양한 실시예들이 구현되는 통신 시스템의 예를 묘사한다.
도 2는 본 발명의 일 실시예에 부합하는, 통신 디바이스를 묘사하는 블럭도를 도시한다.
도 3은 본 발명의 일 실시예의 인코더를 묘사하는 블럭도를 도시한다.
도 4 및 도 5는 본 발명의 다양한 실시예들에 따른 갭 필링(gap-filling)의 예시들을 묘사한다.
본 발명의 일 실시예는 하이브리드 인코더에 관한 것이다. 인코더에 의해 수신된 오디오 입력이 음악과 유사한 소리들(예를 들어, 음악)로부터 음성과 유사한 소리들(예를 들어, 사람의 음성)로 변화할 때, 상기 인코더는 제1 모드(예를 들어, 음악 모드)로부터 제2 모드(예를 들어, 음성 모드)로 스위칭한다. 본 발명의 일 실시예에서, 인코더가 제1 모드에서 동작할 때, 상기 인코더는 제1 코더를 이용한다(예를 들어, 고조파 기반의 정현파식 코더와 같은, 주파수 도메인 코더). 상기 인코더가 제2 모드로 스위칭할 때, 상기 인코더는 제2 코더를 이용한다(예를 들어, CELP 코더와 같은, 시간 도메인 코더 또는 시간 파형 코더). 상기 제1 코더로부터 제2 코더로의 이 스위칭은 인코딩 프로세스에서 지연을 초래할 수 있고, 인코딩된 신호에서 갭을 만드는 결과를 낳는다. 이를 보상하기 위해서, 상기 인코더는 상기 갭을 상기 갭 이후에 발생하는 가청 신호의 부분으로 백필링(backfilling)한다.
본 발명의 관련된 실시예에서, 상기 제2 코더는 BWE 코딩 부분 및 코어 코딩 부분(core coding portion)을 포함한다. 상기 코어 코딩 부분은 상기 인코더가 동작하는 비트 레이트에 따라 서로 다른 샘플링 레이트들에서 동작한다. 예를 들어, 낮은 샘플링 레이트들을 사용하는 것(예를 들어, 상기 인코더가 낮은 비트 레이트들에서 동작할 때)에 대한 이점들이 있고, 높은 샘플링 레이트들을 사용하는 것(예를 들어, 상기 인코더가 높은 비트 레이트들에서 동작할 때)에 대한 이점들이 있다. 상기 코어 부분의 샘플링 레이트는 BWE 코딩 부분의 가장 낮은 주파수를 결정한다. 하지만, 상기 제1 코더로부터 상기 제2 코더로의 스위칭이 발생할 때, 상기 코어 코딩 부분이 동작해야 하는 샘플링 레이트에 관한 불확실성이 있을 수 있다. 코어 샘플링 레이트가 알려질 때까지는, 상기 BWE 코딩 부분의 프로세싱 체인이 구성되는 것이 가능하지 않을 수 있고, 이는 BWE 코딩 부분의 프로세싱 체인에서의 지연을 초래한다. 이 지연의 결과로서, 프로세싱 동안 상기 신호("BWE 타겟 신호"라고 불림)의 BWE 영역에서 갭이 생성된다. 이를 보상하기 위해서, 상기 인코더는 BWE 타겟 신호 갭을 상기 갭 이후에 발생하는 가청 신호의 부분으로 백필링한다.
본 발명의 다른 실시예에서, 가청 신호는 (주파수 도메인 코더와 같은)제1 코더에 의해 코딩되는 신호의 제1 유형(음악 또는 음악과 유사한 신호)으로부터 (시간 도메인 코더 또는 시간 파형 코더와 같은)제2 코더에 의해 프로세싱되는 신호의 제2 유형(음성 또는 음성과 유사한 신호)으로 스위칭한다. 상기 스위칭은 제1 시간에 발생한다. 프로세싱된 가청 신호에서의 갭은 상기 제1 시간에 또는 제1 시간 후에 시작하고 제2 시간에 종료되는 기간을 갖는다. 상기 제2 시간에 또는 제2 시간 이후에 발생하는 프로세싱된 가청 신호의 부분은, 가능한 한 (시간 반전, 사인 윈도우 및/또는 코사인 윈도우와 같은)기능들이 복사된 부분에서 수행된 후에 복사되고 상기 갭에 삽입된다.
이전에 기술된 실시예들은 통신 디바이스에 의해 수행되고, 상기 통신 디바이스의 입력 인터페이스(예를 들어, 마이크로폰)는 가청 신호를 수신하고, 음성-음악 검출기는 음악과 유사한 오디오로부터 음성과 유사한 오디오로의 스위칭이 발생했음을 검출하고, 누락 신호 생성기는 BWE 타겟 신호에서의 갭을 백필링한다. 상기 다양한 동작들은 (예를 들어, 룩-어헤드 버퍼(look-ahead buffer)를 포함하는)메모리와 함께 프로세서(예를 들어, 디지털 신호 프로세서 또는 DSP)에 의해 수행된다.
이하의 설명에서, 도면들에 도시된 컴포넌트들뿐만 아니라 라벨이 붙여진 경로들은 다양한 실시예들에서, 신호들이 일반적으로 어떻게 흐르고 프로세싱되는지를 표시하도록 의도되었음이 주목되어야 한다. 라인 연결부들은 이산적인 물리적 경로들에 필연적으로 대응하지는 않고, 그리고 블럭들은 이산적인 물리적 컴포넌트들에 필연적으로 대응하지는 않는다. 상기 컴포넌트들은 하드웨어로서 또는 소프트웨어로서 구현된다. 더욱이, "결합된"이라는 용어의 사용은 컴포넌트들 간의 물리적 연결을 반드시 내포하지는 않고, 그리고 중간 컴포넌트들이 존재하는 컴포넌트들 간의 관계들을 기술한다. "결합된"이라는 용어는 물리적으로 또는 소프트웨어 구조물들(예를 들어, 데이터 구조들, 객체들 등)을 통해서, 컴포넌트들이 서로 통신할 수 있는 능력을 단지 기술할 뿐이다.
다시 도면들을 참조하면, 본 발명의 일 실시예가 동작하는 네트워크의 예시가 이제 기술될 것이다. 도 1은 네트워크(102)를 포함하는 통신 시스템(100)을 설명한다. 상기 네트워크(102)는, 무선 액세스 포인트들, 셀룰러 기지국들, 유선 네트워크들(광섬유, 동축 케이블 등)과 같은 많은 컴포넌트들을 포함한다. 어떤 수의 통신 디바이스들 및 많은 각종의 통신 디바이스들이 상기 네트워크(102)를 통해 데이터(음성, 비디오, 웹 페이지들 등)를 교환한다. 제1 및 제2 통신 디바이스(104 및 106)는 상기 네트워크(102)를 통해 통신하는 것으로서 도 1에 묘사되었다. 비록 상기 제1 및 제2 통신 디바이스들(104 및 106)이 스마트폰들인 것으로 도시되었지만, 상기 제1 및 제2 통신 디바이스들(104 및 106)은 랩탑, 무선 로컬 영역 네트워크 디바이스, 무선 광역 네트워크 디바이스, 또는 사용자 장비(UE)를 포함하는 어떤 유형의 통신 디바이스일 수 있다. 달리 언급되지 않는 한, 상기 제1 통신 디바이스(104)는 전송 디바이스인 것으로 간주되고 반면에 상기 제2 통신 디바이스(106)는 수신 디바이스인 것으로 간주된다.
도 2는 본 발명의 일 실시예에 따른, (도 1로부터의)통신 디바이스(104)의 블럭도를 설명한다. 상기 통신 디바이스(104)는 상기 네트워크(102)에 저장된 정보 또는 데이터에 액세스하고 상기 네트워크(102)를 통해 제2 통신 디바이스(106)와 통신할 수 있다. 몇몇의 실시예들에서, 상기 통신 디바이스(104)는 하나 이상의 통신 애플리케이션들을 지원한다. 또한, 본 명세서에 기술된 다양한 실시예들은 제2 통신 디바이스(106) 상에서도 수행될 수 있다.
상기 통신 디바이스(104)는 트랜시버(transceiver)(240)를 포함하고, 상기 트랜시버(240)는 네트워크(102)를 통해 데이터를 보내고 수신할 수 있다. 상기 통신 디바이스는 인코더(222)와 같은, 저장된 프로그램들을 실행하는 제어기/프로세서(210)를 포함한다. 본 발명의 다양한 실시예들은 상기 인코더(222)에 의해 수행된다. 상기 통신 디바이스는 또한 메모리(220)를 포함하고, 상기 메모리(220)는 상기 제어기/프로세서(210)에 의해 사용된다. 상기 메모리는 인코더(222)를 저장하고 룩-어헤드 버퍼(221)를 더 포함할 수 있고, 상기 룩-어헤드 버퍼(221)의 목적은 아래에 더 상세히 기술될 것이다. 상기 통신 디바이스는 키패드, 디스플레이, 터치 스크린, 마이크로폰, 이어폰, 및 스피커와 같은 요소들을 포함하는 사용자 입/출력 인터페이스(250)를 포함한다. 상기 통신 디바이스는 또한 네트워크 인터페이스(260)를 포함하고, 상기 네트워크 인터페이스(260)에는, 예를 들어, 유니버설 시리얼 버스(USB) 인터페이스와 같은 추가적인 요소들이 부착될 수 있다. 마지막으로, 상기 통신 디바이스는 상기 통신 디바이스로 하여금 상기 통신 디바이스의 구성에 관한 다양한 저장된 데이터 구조들에 액세스하는 것을 가능하게 하는 데이터베이스 인터페이스(230)를 포함한다.
본 발명의 일 실시예에 따르면, 상기 입/출력 인터페이스(250)(예를 들어, 상기 입/출력 인터페이스(250)의 마이크로폰)는 가청 신호들을 검출한다. 상기 인코더(222)는 가청 신호들을 인코딩한다. 그렇게 함에 있어서, 상기 인코더는 스피치 신호들을 인코딩하기 위해 "룩-어헤드(look-ahead)"로 알려진 기법을 이용한다. 룩-어헤드를 이용해서, 상기 인코더(222)는, 현재 음성 프레임 이후에 무엇이 오는지를 결정하기 위해서, 상기 인코더(222)가 인코딩하고 있는 현재 음성 프레임의 소량의 미래의 음성을 검사한다. 상기 인코더는 룩-어헤드 버퍼(221)에 미래 음성 신호의 부분을 저장한다.
도 3의 블럭도를 참조하여, (도 2로부터의)상기 인코더(222)의 동작이 이제 기술될 것이다. 상기 인코더(222)는 음성/음악 검출기(300) 및 상기 음성/음악 검출기(300)에 결합된 스위치(320)를 포함한다. 도 2에 묘사된 이 컴포넌트들의 우측에는, 제1 코더(300a) 및 제2 코더(300b)가 있다. 본 발명의 일 실시예에서, 상기 제1 코더(300a)는 (고조파 기반의 정현파식 코더로 구현되는)주파수 도메인 코더이고, 컴포넌트들의 제2 세트는 CELP 코더(300b)와 같은 시간 도메인 코더 또는 시간 파형 코더를 구성한다. 상기 제1 및 제2 코더들(300a 및 300b)은 상기 스위치(320)에 결합된다.
상기 제2 코더(300b)는, 경로들 O 및 P를 통해 BWE 여기 신호(bandwidth extension excitation signal)(약 7kHz로부터 약 16kHz까지)를 출력하는 고-대역 부분(high-band portion), 그리고 경로 N을 통해 WB 여기 신호(wideband excitation signal)(약 50Hz로부터 약 7kHz까지)를 출력하는 저-대역 부분(low-band portion)을 갖는 것으로 특징지을 수 있다. 이 그룹화는 편리한 참조를 위해서일 뿐이라는 것이 이해될 것이다. 논의될 바와 같이, 상기 고-대역 부분 및 상기 저-대역 부분은 서로 인터렉션한다.
상기 고-대역 부분은 대역통과 필터(301), 상기 대역통과 필터(301)에 결합된 스펙트럼 플립 및 다운 믹서(307), 상기 스펙트럼 플립 및 다운 믹서(307)에 결합된 데시메이터(decimator)(311), 상기 데시메이터(311)에 결합된 누락 신호 생성기(311a), 상기 누락 신호 생성기(311a)에 결합된 선형 예측 코딩(LPC) 분석기(314)를 포함한다. 상기 고-대역 부분(300a)은 상기 LPC 분석기(314)에 결합된 제1 양자화기(318)를 더 포함한다. 상기 LPC 분석기는, 예를 들어, 10차 LPC 분석기일 수 있다.
또한, 도 3을 여전히 참조하면, 상기 제2 코더(300b)의 고-대역 부분은 고-대역 적응적 코드북(ACB)(302)(또는, 대안적으로, 장기 예측기), 가산기(303) 및 제곱 회로(306)를 포함한다. 상기 고-대역 ACB(302)는 상기 가산기(303) 및 상기 제곱 회로(306)에 결합된다. 상기 고-대역 부분은 가우시안 생성기(Gaussian generator)(308), 가산기(309) 및 대역통과 필터(312)를 더 포함한다. 상기 가우시안 생성기(308) 및 대역통과 필터(312) 둘 모두는 상기 가산기(309)에 결합된다. 또한, 상기 고-대역 부분은 스펙트럼 플립 및 다운 믹서(313), 데시메이터(315), 1/A(z) 전-극점 필터(all-pole filter)(316)(이는 "전-극점 필터"로 언급될 것임), 이득 계산기(317) 및 제2 양자화기(319)를 포함한다. 상기 스펙트럼 플립 및 다운 믹서(313)는 대역통과 필터(312)에 결합되고, 상기 데시메이터(315)는 상기 스펙트럼 플립 및 다운 믹서(313)에 결합되고, 상기 전-극점 필터(316)는 상기 데시메이터(315)에 결합되고, 상기 이득 계산기(317)는 상기 전-극점 필터(316) 및 상기 양자화기 둘 모두에 결합된다. 추가적으로, 상기 전-극점 필터(316)는 LPC 분석기(314)에 결합된다.
상기 저-대역 부분은 인터폴레이터(interpolator)(304), 데시메이터(305), 및 코드-여기 선형 예측(CELP) 코어 코덱(310)을 포함한다. 상기 인터폴레이터(304)와 상기 데시메이터(305)는 둘 모두 상기 CELP 코어 코덱(310)에 결합된다.
본 발명의 일 실시예에 따른 상기 인코더(222)의 동작이 이제 기술될 것이다. 음성/음악 검출기(300)는 (도 2의 입/출력 인터페이스(250)의 마이크로폰으로부터와 같이)오디오 입력을 수신한다. 만약 상기 검출기(300)가 상기 오디오 입력이 음악 유형의 오디오임을 결정하면, 상기 검출기는 상기 오디오 입력으로 하여금 상기 제1 코더(300a)를 통과하게끔 스위칭하도록 상기 스위치(320)를 제어한다. 만약, 반면에, 상기 검출기(300)가 상기 오디오 입력이 음성 유형의 오디오임을 결정하면, 상기 검출기는 상기 오디오 입력으로 하여금 상기 제2 코더(300b)를 통과하게끔 상기 스위치(320)를 제어한다. 만약, 예를 들어, 상기 제1 통신 디바이스(104)를 사용하고 있는 사람이 배경 음악을 갖는 위치에 있는 경우라면, 상기 검출기(300)는 상기 사람이 말하고 있지 않은 기간 동안(예를 들어, 배경 음악이 지배적임) 상기 제1 코더(300a)를 사용하기 위해 상기 스위치(320)로 하여금 상기 인코더(222)를 스위칭하게 할 것이다. 일단 상기 사람이 말하기 시작하면(예를 들어, 상기 음성이 지배적임), 상기 검출기(300)는 제2 코더(300b)를 사용하기 위해 상기 스위치(320)로 하여금 인코더(222)를 스위칭하게 할 것이다.
상기 제2 코더(300b)의 고-대역 부분의 동작은 이제 도 3을 참조로 하여 기술될 것이다. 상기 대역통과 필터(301)는 경로 A를 통해 32kHz 입력 신호를 수신한다. 이 예시에서, 상기 입력 신호는 32kHz로 샘플링된 초광대역(SWB) 신호이다. 상기 대역통과 필터(301)는 6.4kHz 또는 8kHz 중 하나의 하한 주파수를 갖고 8kHz의 대역폭을 갖는다. 상기 대역통과 필터(301)의 하한 주파수는 CELP 코어 코덱(310)의 상한 주파수(예를 들어, 6.4kHz 또는 8kHz 중 하나)에 매칭된다. 상기 대역통과 필터(301)는 상기 SWB 신호를 필터링하고, 그 결과 경로 C를 통한 대역-제한 신호가 32kHz로 샘플링되고 8kHz의 대역폭을 갖게 된다. 상기 스펙트럼 플립 및 다운 믹서(307)는 상기 경로 C를 통해 수신된 대역-제한 입력 신호를 스펙트럼상 플립하고 상기 요구되는 대역이 0Hz로부터 8kHz의 영역을 점유하도록 상기 신호를 다운된 주파수로 스펙트럼상 전이시킨다. 상기 플립되고 다운믹스된 입력 신호는 데시메이터(311)에 제공되고, 상기 데시메이터(311)는 상기 플립되고 다운믹스된 신호를8kHz로 대역 제한하고, 상기 플립되고 다운믹스된 신호의 샘플링 레이트를 32kHz로부터 16kHz로 감소시키고, 그리고 경로 J를 통해, 상기 입력 신호의 스펙트럼상 플립되고 대역 제한된 버전의 임계적으로 샘플링된 버전, 즉, BWE 타겟 신호를 출력한다. 경로 J상의 신호의 샘플링 레이트는 16kHz이다. 이 BWE 타겟 신호는 누락 신호 생성기(311a)에 제공된다.
상기 누락 신호 생성기(311a)는 상기 인코더(222)가 상기 제1 코더(300a)와 상기 CELP-유형 인코더(300b)간의 스위칭의 결과인 BWE 타겟 신호에서의 갭을 필링한다. 이 갭-필링 프로세스는 도 4에 관해 더 상세히 기술될 것이다. 상기 갭-필링된 BWE 타겟 신호는 LPC 분석기(314)에 제공되고 경로 L을 통해 이득 계산기(317)에 제공된다. 상기 LPC 분석기(314)는 갭-필링된 BWE 타겟 신호의 스펙트럼을 결정하고 경로 M을 통해 (비양자화된) LPC 필터 계수들을 출력한다. 경로 M을 통한 신호는 양자화기(318)에 의해 수신되고, 상기 양자화기(318)는, 상기 LPC 파라미터들을 포함하여, LPC 계수들을 양자화한다. 상기 양자화기(318)의 출력은 양자화된 LPC 파라미터들을 구성한다.
도 3을 여전히 참조하면, 데시메이터(305)는 경로 A를 통해 32kHz SWB 입력 신호를 수신한다. 데시메이터(305)는 상기 입력 신호를 대역-제한하고 리샘플링(resampling)한다. 결과적인 출력은 12.8kHz 또는 16kHz 중 하나로 샘플링된 신호이다. 상기 대역-제한된 그리고 리샘플링된 신호는 CELP 코어 코덱(310)에 제공된다. 상기 CELP 코어 코덱(310)은 상기 대역-제한된 그리고 리샘플링된 신호의 6.4 또는 8kHz의 하한 주파수를 코딩하고, 경로들 N 및 F를 통해, CELP 코어 추계학적 여기 신호 컴포넌트(CELP core stochastic excitation signal component)("추계학적 코드북 컴포넌트(stochastic codebook component)")를 출력한다. 인터폴레이터(304)는 경로 F를 통해 상기 추계학적 코드북 컴포넌트를 수신하고 고-대역 경로에서의 사용을 위해 상기 추계학적 코드북 컴포넌트를 업샘플링한다. 다시 말해서, 상기 추계학적 코드북 컴포넌트는 고-대역 추계학적 코드북 컴포넌트의 역할을 한다. 업샘플링 인자(upsampling factor)는 출력 샘플링 레이트가 32kHz이 되도록 CELP 코어 코덱의 상한 주파수에 매칭된다. 가산기(303)는 경로 B를 통해 상기 업샘플링된 추계학적 코드북 컴포넌트를 수신하고, 경로 E를 통해 적응적 코드북 컴포넌트를 수신하고, 그리고 상기 두 컴포넌트들을 가산한다. 경로 D를 통한 미래 피치 주기들에 대해 상기 ACB(302)의 상태를 업데이트 하기 위해, 상기 추계적 코드북 컴포넌트 및 상기 적응적 코드북 컴포넌트의 전체가 사용된다.
도 3을 다시 참조하면, 상기 고-대역 ACB(302)는 높은 샘플링 레이트로 동작하고, 상기 CELP 코어(310)의 여기(excitation)의 인터폴레이션되고 연장된 버전을 재생성하고, 그리고 CELP 코어(310)의 기능성을 미러링(mirroring)하는 것으로 간주될 수 있다. 상기 높은 샘플링 레이트 프로세싱은 높은 샘플링 레이트로 인해 CELP 코어의 주파수보다 높은 주파수로 연장하는 고조파들을 생성한다. 이를 달성하기 위해, 고-대역 ACB(302)는 CELP 코어(310)로부터의 ACB 파라미터들을 사용하고, CELP 코어 추계학적 여기 컴포넌트의 인터폴레이션된 버전 상에서 동작한다. 상기 ACB(302)의 출력은 상기 업샘플링된 추계학적 코드북 컴포넌트와 가산되어 적응적 코드북 컴포넌트를 생성한다. ACB(302)는 경로 D를 통해, 상기 고-대역 여기 신호의 상기 추계학적 코드북 컴포넌트 및 적응적 코드북 컴포넌트의 전체를 입력으로서 수신한다. 이 전체는, 이전에 주목되었듯이, 가산 모듈(303)의 출력으로부터 제공된다.
또한, 상기 추계학적 및 적응적 컴포넌트들의 전체(경로 D)는 제곱 회로(306)에 제공된다. 상기 제곱 회로(306)는 상기 코어 CELP 신호의 강한 고조파들을 생성해서 대역폭이 연장된 고-대역 여기 신호를 형성하고, 상기 대역폭이 연장된 고-대역 여기 신호는 믹서(309)에 제공된다. 가우시안 생성기(308)는 셰이핑된 가우시안 잡음 신호(shaped gaussian noise signal)를 생성하고, 상기 셰이핑된 가우시안 잡음 신호의 에너지 포락선(energy envelope)은 상기 제곱 회로(306)로부터 출력되었던 대역폭이 연장된 고-대역 여기 신호의 에너지 포락선과 매칭된다. 상기 믹서(309)는 상기 가우시안 생성기(308)로부터의 잡음 신호 및 상기 제곱 회로(306)로부터의 대역폭이 연장된 고-대역 여기 신호를 수신하고, 상기 대역폭이 연장된 고-대역 여기 신호의 부분을 셰이핑된 가우시안 잡음 신호로 대체한다. 대체된 상기 부분은 추정된 보이싱 비율(estimated degree of voicing)에 의존하고, 상기 추정된 보이싱 비율은 CELP 코어로부터의 출력이고 상기 추계학적 컴포넌트 및 상기 활성 코드북 컴포넌트에서의 상대적인 에너지들의 측정들에 기반한다. 상기 믹싱 함수로부터의 결과인 상기 믹싱된 신호는 대역통과 필터(312)에 제공된다. 상기 대역통과 필터(312)는 상기 대역통과 필터(301)의 특징과 동일한 특징들을 갖고, 상기 고-대역 여기 신호의 대응하는 컴포넌트들을 추출한다.
상기 대역통과 필터(312)에 의해 출력된 대역통과 필터링된 고대역 여기 신호는 상기 스펙트럼 플립 및 다운-믹서(313)에 제공된다. 상기 스펙트럼 플립 및 다운-믹서(313)는 결과적인 신호가 0Hz로부터 8kHz까지의 주파수 영역을 점유하도록, 상기 대역통과 필터링된 고대역 여기 신호를 플립하고 다운된 주파수로 스펙트럼 전이를 수행한다. 이 동작은 스펙트럼 플립 및 다운-믹서(307)의 동작과 매칭된다. 상기 결과적인 신호는 데시메이터(315)에 제공되고, 상기 데시메이터(315)는 상기 플립되고 다운-믹스된 고대역 여기 신호의 대역을 제한하고 상기 신호의 샘플링 레이트를 32kHz로부터 16kHz로 감소시킨다. 이 동작은 데시메이터(311)의 동작과 매칭된다. 상기 결과적인 신호는 일반적으로 평평하거나 백색의 스펙트럼을 갖지만, 어떤 포르만트 정보(formant information)도 결여되어 있다. 전-극점 필터(316)는 상기 LPC 분석기(314)로부터 비양자화된 LPC 필터 계수들뿐만 아니라, 상기 데시메이터로부터 데시메이팅된, 플립되고 다운-믹스된 신호를 수신한다. 상기 전-극점 필터(316)는 상기 데시메이팅된, 플립되고 다운-믹스된 고대역 신호의 모양이 BWE 타겟 신호의 모양과 매칭되도록 상기 데시메이팅된, 플립되고 다운-믹스된 고대역 신호를 리셰이핑(reshaping)한다. 상기 리셰이핑된 신호는 이득 계산기(317)에 제공되고, 상기 이득 계산기(317)는 또한, (경로 L을 통해)누락 신호 생성기(311a)로부터 갭 필링된 BWE 타겟 신호를 수신한다. 상기 이득 계산기(317)는 스펙트럼상 셰이핑되고, 데시메이팅되고, 플립되고 다운-믹스된 고대역 여기 신호에 적용되어야 하는 이상적인 이득들을 결정하기 위해 상기 갭 필링된 BWE 타겟 신호를 사용한다. (이상적인 이득들을 갖는)상기 스펙트럼상 셰이핑되고, 데시메이팅되고, 플립되고 다운-믹스된 고대역 여기 신호는 제2 양자화기(319)에 제공되고, 상기 제2 양자화기(319)는 고 대역에 대한 이득들을 양자화한다. 상기 제2 양자화기(319)의 출력은 양자화된 이득들이다. 상기 양자화된 LPC 파라미터들 및 양자화된 이득들은 추가적인 프로세싱, 변환들 등을 받고, 라디오 주파수 신호들이, 예를 들어, 상기 네트워크(102)를 통해 상기 제2 통신 디바이스(106)에 송신되는 결과를 낳는다.
이전에 주목되었듯이, 상기 누락 신호 생성기(311a)는 인코더(222)가 음악 모드로부터 음성 모드로 변경되는 것의 결과인 상기 신호의 갭을 필링한다. 본 발명의 일 실시예에 따른 상기 누락 신호 생성기(311a)에 의해 수행되는 동작은 이제 도 4에 관해 더 상세히 기술될 것이다. 도 4는 신호들(400, 402, 404 및 408)의 그래프를 묘사한다. 그래프의 수직축은 신호들의 크기를 나타내고 수평축은 시간을 나타낸다. 상기 제1 신호(400)는 인코더(222)가 프로세싱하려고 시도하는 원본 소리 신호이다. 제2 신호(402)는 어떤 수정도 없이(예를 들어, 수정되지 않은 신호) 제1 신호(400)를 프로세싱하는 것의 결과인 신호이다. 제1 시간(410)은 상기 인코더(222)가 제1 모드(예를 들어, 고조파 기반 정현파식 코더와 같은, 주파수 도메인 코더를 이용한 음악 모드)로부터 제2 모드(예를 들어, CELP 코더와 같은, 시간 도메인 코더 또는 시간 파형 코더를 이용한, 음성 모드)로 스위칭하는 시점이다. 그러므로, 제1 시간(410)까지는, 상기 인코더(222)는 가청 신호를 제1 모드로 프로세싱한다. 제1 시간(410)에 또는 제1 시간(410)의 잠시 후에, 상기 인코더(222)는 가청 신호를 제2 모드로 프로세싱하려고 시도하지만, 상기 인코더(222)가 모드 스위칭 이후 필터 메모리들 및 버퍼들을 플러쉬 아웃(flush-out)하고(제2 시간(412)에 발생됨), 룩-어헤드 버퍼(221)를 필링할 때까지는 효율적으로 상기 가청 신호를 제2 모드로 프로세싱할 수 없다. 보여질 수 있는 바와 같이, 프로세싱된 가청 신호에서, 제1 시간(410)과, 갭(416)이 있는(예를 들어, 약 5ms일 수 있음) 제2 시간(412) 사이에 시간 간격이 있다. 이 갭(416) 동안, BWE 영역에 있는 소리는 거의 인코딩될 수 없거나 전혀 인코딩될 수 없다. 이 갭을 보상하기 위해, 상기 누락 신호 생성기(311a)는 신호(402)의 부분(406)을 복사한다. 상기 복사된 신호 부분(406)은 누락 신호 부분의 추정(예를 들어, 갭에 있었어야 할 신호 부분)이다. 상기 복사된 신호 부분(406)은 제2 시간(412)으로부터 제3 시간(414)까지에 걸친 시간 간격(418)을 점유한다. 제2 시간(412) 이후의 신호 중 복사될 수 있는 다수의 부분들이 있음이 주목되어야 하지만, 이 예시는 단일의 복사된 부분에 관한 것이다.
인코더(222)는 복사된 신호 부분(406)의 부분이 상기 갭(416)에 삽입되도록, 재생성된 추정 신호(408)에 상기 복사된 신호 부분(406)을 덧붙인다(superimpose). 몇몇의 실시예들에서, 상기 누락 신호 생성기(311a)는, 도 4에 보여진 바와 같이, 상기 복사된 신호 부분(406)을 상기 재생성된 추정 신호(402)에 덧붙이기 전에 상기 복사된 신호 부분(406)을 시간에 대해 반전시킨다.
일 실시예에서, 상기 복사된 부분(406)은 상기 갭(416)의 기간보다 긴 기간에 걸쳐 있다. 그러므로, 상기 갭(416)을 필링하는 상기 복사된 부분(406)에 더하여, 상기 복사된 부분의 일부는 상기 갭(416)을 넘어 상기 신호와 조합된다. 다른 실시예들에서, 상기 복사된 부분은 상기 갭(416)과 동일한 기간에 걸쳐 있다.
도 5는 다른 실시예를 보여준다. 이 실시예에서, 알려진 타겟 신호(500)가 있고, 상기 신호는 인코더(222)에 의해 수행된 초기 프로세싱으로부터의 결과이다. 제1 시간(512) 이전에, 상기 인코더(222)는 제1 모드(예를 들어, 고조파 기반 정현파식 코더와 같은, 주파수 코더를 사용함)로 동작한다. 제1 시간(512)에서, 상기 인코더(222)는 제1 모드로부터 제2 모드(예를 들어, CELP 코더를 사용함)로 스위칭한다. 이 스위칭은, 예를 들어, 통신 디바이스에 대한 오디오 입력이 음악 또는 음악과 유사한 소리들로부터 음성 또는 음성과 유사한 소리들로 변화하는 것에 기반한다. 상기 인코더(222)는 제2 시간(514)까지는 제1 모드로부터 제2 모드로의 스위칭으로부터 회복할 수 없다. 상기 제2 시간(514) 후에, 상기 인코더(222)는 제2 모드로 상기 음성 입력을 인코딩할 수 있다. 갭(503)이 제1 시간과 제2 시간 사이에 존재한다. 상기 갭(503)에 대해 보상하기 위해, 상기 누락 신호 생성기(311a)는 갭(503)과 동일한 시간 길이(518)인 알려진 타겟 신호(500)의 부분(504)을 복사한다. 상기 누락 신호 생성기는 상기 복사된 부분(504)의 코사인 윈도우 부분(502) 을 상기 복사된 부분(504)의 시간 반전된 사인 윈도우 부분(506)과 조합한다. 상기 코사인 윈도우 부분(502) 및 시간 반전된 사인 윈도우 부분(506) 둘 모두는 상기 복사된 부분(504)의 동일한 섹션(516)으로부터 취해질 수 있다. 상기 시간 반전된 사인 부분 및 코사인 부분은 서로에 관해 위상이 다를 수 있고, 필연적으로 상기 섹션(516)의 동일한 시점에서 시작하고 끝나지는 않는다. 상기 코사인 윈도우 및 시간 반전된 사인 윈도우의 조합은 오버랩-가산 신호(overlap-add signal)(510)로 언급될 것이다. 상기 오버랩-가산 신호(510)는 타겟 신호(500)의 복사된 부분(504) 중 부분을 대체한다. 대체되지 않은 상기 복사된 부분(504) 중 부분은 비-대체된 신호(520)로 언급될 것이다. 상기 인코더는 상기 오버랩-가산 신호(510)를 비-대체된 신호(516)에 덧붙이고, 상기 갭(503)을 조합된 신호들(510 및 516)로 필링한다.
비록 본 발명 및 본 발명의 최적 모드들(best modes)은 발명자들에 의한 소유를 설정하고 통상의 기술자들이 본 발명 및 본 발명의 최적 모드를 생산 및 사용하는 것을 가능하게 하는 방식으로 기술되었지만, 본 명세서에 개시된 대표적인 실시예들에 대한 균등물들이 존재하고 본 명세서에 개시된 대표적인 실시예들에 대한 수정들 및 변형들이 본 발명의 범위 및 사상으로부터 벗어남이 없이 이루어질 수 있고, 이러한 균등물들, 수정들 및 변형들이 대표적인 실시예들에 의해서 한정되는 것이 아니라 첨부된 특허청구범위에 의해 한정되는 것임이 이해될 것이다.

Claims (14)

  1. 가청 신호(audible signal)를 인코딩하는 방법으로서,
    제1 인코더 모드(300a)에서 상기 가청 신호를 프로세싱하는 단계와;
    제1 시간(410)에 상기 제1 인코더 모드(300a)로부터 제2 인코더 모드(300b)로 스위칭하는 단계와;
    상기 제2 인코더 모드(300b)에서 상기 가청 신호를 프로세싱하는 단계와,
    상기 제2 인코더 모드(300b)의 프로세싱 지연(processing delay)이 상기 가청 신호에서 상기 제1 시간(410)에 또는 상기 제1 시간(410) 후에 시작하고, 제2 시간(412)에 종료하는 기간을 갖는 갭(gap)(416)을 생성하고;
    상기 프로세싱된 가청 신호의 부분(406)을 복사하는 단계와, 상기 복사된 부분(406)은 상기 제2 시간(412)에 또는 상기 제2 시간(412) 후에 발생하고; 그리고
    상기 갭(416)에 신호를 삽입하는 단계를 포함하고, 상기 삽입된 신호는 상기 복사된 부분(406)에 기반하고, 상기 복사된 부분은 코사인 윈도우 부분(cosine window portion) 및 시간에 대해 반전된 사인 윈도우 부분(time-reversed sine window portion)을 포함하고, 상기 복사된 부분을 삽입하는 단계는 상기 코사인 윈도우 부분을 상기 시간에 대해 반전된 사인 윈도우 부분과 조합하는 것과 상기 조합된 사인 및 코사인 윈도우 부분들의 적어도 일부를 상기 갭 부분에 삽입하는 것을 포함하는 것을 특징으로 하는 가청 신호를 인코딩하는 방법.
  2. 삭제
  3. 제 1항에 있어서,
    상기 복사된 부분의 기간은 상기 갭의 기간보다 길고;
    상기 방법은 상기 복사된 부분의 오버랩 부분을 상기 제2 시간 후에 발생하는 상기 프로세싱된 가청 신호의 적어도 일부와 조합하는 단계를 더 포함하는 것을 특징으로 하는 가청 신호를 인코딩하는 방법.
  4. 삭제
  5. 제 1항에 있어서,
    상기 인코더를 제1 인코더 모드로부터 제2 인코더 모드로 스위칭하는 단계는 상기 인코더를 음악 모드로부터 음성 모드로 스위칭하는 것을 포함하는 것을 특징으로 하는 가청 신호를 인코딩하는 방법.
  6. 제 1항에 있어서,
    만약 상기 가청 신호가 음악 신호인 것으로 결정된다면, 상기 제1 인코더 모드에서 상기 가청 신호를 인코딩하는 단계와;
    상기 가청 신호가 상기 음악 신호로부터 음성 신호로 스위칭되었음을 결정하는 단계와; 그리고
    만약 상기 가청 신호가 음성 신호가 되도록 스위칭되었음이 결정된다면, 상기 제2 인코더 모드에서 상기 가청 신호를 인코딩하는 단계를 포함하는 것을 특징으로 하는 가청 신호를 인코딩하는 방법.
  7. 제 6항에 있어서,
    상기 제1 인코더 모드는 음악 코딩 모드이고 상기 제2 인코더 모드는 음성 코딩 모드인 것을 특징으로 하는 가청 신호를 인코딩하는 방법,
  8. 제 1항에 있어서,
    상기 제1 인코더 모드에서 주파수 도메인 코더를 사용하는 단계와 상기 제2 인코더 모드에서 CELP 코더를 사용하는 단계를 더 포함하는 것을 특징으로 하는 가청 신호를 인코딩하는 방법.
  9. 가청 신호를 인코딩하기 위한 장치(apparatus)로서,
    제1 코더로서 동작하도록 구성되는 프로세서를 갖는 인코더와;
    제2 코더와;
    음성-음악 검출기와, 가청 신호가 음악으로부터 음성으로 변화했음을 상기 음성-음악 검출기가 결정할 때, 상기 가청 신호는 상기 제1 코더에 의해 프로세싱되는 것을 중단하고 상기 제2 코더에 의해 프로세싱되며;
    상기 제2 코더의 프로세싱 지연이 상기 가청 신호에서 제1 시간에 또는 상기 제1 시간 후에 시작하고 제2 시간에 종료하는 기간을 갖는 갭을 생성하며; 그리고
    누락 신호 생성기를 포함하고, 상기 누락 신호 생성기는 상기 프로세싱된 가청 신호의 부분을 복사하고, 상기 복사된 부분은 상기 제2 시간에 또는 상기 제2 시간 후에 발생하고, 그리고 상기 누락 신호 생성기는 상기 갭에 상기 복사된 부분에 기반한 신호를 삽입하며,
    상기 복사된 부분은 코사인 윈도우 부분 및 시간에 대해 반전된 사인 윈도우 부분을 포함하고, 상기 복사된 부분을 삽입하는 단계는 상기 코사인 윈도우 부분을 상기 시간에 대해 반전된 사인 윈도우 부분과 조합하는 것과 상기 조합된 사인 및 코사인 윈도우 부분들의 적어도 일부를 상기 갭 부분에 삽입하는 것을 포함하는 것을 특징으로 하는 가청 신호를 인코딩하기 위한 장치.
  10. 제 9항에 있어서,
    상기 누락 신호 생성기에 의해 출력되는 신호는 갭-필링된 대역폭 연장 타겟 신호(gap-filled bandwidth extension target signal)이고, 상기 장치는 상기 가청 신호의 적어도 일부에 대한 이상적인 이득들(ideal gains)을 결정하기 위해 상기 갭-필링된 대역폭 연장 타겟 신호를 이용하는 이득 계산기(gain computer)를 더 포함하는 것을 특징으로 하는 가청 신호를 인코딩하기 위한 장치.
  11. 제 9항에 있어서,
    상기 복사된 부분의 기간은 상기 갭의 기간보다 길고;
    상기 장치는 상기 복사된 부분의 오버랩 부분을 상기 제2 시간 후에 발생하는 상기 프로세싱된 가청 신호의 적어도 일부와 조합하는 것을 더 포함하는 것을 특징으로 하는 가청 신호를 인코딩하기 위한 장치.
  12. 제 9항에 있어서,
    상기 누락 신호 생성기에 의해 출력되는 신호는 갭-필링된 대역폭 연장 타겟 신호이고, 상기 장치는 상기 갭-필링된 대역폭 연장 타겟 신호의 스펙트럼을 결정하고 상기 결정된 스펙트럼에 기반하여 선형 예측 코딩 계수들(linear predictive coding coefficients)을 출력하는 선형 예측 코딩 분석기(linear predictive coding analyzer)를 더 포함하는 것을 특징으로 하는 가청 신호를 인코딩하기 위한 장치.
  13. 제 9항에 있어서,
    상기 제1 코더는 주파수 도메인 코더이고 상기 제2 코더는 CELP 코더인 것을 특징으로 하는 가청 신호를 인코딩하기 위한 장치.
  14. 제 1항에 있어서,
    상기 단계들은 제1 통신 디바이스에서 수행되며,
    상기 방법은: 삽입하는 단계 후에, 인코딩된 음성 신호를 제2 디바이스에 송신하는 단계를 더 포함하는 것을 특징으로 하는 가청 신호를 인코딩하는 방법.
KR1020157010638A 2012-09-26 2013-09-06 오디오 신호를 인코딩하기 위한 방법 및 장치 KR101668401B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/626,923 2012-09-26
US13/626,923 US9129600B2 (en) 2012-09-26 2012-09-26 Method and apparatus for encoding an audio signal
PCT/US2013/058436 WO2014051965A1 (en) 2012-09-26 2013-09-06 Method and apparatus for encoding an audio signal

Publications (2)

Publication Number Publication Date
KR20150060897A KR20150060897A (ko) 2015-06-03
KR101668401B1 true KR101668401B1 (ko) 2016-10-21

Family

ID=49182533

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157010638A KR101668401B1 (ko) 2012-09-26 2013-09-06 오디오 신호를 인코딩하기 위한 방법 및 장치

Country Status (6)

Country Link
US (1) US9129600B2 (ko)
EP (1) EP2901450B1 (ko)
JP (1) JP6110498B2 (ko)
KR (1) KR101668401B1 (ko)
CN (1) CN104781879B (ko)
WO (1) WO2014051965A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
KR102243688B1 (ko) * 2013-04-05 2021-04-27 돌비 인터네셔널 에이비 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
US9437236B2 (en) * 2013-11-04 2016-09-06 Michael Hugh Harrington Encoding data
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US10121488B1 (en) * 2015-02-23 2018-11-06 Sprint Communications Company L.P. Optimizing call quality using vocal frequency fingerprints to filter voice calls
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
EP3984026A1 (en) * 2019-06-13 2022-04-20 Telefonaktiebolaget LM Ericsson (publ) Time reversed audio subframe error concealment
CN110430104B (zh) * 2019-09-18 2021-12-03 北京云中融信网络科技有限公司 音频传输延迟的测试方法、装置、存储介质和电子设备
US11562761B2 (en) * 2020-07-31 2023-01-24 Zoom Video Communications, Inc. Methods and apparatus for enhancing musical sound during a networked conference
CN114299967A (zh) * 2020-09-22 2022-04-08 华为技术有限公司 音频编解码方法和装置
CN115881138A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 解码方法、装置、设备、存储介质及计算机程序产品

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560977A (en) 1982-06-11 1985-12-24 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4670851A (en) 1984-01-09 1987-06-02 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4727354A (en) 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
JP2527351B2 (ja) 1987-02-25 1996-08-21 富士写真フイルム株式会社 画像デ―タの圧縮方法
US5067152A (en) 1989-01-30 1991-11-19 Information Technologies Research, Inc. Method and apparatus for vector quantization
DE68922610T2 (de) 1989-09-25 1996-02-22 Rai Radiotelevisione Italiana Umfassendes System zur Codierung und Übertragung von Videosignalen mit Bewegungsvektoren.
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
WO1993018505A1 (en) 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6253185B1 (en) 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6904174B1 (en) 1998-12-11 2005-06-07 Intel Corporation Simplified predictive video encoder
US6480822B2 (en) 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6704705B1 (en) 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6453287B1 (en) 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6691092B1 (en) 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6493664B1 (en) 1999-04-05 2002-12-10 Hughes Electronics Corporation Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6504877B1 (en) 1999-12-14 2003-01-07 Agere Systems Inc. Successively refinable Trellis-Based Scalar Vector quantizers
JP4149637B2 (ja) 2000-05-25 2008-09-10 株式会社東芝 半導体装置
US6304196B1 (en) 2000-10-19 2001-10-16 Integrated Device Technology, Inc. Disparity and transition density control system and method
AUPR105000A0 (en) 2000-10-27 2000-11-23 Canon Kabushiki Kaisha Method for generating and detecting marks
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3636094B2 (ja) 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4506039B2 (ja) 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6662154B2 (en) 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
AU2003213149A1 (en) 2002-02-21 2003-09-09 The Regents Of The University Of California Scalable compression of audio and other signals
DE60214599T2 (de) 2002-03-12 2007-09-13 Nokia Corp. Skalierbare audiokodierung
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
CA2524243C (en) 2003-04-30 2013-02-19 Matsushita Electric Industrial Co. Ltd. Speech coding apparatus including enhancement layer performing long term prediction
JP2005005844A (ja) 2003-06-10 2005-01-06 Hitachi Ltd 計算装置及び符号化処理プログラム
JP4123109B2 (ja) 2003-08-29 2008-07-23 日本ビクター株式会社 変調装置及び変調方法並びに復調装置及び復調方法
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
RU2392671C2 (ru) 2004-04-05 2010-06-20 Конинклейке Филипс Электроникс Н.В. Способы и устройства для кодирования и декодирования стереосигнала
US20060022374A1 (en) 2004-07-28 2006-02-02 Sun Turn Industrial Co., Ltd. Processing method for making column-shaped foam
US6975253B1 (en) 2004-08-06 2005-12-13 Analog Devices, Inc. System and method for static Huffman decoding
US7161507B2 (en) 2004-08-20 2007-01-09 1St Works Corporation Fast, practically optimal entropy coding
US20060047522A1 (en) 2004-08-26 2006-03-02 Nokia Corporation Method, apparatus and computer program to provide predictor adaptation for advanced audio coding (AAC) system
JP4771674B2 (ja) 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
KR20070092240A (ko) 2004-12-27 2007-09-12 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
AU2006208529B2 (en) * 2005-01-31 2010-10-28 Microsoft Technology Licensing, Llc Method for weighted overlap-add
US20060190246A1 (en) 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
US7840411B2 (en) 2005-03-30 2010-11-23 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US7885809B2 (en) 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
FR2888699A1 (fr) 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
CN101263554B (zh) 2005-07-22 2011-12-28 法国电信公司 在比特率分级和带宽分级的音频解码中的比特率切换方法
CN101253557B (zh) 2005-08-31 2012-06-20 松下电器产业株式会社 立体声编码装置及立体声编码方法
US8069035B2 (en) 2005-10-14 2011-11-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods of them
JP4969454B2 (ja) 2005-11-30 2012-07-04 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
CN101385079B (zh) 2006-02-14 2012-08-29 法国电信公司 在音频编码/解码中用于知觉加权的设备
US20070239294A1 (en) 2006-03-29 2007-10-11 Andrea Brueckner Hearing instrument having audio feedback capability
US7230550B1 (en) 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword
US7414549B1 (en) 2006-08-04 2008-08-19 The Texas A&M University System Wyner-Ziv coding based on TCQ and LDPC codes
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
WO2008062990A1 (en) 2006-11-21 2008-05-29 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
US8468024B2 (en) 2007-05-14 2013-06-18 Freescale Semiconductor, Inc. Generating a frame of audio data
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8521540B2 (en) * 2007-08-17 2013-08-27 Qualcomm Incorporated Encoding and/or decoding digital signals using a permutation value
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2311034B1 (en) 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
PL2304723T3 (pl) 2008-07-11 2013-03-29 Fraunhofer Ges Forschung Urządzenie i sposób dekodowania zakodowanego sygnału audio
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
KR20080091305A (ko) * 2008-09-26 2008-10-09 노키아 코포레이션 서로 다른 코딩 모델들을 통한 오디오 인코딩
US20100088090A1 (en) 2008-10-08 2010-04-08 Motorola, Inc. Arithmetic encoding for celp speech encoders
US8725500B2 (en) * 2008-11-19 2014-05-13 Motorola Mobility Llc Apparatus and method for encoding at least one parameter associated with a signal source
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8219408B2 (en) 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
WO2011048118A1 (en) * 2009-10-20 2011-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
WO2011062536A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget Lm Ericsson (Publ) Improved excitation signal bandwidth extension
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US9236063B2 (en) * 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
KR101858466B1 (ko) * 2010-10-25 2018-06-28 보이세지 코포레이션 혼합형 시간-영역/주파수-영역 코딩 장치, 인코더, 디코더, 혼합형 시간-영역/주파수-영역 코딩 방법, 인코딩 방법 및 디코딩 방법
US9589568B2 (en) * 2011-02-08 2017-03-07 Lg Electronics Inc. Method and device for bandwidth extension
EP2676265B1 (en) * 2011-02-14 2019-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using an aligned look-ahead portion
JP2012194417A (ja) * 2011-03-17 2012-10-11 Sony Corp 音声処理装置および方法、並びにプログラム
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US9053699B2 (en) * 2012-07-10 2015-06-09 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery

Also Published As

Publication number Publication date
JP2015530622A (ja) 2015-10-15
JP6110498B2 (ja) 2017-04-05
EP2901450B1 (en) 2018-12-26
US9129600B2 (en) 2015-09-08
EP2901450A1 (en) 2015-08-05
WO2014051965A1 (en) 2014-04-03
US20140088973A1 (en) 2014-03-27
CN104781879A (zh) 2015-07-15
KR20150060897A (ko) 2015-06-03
CN104781879B (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
KR101668401B1 (ko) 오디오 신호를 인코딩하기 위한 방법 및 장치
US6615169B1 (en) High frequency enhancement layer coding in wideband speech codec
KR101092167B1 (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
JP6336086B2 (ja) 適合的帯域幅拡張およびそのための装置
JP5437067B2 (ja) 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法
JP4132154B2 (ja) 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
JP2009069856A (ja) 音声コーデックにおける擬似高帯域信号の推定方法
JP2016507789A (ja) 平均符号化レートを制御するためのシステムおよび方法
TW201434033A (zh) 用於判定音調脈衝週期信號界限之系統及方法
UA114233C2 (uk) Системи та способи для визначення набору коефіцієнтів інтерполяції
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
Chen Adaptive variable bit-rate speech coder for wireless
JP2013054282A (ja) 通信装置及び通信方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191008

Year of fee payment: 4