KR20190139872A - 멀티-소스 환경에서의 비-고조파 음성 검출 및 대역폭 확장 - Google Patents

멀티-소스 환경에서의 비-고조파 음성 검출 및 대역폭 확장 Download PDF

Info

Publication number
KR20190139872A
KR20190139872A KR1020197030409A KR20197030409A KR20190139872A KR 20190139872 A KR20190139872 A KR 20190139872A KR 1020197030409 A KR1020197030409 A KR 1020197030409A KR 20197030409 A KR20197030409 A KR 20197030409A KR 20190139872 A KR20190139872 A KR 20190139872A
Authority
KR
South Korea
Prior art keywords
band
signal
channel
gain
low
Prior art date
Application number
KR1020197030409A
Other languages
English (en)
Other versions
KR102308966B1 (ko
Inventor
벤카타 수브라마니암 찬드라 세카르 체비얌
벤카트라만 아티
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20190139872A publication Critical patent/KR20190139872A/ko
Application granted granted Critical
Publication of KR102308966B1 publication Critical patent/KR102308966B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmitters (AREA)
  • Stereophonic System (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

디바이스는 제 1 오디오 신호 및 제 2 오디오 신호를 수신하고, 중간 신호를 발생시키기 위해 제 1 오디오 신호 및 제 2 오디오 신호에 대해 다운믹스 동작을 수행하고, 중간 신호에 기초하여 저-대역 중간 신호 및 고-대역 중간 신호를 발생시키고, 그리고 저 대역 신호에 대응하는 저 대역 보이싱 값 및 고-대역 중간 신호에 대응하는 이득 값에 적어도 부분적으로 기초하여, 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하도록 구성된 다중-채널 인코더를 포함한다. 다중-채널 인코더는 멀티-소스 플래그에 기초하여 고-대역 중간 여기 신호를 발생시키고 고-대역 중간 여기 신호에 기초하여 비트스트림을 발생시키도록 구성된다. 디바이스는 또한 비트스트림 및 멀티-소스 플래그를 제 2 디바이스로 송신하도록 구성된 송신기를 포함한다.

Description

멀티-소스 환경에서의 비-고조파 음성 검출 및 대역폭 확장
I. 우선권의 주장
본 출원은 "INTER-CHANNEL BANDWIDTH EXTENSION IN A MULTI-SOURCE ENVIRONMENT" 란 발명의 명칭으로 2017년 4월 21일에 출원된, 동일인 소유의 미국 가특허 출원번호 제 62/488,654호, 및 "NON-HARMONIC SPEECH DETECTION AND BANDWIDTH EXTENSION IN A MULTI-SOURCE ENVIRONMENT" 란 발명의 명칭으로 2018년 4월 18일에 출원된, 미국 정규 출원 번호 제 15/956,645호로부터 우선권의 이익을 주장하며, 전술한 출원들 각각의 내용이 본원에서 이들 전체로 참조로 명시적으로 포함된다.
II. 분야
본 개시물은 일반적으로 오디오 신호의 인코딩 또는 오디오 신호의 디코딩에 관한 것이다.
III. 관련 기술의 설명
기술의 진보는 더 작고 더 강력한 컴퓨팅 디바이스들을 초래하였다. 예를 들어, 작고, 가벼우며, 사용자들이 쉽게 휴대하는 모바일 및 스마트폰들, 태블릿들 및 랩탑 컴퓨터들과 같은, 무선 전화기들을 포함한, 다양한 휴대형 개인 컴퓨팅 디바이스들이 현재 존재한다. 이들 디바이스들은 무선 네트워크들을 통해서 보이스 및 데이터 패킷들을 통신할 수 있다. 또, 다수의 이러한 디바이스들은 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 리코더, 및 오디오 파일 플레이어와 같은, 추가적인 기능을 포함한다. 또한, 이러한 디바이스들은 인터넷에 액세스하는데 사용될 수 있는, 웹 브라우저 애플리케이션과 같은, 소프트웨어 애플리케이션들을 포함한, 실행가능한 명령들을 프로세싱할 수 있다. 이와 같이, 이들 디바이스들은 상당한 컴퓨팅 능력들을 포함할 수 있다.
제 1 디바이스는 오디오 신호를 수신하기 위해 하나 이상의 마이크로폰들을 포함하거나 또는 이에 커플링될 수도 있다. 제 1 디바이스는 수신된 오디오 신호를 인코딩하고, 인코딩된 오디오 신호를 제 2 디바이스로 전송한다. 제 2 디바이스는 출력을 발생시키기 위해 하나 이상의 출력 디바이스들 (예컨대, 하나 이상의 스피커들) 을 포함할 수도 있다. 예를 들어, 제 2 디바이스는 인코딩된 오디오 신호를 디코딩하여, 하나 이상의 출력 디바이스들로 제공되는 출력 신호를 발생시킨다.
모노-인코딩 또는 스테레오-인코딩에서, 인코더는 수신된 오디오 신호에 기초하여 저-대역 신호 및 고-대역 신호를 발생시킬 수도 있다. 모노-인코딩 또는 스테레오-인코딩에서, 수신된 오디오 신호는 2 사람이 동시에 대화하는 것과 같은, 다수의 사운드 소스들의 조합일 수도 있다. 예를 들어, 제 1 사운드 소스는 유성음 세그먼트 (예컨대, 문자 "r" 의 사운드) 를 제공할 수도 있으며, 제 2 사운드 소스는 무성음 세그먼트 (예컨대, 사운드 "ssss") 를 제공할 수도 있다. 이러한 시나리오에서, 유성음 세그먼트의 에너지는 저-대역에 집중될 수도 있는 반면, 무성음 세그먼트의 에너지는 고-대역에 집중된다. 따라서, 저-대역은 대다수의 (또는, 모든) 저-대역의 에너지가 제 1 사운드 소스의 유성음 세그먼트로부터 나오기 때문에 고음질이고, 고 고-대역은 대다수의 (또는, 모든) 고-대역의 에너지가 제 2 사운드 소스의 무성음 세그먼트로부터 나오기 때문에 잡음이 심하다.
저-대역 보이싱 파라미터들은 저-대역 신호에 기초하여 발생될 수도 있다. 저-대역 보이싱 파라미터들은 그후 고-대역 여기를 발생시키는데 사용되는 믹싱 인자들 (예컨대, 저-대역 중 잡음이 얼마나 많은지, 저-대역 중 고조파들이 얼마나 많은지, 등을 표시하는 이득 값들) 을 발생시키는데 사용될 수도 있다. 저-대역의 고조파 성질은 저-대역 여기를 고-대역으로 확장함으로써 고-대역으로 외삽된다. 저-대역이 고조파라고 저-대역 보이싱 파라미터들이 표시하면, 고-대역 확장은 또한 고조파일 것이다. 대안적으로, 저-대역이 잡음이 있다고 저-대역 보이싱 파라미터들이 표시하면, 고-대역 확장은 또한 잡음이 있을 것이다. 저-대역 및 고-대역이 상이한 고조파 특성들을 갖는 상황에서, 저 대역 보이싱 인자들은 고 대역의 고조파를 반영하지 (또는, 표시하지) 않을 수도 있다. 따라서, 이 상황에서, 고-대역 여기의 발생을 제어하기 위해 저-대역 보이싱 파라미터들을 이용하는 것은 고-대역을 반영하지 않는다.
모노-디코딩 또는 스테레오-디코딩에서, 디코더는 인코딩된 저-대역 신호 및 인코딩된 고-대역 신호를 수신한다. (인코더에 의해 수신되는 오디오 신호를 반영하는) 출력 신호를 발생시키기 위해, 디코더는 고-대역 여기를 인코더와 유사한 방법으로 발생시킨다. 인코더에 대해 위에서 설명된 문제들과 유사하게, 디코더에서 사용되는 저-대역 보이싱 파라미터들이 고-대역을 반영하지 않으면 (예컨대, 저-대역이 고음질이고 고-대역이 잡음이 많다는 것을 저-대역 보이싱 인자들이 표시할 때), 디코더에서 발생된 고-대역 여기는 인코더에서 고-대역과 일치하지 않을 수도 있으며, 디코더의 출력의 재생 품질이 저하될 수도 있다.
특정의 구현예에서, 디바이스는 오디오 신호를 수신하고, 수신된 오디오 신호에 기초하여 고 대역 신호를 발생시키고, 그리고 고 대역 신호의 고조파 메트릭을 표시하는 플래그의 값을 결정하도록 구성된 인코더를 포함한다. 디바이스는 고 대역 신호의 인코딩된 버전 및 플래그를 제 2 디바이스로 송신하도록 구성된 송신기를 더 포함한다.
다른 특정의 구현예에서, 방법은 인코더에서 오디오 신호를 수신하는 단계; 및 수신된 오디오 신호에 기초하여 고 대역 신호를 발생시키는 단계를 포함한다. 본 방법은 또한 고 대역 신호의 고조파 메트릭을 표시하는 플래그의 값을 결정하는 단계; 및 고 대역 신호의 인코딩된 버전 및 플래그를 인코더로부터 디바이스로 송신하는 단계를 포함한다.
다른 특정의 구현예에서, 비일시적 컴퓨터-판독가능 매체는 제 1 디바이스의 인코더에 의해 실행될 때, 인코더로 하여금, 인코더에서 오디오 신호를 수신하는 단계 및 수신된 오디오 신호에 기초하여 고 대역 신호를 발생시키는 단계를 포함하는 동작들을 수행하게 하는 명령들을 포함한다. 상기 동작들은 또한 고 대역 신호의 고조파 메트릭을 표시하는 플래그의 값을 결정하는 단계; 및 고 대역 신호의 인코딩된 버전 및 플래그를 인코더로부터 디바이스로 송신하는 단계를 포함한다.
다른 특정의 구현예에서, 장치는 오디오 신호를 수신하는 수단; 및 수신된 오디오 신호에 기초하여 고 대역 신호를 발생시키는 수단을 포함한다. 본 장치는 또한 고 대역 신호의 고조파 메트릭을 표시하는 플래그의 값을 결정하는 수단; 및 고 대역 신호의 인코딩된 버전 및 플래그를 디바이스로 송신하는 수단을 포함한다.
다른 특정의 구현예에서, 디바이스는 고-대역 신호의 프레임에 대응하는 이득 프레임 파라미터를 결정하고, 이득 프레임 파라미터를 임계치와 비교하고, 그리고, 이득 프레임 파라미터가 임계치보다 큰 것에 응답하여, 프레임에 대응하고 고 대역 신호의 고조파 메트릭을 표시하는 플래그를 수정하도록 구성된 인코더를 포함한다. 디바이스는 수정된 플래그를 송신하도록 구성된 송신기를 더 포함한다.
다른 특정의 구현예에서, 방법은 고-대역 신호의 프레임에 대응하는 이득 프레임 파라미터를 결정하는 단계; 및 이득 프레임 파라미터를 임계치와 비교하는 단계를 포함한다. 본 방법은 또한 이득 프레임 파라미터가 임계치보다 큰 것에 응답하여, 프레임에 대응하고 고 대역 신호의 고조파 메트릭을 표시하는 플래그를 수정하는 단계를 포함한다. 본 방법은 수정된 플래그를 송신하는 단계를 더 포함한다.
다른 특정의 구현예에서, 비일시적 컴퓨터-판독가능 매체는 제 1 디바이스의 인코더에 의해 실행될 때, 인코더로 하여금, 고-대역 신호의 프레임에 대응하는 이득 프레임 파라미터를 결정하는 단계 및 이득 프레임 파라미터를 임계치와 비교하는 단계를 포함하는 동작들을 수행하게 하는 명령들을 포함한다. 상기 동작들은 또한 이득 프레임 파라미터가 임계치보다 큰 것에 응답하여, 프레임에 대응하고 고 대역 신호의 고조파 메트릭을 표시하는 플래그를 수정하는 단계를 포함한다. 상기 동작들은 수정된 플래그를 송신하는 단계를 더 포함한다.
다른 특정의 구현예에서, 장치는 고-대역 신호의 프레임에 대응하는 이득 프레임 파라미터를 결정하는 수단; 및 이득 프레임 파라미터를 임계치와 비교하는 수단을 포함한다. 상기 장치는 이득 프레임 파라미터가 임계치보다 큰 것에 응답하여 플래그를 수정하는 수단을 더 포함한다. 플래그는 프레임에 대응하며 고 대역 신호의 고조파 메트릭을 표시한다. 상기 장치는 또한 수정된 플래그를 송신하는 수단을 포함한다.
다른 특정의 구현예에서, 디바이스는 적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하도록 구성된 다중-채널 인코더를 포함한다. 다중-채널 인코더는 중간 신호를 발생시키기 위해 제 1 오디오 신호 및 제 2 오디오 신호에 대해 다운믹스 동작을 수행하도록 구성된다. 다중-채널 인코더는 중간 신호에 기초하여 저-대역 중간 신호 및 고-대역 중간 신호를 발생시키도록 구성된다. 저-대역 중간 신호는 중간 신호의 저 주파수 부분에 대응하며, 고-대역 중간 신호는 중간 신호의 고 주파수 부분에 대응한다. 다중-채널 인코더는 저-대역 중간 신호 및 고-대역 중간 신호에 대응하는 이득 값에 대응하는 보이싱 값에 적어도 부분적으로 기초하여, 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하도록 구성된다. 다중-채널 인코더는 멀티-소스 플래그에 적어도 부분적으로 기초하여 고-대역 중간 여기 신호를 발생시키도록 구성된다. 인코더는 고-대역 중간 여기 신호에 적어도 부분적으로 기초하여 비트스트림을 발생시키도록 추가로 구성된다. 디바이스는 비트스트림 및 멀티-소스 플래그를 제 2 디바이스로 송신하도록 구성된 송신기를 더 포함한다.
다른 특정의 구현예에서, 방법은 다중-채널 인코더에서 적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하는 단계를 포함한다. 본 방법은 중간 신호를 발생시키기 위해 제 1 오디오 신호 및 제 2 오디오 신호에 대해 다운믹스 동작을 수행하는 단계를 포함한다. 본 방법은 중간 신호에 기초하여 저-대역 중간 신호 및 고-대역 중간 신호를 발생시키는 단계를 포함한다. 저-대역 중간 신호는 중간 신호의 저 주파수 부분에 대응하며, 고-대역 중간 신호는 중간 신호의 고 주파수 부분에 대응한다. 본 방법은 저-대역 중간 신호 및 고-대역 중간 신호에 대응하는 이득 값에 대응하는 보이싱 값에 적어도 부분적으로 기초하여, 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하는 단계를 포함한다. 본 방법은 멀티-소스 플래그에 적어도 부분적으로 기초하여 고-대역 중간 여기 신호를 발생시키는 단계를 포함한다. 본 방법은 고-대역 중간 여기 신호에 적어도 부분적으로 기초하여 비트스트림을 발생시키는 단계를 포함한다. 본 방법은 비트스트림 및 멀티-소스 플래그를 다중-채널 인코더로부터 디바이스로 송신하는 단계를 더 포함한다.
다른 특정의 구현예에서, 비일시적 컴퓨터-판독가능 매체는 제 1 디바이스의 다중-채널 인코더에 의해 실행될 때, 다중-채널 인코더로 하여금, 다중-채널 인코더에서 적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하는 단계를 포함하는 동작들을 수행하게 하는 명령들을 포함한다. 상기 동작들은 중간 신호를 발생시키기 위해 제 1 오디오 신호 및 제 2 오디오 신호에 대해 다운믹스 동작을 수행하는 단계를 포함한다. 상기 동작들은 중간 신호에 기초하여 저-대역 중간 신호 및 고-대역 중간 신호를 발생시키는 단계를 포함한다. 저-대역 중간 신호는 중간 신호의 저 주파수 부분에 대응하며 고-대역 중간 신호는 중간 신호의 고 주파수 부분에 대응한다. 상기 동작들은 저-대역 중간 신호 및 고-대역 중간 신호에 대응하는 이득 값에 대응하는 보이싱 값에 적어도 부분적으로 기초하여, 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하는 단계를 포함한다. 상기 동작들은 멀티-소스 플래그에 적어도 부분적으로 기초하여 고-대역 중간 여기 신호를 발생시키는 단계를 포함한다. 상기 동작들은 고-대역 중간 여기 신호에 적어도 부분적으로 기초하여 비트스트림을 발생시키는 단계를 포함한다. 상기 동작들은 비트스트림 및 멀티-소스 플래그를 다중-채널 인코더로부터 디바이스로 송신하는 단계를 더 포함한다.
다른 특정의 구현예에서, 장치는 적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하는 수단; 중간 신호를 발생시키기 위해 제 1 오디오 신호 및 제 2 오디오 신호에 대해 다운믹스 동작을 수행하는 수단; 및 중간 신호에 기초하여 저-대역 중간 신호 및 고-대역 중간 신호를 발생시키는 수단을 포함한다. 저-대역 중간 신호는 중간 신호의 저 주파수 부분에 대응하며 고-대역 중간 신호는 중간 신호의 고 주파수 부분에 대응한다. 본 장치는 저 대역 신호 및 고-대역 중간 신호에 대응하는 이득 값에 대응하는 보이싱 값에 적어도 부분적으로 기초하여, 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하는 수단을 포함한다. 본 장치는 멀티-소스 플래그에 적어도 부분적으로 기초하여 고-대역 중간 여기 신호를 발생시키는 수단을 포함한다. 본 장치는 고-대역 중간 여기 신호에 적어도 부분적으로 기초하여 비트스트림을 발생시키는 수단을 포함한다. 본 장치는 또한 비트스트림 및 멀티-소스 플래그를 디바이스로 송신하는 수단을 포함한다.
다른 특정의 구현예에서, 디바이스는 오디오 신호의 인코딩된 버전에 대응하는 비트스트림을 수신하도록 구성된 수신기를 포함한다. 디바이스는 저 대역 여기 신호에 기초하여, 그리고 추가로, 고 대역 신호의 고조파 메트릭을 표시하는 플래그 값에 기초하여, 고 대역 여기 신호를 발생시키도록 구성된 디코더를 더 포함한다. 고 대역 신호는 오디오 신호의 고 대역 부분에 대응한다.
다른 특정의 구현예에서, 방법은 오디오 신호의 인코딩된 버전에 대응하는 비트스트림을 수신하는 단계를 포함한다. 본 방법은 저 대역 여기 신호에 기초하여, 그리고 추가로, 고 대역 신호의 고조파 메트릭을 표시하는 제 1 플래그 값에 기초하여, 고 대역 여기 신호를 발생시키는 단계를 더 포함한다. 고 대역 신호는 오디오 신호의 고 대역 부분에 대응한다.
다른 특정의 구현예에서, 비일시적 컴퓨터-판독가능 매체는 디바이스의 디코더에 의해 실행될 때, 디코더로 하여금, 오디오 신호의 인코딩된 버전에 대응하는 비트스트림을 수신하는 단계를 포함하는 동작들을 수행하게 하는 명령들을 포함한다. 상기 동작들은 또한 저 대역 여기 신호에 기초하여, 그리고 추가로, 고 대역 신호의 고조파 메트릭을 표시하는 제 1 플래그 값에 기초하여, 고 대역 여기 신호를 발생시키는 단계를 포함한다. 고 대역 신호는 오디오 신호의 고 대역 부분에 대응한다.
다른 특정의 구현예에서, 장치는 오디오 신호의 인코딩된 버전에 대응하는 비트스트림을 수신하는 수단을 포함한다. 본 장치는 저 대역 여기 신호에 기초하여, 그리고, 추가로, 고 대역 신호의 고조파 메트릭을 표시하는 제 1 플래그 값에 기초하여, 고 대역 여기 신호를 발생시키는 수단을 더 포함한다. 고 대역 신호는 오디오 신호의 고 대역 부분에 대응한다.
본 개시물의 다른 구현예들, 이점들, 및 특징들은 다음 섹션들을 포함하여, 전체 출원의 검토 후 명백히 알 수 있을 것이다: 도면들의 간단한 설명, 상세한 설명, 및 청구범위를 포함한, 출원서의 검토 후 명백하게 알 수 있을 것이다.
도 1 은 고 대역 신호의 고조파 메트릭을 표시하는 제 1 플래그 값을 결정하도록 동작가능한 인코더 및 고 대역 신호의 고조파 메트릭을 표시하는 제 2 플래그 값을 이용하도록 동작가능한 디코더를 포함하는 시스템의 특정의 예시적인 예의 블록도이다.
도 2a 는 도 1 의 인코더를 예시하는 다이어그램이다.
도 2b 는 중간 채널 대역폭 확장 (BWE) 인코더를 예시하는 다이어그램이다.
도 3a 는 도 1 의 디코더를 예시하는 다이어그램이다.
도 3b 는 중간 채널 BWE 디코더를 예시하는 다이어그램이다.
도 4 는 도 1 의 인코더의 채널간 대역폭 확장 인코더의 제 1 부분을 예시하는 다이어그램이다.
도 5 는 도 1 의 인코더의 채널간 대역폭 확장 인코더의 제 2 부분을 예시하는 다이어그램이다.
도 6 은 도 1 의 채널간 대역폭 확장 디코더를 예시하는 다이어그램이다.
도 7 은 하나 이상의 스펙트럼 맵핑 파라미터들을 추정하는 방법의 특정의 예이다.
도 8 은 하나 이상의 스펙트럼 맵핑 파라미터들을 추출하는 방법의 특정의 예이다.
도 9 는 고 대역 신호의 고조파 메트릭을 표시하는 플래그를 이용하도록 구성된 중간 채널 대역폭 확장 (BWE) 인코더를 예시하는 다이어그램이다.
도 10 은 고 대역 신호의 고조파 메트릭을 표시하는 플래그를 이용하도록 구성된 중간 채널 BWE 디코더를 예시하는 다이어그램이다.
도 11 은 고 대역 신호의 고조파 메트릭을 표시하는 플래그를 이용하도록 구성되는 도 1 의 인코더의 채널간 대역폭 확장 인코더의 제 3 부분을 예시하는 다이어그램이다.
도 12 는 고 대역 신호의 고조파 메트릭을 표시하는 플래그를 이용하도록 구성되는 도 1 의 채널간 대역폭 확장 디코더의 부분을 예시하는 다이어그램이다.
도 13 은 고 대역 신호의 고조파 메트릭을 표시하는 플래그 값을 결정하는 방법의 특정의 예이다.
도 14 는 고 대역 신호의 고조파 메트릭을 표시하는 플래그를 수정하는 방법의 특정의 예이다.
도 15 는 고 대역 신호의 고조파 메트릭을 표시하는 플래그에 적어도 부분적으로 기초하여 고 대역 신호를 발생시키는 방법의 특정의 예이다.
도 16 은 오디오 신호의 고 대역 부분의 고조파 메트릭을 표시하는 플래그를 이용하는 방법이다.
도 17 은 고 대역 신호의 고조파 메트릭을 표시하는 플래그 값을 결정하도록 동작가능한 모바일 디바이스의 특정의 예시적인 예의 블록도이다.
도 18 은 고 대역 신호의 고조파 메트릭을 표시하는 플래그 값을 결정하도록 동작가능한 기지국의 블록도이다.
본 개시물의 특정의 양태들이 도면들을 참조하여 아래에서 설명된다. 이 설명에서, 공통 특징들은 공통 참조 번호들에 의해 지정된다. 본원에서 사용될 때, 여러 전문용어는 단지 특정의 구현예들을 기술하려는 목적을 위해 사용되며 구현예들을 한정하려고 의도되지 않는다. 예를 들어, 단수형들 "한 (a)", "하나 (an)", 및 "그 (the)" 는 문맥에서 달리 분명히 표시하지 않는 한, 복수형들도 또한 포함시키려는 것이다. 또한, 용어들 "포함한다 (comprise)" 및 "포함한다 (comprises)" 는 "구비한다 (include)", "구비한다 (includes)", 또는 "구비하는 (including)" 과 상호교환가능하게 사용될 수도 있음을 알 수 있을 것이다. 추가적으로, 용어 "여기서 (wherein)" 는 "이때 (where)" 와 상호교환가능하게 사용될 수도 있음을 알 수 있을 것이다. 본원에서 사용될 때, "예시적인" 은 예, 구현예, 및/또는 양태를 표시할 수도 있으며, 한정하거나 또는 선호사항 또는 바람직한 구현예를 표시하는 것으로 해석되어서는 안된다. 본원에서 사용될 때, 구조, 컴포넌트, 동작, 등과 같은 엘리먼트를 한정하는데 사용되는 서수의 용어 (예컨대, "제 1", "제 2", "제 3", 등) 는 다른 엘리먼트에 대해서 그 엘리먼트의 임의의 우선순위 또는 순서를 단독으로 표시하기 보다는, 오히려 그 엘리먼트를 (서수의 용어를 사용하지 않는다면) 동일한 이름을 가지는 다른 엘리먼트와 단순히 식별한다. 본원에서 사용될 때, 용어 "세트" 는 하나 이상의 특정의 엘리먼트를 지칭하며, 용어 "복수" 는 다수의 (예컨대, 2개 이상의) 특정의 엘리먼트를 지칭한다.
본 개시물에서, 용어들 예컨대 "결정하는 것", "계산하는 것", "추정하는 것", "시프팅하는 것", "조정하는 것", 등은 하나 이상의 동작들이 수행되는 방법을 설명하기 위해 사용될 수도 있다. 이러한 용어들이 한정하는 것으로 해석되어서는 안되며 다른 기법들이 유사한 동작들을 수행하기 위해 이용될 수도 있다는 점에 유의해야 한다. 추가적으로, 본원에서 인용될 때, "발생시키는 것", "계산하는 것", "추정하는 것", "이용하는 것", "선택하는 것", "액세스하는 것", 및 "결정하는 것" 은 교환가능하게 사용될 수도 있다. 예를 들어, 파라미터 (또는, 신호) 를 "발생시키는 것", "계산하는 것", "추정하는 것", 또는 "결정하는 것" 은 파라미터 (또는, 신호) 를 능동적으로 발생시키거나, 추정하거나, 계산하거나, 또는 결정하는 것을 지칭할 수도 있거나, 또는 예컨대, 다른 컴포넌트 또는 디바이스에 의해 이미 발생된 파라미터 (또는, 신호) 를 이용하거나, 선택하거나, 또는 이에 액세스하는 것을 지칭할 수도 있다.
다수의 오디오 신호들을 인코딩하도록 동작가능한 시스템들 및 디바이스들이 개시된다. 본원에서 추가로 설명되는 바와 같이, 본 개시물은 고-대역에서 신호들을 코딩 (예컨대, 인코딩 또는 디코딩) 하는 것에 관련되는 반면, 저-대역은 고조파 또는 비-고조파일 수도 있다. 예를 들어, 본 시스템들, 디바이스들, 및 방법들은 고-대역 신호의 고조파를 검출하고, 고 대역 신호의 고조파 메트릭 (예컨대, 고조파, 예컨대 고조파의 상대적인 정도) 을 표시하는 플래그의 값을 설정하도록 구성된다. 본 시스템들, 디바이스들, 및 방법들은 플래그를 이용하여, 고 대역 신호들을 발생시키고 플래그를 수정하도록 (예컨대, 플래그의 값을 수정하도록) 추가로 구성될 수도 있다. 예를 들어, 플래그 (또는, 수정된 플래그) 는 하나 이상의 믹싱 파라미터들, 잡음 엔벨로프 파라미터들, 이득 형상 파라미터들, 이득 프레임 파라미터들, 또는 이들의 조합을 결정하는데 사용될 수도 있다. 본원에서 설명되는 시스템들, 디바이스들, 및 방법들은 모노-코딩 (예컨대, 모노-인코딩 또는 모노-디코딩) 에, 그리고, 스테레오/다중-채널 코딩 (예컨대, 스테레오/다중-채널 인코딩, 스테레오/다중-채널 디코딩, 또는 양자) 에 적용가능하다.
디바이스는 다수의 오디오 신호들을 인코딩하도록 구성된 인코더를 포함할 수도 있다. 다수의 오디오 신호들이 다수의 리코딩 디바이스들, 예컨대, 다수의 마이크로폰들을 이용하여, 시간적으로 동시에 캡쳐될 수도 있다. 일부 예들에서, 다수의 오디오 신호들 (또는, 다중-채널 오디오) 은 동시에 또는 상이한 시간들에서 기록되는 여러 오디오 채널들을 멀티플렉싱함으로써 합성적으로 (예컨대, 인공적으로) 발생될 수도 있다. 예시적인 예들로서, 오디오 채널들의 병행 리코딩 또는 멀티플렉싱은 2-채널 구성 (즉, 스테레오: 좌측 및 우측), 5.1 채널 구성 (좌측, 우측, 중앙, 좌측 서라운드, 우측 서라운드, 및 저주파수 강조 (LFE) 채널들), 7.1 채널 구성, 7.1+4 채널 구성, 22.2 채널 구성, 또는 N-채널 구성을 초래할 수도 있다.
원격 화상 회의실들 (또는, 원거리 영상 회의실들) 에서의 오디오 캡쳐 디바이스들은 공간 오디오를 획득하는 다수의 마이크로폰들을 포함할 수도 있다. 공간 오디오는 인코딩되어 송신되는 음성 뿐만 아니라 백그라운드 오디오를 포함할 수도 있다. 주어진 소스 (예컨대, 화자) 로부터의 음성/오디오는, 마이크로폰들이 배열되는 방법 뿐만 아니라, 소스 (예컨대, 화자) 가 마이크로폰들 및 방 치수들에 대해 로케이트되는 위치에 따라서, 다수의 마이크로폰들에 상이한 시간들에서 도달할 수도 있다. 예를 들어, 사운드 소스 (예컨대, 화자) 는 디바이스와 연관된 제 2 마이크로폰 보다 디바이스와 연관된 제 1 마이크로폰에 더 가까울 수도 있다. 따라서, 사운드 소스로부터 방출된 사운드는 제 2 마이크로폰보다 시간적으로 더 빨리 제 1 마이크로폰에 도달할 수도 있다. 디바이스는 제 1 마이크로폰을 통해서 제 1 오디오 신호를 수신할 수도 있으며, 제 2 마이크로폰을 통해서 제 2 오디오 신호를 수신할 수도 있다.
중간-측면 (MS) 코딩 및 파라메트릭 스테레오 (PS) 코딩은 이중-모노 코딩 기법들보다 향상된 효율을 제공할 수도 있는 스테레오 코딩 기법들이다. 이중-모노 코딩에서, 좌측 (L) 채널 (또는, 신호) 및 우측 (R) 채널 (또는, 신호) 은 채널간 상관을 이용함이 없이 독립적으로 코딩된다. MS 코딩은 코딩 전에 좌측 채널 및 우측 채널을 합-채널 및 차이-채널 (예컨대, 측면 채널) 로 변환함으로써, 상관된 L/R 채널-쌍 사이에 리던던시를 감소시킨다. 합 신호 및 차이 신호는 MS 코딩의 모델에 기초하여 파형 코딩되거나 또는 코딩될 수도 있다. 상대적으로 더 많은 비트들이 측면 신호보다 합 신호에 소비된다. PS 코딩은 L/R 신호들을 합 신호 및 측면 파라미터들의 세트로 변환함으로써 각각의 서브밴드에서 리던던시를 감소시킨다. 측면 파라미터들은 채널간 강도 차이 (IID), 채널간 위상 차이 (IPD), 채널간 시간 차이 (ITD), 측면 또는 잔차 예측 이득들, 등을 표시할 수도 있다. 합 신호는 측면 파라미터들과 함께 코딩되어 송신되는 파형이다. 하이브리드 시스템에서, 측면-채널은 (예컨대, 2 킬로헤르츠 (kHz) 미만인) 하부 대역들에서 코딩되며 채널간 위상 보호가 지각적으로 덜 중요한 (예컨대, 2 kHz 이상인) 상부 대역들에서 PS 코딩되는 파형일 수도 있다. 일부 구현예들에서, PS 코딩은 또한 파형 코딩 이전에 채널간 리던던시를 감소시키기 위해 하부 대역들에서 사용될 수도 있다.
MS 코딩 및 PS 코딩은 주파수-도메인에서 또는 서브밴드 도메인에서 이루어질 수도 있다. 일부 예들에서, 좌측 채널 및 우측 채널은 비상관될 수도 있다. 예를 들어, 좌측 채널 및 우측 채널은 비상관된 합성 신호들을 포함할 수도 있다. 좌측 채널 및 우측 채널이 비상관될 때, MS 코딩, PS 코딩, 또는 양자의 코딩 효율은 이중-모노 코딩의 코딩 효율에 근접할 수도 있다.
리코딩 구성에 따라서, 좌측 채널과 우측 채널 사이의 시간 시프트 뿐만 아니라, 에코 및 룸 (객실) 반향과 같은 다른 공간 효과들이 있을 수도 있다. 채널들 사이의 시간 시프트 및 위상 불일치가 보상되지 않으면, 총합 채널 및 차이 채널은 MS 또는 PS 기법들과 연관된 코딩-이득들을 감소시키는 비견할만한 에너지들을 포함할 수도 있다. 코딩-이득들에서의 감소는 시간 (또는, 위상) 시프트의 양에 기초할 수도 있다. 합 신호 및 차이 신호의 비견할만한 에너지들은 채널들이 시간적으로 시프트되지만 고도로 상관되는 어떤 프레임들에서 MS 코딩의 사용을 제한할 수도 있다. 스테레오 코딩에서, 중간 채널 (예컨대, 총합 채널) 및 측면 채널 (예컨대, 차이 채널) 은 다음 수식에 기초하여 발생될 수도 있다:
M= (L+R)/2, S= (L-R)/2, 수식 1
여기서, M 은 중간 채널에 대응하며, S 는 측면 채널에 대응하며, L 은 좌측 채널에 대응하며, R 은 우측 채널에 대응한다.
일부의 경우, 중간 채널 및 측면 채널은 다음 수식에 기초하여 발생될 수도 있다:
M= c(L+R), S= c(L-R), 수식 2
여기서, c 는 주파수 의존적인 복소 값에 대응한다. 수식 1 또는 수식 2 에 기초하여 중간 채널 및 측면 채널을 발생시키는 것은 "다운믹싱하는 것" 으로서 지칭될 수도 있다. 수식 1 또는 수식 2 에 기초하여 중간 채널 및 측면 채널로부터 좌측 채널 및 우측 채널을 발생시키는 역전 프로세스는 "업믹싱하는 것" 으로서 지칭될 수도 있다.
일부의 경우, 중간 채널은 다음과 같은 다른 수식들에 기초할 수도 있다:
M = (L+gDR)/2, 또는 수식 3
M = g1L + g2R 수식 4
여기서, g1 + g2 = 1.0 이며, gD 는 이득 파라미터이다. 다른 예들에서, 다운믹스는 대역들에서 수행될 수도 있으며, 여기서, 중간(b) = c1L(b) + c2R(b) 이며, c1 및 c2 는 복소수들이며, 측면(b) = c3L(b) - c4R(b) 이며, c3 및 c4 는 복소수들이다.
특정의 프레임에 대한 MS 코딩 또는 이중-모노 코딩 사이에 선택하는데 사용되는 애드-혹 접근법은 중간 신호 및 측면 신호를 발생시키는 단계, 중간 신호 및 측면 신호의 에너지들을 계산하는 단계, 및 그 에너지들에 기초하여 MS 코딩을 수행할지 여부를 결정하는 단계를 포함할 수도 있다. 예를 들어, MS 코딩은 측면 신호 및 중간 신호의 에너지들의 비가 임계치 미만이라고 결정하는 것에 응답하여 수행될 수도 있다. 예시하기 위하여, 우측 채널이 적어도 제 1 시간 (예컨대, 약 0.001 초 또는 48 kHz에서 48 개의 샘플들) 만큼 시프트되면, (좌측 신호와 우측 신호의 총합에 대응하는) 중간 신호의 제 1 에너지는 유성음 음성 프레임들에 대한 (좌측 신호와 우측 신호 사이의 차이에 대응하는) 측면 신호의 제 2 에너지에 필적할 수도 있다. 제 1 에너지가 제 2 에너지에 필적할 때, 측면 채널을 인코딩하는데 더 높은 비트수가 사용될 수도 있으며, 이에 의해, 이중-모노 코딩보다 MS 코딩의 코딩 효율을 감소시킬 수도 있다. 따라서, 제 1 에너지가 제 2 에너지에 필적할 때 (예컨대, 제 1 에너지 및 제 2 에너지의 비가 임계치 이상일 때) 이중-모노 코딩이 사용될 수도 있다. 대안 접근법에서, 특정의 프레임에 대한 MS 코딩과 이중-모노 코딩 사이의 결정은 좌측 채널 및 우측 채널의 임계치와 정규화된 교차-상관 값들의 비교에 기초하여 이루어질 수도 있다.
일부 예들에서, 인코더는 제 1 오디오 신호와 제 2 오디오 신호 사이의 시간 오정렬의 양을 표시하는 부정합 값을 결정할 수도 있다. 본원에서 사용될 때, "시간 시프트 값", "시프트 값", 및 "부정합 값" 은 교환가능하게 사용될 수도 있다. 예를 들어, 인코더는 제 2 오디오 신호에 대한 제 1 오디오 신호의 시프트 (예컨대, 시간 불일치) 을 표시하는 시간 시프트 값을 결정할 수도 있다. 시간 불일치 값은 제 1 마이크로폰에서의 제 1 오디오 신호의 수신과 제 2 마이크로폰에서의 제 2 오디오 신호의 수신사이의 시간 지연의 양에 대응할 수도 있다. 더욱이, 인코더는 프레임 단위로, 예컨대, 각각의 20 밀리초 (ms) 음성/오디오 프레임에 기초하여, 시간 불일치 값을 결정할 수도 있다. 예를 들어, 시간 불일치 값은 제 2 오디오 신호의 제 2 프레임이 제 1 오디오 신호의 제 1 프레임에 대해 지연되는 시간의 양에 대응할 수도 있다. 대안적으로, 시간 불일치 값은 제 1 오디오 신호의 제 1 프레임이 제 2 오디오 신호의 제 2 프레임에 대해 지연되는 시간의 양에 대응할 수도 있다.
사운드 소스가 제 2 마이크로폰보다 제 1 마이크로폰에 더 가까울 때, 제 2 오디오 신호의 프레임들은 제 1 오디오 신호의 프레임들에 대해 지연될 수도 있다. 이 경우, 제 1 오디오 신호는 "참조 오디오 신호" 또는 "참조 채널" 로서 지칭될 수도 있으며, 지연된 제 2 오디오 신호는 "목표 오디오 신호" 또는 "목표 채널" 로서 지칭될 수도 있다. 대안적으로, 사운드 소스가 제 1 마이크로폰 보다 제 2 마이크로폰에 더 가까울 때, 제 1 오디오 신호의 프레임들은 제 2 오디오 신호의 프레임들에 대해 지연될 수도 있다. 이 경우, 제 2 오디오 신호는 참조 오디오 신호 또는 참조 채널로서 지칭될 수도 있으며, 지연된 제 1 오디오 신호는 목표 오디오 신호 또는 목표 채널로서 지칭될 수도 있다.
사운드 소스들 (예컨대, 화자들) 이 회의 또는 원거리 영상회의 실에 로케이트되는 위치 또는 사운드 소스 (예컨대, 화자) 위치가 마이크로폰들에 대해 어떻게 변하는지에 따라서, 참조 채널 및 목표 채널은 프레임 마다 변할 수도 있으며; 유사하게, 시간 지연 값이 또한 프레임 마다 변할 수도 있다. 그러나, 일부 구현예들에서, 시간 불일치 값은 "참조" 채널에 대한 "목표" 채널의 지연의 양을 표시하기 위해 항상 양일 수도 있다. 더욱이, 시간 불일치 값은 목표 채널이 "참조" 채널과 정렬되도록 (예컨대, 최대로 정렬되도록) 그 지연된 목표 채널이 시간적으로 "풀 백 (pull back) 되는" "비-인과적 시프트" 값에 대응할 수도 있다. 중간 채널 및 측면 채널을 결정하는 다운믹스 알고리즘은 참조 채널 및 비-인과적 시프트된 목표 채널에 대해 수행될 수도 있다.
인코더는 참조 오디오 채널 및 목표 오디오 채널에 적용된 복수의 시간 불일치 값들에 기초하여 시간 불일치 값을 결정할 수도 있다. 예를 들어, 참조 오디오 채널의 제 1 프레임, X 는, 제 1 시간 (m1) 에서 수신될 수도 있다. 목표 오디오 채널의 제 1 특정의 프레임, Y 는, 제 1 시간 불일치 값, 예컨대, shift1 = n1 - m1 에 대응하는 제 2 시간 (n1) 에서 수신될 수도 있다. 또, 참조 오디오 채널의 제 2 프레임은 제 3 시간 (m2) 에서 수신될 수도 있다. 목표 오디오 채널의 제 2 특정의 프레임은 제 2 시간 불일치 값, 예컨대, shift2 = n2 - m2 에 대응하는 제 4 시간 (n2) 에서 수신될 수도 있다.
디바이스는 프레이밍 또는 버퍼링 알고리즘을 수행하여, 제 1 샘플링 레이트 (예컨대, 32 kHz 샘플링 레이트 (즉, 프레임 당 640 개의 샘플들)) 에서 프레임 (예컨대, 20 ms 샘플들) 을 발생시킬 수도 있다. 인코더는 제 1 오디오 신호의 제 1 프레임 및 제 2 오디오 신호의 제 2 프레임이 디바이스에 동시에 도달한다고 결정하는 것에 응답하여, 시간 불일치 값 (예컨대, shift1) 을 제로 샘플들과 동일한 것으로서 추정할 수도 있다. (예컨대, 제 1 오디오 신호에 대응하는) 좌측 채널 및 (예컨대, 제 2 오디오 신호에 대응하는) 우측 채널은 시간적으로 정렬될 수도 있다. 일부의 경우, 좌측 채널 및 우측 채널은, 심지어 정렬될 때에도, 다양한 이유들 (예컨대, 마이크로폰 교정) 로 인해 에너지가 상이할 수도 있다.
일부 예들에서, 좌측 채널 및 우측 채널은 다양한 이유들로 인해 시간적으로 오정렬될 수도 있다 (예컨대, 화자와 같은, 사운드 소스는 마이크로폰들 중 하나에, 다른 하나 보다 더 가까울 수도 있으며 2개의 마이크로폰들은 임계치 (예컨대, 1-20 센티미터) 거리 보다 크게 떨어져 있을 수도 있다). 마이크로폰들에 대한 사운드 소스의 로케이션은 좌측 채널 및 우측 채널에 상이한 지연들을 도입할 수도 있다. 게다가, 좌측 채널과 우측 채널 사이에, 이득 차이, 에너지 차이, 또는 레벨 차이가 있을 수도 있다.
2개보다 많은 채널들이 있는 일부 예들에서, 참조 채널은 채널들의 레벨들 또는 에너지들에 기초하여 초기에 선택되고, 그후 채널들의 상이한 쌍들, 예컨대, t1(ref, ch2), t2(ref, ch3), t3(ref, ch4), … 사이의 시간 불일치 값들에 기초하여 정제되며, 여기서, ch1 은 초기에 참조 채널이고 t1(.), t2(.), 등은 부정합 값들을 추정하는 함수들이다. 모든 시간 불일치 값들이 양이면, ch1 은 참조 채널로서 취급된다. 부정합 값들 중 임의의 값이 음의 값이면, 참조 채널은 음의 값을 초래한 부정합 값과 연관된 채널로 재구성되며, 상기 프로세스는 참조 채널의 최상의 선택 (즉, 최대 개수의 측면 채널들을 최대로 비상관화하는 것 (decorrelating) 에 기초하여) 이 달성될 때까지 계속된다. 히스테리시스는 참조 채널 선택에서 임의의 갑작스러운 변형들을 극복하기 위해 사용될 수도 있다.
일부 예들에서, 다수의 사운드 소스들 (예컨대, 화자들) 로부터 마이크로폰들에서의 오디오 신호들의 도달 시간은 다수의 화자들이 (예컨대, 중첩 없이) 교대로 대화중일 때 변할 수도 있다. 이러한 경우, 인코더는 참조 채널을 식별하기 위해 화자에 기초하여 시간 불일치 값을 동적으로 조정할 수도 있다. 어떤 다른 예들에서, 다수의 화자들이 동시에 대화할 수도 있으며, 이는 가장 시끄러운 화자인 사람, 마이크로폰에 가장 가까운 사람, 등에 따라서 다양한 시간 불일치 값들을 초래할 수도 있다. 이러한 경우, 참조 및 목표 채널들의 식별은 현재의 프레임에서의 가변 시간 시프트 값들 및 이전 프레임들에서의 추정된 시간 불일치 값들에 기초하거나, 그리고, 제 1 및 제 2 오디오 신호들의 에너지 또는 시간적 전개에 기초할 수도 있다.
일부 예들에서, 제 1 오디오 신호 및 제 2 오디오 신호는 2개의 신호들이 더 적은 (예컨대, 전무한) 상관을 잠재적으로 보일 때에 합성되거나 또는 인공적으로 발생될 수도 있다. 본원에서 설명되는 예들은 예시적이고, 유사한 또는 상이한 상황들에서 제 1 오디오 신호와 제 2 오디오 신호 사이의 관계를 결정할 때에 유익할 수도 있는 것으로 이해되어야 한다.
인코더는 제 1 오디오 신호의 제 1 프레임과 제 2 오디오 신호의 복수의 프레임들의 비교에 기초하여 비교 값들 (예컨대, 차이 값들 또는 교차-상관 값들) 을 발생시킬 수도 있다. 복수의 프레임들의 각각의 프레임은 특정의 시간 불일치 값에 대응할 수도 있다. 인코더는 비교 값들에 기초하여 제 1 추정된 시간 불일치 값을 발생시킬 수도 있다. 예를 들어, 제 1 추정된 시간 불일치 값은 제 1 오디오 신호의 제 1 프레임과 대응하는 제 2 오디오 신호의 제 1 프레임 사이에 더 높은 시간-유사도 (또는, 더 낮은 차이) 를 표시하는 비교 값에 대응할 수도 있다.
인코더는 일련의 추정된 시간 불일치 값들을 다수의 단계들로 정제함으로써, 최종 시간 불일치 값을 결정할 수도 있다. 예를 들어, 인코더는 제 1 오디오 신호 및 제 2 오디오 신호의 스테레오 사전 프로세싱된 및 리샘플링된 버전들로부터 발생된 비교 값들에 기초하여 "임시" 시간 불일치 값을 먼저 추정할 수도 있다. 인코더는 추정된 "임시" 시간 불일치 값에 가장 가까운 시간 불일치 값들과 연관된 보간된 비교 값들을 발생시킬 수도 있다. 인코더는 보간된 비교 값들에 기초하여, 제 2 추정된 "보간된" 시간 불일치 값을 결정할 수도 있다. 예를 들어, 제 2 추정된 "보간된" 시간 불일치 값은 나머지 보간된 비교 값들 및 제 1 추정된 "임시" 시간 불일치 값보다 더 높은 시간-유사도 (또는, 더 낮은 차이) 를 표시하는 특정의 보간된 비교 값에 대응할 수도 있다. 현재의 프레임 (예컨대, 제 1 오디오 신호의 제 1 프레임) 의 제 2 추정된 "보간된" 시간 불일치 값이 이전 프레임 (예컨대, 제 1 프레임에 선행하는 제 1 오디오 신호의 프레임) 의 최종 시간 불일치 값과 상이하면, 현재의 프레임의 "보간된" 시간 불일치 값은 제 1 오디오 신호와 시프트된 제 2 오디오 신호 사이의 시간-유사도를 향상시키기 위해 추가로 "수정된다". 특히, 제 3 추정된 "수정된" 시간 불일치 값은 현재의 프레임의 제 2 추정된 "보간된" 시간 불일치 값 및 이전 프레임의 최종 추정된 시간 불일치 값 주위를 탐색함으로써, 더 정확한 시간-유사도의 측정치에 대응할 수도 있다. 제 3 추정된 "수정된" 시간 불일치 값은 프레임들 사이의 시간 불일치 값에서의 임의의 거짓된 (스퓨리어스) 변화들을 제한함으로써 최종 시간 불일치 값을 추정하도록 추가로 컨디셔닝될 수도 있으며, 본원에서 설명하는 바와 같이 2개의 연속적인 (또는, 연속된) 프레임들에서 음의 시간 불일치 값을 양의 시간 불일치 값으로 (또는, 반대의 경우도 마찬가지이다) 스위칭하지 않도록 추가로 제어된다.
일부 예들에서, 인코더는 연속된 프레임들에서 또는 인접 프레임들에서 양의 시간 불일치 값과 음의 시간 불일치 값 사이에 또는 그 반대로도 스위칭하는 것을 억제할 수도 있다. 예를 들어, 인코더는 제 1 프레임의 추정된 "보간된" 또는 "수정된" 시간 불일치 값, 및 제 1 프레임에 선행하는 특정의 프레임에서의 대응하는 추정된 "보간된" 또는 "수정된" 또는 최종 시간 불일치 값에 기초하여, 최종 시간 불일치 값을, 시간-시프트 없음을 표시하는 특정의 값 (예컨대, 0) 으로 설정할 수도 있다. 예시하기 위하여, 인코더는 현재의 프레임의 추정된 "임시" 또는 "보간된" 또는 "수정된" 시간 불일치 값 중 하나가 양이고 이전 프레임 (예컨대, 제 1 프레임에 선행하는 프레임) 의 추정된 "임시" 또는 "보간된" 또는 "수정된" 또는 "최종" 추정된 시간 불일치 값 중 다른 하나가 음이라고 결정하는 것에 응답하여, 현재의 프레임 (예컨대, 제 1 프레임) 의 최종 시간 불일치 값을, 시간-시프트 없음, 즉, shift1 = 0 을 표시하도록, 설정할 수도 있다. 대안적으로, 인코더는 또한 현재의 프레임의 추정된 "임시" 또는 "보간된" 또는 "수정된" 시간 불일치 값 중 하나가 음이고 이전 프레임 (예컨대, 제 1 프레임에 선행하는 프레임) 의 추정된 "임시" 또는 "보간된" 또는 "수정된" 또는 "최종" 추정된 시간 불일치 값 중 다른 하나가 양이라고 결정하는 것에 응답하여, 현재의 프레임 (예컨대, 제 1 프레임) 의 최종 시간 불일치 값을, 시간-시프트 없음, 즉, shift1 = 0 을 표시하도록 설정할 수도 있다.
인코더는 시간 불일치 값에 기초하여, 제 1 오디오 신호 또는 제 2 오디오 신호의 프레임을 "참조" 또는 "목표" 로서 선택할 수도 있다. 예를 들어, 최종 시간 불일치 값이 양이라고 결정하는 것에 응답하여, 인코더는 제 1 오디오 신호가 "참조" 신호라는 것 그리고 제 2 오디오 신호가 "목표" 신호라는 것을 표시하는 제 1 값 (예컨대, 0) 을 갖는 참조 채널 또는 신호 표시자를 발생시킬 수도 있다. 대안적으로, 최종 시간 불일치 값이 음이라고 결정하는 것에 응답하여, 인코더는 제 2 오디오 신호가 "참조" 신호라는 것 및 제 1 오디오 신호가 "목표" 신호라는 것을 표시하는 제 2 값 (예컨대, 1) 을 갖는 참조 채널 또는 신호 표시자를 발생시킬 수도 있다.
인코더는 참조 신호 및 비-인과적 시프트된 목표 신호와 연관된 상대 이득 (예컨대, 상대 이득 파라미터) 을 추정할 수도 있다. 예를 들어, 최종 시간 불일치 값이 양이라고 결정하는 것에 응답하여, 인코더는 비-인과적 시간 불일치 값 (예컨대, 최종 시간 불일치 값의 절대값) 만큼 오프셋된 제 2 오디오 신호에 대해 제 1 오디오 신호의 진폭 또는 전력 레벨들을 정규화 또는 등화하기 위해, 이득 값을 추정할 수도 있다. 대안적으로, 최종 시간 불일치 값이 음이라고 결정하는 것에 응답하여, 인코더는 제 2 오디오 신호에 대한 비-인과적 시프트된 제 1 오디오 신호의 전력 또는 진폭 레벨들을 정규화 또는 등화하기 위해, 이득 값을 추정할 수도 있다. 일부 예들에서, 인코더는 비-인과적 시프트된 "목표" 신호에 대한 "참조" 신호의 진폭 또는 전력 레벨들을 정규화 또는 등화하기 위해, 이득 값을 추정할 수도 있다. 다른 예들에서, 인코더는 목표 신호 (예컨대, 비시프트된 목표 신호) 에 대한 참조 신호에 기초하여 이득 값 (예컨대, 상대 이득 값) 을 추정할 수도 있다.
인코더는 참조 신호, 목표 신호, 비-인과적 시간 불일치 값, 및 상대 이득 파라미터에 기초하여, 적어도 하나의 인코딩된 신호 (예컨대, 중간 신호, 측면 신호, 또는 양자) 를 발생시킬 수도 있다. 다른 구현예들에서, 인코더는 참조 채널 및 시간-부정합 조정된 목표 채널에 기초하여 적어도 하나의 인코딩된 신호 (예컨대, 중간 채널, 측면 채널, 또는 양자) 를 발생시킬 수도 있다. 측면 신호는 제 1 오디오 신호의 제 1 프레임의 제 1 샘플들과, 제 2 오디오 신호의 선택된 프레임의 선택된 샘플들 사이의 차이에 대응할 수도 있다. 인코더는 최종 시간 불일치 값에 기초하여, 선택된 프레임을 선택할 수도 있다. 디바이스에 의해 제 1 프레임과 동시에 수신된 제 2 오디오 신호의 프레임에 대응하는 제 2 오디오 신호의 다른 샘플들과 비교하여, 제 1 샘플들과 선택된 샘플들 사이의 감소된 차이 때문에, 측면 채널 신호를 인코딩하는데 더 적은 비트들이 사용될 수도 있다. 디바이스의 송신기는 적어도 하나의 인코딩된 신호, 비-인과적 시간 불일치 값, 상대 이득 파라미터, 참조 채널 또는 신호 표시자, 또는 이들의 조합을 송신할 수도 있다.
인코더는 참조 신호, 목표 신호, 비-인과적 시간 불일치 값, 상대 이득 파라미터, 제 1 오디오 신호의 특정의 프레임의 저 대역 파라미터들, 특정의 프레임의 고 대역 파라미터들, 또는 이들의 조합에 기초하여, 적어도 하나의 인코딩된 신호 (예컨대, 중간 신호, 측면 신호, 또는 양자) 를 발생시킬 수도 있다. 특정의 프레임은 제 1 프레임보다 선행할 수도 있다. 하나 이상의 선행하는 프레임들로부터의, 어떤 저 대역 파라미터들, 고 대역 파라미터들, 또는 이들의 조합이 제 1 프레임의, 중간 신호, 측면 신호, 또는 양자를 인코딩하는데 사용될 수도 있다. 저 대역 파라미터들, 고 대역 파라미터들, 또는 이들의 조합에 기초하여, 중간 신호, 측면 신호, 또는 양자를 인코딩하는 것은 비-인과적 시간 불일치 값 및 채널간 상대 이득 파라미터의 추정들을 향상시킬 수도 있다. 저 대역 파라미터들, 고 대역 파라미터들, 또는 이들의 조합은 피치 파라미터, 보이싱 파라미터, 코더 유형 파라미터, 저-대역 에너지 파라미터, 고-대역 에너지 파라미터, 엔벨로프 파라미터 (예컨대, 기울기 파라미터), 피치 이득 파라미터, FCB 이득 파라미터, 코딩 모드 파라미터, 보이스 활성도 파라미터, 잡음 추정 파라미터, 신호-대-잡음비 파라미터, 포르만츠 파라미터, 음성/음악 결정 파라미터, 비-인과적 시프트, 채널간 이득 파라미터, 또는 이들의 조합을 포함할 수도 있다. 디바이스의 송신기는 적어도 하나의 인코딩된 신호, 비-인과적 시간 불일치 값, 상대 이득 파라미터, 참조 채널 (또는, 신호) 표시자, 또는 이들의 조합을 송신할 수도 있다. 본 개시물에서, 용어들 예컨대, "결정하는 것", "계산하는 것", "추정하는 것", "시프팅하는 것", "조정하는 것", 등은 하나 이상의 동작들이 수행되는 방법을 설명하기 위해 사용될 수도 있다. 이러한 용어들이 한정하는 것으로 해석되어서는 안되며 다른 기법들이 유사한 동작들을 수행하기 위해 이용될 수도 있다는 점에 유의해야 한다.
일부 구현예들에서, 인코더는 채널들의 스테레오 쌍을 중간/측면 채널 쌍으로 변환하도록 구성된 다운-믹서를 포함한다. 저-대역 중간 채널 (중간 채널의 저-대역 부분) 및 저-대역 측면 채널은 저-대역 인코더에 제공된다. 저-대역 인코더는 저-대역 비트 스트림을 발생시키도록 구성된다. 추가적으로, 저-대역 인코더는 저-대역 파라미터들, 예컨대 저-대역 여기, 저-대역 보이싱 파라미터(들), 등을 발생시키도록 구성된다. 저-대역 여기 및 고-대역 중간 채널 (중간 채널의 고-대역 부분) 은 BWE 인코더에 제공된다. BWE 인코더는 고-대역 중간 채널 비트스트림 및 고-대역 파라미터들 (예컨대, LPC, 이득 프레임, 이득 시프트, 등) 을 발생시킨다.
인코더, 예컨대 BWE 인코더는, 고-대역 신호, 예컨대 고-대역 중간 신호의 고조파를 표시하는 플래그 값을 결정하도록 구성된다. 예를 들어, 플래그 값은 고-대역 신호의 고조파 메트릭을 표시할 수도 있다. 예시하기 위하여, 플래그 값은 고-대역 신호가 고조파 또는 비-고조파 (예컨대, 잡음)인지 여부를 표시할 수도 있다. 다른 예시적인 예로서, 플래그 값은 고-대역 신호가 강한 고조파, 강한 비-고조파, 또는 (예컨대, 강한 고조파와 강한 비-고조파 사이의) 약한 고조파인지 여부를 표시할 수도 있다.
플래그 값은 하나 이상의 저-대역 파라미터들, 하나 이상의 고-대역 파라미터들, 또는 이들의 조합에 기초하여 결정될 수도 있다. 하나 이상의 저-대역 파라미터들 및 하나 이상의 고-대역 파라미터들은 현재의 프레임 또는 이전 프레임에 대응할 수도 있다. 예를 들어, 인코더는 저 대역 (LB) 및 고 대역 (HB) 파라미터들에 기초하여, HB 가 비-고조파인지 여부를 표시하는 비-고조파 HB 플래그를 결정할 수도 있다. 플래그 값을 결정하는데 사용될 수도 있는 파라미터들의 예들은 고-대역 장기 에너지, 고-대역 단기 에너지, 고-대역 단기 에너지 및 고-대역 장기 에너지에 기초한 비, 이전 프레임의 고-대역 이득 프레임, 현재의 프레임의 고-대역 이득 프레임, 저-대역 보이싱 파라미터들, 또는 이들의 조합을 포함한다. 추가적으로 또는 대안적으로, 인코더 (또는, 디코더) 에 이용가능한 다른 파라미터들이 플래그 값 (고-대역 신호의 고조파) 을 결정하기 위해 사용될 수도 있다. 특정의 구현예에서, (현재의 프레임에 대한) 플래그의 값은 (현재의 프레임의) 저 대역 보이싱, 이전 프레임의 이득 프레임, 및 (현재의 프레임의) 고-대역 중간 채널에 기초하여 결정된다.
하나 이상의 저-대역 파라미터들, 하나 이상의 고-대역 파라미터들, 하나 이상의 다른 파라미터들, 또는 이들의 조합에 기초하여, 고-대역이 고조파인지 (또는, 비 고조파인지) 여부의 추정 또는 예측이 이루어진다. 하나 이상의 기법들이 플래그의 값을 결정하기 위해 (예컨대, 고조파 메트릭을 결정하기 위해) 사용될 수도 있다. 일부 기법들은 다음을 포함할 수도 있다: (더 평활된 결정들을 위한 일부 평활화/히스테리시스에 의하거나 의하지 않는) If-else 로직 (의사결정 트리들), (예컨대, HB 고조파의 정도 및 HB 비-고조파의 정도와 같은 GMM 에 의해 제공되는 척도들에 기초한) 가우시안 믹싱 모델 (GMM), 다른 분류 툴들 (예컨대, 지원 벡터 머신들, 신경망들, 등), 또는 이들의 조합.
예시적인 예로서, 플래그의 값을 결정하기 위해, 미리 결정된 GMM 은 고-대역 신호가 고조파 및 비 고조파인지 여부의 확률들을 결정하기 위해 사용될 수도 있다. 예를 들어, 고-대역이 고조파일 제 1 우도가 결정될 수도 있다. 대안적으로, 고-대역이 비 고조파일 제 2 우도가 결정될 수도 있다. 일부 구현예들에서, 제 1 우도 및 제 2 우도 양자가 결정된다. 플래그가 2개의 값들 (예컨대, 고조파를 표시하는 제 1 값 및 비 고조파를 표시하는 제 2 값) 중 하나를 가질 수 있는 구현예들에서, (고-대역이 고조파일) 제 1 우도는 제 1 임계치와 비교될 수도 있다. 제 1 우도가 제 1 임계치 이상이면, 플래그는 고-대역 신호가 고조파임을 표시하고; 그렇지 않으면, 플래그의 값은 고-대역 신호가 비 고조파임을 표시한다. 대안적으로, (고-대역이 비 고조파일) 제 2 우도는 제 2 임계치와 비교될 수도 있다. 제 2 우도가 제 2 임계치 이상이면, 플래그는 고-대역 신호가 비 고조파임을 표시하고; 그렇지 않으면, 플래그의 값은 고-대역 신호가 고조파임을 표시한다. 다른 구현예에서, 플래그의 값은 제 1 우도 및 제 2 우도 중 더 큰 것에 대응하도록 설정될 수도 있다.
플래그가 2개보다 많은 값들 (예컨대, 고조파를 표시하는 제 1 값, 비 고조파를 표시하는 제 2 값, 및 지배적 고조파도 지배적 비 고조파도 표시하지 않는 제 3 값) 을 가질 수 있는 구현예들에서, 제 1 우도가 제 1 임계치 미만이고 제 2 우도가 제 2 임계치 미만이면, 플래그는 제 3 값으로 설정된다. 추가적인 임계치들이 추가적인 고조파 메트릭들에 대응하는 플래그의 추가적인 값들을 결정하기 위해 제 1 우도 또는 제 2 우도에 적용될 수도 있다. 플래그, 플래그의 값, 및 플래그의 값이 인코딩 또는 디코딩 동작들에 어떻게 영향을 미칠 수 있는지의 추가적인 예들이 본원에서 추가로 설명된다.
TD-BWE 인코딩 프로세스에서, 저 대역 여기는 고조파 고-대역 여기를 발생시키기 위해 비선형으로 확장된다 (예컨대, 비-선형성 함수를 적용한다). 고조파 고-대역 여기는 아래에서 추가로 설명되는 바와 같이, 고 대역 여기를 결정하기 위해 사용될 수 있다. 하나 이상의 고-대역 파라미터들이 고 대역 여기에 기초하여 결정될 수도 있다.
고 대역 여기를 발생시키기 위해, 엔벨로프 변조된 잡음이 고 대역 여기의 잡음 성분을 발생시키기 위해 사용된다. 엔벨로프는 고조파 고-대역 여기로부터 (예컨대, 기초하여) 추출된다. 엔벨로프 변조는 고조파 고-대역 여기의 절대값들에 저역 통과 필터를 적용함으로써 수행된다. 예시하기 위하여, 잡음 엔벨로프 변조기는 고조파 고 대역 여기로부터 엔벨로프를 추출하고, 잡음 엔벨로프 변조기에 의해 출력된 변조된 잡음이 고 대역 여기와 유사한 시간 엔벨로프를 갖도록, 그 엔벨로프를 (무작위 잡음 발생기로부터의) 무작위 잡음에 적용할 수도 있다.
(고조파 메트릭을 표시하는) 플래그가 (변조된 잡음을 발생시키기 위해) 잡음 엔벨로프 변조기에 의해 무작위 잡음에 적용될 잡음 엔벨로프를 추정하는 잡음 엔벨로프 추정 프로세스를 제어하기 위해 사용된다. 예시하기 위하여, 잡음 엔벨로프 제어 파라미터들은 고조파 고 대역 여기 상에서 수행될 저역 통과 필터링을 위한 필터 계수들을 포함할 수도 있다. 예시하기 위하여, 고-대역이 고조파임을 플래그가 표시하면, 잡음 엔벨로프 제어 파라미터들은 무작위 잡음에 적용될 엔벨로프가 느리게 변하는 엔벨로프이어야 함을 표시한다 (예컨대, 잡음 엔벨로프 변조기는 잡음 엔벨로프가 큰 해상도를 갖도록 큰 길이의 샘플들을 사용할 수 있다). 다른 예로서, 고-대역이 비 고조파임을 플래그가 표시하면, 잡음 엔벨로프 제어 파라미터들은 무작위 잡음에 적용될 엔벨로프가 빠르게-변하는 엔벨로프이어야 함을 표시한다 (예컨대, 잡음 엔벨로프 변조기는 잡음 엔벨로프가 미세 해상도를 갖도록 작은 길이의 샘플들을 사용할 수 있다).
추가적으로, 고조파 고-대역 여기 및 변조된 잡음에 각각 적용될, 믹싱 파라미터들 (예컨대, 이득 값들, 예컨대 이득1 (Gain1) (인코더) 및 이득2 (Gain2) (인코더)) 은 플래그 및 저 대역 보이스 인자들에 기초하여 결정될 수도 있다. 달리 말하면, 믹싱 파라미터들은 고조파 고-대역 여기 및 고 대역 여기를 발생시키기 위해 결합될 변조된 잡음의 비율들을 표시한다. 일부 구현예들에서, 이득1 + 이득2 = 1 이다. 이득1 은 고조파 고-대역 여기에 적용될 수도 있으며, 이득2 는 변조된 잡음에 적용될 수도 있다. 이득 조정된 고조파 고-대역 여기 및 이득 조정된 변조된 잡음은 고 대역 여기를 발생시키기 위해 결합될 (예컨대, 합산될) 수도 있다.
예시하기 위하여, 고 대역이 비 고조파 (예컨대, 강한 비 고조파) 임을 플래그가 표시하면, 이득2 는 이득1 보다 크다. 일부 구현예들에서, 고 대역이 비 고조파 (예컨대, 강한 비 고조파) 임을 플래그가 표시하면, 이득2 는 1 로 설정되고 이득1 은 제로로 설정된다. 따라서, 고 대역이 비 고조파 (예컨대, 강한 비 고조파) 임을 플래그가 표시하면, 고-대역 여기는 잡음 고 대역을 반영하여야 한다.
고 대역이 고조파 (예컨대, 강한 고조파) 임을 플래그가 표시하면, 이득1 은 이득2 보다 클 수도 있다. 일부 구현예들에서, 고 대역이 고조파 (예컨대, 강한 고조파) 임을 플래그가 표시하면, 이득1 은 1 로 설정되고 이득2 는 제로로 설정된다. 따라서, 고 대역이 고조파 (예컨대, 강한 고조파) 임을 플래그가 표시하면, 고-대역 여기는 고조파 고 대역을 반영하여야 한다.
고 대역이 강한 고조파가 아니고 강한 비 고조파가 아님을 플래그가 표시하면, 이득1 은 제 1 값으로 설정될 수도 있으며 이득2 는 제 2 값으로 설정될 수도 있다. 일부 예들에서, 이득1 은 이득2 이상일 수도 있다. 다른 예들에서, 이득1 은 이득 2 이하일 수도 있다. 이득1 의 값 및 이득2 의 값은 저 대역 보이스 인자들에 기초하여 결정될 수도 있다.
고-대역 여기가 발생된 후, 하나 이상의 파라미터들이 결정된다. 예를 들어, 고 대역 이득 형상들 및 고-대역 이득 프레임들은 고-대역 여기에 적어도 부분적으로 기초하여 결정될 수도 있다.
플래그의 값의 추정이 이득 프레임 (예컨대, 이전 프레임의 이득 프레임) 에 기초하지만, 현재의 프레임의 이득 프레임이 고-대역 여기가 발생된 (그리고 여기가 플래그에 기초한다) 후에 추정되기 때문에, 플래그와 고-대역 이득 프레임 사이에 주기적 의존성이 있을 수도 있다. 고 대역 이득 프레임이 결정되면, (현재의 프레임에 대한) 플래그의 값은 수정된 플래그를 발생시키기 위해 수정될 수 있다. 예를 들어, (현재의 프레임의) 고-대역 이득 프레임이 임계치보다 크면, 따라서 고 대역에 비-고조파 콘텐츠가 있다고 표시하면, 플래그는 고-대역이 비-고조파 (예컨대, 강한 비-고조파) 임을 표시하기 위해 수정될 수도 있다.
상기 변형은 옵션적이며, 수행되지 않을 수도 있다. 추가적으로, 또는 대안적으로, 플래그의 변형은 사전-양자화된 고-대역 이득 프레임, 양자화된 고-대역 이득 프레임, 양자화된 또는 비양자화된 고-대역 이득 형상, 또는 이들의 조합에 기초할 수도 있다. 수정된 플래그는 디코더로 송신될 수도 있다. 플래그의 변형이 옵션적인 구현예들에서, 비수정된 플래그는 디코더로 송신되고 디코더는 플래그의 수정 버전을 발생시킬 수도 있다.
일부 구현예들에서, 플래그 (또는, 수정된 플래그) 가 디코더로 송신될 채널간 관계들을 코딩하기 위해 사용될 수도 있다. 예를 들어, 플래그 (또는, 수정된 플래그) 는 ICBWE 비-참조 채널 여기의 발생과 연관된 믹싱 값들 (예컨대, 이득들) 을 결정하기 위해 사용될 수도 있다.
디코더는 플래그 (또는, 수정된 플래그) 를 수신할 수도 있다. 디코더가 플래그를 수신하는 (그리고 수정된 플래그를 수신하지 않는) 구현예들에서, 디코더는 플래그에 기초하여 수정된 플래그를 발생시킬 수도 있다. 일부 구현예들에서, 디코더는 플래그 또는 수정된 플래그를 수신하지 않으며, 비한정적인, 예시적인 예들로서, 인코더와 관련하여 위에서 설명된 (그리고 디코더에 이용가능한) 파라미터들, 프론트 엔드 스테레오 장면 분석 결과들, 다운믹스 파라미터들, 다른 파라미터들, 또는 이들의 조합과 같은, 하나 이상의 파라미터들에 기초하여, 수정된 플래그를 발생시키도록 구성된다.
(인코더에 의해 수신되는 오디오 신호를 반영하는) 출력 신호를 발생시키기 위해, 디코더는 고-대역 여기를 인코더와 유사한 방법으로 발생시킨다. 예시하기 위하여, 수신된 수정된 플래그에 기초하여, 디코더는 고-대역 여기를 발생시키기 위해 결합되는 이득 조정된 변조된 잡음 및 이득 조정된 고조파 고-대역 여기를 발생시킨다. 발생된 여기에 기초하여, 이득 프레임 및 이득 형상들의 디코더 값들 및 다른 파라미터들이 발생된다. 인코더 및 디코더에서 사용되는 플래그가 특정의 프레임에 대해 값이 상이할 수도 있기 때문에, 고-대역 이득 프레임 및 고-대역 이득 형상들이 인코더에서 추정되는 것에 기초한 고-대역 여기가 이 값들이 디코더에서 적용되는 여기와 상이할 수도 있다는 점에 유의한다.
일부 구현예들에서, 플래그 (또는, 수정된 플래그) 는 디코더에서 채널간 관계들을 코딩하기 위해 사용될 수도 있다. 예를 들어, 플래그 (또는, 수정된 플래그) 는 ICBWE 비-참조 채널 여기의 발생과 연관된 믹싱 값들 (예컨대, 이득들) 을 결정하기 위해 사용될 수도 있다.
인코더 또는 디코더에서 고-대역 여기를 발생시키기 위해 플래그 (또는, 수정된 플래그) 를 이용함으로써, 고-대역의 고조파를 반영하지 않는 저-대역 보이싱 파라미터들과 연관된 문제들 (예컨대, 저-대역이 고음질이고 고-대역이 잡음이 많음을 저-대역 보이싱 인자들이 표시할 때) 이 감소되거나 또는 제거될 수도 있다. 예를 들어, 디코더에서 플래그를 이용하여 발생되는 고-대역 여기는 인코더에서 고-대역과 더 잘 일치할 수도 있으며, 디코더의 출력의 재생 품질이 저하되지 않을 수도 있다.
예시하기 위하여, 모노-인코딩 또는 스테레오-인코딩에서, 인코더는 수신된 오디오 신호에 기초하여 저-대역 신호 및 고-대역 신호를 발생시킬 수도 있다. 모노-인코딩 또는 스테레오-인코딩에서, 수신된 오디오 신호는 2 사람이 동시에 대화하는 것과 같은, 다수의 사운드 소스들의 조합일 수도 있다. 예를 들어, 제 1 사운드 소스는 유성음 세그먼트 (예컨대, 문자 "r" 의 사운드) 를 제공할 수도 있으며, 제 2 사운드 소스는 무성음 세그먼트 (예컨대, 사운드 "ssss") 를 제공할 수도 있다. 이러한 시나리오에서, 유성음 세그먼트의 에너지는 저-대역에 집중될 수도 있는 반면, 무성음 세그먼트의 에너지는 고-대역에 집중된다. 따라서, 저-대역은 대다수의 (또는, 모든) 저-대역의 에너지가 제 1 사운드 소스의 유성음 세그먼트로부터 나오기 때문에 고음질이고, 고 고-대역은 대다수의 (또는, 모든) 고-대역의 에너지가 제 2 사운드 소스의 무성음 세그먼트로부터 나오기 때문에 잡음이 심하다. 저-대역이 잡음이 있고 고-대역이 고조파임을 저-대역 보이싱 파라미터들이 표시하면, 플래그 (또는, 수정된 플래그) 가 인코딩, 디코딩, 또는 양자 동안 사용될 수 있어서, 저-대역 신호의 성질이 고-대역 여기에 부정적인 영향을 미치지 않도록 하여, 고-대역 여기가 고-대역을 반영하지 않다.
도 1 을 참조하면, 시스템의 특정의 실례가 개시되며 일반적으로 100 으로 지시된다. 시스템 (100) 은 네트워크 (120) 를 통해서 제 2 디바이스 (106) 에 통신가능하게 커플링된 제 1 디바이스 (104) 를 포함한다. 네트워크 (120) 는 하나 이상의 무선 네트워크들, 하나 이상의 유선 네트워크들, 또는 이들의 조합을 포함할 수도 있다.
제 1 디바이스 (104) 는 메모리 (153), 인코더 (200), 송신기 (110), 및 하나 이상의 입력 인터페이스들 (112) 을 포함할 수도 있다. 메모리 (153) 는 명령들 (191) 을 포함하는 비일시적 컴퓨터-판독가능 매체일 수도 있다. 명령들 (191) 은 본원에서 설명되는 동작들 중 하나 이상을 수행하기 위해 인코더 (200) 에 의해 실행가능할 수도 있다. 입력 인터페이스들 (112) 의 제 1 입력 인터페이스는 제 1 마이크로폰 (146) 에 커플링될 수도 있다. 입력 인터페이스들 (112) 의 제 2 입력 인터페이스는 제 2 마이크로폰 (148) 에 커플링될 수도 있다. 인코더 (200) 는 채널간 대역폭 확장 (ICBWE) 인코더 (204) 를 포함할 수도 있다. ICBWE 인코더 (204) 는 합성된 비-참조 고-대역 및 비-참조 목표 채널에 기초하여, 하나 이상의 스펙트럼 맵핑 파라미터들을 추정하도록 구성될 수도 있다. ICBWE 인코더 (204) 의 동작들과 연관된 추가적인 세부 사항들은 도 2 및 도 4-5 와 관련하여 설명된다. 제 1 디바이스 (104) 는 또한 도 9 를 참조하여 추가로 설명되는 바와 같이, 플래그 (예컨대, 비 고조파 고-대역 (HB) 플래그 (x) (910)) 또는 수정된 플래그 (예컨대, 수정된 비 고조파 고-대역 (HB) 플래그 (y) (920)) 를 포함할 수도 있다. 일부 구현예들에서, 제 1 디바이스 (104) 는 수정된 플래그 (예컨대, 수정된 비 고조파 HB 플래그 (y) (920)) 를 포함하지 않을 수도 있다.
제 2 디바이스 (106) 는 디코더 (300) 를 포함할 수도 있다. 디코더 (300) 는 ICBWE 디코더 (306) 를 포함할 수도 있다. ICBWE 디코더 (306) 는 수신된 스펙트럼 맵핑 비트스트림으로부터 하나 이상의 스펙트럼 맵핑 파라미터들을 추출하도록 구성될 수도 있다. ICBWE 디코더 (306) 의 동작들과 연관된 추가적인 세부 사항들은 도 3 및 도 6 과 관련하여 설명된다. 제 2 디바이스 (106) 는 제 1 라우드스피커 (142), 제 2 라우드스피커 (144), 또는 양자에 커플링될 수도 있다. 도시되지는 않았지만, 제 2 디바이스 (106) 는 프로세서 (예컨대, 중앙 처리 유닛), 마이크로폰, 수신기, 송신기, 안테나, 메모리, 등과 같은, 다른 컴포넌트들을 포함할 수도 있다. 제 2 디바이스 (106) 는 또한 도 10 을 참조하여 추가로 설명되는 바와 같이, 수정된 플래그 (예컨대, 수정된 비 고조파 HB 플래그 (y) (920)) 를 포함할 수도 있다. 일부 구현예들에서, 제 2 디바이스 (106) 는 추가적으로 또는 대안적으로, 플래그 (예컨대, 비 고조파 HB 플래그 (x) (910)) 를 포함할 수도 있다.
동작 동안, 제 1 디바이스 (104) 는 제 1 마이크로폰 (146) 으로부터 제 1 입력 인터페이스를 통해서 제 1 오디오 채널 (130) (예컨대, 제 1 오디오 신호) 을 수신할 수도 있으며, 제 2 마이크로폰 (148) 으로부터 제 2 입력 인터페이스를 통해서 제 2 오디오 채널 (132) (예컨대, 제 2 오디오 신호) 을 수신할 수도 있다. 제 1 오디오 채널 (130) 은 우측 채널 또는 좌측 채널 중 하나에 대응할 수도 있다. 제 2 오디오 채널 (132) 은 우측 채널 또는 좌측 채널 중 다른 하나에 대응할 수도 있다. 사운드 소스 (152) (예컨대, 사용자, 스피커, 주변 잡음, 악기, 등) 는 제 2 마이크로폰 (148) 보다 제 1 마이크로폰 (146) 에 더 가까울 수도 있다. 따라서, 사운드 소스 (152) 로부터의 오디오 신호가 제 2 마이크로폰 (148) 을 통한 것 보다 더 빠른 시간에 제 1 마이크로폰 (146) 을 통해서 입력 인터페이스들 (112) 에서 수신될 수도 있다. 다수의 마이크로폰들을 통한 다중-채널 신호 획득에서의 이러한 자연스러운 지연은 제 1 오디오 채널 (130) 과 제 2 오디오 채널 (132) 사이에 시간 오정렬을 도입할 수도 있다.
일 구현예에 따르면, 제 1 오디오 채널 (130) 은 "참조 채널" 일 수도 있으며, 제 2 오디오 채널 (132) 은 "목표 채널" 일 수도 있다. 목표 채널은 참조 채널과 실질적으로 정렬하도록 조정될 (예컨대, 시간적으로 시프트될) 수도 있다. 다른 구현예에 따르면, 제 2 오디오 채널 (132) 은 참조 채널일 수도 있으며, 제 1 오디오 채널 (130) 은 목표 채널일 수도 있다. 일 구현예에 따르면, 참조 채널 및 목표 채널은 프레임 단위로 변할 수도 있다. 예를 들어, 제 1 프레임에 대해, 제 1 오디오 채널 (130) 은 참조 채널일 수도 있으며, 제 2 오디오 채널 (132) 은 목표 채널일 수도 있다. 그러나, 제 2 프레임 (예컨대, 후속 프레임) 에 대해, 제 1 오디오 채널 (130) 은 목표 채널일 수도 있으며, 제 2 오디오 채널 (132) 은 참조 채널일 수도 있다. 설명의 용이성을 위해, 아래에서 달리 언급되지 않는 한, 제 1 오디오 채널 (130) 은 참조 채널이고 제 2 오디오 채널 (132) 은 목표 채널이다. 오디오 채널들 (130, 132) 과 관련하여 설명되는 참조 채널이 아래에 설명되는 고-대역 참조 채널 표시자와 독립적일 수도 있다는 점에 유의해야 한다. 예를 들어, 고-대역 참조 채널 표시자는 오디오 채널들 (130, 132) 중 어느 하나의 고-대역이 고-대역 참조 채널임을 표시할 수도 있으며, 고-대역 참조 채널 표시자는 참조 채널과는 동일한 채널 또는 상이한 채널일 수 있는 고-대역 참조 채널을 표시할 수도 있다.
도 2a, 도 4, 및 도 5 와 관련하여 더욱더 자세하게 설명되는 바와 같이, 인코더 (200) 는 다운-믹스 비트스트림 (216), ICBWE 비트스트림 (242), 고-대역 중간 채널 비트스트림 (244), 및 저-대역 비트스트림 (246) 을 발생시킬 수도 있다. 송신기 (110) 는 다운-믹스 비트스트림 (216), ICBWE 비트스트림 (242), 고-대역 중간 채널 비트스트림 (244), 또는 이들의 조합을, 네트워크 (120) 를 통해서, 제 2 디바이스 (106) 로 송신할 수도 있다. 대안적으로, 또는 추가적으로, 송신기 (110) 는 다운-믹스 비트스트림 (216), ICBWE 비트스트림 (242), 고-대역 중간 채널 비트스트림 (244), 또는 이들의 조합을, 추후 추가적인 프로세싱 또는 디코딩을 위해, 네트워크 (120) 의 디바이스 또는 로컬 디바이스에, 저장할 수도 있다.
디코더 (300) 는 다운-믹스 비트스트림 (216), ICBWE 비트스트림 (242), 고-대역 중간 채널 비트스트림 (244), 및 저-대역 비트스트림 (246) 에 기초하여 디코딩 동작들을 수행할 수도 있다. 예를 들어, 디코더 (300) 는 다운-믹스 비트스트림 (216), 저-대역 비트스트림 (246), ICBWE 비트스트림 (242), 및 고-대역 중간 채널 비트스트림 (244) 에 기초하여, 제 1 채널 (예컨대, 제 1 출력 채널 (126)) 및 제 2 채널 (예컨대, 제 2 출력 채널 (128)) 을 발생시킬 수도 있다. 제 2 디바이스 (106) 는 제 1 출력 채널 (126) 을 제 1 라우드스피커 (142) 를 통해서 출력할 수도 있다. 제 2 디바이스 (106) 는 제 2 출력 채널 (128) 을 제 2 라우드스피커 (144) 를 통해서 출력할 수도 있다. 대안적인 예들에서, 제 1 출력 채널 (126) 및 제 2 출력 채널 (128) 은 스테레오 신호 쌍으로서 단일 출력 라우드스피커로 송신될 수도 있다.
아래에서 설명하는 바와 같이, 도 1 의 ICBWE 인코더 (204) 는 스펙트럼 형태의 합성된 비-참조 고-대역 채널의 스펙트럼 형상 (예컨대, 스펙트럼 엔벨로프 또는 스펙트럼 기울기) 이 비-참조 목표 채널의 스펙트럼 형상 (예컨대, 스펙트럼 엔벨로프) 과 실질적으로 유사하도록, 최대-우도 척도, 또는 개방-루프 또는 폐-루프 스펙트럼 왜곡 감소 척도에 기초하여, 스펙트럼 맵핑 파라미터들을 추정할 수도 있다. 스펙트럼 맵핑 파라미터들은 디코더 (300) 로 ICBWE 비트스트림 (242) 으로 송신될 수도 있으며, 감소된 아티팩트들 및 좌측 채널과 우측 채널 사이의 향상된 공간 균형을 갖는 출력 신호들 (126, 128) 을 발생시키기 위해 디코더 (300) 에서 사용될 수도 있다.
일부 구현예들에서, 아래에서 추가로 설명되는 바와 같이, 인코더 (200) 는 제 1 오디오 채널 (130) 과 같은, 오디오 신호를 수신한다. 인코더 (200) 는 수신된 오디오 신호 (예컨대, 제 1 오디오 채널 (130)) 에 기초하여, 고 대역 신호 (미도시) 를 발생시킨다. 인코더 (200) 는 고 대역 신호의 고조파 메트릭을 표시하는 (비 고조파 HB 플래그 (x) (910) 의) 제 1 플래그 값을 결정한다. 인코더 (200) 는 제 1 플래그 값 (예컨대, 비 고조파 HB 플래그 (x) (910)) 에 적어도 부분적으로 기초하여, 고 대역 여기 신호 (미도시) 를 발생시키도록 추가로 구성된다. 고 대역 여기 신호는 이득 형상 파라미터, 이득 프레임 파라미터, 등과 같은, 하나 이상의 파라미터들을 발생시키기 위해 사용될 수도 있다. 인코더 (200) 는 고-대역 중간 채널 비트스트림 (244) 과 같은, 고 대역 신호의 인코딩된 버전을 출력한다.
일부 구현예들에서, 인코더 (200) 는 고-대역 신호의 프레임에 대응하는 이득 프레임 파라미터를 결정할 수도 있으며, 이득 프레임 파라미터를 임계치와 비교할 수도 있다. 이득 프레임 파라미터가 임계치보다 크다는 것에 응답하여, 인코더 (200) 는 수정된 플래그 (예컨대, 수정된 비 고조파 HB 플래그 (y) (920)) 를 발생시키기 위해 플래그 (예컨대, 프레임에 대응하고 고 대역 신호의 고조파 메트릭을 표시하는 비 고조파 HB 플래그 (x) (910)) 를 선택적으로 수정할 수도 있다. 인코더 (200) 는 수정된 플래그 (예컨대, 수정된 비 고조파 HB 플래그 (y) (920)) 를 출력할 수도 있다.
일부 구현예들에서, 디코더 (300) 는 오디오 신호의 인코딩된 버전에 대응하는 비트스트림을 수신할 수도 있다. 예를 들어, 비트스트림은 고-대역 중간 채널 비트스트림 (244), 저-대역 비트스트림 (246), ICBWE 비트스트림 (242), 다운-믹스 비트스트림 (216), 또는 이들의 조합을 포함하거나 또는 이들에 대응할 수도 있다. 디코더 (300) 는 저 대역 여기 신호 (미도시) 에 기초하여, 그리고 추가로 고 대역 신호의 고조파 메트릭을 표시하는 플래그 값 (예컨대, 수정된 비 고조파 HB 플래그 (y) (920)) 에 기초하여, 고 대역 여기 신호 (미도시) 를 발생시킬 수도 있다. 고 대역 신호는 제 1 오디오 채널 (130) 의 고 대역 부분과 같은, 오디오 신호의 고 대역 부분에 대응한다.
도 2a 를 참조하면, 스펙트럼 맵핑 파라미터들을 추정하도록 동작가능한 인코더 (200) 의 특정의 구현예가 도시된다. 인코더 (200) 는 다운-믹서 (202), ICBWE 인코더 (204), 중간 채널 BWE 인코더 (206), 저-대역 인코더 (208), 및 필터뱅크 (290) 를 포함한다.
좌측 채널 (212) 및 우측 채널 (214) 은 다운-믹서 (202) 에 제공될 수도 있다. 일 구현예에 따르면, 좌측 채널 (212) 및 우측 채널 (214) 은 주파수-도메인 채널들 (예컨대, 변환-도메인 채널들) 일 수도 있다. 다른 구현예에 따르면, 좌측 채널 (212) 및 우측 채널 (214) 은 시간-도메인 채널들일 수도 있다. 다운-믹서 (202) 는 다운-믹스 비트스트림 (216), 중간 채널 (222), 및 저-대역 측면 채널 (224) 을 발생시키기 위해 좌측 채널 (212) 및 우측 채널 (214) 을 다운-믹싱하도록 구성될 수도 있다. 저-대역 측면 채널 (224) 이 추정되는 것으로 도시되지만, 다른 대안적인 구현예들에서, 풀 대역폭 측면 채널은 대안적으로 발생 및 인코딩될 수도 있으며 대응하는 비트-스트림은 디코더로 송신될 수도 있다. 다운-믹스 비트스트림 (216) 은 좌측 채널 (212) 및 우측 채널 (214) 에 기초한, 다운-믹스 파라미터들 (예컨대, 시프트 파라미터들, 목표 이득 파라미터들, 참조 채널 표시자, 채널간 레벨 차이들, 채널간 위상 차이들, 등) 을 포함할 수도 있다. 다운-믹스 비트스트림 (216) 은 인코더 (200) 로부터 도 3a 의 디코더 (300) 와 같은 디코더로 송신될 수도 있다.
중간 채널 (222) 은 채널들 (212, 214) 의 전체 주파수 대역을 나타낼 수도 있으며, 저-대역 측면 채널 (224) 은 채널들 (212, 214) 의 저-대역 부분을 나타낼 수도 있다. 비한정적인 예로서, 채널들 (212, 214) 이 초광대역 채널들이면, 중간 채널 (222) 은 채널들 (212, 214) 의 전체 주파수 대역 (20 Hz 내지 16 kHz) 을 나타낼 수도 있으며, 저-대역 측면 채널 (224) 은 채널들 (212, 214) 의 저-대역 부분 (예컨대, 20 Hz 내지 8 kHz 또는 20 Hz 내지 6.4 kHz) 을 나타낼 수도 있다. 중간 채널 (222) 은 필터뱅크 (290) 로 제공될 수도 있으며, 저-대역 측면 채널 (224) 은 저-대역 인코더 (208) 로 제공될 수도 있다.
필터뱅크 (290) 는 중간 채널 (222) 의 고-주파수 성분들 및 저-주파수 성분들을 분리하도록 구성될 수도 있다. 예시하기 위하여, 필터뱅크 (290) 는 고-대역 중간 채널 (292) 을 발생시키기 위해 중간 채널 (222) 의 고-주파수 성분들을 분리할 수도 있으며, 필터뱅크 (290) 는 저-대역 중간 채널 (294) 을 발생시키기 위해 중간 채널 (222) 의 저-주파수 성분들을 분리할 수도 있다. 코딩 모드가 초광대역인 시나리오에서, 고-대역 중간 채널 (292) 은 8 kHz 내지 16 kHz 를 포괄할 수도 있으며, 저-대역 중간 채널 (294) 은 20 Hz 내지 8 kHz 를 포괄할 수도 있다. 본원에서 설명되는 코딩 모드 및 주파수 범위들은 단지 예시적인 목적들을 위한 것이며 한정하는 것으로 해석되어서는 안되는 것으로 이해되어야 한다. 다른 구현예들에서, 코딩 모드는 상이할 수도 있으며 (예컨대, 광대역 코딩 모드, 풀-대역 코딩 모드, 등) 및/또는 주파수 범위들은 상이할 수도 있다. 다른 구현예들에서, 다운-믹서 (202) 는 저-대역 중간 채널 (294) 및 고-대역 중간 채널 (292) 로 직접 제공하도록 구성될 수도 있다. 이러한 구현예들에서, 필터뱅크 (290) 에서의 필터링 동작들은 우회될 수도 있다. 고-대역 중간 채널 (292) 은 중간 채널 BWE 인코더 (206) 로 제공될 수도 있으며, 저-대역 중간 채널 (294) 은 저-대역 인코더 (208) 로 제공될 수도 있다.
저-대역 인코더 (208) 는 저-대역 비트스트림 (246) 을 발생시키기 위해 저-대역 중간 채널 (294) 및 저-대역 측면 채널 (224) 을 인코딩되도록 구성될 수도 있다. 일부 구현예들에서, 저-대역 측면 채널 (224) 의 발생, 저-대역 측면 채널 (224) 의 인코딩을 포함하고 저-대역 비트스트림 (246) 의 부분으로서 저-대역 측면 채널에 대응하는 정보를 포함하는, 다음 단계들 중 하나 이상이 우회될 수도 있다. 일 구현예에 따르면, 저-대역 인코더 (208) 는 저-대역 중간 채널 (294) 을 인코딩함으로써 저-대역 중간 채널 비트스트림을 발생시키도록 구성된 (예컨대, 도시되지 않고 ACELP 또는 TCX 코딩에 기초하는) 중간 채널 저-대역 인코더를 포함할 수도 있다. 저-대역 인코더 (208) 는 또한 저-대역 측면 채널 (224) 을 인코딩함으로써 저-대역 측면 채널 비트스트림을 발생시키도록 구성된 (예컨대, 도시되지 않고 ACELP 또는 TCX 코딩에 기초하는) 측면 채널 저-대역 인코더를 포함할 수도 있다. 저-대역 비트스트림 (246) 은 인코더 (200) 로부터 디코더 (예컨대, 도 3a 의 디코더 (300)) 로 송신될 수도 있다.
저-대역 인코더 (208) 는 또한 중간 채널 BWE 인코더 (206) 로 제공되는 저-대역 여기 (232) 를 발생시킬 수도 있다. 중간 채널 BWE 인코더 (206) 는 고-대역 중간 채널 비트스트림 (244) 을 발생시키기 위해 고-대역 중간 채널 (292) 을 인코딩하도록 구성될 수도 있다. 예를 들어, 중간 채널 BWE 인코더 (206) 는 고-대역 중간 채널 비트스트림 (244) 을 발생시키기 위해 저-대역 여기 (232) 및 고-대역 중간 채널 (292) 에 기초하여 선형 예측 계수들 (LPCs), 이득 형상 파라미터들, 이득 프레임 파라미터들, 등을 추정할 수도 있다. 일 구현예에 따르면, 중간 채널 BWE 인코더 (206) 는 시간 도메인 대역폭 확장을 이용하여 고-대역 중간 채널 (292) 을 인코딩할 수도 있다. 고-대역 중간 채널 비트스트림 (244) 은 인코더 (200) 로부터 디코더 (예컨대, 도 3a 의 디코더 (300)) 로 송신될 수도 있다.
중간 채널 BWE 인코더 (206) 는 하나 이상의 파라미터들 (234) 을 ICBWE 인코더 (204) 로 제공할 수도 있다. 하나 이상의 파라미터들 (234) 은 고조파 고-대역 여기 (예컨대, 도 2b 의 고조파 고-대역 여기 (237)), 변조된 잡음 (예컨대, 도 4 의 변조된 잡음 (482)), 양자화된 이득 형상들, 양자화된 선형 예측 계수들 (LPCs), 양자화된 이득 프레임들, 등을 포함할 수도 있다. 좌측 채널 (212) 및 우측 채널 (214) 은 또한 ICBWE 인코더 (204) 로 제공될 수도 있다. ICBWE 인코더 (204) 는 하나 이상의 파라미터들 (234) 을 채널들 (212, 214) 에 맵핑하는 것을 용이하게 하기 위해 채널들 (212, 214) 과 연관된 이득 맵핑 파라미터들, 채널들 (212, 214) 과 연관된 스펙트럼 형상 맵핑 파라미터들, 등을 추출하도록 구성될 수도 있다. 추출된 파라미터들은 ICBWE 비트스트림 (242) 에 포함될 수도 있다. ICBWE 비트스트림 (242) 은 인코더 (200) 로부터 디코더로 송신될 수도 있다. ICBWE 인코더 (204) 와 연관된 동작들은 도 4 내지 도 5 와 관련하여 좀더 상세히 설명된다. 따라서, 도 2a 의 ICBWE 인코더 (204) 는 스펙트럼 형상 맵핑 파라미터들을 추정하고, 스펙트럼 형상 맵핑 파라미터들을 ICBWE 비트스트림 (242) 으로 양자화하고, ICBWE 비트스트림 (242) 을 디코더로 송신할 수도 있다.
도 2a 의 인코더 (200) 는 2개의 채널들 (212, 214) 을 수신하고 채널들 (212, 214) 의 다운믹스를 수행하여, 중간 채널 (222), 다운-믹스 비트스트림 (216), 및, 일부 구현예들에서, 저-대역 측면 채널 (224) 을 발생시킬 수도 있다. 인코더 (200) 는 저-대역 비트스트림 (246) 을 발생시키기 위해 저-대역 인코더 (208) 를 이용하여 중간 채널 (222) 및 저-대역 측면 채널 (224) 을 인코딩할 수도 있다. 인코더 (200) 는 또한 ICBWE 인코더 (204) 를 이용하여 (디코더에서의) 고-대역 중간 채널로부터 (디코더에서의) 좌측 및 우측 디코딩된 고-대역 채널들을 맵핑하는 방법을 표시하는 맵핑 정보를 발생시킬 수도 있다.
도 2a 의 ICBWE 인코더 (204) 는 스펙트럼 형태의 합성된 비-참조 고-대역 채널의 스펙트럼 엔벨로프가 비-참조 목표 채널의 스펙트럼 엔벨로프와 실질적으로 유사하도록, 최대-우도 척도, 또는 개방-루프 또는 폐-루프 스펙트럼 왜곡 감소 척도에 기초하여, 스펙트럼 맵핑 파라미터들을 추정할 수도 있다. 스펙트럼 맵핑 파라미터들은 디코더 (300) 로 ICBWE 비트스트림 (242) 으로 송신되어, 감소된 아티팩트들을 갖는 출력 신호들을 발생시키기 위해 디코더 (300) 에서 사용될 수도 있다.
본원에서 설명되는 본 개시물의 양태들의 모노 구현예에서, 도 2a 는 다운-믹서 (202), ICBWE 인코더 (204), 및 저-대역 인코더 (208) 의 측면 LB 인코딩 부분을 포함하지 않을 수도 있다. 모노 구현예에서, 단일 입력 채널이 있으며, 저-대역 및 고 대역 분할 인코딩이 수행된다. 저 대역은 ACELP 인코딩을 겪을 수도 있으며, 저-대역 ACELP 로부터의 여기가 고 대역 코딩을 위해 사용될 수도 있다.
도 2b 를 참조하면, 중간 채널 BWE 인코더 (206) 의 특정의 구현예가 도시된다. 중간 채널 BWE 인코더 (206) 는 선형 예측 계수 (LPC) 추정기 (251), LPC 양자화기 (252), 및 LPC 합성 필터 (259) 를 포함한다. 고-대역 중간 채널 (292) 은 LPC 추정기 (251) 로 제공되며, LPC 추정기 (251) 는 고-대역 중간 채널 (292) 에 기초하여 고-대역 LPC들 (271) 을 추정하도록 구성될 수도 있다. 고-대역 LPC들 (271) 은 LPC 양자화기 (252) 로 제공된다. LPC 양자화기 (252) 는 양자화된 고-대역 LPC들 (457) 및 고-대역 LPC 비트스트림 (272) 을 발생시키기 위해 고-대역 LPC들을 양자화하도록 구성될 수도 있다. 양자화된 고-대역 LPC들 (457) 은 LPC 합성 필터 (259) 로 제공되며, 고-대역 LPC 비트스트림은 멀티플렉서 (265) 로 제공된다.
중간 채널 BWE 인코더 (206) 는 또한 비선형 대역폭 확장 (BWE) 발생기 (253), 무작위 잡음 발생기 (254), 승산기 (255), 잡음 엔벨로프 변조기 (256), 합산기 (257), 및 승산기 (258) 를 포함하는 고-대역 여기 발생기 (299) 를 포함한다. 저-대역 인코더 (208) 로부터의 저-대역 여기 (232) 는 비선형 BWE 발생기 (253) 로 제공된다. 비선형 BWE 발생기 (253) 는 고조파 고-대역 여기 (237) 를 발생시키기 위해 저-대역 여기 (232) 에 대해 비선형 확장을 수행할 수도 있다. 고조파 고-대역 여기 (237) 는 하나 이상의 파라미터들 (234) 에 포함될 수도 있다. 고조파 고-대역 여기 (237) 는 승산기 (255) 및 잡음 엔벨로프 변조기 (256) 로 제공된다. 신호 승산기는 이득-조정된 고조파 고-대역 여기 (273) 를 발생시키기 위해 이득 계수 (이득(1) (인코더)) 에 기초하여 고조파 고-대역 여기 (237) 를 조정하도록 구성될 수도 있다. 이득-조정된 고조파 고-대역 여기 (273) 는 합산기 (257) 로 제공된다.
무작위 잡음 발생기 (254) 는 잡음 엔벨로프 변조기 (256) 로 제공되는 잡음 (274) 을 발생시키도록 구성될 수도 있다. 잡음 엔벨로프 변조기 (256) 는 변조된 잡음 (482) 을 발생시키기 위해 고조파 고-대역 여기 (237) 에 기초하여 잡음 (274) 을 변조하도록 구성될 수도 있다. 변조된 잡음 (482) 은 승산기 (258) 로 제공된다. 승산기 (258) 는 이득-조정된 변조된 잡음 (275) 을 발생시키기 위해 이득 계수 (이득(2) (인코더)) 에 기초하여 변조된 잡음 (482) 을 조정하도록 구성될 수도 있다. 이득-조정된 변조된 잡음 (275) 은 합산기 (257) 로 제공되며, 합산기 (257) 는 고-대역 여기 (276) 를 발생시키기 위해 이득-조정된 고조파 고-대역 여기 (273) 및 이득-조정된 변조된 잡음 (275) 에 가산되도록 구성될 수도 있다. 고-대역 여기 (276) 는 LPC 합성 필터 (259) 로 제공된다.
일부 구현예들에서, 이득(1) (인코더) 및 이득(2) (인코더) 이 벡터들일 수도 있으며 벡터의 각각의 값이 서브프레임들에서의 대응하는 신호의 스케일링 인자에 대응한다는 점에 유의해야 한다.
LPC 합성 필터 (259) 는 양자화된 고-대역 LPC들 (457) 을 고-대역 여기 (276) 에 적용하여 합성된 고-대역 중간 채널 (277) 을 발생시키도록 구성될 수도 있다. 합성된 고-대역 중간 채널 (277) 은 고-대역 이득 형상 추정기 (260) 로 그리고 고-대역 이득 형상 스케일러 (262) 로 제공된다. 고-대역 중간 채널 (292) 은 또한 고-대역 이득 형상 추정기 (260) 로 제공된다. 고-대역 이득 형상 추정기 (260) 는 고-대역 중간 채널 (292) 및 합성된 고-대역 중간 채널 (277) 에 기초하여 고-대역 이득 형상 파라미터들 (278) 을 발생시키도록 구성될 수도 있다. 고-대역 이득 형상 파라미터들 (278) 은 고-대역 이득 형상 양자화기 (261) 로 제공된다.
고-대역 이득 형상 양자화기 (261) 는 고-대역 이득 형상 파라미터들 (278) 을 양자화하고 양자화된 고-대역 이득 형상 파라미터들 (279) 을 발생시키도록 구성될 수도 있다. 양자화된 고-대역 이득 형상 파라미터들 (279) 은 고-대역 이득 형상 스케일러 (262) 로 제공된다. 고-대역 이득 형상 양자화기 (261) 는 또한 멀티플렉서 (265) 로 제공되는 고-대역 이득 형상 비트스트림 (280) 을 발생시키도록 구성될 수도 있다.
고-대역 이득 형상 스케일러 (262) 는 양자화된 고-대역 이득 형상 파라미터들 (279) 에 기초하여 합성된 고-대역 중간 채널 (277) 을 스케일링하여 스케일링된 합성된 고-대역 중간 채널 (281) 을 발생시키도록 구성될 수도 있다. 스케일링된 합성된 고-대역 중간 채널 (281) 은 고-대역 이득 프레임 추정기 (263) 로 제공된다. 고-대역 이득 프레임 추정기 (263) 는 스케일링된 합성된 고-대역 중간 채널 (281) 에 기초하여 고-대역 이득 프레임 파라미터들 (282) 을 추정하도록 구성될 수도 있다. 고-대역 이득 프레임 파라미터들 (282) 은 고-대역 이득 프레임 양자화기 (264) 로 제공된다.
고-대역 이득 프레임 양자화기 (264) 는 고-대역 이득 프레임 파라미터들 (282) 을 양자화하여 고-대역 이득 프레임 비트스트림 (283) 을 발생시키도록 구성될 수도 있다. 고-대역 이득 프레임 비트스트림 (283) 은 멀티플렉서 (265) 로 제공된다. 멀티플렉서 (265) 는 고-대역 LPC 비트스트림 (272), 고-대역 이득 형상 비트스트림 (280), 고-대역 이득 프레임 비트스트림 (283), 및 다른 정보를 결합하여 고-대역 중간 채널 비트스트림 (244) 을 발생시키도록 구성될 수도 있다. 일 구현예에 따르면, 다른 정보는 변조된 잡음 (482), 고조파 고-대역 여기 (237), 양자화된 고-대역 LPC들 (457), 등과 연관된 정보를 포함할 수도 있다. 도 4 에 대해 좀더 자세히 설명하는 바와 같이, ICBWE 인코더 (204) 는 신호 프로세싱 동작들을 위해 멀티플렉서 (265) 로 제공되는 정보를 이용할 수도 있다.
도 3a 를 참조하면, 스펙트럼 형상 맵핑을 수행하도록 동작가능한 디코더 (300) 의 특정의 구현예가 도시된다. 디코더 (300) 는 중간 채널 BWE 디코더 (302), 저-대역 디코더 (304), ICBWE 디코더 (306), 저-대역 업-믹서 (308), 신호 결합기 (310), 신호 결합기 (312), 및 채널간 시프터 (314) 를 포함한다.
도 3a 는 스테레오 구현예에서의 디코더 (300) 를 예시한다. 모노 동작의 경우, 업믹스, 시프터, ICBWE 및 중간-측면 LB 디코더의 측면 LB 디코딩 부분은 생략될 수도 있다. 디코더에의 입력은 중간 LB 비트스트림 및 중간 HB 비트스트림이며, LB 디코딩된 중간 신호는 중간 BWE 디코딩된 HB 신호와 믹싱되어 디코딩된 중간 신호를 발생시키며, 이는 디코더로부터 출력된다.
도 3a 에 예시된 바와 같이, 인코더 (200) 로부터 송신된, 저-대역 비트스트림 (246) 은 저-대역 디코더 (304) 로 제공될 수도 있다. 위에서 설명한 바와 같이, 저-대역 비트스트림 (246) 은 저-대역 중간 채널 비트스트림 및 저-대역 측면 채널 비트스트림을 포함할 수도 있다. 저-대역 디코더 (304) 는 저-대역 중간 채널 비트스트림을 디코딩하여 저-대역 업-믹서 (308) 로 제공되는 저-대역 중간 채널 (326) 을 발생시키도록 구성될 수도 있다. 저-대역 디코더 (304) 는 또한 저-대역 측면 채널 비트스트림을 디코딩하여 저-대역 업-믹서 (308) 로 제공되는 저-대역 측면 채널 (328) 을 발생시키도록 구성될 수도 있다. 저-대역 디코더 (304) 는 또한 중간 채널 BWE 디코더 (302) 로 제공되는 저-대역 여기 신호 (325) 를 발생시키도록 구성될 수도 있다.
중간 채널 BWE 디코더 (302) 는 저-대역 여기 신호 (325) 에 기초하여 고-대역 중간 채널 비트스트림 (244) 을 디코딩하여 하나 이상의 파라미터들 (322) (예컨대, 고조파 고-대역 여기, 변조된 잡음, 양자화된 이득 형상들, 양자화된 선형 예측 계수들 (LPCs), 양자화된 이득 프레임들, 등) 및 고-대역 중간 채널 (324) 을 발생시키도록 구성될 수도 있다. 하나 이상의 파라미터들 (322) 은 도 2a 의 하나 이상의 파라미터들 (234) 에 대응할 수도 있다. 일 구현예에 따르면, 중간 채널 BWE 디코더 (302) 는 시간 도메인 대역폭 확장 디코딩을 이용하여 고-대역 중간 채널 비트스트림 (244) 을 디코딩할 수도 있다. 하나 이상의 파라미터들 (322) 및 고-대역 중간 채널 (324) 은 ICBWE 디코더 (306) 로 제공된다.
ICBWE 비트스트림 (242) 은 또한 ICBWE 디코더 (306) 로 제공될 수도 있다. ICBWE 디코더 (306) 는 ICBWE 비트스트림 (242), 하나 이상의 파라미터들 (322), 및 고-대역 중간 채널 (324) 에 기초하여 좌측 고-대역 채널 (330) 및 우측 고-대역 채널 (332) 을 발생시키도록 구성될 수도 있다. 따라서, ICBWE 비트스트림 (242) 및 중간 채널 BWE 디코딩으로부터의 신호들 및 파라미터들에 기초하여, ICBWE 디코더 (306) 는 디코딩된 좌측 고-대역 채널 (330) 및 디코딩된 우측 고-대역 채널 (332) 을 발생시킬 수도 있다. ICBWE 디코더 (306) 와 연관된 동작들은 도 6 과 관련하여 좀더 상세히 설명된다. 좌측 고-대역 채널 (330) 은 신호 결합기 (310) 로 제공되며, 우측 고-대역 채널 (332) 은 신호 결합기 (312) 로 제공된다. 저-대역 업-믹서 (308) 는 다운-믹스 비트스트림 (216) 에 기초하여 저-대역 중간 채널 (326) 및 저-대역 측면 채널 (328) 을 업-믹스하여 좌측 저-대역 채널 (334) 및 우측 저-대역 채널 (336) 을 발생시키도록 구성될 수도 있다. 좌측 저-대역 채널 (334) 은 신호 결합기 (310) 로 제공되며, 우측 저-대역 채널 (336) 은 신호 결합기 (312) 로 제공된다.
신호 결합기 (310) 는 좌측 고-대역 채널 (330) 및 좌측 저-대역 채널 (334) 을 결합하여 비시프트된 좌측 채널 (340) 을 발생시키도록 구성될 수도 있다. 비시프트된 좌측 채널 (340) 은 채널간 시프터 (314) 로 제공된다. 신호 결합기 (312) 는 우측 고-대역 채널 (332) 및 우측 저-대역 채널 (336) 을 결합하여 비시프트된 우측 채널 (342) 을 발생시키도록 구성될 수도 있다. 비시프트된 우측 채널 (342) 은 채널간 시프터 (314) 로 제공된다. 일부 구현예들에서, 채널간 시프터 (314) 와 연관된 동작들이 우회될 수도 있다는 점에 유의해야 한다. 예를 들어, 대응하는 인코더에서의 다운-믹서가 중간 채널 및 측면 채널 발생 전에 채널들 중 임의의 채널을 시프트하도록 구성되지 않으면, 채널간 시프터 (314) 와 연관된 동작들은 우회될 수도 있다. 채널간 시프터 (314) 는 다운-믹스 비트스트림 (216) 과 연관된 시프트 정보에 기초하여 비시프트된 좌측 채널 (340) 을 시프트시켜 좌측 채널 (350) 을 발생시키도록 구성될 수도 있다. 채널간 시프터 (314) 는 또한 다운-믹스 비트스트림 (216) 과 연관된 시프트 정보에 기초하여 비시프트된 우측 채널 (342) 을 시프트시켜 우측 채널 (352) 을 발생시키도록 구성될 수도 있다. 예를 들어, 채널간 시프터 (314) 는 다운-믹스 비트스트림 (216) 으로부터의 시프트 정보를 이용하여, 비시프트된 좌측 채널 (340), 비시프트된 우측 채널 (342), 또는 이들의 조합을 시프트시켜, 좌측 채널 (350) 및 우측 채널 (352) 을 발생시킬 수도 있다. 일 구현예에 따르면, 좌측 채널 (350) 은 좌측 채널 (212) 의 디코딩된 버전이며, 우측 채널 (352) 은 우측 채널 (214) 의 디코딩된 버전이다.
도 3b 를 참조하면, 중간 채널 BWE 디코더 (302) 의 특정의 구현예가 도시된다. 중간 채널 BWE 디코더 (302) 는 LPC 역양자화기 (360), 고-대역 여기 발생기 (362), LPC 합성 필터 (364), 고-대역 이득 형상 역양자화기 (366), 고-대역 이득 형상 스케일러 (368), 고-대역 이득 프레임 역양자화기 (370), 및 고-대역 이득 프레임 스케일러 (372) 를 포함한다.
고-대역 LPC 비트스트림 (272) 은 LPC 역양자화기 (360) 로 제공된다. LPC 역양자화기는 고-대역 LPC 비트스트림 (272) 으로부터 역양자화된 고-대역 LPC들 (640) 을 추출할 수도 있다. 도 6 과 관련하여 설명되는 바와 같이, 역양자화된 고-대역 LPC들 (640) 은 신호 프로세싱 동작들을 위해 ICBWE 디코더 (306) 에 의해 사용될 수도 있다.
저-대역 여기 신호 (325) 는 고-대역 여기 발생기 (362) 로 제공된다. 고-대역 여기 발생기 (362) 는 저-대역 여기 신호 (325) 에 기초하여 고조파 고-대역 여기 (630) 를 발생시킬 수도 있으며 변조된 잡음 (632) 을 발생시킬 수도 있다. 도 6 과 관련하여 설명되는 바와 같이, 고조파 고-대역 여기 (630) 및 변조된 잡음 (632) 은 신호 프로세싱 동작들을 위해 ICBWE 디코더 (306) 에 의해 사용될 수도 있다. 고-대역 여기 발생기 (362) 는 또한 고-대역 여기 (380) 를 발생시킬 수도 있다. 고-대역 여기 발생기 (362) 는 도 2b 의 고-대역 여기 발생기 (299) 와 실질적으로 유사한 방법으로 동작하도록 구성될 수도 있다. 예를 들어, 고-대역 여기 발생기 (362) 는 (고-대역 여기 발생기 (299) 가 저-대역 여기 (232) 에 대해 수행되는 것처럼) 저-대역 여기 신호 (325) 에 대해 유사한 동작들을 수행하여 고-대역 여기 (380) 를 발생시킬 수도 있다. 일 구현예에 따르면, 고-대역 여기 (380) 는 도 2b 의 고-대역 여기 (276) 와 실질적으로 유사할 수도 있다. 고-대역 여기 (380) 는 LPC 합성 필터 (364) 로 제공된다. LPC 합성 필터 (364) 는 역양자화된 고-대역 LPC들 (640) 을 고-대역 여기 (380) 에 적용하여, 합성된 고-대역 중간 채널 (382) 을 발생시킬 수도 있다. 합성된 고-대역 중간 채널 (382) 은 고-대역 이득 형상 스케일러 (368) 로 제공된다.
고-대역 이득 형상 비트스트림 (280) 은 고-대역 이득 형상 역양자화기 (366) 로 제공된다. 고-대역 이득 형상 역양자화기 (366) 는 고-대역 이득 형상 비트스트림 (280) 으로부터 역양자화된 고-대역 이득 형상 (648) 을 추출하도록 구성될 수도 있다. 역양자화된 고-대역 이득 형상 (648) 은 도 6 에 대해 설명하는 바와 같이, 신호 프로세싱 동작들을 위해, 고-대역 이득 형상 스케일러 (368) 로, 그리고, ICBWE 디코더 (306) 로 제공된다. 고-대역 이득 형상 스케일러 (368) 는 역양자화된 고-대역 이득 형상 (648) 에 기초하여 합성된 고-대역 중간 채널 (382) 을 스케일링하여 스케일링된 합성된 고-대역 중간 채널 (384) 을 발생시키도록 구성될 수도 있다. 스케일링된 합성된 고-대역 중간 채널 (384) 은 고-대역 이득 프레임 스케일러 (372) 로 제공된다.
고-대역 이득 프레임 비트스트림 (283) 은 고-대역 이득 프레임 역양자화기 (370) 로 제공된다. 고-대역 이득 프레임 역양자화기 (370) 는 고-대역 이득 프레임 비트스트림 (283) 으로부터 역양자화된 고-대역 이득 프레임 (652) 을 추출하도록 구성될 수도 있다. 역양자화된 고-대역 이득 프레임 (652) 은 도 6 에 대해 설명하는 바와 같이, 신호 프로세싱 동작들을 위해 고-대역 이득 프레임 스케일러 (372) 로, 그리고, ICBWE 디코더 (306) 로 제공된다. 고-대역 이득 프레임 스케일러 (372) 는 역양자화된 고-대역 이득 프레임 (652) 을 스케일링된 합성된 고-대역 중간 채널 (384) 에 적용하여, 디코딩된 고-대역 중간 채널 (662) 을 발생시킬 수도 있다. 디코딩된 고-대역 중간 채널 (662) 은 도 6 에 대해 설명하는 바와 같이, 신호 프로세싱 동작들을 위해, ICBWE 디코더 (306) 로 제공된다.
도 4 내지 도 5 를 참조하면, ICBWE 인코더 (204) 의 특정의 구현예가 도시된다. ICBWE 인코더 (204) 의 제 1 부분 (204a) 은 도 4 에 도시되며, ICBWE 인코더 (204) 의 제 2 부분 (204b) 은 도 5 에 도시된다.
ICBWE 인코더 (204) 의 제 1 부분 (204a) 은 고-대역 참조 채널 결정 유닛 (404) 및 고-대역 참조 채널 표시자 인코더 (406) 를 포함한다. 좌측 채널 (212) 및 우측 채널 (214) 은 고-대역 참조 채널 결정 유닛 (404) 으로 제공된다. 고-대역 참조 채널 결정 유닛 (404) 은 좌측 채널 (212) 또는 우측 채널 (214) 이 고-대역 참조 채널인지 여부를 결정하도록 구성될 수도 있다. 예를 들어, 고-대역 참조 채널 결정 유닛 (404) 은 좌측 채널 (212) 또는 우측 채널 (214) 이 비-참조 채널 (459) 을 추정하는데 사용되는지 여부를 표시하는 고-대역 참조 채널 표시자 (440) 를 발생시킬 수도 있다. 고-대역 참조 채널 표시자 (440) 는 좌측 채널 (212) 및 우측 채널 (214) 의 에너지들, 좌측 채널 (212) 과 우측 채널 (214) 사이의 채널간 시프트, 다운-믹서에서의 발생된 참조 채널 표시자, 비-인과적 시프트 추정에 기초한 참조 채널 표시자, 및 좌측 및 우측 고-대역 채널 에너지들에 기초하여 추정될 수도 있다.
일 구현예에 따르면, 고-대역 참조 채널 표시자 (440) 는 다중 스테이지 기법들을 이용하여 결정될 수도 있으며, 각각의 스테이지는 고-대역 참조 채널 표시자 (440) 을 결정하기 위해 이전 스테이지의 출력을 향상시킨다. 예를 들어, 제 1 스테이지에서, 고-대역 참조 채널 결정 유닛 (404) 은 참조 신호에 기초하여 고-대역 참조 채널 표시자 (440) 를 발생시킬 수도 있다. 예시하기 위하여, 고-대역 참조 채널 결정 유닛 (404) 은 제 2 오디오 채널 (132) (예컨대, 우측 오디오 신호) 이 참조 신호로서 지정된다고 참조 신호가 표시한다고 결정하는 것에 응답하여, 우측 채널 (214) 이 고-대역 참조 채널로서 지정된다는 것을 표시하기 위해 고-대역 참조 채널 표시자 (440) 를 발생시킬 수도 있다. 대안적으로, 고-대역 참조 채널 결정 유닛 (404) 은 제 1 오디오 채널 (130) (예컨대, 좌측 오디오 신호) 이 참조 신호로서 지정된다고 참조 신호가 표시한다고 결정하는 것에 응답하여, 좌측 채널 (212) 이 고-대역 참조 채널로서 지정된다고 표시하기 위해 고-대역 참조 채널 표시자 (440) 를 발생시킬 수도 있다.
제 2 스테이지에서, 고-대역 참조 채널 결정 유닛 (404) 은 이득 파라미터, 좌측 채널 (212) 과 연관된 제 1 에너지, 우측 채널 (214) 과 연관된 제 2 에너지, 또는 이들의 조합에 기초하여, 고-대역 참조 채널 표시자 (440) 를 정제 (예컨대, 업데이트) 할 수도 있다. 예를 들어, 고-대역 참조 채널 결정 유닛 (404) 은 이득 파라미터가 제 1 임계치를 만족시키거나, 제 1 에너지 (예컨대, 좌측 풀-대역 에너지) 와 우측 에너지 (예컨대, 우측 풀-대역 에너지) 의 비가 제 2 임계치를 만족시키거나, 또는 양자를 결정하는 것에 응답하여, 좌측 채널 (212) 이 참조 채널로서 지정되고 우측 채널 (214) 이 비-참조 채널로서 지정된다는 것을 표시하기 위해, 고-대역 참조 채널 표시자 (440) 를 설정 (예컨대, 업데이트) 할 수도 있다. 다른 예로서, 고-대역 참조 채널 결정 유닛 (404) 은 이득 파라미터가 제 1 임계치를 만족시키지 않거나, 제 1 에너지 (예컨대, 좌측 풀-대역 에너지) 와 우측 에너지 (예컨대, 우측 풀-대역 에너지) 의 비가 제 2 임계치를 만족시키지 않거나, 또는 양자를 결정하는 것에 응답하여, 우측 채널 (214) 이 참조 채널로서 지정되고 좌측 채널 (212) 이 비-참조 채널로서 지정된다는 것을 표시하기 위해, 고-대역 참조 채널 표시자 (440) 를 설정 (예컨대, 업데이트) 할 수도 있다.
제 3 스테이지에서, 고-대역 참조 채널 결정 유닛 (404) 은 좌측 에너지 및 우측 에너지에 기초하여, 고-대역 참조 채널 표시자 (440) 를 정제 (예컨대, 추가로 업데이트) 할 수도 있다. 예를 들어, 고-대역 참조 채널 결정 유닛 (404) 은 좌측 에너지 (예컨대, 좌측 HB 에너지) 와 우측 에너지 (예컨대, 우측 HB 에너지) 의 비가 임계치를 만족시킨다고 결정하는 것에 응답하여, 좌측 채널 (212) 이 참조 채널로서 지정되고 우측 채널 (214) 이 비-참조 채널로서 지정된다는 것을 표시하기 위해, 고-대역 참조 채널 표시자 (440) 를 설정 (예컨대, 업데이트) 할 수도 있다. 다른 예로서, 고-대역 참조 채널 결정 유닛 (404) 은 좌측 에너지 (예컨대, 좌측 HB 에너지) 와 우측 에너지 (예컨대, 우측 HB 에너지) 의 비가 임계치를 만족시키지 못한다고 결정하는 것에 응답하여, 우측 채널 (214) 이 참조 채널로서 지정되고 좌측 채널 (212) 이 비-참조 채널로서 지정된다는 것을 표시하기 위해, 고-대역 참조 채널 표시자 (440) 를 설정 (예컨대, 업데이트) 할 수도 있다. 고-대역 참조 채널 표시자 인코더 (406) 는 고-대역 참조 채널 표시자 (440) 를 인코딩하여 고-대역 참조 채널 표시자 비트스트림 (442) 을 발생시킬 수도 있다.
ICBWE 인코더 (204) 의 제 1 부분 (204a) 은 또한 비-참조 고-대역 여기 발생기 (408), 선형 예측 계수 (LPC) 합성 필터 (410), 고-대역 목표 채널 발생기 (412), 스펙트럼 맵핑 추정기 (414), 및 스펙트럼 맵핑 양자화기 (416) 를 포함한다. 비-참조 고-대역 여기 발생기 (408) 는 신호 승산기 (418), 신호 승산기 (420), 및 신호 결합기 (422) 를 포함한다.
고조파 고-대역 여기 (237) 는 신호 승산기 (418) 로 제공되며, 변조된 잡음 (482) 은 신호 승산기 (420) 로 제공된다. 특정의 구현예에서, 고조파 고-대역 여기 (237) 는 저-대역 여기 (232) 발생에 사용되는 고조파 모델링과는 상이한 고조파 모델링 (예컨대, (.)^2 또는 |.|) 에 기초할 수도 있다. 대안적인 구현예에서, 고조파 고-대역 여기 (237) 는 비-참조 저 대역 여기 신호에 기초할 수도 있다. 변조된 잡음 (482) 은 고조파 고-대역 여기 (237) 또는 저-대역 여기 (232) 의 엔벨로프 변조된 잡음에 기초할 수도 있다. 다른 대안적인 구현예에서, 변조된 잡음 (482) 은 비선형 고조파 고-대역 여기 신호 (237) (예컨대, 백색화된 비선형 고조파 고-대역 여기 신호) 에 기초하여 시간적으로 정형되는 무작위 잡음일 수도 있다. 시간 정형은 보이스-인자 제어된 1차 적응 필터에 기초할 수도 있다.
신호 승산기 (418) 는 이득 (이득(a) (인코더)) 을 고조파 고-대역 여기 (237) 에 적용하여 이득-조정된 고조파 고-대역 여기 (452) 를 발생시키며, 신호 승산기 (420) 는 이득 (이득(b) (인코더)) 을 변조된 잡음 (482) 에 적용하여 이득-조정된 변조된 잡음 (454) 을 발생시킨다. 이득-조정된 고조파 고-대역 여기 (452) 및 이득-조정된 변조된 잡음 (454) 은 신호 결합기 (422) 로 제공된다. 신호 결합기 (422) 는 이득-조정된 고조파 고-대역 여기 (452) 및 이득-조정된 변조된 잡음 (454) 을 결합하여 비-참조 고-대역 여기 (456) 를 발생시키도록 구성될 수도 있다. 비-참조 고-대역 여기 (456) 는 고-대역 중간 채널 여기와 유사한 방법으로 발생될 수도 있다. 그러나, 이득들 (이득(a) (인코더) 및 이득(b) (인코더)) 는 고-대역 참조 및 고-대역 비-참조 채널들의 상대적인 에너지들, 고-대역 비-참조 채널의 잡음 플로어, 등에 기초하여 고-대역 중간 채널 여기를 발생시키는데 사용되는 이득들의 수정 버전들일 수도 있다.
일부 구현예들에서, 이득(a) (인코더) 및 이득(b) (인코더) 가 벡터들일 수도 있으며 벡터의 각각의 값이 서브프레임들에서의 대응하는 신호의 스케일링 인자에 대응한다는 점에 유의해야 한다.
믹싱 이득들 (이득(a) (인코더) 및 이득(b) (인코더)) 는 또한 고-대역 중간 채널, 고-대역 비-참조 채널에 대응하는 보이스 인자들에 기초하거나, 또는 저-대역 보이스 인자 또는 보이싱 정보로부터 유도될 수도 있다. 믹싱 이득들 (이득(a) (인코더) 및 이득(b) (인코더)) 는 또한 고-대역 중간 채널 및 고-대역 비-참조 채널에 대응하는 스펙트럼 엔벨로프에 기초할 수도 있다. 다른 대안적인 구현예에서, 믹싱 이득들 (이득(a) (인코더) 및 이득(b) (인코더)) 는 신호에서의 화자들 또는 백그라운드 소스들의 개수 및 좌측 (또는, 참조, 목표) 및 우측 (또는, 목표, 참조) 채널들의 유성음-무성음 특성에 기초할 수도 있다.
비-참조 고-대역 여기 (456) 는 LPC 합성 필터 (410) 로 제공된다. LPC 합성 필터 (410) 는 비-참조 고-대역 여기 (456) 및 양자화된 고-대역 LPC들 (457) (예컨대, 고-대역 중간 채널의 LPC들) 에 기초하여, 합성된 비-참조 고-대역 (458) 을 발생시키도록 구성될 수도 있다. 예를 들어, LPC 합성 필터 (410) 는 양자화된 고-대역 LPC들 (457) 을 비-참조 고-대역 여기 (456) 에 제공하여 합성된 비-참조 고-대역 (458) 을 발생시킬 수도 있다. 합성된 비-참조 고-대역 (458) 은 스펙트럼 맵핑 추정기 (414) 로 제공된다.
고-대역 참조 채널 표시자 (440) 는 좌측 채널 (212) 및 우측 채널 (214) 을 입력들로서 수신하는 스위치 (424) 로 (제어 신호로서) 제공될 수도 있다. 고-대역 참조 채널 표시자 (440) 에 기초하여, 스위치 (424) 는 좌측 채널 (212) 또는 우측 채널 (214) 을 고-대역 목표 채널 발생기 (412) 로 비-참조 채널 (459) 로서 제공할 수도 있다. 예를 들어, 좌측 채널 (212) 이 참조 채널이라는 것을 고-대역 참조 채널 표시자 (440) 가 표시하면, 스위치 (424) 는 우측 채널 (214) 을 고-대역 목표 채널 발생기 (412) 로 비-참조 채널 (459) 로서 제공할 수도 있다. 우측 채널 (214) 이 참조 채널이라는 것을 고-대역 참조 채널 표시자 (440) 가 표시하면, 스위치 (424) 는 좌측 채널 (212) 을 고-대역 목표 채널 발생기 (412) 로 비-참조 채널 (459) 로서 제공할 수도 있다.
고-대역 목표 채널 발생기 (412) 는 비-참조 채널 (459) 의 저-대역 신호 성분들을 필터링하여 비-참조 고-대역 채널 (460) (예컨대, 비-참조 채널 (459) 의 고-대역 부분) 을 발생시킬 수도 있다. 일부 구현예들에서, 비-참조 고-대역 채널 (460) 은 추가적인 신호 프로세싱 동작들 (예컨대, 스펙트럼 플립 동작) 에 기초하여 스펙트럼 플립될 수도 있다. 비-참조 고-대역 채널 (460) 은 스펙트럼 맵핑 추정기 (414) 로 제공된다. 스펙트럼 맵핑 추정기 (414) 는 비-참조 고-대역 채널 (460) 의 스펙트럼 (또는, 에너지들) 을 합성된 비-참조 고-대역 (458) 의 스펙트럼에 맵핑하는 스펙트럼 맵핑 파라미터들 (462) 을 발생시키도록 구성될 수도 있다. 예를 들어, 스펙트럼 맵핑 추정기 (414) 는 비-참조 고-대역 채널 (460) 의 스펙트럼을 합성된 비-참조 고-대역 (458) 의 스펙트럼으로 맵핑하는 필터 계수들을 발생시킬 수도 있다. 예를 들어, 스펙트럼 맵핑 추정기 (414) 는 합성된 비-참조 고-대역 (458) 의 스펙트럼 엔벨로프를 비-참조 고-대역 채널 (460) (예컨대, 비-참조 고-대역 신호) 의 스펙트럼 엔벨로프에 실질적으로 근사하도록 맵핑하는 스펙트럼 맵핑 파라미터들 (462) 을 결정한다. 스펙트럼 맵핑 파라미터들 (462) 은 스펙트럼 맵핑 양자화기 (416) 로 제공된다. 스펙트럼 맵핑 양자화기 (416) 는 스펙트럼 맵핑 파라미터들 (462) 을 양자화하여 고-대역 스펙트럼 맵핑 비트스트림 (464) 및 양자화된 스펙트럼 맵핑 파라미터들 (466) 을 발생시키도록 구성될 수도 있다. 양자화된 스펙트럼 맵핑 파라미터들 (466) 은 다음에 따라서 필터 h(z) 로서 적용될 수도 있으며:
Figure pct00001
여기서, ui 는 양자화된 스펙트럼 맵핑 파라미터들 (466) 이다.
ICBWE 인코더 (204) 의 제 2 부분 (204b) 은 스펙트럼 맵핑 어플리케이터 (502), 이득 맵핑 추정기 및 양자화기 (504), 및 멀티플렉서 (590) 를 포함한다. 합성된 비-참조 고-대역 (458) 및 양자화된 스펙트럼 맵핑 파라미터들 (466) 은 스펙트럼 맵핑 어플리케이터 (502) 로 제공된다. 스펙트럼 맵핑 어플리케이터 (502) 는 합성된 비-참조 고-대역 (458) 및 양자화된 스펙트럼 맵핑 파라미터들 (466) 에 기초하여 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 을 발생시키도록 구성될 수도 있다. 예를 들어, 스펙트럼 맵핑 어플리케이터 (502) 는 양자화된 스펙트럼 맵핑 파라미터들을 합성된 비-참조 고-대역 (458) 에 적용하여 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 을 발생시킬 수도 있다. 다른 대안적인 구현예들에서, 스펙트럼 맵핑 어플리케이터 (502) 는 스펙트럼 맵핑 파라미터들 (462) (예컨대, 비양자화된 파라미터) 을 합성된 비-참조 고-대역 (458) 에 적용하여 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 을 발생시킬 수도 있다. 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 은 고-대역 이득 맵핑 파라미터들을 추정하는데 사용될 수도 있다. 예를 들어, 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 은 이득 맵핑 추정기 및 양자화기 (504) 로 제공된다.
따라서, 스펙트럼 맵핑 추정기 (414) 는 위에서 설명한 필터 h(z) 를 이용하여 필터링하는 스펙트럼 형상 애플리케이션을 이용할 수도 있다. 스펙트럼 맵핑 추정기 (414) 는 파라미터 (ui) 에 대한 값을 추정 및 양자화할 수도 있다. 예시적인 구현예에서, 필터 h(z) 는 1차 필터일 수도 있으며, 신호의 스펙트럼 엔벨로프는 래그 인덱스 1 (lag(1)) 및 래그 인덱스 제로 (lag(0)) 의 자기 상관 계수들의 비로서 근사화될 수도 있다. t(n) 이 비-참조 고-대역 채널 (460) 의 n번째 샘플로서 나타내면, x(n) 은 합성된 비-참조 고-대역 (458) 의 n번째 샘플을 나타내며, y(n) 은 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 의 n번째 샘플을 나타내며, 따라서,
Figure pct00002
이며, 여기서,
Figure pct00003
는 신호 컨볼루션 연산을 위한 심볼이다.
신호 s(n) 의 스펙트럼 엔벨로프는 다음과 같이 표현될 수도 있다:
Figure pct00004
여기서,
Figure pct00005
는 lag(n) 에서의 신호의 자기 상관이다.
Figure pct00006
이기 때문에,
Figure pct00007
이다. y(n) 의 엔벨로프가 t(n) 의 엔벨로프에 근사하도록
Figure pct00008
에 대해 풀기 위해, t(n) 의 엔벨로프 (T) 는 다음과 같을 수도 있다:
Figure pct00009
또한,
Figure pct00010
일 때
Figure pct00011
임을 나타낼 수 있다.
따라서, 인코더 (200) 는
Figure pct00012
이면 엔벨로프 (T) 를 결정할 수도 있다.
ryy 값들이 확장될 때, u 의 값의 다수의 가능한 근사치들을 얻기 위해 많은 근사값이 잠재적으로 있을 수 있다는 점에 유의해야 한다. 반복 및 분석 솔루션들 양자가 상기 수식에 대해 획득될 수 있다. 분석 솔루션의 비한정적인 예가 본원에서 설명된다. 상기 수식을 최대 2 인 u의 지수를 가진 항으로 확장하면, 그 결과는 다음과 같다:
Figure pct00013
이며, 여기서,
Figure pct00014
Figure pct00015
2차 방정식들의 성질로 인해 (u) 에 대한 2개의 가능한 솔루션들이 존재할 수도 있다. 2개의 가능한 솔루션들이 실수 또는 허수일 수도 있기 때문에, b2-4*a*c 가 ≥0 이면, 2개의 실수 솔루션들이 있다. 그렇지 않으면, 2개의 허수 솔루션들이 있다.
일반적으로, 비-참조 채널이 더 높은 주파수들에서 스펙트럼 에너지에서의 더 가파른 롤-오프를 갖기 때문에, (u) 의 더 작은 값들이 바람직할 수도 있다 (음의 값들을 포함). (u) 의 더 작은 값은 더 높은 주파수들에서 스펙트럼 에너지에서의 더 가파른 롤-오프가 있도록 신호를 엔벨로프한다. 일 구현예에 따르면, 절대값이 < 1 (즉, |ufinal| < 1) 인 (u) 의 값들이 사용될 수도 있다.
실수 솔루션들이 없으면, 이전 프레임들 (u) 이 현재의 프레임들 (u) 로서 사용될 수도 있다. 하나 이상의 실수 솔루션들이 있고 1 미만의 절대값을 갖는 실수 솔루션이 없으면, 이전 프레임의 ufinal 값이 현재의 프레임에 대해 사용될 수도 있다. 하나 이상의 실수 솔루션들이 있고 1 미만의 절대값을 갖는 하나의 실수 솔루션이 있으면, 현재의 프레임은 ufinal 값으로서 실수 솔루션을 이용할 수도 있다. 하나 이상의 실수 솔루션들이 있고 1 미만의 절대값을 갖는 하나 보다 많은 실수 솔루션이 있으면, 현재의 프레임은 ufinal 값으로서 가장 작은 (u) 값을 이용할 수도 있거나 또는 현재의 프레임은 이전 프레임의 (u) 값에 가장 가까운 (u) 값을 이용할 수도 있다.
대안적인 구현예에서, 스펙트럼 맵핑 파라미터들은 스펙트럼 형태의 비-참조 HB 신호와 비-참조 HB 목표 채널 사이의 스펙트럼 매칭을 최대화하기 위해, 비-참조 고-대역 채널 및 비-참조 고-대역 여기 (456) 의 스펙트럼 분석에 기초하여 추정될 수도 있다. 다른 구현예에서, 스펙트럼 맵핑 파라미터들은 비-참조 고-대역 채널 및 합성된 고-대역 중간 채널 (520) 또는 고-대역 중간 채널 (292) 의 LP 분석에 기초할 수도 있다.
비-참조 고-대역 채널 (516), 합성된 고-대역 중간 채널 (520), 및 고-대역 중간 채널 (292) 은 또한 이득 맵핑 추정기 및 양자화기 (504) 로 제공된다. 이득 맵핑 추정기 및 양자화기 (504) 는 스펙트럼 형태의 합성된 비-참조 고-대역 (514), 비-참조 고-대역 채널 (516), 합성된 고-대역 중간 채널 (520), 및 고-대역 중간 채널 (292) 에 기초하여, 고-대역 이득 맵핑 비트스트림 (522) 및 양자화된 고-대역 이득 맵핑 비트스트림 (524) 을 발생시킬 수도 있다. 예를 들어, 이득 맵핑 추정기 및 양자화기 (504) 는 합성된 고-대역 중간 채널 (520) 및 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 에 기초하여 조정 이득 파라미터들의 세트를 발생시킬 수도 있다. 예시하기 위하여, 이득 맵핑 추정기 및 양자화기 (504) 는 합성된 고-대역 중간 채널 (510) 의 에너지 (또는, 전력) 와 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 의 에너지 (또는, 전력) 사이의 차이 (또는, 비) 에 대응하는 합성된 고-대역 이득을 결정할 수도 있다. 조정 이득 파라미터들의 세트는 합성된 고-대역 이득을 표시할 수도 있다.
이득 맵핑 추정기 및 양자화기 (504) 는 조정 이득 파라미터들의 세트 및 예측된 조정 이득 파라미터들의 세트에 기초하여 조정 이득 파라미터들의 제 1 세트를 발생시킬 수도 있다. 예를 들어, 조정 이득 파라미터들의 제 1 세트는 조정 이득 파라미터들의 세트와 예측된 조정 이득 파라미터들의 세트 사이의 차이를 표시할 수도 있다. 다른 예로서, 조정 이득 파라미터들의 제 1 세트는 예측된 조정 이득 파라미터들의 세트와, 합성된 고-대역 중간 채널 (520) 의 제 1 에너지와 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 의 제 2 에너지의 비의 곱 (예컨대, 조정 이득 파라미터들의 제 1 세트 = 예측된 조정 이득 파라미터들의 세트 * (합성된 고-대역 중간 채널 (520) 의 제 1 에너지/스펙트럼 형태의 합성된 비-참조 고-대역 (514) 의 제 2 에너지) 에 대응할 수도 있다.
고-대역 참조 채널 표시자 비트스트림 (442), 고-대역 스펙트럼 맵핑 비트스트림 (464), 및 고-대역 이득 맵핑 비트스트림 (522) 은 멀티플렉서 (590) 로 제공된다. 멀티플렉서 (590) 는 고-대역 참조 채널 표시자 비트스트림 (442), 고-대역 스펙트럼 맵핑 비트스트림 (464), 및 고-대역 이득 맵핑 비트스트림 (522) 을 멀티플렉싱함으로써 ICBWE 비트스트림 (242) 을 발생시키도록 구성될 수도 있다. ICBWE 비트스트림 (242) 은 도 3a 의 디코더 (300) 와 같은, 디코더로 송신될 수도 있다.
도 6 을 참조하면, ICBWE 디코더 (306) 의 특정의 구현예가 도시된다. ICBWE 디코더 (306) 는 비-참조 고-대역 여기 발생기 (602), LPC 합성 필터 (604), 스펙트럼 맵핑 어플리케이터 (606), 스펙트럼 맵핑 역양자화기 (608), 고-대역 이득 형상 스케일러 (610), 비-참조 고-대역 이득 스케일러 (612), 이득 맵핑 역양자화기 (616), 참조 고-대역 이득 스케일러 (618), 및 고-대역 채널 맵퍼 (620) 를 포함한다. 비-참조 고-대역 여기 발생기 (602) 는 신호 승산기 (622), 신호 승산기 (624), 및 신호 결합기 (626) 를 포함한다.
(저-대역 비트스트림 (246) 으로부터 발생된) 고조파 고-대역 여기 (630) 는 신호 승산기 (622) 로 제공되고, 변조된 잡음 (632) 은 신호 승산기 (624) 로 제공된다. 신호 승산기 (622) 는 이득 (이득(a) (디코더)) 을 고조파 고-대역 여기 (630) 에 적용하여 이득-조정된 고조파 고-대역 여기 (634) 를 발생시키고, 신호 승산기 (624) 는 이득 (이득(b) (디코더)) 을 변조된 잡음 (632) 에 적용하여 이득-조정된 변조된 잡음 (636) 을 발생시킨다. 일부 구현예들에서, 이득(a) (디코더) 및 이득(b) (디코더) 가 벡터들을 가질 수도 있으며 벡터의 각각의 값이 서브프레임들에서 대응하는 신호의 스케일링 인자에 대응한다는 점에 유의해야 한다. 믹싱 이득들 (이득(a) (디코더) 및 이득(b) (디코더)) 는 또한 합성된 고-대역 중간 채널, 합성된 고-대역 비-참조 채널에 대응하는 보이스 인자들에 기초하거나, 또는 저-대역 보이스 인자 또는 보이싱 정보로부터 유도될 수도 있다. 믹싱 이득들 (이득(a) (디코더) 및 이득(b) (디코더)) 는 또한 합성된 고-대역 중간 채널, 합성된 고-대역 비-참조 채널에 대응하는 스펙트럼 엔벨로프에 기초하거나, 또는 저-대역 보이스 인자 또는 보이싱 정보로부터 유도될 수도 있다. 다른 대안적인 구현예에서, 믹싱 이득들 (이득(a) (디코더) 및 이득(b) (디코더)) 는 신호에서의 화자들 또는 백그라운드 소스들의 개수 및 좌측 (또는, 참조, 목표) 및 우측 (또는, 목표, 참조) 채널들의 유성음-무성음 특성에 기초할 수도 있다. 이득-조정된 고조파 고-대역 여기 (634) 및 이득-조정된 변조된 잡음 (636) 은 신호 결합기 (626) 로 제공된다. 신호 결합기 (626) 는 이득-조정된 고조파 고-대역 여기 (634) 와 이득-조정된 변조된 잡음 (636) 을 결합하여, 비-참조 고-대역 여기 (638) 을 발생시키도록 구성될 수도 있다. 따라서, 비-참조 고-대역 여기 (638) 는 ICBWE 인코더 (204) 의 비-참조 고-대역 여기 (456) 와 실질적으로 유사한 방법으로 발생될 수도 있다.
비-참조 고-대역 여기 (638) 가 LPC 합성 필터 (604) 로 제공된다. LPC 합성 필터 (604) 는 고-대역 중간 채널의 (인코더 (200) 로부터 송신된 비트스트림으로부터) 역양자화된 고-대역 LPC들 (640) 및 비-참조 고-대역 여기 (638) 에 기초하여, 합성된 비-참조 고-대역 (642) 을 발생시키도록 구성될 수도 있다. 예를 들어, LPC 합성 필터 (604) 는 역양자화된 고-대역 LPC들 (640) 을 비-참조 고-대역 여기 (638) 에 적용하여 합성된 비-참조 고-대역 (642) 을 발생시킬 수도 있다. 합성된 비-참조 고-대역 (642) 은 스펙트럼 맵핑 어플리케이터 (606) 로 제공된다.
인코더 (200) 로부터의 고-대역 스펙트럼 맵핑 비트스트림 (464) 은 스펙트럼 맵핑 역양자화기 (608) 로 제공된다. 스펙트럼 맵핑 역양자화기 (608) 는 고-대역 스펙트럼 맵핑 비트스트림 (464) 을 디코딩하여 역양자화된 스펙트럼 맵핑 비트스트림 (644) 을 발생시키도록 구성될 수도 있다. 역양자화된 스펙트럼 맵핑 비트스트림 (644) 은 스펙트럼 맵핑 어플리케이터 (606) 로 제공된다. 스펙트럼 맵핑 어플리케이터 (606) 는 (ICBWE 인코더 (204) 에서와 실질적으로 유사한 방법으로) 역양자화된 스펙트럼 맵핑 비트스트림 (644) 을 합성된 비-참조 고-대역 (642) 에 적용하여 스펙트럼 형태의 합성된 비-참조 고-대역 (646) 을 발생시키도록 구성될 수도 있다. 예를 들어, 역양자화된 스펙트럼 맵핑 비트스트림 (644) 은 다음과 같이 필터로서 적용될 수도 있다:
Figure pct00016
여기서, u 는 양자화된 스펙트럼 맵핑 파라미터들이다. 스펙트럼 형태의 합성된 비-참조 고-대역 (646) 은 고-대역 이득 형상 스케일러 (610) 로 제공된다.
고-대역 이득 형상 스케일러 (610) 는 (인코더 (200) 로부터 송신된 비트스트림으로부터의) 양자화된 고-대역 이득 형상에 기초하여 스펙트럼 형태의 합성된 비-참조 고-대역 (646) 을 스케일링하여 스케일링된 신호 (650) 를 발생시키도록 구성될 수도 있다. 스케일링된 신호 (650) 는 비-참조 고-대역 이득 스케일러 (612) 로 제공된다. 승산기 (651) 는 역양자화된 고-대역 이득 프레임 (652) (예컨대, 중간 채널 이득 프레임) 을 (고-대역 이득 맵핑 비트스트림 (522) 으로부터의) 양자화된 고-대역 이득 맵핑 파라미터들 (660) 과 곱하여 결과적인 신호 (656) 를 발생시키도록 구성될 수도 있다. 결과적인 신호 (656) 는 역양자화된 고-대역 이득 프레임 (652) 과 양자화된 고-대역 이득 맵핑 파라미터들 (660) 의 곱을 적용함으로써 또는 2개의 순차적인 이득 스테이지들을 이용하여 발생될 수도 있다. 결과적인 신호 (656) 는 비-참조 고-대역 이득 스케일러 (612) 로 제공된다. 비-참조 고-대역 이득 스케일러 (612) 는 결과적인 신호 (656) 에 의해 스케일링된 신호 (650) 를 스케일링하여, 디코딩된 고-대역 비-참조 채널 (658) 을 발생시키도록 구성될 수도 있다. 디코딩된 고-대역 비-참조 채널 (658) 은 고-대역 채널 맵퍼 (620) 로 제공된다. 다른 구현예에 따르면, 예측된 참조 채널 이득 맵핑 파라미터는 디코딩된 고-대역 비-참조 채널 (658) 을 발생시키기 위해 중간 채널에 적용될 수도 있다.
인코더 (200) 로부터의 고-대역 이득 맵핑 비트스트림 (522) 은 이득 맵핑 역양자화기 (616) 로 제공된다. 이득 맵핑 역양자화기 (616) 는 고-대역 이득 맵핑 비트스트림 (522) 을 디코딩하여, 양자화된 고-대역 이득 맵핑 파라미터들 (660) 을 발생시키도록 구성될 수도 있다. 양자화된 고-대역 이득 맵핑 파라미터들 (660) 은 참조 고-대역 이득 스케일러 (618) 로 제공되며, (고-대역 중간 채널 비트스트림 (244) 으로부터 발생된) 디코딩된 고-대역 중간 채널 (662) 은 참조 고-대역 이득 스케일러 (618) 로 제공된다. 참조 고-대역 이득 스케일러 (618) 는 양자화된 고-대역 이득 맵핑 파라미터들 (660) 에 기초하여 디코딩된 고-대역 중간 채널 (662) 을 스케일링하여, 디코딩된 고-대역 참조 채널 (664) 을 발생시키도록 구성될 수도 있다. 디코딩된 고-대역 참조 채널 (664) 은 고-대역 채널 맵퍼 (620) 로 제공된다.
고-대역 채널 맵퍼 (620) 는 디코딩된 고-대역 참조 채널 (664) 또는 디코딩된 고-대역 비-참조 채널 (658) 을 좌측 고-대역 채널 (330) 로서 지정하도록 구성될 수도 있다. 예를 들어, 고-대역 채널 맵퍼 (620) 는 인코더 (200) 로부터의 고-대역 참조 채널 표시자 비트스트림 (442) 에 기초하여, 좌측 고-대역 채널 (330) 이 참조 채널 (또는, 비-참조 채널) 인지 여부를 결정할 수도 있다. 유사한 기법들을 이용하여, 고-대역 채널 맵퍼 (620) 는 디코딩된 고-대역 참조 채널 (664) 및 디코딩된 고-대역 비-참조 채널 (658) 중 다른 하나를 우측 고-대역 채널 (332) 로서 지정하도록 구성될 수도 있다.
도 1 내지 도 6 을 참조하여 설명된 기법들은 오디오 인코딩 및 오디오 디코딩을 위한 향상된 고-대역 추정을 가능하게 할 수도 있다. 예를 들어, 양자화된 스펙트럼 맵핑 파라미터들 (466) 은 고-대역 채널 (예컨대, 비-참조 고-대역 채널 (460)) 의 스펙트럼 엔벨로프에 근사한 스펙트럼 엔벨로프를 갖는 합성된 고-대역 채널 (예컨대, 스펙트럼 형태의 합성된 비-참조 고-대역 (514)) 을 발생시키는데 사용될 수도 있다. 따라서, 양자화된 스펙트럼 맵핑 파라미터들 (466) 은 인코더 (200) 에서의 고-대역 채널의 스펙트럼 엔벨로프에 근사한 합성된 고-대역 채널 (예컨대, 스펙트럼 형태의 합성된 비-참조 고-대역 (646)) 을 발생시키기 위해 디코더 (300) 에서 사용될 수도 있다. 그 결과, 고-대역이 인코더-측 상의 저-대역과 유사한 스펙트럼 엔벨로프를 가질 수도 있기 때문에, 디코더 (300) 에서 고-대역을 재구성할 때 감소된 아티팩트들이 발생할 수도 있다.
도 7 을 참조하면, 스펙트럼 맵핑 파라미터들을 추정하는 방법 (700) 이 도시된다. 방법 (700) 은 도 1 의 제 1 디바이스 (104) 에 의해 수행될 수도 있다. 특히, 방법 (700) 은 인코더 (200) 에 의해 수행될 수도 있다.
방법 (700) 은 702 에서, 제 1 디바이스의 인코더에서, 고-대역 참조 채널 표시자에 기초하여 좌측 채널 또는 우측 채널을 비-참조 목표 채널로서 선택하는 단계를 포함한다. 예를 들어, 도 4 를 참조하면, 스위치 (424) 는 고-대역 참조 채널 표시자 (440) 에 기초하여, 좌측 채널 (212) 또는 우측 채널 (214) 을 비-참조 고-대역 채널 (460) 로서 선택할 수도 있다.
방법 (700) 은 704 에서, 비-참조 목표 채널에 대응하는 비-참조 고-대역 여기에 기초하여, 합성된 비-참조 고-대역 채널을 발생시키는 단계를 포함한다. 예를 들어, 도 4 를 참조하면, LPC 합성 필터 (410) 는 양자화된 고-대역 LPC들 (457) 을 비-참조 고-대역 여기 (456) 에 적용함으로써 합성된 비-참조 고-대역 (458) 을 발생시킬 수도 있다. 일부 구현예들에서, 방법 (700) 은 또한 비-참조 목표 채널의 고-대역 부분을 발생시키는 단계를 포함한다.
방법 (700) 은 또한 706 에서, 합성된 비-참조 고-대역 채널 및 비-참조 목표 채널의 고-대역 부분에 기초하여, 하나 이상의 스펙트럼 맵핑 파라미터들을 추정하는 단계를 포함한다. 예를 들어, 도 4 를 참조하면, 스펙트럼 맵핑 추정기 (414) 는 합성된 비-참조 고-대역 (458) 및 비-참조 고-대역 채널 (460) 에 기초하여, 스펙트럼 맵핑 파라미터들 (462) 을 추정할 수도 있다.
일 구현예에 따르면, 하나 이상의 스펙트럼 맵핑 파라미터들은 래그 인덱스 1 에서의 비-참조 목표 채널의 제 1 자기 상관 값 및 래그 인덱스 제로에서의 비-참조 목표 채널의 제 2 자기 상관 값에 기초하여 추정된다. 하나 이상의 스펙트럼 맵핑 파라미터들은 적어도 2개의 스펙트럼 맵핑 파라미터 후보들의 특정의 스펙트럼 맵핑 파라미터를 포함할 수도 있다. 일 구현예에서, 특정의 스펙트럼 맵핑 파라미터는, 적어도 2개의 스펙트럼 맵핑 파라미터 후보들이 비-실수 후보들이면, 이전 프레임의 스펙트럼 맵핑 파라미터에 대응할 수도 있다. 다른 구현예에서, 특정의 스펙트럼 맵핑 파라미터는, 적어도 2개의 스펙트럼 맵핑 파라미터 후보들의 각각의 스펙트럼 맵핑 파라미터 후보가 1보다 큰 절대값을 가지면, 이전 프레임의 스펙트럼 맵핑 파라미터에 대응할 수도 있다. 다른 구현예에서, 특정의 스펙트럼 맵핑 파라미터는 적어도 2개의 스펙트럼 맵핑 파라미터 후보들의 오직 하나의 스펙트럼 맵핑 파라미터 후보가 1 미만인 절대값을 가지면, 1 미만의 절대값을 가지는 스펙트럼 맵핑 파라미터 후보에 대응할 수도 있다. 다른 구현예에서, 특정의 스펙트럼 맵핑 파라미터는 적어도 2개의 스펙트럼 맵핑 파라미터 후보들 중 2 이상이 1 미만의 절대값을 가지면, 가장 작은 값을 갖는 스펙트럼 맵핑 파라미터 후보에 대응할 수도 있다. 다른 구현예에서, 특정의 스펙트럼 맵핑 파라미터는 적어도 2개의 스펙트럼 맵핑 파라미터 후보들 중 2 이상이 1 미만의 절대값을 가지면, 이전 프레임의 스펙트럼 맵핑 파라미터에 대응할 수도 있다.
방법 (700) 은 또한 708 에서, 하나 이상의 스펙트럼 맵핑 파라미터들을 합성된 비-참조 고-대역 채널에 적용하여, 스펙트럼 형태의 합성된 비-참조 고-대역 채널을 발생시키는 단계를 포함한다. 하나 이상의 스펙트럼 파라미터들을 적용하는 것은 스펙트럼 맵핑 필터에 기초하여 합성된 비-참조 고-대역 채널을 필터링하는 것에 대응할 수도 있다. 스펙트럼 형태의 합성된 비-참조 고-대역 채널은 비-참조 목표 채널의 스펙트럼 엔벨로프와 유사한 스펙트럼 엔벨로프를 가질 수도 있다. 예를 들어, 도 5 를 참조하면, 스펙트럼 맵핑 어플리케이터 (502) 는 양자화된 스펙트럼 맵핑 파라미터들 (466) 을 합성된 비-참조 고-대역 (458) 에 적용하여, 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 을 발생시킬 수도 있다. 스펙트럼 형태의 합성된 비-참조 고-대역 (514) 은 비-참조 고-대역 채널 (460) 의 스펙트럼 엔벨로프와 유사한 스펙트럼 엔벨로프를 가질 수도 있다. 스펙트럼 형태의 합성된 비-참조 고-대역 채널은 이득 맵핑 파라미터를 추정하는데 사용될 수도 있다.
방법 (700) 은 또한 710 에서, 하나 이상의 스펙트럼 맵핑 파라미터들에 기초하여, 인코딩된 비트스트림을 발생시키는 단계를 포함한다. 예를 들어, 도 4 를 참조하면, 스펙트럼 맵핑 양자화기 (416) 는 스펙트럼 맵핑 파라미터들 (462) 에 기초하여, 고-대역 스펙트럼 맵핑 비트스트림 (464) 을 발생시킬 수도 있다.
방법 (700) 은 712 에서, 인코딩된 비트스트림을 제 2 디바이스로 송신하는 단계를 더 포함한다. 예를 들어, 도 1 을 참조하면, 송신기 (110) 는 (고-대역 스펙트럼 맵핑 비트스트림 (464) 을 포함하는) ICBWE 비트스트림 (242) 을 제 2 디바이스 (106) 로 송신할 수도 있다.
방법 (700) 은 오디오 인코딩 및 오디오 디코딩을 위한 향상된 고-대역 추정을 가능하게 할 수도 있다. 예를 들어, 양자화된 스펙트럼 맵핑 파라미터들 (466) 은 고-대역 채널 (예컨대, 비-참조 고-대역 채널 (460)) 의 스펙트럼 엔벨로프에 근사한 스펙트럼 엔벨로프를 갖는 합성된 고-대역 채널 (예컨대, 스펙트럼 형태의 합성된 비-참조 고-대역 (514)) 을 발생시키는데 사용될 수도 있다. 따라서, 양자화된 스펙트럼 맵핑 파라미터들 (466) 은 인코더 (200) 에서의 고-대역 채널의 스펙트럼 엔벨로프에 근사한 합성된 고-대역 채널 (예컨대, 스펙트럼 형태의 합성된 비-참조 고-대역 (646)) 을 발생시키기 위해 디코더 (300) 에서 사용될 수도 있다. 그 결과, 고-대역이 인코더-측 상의 저-대역과 유사한 스펙트럼 엔벨로프를 가질 수도 있기 때문에, 디코더 (300) 에서 고-대역을 재구성할 때 감소된 아티팩트들이 발생할 수도 있다.
도 8 을 참조하면, 스펙트럼 맵핑 파라미터들을 추출하는 방법 (800) 이 도시된다. 방법 (800) 은 도 1 의 제 2 디바이스 (106) 에 의해 수행될 수도 있다. 특히, 방법 (800) 은 디코더 (300) 에 의해 수행될 수도 있다.
방법 (800) 은 802 에서, 디바이스의 디코더에서, 수신된 비트스트림으로부터 참조 채널 및 비-참조 목표 채널을 발생시키는 단계를 포함한다. 비트스트림은 제 2 디바이스의 인코더로부터 수신될 수도 있다. 예를 들어, 도 1 을 참조하면, 디코더 (300) 는 저-대역 비트스트림 (246) 으로부터 비-참조 채널을 발생시킬 수도 있다. 참조 채널 및 비-참조 목표 채널은 디코더 (300) 에서 발생된 업-믹싱된 채널들일 수도 있다. 비한정적인 예로서, 저-대역 참조 채널이 좌측 채널의 저-대역 부분이면, 좌측 채널의 고-대역 부분은 고-대역 참조 채널에 대응할 수도 있다. 일 구현예에 따르면, 디코더 (300) 는 참조 채널 및 비-참조 목표 채널을 발생시킴이 없이, 좌측 및 우측 채널들을 발생시킬 수도 있다.
방법 (800) 은 또한 804 에서, 비-참조 목표 채널에 대응하는 비-참조 고-대역 여기에 기초하여, 합성된 비-참조 고-대역 채널을 발생시키는 단계를 포함한다. 예를 들어, 도 6 을 참조하면, LPC 합성 필터 (604) 는 역양자화된 고-대역 LPC들 (640) 을 비-참조 고-대역 여기 (638) 에 적용함으로써, 합성된 비-참조 고-대역 (642) 을 발생시킬 수도 있다.
방법 (800) 은 806 에서, 수신된 스펙트럼 맵핑 비트스트림으로부터 하나 이상의 스펙트럼 맵핑 파라미터들을 추출하는 단계를 더 포함한다. 스펙트럼 맵핑 비트스트림은 제 2 디바이스의 인코더로부터 수신될 수도 있다. 예를 들어, 도 6 을 참조하면, 스펙트럼 맵핑 역양자화기 (608) 는 고-대역 스펙트럼 맵핑 비트스트림 (464) 으로부터 역양자화된 스펙트럼 맵핑 비트스트림 (644) 을 추출할 수도 있다.
방법 (800) 은 또한 808 에서, 하나 이상의 스펙트럼 맵핑 파라미터들을 합성된 비-참조 고-대역 채널에 적용함으로써, 스펙트럼 형태의 비-참조 고-대역 채널을 발생시키는 단계를 포함한다. 스펙트럼 형태의 합성된 비-참조 고-대역 채널은 비-참조 목표 채널의 스펙트럼 엔벨로프와 유사한 스펙트럼 엔벨로프를 가질 수도 있다. 예를 들어, 도 6 을 참조하면, 스펙트럼 맵핑 어플리케이터 (606) 는 역양자화된 스펙트럼 맵핑 비트스트림 (644) 을 합성된 비-참조 고-대역에 적용하여, 스펙트럼 형태의 합성된 비-참조 고-대역 (646) 을 발생시킬 수도 있다. 스펙트럼 형태의 합성된 비-참조 고-대역 (646) 은 비-참조 목표 채널의 스펙트럼 엔벨로프와 유사한 스펙트럼 엔벨로프를 가질 수도 있다.
방법 (800) 은 또한 810 에서, 스펙트럼 형태의 비-참조 고-대역 채널, 참조 채널, 및 비-참조 목표 채널에 적어도 기초하여, 출력 신호를 발생시키는 단계를 포함한다. 예를 들어, 도 1 을 참조하면, 디코더 (300) 는 스펙트럼 형태의 합성된 비-참조 고-대역 (646) 에 기초하여, 출력 신호들 (126, 128) 중 적어도 하나를 발생시킬 수도 있다.
방법 (800) 은 812 에서, 플레이백 디바이스에서, 출력 신호를 렌더링하는 단계를 더 포함한다. 예를 들어, 도 1 을 참조하면, 라우드스피커들 (142, 144) 은 출력 신호들 (126, 128) 을 각각 렌더링하여 출력할 수도 있다.
방법 (800) 은 오디오 인코딩 및 오디오 디코딩을 위한 향상된 고-대역 추정을 가능하게 할 수도 있다. 예를 들어, 양자화된 스펙트럼 맵핑 파라미터들 (466) 은 고-대역 채널 (예컨대, 비-참조 고-대역 채널 (460)) 의 스펙트럼 엔벨로프에 근사한 스펙트럼 엔벨로프를 갖는 합성된 고-대역 채널 (예컨대, 스펙트럼 형태의 합성된 비-참조 고-대역 (514)) 을 발생시키는데 사용될 수도 있다. 따라서, 양자화된 스펙트럼 맵핑 파라미터들 (466) 은 인코더 (200) 에서의 고-대역 채널의 스펙트럼 엔벨로프에 근사한 합성된 고-대역 채널 (예컨대, 스펙트럼 형태의 합성된 비-참조 고-대역 (646)) 을 발생시키기 위해 디코더 (300) 에서 사용될 수도 있다. 그 결과, 고-대역이 인코더-측 상의 저-대역과 유사한 스펙트럼 엔벨로프를 가질 수도 있기 때문에, 디코더 (300) 에서 고-대역을 재구성할 때 감소된 아티팩트들이 발생할 수도 있다.
도 9 를 참조하면, 인코더 (900) 의 특정의 구현예가 도시된다. 인코더 (900) 는 도 1 의 인코더 (200) 또는 도 2b 의 중간 채널 BWE 인코더 (206) 를 포함하거나 또는 이에 대응할 수도 있다.
인코더 (900) 는 LPC 추정기 (251), LPC 양자화기 (252), 고-대역 여기 발생기 (299) (비선형 BWE 발생기 (253), 승산기 (255), 합산기 (257), 무작위 잡음 발생기 (254), 잡음 엔벨로프 변조기 (256), 및 승산기 (258) 를 포함함), LPC 합성 필터 (259), 고-대역 이득 형상 추정기 (260), 고-대역 이득 형상 양자화기 (261), 고-대역 이득 형상 스케일러 (262), 고-대역 이득 프레임 추정기 (263), 고-대역 이득 프레임 양자화기 (264), 멀티플렉서 (265), 비 고조파 고 대역 검출기 (906), 고 대역 믹싱 이득들 추정기 (912), 및 잡음 엔벨로프 제어 파라미터 추정기 (916) 를 포함한다. 추가적으로, 일부 구현예들에서, 인코더 (900) 는 또한 비 고조파 고 대역 플래그 수정기 (922) 를 포함한다.
비 고조파 고 대역 검출기 (906) 는 비 고조파 HB 플래그 (x), (예컨대, 멀티-소스 플래그) (910) 를 발생시키도록 구성된다. 비 고조파 HB 플래그 (예컨대, 멀티-소스 플래그, x) (910) 는 고-대역 중간 채널 (292) 과 같은, 고 대역 신호의 고조파 메트릭을 표시하는 값을 가질 수도 있다. 예를 들어, 비 고조파 고 대역 검출기 (906) 는 저 대역 보이싱 (w) (902), 이전 프레임의 이득 프레임 (904), 및 고-대역 중간 채널 (292) 을 수신할 수도 있으며, 비 고조파 고 대역 검출기 (906) 는 본원에서 추가로 설명되는 바와 같이, 저 대역 보이싱 (w) (902), 이전 프레임의 이득 프레임 (904), 및 고-대역 중간 채널 (292) 에 기초하여, 비 고조파 HB 플래그 (예컨대, 멀티-소스 플래그, x) (910) 를 결정할 수도 있다.
고 대역 믹싱 이득들 추정기 (912) 는 저 대역 보이싱 인자들 (z) (908) 및 비 고조파 HB 플래그 (x) (910) 를 수신하도록 구성된다. 고 대역 믹싱 이득들 추정기 (912) 는 본원에서 추가로 설명되는 바와 같이, 저 대역 보이싱 인자들 (z) (908) 및 비 고조파 HB 플래그 (x) (910) 에 기초하여, 믹싱 이득들 (예컨대, 제 1 이득 "이득(1)" (인코더) 및 제 2 이득 "이득(2)" (인코더)) 를 발생시키도록 구성된다. 디코더의 고 대역 여기 발생기에서 믹싱하는 것은 도 10 을 참조하여 설명된 바와 같이, 이득(1) (디코더) 및 이득(2) (디코더) 에 기초하여, 수행된다는 점에 유의한다.
도 2b 를 참조하여 위에서 설명한 바와 같이, TD-BWE 인코딩 프로세스에서, 저-대역 여기 (232) 는 고조파 고-대역 여기 (237) 를 발생시키기 위해 비선형 BWE 발생기 (253) 에 의해 비선형으로 확장된다.
잡음 엔벨로프 제어 파라미터 추정기 (916) 는 저 대역 보이스 인자들 (z) (914) 및 비 고조파 HB 플래그 (x) (910) 를 수신하도록 구성된다. 저 대역 보이스 인자들 (z) (914) 은 저 대역 보이싱 인자들 (z) (908) 와 동일하거나 또는 상이할 수도 있다. 잡음 엔벨로프 제어 파라미터 추정기 (916) 는 저 대역 보이스 인자들 (z) (914) 및 비 고조파 HB 플래그 (x) (910) 에 기초하여 잡음 엔벨로프 제어 파라미터(들) (918) (인코더) 를 발생시키도록 구성된다. 잡음 엔벨로프 제어 파라미터 추정기 (916) 는 잡음 엔벨로프 제어 파라미터(들) (918) (인코더) 를 잡음 엔벨로프 변조기 (256) 에 제공하도록 구성된다. 본원에서 사용될 때, "파라미터 (인코더)" 는 인코더에 의해 사용되는 파라미터를 지칭하고, "파라미터 (디코더)" 는 디코더에 의해 사용되는 파라미터를 지칭한다.
엔벨로프 변조된 잡음 (예컨대, 변조된 잡음 (482) (인코더)) 은 고-대역 여기 (276) 의 잡음 성분을 발생시키기 위해 사용된다. 예를 들어, (변조된 잡음 (482) (인코더) 을 발생시키기 위해) 잡음 엔벨로프 변조기 (256) 에 의해 사용되는 엔벨로프는 고조파 고-대역 여기 (237) 에 기초하여 추출될 수도 있다. 엔벨로프 변조는 고조파 고-대역 여기 (237) 의 절대값들에 대해 저역 통과 필터를 적용함으로써 잡음 엔벨로프 변조기 (256) 에 의해 수행된다. 저역 통과 필터 파라미터들은 잡음 엔벨로프 제어 파라미터 추정기 (916) 에 의해 결정된 잡음 엔벨로프 제어 파라미터(들) (918) (인코더) 에 기초하여 결정된다.
유사한 (또는, 동일한) 엔벨로프 변조는 본원에서 도 10 을 참조하여 추가로 설명되는 바와 같이, 도 1 의 디코더 (300) 와 같은 디코더에서, 수행된다는 점에 유의한다. 디코더는 저 대역 보이스 인자들 및 비 고조파 HB 플래그, 예컨대 비 고조파 HB 플래그 (x) (910), 수정된 비 고조파 HB 플래그 (y) (920), 또는 다른 비 고조파 HB 플래그에 기초하여 잡음 엔벨로프 제어 파라미터 (디코더) 를 결정할 수도 있다. 고조파 메트릭이 고조파 (예컨대, 강한 비 고조파) 가 아니라고 비 고조파 HB 플래그 (x) (910) 가 표시하는 상황들에서, 이득-조정된 고조파 고-대역 여기 (273) 는 발생되지 않을 수도 있거나 또는 이득(1) (인코더) 은 제로의 값으로 설정될 수도 있다.
예시하기 위하여, 고-대역이 고조파라고 플래그 (예컨대, 비 고조파 HB 플래그 (x) (910)) 가 표시하면, 잡음 엔벨로프 제어 파라미터(들) (918) (인코더) 는 잡음 (274) 에 적용될 엔벨로프가 빠르게-변하는 엔벨로프임을 표시한다 (예컨대, 잡음 엔벨로프 변조기 (256) 는 작은 길이의 샘플들을 사용할 수 있다 - 각각의 샘플에 대한 잡음 엔벨로프 추정 프로세스가 고조파 HB 여기의 대응하는 샘플의 절대값에 덜 의존한다). 다른 예로서, 고-대역이 비 고조파라고 플래그 (예컨대, 비 고조파 HB 플래그 (x) (910)) 가 표시하면, 잡음 엔벨로프 제어 파라미터(들) (918) (인코더) 는 잡음 (274) 에 적용될 엔벨로프가 느리게-변하는 엔벨로프임을 표시한다 (예컨대, 잡음 엔벨로프 변조기 (256) 는 큰 길이의 샘플들을 이용할 수 있다 - 각각의 샘플에 대한 잡음 엔벨로프 추정 프로세스가 고조파 HB 여기의 대응하는 샘플의 절대값에 더 크게 의존한다). 다른 예에서, 플래그 (예컨대, 비 고조파 플래그 또는 멀티-소스 플래그, x) 는 다수의 오디오 소스들이 고-대역 중간 신호와 연관되는지 여부를 표시한다. 예시적인 실시형태에서, 비 고조파 플래그 또는 멀티-소스 플래그 (x) 는 고-대역 여기 발생 (299, 362) 을 위해 잡음 엔벨로프 파라미터 (916, 1016), 및 이득(1) 및 이득(2) 을 제어하는데 사용된다. 잡음 엔벨로프 변조기 (256) 는 (예컨대, 잡음 엔벨로프 제어 파라미터(들) (918) 에 기초하여) 엔벨로프를 잡음 (274) 에 적용하여 변조된 잡음 (482) (인코더) 을 발생시킬 수도 있다.
고-대역 여기 (276) (예컨대, 고조파 고-대역 여기 (237), 이득1 (인코더), 변조된 잡음 (482) (인코딩된), 및 이득2 (인코더) 에 기초하여 결정된 믹싱된 HB 여기) 는 추가적인 프로세싱을 위해 사용된다. 예를 들어, 고-대역 중간 채널 (292) 에 기초하여, 인코더 (900) 는 합성된 고-대역 중간 채널 (277) 을 발생시키기 위해 고-대역 여기 (276) 에 적용될 하나 이상의 LPC들을 추정 및 양자화할 수도 있다. 고-대역 중간 채널 (292) 및 합성된 고-대역 중간 채널 (277) 에 기초하여, 고 대역 이득 형상들 및 고 대역 이득 프레임은 도 1 의 디코더 (300) 와 같은 디코더로의 송신을 위해 추가로 추출 및 양자화된다.
비 고조파 고 대역 플래그 수정기 (922) 는 고-대역 이득 프레임 파라미터들 (282) 및 비 고조파 HB 플래그 (x) (910) 를 수신하도록 구성된다. 비 고조파 고 대역 플래그 수정기 (922) 는 고-대역 이득 프레임 파라미터들 (282) 및 비 고조파 HB 플래그 (x) (910) 에 기초하여, 수정된 비 고조파 HB 플래그 (y) (920) 를 발생시키도록 구성된다. 일부 프레임들에 대해, 비 고조파 HB 플래그 (x) (910) 및 수정된 비 고조파 HB 플래그 (y) (920) 는 고-대역에 대해 동일한 고조파 메트릭을 표시할 수도 있다 (예컨대, 비 고조파 HB 플래그 (x) (910) 및 수정된 비 고조파 HB 플래그 (y) (920) 는 동일한 값을 가질 수도 있다). 다른 프레임들에 대해, 비 고조파 HB 플래그 (x) (910) 및 수정된 비 고조파 HB 플래그 (y) (920) 는 고-대역에 대해 상이한 고조파 메트릭들을 표시할 수도 있다 (예컨대, 비 고조파 HB 플래그 (x) (910) 및 수정된 비 고조파 HB 플래그 (y) (920) 는 상이한 값들을 가질 수도 있다). 비 고조파 HB 플래그 (x) (910) 의 변형이 고-대역 이득 프레임 파라미터들 (282) (예컨대, 사전-양자화된 HB 이득 프레임 파라미터들) 에 기초하는 것으로서 설명되지만, 다른 구현예들에서, 비 고조파 HB 플래그 (x) (910) 는 고-대역 이득 프레임 비트스트림 (283) (예컨대, 양자화된 HB 이득 프레임 파라미터들) 또는 양자의 고-대역 이득 프레임 비트스트림 (283) (예컨대, 양자화된 HB 이득 프레임 파라미터들) 및 고-대역 이득 프레임 파라미터들 (282) (예컨대, 사전-양자화된 HB 이득 프레임 파라미터들) 에 기초하여 수정될 수도 있다. 추가적으로, 비 고조파 HB 플래그 (x) (910) 의 변형이 옵션적임에 유의한다. 스테레오 동작 구현예들과 같은, 일부 구현예들에서, 인코더 (900) (예컨대, TD-BWE 인코더) 는 도 2b 및 도 11 를 참조하여 설명된 바와 같이, ICBWE 에서의 사용을 위해 하나 이상의 다른 파라미터들을 출력한다.
도 10 을 참조하면, 디코더 (1000) 의 특정의 구현예가 도시된다. 디코더는 도 1 의 디코더 (300) 또는 도 3 의 ICBWE 디코더 (306) 를 포함하거나 또는 이에 대응할 수도 있다. 디코더 (1000) 는 LPC 역양자화기 (360), 고-대역 여기 발생기 (362), LPC 합성 필터 (364), 고-대역 이득 형상 역양자화기 (366), 고-대역 이득 형상 스케일러 (368), 고-대역 이득 프레임 역양자화기 (370), 고-대역 이득 프레임 스케일러 (372), 고 대역 믹싱 이득들 추정기 (1012), 및 잡음 엔벨로프 제어 파라미터 추정기 (1016) 를 포함한다. 일부 구현예들에서, 디코더 (1000) 는 중간 신호 고 대역 코딩 (예컨대, 중간 채널 BWE 디코딩) 에 사용되는 TD-BWE 디코더이다.
디코더 (1000) 는 하나 이상의 비트스트림들을 수신하도록 구성된다. 하나 이상의 비트 스트림들은 고-대역 LPC 비트스트림 (272), 고-대역 이득 형상 비트스트림 (280) 및 고-대역 이득 프레임 비트스트림 (283) 을 포함할 수도 있다. 디코더 (1000) 는 수정된 비 고조파 HB 플래그 (y) (1020) 를 수신하도록 추가로 구성된다. 수정된 비 고조파 HB 플래그 (예컨대, 멀티-소스 플래그, y) (1020) 는 비 고조파 HB 플래그 (x) (910) 또는 수정된 비 고조파 HB 플래그 (y) (920) 를 포함하거나 또는 이에 대응할 수도 있다. 예를 들어, 디코더 (1000) 는 수정된 비 고조파 HB 플래그 (y) (920) 를 (인코더 (900) 로부터) 수정된 비 고조파 HB 플래그 (y) (1020) 를 수신할 수도 있다.
다른 구현예들에서, 디코더 (1000) 는 비 고조파 HB 플래그 (x) (910) 를 (인코더 (900) 로부터) 수신할 수도 있으며, 수정된 비 고조파 HB 플래그 (y) (1020) 를 발생시킬 수도 있다. 예를 들어, 디코더 (1000) 는 비 고조파 고 대역 플래그 수정기, 예컨대 도 9 의 비 고조파 고 대역 플래그 수정기 (922) 를 포함할 수도 있으며, 비 고조파 HB 플래그 (x) (910) 를 수신할 수도 있다. 이 예에서, 디코더 (1000) 는 또한 인코더 (900) 로부터 고-대역 이득 프레임 파라미터들 (282) 과 같은 고 대역 이득 프레임 파라미터를 수신할 수도 있으며, 디코더 (1000) 는 고 대역 이득 프레임 파라미터 및 비 고조파 HB 플래그 (x) (910) 에 기초하여 비 고조파 HB 플래그 (y) (1020) 를 결정할 수도 있다. 일부 구현예들에서, 디코더 (1000) 는 비 고조파 HB 플래그 (x) (910) 및 수정된 비 고조파 HB 플래그 (y) (920) 에 독립적으로, 수정된 비 고조파 HB 플래그 (y) (1020) 를 발생시키도록 구성된다.
디코더 (1000) 는 또한 저 대역 보이스 인자들 (z) (1014) 를 수신할 수도 있다. 저 대역 보이스 인자들 (z) (1014) 은 도 9 의 저 대역 보이스 인자들 (z) (914) 을 포함하거나 또는 이에 대응할 수도 있다. 일부 구현예들에서, 디코더 (1000) 는 저 대역 보이스 인자들 (z) (914) 을 저 대역 보이스 인자들 (z) (1014) 로서 수신할 수도 있다. 다른 구현예들에서, 디코더 (1000) 는 저 대역 보이스 인자들 (z) (1014) 을 계산할 수도 있거나, 또는 도 3a 의 저-대역 디코더 (304), 중간 채널 BWE 디코더 (302), 또는 ICBWE 디코더 (306) 와 같은, 다른 컴포넌트로부터 저 대역 보이스 인자들 (z) (1014) 을 수신할 수도 있다.
디코더 (1000) 는 도 3a 및 도 3b 의 ICBWE 디코더 (306) 를 참조하여 설명된 것들과 유사하고 도 9 의 인코더 (900) 를 참조하여 설명된 것들과 유사한 동작들을 수행할 수도 있다. 예를 들어, 고 대역 믹싱 이득들 추정기 (1012) 는 도 9 의 고 대역 믹싱 이득들 추정기 (912) 를 참조하여 설명된 것들과 유사한 동작들을 수행할 수도 있다. 예시하기 위하여, 고 대역 믹싱 이득들 추정기 (1012) 는 저 대역 보이스 인자들 (z) (1014) 및 수정된 비 고조파 HB 플래그 (y) (1020) 를 수신할 수도 있다. 저 대역 보이스 인자들 (z) (1014) 및 수정된 비 고조파 HB 플래그 (y) (1020) 에 기초하여, 고 대역 믹싱 이득들 추정기 (1012) 는 본원에서 추가로 설명되는 바와 같이, 믹싱 이득들 (예컨대, 이득(1) (디코더) 및 이득(2) (디코더)) 을 발생시킨다. 믹싱 이득들 (예컨대, 이득(1) (디코더) 및 이득(2) (디코더)) 은 고-대역 여기 발생기 (362) 로 제공된다. 고-대역 여기 발생기 (362) 는 도 9 의 고-대역 여기 발생기 (299) 에 대응하고 도 9 의 고-대역 여기 발생기 (299) 를 참조하여 설명된 것들과 유사한 동작들을 수행할 수도 있다.
잡음 엔벨로프 제어 파라미터 추정기 (1016) 는 도 9 의 잡음 엔벨로프 제어 파라미터 추정기 (916) 와 유사한 동작들을 수행할 수도 있다. 예시하기 위하여, 잡음 엔벨로프 제어 파라미터 추정기 (1016) 는 저 대역 보이스 인자들 (z) (1014) 및 수정된 비 고조파 HB 플래그 (y) (1020) 를 수신한다. 잡음 엔벨로프 제어 파라미터 추정기 (1016) 는 도 9 를 참조하여 설명된 잡음 엔벨로프 제어 파라미터(들) (918) 의 발생과 유사하게, 저 대역 보이스 인자들 (z) (1014) 및 수정된 비 고조파 HB 플래그 (y) (1020) 에 기초하여, 잡음 엔벨로프 제어 파라미터 (1018) (디코더) 를 발생시킨다.
수정된 비 고조파 HB 플래그 (y) (1020) 에 기초하여, 디코더 (1000) 는 고-대역 여기 (380) 를 발생시킨다. 고-대역 여기 (380) 의 발생은 변조된 잡음을 발생시키고 믹싱 동작을 수행하여 고-대역 여기 (380) 를 발생시키는 고-대역 여기 발생기 (362) 를 포함할 수도 있다. 변조된 잡음은 잡음 엔벨로프 제어 파라미터 (1018) (디코더) 에 기초하여 발생될 수도 있다. 믹싱 동작은 도 9 를 참조하여 설명된 바와 같이, 이득(1) (디코더) 및 이득(2) (디코더) 에 기초하여 수행될 수도 있다.
발생된 고-대역 여기 (380) 에 기초하여, 이득 프레임 및 이득 형상들의 디코더 값들, 및 BWE 비트스트림으로부터의 다른 파라미터들이 결정된다. 추가적으로, 디코더 (1000) 는 디코딩된 고-대역 중간 채널 (662) 을 발생시킨다. 예를 들어, 역양자화된 고-대역 LPC들 (640), 역양자화된 고-대역 이득 형상 (648), 및 역양자화된 고-대역 이득 프레임 (652) 은 디코딩된 고-대역 중간 채널을 발생시키는데 사용된다. 디코더 (1000) 에 의해 사용되는 수정된 비 고조파 HB 플래그 (y) (1020) 가 (특정의 프레임에 대한 값에서) 인코더 (900) 에 의해 사용되는 비 고조파 HB 플래그 (x) (910) 및 수정된 비 고조파 HB 플래그 (y) (920) 와 상이하므로, 이득 프레임 및 이득 형상들이 인코더 (900) 에서 추정되는 고-대역 여기 (276) 가 이득 프레임 및 이득 형상들이 디코더 (1000) 에서 적용되는 고-대역 여기 (380) 와 상이할 수도 있다는 점에 유의한다.
일부 구현예들에서, 디코더 (1000) (예컨대, TD-BWE 디코더) 는 또한 도 3a, 도 3b, 및 도 6 을 참조하여 설명된 바와 같이, 스테레오 동작의 경우에 ICBWE 디코딩에 사용되는 어떤 다른 파라미터들을 출력한다.
스테레오 인코딩 및 디코딩에서, ICBWE, 목표 고 대역 채널, 및 중간 채널에 대한 엔벨로프 형상 변조된 잡음은 유사할 수도 있거나 또는 상이한 채널들에 대해 상이할 수도 있다. 또한, 믹싱 이득들은 중간 채널, ICBWE, 및 목표 고 대역 채널에 대해 상이할 수도 있으며, 도 11 내지 도 12 에서 설명된 바와 같이 결정될 수도 있다.
도 9 및 도 10 을 참조하여 설명된 바와 같이, BWE 는 플래그, 예컨대 비 고조파 HB 플래그 (x) (910) 의 값에 기초하여, 상이한 비선형 믹싱, 상이한 비선형 구성들, 등으로 수행될 수도 있다. 예를 들어, 플래그의 값은 상이한 코딩 모드들 (예컨대, 유성음, 무성음, 백그라운드, 등) 에 대응할 수도 있는 다수의 소스들 또는 다수의 오브젝트들, 등의 존재를 표시할 수도 있다. 따라서, 비 고조파 HB 플래그 (x) (910) 는 멀티-소스 플래그로서 지칭될 수도 있다. 그 결과, 향상된 코딩 및 재생은 도 9 내지 도 12 의 인코더/디코더에 의해 달성될 수도 있다.
도 11 을 참조하면, 도 1 의 인코더의 채널간 대역폭 확장 인코더의 제 3 부분 (1100) 의 특정의 구현예가 도시된다. 일부 구현예들에서, 제 3 부분 (1100) 은 ICBWE 인코더 (204) 에 포함된다.
제 3 부분 (1100) 은 고 대역 믹싱 이득들 추정기 (1102) 를 포함한다. 고 대역 믹싱 이득들 추정기 (1102) 는 도 2b 및 도 9 를 참조하여 설명된, 믹싱 이득들 (예컨대, 이득(1) (인코더) 및 이득(2) (인코더)) 를 수신하고, 그리고 도 9 를 참조하여 설명된, 수정된 비 고조파 HB 플래그 (y) (920) 를 수신하도록 구성된다. 고 대역 믹싱 이득들 추정기 (1102) 는 도 4 의 비-참조 고-대역 여기 발생기 (408) 로 제공될 수도 있는, 이득(a) (인코더) 및 이득(b) (인코더) 를 발생시키도록 구성된다.
일부 구현예들에서, 이득(a) (인코더) 및 이득(b) (인코더) 는 HB 참조 및 비 참조 채널들의 상대적인 에너지들, HB 비 참조 채널의 잡음 플로어, 등에 기초하여 결정된다. 추가적으로, 또는 대안적으로, 이득(a) (인코더) 및 이득(b) (인코더) 는 도 2b 및 도 9 를 참조하여 설명된 이득(1) (인코더) 및 이득(2) (인코더) 과 동일할 수도 있다. 다른 구현예들에서, 이득(a) (인코더) 및 이득(b) (인코더) 는 각각의 프로세싱 프레임 당 다수의 서브프레임들에서 각각 추정된 이득(1) (인코더) 및 이득(2) (인코더) 의 평균 값이며, 이 값들은 수정된 비 고조파 HB 플래그 (y) (920) 에 기초하여 추가로 수정된다. 일부 대안적인 구현예들에서, 고 대역 믹싱 이득들 추정기 (1102) 는 비 고조파 HB 플래그 (x) (910) 에 기초하여 이득(a) (인코더) 및 이득(b) (인코더) 의 값들을 결정할 수도 있다는 점에 유의해야 한다.
도 12 를 참조하면, 도 1 의 디코더의 채널간 대역폭 확장 디코더의 부분 (1200) 의 특정의 구현예가 도시된다. 일부 구현예들에서, 부분 (1200) 은 ICBWE 디코더 (306) 에 포함된다.
부분 (1200) 은 고 대역 믹싱 이득들 추정기 (1202) 를 포함한다. 고 대역 믹싱 이득들 추정기 (1202) 는 도 3b 및 도 10 을 참조하여 설명된, 믹싱 이득들 (예컨대, 이득(1) (디코더) 및 이득(2) (디코더)) 를 수신하고, 그리고, 도 9 및 도 10 을 참조하여 설명된, 수정된 비 고조파 HB 플래그 (y) (920) 를 수신하도록 구성된다. 고 대역 믹싱 이득들 추정기 (1202) 는 이득(a) (디코더) 및 이득(b) (디코더) 를 발생시키도록 구성된다. 이득(a) (디코더) 및 이득(b) (디코더) 는 도 6 의 비-참조 고-대역 여기 발생기 (602) 로 제공될 수도 있다. 다른 구현예들에서, 이득 (a) (디코더) 및 이득 (b) (디코더) 는 각각의 프로세싱 프레임 당 다수의 서브프레임들에서 각각 추정된 이득(1) (디코더) 및 이득(2) (디코더) 의 평균 값이며, 이 값들은 수정된 비 고조파 HB 플래그 (y) (1020) 에 기초하여 추가로 수정된다. 일부 대안적인 구현예들에서, 고 대역 믹싱 이득들 추정기 (1202) 가 인코더로부터 송신되거나 또는 ICBWE 디코더 (306) 자체에서 추정된 비 고조파 HB 플래그 (x) 등가물에 기초하여, 이득(a) (디코더) 및 이득(b) (디코더) 의 값들을 결정할 수도 있는 점에 유의해야 한다.
위에서 설명된 양태들의 예시적인 구현예에서, 다음 예가 플래그 (예컨대, 비 고조파 HB 플래그 (x) (910)), 수정된 플래그 (예컨대, 수정된 비 고조파 HB 플래그 (y) (920)), 또는 양자의 발생, 이용, 및 변형에 관련된 의사-코드와 함께 제공된다. 비 고조파 HB 플래그 (예컨대, 비 고조파 HB 플래그 (x) (910)) 가 식별되는 방법 및 비 고조파 HB 플래그 (예컨대, 비 고조파 HB 플래그 (x) (910)) 가 수정되는 방법의 일예가 아래에 설명된다.
특정의 구현예에서, 프레임의 고-대역 (HB) 에너지 (HB_Energy 로 표시됨) 의 추정이 결정된다. 에너지 및 (예컨대, 에너지의 제곱근일 수도 있는) 전력이 상호교환가능하게 사용된다는 점에 유의한다. 추가적으로, 장기 HB 에너지 (HB_Energy_LongTerm 로 표시됨) 가 취출된다. 장기 HB 에너지는 다수의 프레임들에 걸쳐서 평활화되었을 수도 있다. 비는 다음과 같이 계산될 수도 있다: 비 = (HB_Energy) / (HB_Energy_LongTerm).
LB 보이싱의 평균은 피치 래그에서의 LB 신호의 상관의 강도에 기초하여 결정된다. 보이싱은 보이스 인자들과는 상이하다: 보이스 인자는 적응적 코드북 이득과 고정된 코드북 이득의 혼합의 비를 나타내는 중간 LB 의 대수 코드-여기 선형 예측 (ACELP) 코딩 방법의 파라미터이다). 추가적으로, 이전 (예컨대, 가장 최근에) 프레임의 이득 프레임이 취출될 수도 있다.
HB 에너지 비, LB 보이싱의 평균, 및 이전 프레임의 이득 프레임이 비 고조파 HB 신호들에 대해 사전-계산된 평균 및 공분산 성분들을 갖는 가우시안 믹싱 모델 (GMM) 에 기초하여, HB 가 비 고조파일 우도 (아래에서 pu 로 표시됨) 를 계산하는데 사용될 수도 있다. 추가적으로, 비, LB 보이싱의 평균, 및 이전 프레임의 이득 프레임이 고조파 HB 신호들에 대해 사전-계산된 평균 및 공분산 성분들을 갖는 가우시안 믹싱 모델에 기초하여, HB 가 고조파일 우도 (아래에서 pv 로 표시됨) 를 계산하는데 사용될 수도 있다. 이들 가능성들 (pu 및 pv) 에 기초하여, 이들 가능성들 사이의 상이한 가능한 상관관계들은 HB 의 고조파의 다양한 레벨들로서 분류될 수도 있다.
추가로 예시하기 위해, 하기 예들은 컴파일되어, 메모리, 예컨대 제 1 디바이스 (104) 의 메모리 (153) 또는 도 1 의 제 2 디바이스 (106), 또는 도 18 의 메모리 (1832) 의 메모리에 저장될 수도 있는 예시적인 의사-코드 (예컨대, 부동 소수점에서의 단순화된 C-코드) 를 나타낸다. 의사-코드는 본원에서 설명하는 양태들의 가능한 구현예를 예시한다. 의사-코드는 실행가능 코드의 부분이 아닌 주석들을 포함한다. 의사-코드에서, 주석의 시작은 순방향 슬래시와 별표 (예컨대, "/*") 로 표시되며, 주석의 끝은 별표와 순방향 슬래시 (예컨대, "*/") 로 표시된다. 예시하기 위하여, 주석 "COMMENT" 는 의사-코드 내에 /* COMMENT */ 로서 나타날 수도 있다.
제공된 예에서, "==" 연산자는 "A==B" 가 A 의 값이 B 의 값과 같을 때 참 (TRUE) 의 값을 가지고, 그렇지 않으면 거짓 (FALSE) 의 값을 갖는, 등가 비교를 표시한다. "&&" 연산자는 논리 합 (AND) 연산을 표시한다. "||" 연산자는 논리 OR 연산을 표시한다. ">" 연산자는 "보다 큰" 것을 나타내며, ">=" 연산자는 "보다 크거나 또는 동일한" 것을 나타내며, "<" 연산자는 "보다 작은" 것을 표시한다. 숫자 뒤의 용어 "f" 는 부동 소수점 (예컨대, 10진수) 숫자 형식을 표시한다.
제공된 예에서, "*" 는 곱셈 연산을 나타낼 수도 있으며, "+" 또는 "sum" 은 가산 연산을 나타낼 수도 있으며, "abs" 는 절대값 연산을 나타낼 수도 있으며, "avg" 는 평균 연산을 나타낼 수도 있으며, "++" 는 증분을 표시할 수도 있으며, "-" 는 감산 연산을 표시할 수도 있으며, "/" 는 나눗셈 연산을 나타낼 수도 있다. "=" 연산자는 할당을 나타낸다 (예컨대, "a=1" 는 1 의 값을 변수 "a" 에 할당한다).
가능성들 사이의 상이한 가능한 관계들을 고-대역의 고조파의 다양한 레벨들로서 분류하는 예 1A 가 아래에 제시된다. 특정의 구현예에서, 예 1A 의 동작들은 도 9 의 비 고조파 고 대역 검출기 (906) 에 의해 수행된다.
예 1A
if (pv < 0.1 && pu > 0.1 || Prev_Frame's_Non_Harmonic_HB_flag == 1 && pu*2.4479 > pv) /*이전 프레임의 비 고조파 고-대역 플래그는 "Prev_Frame's_Non_Harmonic_HB_flag" 로서 표시됨 */
{
Non_Harmonic_HB_flag = 1; /* 강한 비-고조파 HB 를 표시함 */
}
else if (pu < 0.2f && pv > 0.5f ||
Prev_Frame's_Non_Harmonic_HB_flag == 0 && pu*2.4479 < pv)
{
Non_Harmonic_HB_flag = 0; /* 강한 고조파 HB 를 표시함 */
}
else
{
Non_Harmonic_HB_flag = 2; /* 강한 약한 비-고조파 HB 를 표시함 */
}
가능성들 사이의 상이한 가능한 관계들을 고 대역의 고조파의 2개의 상이한 레벨들 중 하나로서 분류하는 예 1B 가 아래에 제시된다. 예를 들어, 비-고조파 HB 플래그는 고조파 또는 비 고조파를 표시할 수도 있다. 특정의 구현예에서, 예 1B 의 동작들은 도 9 의 비 고조파 고 대역 검출기 (906) 에 의해 수행된다.
예 1B
hCPE->hStereoICBWE->MSFlag = 0; /* 멀티-소스 플래그를 초기화함 */
v = 0.3333f * sum_f(voicing, 3); /* 이는 평균 저 대역 보이싱임 */
t = log10( (hCPE->hStereoICBWE->icbweRefEner + 1e-6f) / (lbEner + 1e-6f) );
/* 스펙트럼 기울기 */
/* 회귀 (회귀는 비-고조파 HB 콘텐츠의 우도의 표시자임) 값을 먼저 계산하기 위한 3 레벨 의사결정 트리 */
/* 의사결정 트리에 대한 미리 결정된 임계치들은 thr[] 어레이에 저장된다. 만족된 조건들에 기초한 미리 결정된 회귀 값들은 regV[] 어레이에 존재한다 */
if( t < thr[0] )
{
if( t < thr[1] )
{
regression = (v < thr[3]) ? regV[0] : regV[1];
}
else
{
regression = (v < thr[4]) ? regV[2] : regV[3];
}
}
else
{
if( t < thr[2] )
{
regression = (v < thr[5]) ? regV[4] : regV[5];
}
else
{
regression = (v < thr[6]) ? regV[6] : regV[7];
}
}
/* 회귀를 어려운 결정 (분류) 으로 변환함 */
if( regression > 0.79f && !( st->bwidth < SWB || hCPE->vad_flag == 0 ) )
/* 회귀가 아주 높은 경우 및 프레임이 SWB 콘텐츠를 갖거나 또는 더 높은 경우 및 현재의 프레임이 활성 프레임일 경우, 비-고조파 콘텐츠를 나타내는, MSFlag = 1 을 선택한다 */
{
MSFlag = 1;
}
잡음 엔벨로프 제어 파라미터에 기초하여 잡음 엔벨로프를 추출하고 이를 백색 잡음 신호 상에 적용하는 예 2 가 아래에 제시된다. 예 2 는 또한 잡음 엔벨로프 제어 파라미터(들) (918) (인코더) 또는 잡음 엔벨로프 제어 파라미터 (1018) (디코더) 와 같은, 잡음 엔벨로프 제어 파라미터를 결정하는 동작들을 포함한다. 특정의 구현예에서, 예 2 의 동작들은 도 9 의 잡음 엔벨로프 제어 파라미터 추정기 (916) 및 잡음 엔벨로프 변조기 (256) 또는 도 10 의 잡음 엔벨로프 제어 파라미터 추정기 (1016) 및 고-대역 여기 발생기 (362) 에 의해 수행된다. 예 2 가 적어도 3개의 가능한 값들을 갖는 비 고조파 플래그를 포함하지만, 다른 구현예들에서, 유사한 동작들이 2개의 가능한 값들을 갖는 비 고조파 플래그에 기초하여 수행될 수도 있다. 추가적으로 또는 대안적으로, 유사한 동작들이 예 1B 의 멀티-소스 플래그 MSFlag 에 기초하여 수행될 수도 있다.
예 2
/* 잡음 엔벨로프 제어 파라미터 추정 */
if (Non_Harmonic_HB_flag > 0) /* HB 가 강한 고조파가 아님을 표시함. 다시 말해서, 플래그의 값 > 0 은 HB 가 적어도 약한 비 고조파라는 것을 의미함 */
{
temp = 0.995f;
filter_numerator = 1.0f - temp; /* 제어 파라미터 1 */
filter_denominator = -temp; /* 제어 파라미터 2 */
}
else
{
temp = 1.09875f - 0.49875f * average(voice_factors);
filter_numerator = 1.0f - temp; /* 제어 파라미터 1 */
filter_denominator = -temp; /* 제어 파라미터 2 */
}
/* 잡음 엔벨로프 변조기 - 필터 계수들에 기초하여 엔벨로프를 추출함 */
for( k = 0; k < FrameLength; k++ )
{
Noise_Envelope[k] = temp + filter_numerator *
abs(Harmonic_Excitation[k]);
temp = - filter_denominator * Noise_Envelope[k];
}
/* 잡음 엔벨로프 변조기 - 무작위 잡음에 대해 엔벨로프를 적용함 */
for( k = 0; k < FrameLength; k++ )
{
Modulated_Noise[k] = Random_Noise[k] * Noise_Envelope[k];
}
잡음 엔벨로프가 Non_Harmonic_HB_flag 에 기초하여 추정되는 방법의 제어는 디코딩된 고-대역 신호의 "버즈니스 (buzziness)" 를 실제로 제어하는, 잡음의 제어 엔벨로프를 가능하게 한다. 신호가 고조파일 수록, 신호가 버즈 (buzz) 가 더 많아지는 경향이 있다. 대안적으로, 신호가 덜 고조파일 수록, 신호가 "버즈" 가 더 적은 (그리고 더 명확한) 경향이 있다. 예 2 의 의사-코드에 대해, 디코더 (300) 또는 디코더 (1000) 와 같은 디코더에서 구현될 때, 비 고조파 HB 플래그는 동일할 수도 있거나 또는 수정된 비 고조파 HB 플래그일 수도 있는, 수신된 비 고조파 HB 플래그로 대체된다. 다른 구현예들에서, 디코더에서 구현될 때, 비 고조파 HB 플래그는 디코더에서 결정된다.
여기 믹싱 (예컨대, 이득들) 이 비 고조파 HB 플래그에 기초하는 예 3 이 아래에 제시된다. 특정의 구현예에서, 예 3 의 동작들은 도 9 의 고-대역 여기 발생기 (299) 또는 도 10 의 고-대역 여기 발생기 (362) 에 의해 수행된다. 예 3 이 적어도 3개의 가능한 값들을 갖는 비 고조파 플래그를 포함하지만, 다른 구현예들에서, 유사한 동작들이 2개의 가능한 값들을 갖는 비 고조파 플래그에 기초하여 수행될 수도 있다. 추가적으로 또는 대안적으로, 유사한 동작들이 예 1B 의 멀티-소스 플래그 MSFlag 에 기초하여 수행될 수도 있다.
예 3
if (Non_Harmonic_HB_flag == 1) /* 이 플래그에 대한 1 의 값은 HB 가 강한 비 고조파임을 암시함 */
{
/* 강한 비 고조파. 따라서, 스케일링된 변조된 잡음을 직접 사용하고, 임의의 고조파 여기 성분을 믹싱하지 않음 */
scale = square_root(
Energy(Harmonic_HB_Excitation)/Energy(Modulated_Noise) );
for( k = 0; k < FrameLength; k++ )
{
High_Band_Excitation[k] = Modulated_Noise[k] * scale;
}
}
else
{
/* 실제로, 고조파 및 잡음 성분들을 믹싱함 */
if (Non_Harmonic_HB_flag == 2) /* HB 가 약한 비 고조파임을 표시함 */
{
/* HB 가 약한 비 고조파이므로, HB 가 강한 고조파인 경우에 사용되었던 값의 단지 절반만을 사용함 */
temp = sqrt( voice_factors) * 0.5f;
}
else /* Non_Harmonic_HB_flag == 0 - HB 가 강한 고조파임을 암시함 */
{
temp = sqrt( voice_factors);
}
Gain1 = square_root (temp);
Gain2 = square_root (1.0f - vf_tmp) * square_root(
Energy(Harmonic_HB_Excitation)/Energy(Modulated_Noise) );
for( k=0; k < FrameLength; k++ )
{
High_Band_Excitation[k] = Gain1 * Harmonic_HB_Excitation[k] + Gain2 * Modulated_Noise[k];
}
}
도 13 을 참조하면, 오디오 신호 인코딩의 방법 (1300) 이 도시된다. 방법 (1300) 은 도 1 의 제 1 디바이스 (104) 에 의해 수행될 수도 있다. 특히, 방법 (1300) 은 인코더 (200) 에 의해, 예컨대 도 9 의 인코더 (900) (예컨대, 중간 채널 BWE 인코더) 에서 수행될 수도 있다.
방법 (1300) 은 1302 에서, 인코더에서 오디오 신호를 수신하는 단계를 포함한다. 예를 들어, 스테레오 구현예에서, 오디오 신호는 인코더 (900) 에서 수신되는 도 2 의 중간 채널 (222) 에 대응할 수도 있다. 비-스테레오 구현예에서, 오디오 신호는 도 1 의 제 1 오디오 채널 (130) 또는 제 2 오디오 채널 (132) 을 통해서 수신된 오디오 신호에 대응할 수도 있다.
방법 (1300) 은 1304 에서, 수신된 오디오 신호에 기초하여 고 대역 신호를 발생시키는 단계를 포함한다. 예를 들어, 스테레오 구현예에서, 고 대역 신호는 도 2 의 고-대역 중간 채널 (292) 에 대응할 수도 있다.
방법 (1300) 은 또한 1306 에서, 고 대역 신호의 고조파 메트릭을 표시하는 제 1 플래그 값을 결정하는 단계를 포함한다. 예를 들어, 제 1 플래그 값은 도 9 의 비 고조파 HB 플래그 (x) (910) 의 값에 대응할 수도 있다. 고조파 메트릭은 강한 고조파, 약한 고조파, 또는 강한 비-고조파의 값을 갖도록 결정될 수도 있다. 대안적으로, 고조파 메트릭은 고조파 또는 비 고조파의 값을 갖도록 결정될 수도 있다.
일부 구현예들에서, 고 대역 신호의 인코딩된 버전은 1308 에서 송신될 수도 있다. 예를 들어, 고 대역 신호의 인코딩된 버전은 도 2 의, 고-대역 중간 채널 비트스트림 (244), ICBWE 비트스트림 (242), 다운-믹스 비트스트림 (216), 또는 이들의 임의의 조합에 대응할 수도 있다.
방법 (1300) 은 또한 수신된 오디오 신호 (예컨대, 도 2a 의 저-대역 중간 채널 (294)) 에 기초하여 저 대역 신호를 발생시키는 단계 및 저 대역 신호의 저 대역 보이싱 값 (예컨대, 도 9 의 저 대역 보이싱 (w) (902)) 에 적어도 부분적으로 기초하여 플래그 값을 결정하는 단계를 포함할 수도 있다. 오디오 신호의 제 1 프레임에 대응하는 이득 프레임 값 (예컨대, 도 9 의 고-대역 이득 프레임 파라미터들 (282)) 이 결정될 수도 있으며, 오디오 신호의 제 1 프레임에 뒤따르는 제 2 프레임에 대응하는 제 1 플래그 값은 제 1 프레임의 이득 프레임 값 (예컨대, 도 9 의 이전 프레임의 이득 프레임 (904)) 에 적어도 부분적으로 기초하여 결정될 수도 있다.
제 1 플래그 값은 도 9 의 비 고조파 고 대역 검출기 (906) 를 참조하여 설명된 바와 같은, 고-대역 신호의 멀티-프레임 에너지 메트릭에 대한, 고 대역 신호 (예컨대, 도 9 의 고-대역 중간 채널 (292)) 의 프레임의 에너지 메트릭의 비에 적어도 부분적으로 기초하여 결정될 수도 있다.
고 대역 여기 신호는 고조파 고-대역 여기 (237) 에 기초하는 고-대역 여기 (276) 를 이용하여, 그리고 비 고조파 HB 플래그 (x) (910) 에 기초하는 믹싱 이득들 및 잡음 엔벨로프 제어 파라미터(들) (918) 를 이용하여, 발생된 도 9 의 스케일링된 합성된 고-대역 중간 채널 (281) 과 같은, 고 대역 신호의 합성된 버전을 발생시키기 위해, 고조파 확장된 저 대역 여기 신호에 기초하여 그리고 추가로 제 1 플래그 값에 기초하여, 발생될 수도 있다. 인코더는 비 고조파 고 대역 플래그 수정기 (922) 에서와 같이, 임계치를 초과하는 합성된 버전에 대응하는 이득 프레임 파라미터에 기초하여 제 1 플래그 값을 수정할 수도 있다.
방법 (1300) 은 오디오 신호 (예컨대, 제 1 오디오 채널 (130)) 및 제 2 오디오 신호 (예컨대, 제 2 오디오 채널 (132)) 를 수신하고 오디오 신호 및 제 2 오디오 신호에 기초하여 중간 신호 (예컨대, 중간 채널 (222)) 를 발생시키는 스테레오 인코더에서 수행될 수도 있다. 고 대역 신호는 중간 신호 (예컨대, 도 2 및 도 9 의 고-대역 중간 채널 (292)) 의 고-대역 부분에 대응할 수도 있다. 일 예로서, 제 1 플래그 값은 도 9 의 BWE 인코더에서 고-대역 여기 (276) 를 발생시키는데 사용될 수도 있다. 다른 예로서, 제 1 플래그 값은 채널간 대역 폭 확장판 (ICBWE) 인코딩 동작 동안의 제 1 플래그 값에 적어도 부분적으로 기초하여 비-참조 고 대역 여기 신호를 발생시키는데 사용될 수도 있다 (예컨대, 도 11 의 고 대역 믹싱 이득들 추정기 (1102) 로부터의 믹싱 이득들을 이용하여 발생된 도 6 의 비-참조 고-대역 여기 (638)).
방법 (1300) 은 고 대역 신호의 고조파 메트릭을 표시하는 제 1 플래그 값에 기초하여 향상된 인코딩 정확도를 가능하게 할 수도 있다. 예를 들어, 제 1 플래그 값은 도 9 의 고-대역 여기 발생기 (299) 를 참조하여 도시된 바와 같은, 고-대역 여기 (276) 의 발생을 제어하는데 사용될 수도 있다. 향상된 인코딩 정확도는 도 1 의 제 2 디바이스 (106) 와 같은, 디코딩 디바이스에서의, 오디오 플레이백의 향상된 정확도를 가능하게 할 수도 있다.
도 14 를 참조하면, 오디오 신호 인코딩의 방법 (1400) 이 도시된다. 방법 (1400) 은 도 1 의 제 1 디바이스 (104) 에 의해 수행될 수도 있다. 특히, 방법 (1400) 은 도 9 의 인코더 (900) (예컨대, 중간 채널 BWE 인코더) 에서와 같이, 인코더 (200) 에 의해 수행될 수도 있다.
방법 (1400) 은 1402 에서, 고 대역 신호의 프레임에 대응하는 이득 프레임 파라미터를 결정하는 단계를 포함한다. 예를 들어, 이득 프레임 파라미터는 도 9 의 고-대역 이득 프레임 파라미터들 (282) 중 하나 이상에 대응할 수도 있다. 이득 프레임 파라미터는 저-대역 여기 신호에 기초하여 그리고 플래그 (예컨대, 도 9 의 비 고조파 HB 플래그 (x) (910)) 에 기초하여 고-대역 여기 신호 (예컨대, 도 9 의 고-대역 여기 (276)) 를 발생시키고, 고-대역 여기 신호에 기초하여 고-대역 신호의 합성된 버전 (예컨대, 도 9 의 스케일링된 합성된 고-대역 중간 채널 (281)) 을 발생시키고, 그리고 (예컨대, 고-대역 이득 프레임 파라미터들 (282) 을 발생시키기 위해) 고-대역 신호의 프레임을 고-대역 신호의 합성된 버전의 프레임과 비교함으로써, 발생될 수도 있다.
방법 (1400) 은 1404 에서, 이득 프레임 파라미터를 임계치와 비교하는 단계를 포함한다. 예를 들어, 도 9 를 참조하면, 비 고조파 고 대역 플래그 수정기 (922) 는 고-대역 이득 프레임 파라미터들 중 하나 이상을 임계량과 비교할 수도 있다. 예를 들어, 고-대역 이득 프레임 파라미터의 상대적으로 큰 값은 강한 고조파인 것으로 예측되는 고 대역 신호의 프레임이 대신 비-고조파일 수도 있다는 것을 표시할 수도 있다.
방법 (1400) 은 이득 프레임 파라미터가 임계치보다 큰 것에 응답하여, 프레임에 대응하고 고 대역 신호의 고조파 메트릭을 표시하는 플래그를 수정하는 단계를 포함한다. 일부 구현예들에서, 플래그 (예컨대, 도 9 의 비 고조파 HB 플래그 (x) (910)) 는 고 대역 신호가 고조파임을 표시하는 제 1 값을 갖는 것으로부터 고 대역 신호가 비-고조파임을 표시하는 제 2 값을 갖는 것으로 수정될 수도 있다.
방법 (1400) 은 1408 에서, 수정된 플래그를 송신하는 단계를 더 포함한다. 예를 들어, 수정된 플래그 (예컨대, 도 9 의 수정된 비 고조파 HB 플래그 (y) (920)) 는 도 2 의, 고-대역 중간 채널 비트스트림 (244), ICBWE 비트스트림 (242), 다운-믹스 비트스트림 (216), 또는 이들의 임의의 조합을 통해서, 제 2 디바이스 (106) 로 송신될 수도 있다.
방법 (1400) 은 고 대역의 고조파 메트릭을 부정확하게 표시하도록 결정되는 플래그 값들을 정정함으로써 향상된 인코딩 정확도를 가능하게 할 수도 있다. 수정된 플래그 값은 추가적인 인코딩에서, 예컨대, 도 2, 6, 및 11 을 참조하여 설명된 바와 같이, 채널간 BWE 인코딩을 위한 믹싱 이득 값들을 결정하기 위해 사용될 수도 있다. 수정된 플래그 값을 디코더로 전송하는 것은 디코더로 하여금 디코더에서 오디오 신호의 더 정확한 합성된 버전을 발생시키게 할 수도 있다. 향상된 디코딩 정확도는 디코딩 디바이스에서의 오디오 플레이백의 향상된 정확도를 가능하게 할 수도 있다.
도 15 를 참조하면, 오디오 신호 인코딩의 방법 (1500) 이 도시된다. 방법 (1500) 은 도 1 의 제 1 디바이스 (104) 에 의해 수행될 수도 있다. 특히, 방법 (1500) 은 도 9 의 인코더 (900) (예컨대, 중간 채널 BWE 인코더) 에서와 같이, 인코더 (200) 에 의해 수행될 수도 있다.
방법 (1500) 은 1502 에서, 인코더에서 적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하는 단계를 포함한다. 예를 들어, 스테레오 구현예에서, 제 1 오디오 신호는 도 2 의 좌측 채널에 대응할 수도 있으며, 제 2 오디오 신호는 도 2 의 우측 채널에 대응할 수도 있다.
방법 (1500) 은 1504 에서, 중간 신호를 발생시키기 위해 제 1 오디오 신호 및 제 2 오디오 신호에 대해 다운믹스 동작을 수행하는 단계를 포함한다. 예를 들어, 중간 신호는 도 2 의 중간 채널 (222) 에 대응할 수도 있다. 다운믹스 동작은 도 2 의 다운믹서 (202) 에 의해 수행될 수도 있다.
방법 (1500) 은 1506 에서, 중간 신호에 기초하여 저-대역 중간 신호 및 고-대역 중간 신호를 발생시키는 단계를 포함한다. 예를 들어, 저-대역 중간 신호는 도 2 의 저-대역 중간 채널 (294) 에 대응할 수도 있으며, 고-대역 중간 신호는 도 2 의 고-대역 중간 채널 (292) 에 대응할 수도 있다. 저-대역 중간 신호는 중간 신호의 저 주파수 부분에 대응하며, 고-대역 중간 신호는 중간 신호의 고 주파수 부분에 대응한다.
방법 (1500) 은 1508 에서, 저 대역 신호의 보이싱 값 및 고-대역 중간 신호에 대응하는 이득 값에 적어도 부분적으로 기초하여, 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하는 단계를 포함한다. 예를 들어, 플래그는 멀티-소스 플래그로서 지칭될 수도 있는 도 9 의 비 고조파 HB 플래그 (x) (910) 의 값에 대응할 수도 있다. 특정의 구현예에서, 멀티-소스 플래그는 다수의 오디오 소스들이 고-대역 중간 신호와 연관되는지 여부를 표시한다. 플래그의 값은 도 9 의 저 대역 보이싱 (w) (902) 및 이전 프레임의 이득 프레임 (904) 에 기초할 수도 있다.
방법 (1500) 은 1510 에서, 멀티-소스 플래그에 적어도 부분적으로 기초하여 고-대역 중간 여기 신호를 발생시키는 단계를 포함한다. 예를 들어, 고-대역 중간 여기 신호는 도 9 의 고-대역 여기 (276) 를 포함하거나 또는 이에 대응할 수도 있다. 특정의 구현예에서, 인코더는 비선형 고조파 여기 신호 (예컨대, 고조파 고-대역 여기 (237)) 및 변조된 잡음 (예컨대, 변조된 잡음 (482)) 을 결합함으로써 고 대역 여기 신호를 발생시키도록 구성될 수도 있으며, 인코더는 멀티-소스 플래그에 기초하여 비선형 고조파 여기 신호와 변조된 잡음의 믹싱을 제어할 수도 있다. 예를 들어, 인코더는 멀티-소스 플래그에 기초하여, 비선형 고조파 여기 신호와 연관된 제 1 이득 (예컨대, 도 9 의 이득(1)) 및 변조된 잡음과 연관된 제 2 이득 (예컨대, 도 9 의 이득(2)) 중 적어도 하나의 값을 설정하도록 구성될 수도 있다. 다른 예로서, 인코더는 비선형 고조파 여기 신호 (예컨대, 고조파 고-대역 여기 (237)) 에 기초하여, 그리고 추가로 잡음 엔벨로프 제어 파라미터 (예컨대, 도 9 의 잡음 엔벨로프 제어 파라미터(들) (918)) 에 기초하여, 변조된 잡음을 발생시키도록 구성될 수도 있다. 잡음 엔벨로프 제어 파라미터는 멀티-소스 플래그에 적어도 부분적으로 기초할 수도 있으며 (예컨대, 잡음 엔벨로프 제어 파라미터 추정기 (916) 는 비 고조파 HB 플래그 (x) (910) 에 응답하며), 인코더는 변조된 잡음에 적어도 부분적으로 기초하여 (예컨대, 승산기 (258) 에서 이득(2) 를 변조된 잡음 (482) 에 적용하고 도 9 의 승산기 (255) 의 출력과 결합하여 고-대역 여기 (276) 를 발생시키는 것에 의해) 고-대역 중간 여기 신호를 발생시키도록 구성될 수도 있다. 잡음 엔벨로프 제어 파라미터는 도 9 의 저 대역 보이스 인자들 (z) (914) 중 하나 이상과 같은, 저 대역 보이스 인자에 추가로 기초할 수도 있다.
방법 (1500) 은 1512 에서, 고-대역 중간 여기 신호에 적어도 부분적으로 기초하여 비트스트림을 발생시키는 단계를 포함한다. 예를 들어, 비트스트림은 도 2a 의, 고-대역 중간 채널 비트스트림 (244), ICBWE 비트스트림 (242), 다운-믹스 비트스트림 (216), 또는 이들의 임의의 조합에 대응할 수도 있다.
방법 (1500) 은 1514 에서, 비트스트림 및 멀티-소스 플래그를 인코더로부터 디바이스로 송신하는 단계를 더 포함한다. 예를 들어, 비트스트림은 도 2a 의, 고-대역 중간 채널 비트스트림 (244), ICBWE 비트스트림 (242), 다운-믹스 비트스트림 (216), 또는 이들의 임의의 조합에 대응할 수도 있으며, 비트스트림 및 멀티-소스 플래그는 도 1 의 제 2 디바이스 (106) (예컨대, 디코더) 로 송신될 수도 있다.
방법 (1500) 은 도 9 의 고-대역 여기 발생기 (299) 를 참조하여 나타낸 바와 같이, 고-대역 여기 (276) 의 발생을 제어하는데 사용되는 고 대역 신호의 고조파 메트릭을 표시하는 플래그에 기초하여 향상된 인코딩 정확도를 가능하게 할 수도 있다. 향상된 인코딩 정확도는 도 1 의 제 2 디바이스 (106) 와 같은, 디코딩 디바이스에서의 오디오 플레이백의 향상된 정확도를 가능하게 할 수도 있다.
도 16 을 참조하면, 오디오 신호 디코딩의 방법 (1600) 이 도시된다. 방법 (1600) 은 도 1 의 제 2 디바이스 (106) 에 의해 수행될 수도 있다. 특히, 방법 (1600) 은 도 10 의 디코더 (1000) (예컨대, 중간 채널 BWE 디코더) 에서와 같이, 디코더 (300) 에 의해 수행될 수도 있다.
방법 (1600) 은 1602 에서, 오디오 신호의 인코딩된 버전에 대응하는 비트스트림을 수신하는 단계를 포함한다. 예를 들어, 도 1 을 참조하면, 디코더 (300) 는 저-대역 비트스트림 (246), 고-대역 중간 채널 비트스트림 (244), ICBWE 비트스트림 (242), 다운-믹스 비트스트림 (216), 또는 이들의 임의의 조합을 포함하는 비트스트림을 수신할 수도 있다.
방법 (1600) 은 또한 1604 에서, 저 대역 여기 신호에 기초하여, 그리고 추가로, 고 대역 신호의 고조파 메트릭을 표시하는 제 1 플래그 값에 기초하여, 고 대역 여기 신호를 발생시키는 단계를 포함하며, 고 대역 신호는 오디오 신호의 고 대역 부분에 대응한다. 예시하기 위하여, 고조파 메트릭은 도 9 및 도 10 의 비 고조파 HB 플래그 (x) (910) 및 수정된 비 고조파 HB 플래그 (y) (920, 1020) 를 참조하여 설명된 바와 같이, 강한 고조파, 약한 고조파, 또는 강한 비-고조파의 값을 가질 수도 있다. 대안적으로, 고조파 메트릭은 본원에서 설명하는 바와 같이, 고조파 또는 비-고조파의 값을 가질 수도 있다.
일부 구현예들에서, 비트스트림은 플래그 값을 포함한다. 예를 들어, 도 9 에 예시된 중간 채널 BWE 인코더는 수정된 비 고조파 HB 플래그 (y) (920) 를 결정할 수도 있으며 수정된 비 고조파 HB 플래그 (y) (920) 를 (예컨대, 수정된 비 고조파 HB 플래그 (y) (920) 의 값을 표시하는 비트스트림 내 데이터를 통해서) 디코더 (300) 로 송신할 수도 있다. 다른 구현예들에서, 디코더는 저 대역 신호의 저 대역 보이싱 값에 적어도 부분적으로 기초하여 플래그 값을 결정하며, 저 대역 신호는 오디오 신호의 저 대역 부분에 대응한다. 예를 들어, 도 10 에 도시된 중간 채널 BWE 디코더는 도 9 의 비 고조파 고 대역 검출기 (906) 및 비 고조파 고 대역 플래그 수정기 (922) 를 포함할 수도 있으며, 디코딩 동안 (저 대역 보이싱, 이전 프레임의 이득 프레임, 및 고-대역 중간 채널의 에너지 메트릭에 기초하여) 비 고조파 HB 플래그 (x) (910) 를, 그리고, (고-대역 이득 프레임 파라미터에 기초하여) 수정된 비 고조파 HB 플래그 (y) (1020) 를 결정할 수도 있다. 다른 구현예들에서, 비트스트림은 제 1 플래그 값 (예컨대, 비 고조파 HB 플래그 (x) (910)) 을 포함하며, 디코더는 고 대역 신호의 프레임에 대응하는 이득 프레임 파라미터를 포함하며 이득 프레임 파라미터가 임계치보다 큰 것에 응답하여 제 1 플래그 값을 수정하여 플래그 값을 발생시킨다 (예컨대, 도 10 의 디코더는 인코더로부터 비 고조파 HB 플래그 (x) (910) 를 수신하고 수정된 고조파 HB 플래그 (y) (1020) 를 발생시키기 위해 비 고조파 고 대역 플래그 수정기 (922) 를 포함한다).
고 대역 여기 신호는 도 9 의 고-대역 여기 발생기 (299) 를 참조하여 설명된 방법과 유사한 방법으로 기능하는 도 10 의 고-대역 여기 발생기 (362) 에서와 같이, 저 대역 여기 신호를 비선형으로 확장하고 비선형으로 확장된 저 대역 여기 신호를 변조된 잡음과 결합함으로써, 발생될 수도 있다. 방법 (1600) 은 고 대역 믹싱 이득들 추정기 (1012) 에 의해 출력되고 도 10 의 고-대역 여기 발생기 (362) 에 입력된 이득(1) 및 이득(2) 와 같은, 제 1 플래그 값에 기초하여, 비선형으로 확장된 저 대역 여기 신호와 연관된 제 1 이득 및 변조된 잡음과 연관된 제 2 이득 중 적어도 하나의 값을 설정하는 단계를 포함할 수도 있다. 변조된 잡음은 저 대역 여기 신호를 비선형으로 확장하고, 비선형으로 확장된 저 대역 여기 신호에 기초하여, 그리고 추가로 잡음 엔벨로프 제어 파라미터에 기초하여, 잡음 신호를 변조함으로써, 발생될 수도 있다. 잡음 엔벨로프 제어 파라미터는 수정된 비 고조파 HB 플래그 (y) (920) 에 기초하여 잡음 엔벨로프 제어 파라미터 추정기 (1016) 에 의해 발생된 도 10 의 잡음 엔벨로프 제어 파라미터 (1018) 와 같은, 제 1 플래그 값에 적어도 부분적으로 기초할 수도 있다. 잡음 엔벨로프 제어 파라미터는 잡음 엔벨로프 제어 파라미터 추정기 (1016) 에서 수신된 저 대역 보이스 인자 (z) (1014) 에 추가로 기초할 수도 있다.
고 대역 신호의 합성된 버전은 고 대역 여기 신호에 기초하여 발생될 수도 있다. 예를 들어, 고-대역 여기 신호는 도 3b, 도 6 및 도 10 의 디코딩된 고-대역 중간 채널 (662) 을 발생시키는데 사용될 수도 있다. 디코딩된 고-대역 중간 채널 (662) 은 좌측 고-대역 채널 (330) 및 우측 고-대역 채널 (332) 을 발생시키는데 사용될 수도 있다. 고 대역 신호의 합성된 버전은 오디오 신호 (예컨대, 좌측 채널 (350) 또는 우측 채널 (352)) 의 합성된 버전과 발생시키기 위해 저 대역 신호 (예컨대, 좌측 저-대역 채널 (334) 또는 우측 저-대역 채널 (336)) 의 합성된 버전과 결합될 수도 있다. 다른 예로서, 디코더는 스테레오 디코더일 수도 있으며, 도 6 의 ICBWE 디코더 (306) 의 비-참조 고-대역 여기 (638) 와 같은, 채널간 대역폭 확장 (ICBWE) 동작 동안 고 대역 여기 신호를 발생시킬 수도 있다.
방법 (1600) 은 합성된 오디오 신호들의 향상된 정확도를 가능하게 할 수도 있으며, 원래 오디오 신호가 비-고조파 고 대역을 갖는다. 향상된 정확도는 도 1 의 제 2 디바이스 (106) 와 같은, 디코딩 디바이스에서의 오디오 플레이백 동안 향상된 사용자 경험을 가능하게 할 수도 있다.
도 17 을 참조하면, 디바이스 (예컨대, 무선 통신 디바이스) 의 특정의 예시적인 예의 블록도가 도시되며 일반적으로 1700 으로 표시된다. 다양한 구현예들에서, 디바이스 (1700) 는 도 17 에 예시된 컴포넌트들보다 더 적거나 또는 더 많은 컴포넌트들을 가질 수도 있다. 예시적인 구현예에서, 디바이스 (1700) 는 도 1 의 제 1 디바이스 (104) 또는 도 1 의 제 2 디바이스 (106) 에 대응할 수도 있다. 예시적인 구현예에서, 디바이스 (1700) 는 도 1 내지 도 16 의 시스템들 및 방법들을 참조하여 설명된 하나 이상의 동작들을 수행할 수도 있다.
특정한 구현예에서, 디바이스 (1700) 는 프로세서 (1706) (예컨대, 중앙 처리 유닛 (CPU)) 를 포함한다. 디바이스 (1700) 는 하나 이상의 추가적인 프로세서들 (1710) (예컨대, 하나 이상의 디지털 신호 프로세서들 (DSPs)) 을 포함할 수도 있다. 프로세서들 (1710) 은 미디어 (예컨대, 음성 및 음악) 코더-디코더 (코덱) (1708), 및 에코 소거기 (1712) 를 포함할 수도 있다. 코덱 (1708) 은 디코더 (300), 인코더 (200), 또는 이들의 조합을 포함할 수도 있다. 인코더 (200) 는 ICBWE 인코더 (204) 를 포함할 수도 있으며, 디코더 (300) 는 ICBWE 디코더 (306) 를 포함할 수도 있다. 인코더 (200) 는 비 고조파 HB 플래그 (x) (910) 를 발생시키도록 구성될 수도 있다. 추가적으로, 일부 구현예들에서, 인코더 (200) 는 비 고조파 HB 플래그 (x) (910) 를 수정하여 수정된 비 고조파 HB 플래그 (y) (920) 를 발생시키도록 구성된다. 인코더 (200) 는 적어도 도 1 및 도 9 내지 도 16 을 참조하여 본원에서 설명된 바와 같은, 비 고조파 HB 플래그 (x) (910), 수정된 비 고조파 HB 플래그 (y) (920), 또는 양자를 이용하도록 구성될 수도 있다. 디코더 (300) 는 비 고조파 HB 플래그, 수정된 비 고조파 HB 플래그, 또는 양자를 수신하거나 또는 발생시키도록 구성될 수도 있다. 디코더 (300) 는 적어도 도 1 및 도 9 내지 도 16 을 참조하여 본원에서 설명된 바와 같은, 비 고조파 HB 플래그, 수정된 비 고조파 HB 플래그, 또는 양자를 이용하도록 구성될 수도 있다.
디바이스 (1700) 는 메모리 (153) 및 코덱 (1734) 을 포함할 수도 있다. 코덱 (1708) 이 프로세서들 (1710) 의 컴포넌트 (예컨대, 전용 회로부 및/또는 실행가능한 프로그래밍 코드) 로서 예시되지만, 다른 구현예들에서, 디코더 (300), 인코더 (200), 또는 이들의 조합과 같은, 코덱 (1708) 의 하나 이상의 컴포넌트들이 프로세서 (1706), 코덱 (1734), 다른 프로세싱 컴포넌트, 또는 이들의 조합에 포함될 수도 있다.
디바이스 (1700) 는 안테나 (1742) 에 커플링된 송신기 (110) 를 포함할 수도 있다. 디바이스 (1700) 는 디스플레이 제어기 (1726) 에 커플링된 디스플레이 (1728) 를 포함할 수도 있다. 하나 이상의 스피커들 (1748) 이 코덱 (1734) 에 커플링될 수도 있다. 하나 이상의 마이크로폰들 (1746) 이 입력 인터페이스들 (112) 을 통해서, 코덱 (1734) 에 커플링될 수도 있다. 특정의 구현예에서, 스피커들 (1748) 은 도 1 의, 제 1 라우드스피커 (142), 제 2 라우드스피커 (144), 또는 이들의 조합을 포함할 수도 있다. 특정의 구현예에서, 마이크로폰들 (1746) 은 도 1 의, 제 1 마이크로폰 (146), 제 2 마이크로폰 (148), 또는 이들의 조합을 포함할 수도 있다. 코덱 (1734) 은 디지털-대-아날로그 변환기 (DAC) (1702) 및 아날로그-대-디지털 변환기 (ADC) (1704) 를 포함할 수도 있다.
메모리 (153) 는 프로세서 (1706), 프로세서들 (1710), 코덱 (1734), 디바이스 (1700) 의 다른 프로세싱 유닛, 또는 이들의 조합에 의해 실행가능한, 도 1 내지 도 16 을 참조하여 설명된 하나 이상의 동작들을 수행하는 명령들 (191) 을 포함할 수도 있다.
디바이스 (1700) 의 하나 이상의 컴포넌트들은 하나 이상의 태스크들, 또는 이들의 조합을 수행하는 명령들을 실행하는 프로세서에 의해, 전용 하드웨어 (예컨대, 회로부) 를 통해서 구현될 수도 있다. 일 예로서, 메모리 (153) 또는 프로세서 (1706), 프로세서들 (1710), 및/또는 코덱 (1734) 의 하나 이상의 컴포넌트들은 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 전송 MRAM (STT-MRAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 또는 컴팩트 디스크 판독 전용 메모리 (CD-ROM) 와 같은, 메모리 디바이스일 수도 있다. 메모리 디바이스는 컴퓨터 (예컨대, 코덱 (1734) 내 프로세서, 프로세서 (1706), 및/또는 프로세서들 (1710)) 에 의해 실행될 때, 컴퓨터로 하여금, 도 1 내지 도 16 을 참조하여 설명된 하나 이상의 동작들을 수행하게 할 수도 있는 명령들 (예컨대, 명령들 (191)) 을 포함할 수도 있다. 일 예로서, 메모리 (153) 또는 프로세서 (1706), 프로세서들 (1710), 및/또는 코덱 (1734) 의 하나 이상의 컴포넌트들은 컴퓨터 (예컨대, 코덱 (1734) 내 프로세서, 프로세서 (1706), 및/또는 프로세서들 (1710)) 에 의해 실행될 때, 컴퓨터로 하여금, 도 1 내지 도 16 을 참조하여 설명된 하나 이상의 동작들을 수행하게 하는 명령들 (예컨대, 명령들 (191)) 을 포함하는 비일시적 컴퓨터-판독가능 매체일 수도 있다.
특정한 구현예에서, 디바이스 (1700) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (예컨대, 이동국 모뎀 (MSM)) (1722) 에 포함될 수도 있다. 특정한 구현예에서, 프로세서 (1706), 프로세서들 (1710), 디스플레이 제어기 (1726), 메모리 (153), 코덱 (1734), 및 송신기 (110) 가 시스템-인-패키지 또는 시스템-온-칩 디바이스 (1722) 에 포함된다. 특정한 구현예에서, 터치스크린 및/또는 키패드와 같은 입력 디바이스 (1730), 및 전원 공급부 (1744) 는 시스템-온-칩 디바이스 (1722) 에 커플링된다. 더욱이, 특정의 구현예에서, 도 17 에 예시된 바와 같이, 디스플레이 (1728), 입력 디바이스 (1730), 스피커들 (1748), 마이크로폰들 (1746), 안테나 (1742), 및 전원 공급부 (1744) 는 시스템-온-칩 디바이스 (1722) 의 외부에 있다. 그러나, 디스플레이 (1728), 입력 디바이스 (1730), 스피커들 (1748), 마이크로폰들 (1746), 안테나 (1742), 및 전원 공급부 (1744) 각각은 인터페이스 또는 제어기와 같은, 시스템-온-칩 디바이스 (1722) 의 컴포넌트에 커플링될 수 있다.
디바이스 (1700) 는 무선 전화기, 모바일 통신 디바이스, 모바일 폰, 스마트 폰, 셀룰러폰, 랩탑 컴퓨터, 데스크탑 컴퓨터, 컴퓨터, 태블릿 컴퓨터, 셋 탑 박스, 개인 휴대정보 단말기 (PDA), 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 뮤직 플레이어, 라디오, 비디오 플레이어, 엔터테인먼트 유닛, 통신 디바이스, 고정 로케이션 데이터 유닛, 개인 미디어 플레이어, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 튜너, 카메라, 네비게이션 디바이스, 디코더 시스템, 인코더 시스템, 미디어 브로드캐스트 디바이스, 또는 이들의 임의의 조합을 포함할 수도 있다.
도 18 을 참조하면, 기지국 (1800) 의 특정의 예시적인 예의 블록도가 도시된다. 여러 구현예들에서, 기지국 (1800) 은 도 18 에 예시된 것보다 더 많은 컴포넌트들 또는 더 적은 컴포넌트들을 가질 수도 있다. 예시적인 예에서, 기지국 (1800) 은 도 1 의 제 1 디바이스 (104), 또는 제 2 디바이스 (106) 를 포함할 수도 있다. 예시적인 예에서, 기지국 (1800) 은 도 1 내지 도 16 을 참조하여 설명된 방법들 또는 시스템들 중 하나 이상에 따라서 동작할 수도 있다.
기지국 (1800) 은 무선 통신 시스템의 부분일 수도 있다. 무선 통신 시스템은 다수의 기지국들 및 다수의 무선 디바이스들을 포함할 수도 있다. 무선 통신 시스템은 롱텀 에볼류션 (LTE) 시스템, 코드분할 다중접속 (CDMA) 시스템, GSM (Global System for Mobile Communications) 시스템, 무선 로컬 영역 네트워크 (WLAN) 시스템, 또는 어떤 다른 무선 시스템일 수도 있다. CDMA 시스템은 광대역 CDMA (WCDMA), CDMA 1X, EVDO (Evolution-Data Optimized), 시분할 동기 CDMA (TD-SCDMA), 또는 CDMA 의 어떤 다른 버전을 구현할 수도 있다.
무선 디바이스들은 또한 사용자 장비 (UE), 이동국, 터미널, 액세스 단말기, 가입자 유닛, 스테이션, 등으로서 지칭될 수도 있다. 무선 디바이스들은 셀룰러폰, 스마트폰, 태블릿, 무선 모뎀, 개인 휴대정보 단말기 (PDA), 핸드헬드 디바이스, 랩탑 컴퓨터, 스마트북, 넷북, 태블릿, 코드리스 폰, 무선 가입자 회선 (WLL) 국, 블루투스 디바이스, 등을 포함할 수도 있다. 무선 디바이스들은 도 17 의 디바이스 (1700) 를 포함하거나 또는 이에 대응할 수도 있다.
메시지들 및 데이터 (예컨대, 오디오 데이터) 를 전송하고 수신하는 것과 같은, 여러 기능들이 기지국 (1800) 의 하나 이상의 컴포넌트들에 의해 (및/또는 미도시된 다른 컴포넌트들에서) 수행될 수도 있다. 특정의 예에서, 기지국 (1800) 은 프로세서 (1806) (예컨대, CPU) 를 포함한다. 기지국 (1800) 은 트랜스코더 (1810) 를 포함할 수도 있다. 트랜스코더 (1810) 는 오디오 코덱 (1808) 을 포함할 수도 있다. 예를 들어, 트랜스코더 (1810) 는 오디오 코덱 (1808) 의 동작들을 수행하도록 구성된 하나 이상의 컴포넌트들 (예컨대, 회로부) 을 포함할 수도 있다. 다른 예로서, 트랜스코더 (1810) 는 오디오 코덱 (1808) 의 동작들을 수행하는 하나 이상의 컴퓨터-판독가능 명령들을 실행하도록 구성될 수도 있다. 오디오 코덱 (1808) 이 트랜스코더 (1810) 의 컴포넌트로서 예시되지만, 다른 예들에서, 오디오 코덱 (1808) 의 하나 이상의 컴포넌트들이 프로세서 (1806), 다른 프로세싱 컴포넌트, 또는 이들의 조합에 포함될 수도 있다. 예를 들어, 디코더 (1838) (예컨대, 보코더 디코더) 는 수신기 데이터 프로세서 (1864) 에 포함될 수도 있다. 다른 예로서, 인코더 (1836) (예컨대, 보코더 인코더) 는 송신 데이터 프로세서 (1882) 에 포함될 수도 있다.
트랜스코더 (1810) 는 2개 이상의 네트워크들 사이에서 메시지들 및 데이터를 트랜스코딩하도록 기능할 수도 있다. 트랜스코더 (1810) 는 메시지 및 오디오 데이터를 제 1 포맷 (예컨대, 디지털 포맷) 으로부터 제 2 포맷으로 변환하도록 구성될 수도 있다. 예시하기 위하여, 디코더 (1838) 는 제 1 포맷을 가지는 인코딩된 신호들을 디코딩할 수도 있으며, 인코더 (1836) 는 디코딩된 신호들을 제 2 포맷을 가지는 인코딩된 신호들로 인코딩할 수도 있다. 추가적으로, 또는 대안적으로, 트랜스코더 (1810) 는 데이터 레이트 적응을 수행하도록 구성될 수도 있다. 예를 들어, 트랜스코더 (1810) 는 오디오 데이터의 포맷을 변경함이 없이, 데이터 레이트를 상향변환하거나 또는 데이터 레이트를 하향변환할 수도 있다. 예시하기 위하여, 트랜스코더 (1810) 는 64 kbit/s 신호들을 16 kbit/s 신호들로 하향변환할 수도 있다.
오디오 코덱 (1808) 은 인코더 (1836) 및 디코더 (1838) 를 포함할 수도 있다. 인코더 (1836) 는 도 1 의 인코더 (200) 를 포함할 수도 있다. 디코더 (1838) 는 도 1 의 디코더 (300) 를 포함할 수도 있다. 인코더 (1836) 는 비 고조파 HB 플래그 (x) (910) 를 발생시키도록 구성될 수도 있다. 추가적으로, 일부 구현예들에서, 인코더 (1836) 는 비 고조파 HB 플래그 (x) (910) 를 수정하여 수정된 비 고조파 HB 플래그 (y) (920) 를 발생시키도록 구성된다. 인코더 (1836) 는 적어도 도 1 및 도 9 내지 도 16 을 참조하여 본원에서 설명된 바와 같은, 비 고조파 HB 플래그 (x) (910), 수정된 비 고조파 HB 플래그 (y) (920), 또는 양자를 이용하도록 구성될 수도 있다. 디코더 (1838) 는 비 고조파 HB 플래그 (x) (910), 수정된 비 고조파 HB 플래그(y) (920), 또는 양자를 수신하거나 또는 발생시키도록 구성될 수도 있다. 디코더 (1838) 는 적어도 도 1 및 도 9 내지 도 16 을 참조하여 본원에서 설명된 바와 같은, 비 고조파 HB 플래그(x) (910), 수정된 비 고조파 HB 플래그(y) (920), 또는 양자를 이용하도록 구성될 수도 있다.
기지국 (1800) 은 메모리 (1832) 를 포함할 수도 있다. 컴퓨터-판독가능 저장 디바이스와 같은, 메모리 (1832) 는 명령들을 포함할 수도 있다. 명령들은 프로세서 (1806), 트랜스코더 (1810), 또는 이들의 조합에 의해 실행가능한, 도 1 내지 도 16 의 방법들 및 시스템들을 참조하여 설명된 하나 이상의 동작들을 수행하는 하나 이상의 명령들을 포함할 수도 있다. 기지국 (1800) 은 안테나들의 어레이에 커플링된, 제 1 트랜시버 (1852) 및 제 2 트랜시버 (1854) 와 같은, 다수의 송신기들 및 수신기들 (예컨대, 트랜시버들) 을 포함할 수도 있다. 안테나들의 어레이는 제 1 안테나 (1842) 및 제 2 안테나 (1844) 를 포함할 수도 있다. 안테나들의 어레이는 도 17 의 디바이스 (1700) 와 같은 하나 이상의 무선 디바이스들과 무선으로 통신하도록 구성될 수도 있다. 예를 들어, 제 2 안테나 (1844) 는 무선 디바이스로부터 데이터 스트림 (1814) (예컨대, 비트스트림) 을 수신할 수도 있다. 데이터 스트림 (1814) 은 메시지들, 데이터 (예컨대, 인코딩된 음성 데이터), 또는 이들의 조합을 포함할 수도 있다.
기지국 (1800) 은 백홀 접속부와 같은, 네트워크 접속부 (1860) 를 포함할 수도 있다. 네트워크 접속부 (1860) 는 무선 통신 네트워크의 하나 이상의 기지국들 또는 코어 네트워크와 통신하도록 구성될 수도 있다. 예를 들어, 기지국 (1800) 은 코어 네트워크로부터 네트워크 접속부 (1860) 를 통해서 제 2 데이터 스트림 (예컨대, 메시지들 또는 오디오 데이터) 을 수신할 수도 있다. 기지국 (1800) 은 제 2 데이터 스트림을 프로세싱하여 메시지들 또는 오디오 데이터를 발생시키고, 메시지들 또는 오디오 데이터를 안테나들의 어레이의 하나 이상의 안테나들을 통해서 하나 이상의 무선 디바이스에 또는 네트워크 접속부 (1860) 를 통해서 다른 기지국에 제공할 수도 있다. 특정의 구현예에서, 네트워크 접속부 (1860) 는 예시적인, 비한정적인 예로서 광역 네트워크 (WAN) 접속부일 수도 있다. 일부 구현예들에서, 코어 네트워크는 공중 교환 전화 네트워크 (PSTN), 패킷 백본 네트워크, 또는 양자를 포함하거나 또는 이들에 대응할 수도 있다.
기지국 (1800) 은 네트워크 접속부 (1860) 및 프로세서 (1806) 에 커플링된 미디어 게이트웨이 (1870) 를 포함할 수도 있다. 미디어 게이트웨이 (1870) 는 상이한 원격 통신들 기술들의 미디어 스트림들 사이에 변환하도록 구성될 수도 있다. 예를 들어, 미디어 게이트웨이 (1870) 는 상이한 송신 프로토콜들, 상이한 코딩 방식들, 또는 양자 사이를 변환할 수도 있다. 예시하기 위하여, 미디어 게이트웨이 (1870) 는 예시적인, 비한정적인 예로서, PCM 신호들로부터 실시간 전송 프로토콜 (RTP) 신호들로 변환할 수도 있다. 미디어 게이트웨이 (1870) 는 패킷 교환 네트워크들 (예컨대, VoIP (Voice over Internet Protocol) 네트워크, IP 멀티미디어 서브시스템 (IMS), 4세대 (4G) 무선 네트워크, 예컨대 LTE, WiMax, 및 UMB, 등), 회선 스위칭 네트워크들 (예컨대, PSTN), 및 하이브리드 네트워크들 (예컨대, 2세대 (2G) 무선 네트워크, 예컨대 GSM, GPRS, 및 에지, 3세대 (3G) 무선 네트워크, 예컨대 WCDMA, EV-DO, 및 HSPA, 등) 사이의 데이터를 변환할 수도 있다.
추가적으로, 미디어 게이트웨이 (1870) 는 트랜스코드를 포함할 수도 있으며, 코덱들이 호환불가능할 때 데이터를 트랜스코딩하도록 구성될 수도 있다. 예를 들어, 미디어 게이트웨이 (1870) 는 예시적인, 비한정적인 예로서, 적응적 멀티-레이트 (AMR) 코덱과 G.711 코덱 사이에 트랜스코딩할 수도 있다. 미디어 게이트웨이 (1870) 는 라우터 및 복수의 물리적인 인터페이스들을 포함할 수도 있다. 일부 구현예들에서, 미디어 게이트웨이 (1870) 는 또한 제어기 (미도시) 를 포함할 수도 있다. 특정의 구현예에서, 미디어 게이트웨이 제어기는 미디어 게이트웨이 (1870) 의 외부에 있거나, 기지국 (1800) 의 외부에 있거나, 또는 양자일 수도 있다. 미디어 게이트웨이 제어기는 다수의 미디어 게이트웨이들의 동작들을 제어하고 조정할 수도 있다. 미디어 게이트웨이 (1870) 는 미디어 게이트웨이 제어기로부터 제어 신호들을 수신할 수도 있으며, 상이한 송신 기술들 사이를 브릿지하도록 기능할 수도 있으며, 최종-사용자 능력들 및 접속들에 서비스를 추가할 수도 있다.
기지국 (1800) 은 트랜시버들 (1852, 1854), 수신기 데이터 프로세서 (1864), 및 프로세서 (1806) 에 커플링된 복조기 (1862) 를 포함할 수도 있으며, 수신기 데이터 프로세서 (1864) 는 프로세서 (1806) 에 커플링될 수도 있다. 복조기 (1862) 는 트랜시버들 (1852, 1854) 로부터 수신된 변조된 신호들을 복조하여, 복조된 데이터를 수신기 데이터 프로세서 (1864) 에 제공하도록 구성될 수도 있다. 수신기 데이터 프로세서 (1864) 는 복조된 데이터로부터 메시지 또는 오디오 데이터를 추출하여 메시지 또는 오디오 데이터를 프로세서 (1806) 로 전송하도록 구성될 수도 있다.
기지국 (1800) 은 송신 데이터 프로세서 (1882) 및 송신 다중 입력-다중 출력 (MIMO) 프로세서 (1884) 를 포함할 수도 있다. 송신 데이터 프로세서 (1882) 는 프로세서 (1806) 및 송신 MIMO 프로세서 (1884) 에 커플링될 수도 있다. 송신 MIMO 프로세서 (1884) 는 트랜시버들 (1852, 1854) 및 프로세서 (1806) 에 커플링될 수도 있다. 일부 구현예들에서, 송신 MIMO 프로세서 (1884) 는 미디어 게이트웨이 (1870) 에 커플링될 수도 있다. 송신 데이터 프로세서 (1882) 는 프로세서 (1806) 로부터 메시지들 또는 오디오 데이터를 수신하여, 예시적인, 비한정적인 예들로서, CDMA 또는 직교 주파수-분할 멀티플렉싱 (OFDM) 과 같은 코딩 방식에 기초하여 메시지들 또는 오디오 데이터를 코딩하도록 구성될 수도 있다. 송신 데이터 프로세서 (1882) 는 코딩된 데이터를 송신 MIMO 프로세서 (1884) 에 제공할 수도 있다.
코딩된 데이터는 멀티플렉싱된 데이터를 발생시키기 위해 CDMA 또는 OFDM 기법들을 이용하여 파일럿 데이터와 같은 다른 데이터와 멀티플렉싱될 수도 있다. 멀티플렉싱된 데이터는 그후 변조 심볼들을 발생시키기 위해 특정의 변조 방식 (예컨대, 2진 위상-시프트 키잉 ("BPSK"), 직교 위상-시프트 키잉 ("QSPK"), M-ary 위상-시프트 키잉 ("M-PSK"), M-ary 직교 진폭 변조 ("M-QAM"), 등) 에 기초하여 송신 데이터 프로세서 (1882) 에 의해 변조될 (즉, 심볼 맵핑될) 수도 있다. 특정의 구현예에서, 코딩된 데이터 및 다른 데이터는 상이한 변조 방식들을 이용하여 변조될 수도 있다. 각각의 데이터 스트림에 대한 데이터 레이트, 코딩, 및 변조는 프로세서 (1806) 에 의해 실행되는 명령들에 의해 결정될 수도 있다.
송신 MIMO 프로세서 (1884) 는 송신 데이터 프로세서 (1882) 로부터 변조 심볼들을 수신하도록 구성될 수도 있으며, 변조 심볼들을 추가로 프로세싱할 수도 있으며 데이터에 대해 빔형성을 수행할 수도 있다. 예를 들어, 송신 MIMO 프로세서 (1884) 는 빔형성 가중치들을 변조 심볼들에 적용할 수도 있다. 빔형성 가중치들은 변조 심볼들이 송신되는 안테나들의 어레이의 하나 이상의 안테나들에 대응할 수도 있다.
동작 동안, 기지국 (1800) 의 제 2 안테나 (1844) 는 데이터 스트림 (1814) 을 수신할 수도 있다. 제 2 트랜시버 (1854) 는 제 2 안테나 (1844) 로부터 데이터 스트림 (1814) 을 수신할 수도 있으며 데이터 스트림 (1814) 을 복조기 (1862) 에 제공할 수도 있다. 복조기 (1862) 는 데이터 스트림 (1814) 의 변조된 신호들을 복조하여 복조된 데이터를 수신기 데이터 프로세서 (1864) 에 제공할 수도 있다. 수신기 데이터 프로세서 (1864) 는 복조된 데이터로부터 오디오 데이터를 추출하여, 추출된 오디오 데이터를 프로세서 (1806) 에 제공할 수도 있다.
프로세서 (1806) 는 트랜스코딩을 위해 오디오 데이터를 트랜스코더 (1810) 에 제공할 수도 있다. 트랜스코더 (1810) 의 디코더 (1838) 는 오디오 데이터를 제 1 포맷으로부터 디코딩된 오디오 데이터로 디코딩할 수도 있으며, 인코더 (1836) 는 디코딩된 오디오 데이터를 제 2 포맷으로 인코딩할 수도 있다. 일부 구현예들에서, 인코더 (1836) 는 무선 디바이스로부터 수신된 것보다 더 높은 데이터 레이트 (예컨대, 상향변환) 또는 더 낮은 데이터 레이트 (예컨대, 하향변환) 를 이용하여 오디오 데이터를 인코딩할 수도 있다. 다른 구현예들에서, 오디오 데이터는 트랜스코딩되지 않을 수도 있다. 트랜스코딩 (예컨대, 디코딩 및 인코딩) 이 트랜스코더 (1810) 에 의해 수행되는 것으로 예시되지만, 트랜스코딩 동작들 (예컨대, 디코딩 및 인코딩) 은 기지국 (1800) 의 다수의 컴포넌트들에 의해 수행될 수도 있다. 예를 들어, 디코딩은 수신기 데이터 프로세서 (1864) 에 의해 수행될 수도 있으며, 인코딩은 송신 데이터 프로세서 (1882) 에 의해 수행될 수도 있다. 일부 구현예들에서, 프로세서 (1806) 는 다른 송신 프로토콜, 코딩 방식, 또는 양자로의 변환을 위해 오디오 데이터를 미디어 게이트웨이 (1870) 에 제공할 수도 있다. 미디어 게이트웨이 (1870) 는 변환된 데이터를 네트워크 접속부 (1860) 를 통해서 다른 기지국 또는 코어 네트워크에 제공할 수도 있다.
트랜스코딩된 데이터와 같은, 인코더 (1836) 에서 발생된 인코딩된 오디오 데이터는 프로세서 (1806) 를 경유하여 송신 데이터 프로세서 (1882) 또는 네트워크 접속부 (1860) 에 제공될 수도 있다. 트랜스코더 (1810) 로부터의 트랜스코딩된 오디오 데이터는 OFDM 과 같은, 변조 방식에 따라서 코딩하여 변조 심볼들을 발생시키기 위해 송신 데이터 프로세서 (1882) 에 제공될 수도 있다. 송신 데이터 프로세서 (1882) 는 추가적인 프로세싱 및 빔형성을 위해 변조 심볼들을 송신 MIMO 프로세서 (1884) 에 제공할 수도 있다. 송신 MIMO 프로세서 (1884) 는 빔형성 가중치들을 적용할 수도 있으며, 변조 심볼들을 제 1 트랜시버 (1852) 를 통해서 제 1 안테나 (1842) 와 같은, 안테나들의 어레이의 하나 이상의 안테나들에 제공할 수도 있다. 따라서, 기지국 (1800) 은 무선 디바이스로부터 수신된 데이터 스트림 (1814) 에 대응할 수도 있는 트랜스코딩된 데이터 스트림 (1816) 을 다른 무선 디바이스에 제공할 수도 있다. 트랜스코딩된 데이터 스트림 (1816) 은 데이터 스트림 (1814) 과는 상이한 인코딩 포맷, 데이터 레이트, 또는 양쪽을 가질 수도 있다. 다른 구현예들에서, 트랜스코딩된 데이터 스트림 (1816) 은 다른 기지국 또는 코어 네트워크로의 송신을 위해 네트워크 접속부 (1860) 에 제공될 수도 있다.
특정의 구현예에서, 본원에서 설명된 시스템들 및 디바이스들의 하나 이상의 컴포넌트들은 디코딩 시스템 또는 장치 (예컨대, 전자 디바이스, 코덱, 또는 그 내부의 프로세서) 에, 인코딩 시스템 또는 장치에, 또는 양자에 통합될 수도 있다. 다른 구현예들에서, 본원에서 개시된 시스템들 및 디바이스들의 하나 이상의 컴포넌트들은 무선 전화기, 태블릿 컴퓨터, 데스크탑 컴퓨터, 랩탑 컴퓨터, 셋 탑 박스, 뮤직 플레이어, 비디오 플레이어, 엔터테인먼트 유닛, 텔레비전, 게임 콘솔, 네비게이션 디바이스, 통신 디바이스, 개인 휴대정보 단말기 (PDA), 고정된 로케이션 데이터 유닛, 개인 미디어 플레이어, 또는 다른 유형의 디바이스에 통합될 수도 있다.
설명된 기법들과 관련하여, 제 1 장치는 오디오 신호를 수신하는 수단을 포함한다. 예를 들어, 상기 수신하는 수단은 도 1, 도 2a, 또는 도 17 의 인코더 (200), 도 2a 의 필터뱅크 (290), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 1 장치는 또한 수신된 오디오 신호에 기초하여 고 대역 신호를 발생시키는 수단. 예를 들어, 상기 수신된 오디오 신호에 기초하여 고 대역 신호를 발생시키는 수단은 도 1, 도 2a, 또는 도 17 의 인코더 (200), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 1 장치는 또한 고 대역 신호의 고조파 메트릭을 표시하는 제 1 플래그 값을 결정하는 수단을 포함할 수도 있다. 예를 들어, 상기 제 1 플래그 값을 결정하는 수단은 도 1, 도 2a, 및 도 17 의 인코더 (200), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 9 의 비 고조파 고 대역 검출기 (906), 도 9 의 비 고조파 고 대역 플래그 수정기 (922), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 1 장치는 또한 고 대역 신호의 인코딩된 버전을 송신하는 수단을 포함할 수도 있다. 예를 들어, 상기 송신하는 수단은 도 1 및 도 17 의 송신기 (110), 도 18 의 제 1 트랜시버 (1852), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
설명된 기법들과 관련하여, 제 2 장치는 고-대역 신호의 프레임에 대응하는 이득 프레임 파라미터를 결정하는 수단을 포함한다. 예를 들어, 상기 수신하는 수단은 도 1, 도 2a, 또는 도 17 의 인코더 (200), 도 2a 의 필터뱅크 (290), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 2b 또는 도 9 의 고-대역 이득 프레임 추정기 (263), 도 9 의 인코더 (900), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 2 장치는 또한 이득 프레임 파라미터를 임계치와 비교하는 수단을 포함할 수도 있다. 예를 들어, 상기 이득 프레임 파라미터를 임계치와 비교하는 수단은 도 1, 도 2a, 또는 도 17 의 인코더 (200), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 9 의 비 고조파 고 대역 플래그 수정기 (922), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 2 장치는 또한 이득 프레임 파라미터가 임계치보다 큰 것에 응답하여 플래그를 수정하는 수단을 포함할 수도 있으며, 플래그는 프레임에 대응하며 고 대역 신호의 고조파 메트릭을 표시한다. 예를 들어, 상기 플래그를 수정하는 수단은 도 1, 도 2a, 또는 도 17 의 인코더 (200), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 9 의 비 고조파 고 대역 플래그 수정기 (922), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 2 장치는 또한 고 대역 신호의 인코딩된 버전을 송신하는 수단을 포함할 수도 있다. 예를 들어, 상기 송신하는 수단은 도 1 및 도 17 의 송신기 (110), 도 18 의 제 1 트랜시버 (1852), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
설명된 기법들과 관련하여, 제 3 장치는 적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하는 수단을 포함한다. 예를 들어, 상기 수신하는 수단은 도 1, 도 2a, 또는 도 17 의 인코더 (200), 다운-믹서 (202), 도 2a 의 필터뱅크 (290), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 3 장치는 또한 중간 신호를 발생시키기 위해 제 1 오디오 신호 및 제 2 오디오 신호에 대해 다운믹스 동작을 수행하는 수단을 포함할 수도 있다. 예를 들어, 상기 다운믹스 동작을 수행하는 수단은 도 1, 도 2a, 또는 도 17 의 인코더 (200), 도 2a 의 다운-믹서 (202), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 3 장치는 또한 중간 신호에 기초하여 저-대역 중간 및 고-대역 중간 신호를 발생시키는 수단을 포함할 수도 있다. 예를 들어, 상기 저-대역 중간 신호 및 고-대역 중간 신호를 발생시키는 수단은 도 1, 도 2a, 또는 도 17 의 인코더 (200), 도 2a 의 필터뱅크 (290), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 3 장치는 또한 저 대역 신호의 보이싱 값 및 고-대역 중간 신호에 대응하는 이득 값에 적어도 부분적으로 기초하여, 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하는 수단을 포함할 수도 있다. 예를 들어, 상기 멀티-소스 플래그의 값을 결정하는 수단은 도 1, 도 2a, 및 도 17 의 인코더 (200), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 9 의 비 고조파 고 대역 검출기 (906), 도 9 의 비 고조파 고 대역 플래그 수정기 (922), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 3 장치는 또한 멀티-소스 플래그에 적어도 부분적으로 기초하여 고-대역 중간 여기 신호를 발생시키는 수단을 포함할 수도 있다. 예를 들어, 상기 고-대역 중간 여기 신호를 발생시키는 수단은 도 1, 도 2a, 및 도 17 의 인코더 (200), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 2b 또는 도 9 의 고-대역 여기 발생기 (299), 승산기 (255), 승산기 (258), 합산기 (257), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 3 장치는 또한 고-대역 중간 여기 신호에 적어도 부분적으로 기초하여 비트스트림을 발생시키는 수단을 포함할 수도 있다. 예를 들어, 상기 비트스트림을 발생시키는 수단은 도 1, 도 2a, 및 도 17 의 인코더 (200), 도 2a 또는 도 2b 의 중간 채널 BWE 인코더 (206), 도 1 또는 도 2a 의 ICBWE 인코더 (204), 도 9 의 인코더 (900), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 인코더 (1836), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 3 장치는 또한 비트스트림 및 멀티-소스 플래그를 디바이스로 송신하는 수단을 포함할 수도 있다. 예를 들어, 상기 송신하는 수단은 도 1 및 도 17 의 송신기 (110), 도 18 의 제 1 트랜시버 (1852), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
설명된 기법들과 관련하여, 제 4 장치는 오디오 신호의 인코딩된 버전에 대응하는 비트스트림을 수신하는 수단을 포함한다. 예를 들어, 상기 수신하는 수단은 도 1, 도 3a, 또는 도 17 의 디코더 (300), 도 3a 또는 도 3b 의 중간 채널 BWE 디코더 (302), 도 3a 또는 도 6 의 ICBWE 디코더 (306), 도 10 의 디코더 (1000), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 디코더 (1838), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 4 장치는 또한 저 대역 여기 신호에 기초하여, 그리고, 추가로, 고 대역 신호의 고조파 메트릭을 표시하는 제 1 플래그 값에 기초하여, 고 대역 여기 신호를 발생시키는 수단을 포함할 수도 있으며, 고 대역 신호는 오디오 신호의 고 대역 부분에 대응한다. 예를 들어, 상기 고 대역 여기 신호를 발생시키는 수단은 도 1, 도 3a, 또는 도 17 의 디코더 (300), 도 3a 또는 도 3b 의 중간 채널 BWE 디코더 (302), 도 3a 또는 도 6 의 ICBWE 디코더 (306), 도 10 의 디코더 (1000), 도 3b 또는 도 10 의 고-대역 여기 발생기 (362), 도 17 의 코덱 (1708), 도 17 의 프로세서 (1706), 프로세서에 의해 실행가능한 명령들 (191), 도 18 의 코덱 (1808) 또는 디코더 (1838), 하나 이상의 다른 디바이스들, 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
본원에서 설명된 시스템들 및 디바이스들의 하나 이상의 컴포넌트들에 의해 수행되는 다양한 기능들이 어떤 컴포넌트들에 의해 수행되는 것으로 설명된다는 점에 유의해야 한다. 컴포넌트들의 이러한 분할은 단지 예시를 위한 것이다. 대안적인 구현예에서, 특정의 컴포넌트에 의해 수행되는 기능은 다수의 컴포넌트들 간에 분할될 수도 있다. 더욱이, 대안적인 구현예에서, 2개 이상의 컴포넌트들은 단일 컴포넌트로 통합된다. 각각의 컴포넌트는 하드웨어 (예컨대, 필드-프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), DSP, 제어기, 등), 소프트웨어 (예컨대, 프로세서에 의해 실행가능한 명령들), 또는 이들의 임의의 조합을 이용하여 구현될 수도 있다.
당업자들은 또한 본원에서 개시한 구현예들과 관련하여 설명된 다양한 예시적인 로직 블록들, 구성들, 회로들, 및 알고리즘 단계들이 전자적 하드웨어, 하드웨어 프로세서와 같은 프로세싱 디바이스에 의해 실행되는 컴퓨터 소프트웨어, 또는 양자의 조합들로서 구현될 수도 있음을 알 수 있을 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 회로들, 및 단계들 일반적으로 그들의 기능의 관점에서 위에서 설명되었다. 이러한 기능이 하드웨어 또는 실행가능한 소프트웨어로서 구현되는지 여부는 특정의 애플리케이션 및 전체 시스템에 가해지는 설계 제약들에 의존한다. 당업자들은 각각의 특정의 애플리케이션 마다 설명한 기능을 다양한 방법으로 구현할 수도 있으며, 그러나 이런 구현 결정들은 본 개시물의 범위로부터의 일탈을 초래하는 것으로 해석되어서는 안된다.
본원에서 개시한 구현예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어로, 또는 이 둘의 조합으로 직접 구현될 수도 있다. 소프트웨어는 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 전송 MRAM (STT-MRAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 또는 컴팩트 디스크 판독 전용 메모리 (CD-ROM) 와 같은, 메모리 디바이스에 상주할 수도 있다. 예시적인 메모리 디바이스는 프로세서가 메모리 디바이스로부터 정보를 판독하고 그에 정보를 기록할 수 있도록 프로세서에 커플링된다. 대안적으로는, 메모리 디바이스는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 주문형 집적 회로 (ASIC) 에 상주할 수도 있다. ASIC 는 컴퓨팅 디바이스 및 사용자 터미널에 상주할 수도 있다. 대안적으로는, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에서 별개의 컴포넌트들로서 상주할 수도 있다.
개시된 구현예들의 상기 설명은 당업자가 개시된 구현예들을 실시하고 이용가능하도록 제공된다. 이들 구현예들에 대한 다양한 변경들은 당업자들에게 쉽게 알 수 있을 것이며, 본원에서 정의하는 원리들은 본 개시물의 사상 또는 범위로부터 일탈함이 없이, 다른 구현예들에 적용될 수도 있다. 따라서, 본 개시물은 본원에서 나타낸 구현들에 한정하려는 것이 아니라, 다음 청구범위에 의해 정의되는 바와 같은 원리들 및 신규한 특징들과 가능한 부합하는 최광의의 범위를 부여하려는 것이다.

Claims (30)

  1. 다중-채널 인코더; 및
    송신기를 포함하고,
    상기 다중-채널 인코더는:
    적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하고;
    중간 신호를 발생시키기 위해 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호에 대해 다운믹스 동작을 수행하고;
    상기 중간 신호에 기초하여, 상기 중간 신호의 저 주파수 부분에 대응하는 저-대역 중간 신호 및 상기 중간 신호의 고 주파수 부분에 대응하는 고-대역 중간 신호를 발생시키고;
    상기 저-대역 중간 신호에 대응하는 보이싱 값 및 상기 고-대역 중간 신호에 대응하는 이득 값에 적어도 부분적으로 기초하여, 상기 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하며;
    적어도 부분적으로 상기 멀티-소스 플래그에 기초하여 고-대역 중간 여기 신호를 발생시키고; 그리고
    적어도 부분적으로 상기 고-대역 중간 여기 신호에 기초하여 비트스트림을 발생시키도록 구성되며, 그리고
    상기 송신기는:
    상기 비트스트림 및 상기 멀티-소스 플래그를 제 2 디바이스로 송신하도록 구성되는, 디바이스.
  2. 제 1 항에 있어서,
    상기 멀티-소스 플래그는 다수의 오디오 소스들이 상기 고-대역 중간 신호와 연관되는지 여부에 대응하는, 디바이스.
  3. 제 1 항에 있어서,
    상기 다중-채널 인코더는 또한,
    저-대역 여기 신호에 기초하여 비선형 고조파 여기를 발생시키는 것으로서, 상기 저-대역 여기 신호는 상기 저-대역 중간 신호에 기초하는, 상기 비선형 고조파 여기를 발생시키고;
    상기 비선형 고조파 여기에 기초하여 변조된 잡음을 발생시키고; 그리고
    상기 고-대역 중간 여기 신호를 발생시키기 위해, 상기 멀티-소스 플래그에 기초하여, 상기 비선형 고조파 여기와 상기 변조된 잡음의 믹싱을 제어하도록 구성되는, 디바이스.
  4. 제 3 항에 있어서,
    상기 다중-채널 인코더는 또한, 상기 비선형 고조파 여기 및 하나 이상의 필터 파라미터들에 기초하여 엔벨로프를 결정하고 상기 변조된 잡음을 발생시키기 위해 상기 엔벨로프를 잡음 신호에 적용함으로써 상기 변조된 잡음을 발생시키도록 구성되는, 디바이스.
  5. 제 4 항에 있어서,
    상기 하나 이상의 필터 파라미터들은 상기 멀티-소스 플래그 및 하나 이상의 저 대역 보이스 인자들에 기초하는, 디바이스.
  6. 제 4 항에 있어서,
    상기 다중-채널 인코더는 상기 잡음 신호에 대해 저역 통과 필터를 적용함으로써 상기 엔벨로프를 상기 잡음 신호에 적용하도록 구성되며, 상기 저역 통과 필터의 계수들은 상기 하나 이상의 필터 파라미터들에 적어도 부분적으로 기초하는, 디바이스.
  7. 제 4 항에 있어서,
    상기 다중-채널 인코더는 상기 비선형 고조파 여기와 상기 변조된 잡음을 결합함으로써 상기 고-대역 중간 여기 신호를 발생시키도록 구성되는, 디바이스.
  8. 제 7 항에 있어서,
    상기 다중-채널 인코더는 또한, 상기 고-대역 중간 여기 신호를 발생시키기 전에 제 1 이득을 상기 비선형 고조파 여기에 적용하도록 구성되며, 상기 제 1 이득은 상기 멀티-소스 플래그 및 하나 이상의 저 대역 보이스 인자들에 기초하는, 디바이스.
  9. 제 8 항에 있어서,
    상기 다중-채널 인코더는 또한, 상기 고-대역 중간 여기 신호를 발생시키기 전에 제 2 이득을 상기 변조된 잡음에 적용하도록 구성되며, 상기 제 2 이득은 상기 멀티-소스 플래그 및 상기 하나 이상의 저 대역 보이스 인자들에 기초하는, 디바이스.
  10. 제 1 항에 있어서,
    상기 다중-채널 인코더는 또한,
    상기 고-대역 중간 신호의 프레임에 대응하는 이득 프레임 파라미터를 결정하고;
    상기 이득 프레임 파라미터를 임계치와 비교하고; 그리고
    상기 이득 프레임 파라미터가 상기 임계치보다 큰 것에 응답하여, 상기 멀티-소스 플래그의 값을 수정하도록 구성되는, 디바이스.
  11. 제 10 항에 있어서,
    상기 다중-채널 인코더는 또한,
    상기 고-대역 중간 여기 신호에 기초하여 상기 고-대역 중간 신호의 합성된 버전을 발생시키고; 그리고
    상기 고-대역 중간 신호의 상기 프레임을 상기 고-대역 중간 신호의 상기 합성된 버전의 프레임과 비교하여 상기 이득 프레임 파라미터를 발생시키도록 구성되는, 디바이스.
  12. 제 1 항에 있어서,
    상기 다중-채널 인코더는 채널간 대역 폭 확장판 (ICBWE) 인코딩 동작 동안 상기 멀티-소스 플래그에 적어도 부분적으로 기초하여 비-참조 고 대역 여기 신호를 발생시키는 스테레오 인코더를 포함하는, 디바이스.
  13. 제 1 항에 있어서,
    상기 다중-채널 인코더 및 상기 송신기는 모바일 디바이스에 통합되는, 디바이스.
  14. 제 1 항에 있어서,
    상기 다중-채널 인코더 및 상기 송신기는 기지국에 통합되는, 디바이스.
  15. 다중-채널 인코더에서 적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하는 단계;
    중간 신호를 발생시키기 위해, 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호에 대해 다운믹스 동작을 수행하는 단계;
    상기 중간 신호에 기초하여, 상기 중간 신호의 저 주파수 부분에 대응하는 저-대역 중간 신호 및 상기 중간 신호의 고 주파수 부분에 대응하는 고-대역 중간 신호를 발생시키는 단계;
    상기 저-대역 중간 신호에 대응하는 보이싱 값 및 상기 고-대역 중간 신호에 대응하는 이득 값에 적어도 부분적으로 기초하여, 상기 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하는 단계;
    상기 멀티-소스 플래그에 적어도 부분적으로 기초하여 고-대역 중간 여기 신호를 발생시키는 단계;
    상기 고-대역 중간 여기 신호에 적어도 부분적으로 기초하여 비트스트림을 발생시키는 단계; 및
    상기 비트스트림 및 상기 멀티-소스 플래그를 상기 다중-채널 인코더로부터 디바이스로 송신하는 단계를 포함하는, 방법.
  16. 제 15 항에 있어서,
    저-대역 여기 신호에 기초하여 비선형 고조파 여기를 발생시키는 단계로서, 상기 저-대역 여기 신호는 상기 저-대역 중간 신호에 기초하는, 상기 비선형 고조파 여기를 발생시키는 단계;
    상기 비선형 고조파 여기에 기초하여 변조된 잡음을 발생시키는 단계; 및
    상기 고-대역 중간 여기 신호를 발생시키기 위해, 상기 멀티-소스 플래그에 기초하여, 상기 비선형 고조파 여기와 상기 변조된 잡음의 믹싱을 제어하는 단계를 더 포함하는, 방법.
  17. 제 16 항에 있어서,
    상기 변조된 잡음을 발생시키는 단계는,
    상기 비선형 고조파 여기 및 하나 이상의 필터 파라미터들에 기초하여 엔벨로프를 결정하는 단계; 및
    상기 변조된 잡음을 발생시키기 위해 상기 엔벨로프를 잡음 신호에 적용하는 단계를 포함하는, 방법.
  18. 제 17 항에 있어서,
    상기 하나 이상의 필터 파라미터들은 상기 멀티-소스 플래그 및 하나 이상의 저 대역 보이스 인자들에 기초하는, 방법.
  19. 제 17 항에 있어서,
    상기 엔벨로프를 적용하는 단계는 상기 잡음 신호에 대해 저역 통과 필터를 적용하는 단계를 포함하며, 상기 저역 통과 필터의 계수들은 하나 이상의 필터 파라미터들에 적어도 부분적으로 기초하는, 방법.
  20. 제 17 항에 있어서,
    상기 고-대역 중간 여기 신호를 발생시키는 단계는 상기 비선형 고조파 여기와 상기 변조된 잡음을 결합하는 단계를 포함하는, 방법.
  21. 제 16 항에 있어서,
    상기 멀티-소스 플래그를 송신하기 전에:
    상기 고-대역 중간 신호의 프레임에 대응하는 이득 프레임 파라미터를 결정하는 단계;
    상기 이득 프레임 파라미터를 임계치와 비교하는 단계; 및
    상기 이득 프레임 파라미터가 상기 임계치보다 큰 것에 응답하여, 상기 멀티-소스 플래그의 값을 수정하는 단계를 더 포함하는, 방법.
  22. 제 21 항에 있어서,
    상기 이득 프레임 파라미터를 결정하는 단계는,
    상기 고-대역 중간 여기 신호에 기초하여 상기 고-대역 중간 신호의 합성된 버전을 발생시키는 단계; 및
    상기 고-대역 중간 신호의 프레임을 상기 고-대역 중간 신호의 상기 합성된 버전의 프레임과 비교하는 단계를 포함하는, 방법.
  23. 제 15 항에 있어서,
    상기 멀티-소스 플래그의 값을 결정하는 단계, 상기 고-대역 중간 여기 신호를 발생시키는 단계, 및 상기 비트스트림을 발생시키는 단계는 모바일 디바이스에서 수행되는, 방법.
  24. 제 15 항에 있어서,
    상기 멀티-소스 플래그의 값을 결정하는 단계, 상기 고-대역 중간 여기 신호를 발생시키는 단계, 및 상기 비트스트림을 발생시키는 단계는 기지국에서 수행되는, 방법.
  25. 신호를 인코딩하는 명령들을 포함하는 비일시적 컴퓨터-판독가능 저장 매체로서,
    상기 명령들은, 다중-채널 인코더의 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    상기 다중-채널 인코더에서 적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하는 단계;
    중간 신호를 발생시키기 위해, 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호에 대해 다운믹스 동작을 수행하는 단계;
    상기 중간 신호에 기초하여, 상기 중간 신호의 저 주파수 부분에 대응하는 저-대역 중간 신호 및 상기 중간 신호의 고 주파수 부분에 대응하는 고-대역 중간 신호를 발생시키는 단계;
    상기 저-대역 중간 신호에 대응하는 보이싱 값 및 상기 고-대역 중간 신호에 대응하는 이득 값에 적어도 부분적으로 기초하여, 상기 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하는 단계;
    상기 멀티-소스 플래그에 적어도 부분적으로 기초하여 고-대역 중간 여기 신호를 발생시키는 단계;
    상기 고-대역 중간 여기 신호에 적어도 부분적으로 기초하여 비트스트림을 발생시키는 단계; 및
    상기 비트스트림 및 상기 멀티-소스 플래그를 상기 다중-채널 인코더로부터 디바이스로 송신하는 단계를 포함하는 동작들을 수행하게 하는, 비일시적 컴퓨터-판독가능 저장 매체.
  26. 제 25 항에 있어서,
    상기 동작들은,
    저-대역 여기 신호에 기초하여 비선형 고조파 여기를 발생시키는 단계로서, 상기 저-대역 여기 신호는 상기 저-대역 중간 신호에 기초하는, 상기 비선형 고조파 여기를 발생시키는 단계;
    상기 비선형 고조파 여기에 기초하여 변조된 잡음을 발생시키는 단계; 및
    상기 고-대역 중간 여기 신호를 발생시키기 위해, 상기 멀티-소스 플래그에 기초하여, 상기 비선형 고조파 여기와 상기 변조된 잡음의 믹싱을 제어하는 단계를 더 포함하는, 비일시적 컴퓨터-판독가능 저장 매체.
  27. 제 26 항에 있어서,
    상기 변조된 잡음을 발생시키는 단계는,
    상기 비선형 고조파 여기 및 하나 이상의 필터 파라미터들에 기초하여 엔벨로프를 결정하는 단계; 및
    상기 변조된 잡음을 발생시키기 위해 상기 엔벨로프를 잡음 신호에 적용하는 단계를 포함하는, 비일시적 컴퓨터-판독가능 저장 매체.
  28. 제 27 항에 있어서,
    상기 동작들은,
    상기 고-대역 중간 여기 신호를 발생시키는 단계 전에:
    상기 비선형 고조파 여기에 제 1 이득을 적용하는 단계로서, 상기 제 1 이득은 상기 멀티-소스 플래그 및 하나 이상의 저 대역 보이스 인자들에 기초하는, 상기 제 1 이득을 적용하는 단계; 및
    상기 변조된 잡음에 제 2 이득을 적용하는 단계로서, 상기 제 2 이득은 상기 멀티-소스 플래그 및 상기 하나 이상의 저 대역 보이스 인자들에 기초하는, 상기 제 2 이득을 적용하는 단계를 더 포함하는, 비일시적 컴퓨터-판독가능 저장 매체.
  29. 적어도 제 1 오디오 신호 및 제 2 오디오 신호를 수신하는 수단;
    중간 신호를 발생시키기 위해, 상기 제 1 오디오 신호 및 상기 제 2 오디오 신호에 대해 다운믹스 동작을 수행하는 수단;
    상기 중간 신호에 기초하여, 상기 중간 신호의 저 주파수 부분에 대응하는 저-대역 중간 신호 및 상기 중간 신호의 고 주파수 부분에 대응하는 고-대역 중간 신호를 발생시키는 수단;
    상기 저-대역 중간 신호에 대응하는 보이싱 값 및 상기 고-대역 중간 신호에 대응하는 이득 값에 적어도 부분적으로 기초하여, 상기 고-대역 중간 신호와 연관된 멀티-소스 플래그의 값을 결정하는 수단;
    상기 멀티-소스 플래그에 적어도 부분적으로 기초하여 고-대역 중간 여기 신호를 발생시키는 수단;
    상기 고-대역 중간 여기 신호에 적어도 부분적으로 기초하여 비트스트림을 발생시키는 수단; 및
    상기 비트스트림 및 상기 멀티-소스 플래그를 디바이스로 송신하는 수단을 포함하는, 장치.
  30. 제 29 항에 있어서,
    상기 멀티-소스 플래그의 값은 상기 고-대역 중간 신호의 프레임의 에너지 메트릭 및 상기 고-대역 중간 신호의 멀티-프레임 에너지 메트릭에 추가로 기초하는, 장치.
KR1020197030409A 2017-04-21 2018-04-19 멀티-소스 환경에서의 비-고조파 음성 검출 및 대역폭 확장 KR102308966B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762488654P 2017-04-21 2017-04-21
US62/488,654 2017-04-21
US15/956,645 2018-04-18
US15/956,645 US10825467B2 (en) 2017-04-21 2018-04-18 Non-harmonic speech detection and bandwidth extension in a multi-source environment
PCT/US2018/028338 WO2018195299A1 (en) 2017-04-21 2018-04-19 Non-harmonic speech detection and bandwidth extension in a multi-source environment

Publications (2)

Publication Number Publication Date
KR20190139872A true KR20190139872A (ko) 2019-12-18
KR102308966B1 KR102308966B1 (ko) 2021-10-05

Family

ID=63852843

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197030409A KR102308966B1 (ko) 2017-04-21 2018-04-19 멀티-소스 환경에서의 비-고조파 음성 검출 및 대역폭 확장

Country Status (9)

Country Link
US (1) US10825467B2 (ko)
EP (1) EP3613042B1 (ko)
KR (1) KR102308966B1 (ko)
CN (1) CN110537222B (ko)
AU (1) AU2018256414B2 (ko)
BR (1) BR112019021903A2 (ko)
SG (1) SG11201908390UA (ko)
TW (1) TWI775838B (ko)
WO (1) WO2018195299A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
KR102570480B1 (ko) * 2019-01-04 2023-08-25 삼성전자주식회사 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
US10958324B2 (en) * 2019-08-05 2021-03-23 Shure Acquisition Holdings, Inc. Transmit antenna diversity wireless audio system
US10978083B1 (en) 2019-11-13 2021-04-13 Shure Acquisition Holdings, Inc. Time domain spectral bandwidth replication
KR20210073975A (ko) * 2019-12-11 2021-06-21 삼성전자주식회사 화자를 인식하는 방법 및 장치
CN112562686B (zh) * 2020-12-10 2022-07-15 青海民族大学 一种使用神经网络的零样本语音转换语料预处理方法
CN113763980B (zh) * 2021-10-30 2023-05-12 成都启英泰伦科技有限公司 一种回声消除方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150162010A1 (en) * 2013-01-22 2015-06-11 Panasonic Corporation Bandwidth extension parameter generation device, encoding apparatus, decoding apparatus, bandwidth extension parameter generation method, encoding method, and decoding method
KR20170023007A (ko) * 2014-06-26 2017-03-02 퀄컴 인코포레이티드 고대역 신호 특성에 기초한 시간 이득 조정
WO2017139714A1 (en) * 2016-02-12 2017-08-17 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
KR20040066835A (ko) * 2001-11-23 2004-07-27 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 대역폭 확장기 및 광대역 오디오 신호 생성 방법
RU2404506C2 (ru) * 2004-11-05 2010-11-20 Панасоник Корпорэйшн Устройство масштабируемого декодирования и устройство масштабируемого кодирования
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
UA94041C2 (ru) * 2005-04-01 2011-04-11 Квелкомм Инкорпорейтед Способ и устройство для фильтрации, устраняющей разреженность
BRPI0607646B1 (pt) * 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
US8150684B2 (en) * 2005-06-29 2012-04-03 Panasonic Corporation Scalable decoder preventing signal degradation and lost data interpolation method
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
KR101040160B1 (ko) * 2006-08-15 2011-06-09 브로드콤 코포레이션 패킷 손실 후의 제한되고 제어된 디코딩
CN101548318B (zh) * 2006-12-15 2012-07-18 松下电器产业株式会社 编码装置、解码装置以及其方法
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
KR100970446B1 (ko) * 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
EP2176862B1 (en) * 2008-07-11 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
JP5551694B2 (ja) * 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 多くのスペクトルエンベロープを計算するための装置および方法
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101763856B (zh) * 2008-12-23 2011-11-02 华为技术有限公司 信号分类处理方法、分类处理装置及编码系统
CO6440537A2 (es) * 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
TWI556227B (zh) * 2009-05-27 2016-11-01 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
EP2545548A1 (en) * 2010-03-09 2013-01-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
US20120029926A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
KR20120016709A (ko) * 2010-08-17 2012-02-27 삼성전자주식회사 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법
WO2012040897A1 (en) * 2010-09-28 2012-04-05 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
CN102737636B (zh) * 2011-04-13 2014-06-04 华为技术有限公司 一种音频编码方法及装置
CN103718240B (zh) * 2011-09-09 2017-02-15 松下电器(美国)知识产权公司 编码装置、解码装置、编码方法和解码方法
JP5817499B2 (ja) * 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
CN104737227B (zh) * 2012-11-05 2017-11-10 松下电器(美国)知识产权公司 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法
CN103928029B (zh) * 2013-01-11 2017-02-08 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
RU2625945C2 (ru) * 2013-01-29 2017-07-19 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии
WO2014185569A1 (ko) * 2013-05-15 2014-11-20 삼성전자 주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
US9620134B2 (en) * 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
CN105765655A (zh) * 2013-11-22 2016-07-13 高通股份有限公司 高频带译码中的选择性相位补偿
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9984699B2 (en) * 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
US10341770B2 (en) * 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150162010A1 (en) * 2013-01-22 2015-06-11 Panasonic Corporation Bandwidth extension parameter generation device, encoding apparatus, decoding apparatus, bandwidth extension parameter generation method, encoding method, and decoding method
KR20170023007A (ko) * 2014-06-26 2017-03-02 퀄컴 인코포레이티드 고대역 신호 특성에 기초한 시간 이득 조정
WO2017139714A1 (en) * 2016-02-12 2017-08-17 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Audio codec processing functions, Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec. 3GPP TS 26.290 version 9.0.0 Release 9, 2009.09. *
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20. *

Also Published As

Publication number Publication date
WO2018195299A1 (en) 2018-10-25
CN110537222B (zh) 2023-07-28
TWI775838B (zh) 2022-09-01
US20180308505A1 (en) 2018-10-25
TW201842494A (zh) 2018-12-01
BR112019021903A2 (pt) 2020-05-26
US10825467B2 (en) 2020-11-03
KR102308966B1 (ko) 2021-10-05
SG11201908390UA (en) 2019-11-28
CN110537222A (zh) 2019-12-03
EP3613042A1 (en) 2020-02-26
AU2018256414A1 (en) 2019-10-03
EP3613042B1 (en) 2022-09-21
AU2018256414B2 (en) 2022-05-19

Similar Documents

Publication Publication Date Title
KR102308966B1 (ko) 멀티-소스 환경에서의 비-고조파 음성 검출 및 대역폭 확장
CN108352162B (zh) 用于使用主声道的编码参数编码立体声声音信号以编码辅声道的方法和系统
US10872613B2 (en) Inter-channel bandwidth extension spectral mapping and adjustment
US10593341B2 (en) Coding of multiple audio signals
KR20200006978A (ko) 스테레오 디코딩을 위한 스테레오 파라미터들
EP3649639B1 (en) Time-domain inter-channel prediction
CN110800051B (zh) 具有时域信道间带宽延展的高频带残值预测
KR102208602B1 (ko) 채널간 대역폭 확장

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant