KR20230035430A - 다수의 오디오 신호들의 디코딩 - Google Patents

다수의 오디오 신호들의 디코딩 Download PDF

Info

Publication number
KR20230035430A
KR20230035430A KR1020237006672A KR20237006672A KR20230035430A KR 20230035430 A KR20230035430 A KR 20230035430A KR 1020237006672 A KR1020237006672 A KR 1020237006672A KR 20237006672 A KR20237006672 A KR 20237006672A KR 20230035430 A KR20230035430 A KR 20230035430A
Authority
KR
South Korea
Prior art keywords
signal
domain
frequency
channel
band
Prior art date
Application number
KR1020237006672A
Other languages
English (en)
Inventor
벤카타 수브라마니암 찬드라 세카르 체비얌
벤카트라만 아티
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20230035430A publication Critical patent/KR20230035430A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

디바이스는 제 2 디바이스로부터 인코딩된 비트스트림을 수신하도록 구성된 수신기를 포함한다. 인코딩된 비트스트림은 제 2 디바이스에서 캡처된 레퍼런스 채널 및 제 2 디바이스에서 캡처된 타겟 채널에 기초하여 결정된 시간적 불일치 값을 포함한다. 디바이스는 또한, 인코딩된 비트스트림을 디코딩하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하도록 구성된 디코더를 포함한다. 디코더는 주파수-도메인 출력 신호들 상에서 역 변환 동작들을 수행하여 제 1 및 제 2 시간-도메인 신호들을 생성하도록 구성된다. 시간적 불일치 값에 기초하여, 디코더는 시간-도메인 신호들을 디코딩된 타겟 채널 및 디코딩된 레퍼런스 채널에 맵핑하도록 구성된다. 디코더는 또한, 시간적 불일치 값에 기초하여 디코딩된 타겟 채널 상에서 인과적 시간-도메인 시프트 동작을 수행하여 조정된 디코딩된 타겟 채널을 생성하도록 구성된다.

Description

다수의 오디오 신호들의 디코딩{DECODING OF MULTIPLE AUDIO SIGNALS}
우선권 주장
본 출원은 공동 소유된, 2016 년 10 월 31 일자로 출원된, 발명의 명칭이 "ENCODING OF MULTIPLE AUDIO SIGNALS" 인 미국 가특허출원 제 62/415,369 호, 및 2017 년 9 월 21 일자로 출원된, 발명의 명칭이 "ENCODING OF MULTIPLE AUDIO SIGNALS" 인 미국 정규특허 출원 제 15/711,538 호로부터 우선권의 이익을 주장하며, 전술된 출원들 각각의 내용들은 그 전체가 참조로서 본원에 명백하게 포함된다.
기술분야
본 개시물은 일반적으로, 다수의 오디오 신호들의 인코딩에 관한 것이다.
기술에서의 진보들은 더 작고 더 강력한 컴퓨팅 디바이스들을 초래하였다. 예를 들어, 작고, 경량의, 그리고 사용자들에 의해 쉽게 운반되는 모바일 및 스마트 폰들과 같은 무선 전화기들, 태블릿들 및 랩톱 컴퓨터들을 포함하는 다양한 휴대용 개인 컴퓨팅 디바이스들이 현재 존재한다. 이들 디바이스들은 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 또한, 많은 이러한 디바이스들은 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어와 같은 부가적인 기능성을 통합한다. 또한, 이러한 디바이스들은, 인터넷에 액세스하는데 사용될 수 있는 웹 브라우저 애플리케이션과 같은 소프트웨어 애플리케이션들을 포함하는, 실행가능 명령들을 프로세싱할 수 있다. 이와 같이, 이들 디바이스들은 중요한 컴퓨팅 능력들을 포함할 수도 있다.
컴퓨팅 디바이스는 오디오 신호들을 수신하도록 다수의 마이크로폰들을 포함할 수도 있다. 일반적으로, 사운드 소스는 다수의 마이크로폰들 중 제 2 마이크로폰보다는 제 1 마이크로폰에 더 가깝다. 따라서, 제 2 마이크로폰으로부터 수신된 제 2 오디오 신호는 사운드 소스로부터 마이크로폰들의 개별 거리로 인해 제 1 마이크로폰으로부터 수신된 제 1 오디오 신호에 대해 지연될 수도 있다. 다른 구현들에서, 제 1 오디오 신호는 제 2 오디오 신호에 대하여 지연될 수도 있다. 스테레오-인코딩에서, 마이크로폰들로부터의 오디오 신호들은 중간 채널 (mid channel) 신호 및 하나 이상의 사이드 채널 신호들을 생성하도록 인코딩될 수도 있다. 중간 채널 신호는 제 1 오디오 신호 및 제 2 오디오 신호의 합에 대응할 수도 있다. 사이드 채널 신호는 제 1 오디오 신호와 제 2 오디오 신호 간의 차이에 대응할 수도 있다. 제 1 오디오 신호는, 제 1 오디오 신호에 대하여 제 2 오디오 신호를 수신하는데 있어서의 지연 때문에 제 2 오디오 신호와 정렬되지 않을 수도 있다. 제 2 오디오 신호에 대한 제 1 오디오 신호의 오정렬은 2 개의 오디오 신호들 간의 차이를 증가시킬 수도 있다. 이 차이에서의 증가 때문에, 사이드 채널 신호를 인코딩하기 위해 더 높은 수의 비트들이 사용될 수도 있다.
특정 구현에서, 디바이스는 제 2 디바이스로부터 인코딩된 비트스트림을 수신하도록 구성된 수신기를 포함한다. 인코딩된 비트스트림은 시간적 불일치 값 및 스테레오 파라미터들을 포함한다. 시간적 불일치 값 및 스테레오 파라미터들은 제 2 디바이스에서 캡처된 레퍼런스 채널 및 제 2 디바이스에서 캡처된 타겟 채널에 기초하여 결정된다. 디바이스는 또한, 인코딩된 비트스트림을 디코딩하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하도록 구성된 디코더를 포함한다. 디코더는 또한, 제 1 주파수-도메인 출력 신호에 대해 제 1 역 변환 동작을 수행하여 제 1 시간-도메인 신호를 생성하도록 구성된다. 디코더는 또한, 제 2 주파수-도메인 출력 신호에 대해 제 2 역 변환 동작을 수행하여 제 2 시간-도메인 신호를 생성하도록 구성된다. 디코더는 또한, 시간적 불일치 값에 기초하여 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 하나를 디코딩된 타겟 채널로서 맵핑하도록 구성된다. 디코더는 또한, 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 다른 하나를 디코딩된 레퍼런스 채널로서 맵핑하도록 구성된다. 디코더는 또한, 시간적 불일치 값에 기초하여 디코딩된 타겟 채널에 대해 인과적 시간-도메인 시프트 동작을 수행하여 조정된 디코딩된 타겟 채널을 생성하도록 구성된다. 디바이스는 또한, 제 1 출력 신호 및 제 2 출력 신호를 출력하도록 구성된 출력 디바이스를 포함한다. 제 1 출력 신호는 디코딩된 레퍼런스 채널에 기초하고 제 2 출력 신호는 조정된 디코딩된 타겟 채널에 기초한다.
디바이스는 또한, 인코딩된 비트스트림을 디코딩하여 디코딩된 중간 신호를 생성하도록 구성된 스테레오 디코더를 포함한다. 디바이스는 디코딩된 중간 신호에 대해 변환 동작을 수행하여 주파수-도메인 디코딩된 중간 신호를 생성하도록 구성된 변환 유닛을 더 포함한다. 디바이스는 또한, 주파수-도메인 디코딩된 중간 신호에 대해 업-믹스 동작을 수행하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하도록 구성된 업-믹서를 포함한다. 스테레오 파라미터들은 업-믹스 동작 동안 주파수-도메인 디코딩된 중간 신호에 적용된다.
다른 특정 구현에서, 방법은, 디바이스의 수신기에서, 제 2 디바이스로부터 인코딩된 비트스트림을 수신하는 단계를 포함한다. 인코딩된 비트스트림은 시간적 불일치 값 및 스테레오 파라미터들을 포함한다. 시간적 불일치 값 및 스테레오 파라미터들은 제 2 디바이스에서 캡처된 레퍼런스 채널 및 제 2 디바이스에서 캡처된 타겟 채널에 기초하여 결정된다. 방법은 또한, 디바이스의 디코더에서, 인코딩된 비트스트림을 디코딩하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하는 단계를 포함한다. 방법은 또한, 제 1 주파수-도메인 출력 신호에 대해 제 1 역 변환 동작을 수행하여 제 1 시간-도메인 신호를 생성하는 단계를 포함한다. 방법은 제 2 주파수-도메인 출력 신호에 대해 제 2 역 변환 동작을 수행하여 제 2 시간-도메인 신호를 생성하는 단계를 더 포함한다. 방법은 또한, 시간적 불일치 값에 기초하여 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 하나를 디코딩된 타겟 채널로서 맵핑하는 단계를 포함한다. 방법은 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 다른 하나를 디코딩된 레퍼런스 채널로서 맵핑하는 단계를 더 포함한다. 방법은 또한, 제 1 출력 신호 및 제 2 출력 신호를 출력하는 단계를 포함한다. 제 1 출력 신호는 디코딩된 레퍼런스 채널에 기초하고 제 2 출력 신호는 조정된 디코딩된 타겟 채널에 기초한다.
방법은 또한, 인코딩된 비트스트림을 디코딩하여 디코딩된 중간 신호를 생성하는 단계를 포함한다. 방법은 디코딩된 중간 신호에 대해 변환 동작을 수행하여 주파수-도메인 디코딩된 중간 신호를 생성하는 단계를 더 포함한다. 방법은 또한, 주파수-도메인 디코딩된 중간 신호에 대해 업-믹스 동작을 수행하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하는 단계를 포함한다. 스테레오 파라미터들은 업-믹스 동작 동안 주파수-도메인 디코딩된 중간 신호에 적용된다.
다른 특정 구현에서, 비일시적 컴퓨터 판독가능 매체는, 디코더 내의 프로세서에 의해 실행되는 경우, 디코더로 하여금 제 2 디바이스로부터 수신된 인코딩된 비트스트림을 디코딩하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하는 것을 포함하는 동작들을 수행하게 하는 명령들을 포함한다. 인코딩된 비트스트림은 시간적 불일치 값 및 스테레오 파라미터들을 포함한다. 시간적 불일치 값 및 스테레오 파라미터들은 제 2 디바이스에서 캡처된 레퍼런스 채널 및 제 2 디바이스에서 캡처된 타겟 채널에 기초하여 결정된다. 동작들은 또한, 제 1 주파수-도메인 출력 신호에 대해 제 1 역 변환 동작을 수행하여 제 1 시간-도메인 신호를 생성하는 것을 포함한다. 동작들은 또한, 제 2 주파수-도메인 출력 신호에 대해 제 2 역 변환 동작을 수행하여 제 2 시간-도메인 신호를 생성하는 것을 포함한다. 동작들은 또한, 시간적 불일치 값에 기초하여 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 하나를 디코딩된 타겟 채널로서 맵핑하는 것을 포함한다. 동작들은 또한, 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 다른 하나를 디코딩된 레퍼런스 채널로서 맵핑하는 것을 포함한다. 동작들은 또한, 제 1 출력 신호 및 제 2 출력 신호를 출력하는 것을 포함한다. 제 1 출력 신호는 디코딩된 레퍼런스 채널에 기초하고 제 2 출력 신호는 조정된 디코딩된 타겟 채널에 기초한다.
동작들은 또한, 인코딩된 비트스트림을 디코딩하여 디코딩된 중간 신호를 생성하는 것을 포함한다. 동작들은 디코딩된 중간 신호에 대해 변환 동작을 수행하여 주파수-도메인 디코딩된 중간 신호를 생성하는 것을 더 포함한다. 동작들은 또한, 주파수-도메인 디코딩된 중간 신호에 대해 업-믹스 동작을 수행하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하는 것을 포함한다. 스테레오 파라미터들은 업-믹스 동작 동안 주파수-도메인 디코딩된 중간 신호에 적용된다.
다른 특정 구현에서, 장치는 제 2 디바이스로부터 인코딩된 비트스트림을 수신하기 위한 수단을 포함한다. 인코딩된 비트스트림은 시간적 불일치 값 및 스테레오 파라미터들을 포함한다. 시간적 불일치 값 및 스테레오 파라미터들은 제 2 디바이스에서 캡처된 레퍼런스 채널 및 제 2 디바이스에서 캡처된 타겟 채널에 기초하여 결정된다. 장치는 또한, 인코딩된 비트스트림을 디코딩하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하기 위한 수단을 포함한다. 장치는 제 1 주파수-도메인 출력 신호에 대해 제 1 역 변환 동작을 수행하여 제 1 시간-도메인 신호를 생성하기 위한 수단을 더 포함한다. 장치는 또한, 제 2 주파수-도메인 출력 신호에 대해 제 2 역 변환 동작을 수행하여 제 2 시간-도메인 신호를 생성하기 위한 수단을 포함한다. 장치는 시간적 불일치 값에 기초하여 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 하나를 디코딩된 타겟 채널로서 맵핑하기 위한 수단을 더 포함한다. 장치는 또한, 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 다른 하나를 디코딩된 레퍼런스 채널로서 맵핑하기 위한 수단을 포함한다. 장치는 시간적 불일치 값에 기초하여 디코딩된 타겟 채널에 대해 인과적 시간-도메인 시프트 동작을 수행하여 조정된 디코딩된 타겟 채널을 생성하기 위한 수단을 더 포함한다. 장치는 또한, 제 1 출력 신호 및 제 2 출력 신호를 출력하기 위한 수단을 포함한다. 제 1 출력 신호는 디코딩된 레퍼런스 채널에 기초하고 제 2 출력 신호는 조정된 디코딩된 타겟 채널에 기초한다.
본 개시물의 다른 구현들, 이점들 및 특성들은 다음의 섹션들: 도면의 간단한 설명, 상세한 설명 및 청구항들을 포함하는 전체 출원의 리뷰 후에 명백해질 것이다.
도 1 은 다수의 오디오 신호들을 인코딩하도록 동작 가능한 인코더를 포함하는 시스템의 특정 예시적 예의 블록도이고;
도 2 는 도 1 의 인코더를 예시하는 다이어그램이고;
도 3 은 도 1 의 인코더의 주파수-도메인 스테레오 코더의 제 1 구현을 예시하는 다이어그램이고;
도 4 는 도 1 의 인코더의 주파수-도메인 스테레오 코더의 제 2 구현을 예시하는 다이어그램이고;
도 5 는 도 1 의 인코더의 주파수-도메인 스테레오 코더의 제 3 구현을 예시하는 다이어그램이고;
도 6 은 도 1 의 인코더의 주파수-도메인 스테레오 코더의 제 4 구현을 예시하는 다이어그램이고;
도 7 은 도 1 의 인코더의 주파수-도메인 스테레오 코더의 제 5 구현을 예시하는 다이어그램이고;
도 8 은 도 1 의 인코더의 신호 사전-프로세서를 예시하는 다이어그램이고;
도 9 는 도 1 의 인코더의 시프트 추정기 (204) 를 예시하는 다이어그램이고;
도 10 은 다수의 오디오 신호들을 인코딩하는 특정 방법을 예시하는 플로우차트이고;
도 11 은 오디오 신호들을 디코딩하도록 동작 가능한 디코더를 예시하는 다이어그램이고;
도 12 는 다수의 오디오 신호들을 인코딩하도록 동작 가능한 인코더를 포함하는 시스템의 특정 예시적 예의 다른 블록도이고;
도 13 은 도 12 의 인코더를 예시하는 다이어그램이고;
도 14 는 도 12 의 인코더를 예시하는 다른 다이어그램이고;
도 15 는 도 12 의 인코더의 주파수-도메인 스테레오 코더의 제 1 구현을 예시하는 다이어그램이고;
도 16 은 도 12 의 인코더의 주파수-도메인 스테레오 코더의 제 2 구현을 예시하는 다이어그램이고;
도 17 은 제로-패딩 기법들을 예시하고;
도 18 은 다수의 오디오 신호들을 인코딩하는 특정 방법을 예시하는 플로우차트이고;
도 19 는 오디오 신호들을 디코딩하도록 동작 가능한 디코딩 시스템들을 예시하고;
도 20 은 오디오 신호들을 디코딩하는 특정 방법을 예시하는 플로우차트들을 포함하고;
도 21 은 다수의 오디오 신호들을 인코딩하도록 동작 가능한 디바이스의 특정 예시적 예의 블록도이고;
도 22 는 기지국의 특정 예시적 예의 블록도이다.
다수의 오디오 신호들을 인코딩하도록 동작 가능한 시스템들 및 디바이스들이 개시된다. 디바이스는 다수의 오디오 신호들을 인코딩하도록 구성된 인코더를 포함할 수도 있다. 다수의 오디오 신호들은 다수의 레코딩 디바이스들, 예를 들어 다수의 마이크로폰들을 사용하여 시간적으로 동시에 캡처될 수도 있다. 일부 예들에서, 다수의 오디오 신호들 (또는 멀티-채널 오디오) 은 동시에 또는 상이한 시간들에 레코딩되는 여러 오디오 채널들을 멀티플렉싱함으로써 합성적으로 (예를 들어, 인공적으로) 생성될 수도 있다. 예시적인 예들로서, 오디오 채널들의 동시적 레코딩 또는 멀티플렉싱은 2-채널 구성 (즉, 스테레오: 좌측 및 우측), 5.1 채널 구성 (좌측, 우측, 센터, 좌측 서라운드, 우측 서라운드, 및 저 주파수 엠퍼시스 (LFE) 채널들), 7.1 채널 구성, 7.1+4 채널 구성, 22.2 채널 구성, 또는 N-채널 구성을 초래할 수도 있다.
텔레컨퍼런스 룸들 (또는 텔레프레즌스 룸들) 에서의 오디오 캡처 디바이스들은 공간적 오디오를 획득하는 다수의 마이크로폰들을 포함할 수도 있다. 공간적 오디오는 인코딩 및 송신되는 백그라운드 오디오 뿐만 아니라 스피치를 포함할 수도 있다. 소정 소스 (예를 들어, 화자) 로부터의 스피치/오디오는 마이크로폰들이 배열되는 방법 뿐만 아니라 소스 (예를 들어, 화자) 가 마이크로폰들 및 룸 디멘전들에 대하여 위치되는 장소에 따라 상이한 시간들에서 다수의 마이크로폰들에 도달할 수도 있다. 예를 들어, 사운드 소스 (예를 들어, 화자) 는 디바이스와 연관된 제 2 마이크로폰보다 디바이스와 연관된 제 1 마이크로폰에 더 가까울 수도 있다. 따라서, 사운드 소스로부터 방출된 사운드는 제 2 마이크로폰보다 시간적으로 더 일찍 제 1 마이크로폰에 도달할 수도 있다. 디바이스는 제 1 마이크로폰을 통해 제 1 오디오 신호를 수신할 수도 있고 제 2 마이크로폰을 통해 제 2 오디오 신호를 수신할 수도 있다.
중간-사이드 (MS) 코딩 및 파라메트릭 스테레오 (PS) 코딩은 듀얼-모노 코딩 기법들을 통해 개선된 효율성을 제공할 수도 있는 스테레오 코딩 기법들이다. 듀얼-모노 코딩에서, 좌측 (L) 채널 (또는 신호) 및 우측 (R) 채널 (또는 신호) 은 채널-간 상관을 사용하지 않고 독립적으로 코딩된다. MS 코딩은 코딩 전에 좌측 채널 및 우측 채널을 합-채널 및 차이-채널 (예를 들어, 사이드 채널) 로 변환함으로써 상관된 L/R 채널-쌍 간의 리던던시를 감소시킨다. 합 신호 및 차이 신호는 MS 코딩에서 파형 코딩된다. 상대적으로 더 많은 비트들이 사이드 신호 상에서보다 합 신호 상에서 소비된다. PS 코딩은 L/R 신호들을 합 신호 (sum signal) 및 사이드 파라미터들의 세트로 변환함으로써 각각 서브-대역에서 리던던시를 감소시킨다. 사이드 파라미터들은 채널-간 세기 차이 (IID), 채널-간 위상 차이 (IPD), 채널-간 시간 차이 (ITD), 등을 나타낼 수도 있다. 합 신호는 사이드 파라미터들과 함께 파형 코딩 및 송신된다. 하이브리드 시스템에서, 사이드-채널은 더 낮은 대역들 (예를 들어, 2 킬로헤르츠 (kHz) 미만) 에서 파형 코딩되고 채널-간 위상 보존이 지각적으로 덜 중요한 상위 대역들 (예를 들어, 2 kHz 이상) 에서 PS 코딩될 수도 있다.
MS 코딩 및 PS 코딩은 주파수 도메인에서 또는 서브-대역 도메인에서 행해질 수도 있다. 일부 예들에서, 좌측 채널 및 우측 채널은 비상관될 수도 있다. 예를 들어, 좌측 채널 및 우측 채널은 비상관된 합성 신호들을 포함할 수도 있다. 좌측 채널 및 우측 채널이 비상관되는 경우, MS 코딩, PS 코딩, 또는 양자 모두의 코딩 효율성은 듀얼-모노 코딩의 코딩 효율성에 접근할 수도 있다.
레코딩 구성에 따라, 좌측 채널과 우측 채널 간의 시간적 시프트, 뿐만 아니라 에코 및 룸 반향과 같은 다른 공간적 효과들이 존재할 수도 있다. 채널들 간의 시간적 시프트 및 위상 불일치가 보상되지 않으면, 합 채널 및 차이 채널은 MS 또는 PS 기법들과 연관된 코딩-이득들을 감소시키는 비교 가능한 에너지들을 포함할 수도 있다. 코딩-이득들에서의 감소는 시간적 (또는 위상) 시프트의 양에 기초할 수도 있다. 합 신호 및 차이 신호의 비교 가능한 에너지들은, 채널들이 시간적으로 시프트되지만 고도로 상관되는 소정 프레임들에서 MS 코딩의 사용을 제한할 수도 있다. 스테레오 코딩에서, 중간 채널 (예를 들어, 합 채널) 및 사이드 채널 (예를 들어, 차이 채널) 은 다음의 식에 기초하여 생성될 수도 있다:
Figure pat00001
, 식 1
여기서 M 은 중간 채널에 대응하고, S 는 사이드 채널에 대응하고, L 은 좌측 채널에 대응하며, R 은 우측 채널에 대응한다.
일부 경우들에서, 중간 채널 및 사이드 채널은 다음의 식에 기초하여 생성될 수도 있다:
Figure pat00002
, 식 2
여기서 c 는 주파수 독립적인 복소수 값에 대응한다. 식 1 또는 식 2 에 기초하여 중간 채널 및 사이드 채널을 생성하는 것은 "다운믹싱" 알고리즘을 수행하는 것으로서 지칭될 수도 있다. 식 1 또는 식 2 에 기초하여 중간 채널 및 사이드 채널로부터 좌측 채널 및 우측 채널을 생성하는 것의 역 프로세스는 "업믹싱" 알고리즘을 수행하는 것으로서 지칭될 수도 있다.
일부 경우들에서, 중간 채널은 다음과 같은 다른 식들에 기초할 수도 있다:
Figure pat00003
, 또는 식 3
Figure pat00004
식 4
여기서, g1 + g2 = 1.0 이고, gD 는 이득 파라미터이다. 다른 예들에서, 다운믹스는 대역들에서 수행될 수도 있고, 여기서 mid(b) = c1L(b) + c2R(b) 이고, 여기서 c1 및 c2 는 복소수들이고, 여기서 side(b) = c3L(b) - c4R(b) 이고, 여기서 c3 및 c4 는 복소수들이다.
특정 프레임에 대한 MS 코딩 또는 듀얼-모노 코딩 사이에서 선택하는데 사용된 애드-혹 접근은 중간 신호 및 사이드 신호를 생성하는 것, 중간 신호 및 사이드 신호의 에너지들을 계산하는 것, 및 에너지들에 기초하여 MS 코딩을 수행할지 여부를 결정하는 것을 포함할 수도 있다. 예를 들어, MS 코딩은, 사이드 신호 및 중간 신호의 에너지들의 비율이 임계 미만이라고 결정하는 것에 응답하여 수행될 수도 있다. 예시하기 위해, 우측 채널이 적어도 제 1 시간 (예를 들어, 약 0.001 초 또는 48 kHz 에서 48 샘플들) 만큼 시프트되면, (좌측 신호 및 우측 신호의 합에 대응하는) 중간 신호의 제 1 에너지는 유성 스피치 프레임들에 대해 (좌측 신호와 우측 신호 간의 차이에 대응하는) 사이드 신호의 제 2 에너지에 비교할 만할 수도 있다. 제 1 에너지가 제 2 에너지와 비교할 만한 경우, 사이드 채널을 인코딩하기 위해 더 높은 수의 비트들이 사용될 수도 있고, 이에 의해 듀얼-모도 코딩에 대한 MS 코딩의 코딩 효율성을 감소시킨다. 듀얼-모노 코딩은 따라서, 제 1 에너지가 제 2 에너지와 비교할 만한 경우 (예를 들어, 제 1 에너지 및 제 2 에너지의 비율이 임계 이상인 경우), 사용될 수도 있다. 대안의 접근에서, 특정 프레임에 대한 듀얼-모노 코딩과 MS 코딩 간의 판정은 좌측 채널 및 우측 채널의 표준화된 크로스-상관 값들 및 임계의 비교에 기초하여 이루어질 수도 있다.
일부 예들에서, 인코더는 제 2 오디오 신호에 대한 제 1 오디오 신호의 시프트를 나타내는 시간적 시프트 값을 결정할 수도 있다. 시프트 값은 제 2 마이크로폰에서 제 2 오디오 신호의 수신과 제 1 마이크로폰에서 제 1 오디오 신호의 수신 간의 시간적 지연의 양에 대응할 수도 있다. 또한, 인코더는, 예를 들어 각각 20 밀리초 (ms) 스피치/오디오 프레임에 기초하여 프레임별 단위로 시프트 값을 결정할 수도 있다. 예를 들어, 시프트 값은, 제 2 오디오 신호의 제 2 프레임이 제 1 오디오 신호의 제 1 프레임에 대하여 지연되는 시간의 양에 대응할 수도 있다. 대안으로, 시프트 값은, 제 1 오디오 신호의 제 1 프레임이 제 2 오디오 신호의 제 2 프레임에 대하여 지연되는 시간의 양에 대응할 수도 있다.
사운드 소스가 제 2 마이크로폰보다 제 1 마이크로폰에 더 가까이 있는 경우, 제 2 오디오 신호의 프레임들은 제 1 오디오 신호의 프레임들에 대해 지연될 수도 있다. 이 경우에서, 제 1 오디오 신호는 "레퍼런스 오디오 신호" 또는 "레퍼런스 채널" 로서 지칭될 수도 있고 지연된 제 2 오디오 신호는 "타겟 오디오 신호" 또는 "타겟 채널" 로서 지칭될 수도 있다. 대안으로, 사운드 소스가 제 1 마이크로폰보다 제 2 마이크로폰에 더 가까이 있는 경우, 제 1 오디오 신호의 프레임들은 제 2 오디오 신호의 프레임들에 대해 지연될 수도 있다. 이 경우에서, 제 2 오디오 신호는 레퍼런스 오디오 신호 또는 레퍼런스 채널로서 지칭될 수도 있고 지연된 제 1 오디오 신호는 타겟 오디오 신호 또는 타겟 채널로서 지칭될 수도 있다.
사운드 소스들 (예를 들어, 화자들) 이 컨퍼런스 또는 텔레프레즌스 룸에 위치되는 장소 또는 사운드 소스 (예를 들어, 화자) 포지션이 마이크로폰들에 대해 변화하는 방법에 따라, 레퍼런스 채널 및 타겟 채널은 하나의 프레임에서 다른 프레임으로 변화할 수도 있고; 유사하게, 시간적 지연 값은 또한, 하나의 프레임에서 다른 프레임으로 변화할 수도 있다. 그러나, 일부 구현들에서, 시프트 값은 "레퍼런스" 채널에 대한 "타겟" 채널의 지연의 양을 나타내도록 항상 양일 수도 있다. 또한, 시프트 값은, 타겟 채널이 "레퍼런스" 채널과 정렬 (예를 들어, 최대한으로 정렬) 되도록 지연된 타겟 채널이 시간적으로 "후퇴" 되는 "비인과적 시프트" 값에 대응할 수도 있다. 중간 채널 및 사이드 채널을 결정하기 위한 다운믹스 알고리즘은 레퍼런스 채널 및 비인과적 시프트된 타겟 채널 상에서 수행될 수도 있다.
인코더는 타겟 오디오 채널에 적용된 복수의 시프트 값들 및 레퍼런스 오디오 채널에 기초하여 시프트 값을 결정할 수도 있다. 예를 들어, 레퍼런스 오디오 채널의 제 1 프레임, X 는 제 1 시간 (m1) 에 수신될 수도 있다. 타겟 오디오 채널의 제 1 특정 프레임, Y 는 타겟 시프트 값, 예를 들어 shift1 = n1 - m1 에 대응하는 제 2 시간 (n1) 에 수신될 수도 있다. 또한, 레퍼런스 오디오 채널의 제 2 프레임은 제 3 시간 (m2) 에 수신될 수도 있다. 타겟 오디오 채널의 제 2 특정 프레임은 제 2 시프트 값, 예를 들어 shift2 = n2 - m2 에 대응하는 제 4 시간 (n2) 에 수신될 수도 있다.
디바이스는 제 1 샘플링 레이트 (예를 들어, 32 kHz 샘플링 레이트 (즉, 프레임 당 640 샘플들)) 에서 프레임 (예를 들어, 20 ms 샘플들) 을 생성하도록 프레이밍 또는 버퍼링 알고리즘을 수행할 수도 있다. 인코더는, 제 1 오디오 신호의 제 1 프레임 및 제 2 오디오 신호의 제 2 프레임이 디바이스에서 동시에 도달한다는 결정에 응답하여, 시프트 값 (예를 들어, shift1) 을 0 샘플들과 동일한 것으로서 추정할 수도 있다. (예를 들어, 제 1 오디오 신호에 대응하는) 좌측 채널 및 (예를 들어, 제 2 오디오 신호에 대응하는) 우측 채널은 시간적으로 정렬될 수도 있다. 일부 경우들에서, 좌측 채널 및 우측 채널은, 정렬된 경우에도, 다양한 이유들 (예를 들어, 마이크로폰 캘리브레이션) 로 인해 에너지가 상이할 수도 있다.
일부 예들에서, 좌측 채널 및 우측 채널은 다양한 이유들 (예를 들어, 화자와 같은 사운드 소스가 마이크로폰들 중 하나에 다른 것들보다 더 가까울 수도 있으며, 2 개의 마이크로폰들dl 임계 (예를 들어, 1-20 센티미터) 거리보다 더 멀리 떨어져 있음) 로 인해 시간적으로 정렬되지 않을 수도 있다. 마이크로폰들에 대한 사운드 소스의 로케이션은 좌측 채널 및 우측 채널에서 상이한 지연들을 도입할 수도 있다. 또한, 좌측 채널과 우측 채널 간의 이득 차이, 에너지 차이, 또는 레벨 차이가 존재할 수도 있다.
일부 예들에서, 다수의 사운드 소스들 (예를 들어, 화자들) 로부터 마이크로폰들에서 오디오 신호들의 도달 시간은, 다수의 화자들이 (예를 들어, 오버랩 없이) 교대로 이야기하는 경우 변할 수도 있다. 이러한 경우에서, 인코더는 화자에 기초하여 시간적 시프트 값을 동적으로 조정하여 레퍼런스 채널을 식별할 수도 있다. 일부 다른 예들에서, 다수의 화자들은 동시에 이야기할 수도 있고, 이것은 가장 소리가 큰 화자, 마이크로폰에 가장 가까운 사람 등에 따라 가변하는 시간적 시프트 값들을 초래할 수도 있다.
일부 예들에서, 제 1 오디오 신호 및 제 2 오디오 신호는, 2 개의 신호들이 잠재적으로 더 적은 상관 (또는 상관이 없음) 을 보이는 경우 합성 또는 인공적으로 생성될 수도 있다. 본원에 설명된 예들은 예시적이며, 유사한 또는 상이한 상황들에서 제 1 오디오 신호와 제 2 오디오 신호 간의 관계를 결정하는데 있어서 유익할 수도 있는 것으로 이해되어야 한다.
인코더는 제 1 오디오 신호의 제 1 프레임 및 제 2 오디오 신호의 복수의 프레임들의 비교에 기초하여 비교 값들 (예를 들어, 차이 값들 또는 크로스-상관 값들) 을 생성할 수도 있다. 복수의 프레임들의 각각의 프레임은 특정 시프트 값에 대응할 수도 있다. 인코더는 비교 값들에 기초하여 제 1 추정된 시프트 값 을 생성할 수도 있다. 예를 들어, 제 1 추정된 시프트 값은 제 1 오디오 신호의 제 1 프레임과 제 2 오디오 신호의 대응하는 제 1 프레임 간의 더 높은 시간적-유사성 (또는 더 낮은 차이) 을 나타내는 비교 값에 대응할 수도 있다.
인코더는, 다수의 단계들에서 일련의 추정된 시프트 값들을 리파이닝함으로써 최종 시프트 값을 결정할 수도 있다. 예를 들어, 인코더는 제 1 오디오 신호 및 제 2 오디오 신호의 스테레오 사전-프로세싱된 및 리샘플링된 버전들로부터 생성된 비교 값들에 기초하여 "잠정적인" 시프트 값을 먼저, 추정할 수도 있다. 인코더는 추정된 "잠정적인" 시프트 값에 근접한 시프트 값들과 연관된 보간된 비교 값들을 생성할 수도 있다. 인코더는 보간된 비교 값들에 기초하여 제 2 추정된 "보간된" 시프트 값을 결정할 수도 있다. 예를 들어, 제 2 추정된 "보간된" 시프트 값은 나머지 보간된 비교 값들 및 제 1 추정된 "잠정적인" 시프트 값보다 더 높은 시간적-유사성 (또는 더 낮은 차이) 을 나타내는 특정 보간된 비교 값에 대응할 수도 있다. 현재 프레임 (예를 들어, 제 1 오디오 신호의 제 1 프레임) 의 제 2 추정된 "보간된" 시프트 값이 이전의 프레임 (예를 들어, 제 1 프레임을 선행하는 제 1 오디오 신호의 프레임) 의 최종 시프트 값과 상이하면, 현재 프레임의 "보간된" 시프트 값은 제 1 오디오 신호와 시프트된 제 2 오디오 신호 간의 시간적-유사성을 개선시키도록 추가로 "보정" 된다. 특히, 제 3 추정된 "보정된" 시프트 값은 현재 프레임의 제 2 추정된 "보간된" 시프트 값 및 이전 프레임의 최종 추정된 시프트 값 주변을 검색함으로써 시간적-유사성의 더 정확한 측정치에 대응할 수도 있다. 제 3 추정된 "보정된" 시프트 값은, 프레임들 간의 시프트 값에서의 임의의 우세한 변화들을 제한함으로써 최종 시프트 값을 추정하도록 추가로 컨디셔닝되고 본원에 설명된 바와 같이 2 개의 계속적인 (또는 연속적인) 프레임들에서 음의 시프트 값에서 양의 시프트 값으로 (또는 그 반대로) 스위칭하지 않도록 추가로 제어된다.
일부 예들에서, 인코더는 연속적인 프레임들 또는 인접한 프레임들에서 양의 시프트 값과 음의 시프트 값 또는 그 반대 간에 스위칭을 억제할 수도 있다. 예를 들어, 인코더는 제 1 프레임의 추정된 "보간된" 또는 "보정된" 시프트 값 및 제 1 프레임을 선행하는 특정 프레임에서 대응하는 추정된 "보간된" 또는 "보정된" 또는 최종 시프트 값에 기초하여 시간적-시프트가 없다는 것을 나타내는 특정 값 (예를 들어, 0) 으로 최종 시프트 값을 설정할 수도 있다. 예시하기 위해, 인코더는 현재 프레임의 추정된 "잠정적인" 또는 "보간된" 또는 "보정된" 시프트 값 중 하나가 양이고 이전 프레임 (예를 들어, 제 1 프레임을 선행하는 프레임) 의 추정된 "잠정적인" 또는 "보간된" 또는 "보정된" 또는 "최종" 추정된 시프트 값 중 다른 것이 음이라는 결정에 응답하여, 시간적 시프트가 없다는 것, 즉 shift1 = 0 이라는 것을 나타내도록 현재 프레임 (예를 들어, 제 1 프레임) 의 최종 시프트 값을 설정할 수도 있다. 대안으로, 인코더는 또한, 현재 프레임의 추정된 "잠정적인" 또는 "보간된" 또는 "보정된" 시프트 값 중 하나가 음이고 이전 프레임 (예를 들어, 제 1 프레임을 선행하는 프레임) 의 추정된 "잠정적인" 또는 "보간된" 또는 "보정된" 또는 "최종" 추정된 시프트 값 중 다른 것이 양이라는 결정에 응답하여, 시간적 시프트가 없다는 것, 즉 shift1 = 0 이라는 것을 나타내도록 현재 프레임 (예를 들어, 제 1 프레임) 의 최종 시프트 값을 설정할 수도 있다.
인코더는 시프트 값에 기초하여 제 1 오디오 신호 또는 제 2 오디오 신호의 프레임을 "레퍼런스" 또는 "타겟" 으로서 선택할 수도 있다. 예를 들어, 최종 시프트 값이 양이라는 결정에 응답하여, 인코더는, 제 1 오디오 신호가 "레퍼런스" 신호이고 제 2 오디오 신호가 "타겟" 신호라는 것을 나타내는 제 1 값 (예를 들어, 0) 을 갖는 레퍼런스 채널 또는 신호 표시자를 생성할 수도 있다. 대안으로, 최종 시프트 값이 음이라는 결정에 응답하여, 인코더는, 제 2 오디오 신호가 "레퍼런스" 신호이고 제 1 오디오 신호가 "타겟" 신호라는 것을 나타내는 제 2 값 (예를 들어, 1) 을 갖는 레퍼런스 채널 또는 신호 표시자를 생성할 수도 있다.
인코더는 레퍼런스 신호 및 비인과적 시프트된 타겟 신호와 연관된 상대적 이득 (예를 들어, 상대적 이득 파라미터) 을 추정할 수도 있다. 예를 들어, 최종 시프트 값이 양이라는 결정에 응답하여, 인코더는 비인과적 시프트 값 (예를 들어, 최종 시프트 값의 절대 값) 만큼 오프셋되는 제 2 오디오 신호에 대한 제 1 오디오 신호의 에너지 또는 전력 레벨들을 표준화 또는 균등화하도록 이득 값을 추정할 수도 있다. 대안으로, 최종 시프트 값이 음이라는 결정에 응답하여, 인코더는 제 2 오디오 신호에 대한 비인과적 시프트된 제 1 오디오 신호의 전력 레벨들을 표준화 또는 균등화하도록 이득 값을 추정할 수도 있다. 일부 예들에서, 인코더는 비인과적 시프트된 "타겟" 신호에 대한 "레퍼런스" 신호의 에너지 또는 전력 레벨들을 표준화 또는 균등화하도록 이득 값을 추정할 수도 있다. 다른 예들에서, 인코더는 타겟 신호 (예를 들어, 시프트되지 않은 타겟 신호) 에 대한 레퍼런스 신호에 기초하여 이득 값 (예를 들어, 상대적 이득 값) 을 추정할 수도 있다.
인코더는 레퍼런스 신호, 타겟 신호, 비인과적 시프트 값, 및 상대적인 이득 파라미터에 기초하여 적어도 하나의 인코딩된 신호 (예를 들어, 중간 신호, 사이드 신호, 또는 양자 모두) 를 생성할 수도 있다. 사이드 신호는 제 1 오디오 신호의 제 1 프레임의 제 1 샘플들과 제 2 오디오 신호의 선택된 프레임의 선택된 프레임들 간의 차이에 대응할 수도 있다. 인코더는 최종 시프트 값에 기초하여 선택된 프레임을 선택할 수도 있다. 제 1 프레임과 동시에 디바이스에 의해 수신되는 제 2 오디오 신호의 프레임에 대응하는 제 2 오디오 신호의 다른 샘플들과 비교할 때 제 1 샘플들과 선택된 샘플들 간의 감소된 차이 때문에, 사이드 채널 신호를 인코딩하는데 더 적은 비트들이 사용될 수도 있다. 디바이스의 송신기는 적어도 하나의 인코딩된 신호, 비인과적 시프트 값, 상대적 이득 파라미터, 레퍼런스 신호 또는 신호 표시자, 또는 이들의 조합을 송신할 수도 있다.
인코더는 레퍼런스 신호, 타겟 신호, 비인과적 시프트 값, 상대적인 이득 파라미터, 제 1 오디오 신호의 특정 프레임의 저 대역 파라미터들, 특정 프레임의 고 대역 파라미터들, 또는 이들의 조합에 기초하여 적어도 하나의 인코딩된 신호 (예를 들어, 중간 신호, 사이드 신호, 또는 양자 모두) 를 생성할 수도 있다. 특정 프레임은 제 1 프레임을 선행할 수도 있다. 하나 이상의 선행 프레임들로부터의, 소정의 저 대역 파라미터들, 고 대역 파라미터들, 또는 이들의 조합은 제 1 프레임의 중간 신호, 사이드 신호, 또는 양자 모두를 인코딩하는데 사용될 수도 있다. 저 대역 파라미터들, 고 대역 파라미터들, 또는 이들의 조합에 기초하여 중간 신호, 사이드 신호, 또는 양자 모두를 인코딩하는 것은 비인과적 시프트 값 및 채널-간 상대적 이득 파라미터의 추정들을 개선시킬 수도 있다. 저 대역 파라미터들, 고 대역 파라미터들, 또는 이들의 조합은 피치 파라미터, 유성 파라미터, 코더 유형 파라미터, 저-대역 에너지 파라미터, 고-대역 에너지 파라미터, 틸트 파라미터, 피치 이득 파라미터, FCB 이득 파라미터, 코딩 모드 파라미터, 음성 액티비티 파라미터, 잡음 추정 파라미터, 신호대 잡음비 파라미터, 포먼트들 파라미터, 스피치/음악 판정 파라미터, 비인과적 시프트, 채널-간 이득 파라미터, 또는 이들의 조합을 포함할 수도 있다. 디바이스의 송신기는 적어도 하나의 인코딩된 신호, 비인과적 시프트 값, 상대적 이득 파라미터, 레퍼런스 채널 (또는 신호) 표시자, 또는 이들의 조합을 송신할 수도 있다.
본 개시물에서, "결정하는", "계산하는", "시프트하는", "조정하는" 등과 같은 용어들은 하나 이상의 동작들이 수행되는 방법을 설명하도록 사용될 수도 있다. 이러한 용어들은 제한하는 것으로서 해석되지 않고 다른 기법들이 이용되어 유사한 동작들을 수행할 수도 있다는 것이 주목되어야 한다.
도 1 을 참조하면, 시스템의 특정 예시적 예가 개시되고 일반적으로 100 으로 지정된다. 시스템 (100) 은 네트워크 (120) 를 통해 제 2 디바이스 (106) 에 통신 가능하게 커플링된 제 1 디바이스 (104) 를 포함한다. 네트워크 (120) 는 하나 이상의 무선 네트워크들, 하나 이상의 유선 네트워크들, 또는 이들의 조합을 포함할 수도 있다.
제 1 디바이스 (104) 는 인코더 (114), 송신기 (110), 하나 이상의 입력 인터페이스들 (112), 또는 이들의 조합을 포함할 수도 있다. 입력 인터페이스들 (112) 의 제 1 입력 인터페이스는 제 1 마이크로폰 (146) 에 커플링될 수도 있다. 입력 인터페이스(들)(112) 의 제 2 입력 인터페이스는 제 2 마이크로폰 (148) 에 커플링될 수도 있다. 인코더 (114) 는 본원에 설명된 바와 같이, 시간적 등화기 (108) 및 주파수-도메인 스테레오 코더 (109) 를 포함할 수도 있고 다수의 오디오 신호들을 다운믹싱 및 인코딩하도록 구성될 수도 있다. 제 1 디바이스 (104) 는 또한, 분석 데이터 (191) 를 저장하도록 구성된 메모리 (153) 를 포함할 수도 있다. 제 2 디바이스 (106) 는 디코더 (118) 를 포함할 수도 있다. 디코더 (118) 는 다수의 채널들을 업믹싱 및 렌더링하도록 구성되는 시간적 밸런서 (124) 를 포함할 수도 있다. 제 2 디바이스 (106) 는 제 1 라우드스피커 (142), 제 2 라우드스피커 (144), 또는 양자 모두에 커플링될 수도 있다.
동작 동안, 제 1 디바이스 (104) 는 제 1 마이크로폰 (146) 으로부터 제 1 입력 인터페이스를 통해 제 1 오디오 신호 (130) 를 수신할 수도 있고 제 2 마이크로폰 (148) 으로부터 제 2 입력 인터페이스를 통해 제 2 오디오 신호 (132) 를 수신할 수도 있다. 제 1 오디오 신호 (130) 는 우측 채널 신호 또는 좌측 채널 신호 중 하나에 대응할 수도 있다. 제 2 오디오 신호 (132) 는 우측 채널 신호 또는 좌측 채널 신호 중 다른 하나에 대응할 수도 있다. 사운드 소스 (152)(예를 들어, 사용자, 스피커, 주변 잡음, 악기 등) 는 제 2 마이크로폰 (148) 보다 제 1 마이크로폰 (146) 에 더 가까울 수도 있다. 따라서, 사운드 소스 (152) 로부터의 오디오 신호는 제 2 마이크로폰 (148) 을 통한 것보다 더 이른 시간에 제 1 마이크로폰 (146) 을 통해 입력 인터페이스(들)(112) 에서 수신될 수도 있다. 다수의 마이크로폰들을 통한 멀티-채널 신호 포착에서 이 자연스러운 지연은 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 시간적 시프트를 도입할 수도 있다.
시간적 등화기 (108) 는 제 2 오디오 신호 (132)(예를 들어, "레퍼런스") 에 대한 제 1 오디오 신호 (130)(예를 들어, "타겟") 의 시프트 (예를 들어, 비인과적 시프트) 를 나타내는 최종 시프트 값 (116)(예를 들어, 비인과적 시프트 값) 을 결정할 수도 있다. 예를 들어, 최종 시프트 값 (116) 의 제 1 값 (예를 들어, 양의 값) 은, 제 2 오디오 신호 (132) 가 제 1 오디오 신호 (130) 에 대해 지연된다는 것을 나타낼 수도 있다. 최종 시프트 값 (116) 의 제 2 값 (예를 들어, 음의 값) 은, 제 1 오디오 신호 (130) 가 제 2 오디오 신호 (132) 에 대해 지연된다는 것을 나타낼 수도 있다. 최종 시프트 값 (116) 의 제 3 값 (예를 들어, 0) 은 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 지연이 없는 것을 나타낼 수도 있다.
일부 구현들에서, 최종 시프트 값 (116) 의 제 3 값 (예를 들어, 0) 은 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 지연이 스위칭된 부호를 갖는다는 것을 나타낼 수도 있다. 예를 들어, 제 1 오디오 신호 (130) 의 제 1 특정 프레임은 제 1 프레임을 선행할 수도 있다. 제 2 오디오 신호 (132) 의 제 1 특정 프레임 및 제 2 특정 프레임은 사운드 소스 (152) 에 의해 방출된 동일한 사운드에 대응할 수도 있다. 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 지연은 제 2 특정 프레임에 대하여 지연된 제 1 특정 프레임을 갖는 것으로부터 제 1 프레임에 대하여 지연된 제 2 프레임을 갖는 것으로 스위칭할 수도 있다. 대안으로, 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 지연은 제 1 특정 프레임에 대하여 지연된 제 2 특정 프레임을 갖는 것으로부터 제 2 프레임에 대하여 지연된 제 1 프레임을 갖는 것으로 스위칭할 수도 있다. 시간적 등화기 (108) 는, 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 지연이 스위칭된 부호를 갖는다는 결정에 응답하여, 제 3 값 (예를 들어, 0) 을 나타내도록 최종 시프트 값 (116) 을 설정할 수도 있다.
시간적 등화기 (108) 는 최종 시프트 값 (116) 에 기초하여 레퍼런스 신호 표시자를 생성할 수도 있다. 예를 들어, 시간적 등화기 (108) 는, 최종 시프트 값 (116) 이 제 1 값 (예를 들어, 양의 값) 을 나타낸다는 결정에 응답하여, 제 1 오디오 신호 (130) 가 "레퍼런스" 신호 (190) 라는 것을 나타내는 제 1 값 (예를 들어, 0) 을 갖도록 레퍼런스 신호 표시자를 생성할 수도 있다. 시간적 등화기 (108) 는, 최종 시프트 값 (116) 이 제 1 값 (예를 들어, 양의 값) 을 나타낸다는 결정에 응답하여 제 2 오디오 신호 (132) 가 "타겟" 신호 (미도시) 에 대응한다는 것을 결정할 수도 있다. 대안으로, 시간적 등화기 (108) 는, 최종 시프트 값 (116) 이 제 2 값 (예를 들어, 음의 값) 을 나타낸다는 결정에 응답하여, 제 2 오디오 신호 (132) 가 "레퍼런스" 신호 (190) 라는 것을 나타내는 제 2 값 (예를 들어, 1) 을 갖도록 레퍼런스 신호 표시자를 생성할 수도 있다. 시간적 등화기 (108) 는, 최종 시프트 값 (116) 이 제 2 값 (예를 들어, 음의 값) 을 나타낸다는 결정에 응답하여 제 1 오디오 신호 (130) 가 "타겟" 신호에 대응한다는 것을 결정할 수도 있다. 시간적 등화기 (108) 는, 최종 시프트 값 (116) 이 제 3 값 (예를 들어, 0) 을 나타낸다는 결정에 응답하여, 제 1 오디오 신호 (130) 가 "레퍼런스" 신호 (190) 라는 것을 나타내는 제 1 값 (예를 들어, 0) 을 갖도록 레퍼런스 신호 표시자를 생성할 수도 있다. 시간적 등화기 (108) 는, 최종 시프트 값 (116) 이 제 3 값 (예를 들어, 0) 을 나타낸다는 결정에 응답하여 제 2 오디오 신호 (132) 가 "타겟" 신호에 대응한다는 것을 결정할 수도 있다. 대안으로, 시간적 등화기 (108) 는, 최종 시프트 값 (116) 이 제 3 값 (예를 들어, 0) 을 나타낸다는 결정에 응답하여, 제 2 오디오 신호 (132) 가 "레퍼런스" 신호 (190) 라는 것을 나타내는 제 2 값 (예를 들어, 1) 을 갖도록 레퍼런스 신호 표시자를 생성할 수도 있다. 시간적 등화기 (108) 는, 최종 시프트 값 (116) 이 제 3 값 (예를 들어, 0) 을 나타낸다는 결정에 응답하여 제 1 오디오 신호 (130) 가 "타겟" 신호에 대응한다는 것을 결정할 수도 있다. 일부 구현들에서, 시간적 등화기 (108) 는, 최종 시프트 값 (116) 이 제 3 값 (예를 들어, 0) 을 나타낸다는 결정에 응답하여, 레퍼런스 신호 표시자를 변하지 않은 채로 둘 수도 있다. 예를 들어, 레퍼런스 신호 표시자는 제 1 오디오 신호 (130) 의 제 1 특정 프레임에 대응하는 레퍼런스 신호 표시자와 동일할 수도 있다. 시간적 등화기 (108) 는 최종 시프트 값 (116) 의 절대 값을 나타내는 비인과적 시프트 값을 생성할 수도 있다.
시간적 등화기 (108) 는 타겟 신호, 레퍼런스 신호 (190), 제 1 시프트 값 (예를 들어, 이전 프레임에 대한 시프트 값), 최종 시프트 값 (116), 레퍼런스 신호 표시자, 또는 이들의 조합에 기초하여 타겟 신호 표시자를 생성할 수도 있다. 타겟 신호 표시자는 제 1 오디오 신호 (130) 또는 제 2 오디오 신호 (132) 중 어느 것이 타겟 신호인지를 나타낼 수도 있다. 시간적 등화기 (108) 는 타겟 신호 표시자, 타겟 신호, 또는 양자 모두에 기초하여 조정된 타겟 신호 (192) 를 생성할 수도 있다. 예를 들어, 시간적 등화기 (108) 는 제 1 시프트 값으로부터 최종 시프트 값 (116) 으로의 시간적 시프트 에볼루션에 기초하여 타겟 신호 (예를 들어, 제 1 오디오 신호 (130) 또는 제 2 오디오 신호 (132)) 를 조정할 수도 있다. 시간적 등화기 (108) 는, 프레임 경계들에 대응하는 타겟 신호의 샘플들의 서브세트가 평활화 및 슬로우-시프팅을 통해 드롭되어 조정된 타겟 신호 (192) 를 생성하도록 타겟 신호를 보간할 수도 있다.
따라서, 시간적 등화기 (108) 는, 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192) 가 실질적으로 동기화되도록 타겟 신호를 시간-시프트하여 조정된 타겟 신호 (192) 를 생성할 수도 있다. 시간적 등화기 (108) 는 시간-도메인 다운믹스 파라미터들 (168) 을 생성할 수도 있다. 시간-도메인 다운믹스 파라미터들은 타겟 신호와 레퍼런스 신호 (190) 간의 시프트 값을 나타낼 수도 있다. 다른 구현들에서, 시간-도메인 다운믹스 파라미터들은 다운믹스 이득 등과 같은 추가적인 파라미터들을 포함할 수도 있다. 예를 들어, 시간-도메인 다운믹스 파라미터들 (168) 은 도 2 를 참조하여 추가로 설명된 바와 같이, 제 1 시프트 값 (262), 레퍼런스 신호 표시자 (264), 또는 양자 모두를 포함할 수도 있다. 시간적 등화기 (108) 는 도 2 에 대하여 더 상세히 설명된다. 시간적 등화기 (108) 는 도시된 바와 같이, 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192) 를 주파수-도메인 스테레오 코더 (109) 에 제공할 수도 있다.
주파수-도메인 스테레오 코더 (109) 는 하나 이상의 시간-도메인 신호들 (예를 들어,레퍼런스 신호 (190) 및 조정된 타겟 신호 (192)) 을 주파수-도메인 신호들로 변환할 수도 있다. 주파수-도메인 신호들은 스테레오 파라미터들 (162) 을 추정하는데 사용될 수도 있다. 스테레오 파라미터들 (162) 은 좌측 채널들 및 우측 채널들과 연관된 공간적 특성들의 렌더링을 가능하게 하는 파라미터들을 포함할 수도 있다. 일부 구현들에 따라, 스테레오 파라미터들 (162) 은 파라미터들, 예컨대 인터-채널 세기 차이 (IID) 파라미터들 (예를 들어, 인터-채널 레벨 차이들 (ILD), 인터-채널 시간 차이 (ITD) 파라미터들, 인터-채널 위상 차이 (IPD) 파라미터들, 인터-채널 상관 (ICC) 파라미터들, 비인과적 시프트 파라미터들, 스펙트럼 틸트 파라미터들, 인터-채널 유성 파라미터들, 인터-채널 피치 파라미터들, 인터-채널 이득 파라미터들 등) 을 포함할 수도 있다. 스테레오 파라미터들 (162) 은 다른 신호들의 생성 동안 주파수-도메인 스테레오 코더 (109) 에서 사용될 수도 있다. 스테레오 파라미터들 (162) 은 또한, 인코딩된 신호의 부분으로서 송신될 수도 있다. 스테레오 파라미터들 (162) 의 추정 및 사용은 도 3 내지 도 7 에 대하여 더 상세히 설명된다.
주파수-도메인 스테레오 코더 (109) 는 또한, 주파수-도메인 신호들에 적어도 부분적으로 기초하여 사이드-대역 비트스트림 (164) 및 중간-대역 비트스트림 (166) 을 생성할 수도 있다. 예시의 목적을 위해, 다르게 언급되지 않는다면, 레퍼런스 신호 (190) 는 좌측-채널 신호 (l 또는 L) 이고 조정된 타겟 신호 (192) 는 우측-채널 신호 (r 또는 R) 인 것으로 가정된다. 레퍼런스 신호 (190) 의 주파수-도메인 표현은 Lfr(b) 로서 표기될 수도 있고 조정된 타겟 신호 (192) 의 주파수-도메인 표현은 Rfr(b) 로서 표기될 수도 있으며, 여기서 b 는 주파수-도메인 표현들의 대역을 나타낸다. 일 구현에 따르면, 사이드-대역 신호 (Sfr(b)) 는 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192) 의 주파수-도메인 표현들로부터 주파수-도메인에서 생성될 수도 있다. 예를 들어, 사이드-대역 신호 (Sfr(b)) 는 (Lfr(b)-Rfr(b))/2 로서 표현될 수도 있다. 사이드-대역 신호 (Sfr(b)) 는 사이드-대역 인코더에 제공되어 사이드-대역 비트스트림 (164) 을 생성할 수도 있다. 일 구현에 따르면, 중간-대역 신호 m(t) 는 시간-도메인에서 생성되고 주파수-도메인으로 변환될 수도 있다. 예를 들어, 중간-대역 신호 m(t) 는 (l(t)+r(t))/2 로서 표현될 수도 있다. 주파수-도메인에서 중간-대역 신호의 생성 이전에 시간-도메인에서 중간-대역 신호를 생성하는 것은 도 3, 도 4, 및 도 7 에 대하여 더 상세히 설명된다. 다른 구현에 따르면, 중간-대역 신호 (Mfr(b)) 는 (예를 들어, 시간-도메인 중간-대역 신호 생성을 바이패스함으로써) 주파수-도메인 신호들로부터 생성될 수도 있다. 주파수-도메인 신호들로부터 중간-대역 신호 (Mfr(b)) 를 생성하는 것은 도 5 및 도 6 에 대하여 더 상세히 설명된다. 시간-도메인/주파수-도메인 중간-대역 신호들은 중간-대역 인코더에 제공되어 중간-대역 비트스트림 (166) 을 생성할 수도 있다.
사이드-대역 신호 (Sfr(b)) 및 중간-대역 신호 (m(t) 또는 Mfr(b)) 는 다수의 기법들을 사용하여 인코딩될 수도 있다. 일 구현에 따르면, 시간-도메인 중간-대역 신호 (m(t)) 는 더 높은 대역 코딩을 위한 대역폭 확장을 갖는 대수 코드-여기 선형 예측 (ACELP) 과 같은 시간-도메인 기법을 사용하여 인코딩될 수도 있다. 사이드-대역 코딩 전에, (코딩되거나 코딩되지 않은) 중간-대역 신호 (m(t)) 는 주파수-도메인 (예를 들어, 변환-도메인) 으로 컨버팅되어 중간-대역 신호 (Mfr(b)) 를 생성할 수도 있다.
사이드-대역 코딩의 일 구현은 주파수 중간-대역 신호 (Mfr(b)) 에서의 정보 및 대역 (b) 에 대응하는 파라미터들 (162)(예를 들어, ILD들) 을 사용하여 주파수-도메인 중간-대역 신호 (Mfr(b)) 로부터 사이드-대역 (SPRED(b)) 을 예측하는 것을 포함한다. 예를 들어, 예측된 사이드-대역 (SPRED(b)) 은 Mfr(b)*(ILD(b)-1)/(ILD(b)+1) 로서 표현될 수도 있다. 대역 (b) 에서의 에러 신호 e(b) 는 사이드-대역 신호 (Sfr(b)) 및 예측된 사이드-대역 (SPRED(b)) 의 함수로서 계산될 수도 있다. 예를 들어, 에러 신호 e(b) 는 Sfr(b)-SPRED(b) 로서 표현될 수도 있다. 에러 신호 e(b) 는 변환-도메인 코딩 기법들을 사용하여 코딩되어 코딩된 에러 신호 (eCODED(b)) 를 생성할 수도 있다. 상위-대역들에 대해, 에러 신호 e(b) 는 이전 프레임으로부터의 대역 (b) 에서 중간-대역 신호 M_PASTfr(b) 의 스케일링된 버전으로서 표현될 수도 있다. 예를 들어, 코딩된 에러 신호 (eCODED(b)) 는 gPRED(b)*M_PASTfr(b) 로서 표현될 수도 있고, 여기서 gPRED(b) 는 e(b)-gPRED(b)*M_PASTfr(b) 의 에너지가 실질적으로 감소 (예를 들어, 최소화) 되도록 추정될 수도 있다.
송신기 (110) 는 스테레오 파라미터들 (162), 사이드-대역 비트스트림 (164), 중간-대역 비트스트림 (166), 시간-도메인 다운믹스 파라미터들 (168) 또는 이들의 조합을 네트워크 (120) 를 통해 제 2 디바이스 (106) 로 송신할 수도 있다. 대안으로, 또는 추가적으로, 송신기 (110) 는 추가의 프로세싱 또는 나중의 디코딩을 위해 네트워크 (120) 의 디바이스 또는 로컬 디바이스에 스테레오 파라미터들 (162), 사이드-대역 비트스트림 (164), 중간-대역 비트스트림 (166), 시간-도메인 다운믹스 파라미터들 (168), 또는 이들의 조합을 저장할 수도 있다. 비인과적 시프트 (예를 들어, 최종 시프트 값 (116)) 가 인코딩 프로세스 동안 결정될 수도 있기 때문에, 각각의 대역에서 비인과적 시프트에 추가적으로 (예를 들어, 스테레오 파라미터들 (162) 의 부분으로서) IPD들을 송신하는 것은 중복적일 수도 있다. 따라서, 일부 구현들에서, IPD 및 비인과적 시프트는 동일한 프레임에 대해 하지만 상호 배타적인 대역에서 추정될 수도 있다. 다른 구현들에서, 더 미세한 대역별 조정들을 위한 시프트에 추가하여 더 낮은 레졸루션 IPD들이 추정될 수도 있다. 대안으로, IPD들은 비인과적 시프트가 결정되는 프레임들에 대해 결정되지 않을 수도 있다.
디코더 (118) 는 스테레오 파라미터들 (162), 사이드-대역 비트스트림 (164), 중간-대역 비트스트림 (166), 및 시간-도메인 다운믹스 파라미터들 (168) 에 기초하여 디코딩 동작들을 수행할 수도 있다. 예를 들어, 주파수-도메인 스테레오 디코더 (125) 및 시간적 밸런서 (124) 는 (예를 들어, 제 1 오디오 신호 (130) 에 대응하는) 제 1 출력 신호 (126), (예를 들어, 제 2 오디오 신호 (132) 에 대응하는) 제 2 출력 신호 (128), 또는 양자 모두를 생성하도록 업믹싱을 수행할 수도 있다. 제 2 디바이스 (106) 는 제 1 라우드스피커 (142) 를 통해 제 1 출력 신호 (126) 를 출력할 수도 있다. 제 2 디바이스 (106) 는 제 2 라우드스피커 (144) 를 통해 제 2 출력 신호 (128) 를 출력할 수도 있다. 대안의 예들에서, 제 1 출력 신호 (126) 및 제 2 출력 신호 (128) 는 스테레오 신호 쌍으로서 단일의 출력 라우드스피커로 송신될 수도 있다.
시스템 (100) 은 따라서, 주파수-도메인 스테레오 코더 (109) 로 하여금 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192) 를 주파수-도메인으로 변환하여 스테레오 파라미터들 (162), 사이드-대역 비트스트림 (164), 및 중간-대역 비트스트림 (166) 을 생성하게 할 수도 있다. 제 2 오디오 신호 (132) 와 정렬하도록 제 1 오디오 신호 (130) 를 시간적으로 시프트하는 시간적 등화기 (108) 의 시간-시프팅 기법들은 주파수-도메인 신호 프로세싱과 연관되어 구현될 수도 있다. 예시하기 위해, 시간적 등화기 (108) 는 인코더 (114) 에서 각각의 프레임에 대해 시프트 (예를 들어, 비인과적 시프트 값) 을 추정하고, 비인과적 시프트 값에 따라 타겟 채널을 시프트 (예를 들어, 조정) 하며, 변환-도메인에서 스테레오 파라미터들 추정을 위해 시프트 조정된 채널들을 사용한다.
도 2 를 참조하면, 제 1 디바이스 (104) 의 인코더 (114) 의 예시적 예가 도시된다. 인코더 (114) 는 시간적 등화기 (108) 및 주파수-도메인 스테레오 코더 (109) 를 포함한다.
시간적 등화기 (108) 는 시프트 추정기 (204) 를 통해, 인터-프레임 시프트 변동 분석기 (206) 에, 레퍼런스 신호 지정기 (208) 에, 또는 양자 모두에 커플링된 신호 사전-프로세서 (202) 를 포함한다. 특정 구현에서, 신호 사전-프로세서 (202) 는 리샘플러에 대응할 수도 있다. 인터-프레임 시프트 변동 분석기 (206) 는, 타겟 신호 조정기 (210) 를 통해 주파수-도메인 스테레오 코더 (109) 에 커플링될 수도 있다. 레퍼런스 신호 지정기 (208) 는 인터-프레임 시프트 변동 분석기 (206) 에 커플링될 수도 있다.
동작 동안, 신호 사전-프로세서 (202) 는 오디오 신호 (228) 를 수신할 수도 있다. 예를 들어, 신호 사전-프로세서 (202) 는 입력 인터페이스(들)(112) 로부터 오디오 신호 (228) 를 수신할 수도 있다. 오디오 신호 (228) 는 제 1 오디오 신호 (130), 제 2 오디오 신호 (132), 또는 양자 모두를 포함할 수도 있다. 신호 사전-프로세서 (202) 는 제 1 리샘플링된 신호 (230), 제 2 리샘플링된 신호 (232), 또는 양자 모두를 생성할 수도 있다. 신호 사전-프로세서 (202) 의 동작들은 도 8 에 대하여 더 상세히 설명된다. 신호 사전-프로세서 (202) 는 제 1 리샘플링된 신호 (230), 제 2 리샘플링된 신호 (232), 또는 양자 모두를 시프트 추정기 (204) 에 제공할 수도 있다.
시프트 추정기 (204) 는 제 1 리샘플링된 신호 (230), 제 2 리샘플링된 신호 (232), 또는 양자 모두에 기초하여, 최종 시프트 값 (116)(T), 비인과적 시프트 값, 또는 양자 모두를 생성할 수도 있다. 시프트 추정기 (204) 의 동작들은 도 9 에 대하여 더 상세히 설명된다. 시프트 추정기 (204) 는 최종 시프트 값 (116) 을 인터-프레임 시프트 변동 분석기 (206), 레퍼런스 신호 지정기 (208), 또는 양자 모두에 제공할 수도 있다.
레퍼런스 신호 지정기 (208) 는 레퍼런스 신호 표시자 (264) 를 생성할 수도 있다. 레퍼런스 신호 표시자 (264) 는, 오디오 신호들 (130, 132) 중 어느 것이 레퍼런스 신호 (190) 인지 그리고 신호들 (130, 132) 중 어느 것이 타겟 신호 (242) 인지를 나타낼 수도 있다. 레퍼런스 신호 지정기 (208) 는 레퍼런스 신호 표시자 (264) 를 인터-프레임 시프트 변동 분석기 (206) 에 제공할 수도 있다.
인터-프레임 시프트 변동 분석기 (206) 는, 타겟 신호 (242), 레퍼런스 신호 (190), 제 1 시프트 값 (262)(Tprev), 최종 시프트 값 (116)(T), 레퍼런스 신호 표시자 (264), 또는 이들의 조합을 생성할 수도 있다. 인터-프레임 시프트 변동 분석기 (206) 는 타겟 신호 표시자 (266) 를 타겟 신호 조정기 (210) 에 제공할 수도 있다.
타겟 신호 조정기 (210) 는 타겟 신호 표시자 (266), 타겟 신호 (242), 또는 양자 모두에 기초하여 조정된 타겟 신호 (192) 를 생성할 수도 있다. 타겟 신호 조정기 (210) 는 제 1 시프트 값 (262)(Tprev) 으로부터 최종 시프트 값 (116)(T) 으로의 시간적 시프트 에볼루션에 기초하여 타겟 신호 (242) 를 조정할 수도 있다. 예를 들어, 제 1 시프트 값 (262) 은 이전 프레임에 대응하는 최종 시프트 값을 포함할 수도 있다. 타겟 신호 조정기 (210) 는, 제 1 시프트 값 (262) 으로부터 변화된 최종 시프트 값이 이전 프레임에 대응하는 최종 시프트 값 (116)(예를 들어, T=4) 보다 더 낮은 이전 프레임에 대응하는 제 1 값 (예를 들어, Tprev=2) 을 갖는다는 결정에 응답하여, 프레임 경계들에 대응하는 타겟 신호 (242) 의 샘플들의 서브세트가 조정된 타겟 신호 (192) 를 생성하기 위해 평활화 및 슬로우-시프팅을 통해 드롭되도록 타겟 신호 (242) 를 보간할 수도 있다. 대안으로, 타겟 신호 조정기 (210) 는, 최종 시프트 값이 최종 시프트 값 (116)(예를 들어, T=2) 보다 더 큰 제 1 시프트 값 (262)(예를 들어, Tprev=4) 으로부터 변화했다는 결정에 응답하여, 프레임 경계들에 대응하는 타겟 신호 (242) 의 샘플들의 서브세트가 조정된 타겟 신호 (192) 를 생성하기 위해 평활화 및 슬로우-시프팅을 통해 반복되도록 타겟 신호 (242) 를 보간할 수도 있다. 평활화 및 슬로우-시프팅은 하이브리드 싱크- 및 라그랑지-보간기들에 기초하여 수행될 수도 있다. 타겟 신호 조정기 (210) 는, 최종 시프트 값이 제 1 시프트 값 (262) 에서 최종 시프트 값 (116)(예를 들어, Tprev=T) 으로 변하지 않는다는 결정에 응답하여, 타겟 신호 (242) 를 시간적으로 오프셋하여 조정된 타겟 신호 (192) 를 생성할 수도 있다. 타겟 신호 조정기 (210) 는 조정된 타겟 신호 (192) 를 주파수-도메인 스테레오 코더 (109) 에 제공할 수도 있다.
신호 사전-프로세서, 시프트 추정기, 인터-프레임 시프트 변동 분석기, 레퍼런스 신호 지정기, 타겟 신호 조정기, 등을 포함하지만 이에 제한되지 않는 오디오 프로세싱 컴포넌트들과 연관된 동작들의 추가적인 실시형태들은 부록 A 에 추가로 설명된다.
레퍼런스 신호 (190) 는 또한, 주파수-도메인 스테레오 코더 (109) 에 제공될 수도 있다. 주파수-도메인 스테레오 코더 (109) 는 도 1 에 대하여 설명되고 도 3 내지 도 7 에 대하여 추가로 설명된 바와 같이 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192) 에 기초하여 스테레오 파라미터들 (162), 사이드-대역 비트스트림 (164), 및 중간-대역 비트스트림 (166) 을 생성할 수도 있다.
도 3 내지 도 7 을 참조하면, 도 2 에서 설명된 바와 같은 시간-도메인 다운믹스와 함께 작업하는 주파수-도메인 스테레오 코더들 (109) 의 몇몇 예시의 상세한 구현들 (109a-109e) 이 도시된다. 일부 예들에서, 레퍼런스 신호 (190) 는 좌측-채널 신호를 포함할 수도 있고 조정된 타겟 신호 (192) 는 우측-채널 신호를 포함할 수도 있다. 그러나, 다른 예들에서 레퍼런스 신호 (190) 는 우측-채널 신호를 포함할 수도 있고 조정된 타겟 신호 (192) 는 좌측-채널 신호를 포함할 수도 있다는 것이 이해되어야 한다. 다른 구현들에서, 레퍼런스 채널 (190) 은 프레임별 단위로 선택되는 좌측 또는 우측 채널 중 어느 하나 일 수도 있고, 유사하게 조정된 타겟 신호 (192) 는 시간적 시프트를 위해 조정된 후에 좌측 또는 우측 채널들 중 다른 하나일 수도 있다. 이하의 설명들의 목적을 위해, 레퍼런스 신호 (190) 가 좌측-채널 신호 (L) 를 포함하고 조정된 타겟 신호 (192) 가 우측-채널 신호 (R) 를 포함할 때 특정 경우의 예들을 제공한다. 다른 경우들에 대한 유사한 설명들이 쉽게 확장될 수 있다. 도 3 내지 도 7 에 예시된 다양한 컴포넌트들 (예를 들어, 변환들, 신호 생성기들, 인코더들, 추정기들, 등) 은 하드웨어 (예를 들어, 전용 회로부), 소프트웨어 (예를 들어, 프로세서에 의해 실행된 명령들), 또는 이들의 조합을 사용하여 구현될 수도 있다는 것이 또한, 이해된다.
도 3 에서, 변환 (302) 은 레퍼런스 신호 (190) 상에서 수행될 수도 있고 변환 (304) 은 조정된 타겟 신호 (192) 상에서 수행될 수도 있다. 변환들 (302, 304) 은 주파수-도메인 (또는 서브-대역 도메인) 신호들을 생성하는 변환 동작들에 의해 수행될 수도 있다. 비-제한의 예들로서, 변환들 (302, 304) 을 수행하는 것은 이산 푸리에 변환 (DFT) 동작들, 고속 푸리에 변환 (FFT) 동작들 등을 수행하는 것을 포함할 수도 있다. 일부 구현들에 따르면, (복잡한 저 지연 필터 뱅크와 같은 필터대역들을 사용하는) 쿼드러처 미러 필터뱅크 (Quadrature Mirror Filterbank; QMF) 동작들은 입력 신호들 (예를 들어, 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192)) 을 다수의 서브-대역들로 스플릿하는데 사용될 수도 있고, 서브-대역들은 다른 주파수-도메인 변환 동작을 사용하여 주파수-도메인으로 컨버팅될 수도 있다. 변환 (302) 이 레퍼런스 신호 (190) 에 적용되어 주파수-도메인 레퍼런스 신호 (Lfr(b))(330) 를 생성할 수도 있고, 변환 (304) 이 조정된 타겟 신호 (192) 에 적용되어 주파수-도메인 조정된 타겟 신호 (Rfr(b))(332) 를 생성할 수도 있다. 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 는 스테레오 파라미터 추정기 (306) 및 사이드-대역 신호 생성기 (308) 에 제공될 수도 있다.
스테레오 파라미터 추정기 (306) 는 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 에 기초하여 스테레오 파라미터들 (162) 을 추출 (예를 들어, 생성) 할 수도 있다. 예시하기 위해 IID(b) 는 대역 (b) 에서의 좌측 채널들의 에너지들 EL(b) 및 대역 (b) 에서의 우측 채널들의 에너지들 ER(b) 의 함수일 수도 있다. 예를 들어, IID(b) 는 20*log10(EL(b)/ ER(b)) 로서 표현될 수도 있다. 인코더에서 추정 및 송신된 IPD들은 대역 (b) 에서 좌측 채널과 우측 채널 간의 주파수-도메인에서의 위상 차이의 추정을 제공할 수도 있다. 스테레오 파라미터들 (162) 은 추가적인 (또는 대안의) 파라미터들, 예컨대 ICC들, ITD들 등을 포함할 수도 있다. 스테레오 파라미터들 (162) 은 도 1 의 제 2 디바이스 (106) 로 송신되고, 사이드-대역 신호 생성기 (308) 에 제공되며, 사이드-대역 인코더 (310) 에 제공될 수도 있다.
사이드-대역 생성기 (308) 는 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 에 기초하여 주파수-도메인 사이드대역 신호 (Sfr(b))(334) 를 생성할 수도 있다. 주파수-도메인 사이드대역 신호 (334) 는 주파수-도메인 빈들/대역들에서 추정될 수도 있다. 각각의 대역에서, 이득 파라미터 (g) 는 상이하고 인터-채널 레벨 차이들에 기초 (예를 들어, 스테레오 파라미터들 (162) 에 기초) 할 수도 있다. 예를 들어, 주파수-도메인 사이드대역 신호 (334) 는 (Lfr(b) - c(b)*Rfr(b))/(1+c(b)) 로서 표현될 수도 있고, 여기서 c(b) 는 ILD(b) 일 수도 있고 또는 ILD(b) 의 함수 (예를 들어, c(b) = 10^(ILD(b)/20)) 일 수도 있다. 주파수-도메인 사이드대역 신호 (334) 는 사이드-대역 인코더 (310) 에 제공될 수도 있다.
레퍼런스 신호 (190) 및 조정된 타겟 신호 (192) 는 또한, 중간-대역 신호 생성기 (312) 에 제공될 수도 있다. 중간-대역 신호 생성기 (312) 는 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192) 에 기초하여 시간-도메인 중간-대역 신호 (m(t))(336) 를 생성할 수도 있다. 예를 들어, 시간-도메인 중간-대역 신호 (336) 는 (l(t)+r(t))/2 로서 표현될 수도 있고, 여기서 l(t) 는 레퍼런스 신호 (190) 를 포함하고 r(t) 는 조정된 타겟 신호 (192) 를 포함한다. 변환 (314) 은 시간-도메인 중간-대역 신호 (336) 에 적용되어 주파수-도메인 중간-대역 신호 (Mfr(b))(338) 를 생성할 수도 있고, 주파수-도메인 중간-대역 신호 (338) 는 사이드-대역 인코더 (310) 에 제공될 수도 있다. 시간-도메인 중간-대역 신호 (336) 는 또한, 중간-대역 인코더 (316) 에 제공될 수도 있다.
사이드-대역 인코더 (310) 는 스테레오 파라미터들 (162), 주파수-도메인 사이드대역 신호 (334), 및 주파수-도메인 중간-대역 신호 (338) 에 기초하여 사이드-대역 비트스트림 (164) 을 생성할 수도 있다. 중간-대역 인코더 (316) 는 시간-도메인 중간-대역 신호 (336) 를 인코딩함으로써 중간-대역 비트스트림 (166) 을 생성할 수도 있다. 특정 예들에서, 사이드-대역 인코더 (310) 및 중간-대역 인코더 (316) 는 사이드-대역 비트스트림 (164) 및 중간-대역 비트스트림 (166) 을 각각 생성하도록 ACELP 인코더들을 포함할 수도 있다. 더 낮은 대역들에 대해, 주파수-도메인 사이드대역 신호 (334) 는 변환-도메인 코딩 기법을 사용하여 인코딩될 수도 있다. 상위 대역들에 대해, 주파수-도메인 사이드대역 신호 (334) 는 (양자화되거나 비양자화된) 이전 프레임의 중간-대역 신호로부터의 예측으로서 표현될 수도 있다.
도 4 를 참조하면, 주파수-도메인 스테레오 코더 (109) 의 제 2 구현 (109b) 이 도시된다. 주파수-도메인 스테레오 코더 (109) 의 제 2 구현 (109b) 은 주파수-도메인 스테레오 코더 (109) 의 제 1 구현 (109a) 과 실질적으로 유사한 방식으로 동작할 수도 있다. 그러나, 제 2 구현 (109b) 에서, 변환 (404) 은 중간-대역 비트스트림 (166)(예를 들어, 시간-도메인 중간-대역 신호 (336) 의 인코딩된 버전) 에 적용되어 주파수-도메인 중간-대역 비트스트림 (430) 을 생성할 수도 있다. 사이드-대역 인코더 (406) 는 스테레오 파라미터들 (162), 주파수-도메인 사이드대역 신호 (334), 및 주파수-도메인 중간-대역 비트스트림 (430) 에 기초하여 사이드-대역 비트스트림 (164) 을 생성할 수도 있다.
도 5 를 참조하면, 주파수-도메인 스테레오 코더 (109) 의 제 3 구현 (109c) 이 도시된다. 주파수-도메인 스테레오 코더 (109) 의 제 3 구현 (109c) 은 주파수-도메인 스테레오 코더 (109) 의 제 1 구현 (109a) 과 실질적으로 유사한 방식으로 동작할 수도 있다. 그러나, 제 3 구현 (109c) 에서, 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 는 중간-대역 신호 생성기 (502) 에 제공될 수도 있다. 일부 구현들에 따르면, 스테레오 파라미터들 (162) 은 또한, 중간-대역 신호 생성기 (502) 에 제공될 수도 있다. 중간-대역 신호 생성기 (502) 는 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 에 기초하여 주파수-도메인 중간-대역 신호 (Mfr(b))(530) 를 생성할 수도 있다. 일부 구현들에 따르면, 주파수-도메인 중간-대역 신호 (Mfr(b))(530) 는 또한, 스테레오 파라미터들 (162) 에 기초하여 생성될 수도 있다. 주파수-도메인 레퍼런스 채널 (330), 조정된 타겟 채널 (332) 및 스테레오 파라미터들 (162) 에 기초한 중간-대역 신호 (530) 의 생성의 일부 방법들은 다음과 같다.
Figure pat00005
Figure pat00006
, 여기서 c1(b) 및 c2(b) 은 복소수 값들이다.
일부 구현들에서, 복소수 값들 c1(b) 및 c2(b) 는 스테레오 파라미터들 (162) 에 기초한다. 예를 들어, 중간 사이드 다운믹스의 일구현에서 IPD들이 추정되는 경우,
Figure pat00007
Figure pat00008
이고, 여기서 i 는 -1 의 제곱근을 나타내는 허수이다.
주파수-도메인 중간-대역 신호 (530) 는 효율적인 사이드 대역 신호 인코딩의 목적을 위해 중간-대역 인코더 (504) 및 사이드-대역 인코더 (506) 에 제공될 수도 있다. 이 구현에서, 중간-대역 인코더 (504) 는 또한, 인코딩 전에 중간-대역 신호 (530) 를 임의의 다른 변환/시간-도메인으로 변환할 수도 있다. 예를 들어, 중간-대역 신호 (530)(Mfr(b)) 는 시간-도메인으로 다시 역-변환될 수도 있고, 또는 코딩을 위해 MDCT 로 변환될 수도 있다.
사이드-대역 인코더 (506) 는 스테레오 파라미터들 (162), 주파수-도메인 사이드대역 신호 (334), 및 주파수-도메인 중간-대역 신호 (530) 에 기초하여 사이드-대역 비트스트림 (164) 을 생성할 수도 있다. 중간-대역 인코더 (504) 는 주파수-도메인 중간-대역 신호 (530) 에 기초하여 중간-대역 비트스트림 (166) 을 생성할 수도 있다. 예를 들어, 중간-대역 인코더 (504) 는 주파수-도메인 중간-대역 신호 (530) 를 인코딩하여 중간-대역 비트스트림 (166) 을 생성할 수도 있다.
도 6 을 참조하면, 주파수-도메인 스테레오 코더 (109) 의 제 4 구현 (109d) 이 도시된다. 주파수-도메인 스테레오 코더 (109) 의 제 4 구현 (109d) 은 주파수-도메인 스테레오 코더 (109) 의 제 3 구현 (109c) 과 실질적으로 유사한 방식으로 동작할 수도 있다. 그러나, 제 4 구현 (109d) 에서, 중간-대역 비트스트림 (166) 은 사이드-대역 인코더 (602) 에 제공될 수도 있다. 대안의 구현에서, 중간-대역 비트스트림에 기초한 양자화된 중간-대역 신호는 사이드-대역 인코더 (602) 에 제공될 수도 있다. 사이드-대역 인코더 (602) 는 스테레오 파라미터들 (162), 주파수-도메인 사이드대역 신호 (334), 및 중간-대역 비트스트림 (166) 에 기초하여 사이드-대역 비트스트림 (164) 을 생성하도록 구성될 수도 있다.
도 7 을 참조하면, 주파수-도메인 스테레오 코더 (109) 의 제 5 구현 (109e) 이 도시된다. 주파수-도메인 스테레오 코더 (109) 의 제 5 구현 (109e) 은 주파수-도메인 스테레오 코더 (109) 의 제 1 구현 (109a) 과 실질적으로 유사한 방식으로 동작할 수도 있다. 그러나, 제 5 구현 (109e) 에서, 주파수-도메인 중간-대역 신호 (338) 는 중간-대역 인코더 (702) 에 제공될 수도 있다. 중간-대역 인코더 (702) 는 주파수-도메인 중간-대역 신호 (338) 를 인코딩하여 중간-대역 비트스트림 (166) 을 생성하도록 구성될 수도 있다.
도 8 을 참조하면, 신호 사전-프로세서 (202) 의 예시적 예가 도시된다. 신호 사전프로세서 (202) 는 리샘플링 팩터 추정기 (830), 탈-강조기 (804), 탈-강조기 (834), 또는 이들의 조합에 커플링된 디멀티플렉서 (DeMUX)(802) 를 포함할 수도 있다. 탈-강조기 (804) 는 리샘플러 (806) 를 통해, 탈-강조기 (808) 에 커플링될 수도 있다. 탈-강조기 (808) 는, 리샘플러 (810) 를 통해 틸트-밸런서 (812) 에 커플링될 수도 있다. 탈-강조기 (834) 는 리샘플러 (836) 를 통해, 탈-강조기 (838) 에 커플링될 수도 있다. 탈-강조기 (838) 는, 리샘플러 (840) 를 통해 틸트-밸런서 (842) 에 커플링될 수도 있다.
동작 동안, deMUX (802) 는 오디오 신호 (228) 를 디멀티플렉싱함으로써 제 1 오디오 신호 (130) 및 제 2 오디오 신호 (132) 를 생성할 수도 있다. deMUX (802) 는 제 1 오디오 신호 (130), 제 2 오디오 신호 (132), 또는 양자 모두와 연관된 제 1 샘플 레이트 (860) 를 리샘플링 팩터 추정기 (830) 에 제공할 수도 있다. deMUX (802) 는 제 1 오디오 신호 (130) 를 탈-강조기 (804) 에, 제 2 오디오 신호 (132) 를 탈-강조기 (834) 에, 또는 양자 모두에 제공할 수도 있다.
리샘플링 팩터 추정기 (830) 는 제 1 샘플 레이트 (860), 제 2 샘플 레이트 (880), 또는 양자 모두에 기초하여, 제 1 팩터 (862)(d1), 제 2 팩터 (882)(d2), 또는 양자 모두를 생성할 수도 있다. 리샘플링 팩터 추정기 (830) 는 제 1 샘플 레이트 (860), 제 2 샘플 레이트 (880), 또는 양자 모두에 기초하여 리샘플링 팩터 (D) 를 결정할 수도 있다. 예를 들어, 리샘플링 팩터 (D) 는 제 1 샘플 레이트 (860) 및 제 2 샘플 레이트 (880) 의 비율에 대응할 수도 있다 (예를 들어, 리샘플링 팩터 (D) = 제 2 샘플 레이트 (880) / 제 1 샘플 레이트 (860) 또는 리샘플링 팩터 (D) = 제 1 샘플 레이트 (860) / 제 2 샘플 레이트 (880)). 제 1 팩터 (862)(d1), 제 2 팩터 (882)(d2), 또는 양자 모두는 리샘플링 팩터 (D) 의 팩터들일 수도 있다. 예를 들어, 리샘플링 팩터 (D) 는 제 1 팩터 (862)(d1) 및 제 2 팩터 (882)(d2) 의 곱에 대응할 수도 있다 (예를 들어, 리샘플링 팩터 (D) = 제 1 팩터 (862)(d1) *제 2 팩터 (882)(d2)). 일부 구현들에서, 본원에 설명된 바와 같이, 제 1 팩터 (862)(d1) 는 제 1 값 (예를 들어, 1) 을 가질 수도 있고, 제 2 팩터 (882)(d2) 는 제 2 값 (예를 들어, 1) 을 가질 수도 있으며 양자 모두일 수도 있고, 이것은 리샘플링 단계들을 바이패스한다.
탈-강조기 (804) 는 IIR 필터 (예를 들어, 제 1 차수 IIR 필터) 에 기초하여 제 1 오디오 신호 (130) 를 필터링함으로써 탈-강조된 신호 (864) 를 생성할 수도 있다. 탈-강조기 (804) 는 탈-강조된 신호 (864) 를 리샘플러 (806) 에 제공할 수도 있다. 리샘플러 (806) 는 제 1 팩터 (862)(d1) 에 기초하여 탈-강조된 신호 (864) 를 리샘플링함으로써 리샘플링된 신호 (866) 를 생성할 수도 있다. 리샘플러 (806) 는 리샘플링된 신호 (866) 를 탈-강조기 (808) 에 제공할 수도 있다. 탈-강조기 (808) 는 IIR 필터에 기초하여 리샘플링된 신호 (866) 를 필터링함으로써 탈-강조된 신호 (868) 를 생성할 수도 있다. 탈-강조기 (808) 는 탈-강조된 신호 (868) 를 리샘플러 (810) 에 제공할 수도 있다. 리샘플러 (810) 는 제 2 팩터 (882)(d2) 에 기초하여 탈-강조된 신호 (868) 를 리샘플링함으로써 리샘플링된 신호 (870) 를 생성할 수도 있다.
일부 구현들에서, 제 1 팩터 (862)(d1) 는 제 1 값 (예를 들어, 1) 을 가질 수도 있고, 제 2 팩터 (882)(d2) 는 제 2 값 (예를 들어, 1) 을 가질 수도 있으며, 또는 양자 모두일 수도 있고, 이것은 리샘플링 단계들을 바이패스한다. 예를 들어, 제 1 팩터 (862)(d1) 가 제 1 값 (예를 들어, 1) 을 갖는 경우, 리샘플링된 신호 (866) 는 탈-강조된 신호 (864) 와 동일할 수도 있다. 다른 예로서, 제 2 팩터 (882)(d2) 가 제 2 값 (예를 들어, 1) 을 갖는 경우, 리샘플링된 신호 (870) 는 탈-강조된 신호 (868) 와 동일할 수도 있다. 리샘플러 (810) 는 리샘플링된 신호 (870) 를 틸트-밸런서 (812) 에 제공할 수도 있다. 틸트-밸런서 (812) 는 리샘플링된 신호 (870) 상에서 틸트 밸런싱을 수행함으로써 제 1 리샘플링된 신호 (230) 를 생성할 수도 있다.
탈-강조기 (834) 는 IIR 필터 (예를 들어, 제 1 차수 IIR 필터) 에 기초하여 제 2 오디오 신호 (132) 를 필터링함으로써 탈-강조된 신호 (884) 를 생성할 수도 있다. 탈-강조기 (834) 는 탈-강조된 신호 (884) 를 리샘플러 (836) 에 제공할 수도 있다. 리샘플러 (836) 는 제 1 팩터 (862)(d1) 에 기초하여 탈-강조된 신호 (884) 를 리샘플링함으로써 리샘플링된 신호 (886) 를 생성할 수도 있다. 리샘플러 (836) 는 리샘플링된 신호 (886) 를 탈-강조기 (838) 에 제공할 수도 있다. 탈-강조기 (838) 는 IIR 필터에 기초하여 리샘플링된 신호 (886) 를 필터링함으로써 탈-강조된 신호 (888) 를 생성할 수도 있다. 탈-강조기 (838) 는 탈-강조된 신호 (888) 를 리샘플러 (840) 에 제공할 수도 있다. 리샘플러 (840) 는 제 2 팩터 (882)(d2) 에 기초하여 탈-강조된 신호 (888) 를 리샘플링함으로써 리샘플링된 신호 (890) 를 생성할 수도 있다.
일부 구현들에서, 제 1 팩터 (862)(d1) 는 제 1 값 (예를 들어, 1) 을 가질 수도 있고, 제 2 팩터 (882)(d2) 는 제 2 값 (예를 들어, 1) 을 가질 수도 있으며, 또는 양자 모두일 수도 있고, 이것은 리샘플링 단계들을 바이패스한다. 예를 들어, 제 1 팩터 (862)(d1) 가 제 1 값 (예를 들어, 1) 을 갖는 경우, 리샘플링된 신호 (886) 는 탈-강조된 신호 (884) 와 동일할 수도 있다. 다른 예로서, 제 2 팩터 (882)(d2) 가 제 2 값 (예를 들어, 1) 을 갖는 경우, 리샘플링된 신호 (890) 는 탈-강조된 신호 (888) 와 동일할 수도 있다. 리샘플러 (840) 는 리샘플링된 신호 (890) 를 틸트-밸런서 (842) 에 제공할 수도 있다. 틸트-밸런서 (842) 는 리샘플링된 신호 (890) 상에서 틸트 밸런싱을 수행함으로써 제 2 리샘플링된 신호 (532) 를 생성할 수도 있다. 일부 구현들에서, 틸트-밸런서 (812) 및 틸트-밸런서 (842) 는 탈-강조기 (804) 및 탈-강조기 (834) 각각으로 인한 저역 통과 (LP) 효과를 보상할 수도 있다.
도 9 를 참조하면, 시프트 추정기 (204) 의 예시적 예가 도시된다. 시프트 추정기 (204) 는 신호 비교기 (906), 보간기 (910), 시프트 리파이너 (911), 시프트 변화 분석기 (912), 절대 시프트 생성기 (913), 또는 이들의 조합을 포함할 수도 있다. 시프트 추정기 (204) 는 도 9 에 예시된 컴포넌트들 보다 더 적은 또는 더 많은 것을 포함할 수도 있다는 것이 이해되어야 한다.
신호 비교기 (906) 는 비교 값들 (934)(예를 들어, 상이한 값들, 유사성 값들, 코히런스 값들, 또는 크로스-상관 값들), 잠정적인 시프트 값 (936), 또는 양자 모두를 생성할 수도 있다. 예를 들어, 신호 비교기 (906) 는 제 1 리샘플링된 신호 (230) 에 기초한 비교 값들 (934) 및 제 2 리샘플링된 신호 (232) 에 적용된 복수의 시프트 값들을 생성할 수도 있다. 신호 비교기 (906) 는 비교 값들 (934) 에 기초하여 잠정적인 시프트 값 (936) 을 결정할 수도 있다. 제 1 리샘플링된 신호 (230) 는 제 1 오디오 신호 (130) 보다 더 적은 샘플들 또는 더 많은 샘플들을 포함할 수도 있다. 제 2 리샘플링된 신호 (232) 는 제 2 오디오 신호 (132) 보다 더 적은 샘플들 또는 더 많은 샘플들을 포함할 수도 있다. 리샘플링된 신호들 (예를 들어, 제 1 리샘플링된 신호 (230) 및 제 2 리샘플링된 신호 (232)) 중 더 적은 샘플들에 기초하여 비교 값들 (934) 을 결정하는 것은 원래의 신호들 (예를 들어, 제 1 오디오 신호 (130) 및 제 2 오디오 신호 (132)) 의 샘플들 상에서 보다 더 적은 리소스들 (예를 들어, 동작들의 시수, 또는 양자 모두) 을 사용할 수도 있다. 리샘플링된 신호들 (예를 들어, 제 1 리샘플링된 신호 (230) 및 제 2 리샘플링된 신호 (232)) 중 더 많은 샘플들에 기초하여 비교 값들 (934) 을 결정하는 것은 원래의 신호들 (예를 들어, 제 1 오디오 신호 (130) 및 제 2 오디오 신호 (132)) 의 샘플들 상에서 보다 정확도를 증가시킬 수도 있다. 신호 비교기 (906) 는 비교 값들 (934), 잠정적인 시프트 값 (936), 또는 양자 모두를 보간기 (910) 에 제공할 수도 있다.
보간기 (910) 는 잠정적인 시프트 값 (936) 을 확장할 수도 있다. 예를 들어, 보간기 (910) 는 보간된 시프트 값 (938) 을 생성할 수도 있다. 예를 들어, 보간기 (910) 는 비교 값들 (934) 을 보간함으로써 잠정적인 시프트 값 (936) 에 근사하는 시프트 값들에 대응하는 보간된 비교 값들을 생성할 수도 있다. 보간기 (910) 는 보간된 비교 값들 및 비교 값들 (934) 에 기초하여 보간된 시프트 값 (938) 을 결정할 수도 있다. 비교 값들 (934) 은 시프트 값들의 조악한 입도에 기초할 수도 있다. 예를 들어, 비교 값들 (934) 은, 제 1 서브세트의 제 1 시프트 값과 제 1 서브세트의 각각의 제 2 시프트 값 간의 차이가 임계 이상 (예를 들어, ≥1) 이도록 시프트 값들의 세트의 제 1 서브세트에 기초할 수도 있다. 임계는 리샘플링 팩터 (D) 에 기초할 수도 있다.
보간된 비교 값들은 리샘플링된 잠정적인 시프트 값 (936) 에 근사하는 시프트 값들의 더 미세한 입도에 기초할 수도 있다. 예를 들어, 보간된 비교 값들은, 제 2 서브세트의 최고 시프트 값과 리샘플링된 잠정적인 시프트 값 (936) 간의 차이가 임계 미만 (예를 들어, ≥1) 이고, 제 2 서브세트의 최하 시프트 값과 리샘플링된 잠정적인 시프트 값 (936) 간의 차이가 임계 미만이도록 시프트 값들의 세트의 제 2 서브세트에 기초할 수도 있다. 더 조악한 입도 (예를 들어, 제 1 서브세트) 의 시프트 값들의 세트에 기초하여 비교 값 (934) 을 결정하는 것은 더 미세한 입도 (예를 들어, 전부) 의 시프트 값들의 세트에 기초하여 비교 값들 (934) 을 결정하는 것보다 더 적은 리소스들 (예를 들어, 시간, 동작들, 또는 양자 모두) 을 사용할 수도 있다. 시프트 값들의 제 2 서브세트에 대응하는 보간된 비교 값들을 결정하는 것은 시프트 값들의 세트의 각각의 시프트 값에 대응하는 비교 값들을 결정하지 않고 잠정적인 시프트 값 (936) 에 근사하는 시프트 값들의 더 작은 세트의 더 미세한 입도에 기초하여 잠정적인 시프트 값 (936) 을 확장시킬 수도 있다. 따라서, 시프트 값들의 제 1 서브세트에 기초하여 잠정적인 시프트 값 (936) 을 결정하는 것 및 보간된 비교 값들에 기초하여 보간된 시프트 값 (938) 을 결정하는 것은 추정된 시프트 값의 리소스 사용 및 리파인먼트의 균형을 맞출 수도 있다. 보간기 (910) 는 보간된 시프트 값 (938) 을 시프트 리파이너 (911) 에 제공할 수도 있다.
시프트 리파이너 (911) 는 보간된 시프트 값 (938) 을 리파이닝함으로써 보정된 시프트 값 (940) 을 생성할 수도 있다. 예를 들어, 시프트 리파이너 (911) 는, 보간된 시프트 값 (938) 이 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 시프트에서의 변화가 시프트 변화 임계보다 크다는 것을 나타내는지 여부를 결정할 수도 있다. 시프트에서의 변화는 이전 프레임과 연관된 제 1 시프트 값과 보간된 시프트 값 (938) 간의 차이에 의해 나타내어질 수도 있다. 시프트 리파이너 (911) 는, 그 차이가 임계 이하라는 결정에 응답하여, 보정된 시프트 값 (940) 을 보간된 시프트 값 (938) 으로 설정할 수도 있다. 대안으로, 시프트 리파이너 (911) 는, 그 차이가 임계보다 크다는 결정에 응답하여, 시프트 변화 임계 이하인 차이에 대응하는 복수의 시프트 값들을 결정할 수도 있다. 시프트 리파이너 (911) 는 제 1 오디오 신호 (130) 및 제 2 오디오 신호 (132) 에 적용된 복수의 시프트 값들에 기초하여 비교 값들을 결정할 수도 있다. 시프트 리파이너 (911) 는 비교 값들에 기초하여 보정된 시프트 값 (940) 을 결정할 수도 있다. 예를 들어, 시프트 리파이너 (911) 는 비교 값들 및 보간된 시프트 값 (938) 에 기초하여 복수의 시프트 값들의 시프트 값을 선택할 수도 있다. 시프트 리파이너 (911) 는 선택된 시프트 값을 나타내도록 보정된 시프트 값 (940) 을 설정할 수도 있다. 이전 프레임에 대응하는 제 1 시프트 값과 보간된 시프트 값 (938) 간의 넌-제로 차이는, 제 2 오디오 신호 (132) 의 일부 샘플들이 양자 모두의 프레임들에 대응한다는 것을 나타낼 수도 있다. 예를 들어, 제 2 오디오 신호 (132) 의 일부 샘플들은 인코딩 동안 복제될 수도 있다. 대안으로, 넌-제로 차이는, 제 2 오디오 신호 (132) 의 일부 샘플들이 이전 프레임에도 현재의 프레임에도 대응하지 않는다는 것을 나타낼 수도 있다. 예를 들어, 제 2 오디오 신호 (132) 의 일부 샘플들은 인코딩 동안 손실될 수도 있다. 보정된 시프트 값 (940) 을 복수의 시프트 값들 중 하나로 설정하는 것은 연속적인 (또는 인접한) 프레임들 간의 시프트들에서의 큰 차이를 방지할 수도 있고, 이에 의해 인코딩 동안 샘플 복제 또는 샘플 손실의 양을 감소시킨다. 시프트 리파이너 (911) 는 보정된 시프트 값 (940) 을 시프트 변화 분석기 (912) 에 제공할 수도 있다.
일부 구현들에서, 시프트 리파이너 (911) 는 보간된 시프트 값 (938) 을 조정할 수도 있다. 시프트 리파이너 (911) 는 조정된 보간된 시프트 값 (938) 에 기초하여 보정된 시프트 값 (940) 을 결정할 수도 있다. 일부 구현들에서, 시프트 리파이너 (911) 는 보정된 시프트 값 (940) 을 결정할 수도 있다.
시프트 변화 분석기 (912) 는, 도 1 을 참조하여 설명된 바와 같이, 보정된 시프트 값 (940) 이 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 타이밍에서의 스위치 또는 반전을 나타내는지 여부를 결정할 수도 있다. 특히, 타이밍에서의 반전 또는 스위치는, 이전 프레임에 대해, 제 1 오디오 신호 (130) 가 제 2 오디오 신호 (132) 전에 입력 인터페이스(들)(112) 에서 수신되고, 후속의 프레임에 대해, 제 2 오디오 신호 (132) 가 제 1 오디오 신호 (130) 전에 입력 인터페이스(들)에서 수신된다는 것을 나타낼 수도 있다. 대안으로, 타이밍에서의 반전 또는 스위치는, 이전 프레임에 대해, 제 2 오디오 신호 (132) 가 제 1 오디오 신호 (130) 전에 입력 인터페이스(들)(112) 에서 수신되고, 후속의 프레임에 대해, 제 1 오디오 신호 (130) 가 제 2 오디오 신호 (132) 전에 입력 인터페이스(들)에서 수신된다는 것을 나타낼 수도 있다. 다시 말해, 타이밍에서의 스위치 또는 반전은, 이전 프레임에 대응하는 최종 시프트 값이 현재의 프레임에 대응하는 보정된 시프트 값 (940) 의 제 2 부호와 상이한 제 1 부호 (예를 들어, 양에서 음으로의 트랜지션 또는 그 반대) 를 갖는다는 것을 나타낼 수도 있다. 시프트 변화 분석기 (912) 는, 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 지연이 이전 프레임과 연관된 제 1 시프트 값 및 보정된 시프트 값 (940) 에 기초하여 스위칭된 부호를 갖는지 여부를 결정할 수도 있다. 시프트 변화 분석기 (912) 는, 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 지연이 스위칭된 부호를 갖는다는 결정에 응답하여, 최종 시프트 값 (116) 을 시간 시프트가 없다는 것을 나타내는 값 (예를 들어, 0) 으로 설정할 수도 있다. 대안으로, 시프트 변화 분석기 (912) 는, 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 지연이 스위칭된 부호를 갖지 않는다는 결정에 응답하여 최종 시프트 값 (116) 을 보정된 시프트 값 (940) 으로 설정할 수도 있다. 시프트 변화 분석기 (912) 는 보정된 시프트 값 (940) 을 리파이닝함으로써 추정된 시프트 값을 생성할 수도 있다. 시프트 변화 분석기 (912) 는 최종 시프트 값 (116) 을 추정된 시프트 값으로 설정할 수도 있다. 시간 시프트가 없다는 것을 나타내도록 최종 시프트 값 (116) 을 설정하는 것은 제 1 오디오 신호 (130) 의 연속적인 (또는 인접한) 프레임들에 대한 반대 방향들에서 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 를 시간 시프트하지 않게 함으로써 디코더에서 왜곡을 감소시킬 수도 있다. 절대적 시프트 생성기 (913) 는 최종 시프트 값 (116) 에 절대 함수를 적용함으로써 비인과적 시프트 값 (162) 을 생성할 수도 있다.
도 10 을 참조하면, 통신의 방법 (1000) 이 도시된다. 방법 (1000) 은 도 1 의 제 1 디바이스 (104), 도 1 및 도 2 의 인코더 (114), 도 1 내지 도 7 의 주파수-도메인 스테레오 코더 (109), 도 2 및 도 8 의 신호 사전-프로세서 (202), 도 2 및 도 9 의 시프트 추정기 (204), 또는 이들의 조합에 의해 수행될 수도 있다.
방법 (1000) 은 1002 에서, 제 1 디바이스에서, 제 2 오디오 신호에 대한 제 1 오디오 신호의 시프트를 나타내는 시프트 값을 결정하는 단계를 포함한다. 예를 들어, 도 2 를 참조하면, 시간적 등화기 (108) 는 제 2 오디오 신호 (132)(예를 들어, "레퍼런스") 에 대한 제 1 오디오 신호 (130)(예를 들어, "타겟") 의 시프트 (예를 들어, 비인과적 시프트) 를 나타내는 최종 시프트 값 (116)(예를 들어, 비인과적 시프트 값) 을 결정할 수도 있다. 예를 들어, 최종 시프트 값 (116) 의 제 1 값 (예를 들어, 양의 값) 은, 제 2 오디오 신호 (132) 가 제 1 오디오 신호 (130) 에 대해 지연된다는 것을 나타낼 수도 있다. 최종 시프트 값 (116) 의 제 2 값 (예를 들어, 음의 값) 은, 제 1 오디오 신호 (130) 가 제 2 오디오 신호 (132) 에 대해 지연된다는 것을 나타낼 수도 있다. 최종 시프트 값 (116) 의 제 3 값 (예를 들어, 0) 은 제 1 오디오 신호 (130) 와 제 2 오디오 신호 (132) 간의 지연이 없는 것을 나타낼 수도 있다.
1004 에서, 시프트 값에 기초하여 제 2 오디오 신호 상에서 시간-시프트 동작이 수행되어 조정된 제 2 오디오 신호를 생성할 수도 있다. 예를 들어, 도 2 를 참조하면, 타겟 신호 조정기 (210) 는 제 1 시프트 값 (262)(Tprev) 으로부터 최종 시프트 값 (116)(T) 으로의 시간적 시프트 에볼루션에 기초하여 타겟 신호 (242) 를 조정할 수도 있다. 예를 들어, 제 1 시프트 값 (262) 은 이전 프레임에 대응하는 최종 시프트 값을 포함할 수도 있다. 타겟 신호 조정기 (210) 는, 제 1 시프트 값 (262) 으로부터 변화된 최종 시프트 값이 이전 프레임에 대응하는 최종 시프트 값 (116)(예를 들어, T=4) 보다 더 낮은 이전 프레임에 대응하는 제 1 값 (예를 들어, Tprev=2) 을 갖는다는 결정에 응답하여, 프레임 경계들에 대응하는 타겟 신호 (242) 의 샘플들의 서브세트가 조정된 타겟 신호 (192) 를 생성하기 위해 평활화 및 슬로우-시프팅을 통해 드롭되도록 타겟 신호 (242) 를 보간할 수도 있다. 대안으로, 타겟 신호 조정기 (210) 는, 최종 시프트 값이 최종 시프트 값 (116)(예를 들어, T=2) 보다 더 큰 제 1 시프트 값 (262)(예를 들어, Tprev=4) 으로부터 변화했다는 결정에 응답하여, 프레임 경계들에 대응하는 타겟 신호 (242) 의 샘플들의 서브세트가 조정된 타겟 신호 (192) 를 생성하기 위해 평활화 및 슬로우-시프팅을 통해 반복되도록 타겟 신호 (242) 를 보간할 수도 있다. 평활화 및 슬로우-시프팅은 하이브리드 싱크- 및 라그랑지-보간기들에 기초하여 수행될 수도 있다. 타겟 신호 조정기 (210) 는, 최종 시프트 값이 제 1 시프트 값 (262) 에서 최종 시프트 값 (116)(예를 들어, Tprev=T) 으로 변하지 않는다는 결정에 응답하여, 타겟 신호 (242) 를 시간적으로 오프셋하여 조정된 타겟 신호 (192) 를 생성할 수도 있다.
1006 에서, 제 1 오디오 신호 상에서 제 1 변환 동작이 수행되어 주파수-도메인 제 1 오디오 신호를 생성할 수도 있다. 1008 에서, 조정된 제 2 오디오 신호 상에서 제 2 변환 동작이 수행되어 주파수-도메인 조정된 제 2 오디오 신호를 생성할 수도 있다. 예를 들어, 도 3 내지 도 7 을 참조하면, 변환 (302) 은 레퍼런스 신호 (190) 상에서 수행될 수도 있고 변환 (304) 은 조정된 타겟 신호 (192) 상에서 수행될 수도 있다. 변환들 (302, 304) 은 주파수-도메인 변환 동작들을 포함할 수도 있다. 비-제한적 예들로서, 변환들 (302, 304) 은 DFT 동작들, FFT 동작들 등을 포함할 수도 있다. 일부 구현들에 따르면, (복잡한 저 지연 필터 뱅크들을 사용하는) QMF 동작들은 입력 신호들 (예를 들어, 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192)) 을 다수의 서브-대역들로 스플릿하는데 사용될 수도 있고, 일부 구현들에서 서브-대역들은 또한, 다른 주파수-도메인 변환 동작을 사용하여 주파수-도메인으로 컨버팅될 수도 있다. 변환 (302) 이 레퍼런스 신호 (190) 에 적용되어 주파수-도메인 레퍼런스 신호 (Lfr(b))(330) 를 생성할 수도 있고, 변환 (304) 이 조정된 타겟 신호 (192) 에 적용되어 주파수-도메인 조정된 타겟 신호 (Rfr(b))(332) 를 생성할 수도 있다.
1010 에서, 주파수-도메인 제 1 오디오 신호 및 주파수-도메인 조정된 제 2 오디오 신호에 기초하여 하나 이상의 스테레오 파라미터들이 추정될 수도 있다. 예를 들어, 도 3 내지 도 7 을 참조하면, 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 는 스테레오 파라미터 추정기 (306) 및 사이드-대역 신호 생성기 (308) 에 제공될 수도 있다. 스테레오 파라미터 추정기 (306) 는 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 에 기초하여 스테레오 파라미터들 (162) 을 추출 (예를 들어, 생성) 할 수도 있다. 예시하기 위해 IID(b) 는 대역 (b) 에서의 좌측 채널들의 에너지들 (EL(b)) 및 대역 (b) 에서의 우측 채널들의 에너지들 (ER(b)) 의 함수일 수도 있다. 예를 들어, IID(b) 는 20*log10(EL(b)/ ER(b)) 로서 표현될 수도 있다. 인코더에서 추정 및 송신된 IPD들은 대역 (b) 에서 좌측 채널과 우측 채널 간의 주파수-도메인에서의 위상 차이의 추정을 제공할 수도 있다. 스테레오 파라미터들 (162) 은 추가적인 (또는 대안의) 파라미터들, 예컨대 ICC들, ITD들 등을 포함할 수도 있다.
1012 에서, 하나 이상의 스테레오 파라미터들은 제 2 디바이스로 전송될 수도 있다. 예를 들어, 도 1 을 참조하면, 제 1 디바이스 (104) 는 스테레오 파라미터들 (162) 을 도 1 의 제 2 디바이스 (106) 로 송신할 수도 있다.
방법 (1000) 은 또한, 제 1 오디오 신호 및 조정된 제 2 오디오 신호에 기초하여 시간-도메인 중간-대역 신호를 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 3, 도 4, 및 도 7 을 참조하면, 중간-대역 신호 생성기 (312) 는 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192) 에 기초하여 시간-도메인 중간-대역 신호 (336) 를 생성할 수도 있다. 예를 들어, 시간-도메인 중간-대역 신호 (336) 는 (l(t)+r(t))/2 로서 표현될 수도 있고, 여기서 l(t) 는 레퍼런스 신호 (190) 를 포함하고 r(t) 는 조정된 타겟 신호 (192) 를 포함한다. 방법 (1000) 은 또한, 시간-도메인 중간-대역 신호를 인코딩하여 중간-대역 비트스트림을 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 3 및 도 4 를 참조하면, 중간-대역 인코더 (316) 는 시간-도메인 중간-대역 신호 (336) 를 인코딩함으로써 중간-대역 비트스트림 (166) 을 생성할 수도 있다. 방법 (1000) 은 중간-대역 비트스트림을 제 2 디바이스로 전송하는 단계를 더 포함할 수도 있다. 예를 들어, 도 1 을 참조하면, 송신기 (110) 는 중간-대역 비트스트림 (166) 을 제 2 디바이스 (106) 로 전송할 수도 있다.
방법 (1000) 은 또한, 주파수-도메인 제 1 오디오 신호, 주파수-도메인 조정된 제 2 오디오 신호, 및 하나 이상의 스테레오 파라미터들에 기초하여 사이드-대역 신호를 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 3 을 참조하면, 사이드-대역 생성기 (308) 는 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 에 기초하여 주파수-도메인 사이드대역 신호 (334) 를 생성할 수도 있다. 주파수-도메인 사이드대역 신호 (334) 는 주파수-도메인 빈들/대역들에서 추정될 수도 있다. 각각의 대역에서, 이득 파라미터 (g) 는 상이하고 인터-채널 레벨 차이들에 기초 (예를 들어, 스테레오 파라미터들 (162) 에 기초) 할 수도 있다. 예를 들어, 주파수-도메인 사이드대역 신호 (334) 는 (Lfr(b) - c(b)*Rfr(b))/(1+c(b)) 로서 표현될 수도 있고, 여기서 c(b) 는 ILD(b) 일 수도 있고 또는 ILD(b) 의 함수 (예를 들어, c(b) = 10^(ILD(b)/20)) 일 수도 있다.
방법 (1000) 은 또한, 시간-도메인 중간-대역 신호 상에서 제 3 변환 동작을 수행하여 주파수-도메인 중간-대역 신호를 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 3 을 참조하면, 변환 (314) 이 시간-도메인 중간-대역 신호 (336) 에 적용되어 주파수-도메인 중간-대역 신호 (338) 를 생성할 수도 있다. 방법 (1000) 은 또한, 사이드-대역 신호, 주파수-도메인 중간-대역 신호, 및 하나 이상의 스테레오 파라미터들에 기초하여 사이드-대역 비트스트림을 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 3 을 참조하면, 사이드-대역 인코더 (310) 는 스테레오 파라미터들 (162), 주파수-도메인 사이드대역 신호 (334), 및 주파수-도메인 중간-대역 신호 (338) 에 기초하여 사이드-대역 비트스트림 (164) 을 생성할 수도 있다.
방법 (1000) 은 또한, 주파수-도메인 제 1 오디오 신호 및 주파수-도메인 조정된 제 2 오디오 신호에 기초하여 그리고 부가적으로 또는 대안으로 스테레오 파라미터들에 기초하여 주파수-도메인 중간-대역 신호를 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 5 및 도 6 을 참조하면, 중간-대역 신호 생성기 (502) 는 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 에 기초하여 그리고 부가적으로 또는 대안으로 스테레오 파라미터들 (162) 에 기초하여 주파수-도메인 중간-대역 신호 (530) 를 생성할 수도 있다. 방법 (1000) 은 또한, 주파수-도메인 중간-대역 신호를 인코딩하여 중간-대역 비트스트림을 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 5 를 참조하면, 중간-대역 인코더 (504) 는 주파수-도메인 중간-대역 신호 (530) 를 인코딩하여 중간-대역 비트스트림 (166) 을 생성할 수도 있다.
방법 (1000) 은 또한, 주파수-도메인 제 1 오디오 신호, 주파수-도메인 조정된 제 2 오디오 신호, 및 하나 이상의 스테레오 파라미터들에 기초하여 사이드-대역 신호를 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 5 및 도 6 을 참조하면, 사이드-대역 생성기 (308) 는 주파수-도메인 레퍼런스 신호 (330) 및 주파수-도메인 조정된 타겟 신호 (332) 에 기초하여 주파수-도메인 사이드대역 신호 (334) 를 생성할 수도 있다. 일 구현에 따르면, 방법 (1000) 은 사이드-대역 신호, 중간-대역 비트스트림, 및 하나 이상의 스테레오 파라미터들에 기초하여 사이드-대역 비트스트림을 생성하는 단계를 포함한다. 예를 들어, 도 6 을 참조하면, 중간-대역 비트스트림 (166) 은 사이드-대역 인코더 (602) 에 제공될 수도 있다. 사이드-대역 인코더 (602) 는 스테레오 파라미터들 (162), 주파수-도메인 사이드대역 신호 (334), 및 중간-대역 비트스트림 (166) 에 기초하여 사이드-대역 비트스트림 (164) 을 생성하도록 구성될 수도 있다. 다른 구현에 따르면, 방법 (1000) 은 사이드-대역 신호, 주파수-도메인 중간-대역 신호, 및 하나 이상의 스테레오 파라미터들에 기초하여 사이드-대역 비트스트림을 생성하는 단계를 포함한다. 예를 들어, 도 5 를 참조하면, 사이드-대역 인코더 (506) 는 스테레오 파라미터들 (162), 주파수-도메인 사이드대역 신호 (334), 및 주파수-도메인 중간-대역 신호 (530) 에 기초하여 사이드-대역 비트스트림 (164) 을 생성할 수도 있다.
일 구현에 따르면, 방법 (1000) 은 또한, 제 1 오디오 신호를 다운샘플링함으로써 제 1 다운샘플링된 신호를 생성하고 제 2 오디오 신호를 다운샘플링함으로써 제 2 다운샘플링된 신호를 생성하는 단계를 포함할 수도 있다. 방법 (1000) 은 또한, 제 2 다운샘플링된 신호에 적용된 복수의 시프트 값들 및 제 1 다운샘플링된 신호에 기초하여 비교 값들을 결정하는 단계를 포함할 수도 있다. 시프트 값은 비교 값들에 기초할 수도 있다.
다른 구현에 따르면, 방법 (1000) 은 또한, 제 1 샘플들을 선행하는 제 1 오디오 신호의 제 1 특정 샘플들에 대응하는 제 1 시프트 값을 결정하고 제 1 오디오 신호 및 제 2 오디오 신호에 대응하는 비교 값들에 기초하여 보정된 시프트 값을 결정하는 단계를 포함할 수도 있다. 시프트 값은 보정된 시프트 값 및 제 1 시프트 값의 비교에 기초할 수도 있다.
도 10 의 방법 (1000) 은 주파수-도메인 스테레오 코더 (109) 로 하여금 레퍼런스 신호 (190) 및 조정된 타겟 신호 (192) 를 주파수-도메인으로 변환하여 스테레오 파라미터들 (162), 사이드-대역 비트스트림 (164), 및 중간-대역 비트스트림 (166) 을 생성하게 할 수도 있다. 제 2 오디오 신호 (132) 와 정렬하도록 제 1 오디오 신호 (130) 를 시간적으로 시프트하는 시간적 등화기 (108) 의 시간-시프팅 기법들은 주파수-도메인 신호 프로세싱과 연관되어 구현될 수도 있다. 예시하기 위해, 시간적 등화기 (108) 는 인코더 (114) 에서 각각의 프레임에 대해 시프트 (예를 들어, 비인과적 시프트 값) 을 추정하고, 비인과적 시프트 값에 따라 타겟 채널을 시프트 (예를 들어, 조정) 하며, 변환-도메인에서 스테레오 파라미터들 추정을 위해 시프트 조정된 채널들을 사용한다.
도 11 을 참조하면, 디코더 (118) 의 특정 구현을 예시하는 다이어그램이 도시된다. 인코딩된 오디오 신호는 디코더 (118) 의 디멀티플렉서 (DEMUX)(1102) 에 제공된다. 인코딩된 오디오 신호는 스테레오 파라미터들 (162), 사이드-대역 비트스트림 (164), 및 중간-대역 비트스트림 (166) 을 포함할 수도 있다. 디멀티플렉서 (1102) 는 인코딩된 오디오 신호로부터 중간-대역 비트스트림 (166) 을 추출하고 중간-대역 비트스트림 (166) 을 중간-대역 디코더 (1104) 에 제공하도록 구성될 수도 있다. 디멀티플렉서 (1102) 는 또한, 인코딩된 오디오 신호로부터 스테레오 파라미터들 (162)(예를 들어, ILD들, IPD들) 및 사이드-대역 비트스트림 (164) 을 추출하도록 구성될 수도 있다. 사이드-대역 비트스트림 (164) 및 스테레오 파라미터들 (162) 은 사이드-대역 디코더 (1106) 에 제공될 수도 있다.
중간-대역 디코더 (1104) 는 중간-대역 비트스트림 (166) 을 디코딩하여 중간-대역 신호 (mCODED(t))(1150) 를 생성하도록 구성될 수도 있다. 중간-대역 신호 (1150) 가 시간-도메인 신호이면, 변환 (1108) 이 중간-대역 신호 (1150) 에 제공되어 주파수-도메인 중간-대역 신호 (MCODED(b))(1152) 를 생성할 수도 있다. 주파수-도메인 중간-대역 신호 (1152) 는 업-믹서 (1110) 에 제공될 수도 있다. 그러나, 중간-대역 신호 (1150) 가 주파수-도메인 신호이면, 중간-대역 신호 (1150) 는 업-믹서 (1110) 에 직접 제공될 수도 있고 변환 (1108) 이 바이패스될 수도 있거나 또는 디코더 (118) 에 존재하지 않을 수도 있다.
사이드-대역 디코더 (1106) 는 사이드-대역 비트스트림 (164) 및 스테레오 파라미터들 (162) 에 기초하여 사이드-대역 신호 (SCODED(b))(1154) 를 생성할 수도 있다. 예를 들어, 에러 (e) 는 저-대역들 및 고-대역들에 대해 디코딩될 수도 있다. 사이드-대역 신호 (1154) 는 SPRED(b) + eCODED(b) 로서 표현될 수도 있고, 여기서 SPRED(b) = MCODED(b)*(ILD(b)-1)/(ILD(b)+1) 이다. 사이드-대역 신호 (1154) 는 또한, 업-믹서 (1110) 에 제공될 수도 있다.
업-믹서 (1110) 는 주파수-도메인 중간-대역 신호 (1152) 및 사이드-대역 신호 (1154) 에 기초하여 업-믹스 동작을 수행할 수도 있다. 예를 들어, 업-믹서 (1110) 는 제 1 주파수-도메인 중간-대역 신호 (1152) 및 사이드-대역 신호 (1154) 에 기초하여 제 1 업-믹스된 신호 (Lfr)(1156) 및 제 2 업-믹스된 신호 (Rfr)(1158) 를 생성할 수도 있다. 따라서, 설명된 예에서, 제 1 업-믹스된 신호 (1156) 는 좌측-채널 신호일 수도 있고, 제 2 업-믹스된 신호 (1158) 는 우측-채널 신호일 수도 있다. 제 1 업-믹스된 신호 (1156) 는 MCODED(b)+SCODED(b) 로서 표현될 수도 있고, 제 2 업-믹스된 신호 (1158) 는 MCODED(b)-SCODED(b) 로서 표현될 수도 있다. 업-믹스된 신호들 (1156, 1158) 은 스테레오 파라미터 프로세서 (1112) 에 제공될 수도 있다.
스테레오 파라미터 프로세서 (1112) 는 스테레오 파라미터들 (162)(예를 들어, ILD들, IPD들) 을 업-믹스된 신호들 (1156, 1158) 에 적용하여 신호들 (1160, 1162) 을 생성할 수도 있다. 예를 들어, 스테레오 파라미터들 (162)(예를 들어, ILD들, IPD들) 은 주파수-도메인에서 업-믹스된 좌측 및 우측 채널들에 적용될 수도 있다. 이용 가능한 경우, IPD (위상 차이들) 는 좌측 및 우측 채널들 상에 분산되어 인터-채널 위상 차이들을 유지할 수도 있다. 역 변환 (1114) 이 신호 (1160) 에 적용되어 제 1 시간-도메인 신호 (l(t))(1164) 를 생성할 수도 있고, 역 변환 (1116) 이 신호 (1162) 에 적용되어 제 2 시간-도메인 신호 (r(t))(1166) 를 생성할 수도 있다. 역 변환들 (1114, 1116) 의 비-제한적 예들은 역 이산 코사인 변환 (IDCT) 동작들, 역 고속 푸리에 변환 (IFFT) 동작들 등을 포함한다. 일 구현에 따르면, 제 1 시간-도메인 신호 (1164) 는 레퍼런스 신호 (190) 의 복원된 버전일 수도 있고, 제 2 시간-도메인 신호 (1166) 는 조정된 타겟 신호 (192) 의 복원된 버전일 수도 있다.
일 구현에 따르면, 업-믹서 (1110) 에서 수행된 동작들은 스테레오 파라미터 프로세서 (1112) 에서 수행될 수도 있다. 다른 구현에 따르면, 스테레오 파라미터 프로세서 (1112) 에서 수행된 동작들은 업-믹서 (1110) 에서 수행될 수도 있다. 또 다른 구현에 따르면, 업-믹서 (1110) 및 스테레오 파라미터 프로세서 (1112) 는 단일의 프로세싱 엘리먼트 (예를 들어, 단일의 프로세서) 내에서 구현될 수도 있다.
부가적으로, 제 1 시간-도메인 신호 (1164) 및 제 2 시간-도메인 신호 (1166) 는 시간-도메인 업-믹서 (1120) 에 제공될 수도 있다. 시간-도메인 업-믹서 (1120) 는 시간-도메인 신호들 (1164, 1166)(예를 들어, 역-변환된 좌측 및 우측 신호들) 상에서 시간-도메인 업-믹스를 수행할 수도 있다. 시간-도메인 업-믹서 (1120) 는 역 시프트 조정을 수행하여 시간적 등화기 (108)(보다 구체적으로는 타겟 신호 조정기 (210)) 에서 수행된 시프트 조정을 언두 (undo) 할 수도 있다. 시간-도메인 업-믹스는 시간-도메인 다운믹스 파라미터들 (168) 에 기초할 수도 있다. 예를 들어, 시간-도메인 업-믹스는 제 1 시프트 값 (262) 및 레퍼런스 신호 표시자 (264) 에 기초할 수도 있다. 부가적으로, 시간-도메인 업-믹서 (1120) 는 존재할 수도 있는 시간-도메인 다운-믹스 모듈에서 수행된 다른 동작들의 역 동작들을 수행할 수도 있다.
도 12 를 참조하면, 시스템의 특정 예시적 예가 개시되고 일반적으로 1200 으로 지정된다. 시스템 (1200) 은 네트워크 (120) 를 통해 제 2 디바이스 (1206) 에 통신 가능하게 커플링된 제 1 디바이스 (1204) 를 포함한다. 제 1 디바이스 (1204) 는 도 1 의 제 1 디바이스 (104) 에 대응할 수도 있고, 제 2 디바이스 (1206) 는 도 1 의 제 2 디바이스 (106) 에 대응할 수도 있다. 예를 들어, 도 1 의 제 1 디바이스 (104) 의 컴포넌트들은 또한, 제 1 디바이스 (1204) 에 포함될 수도 있고, 도 1 의 제 2 디바이스 (106) 의 컴포넌트들은 제 2 디바이스 (1206) 에 또한, 포함될 수도 있다. 따라서, 도 12 에 대하여 설명된 코딩 기법들에 추가하여, 제 1 디바이스 (1204) 는 도 1 의 제 1 디바이스 (104) 와 실질적으로 유사한 방식으로 동작할 수도 있고, 제 2 디바이스 (1206) 는 도 1 의 제 2 디바이스 (106) 와 실질적으로 유사한 방식으로 동작할 수도 있다.
제 1 디바이스 (1204) 는 인코더 (1214), 송신기 (1210), 입력 인터페이스들 (1212), 또는 이들의 조합을 포함할 수도 있다. 일 구현에 따르면, 인코더 (1214) 는 도 1 의 인코더 (114) 에 대응할 수도 있고 실질적으로 유사한 방식으로 동작할 수도 있고, 송신기 (1210) 는 도 1 의 송신기 (110) 에 대응할 수도 있고 실질적으로 유사한 방식으로 동작할 수도 있으며, 입력 인터페이스들 (1212) 은 도 1 의 입력 인터페이스들 (112) 에 대응할 수도 있고 실질적으로 유사한 방식으로 동작할 수도 있다. 입력 인터페이스들 (1212) 의 제 1 입력 인터페이스는 제 1 마이크로폰 (1246) 에 커플링될 수도 있다. 입력 인터페이스들 (1212) 의 제 2 입력 인터페이스는 제 2 마이크로폰 (1248) 에 커플링될 수도 있다. 인코더 (1214) 는 본원에 설명된 바와 같이, 주파수-도메인 시프터 (1208) 및 주파수-도메인 스테레오 코더 (1209) 를 포함할 수도 있고 다수의 오디오 신호들을 다운믹스 및 인코딩하도록 구성될 수도 있다. 제 1 디바이스 (1204) 는 또한, 분석 데이터 (1291) 를 저장하도록 구성된 메모리 (1253) 를 포함할 수도 있다. 제 2 디바이스 (1206) 는 디코더 (1218) 를 포함할 수도 있다. 디코더 (1218) 는 다수의 채널들을 업믹스 및 렌더링하도록 구성되는 시간적 밸런서 (1224) 를 포함할 수도 있다. 제 2 디바이스 (1206) 는 제 1 라우드스피커 (1242), 제 2 라우드스피커 (1244), 또는 양자 모두에 커플링될 수도 있다.
동작 동안, 제 1 디바이스 (1204) 는 제 1 마이크로폰 (1246) 으로부터 제 1 입력 인터페이스를 통해 제 1 오디오 신호 (1230) 를 수신할 수도 있고 제 2 마이크로폰 (1248) 으로부터 제 2 입력 인터페이스를 통해 제 2 오디오 신호 (1232) 를 수신할 수도 있다. 제 1 오디오 신호 (1230) 는 우측 채널 신호 또는 좌측 채널 신호 중 하나에 대응할 수도 있다. 제 2 오디오 신호 (1232) 는 우측 채널 신호 또는 좌측 채널 신호 중 다른 하나에 대응할 수도 있다. 사운드 소스 (1252) 는 제 2 마이크로폰 (128) 보다 제 1 마이크로폰 (1246) 에 더 가까울 수도 있다. 따라서, 사운드 소스 (1252) 로부터의 오디오 신호는 제 2 마이크로폰 (1248) 을 통한 것보다 더 이른 시간에 제 1 마이크로폰 (1246) 을 통해 입력 인터페이스들(1212) 에서 수신될 수도 있다. 다수의 마이크로폰들을 통한 멀티-채널 신호 포착에서 이 자연스러운 지연은 제 1 오디오 신호 (1230) 와 제 2 오디오 신호 (1232) 간의 시간적 불일치를 도입할 수도 있다.
주파수-도메인 시프터 (1208) 는 좌측 채널 및 우측 채널의 변환 동작 (예를 들어, 변환 분석) 을 수행하여 변환-도메인 (예를 들어, 주파수-도메인) 에서 비인과적 시프트 값을 추정하도록 구성될 수도 있다. 예시하기 위해, 주파수-도메인 시프터 (1208) 는 좌측 채널 및 우측 채널 상에서 윈도윙 동작을 수행할 수도 있다. 예를 들어, 주파수-도메인 시프터 (1208) 는 좌측 채널 상에서 윈도윙 동작을 수행하여 제 1 오디오 신호 (1230) 의 특정 윈도우를 분석할 수도 있고, 주파수-도메인 시프터 (1208) 는 우측 채널 상에서 윈도윙 동작을 수행하여 제 2 오디오 신호 (1232) 의 대응하는 윈도우를 분석할 수도 있다. 주파수-도메인 시프터 (1208) 는 제 1 오디오 신호 (1230) 상에서 제 1 변환 동작 (예를 들어, DFT 동작) 을 수행하여 제 1 오디오 신호 (1230) 를 시간-도메인에서 변환-도메인으로 컨버팅할 수도 있고, 주파수-도메인 시프터 (1208) 는 제 2 오디오 신호 (1232) 상에서 제 2 변환 동작 (예를 들어, DFT 동작) 을 수행하여 제 2 오디오 신호 (1232) 를 시간-도메인에서 변환-도메인으로 컨버팅할 수도 있다.
주파수-도메인 시프터 (1208) 는 변환-도메인에서의 제 1 오디오 신호 (1230) 와 변환-도메인에서의 제 2 오디오 신호 (1232) 간의 위상 차이에 기초하여 비인과적 시프트 값 (예를 들어, 최종 시프트 값 (1216)) 을 추정할 수도 있다. 최종 시프트 값 (1216) 은 채널 표시자와 연관되는 비-음의 값일 수도 있다. 채널 표시자는, 어느 오디오 신호 (1230, 1232) 가 레퍼런스 신호 (예를 들어, 레퍼런스 채널) 이고 어느 오디오 신호 (1230, 1232) 가 타겟 신호 (예를 들어, 타겟 채널) 인지를 나타낼 수도 있다. 대안으로, 시프트 값 (예를 들어, 양의 값, 제로 값, 또는 음의 값) 이 추정될 수도 있다. 본원에 사용된 바와 같이, "시프트 값" 은 또한, "시간적 불일치 값" 으로서 지칭될 수도 있다. 시프트 값은 제 2 디바이스 (1206) 로 송신될 수도 있다.
다른 구현에 따르면, 시프트 값의 절대 값은 최종 시프트 값 (1216)(예를 들어, 비인과적 시프트 값) 일 수도 있고 시프트 값의 부호는 어느 오디오 신호 (1230, 1232) 가 레퍼런스 신호이고 어느 오디오 신호 (1230, 1232) 가 타겟 신호인지를 나타낼 수도 있다. 시간적 불일치 값의 절대 값 (예를 들어, 최종 시프트 값 (1216)) 은 불일치 값의 부호와 함께 제 2 디바이스 (1206) 로 송신되어 어느 채널이 레퍼런스 채널이고 어느 채널이 타겟 채널인지를 나타낼 수도 있다.
최종 시프트 값 (1216) 을 결정한 후에, 주파수-도메인 시프터 (1208) 는 변환-도메인 (예를 들어, 주파수-도메인) 에서 타겟 신호의 위상 회전을 수행함으로써 타겟 신호 및 레퍼런스 신호를 시간적으로 정렬한다. 예시하기 위해, 제 1 오디오 신호 (1230) 가 레퍼런스 신호이면, 주파수-도메인 신호 (1290) 는 변환-도메인에서 제 1 오디오 신호 (1230) 에 대응할 수도 있다. 주파수-도메인 시프터 (1208) 는 변환-도메인에서 제 2 오디오 신호 (1232) 의 위상 회전을 수행하여 주파수-도메인 신호 (1290) 와 시간적으로 정렬되는 주파수-도메인 신호 (1292) 를 생성할 수도 있다. 주파수-도메인 신호 (1290) 및 주파수-도메인 신호 (1292) 는 주파수-도메인 스테레오 코더 (1209) 에 제공될 수도 있다.
따라서, 주파수-도메인 시프터 (1208) 는 제 1 오디오 신호 (1230) 및 신호 (1292) 의 변환-도메인 버전이 실질적으로 동기화되도록 제 2 오디오 신호 (1232)(예를 들어, 타겟 신호) 의 변환-도메인 버전을 시간적으로 정렬하여 신호 (1292) 를 생성할 수도 있다. 주파수-도메인 시프터 (1208) 는 주파수-도메인 다운믹스 파라미터들 (1268) 을 생성할 수도 있다. 주파수-도메인 다운믹스 파라미터들 (1268) 은 타겟 신호와 레퍼런스 신호 간의 시프트 값을 나타낼 수도 있다. 다른 구현들에서, 주파수-도메인 다운믹스 파라미터들 (1268) 은 다운믹스 이득 등과 같은 추가적인 파라미터들을 포함할 수도 있다.
주파수-도메인 스테레오 코더 (1209) 는 주파수-도메인 신호들 (예를 들어, 주파수-도메인 신호들 (1290, 1292)) 에 기초하여 스테레오 파라미터들 (1262) 을 추정할 수도 있다. 스테레오 파라미터들 (1262) 은 좌측 채널들 및 우측 채널들과 연관된 공간적 특성들의 렌더링을 가능하게 하는 파라미터들을 포함할 수도 있다. 일부 구현들에 따라, 스테레오 파라미터들 (1262) 은 파라미터들, 예컨대 인터-채널 세기 차이 (IID) 파라미터들 (예를 들어, 인터-채널 레벨 차이들 (ILD), 사이드-대역 이득들로 지칭된 ILD들에 대한 대안, 인터-채널 시간 차이 (ITD) 파라미터들, 인터-채널 위상 차이 (IPD) 파라미터들, 인터-채널 상관 (ICC) 파라미터들, 비인과적 시프트 파라미터들, 스펙트럼 틸트 파라미터들, 인터-채널 유성 파라미터들, 인터-채널 피치 파라미터들, 인터-채널 이득 파라미터들 등) 을 포함할 수도 있다. 명시적으로 언급되지 않는다면, ILD들은 또한, 대안의 사이드-대역 신호들을 지칭할 수 있다는 것이 이해되어야 한다. ITD 파라미터는 시간적 불일치 값 또는 최종 시프트 값 (1216) 에 대응할 수도 있다. 스테레오 파라미터들 (1262) 은 다른 신호들의 생성 동안 주파수-도메인 스테레오 코더 (1209) 에서 사용될 수도 있다. 스테레오 파라미터들 (1262) 은 또한, 인코딩된 신호의 부분으로서 송신될 수도 있다. 일 구현에 따르면, 주파수-도메인 스테레오 코더 (1209) 에 의해 수행된 동작들은 또한, 주파수-도메인 시프터 (1208) 에 의해 수행될 수도 있다. 비-제한적 예로서, 주파수-도메인 시프터 (1208) 는 ITD 파라미터들을 결정하고 ITD 파라미터들을 최종 시프트 값 (1216) 으로서 사용할 수도 있다.
주파수-도메인 스테레오 코더 (1209) 는 또한, 주파수-도메인 신호들에 적어도 부분적으로 기초하여 사이드-대역 비트스트림 (1264) 및 중간-대역 비트스트림 (1266) 을 생성할 수도 있다. 예시의 목적을 위해, 다르게 언급되지 않는다면, 주파수-도메인 신호 (1290)(예를 들어, 레퍼런스 신호) 는 좌측-채널 신호 (l 또는 L) 이고 주파수-도메인 신호 (1292) 는 우측-채널 신호 (r 또는 R) 인 것으로 가정된다. 주파수-도메인 신호 (1290) 는 Lfr(b) 로서 표기될 수도 있고 주파수-도메인 신호 (1292) 는 Rfr(b) 로서 표기될 수도 있으며, 여기서 b 는 주파수-도메인 표현들의 대역을 나타낸다. 일 구현에 따르면, 사이드-대역 신호 (Sfr(b)) 는 주파수-도메인 신호 (1290) 및 주파수-도메인 신호 (1292) 로부터 주파수-도메인에서 생성될 수도 있다. 예를 들어, 사이드-대역 신호 (Sfr(b)) 는 (Lfr(b)-Rfr(b))/2 로서 표현될 수도 있다. 사이드-대역 신호 (Sfr(b)) 는 사이드대역 인코더에 제공되어 사이드-대역 비트스트림 (1264) 을 생성할 수도 있다. 중간-대역 신호 (Mfr(b)) 는 또한, 주파수-도메인 신호들 (1290, 1292) 로부터 생성될 수도 있다.
사이드-대역 신호 (Sfr(b)) 및 중간-대역 신호 (Mfr(b)) 는 다수의 기법들을 사용하여 인코딩될 수도 있다. 사이드-대역 코딩의 일 구현은 주파수 중간-대역 신호 (Mfr(b)) 에서의 정보 및 대역 (b) 에 대응하는 파라미터들 (1262)(예를 들어, ILD들) 을 사용하여 주파수-도메인 중간-대역 신호 (Mfr(b)) 로부터 사이드-대역 SPRED(b) 을 예측하는 것을 포함한다. 예를 들어, 예측된 사이드-대역 SPRED(b) 은 Mfr(b)*(ILD(b)-1)/(ILD(b)+1) 로서 표현될 수도 있다. 대역 (b) 에서의 에러 신호 e(b) 는 사이드-대역 신호 (Sfr(b)) 및 예측된 사이드-대역 SPRED(b) 의 함수로서 계산될 수도 있다. 예를 들어, 에러 신호 e(b) 는 Sfr(b)- SPRED(D) 로서 표현될 수도 있다. 에러 신호 e(b) 는 변환-도메인 코딩 기법들을 사용하여 코딩되어 코딩된 에러 신호 eCODED(b) 를 생성할 수도 있다. 상위-대역들에 대해, 에러 신호 e(b) 는 이전 프레임으로부터의 대역 (b) 에서 중간-대역 신호 M_PASTfr(b) 의 스케일링된 버전으로서 표현될 수도 있다. 예를 들어, 코딩된 에러 신호 eCODED(b) 는 gPRED(b)*M_PASTfr(b) 로서 표현될 수도 있고, 여기서 gPRED(b) 는 e(b)-gPRED(b)*M_PASTfr(b) 의 에너지가 실질적으로 감소 (예를 들어, 최소화) 되도록 추정될 수도 있다.
송신기 (1210) 는 스테레오 파라미터들 (1262), 사이드-대역 비트스트림 (1264), 중간-대역 비트스트림 (1266), 주파수-도메인 다운믹스 파라미터들 (1268), 또는 이들의 조합을 네트워크 (120) 를 통해 제 2 디바이스 (1206) 로 송신할 수도 있다. 대안으로, 또는 추가적으로, 송신기 (1210) 는 추가의 프로세싱 또는 나중의 디코딩을 위해 네트워크 (120) 의 디바이스 또는 로컬 디바이스에 스테레오 파라미터들 (1262), 사이드-대역 비트스트림 (1264), 중간-대역 비트스트림 (1266), 주파수-도메인 다운믹스 파라미터들 (1268), 또는 이들의 조합을 저장할 수도 있다. 비인과적 시프트 (예를 들어, 최종 시프트 값 (1216)) 가 인코딩 프로세스 동안 결정될 수도 있기 때문에, 각각의 대역에서 비인과적 시프트에 추가적으로 (예를 들어, 스테레오 파라미터들 (1262) 의 부분으로서) IPD들 및/또는 ITD들을 송신하는 것은 중복적일 수도 있다. 따라서, 일부 구현들에서, IPD 및/또는 ITD 및 비인과적 시프트는 동일한 프레임에 대해 하지만 상호 배타적인 대역들에서 추정될 수도 있다. 다른 구현들에서, 더 미세한 대역별 조정들을 위한 시프트에 추가하여 더 낮은 레졸루션 IPD들이 추정될 수도 있다. 대안으로, IPD들 및/또는 ITD들은 비인과적 시프트가 결정되는 프레임들에 대해 결정되지 않을 수도 있다.
디코더 (1218) 는 스테레오 파라미터들 (1262), 사이드-대역 비트스트림 (1264), 중간-대역 비트스트림 (1266), 및 주파수-도메인 다운믹스 파라미터들 (1268) 에 기초하여 디코딩 동작들을 수행할 수도 있다. 디코더 (1218)(예를 들어, 제 2 디바이스 (1206)) 는 재생성된 타겟 신호를 인과적으로 시프트하여 인코더 (1214) 에 의해 수행된 비인과적 시프트들을 언두할 수도 있다. 인과적 시프트는 주파수-도메인에서 (예를 들어, 위상 회전에 의해) 또는 시간-도메인에서 수행될 수도 있다. 디코더 (1218) 는 (예를 들어, 제 1 오디오 신호 (1230) 에 대응하는) 제 1 출력 신호 (1226), (예를 들어, 제 2 오디오 신호 (1232) 에 대응하는) 제 2 출력 신호 (1228), 또는 양자 모두를 생성하도록 업믹싱을 수행할 수도 있다. 제 2 디바이스 (1206) 는 제 1 라우드스피커 (1242) 를 통해 제 1 출력 신호 (1226) 를 출력할 수도 있다. 제 2 디바이스 (1206) 는 제 2 라우드스피커 (1244) 를 통해 제 2 출력 신호 (1228) 를 출력할 수도 있다. 대안의 예들에서, 제 1 출력 신호 (1226) 및 제 2 출력 신호 (1228) 는 스테레오 신호 쌍으로서 단일의 출력 라우드스피커로 송신될 수도 있다.
시스템 (1200) 은 따라서, 주파수-도메인 스테레오 코더 (1209) 로 하여금 스테레오 파라미터들 (1262), 사이드-대역 비트스트림 (1264), 및 중간-대역 비트스트림 (1266) 을 생성하게 할 수도 있다. 주파수-도메인 시프터 (1208) 의 주파수-시프팅 기법들은 주파수-도메인 신호 프로세싱과 함께 구현될 수도 있다. 예시하기 위해, 주파수-도메인 시프터 (1208) 는 인코더 (1214) 에서 각각의 프레임에 대해 시프트 (예를 들어, 비인과적 시프트 값) 을 추정하고, 비인과적 시프트 값에 따라 타겟 채널을 시프트 (예를 들어, 조정) 하며, 변환-도메인에서 스테레오 파라미터들 추정을 위해 시프트 조정된 채널들을 사용한다.
도 13 을 참조하면, 제 1 디바이스 (1204) 의 인코더 (1214) 의 예시적 예가 도시된다. 인코더 (1214) 는 주파수-도메인 시프터 (1208) 및 주파수-도메인 스테레오 코더 (1209) 의 제 1 구현 (1208a) 을 포함한다. 주파수-도메인 시프터 (1208a) 는 윈도윙 회로부 (1302), 변환 회로부 (1304), 윈도윙 회로부 (1306), 변환 회로부 (1308), 인터-채널 시프트 추정기 (1310), 및 시프터 (1312) 를 포함한다.
동작 동안, 제 1 오디오 신호 (1230)(예를 들어, 시간-도메인 신호) 는 윈도윙 회로부 (1302) 에 제공될 수도 있고 제 2 오디오 신호 (1232)(예를 들어, 시간-도메인 신호) 는 윈도윙 회로부 (1306) 에 제공될 수도 있다. 윈도윙 회로부 (1302) 는 좌측 채널 (예를 들어, 제 1 오디오 신호 (1230) 에 대응하는 채널) 상에서 윈도윙 동작을 수행하여 제 1 오디오 신호 (1230) 의 특정 윈도우를 분석할 수도 있다. 윈도윙 회로부 (1306) 는 우측 채널 (예를 들어, 제 2 오디오 신호 (1232) 에 대응하는 채널) 상에서 윈도윙 동작을 수행하여 제 2 오디오 신호 (1232) 의 대응하는 윈도우를 분석할 수도 있다.
변환 회로부 (1304) 는 제 1 오디오 신호 (1230) 상에서 제 1 변환 동작 (예를 들어, 이산 푸리에 변환 (DFT) 동작) 을 수행하여 제 1 오디오 신호 (1230) 를 시간-도메인에서 변환-도메인으로 컨버팅할 수도 있다. 예를 들어, 변환 회로부 (1304) 는 제 1 오디오 신호 (1230) 상에서 제 1 변환 동작을 수행하여 주파수-도메인 신호 (1290) 를 생성할 수도 있다. 주파수-도메인 신호 (1290) 는 인터-채널 시프트 추정기 (1310) 및 주파수-도메인 스테레오 코더 (1209) 에 제공될 수도 있다. 변환 회로부 (1308) 는 제 2 오디오 신호 (1232) 상에서 제 2 변환 동작 (예를 들어, DFT 동작) 을 수행하여 제 2 오디오 신호 (1232) 를 시간-도메인에서 변환-도메인으로 컨버팅할 수도 있다. 예를 들어, 변환 회로부 (1308) 는 제 2 오디오 신호 (1232) 상에서 제 2 변환 동작을 수행하여 시간-도메인 신호 (1350) 를 생성할 수도 있다. 시간-도메인 신호 (1350) 는 인터-채널 시프트 추정기 (1310) 및 시프터 (1312) 에 제공될 수도 있다.
인터-채널 시프트 추정기 (1310) 는 주파수-도메인 신호 (1290) 와 주파수-도메인 신호 (1350) 간의 위상 차이에 기초하여 최종 시프트 값 (1216)(예를 들어, 비인과적 시프트 값 또는 ITD 값) 을 추정할 수도 있다. 최종 시프트 값 (1216) 은 시프터 (1312) 에 제공될 수도 있다. 본원에 사용된 바와 같이, "최종 시프트 값" 은 "최종 시간적 불일치 값" 으로서 지칭될 수도 있다. 따라서, 용어들 "시프트 값" 및 "시간적 불일치 값" 은 본원에서 상호 교환적으로 사용될 수도 있다. 일 구현에 따르면, 최종 시프트 값 (1216) 은 코딩되어 제 2 디바이스 (1206) 에 제공된다. 시프터 (1312) 는 변환-도메인 (1350) 신호 상에서 위상-시프트 동작 (예를 들어, 위상-회전 동작) 을 수행하여 주파수-도메인 신호 (1292) 를 생성한다. 주파수-도메인 신호 (1292) 의 위상은, 주파수-도메인 신호 (1292) 및 주파수-도메인 신호 (1290) 가 시간적으로 정렬되기 위한 것이다.
도 13 에서, 제 2 오디오 신호 (1232) 는 타겟 신호인 것이 가정된다. 그러나, 타겟 신호가 알려지지 않으면, 주파수-도메인 신호 (1350) 및 주파수-도메인 신호 (1290) 는 시프터 (1312) 에 제공될 수도 있다. 최종 시프트 값 (1216) 은 어느 주파수-도메인 신호 (1350, 1290) 가 타겟 신호에 대응하는지를 나타낼 수도 있고, 시프터 (1312) 는 타겟 신호에 대응하는 주파수-도메인 신호 (1350, 1290) 상에서 위상-회전 동작을 수행할 수도 있다. 최종 시프트 값들에 기초한 위상-회전 동작들은 다른 신호 상에서 바이패스될 수도 있다. (이용 가능하다면) 계산된 IPD들에 기초한 다른 위상 회전 동작들이 또한, 수행될 수도 있다는 것이 주목되어야 한다. 주파수-도메인 신호 (1292) 는 주파수-도메인 스테레오 코더 (1209) 에 제공될 수도 있다. 주파수-도메인 스테레오 코더 (1209) 의 동작들은 도 15 및 도 16 에 대하여 설명된다.
도 14 를 참조하면, 제 1 디바이스 (1204) 의 인코더 (1214) 의 다른 예시적 예가 도시된다. 인코더 (1214) 는 주파수-도메인 시프터 (1208) 및 주파수-도메인 스테레오 코더 (1209) 의 제 2 구현 (1208b) 을 포함한다. 주파수-도메인 시프터 (1208b) 는 윈도윙 회로부 (1302), 변환 회로부 (1304), 윈도윙 회로부 (1306), 변환 회로부 (1308), 및 비인과적 시프터 (1402) 를 포함한다.
윈도윙 회로부 (1302, 1306) 및 변환 회로부 (1304, 1308) 는 도 13 에 대하여 설명된 바와 실질적으로 유사한 방식으로 동작할 수도 있다. 예를 들어, 윈도윙 회로부 (1302, 1306) 및 변환 회로부 (1304, 1308) 는 오디오 신호 (1230, 1232) 에 각기 기초하여 주파수-도메인 신호들 (1290, 1350) 를 생성할 수도 있다. 주파수-도메인 신호 (1290, 1350) 는 비인과적 시프터 (1402) 에 제공될 수도 있다.
비인과적 시프터 (1402) 는 주파수-도메인에서 타겟 채널 및 레퍼런스 채널을 시간적으로 정렬할 수도 있다. 예를 들어, 비인과적 시프터 (1402) 는 타겟 채널을 비인과적으로 시프트하도록 타겟 채널의 위상-회전을 수행하여 레퍼런스 채널과 정렬할 수도 있다. 최종 시프트 값 (1216) 은 메모리 (1253) 로부터 비인과적 시프터 (1402) 에 제공될 수도 있다. 일부 구현들에 따르면, 이전 프레임으로부터 (시간-도메인 기법들 또는 주파수-도메인 기법들에 기초하여 추정된) 시프트 값은 최종 시프트 값 (1216) 으로서 사용될 수도 있다. 따라서, 이전 프레임으로부터의 시프트 값은, 시간-도메인 다운-믹스 기술들 및 주파수-도메인 다운-믹스 기술들이 특정 메트릭에 기초하여 CODEC 에서 선택되는 프레임별 단위로 사용될 수도 있다. 최종 시프트 값 (1216)(예를 들어, 비인과적 시프트 값) 은 비인과적 시프트를 나타낼 수도 있고 타겟 채널을 나타낼 수도 있다. 최종 시프트 값 (1216) 은 시간-도메인에서 또는 변환-도메인에서 추정될 수도 있다. 예를 들어, 최종 시프트 값 (1216) 은, 우측 채널 (예를 들어, 주파수-도메인 신호 (1350) 와 연관된 채널) 이 타겟 채널이라는 것을 나타낼 수도 있다. 비인과적 시프터 (1402) 는 최종 시프트 값 (1216) 에서 표시된 시프트 양 만큼 주파수-도메인 신호 (1350) 의 위상을 회전시켜 주파수-도메인 신호 (1292) 를 생성할 수도 있다. 주파수-도메인 신호 (1292) 는 주파수-도메인 스테레오 코더 (1209) 에 제공될 수도 있다. 비인과적 시프터 (1402) 는 주파수-도메인 신호 (1290)(예를 들어, 이 예에서 레퍼런스 채널) 를 주파수-도메인 스테레오 코더 (1209) 로 패스할 수도 있다. 최종 시프트 값 (1216) 은 주파수-도메인 신호 (1290) 를 주파수-도메인 신호 (1290) 의 최종 시프트 값들에 기초하여 위상 회전을 바이패스하는 것을 초래할 수도 있는 레퍼런스 채널로서 나타낸다. (이용 가능하다면) 계산된 IPD들에 기초한 다른 위상 회전 동작들이 수행될 수도 있다는 것이 주목되어야 한다. 주파수-도메인 스테레오 코더 (1209) 의 동작들은 도 15 및 도 16 에 대하여 설명된다.
도 15 를 참조하면, 주파수-도메인 스테레오 코더 (1209) 의 제 1 구현 (1209a) 이 도시된다. 주파수-도메인 스테레오 코더 (1209) 의 제 1 구현 (1209a) 은 스테레오 파라미터 추정기 (1502), 사이드-대역 신호 생성기 (1504), 중간-대역 신호 생성기 (1506), 중간-대역 인코더 (1508), 및 사이드-대역 인코더 (1510) 를 포함한다.
주파수-도메인 신호들 (1290, 1292) 은 스테레오 파라미터 추정기 (1502) 에 제공될 수도 있다. 스테레오 파라미터 추정기 (1502) 는 주파수-도메인 신호들 (1290, 1292) 에 기초하여 스테레오 파라미터들 (1262) 을 추출 (예를 들어, 생성) 할 수도 있다. 예시하기 위해 IID(b) 는 대역 (b) 에서의 좌측 채널들의 에너지들 (EL(b)) 및 대역 (b) 에서의 우측 채널들의 에너지들 (ER(b)) 의 함수일 수도 있다. 예를 들어, IID(b) 는 20*log10(EL(b)/ ER(b)) 로서 표현될 수도 있다. 인코더에서 추정 및 송신된 IPD들은 대역 (b) 에서 좌측 채널과 우측 채널 간의 주파수-도메인에서의 위상 차이의 추정을 제공할 수도 있다. 스테레오 파라미터들 (1262) 은 추가적인 (또는 대안의) 파라미터들, 예컨대 ICC들, ITD들 등을 포함할 수도 있다. 스테레오 파라미터들 (1262) 은 도 12 의 제 2 디바이스 (1206) 로 송신되고, 사이드-대역 신호 생성기 (1504) 에 제공되며, 사이드-대역 인코더 (1510) 에 제공될 수도 있다.
사이드-대역 생성기 (1504) 는 주파수-도메인 신호들 (1290, 1292) 에 기초하여 주파수-도메인 사이드대역 신호 (Sfr(b))(1534) 를 생성할 수도 있다. 주파수-도메인 사이드대역 신호 (1534) 는 주파수-도메인 빈들/대역들에서 추정될 수도 있다. 각각의 대역에서, 이득 파라미터 (g) 는 상이하고 인터-채널 레벨 차이들에 기초 (예를 들어, 스테레오 파라미터들 (1262) 에 기초) 할 수도 있다. 예를 들어, 주파수-도메인 사이드대역 신호 (1534) 는 (Lfr(b) - c(b)*Rfr(b))/(1+c(b)) 로서 표현될 수도 있고, 여기서 c(b) 는 ILD(b) 일 수도 있고 또는 ILD(b) 의 함수 (예를 들어, c(b) = 10^(ILD(b)/20)) 일 수도 있다. 주파수-도메인 사이드대역 신호 (1534) 는 사이드-대역 인코더 (1510) 에 제공될 수도 있다.
주파수-도메인 신호들 (1290, 1292) 은 또한, 중간-대역 신호 생성기 (1506) 에 제공될 수도 있다. 일부 구현들에 따르면, 스테레오 파라미터들 (1262) 은 또한, 중간-대역 신호 생성기 (1506) 에 제공될 수도 있다. 중간-대역 신호 생성기 (1506) 는 주파수-도메인 신호들 (1290, 1292) 에 기초하여 주파수-도메인 중간-대역 신호 (Mfr(b))(1530) 를 생성할 수도 있다. 일부 구현들에 따르면, 주파수-도메인 중간-대역 신호 (Mfr(b))(1530) 는 또한, 스테레오 파라미터들 (1262) 에 기초하여 생성될 수도 있다. 주파수-도메인 레퍼런스 채널 (1290, 1292) 에 기초한 중간-대역 신호 (1530) 의 생성의 일부 방법들은 다음과 같다.
Figure pat00009
Figure pat00010
, 여기서 c1(b) 및 c2(b) 은 복소수 값들이다.
일부 구현들에서, 복소수 값들 c1(b) 및 c2(b) 는 스테레오 파라미터들 (162) 에 기초한다. 예를 들어, 중간 사이드 다운믹스의 일 구현에서 IPD들이 추정되는 경우,
Figure pat00011
Figure pat00012
이고, 여기서 i 는 -1 의 제곱근을 나타내는 허수이다.
주파수-도메인 중간-대역 신호 (1530) 는 효율적인 사이드 대역 신호 인코딩의 목적을 위해 중간-대역 인코더 (1508) 및 사이드-대역 인코더 (1510) 에 제공될 수도 있다. 이 구현에서, 중간-대역 인코더 (1508) 는 또한, 중간-대역 신호 (1530) 를 인코딩 전에 임의의 다른 변환/시간-도메인으로 변환할 수도 있다. 예를 들어, 중간-대역 신호 (1530)(Mfr(b)) 는 시간-도메인으로 다시 역-변환될 수도 있고, 또는 코딩을 위해 MDCT 로 변환될 수도 있다.
사이드-대역 인코더 (1510) 는 스테레오 파라미터들 (1262), 주파수-도메인 사이드대역 신호 (1534), 및 주파수-도메인 중간-대역 신호 (1530) 에 기초하여 사이드-대역 비트스트림 (1264) 을 생성할 수도 있다. 중간-대역 인코더 (1508) 는 주파수-도메인 중간-대역 신호 (1530) 에 기초하여 중간-대역 비트스트림 (1266) 을 생성할 수도 있다. 예를 들어, 중간-대역 인코더 (1508) 는 주파수-도메인 중간-대역 신호 (1530) 를 인코딩하여 중간-대역 비트스트림 (1266) 을 생성할 수도 있다.
도 16 을 참조하면, 주파수-도메인 스테레오 코더 (1209) 의 제 2 구현 (1209b) 이 도시된다. 주파수-도메인 스테레오 코더 (1209) 의 제 2 구현 (1209b) 은 스테레오 파라미터 추정기 (1502), 사이드-대역 신호 생성기 (1504), 중간-대역 신호 생성기 (1506), 중간-대역 인코더 (1508), 및 사이드-대역 인코더 (1610) 를 포함한다.
*주파수-도메인 스테레오 코더 (1209) 의 제 2 구현 (1209b) 은 주파수-도메인 스테레오 코더 (1209) 의 제 1 구현 (1209a) 과 실질적으로 유사한 방식으로 동작할 수도 있다. 그러나, 제 2 구현 (1209b) 에서, 중간-대역 비트스트림 (1266) 은 사이드-대역 인코더 (1610) 에 제공될 수도 있다. 대안의 구현에서, 중간-대역 비트스트림에 기초한 양자화된 중간-대역 신호는 사이드-대역 인코더 (1610) 에 제공될 수도 있다. 사이드-대역 인코더 (1610) 는 스테레오 파라미터들 (1262), 주파수-도메인 사이드대역 신호 (1534), 및 중간-대역 비트스트림 (1266) 에 기초하여 사이드-대역 비트스트림 (1264) 을 생성하도록 구성될 수도 있다.
도 17 을 참조하면, 타겟 신호를 제로-패딩하는 예들이 도시된다. 도 17 에 대하여 설명된 제로-패딩 기법들은 도 12 의 인코더 (1214) 에 의해 수행될 수도 있다.
1702 에서, 제 2 오디오 신호 (1232)(예를 들어, 타겟 신호) 의 윈도우가 도시된다. 1702 에서, 인코더 (1214) 는 제 2 오디오 신호 (1232) 의 양 사이드들 상에서 제로-패딩을 수행할 수도 있다. 예를 들어, 윈도우에서 제 2 오디오 신호 (1232) 의 콘텐트는 제로-패딩될 수도 있다. 그러나, 제 2 오디오 신호 (1232)(또는 제 2 오디오 신호 (1232) 의 주파수-도메인 버전) 가 인과적 또는 비인과적 시프팅 (예를 들어, 시간-시프팅 또는 위상-시프팅) 을 겪으면, 윈도우에서 제 2 오디오 신호 (1232) 의 넌-제로 부분들은 회전될 수도 있고 불연속성들이 시간적 도메인에서 발생할 수도 있다. 따라서, 양 사이드들을 제로-패딩하는 것과 연관된 불연속성들을 회피하기 위해, 제로-패딩의 양은 증가될 수도 있다. 그러나, 제로-패딩의 양을 증가시키는 것은 변환 동작들의 복잡성 및 윈도우 사이즈를 증가시킬 수도 있다. 제로-패딩의 양을 증가시키는 것은 또한, 스테레오 또는 멀티-채널 코딩 시스템의 엔드-투-엔드 지연을 증가시킬 수도 있다.
그러나, 1704 에서, 제 2 오디오 신호 (1232) 의 윈도우는 비-대칭적 제로-패딩을 사용하여 도시된다. 비-대칭적 제로-패딩의 일 예는 단면 (single-sided) 제로-패딩이다. 예시된 예에서, 제 2 오디오 신호 (1232) 의 윈도우의 우측 사이드는 상대적으로 큰 양 만큼 제로-패딩되고 제 2 오디오 신호 (1232) 의 윈도우의 좌측 사이드는 상대적으로 작은 양만큼 제로-패딩된다 (또는 제로-패딩되지 않는다). 결과적으로, 제 2 오디오 신호 (1232) 는 불연속성들을 초래하지 않고 상대적으로 큰 양만큼 (우측으로) 시프트될 수도 있다. 부가적으로, 윈도우의 사이즈는 상대적으로 작고, 이것은 변환 동작들과 연관된 감소된 복잡성을 초래할 수도 있다.
1706 에서, 제 2 오디오 신호 (1232) 의 윈도우는 단면 (또는 비-대칭) 제로-패딩을 사용하여 도시된다. 예시된 예에서, 제 2 오디오 신호 (1232) 의 좌측 사이드는 상대적으로 큰 양 만큼 제로-패딩되고 제 2 오디오 신호 (1232) 의 우측 사이드는 제로-패딩되지 않는다. 결과적으로, 제 2 오디오 신호 (1232) 는 불연속성들을 초래하지 않고 상대적으로 큰 양만큼 (좌측으로) 시프트될 수도 있다. 부가적으로, 윈도우의 사이즈는 상대적으로 작고, 이것은 변환 동작들과 연관된 감소된 복잡성을 초래할 수도 있다.
따라서, 도 17 에 대하여 설명된 제로-패딩 기법들은 윈도우의 양 사이드들을 제로-패딩하는 것과는 대조적으로 시프트의 방향에 기초하여 윈도우의 하나의 사이드를 제로-패딩함으로써 인코더에서 타겟 채널의 상대적으로 큰 시프트 (예를 들어, 상대적으로 큰 시간-시프트 또는 상대적으로 큰 위상 회전/시프트) 를 가능하게 할 수도 있다. 예를 들어, 인코더가 타겟 채널을 비인과적으로 시프트하기 때문에, 윈도우의 하나의 사이드는 (1704 및 1706 에서 예시된 바와 같이) 제로-패딩되어 상대적으로 큰 시프트를 용이하게 하고, 윈도우의 사이즈는 듀얼-사이드 제로-패딩을 갖는 윈도우의 사이즈와 동일할 수도 있다. 부가적으로, 디코더는 인코더에서 비인과적 시프트에 응답하여 인과적 시프트를 수행할 수도 있다. 결과적으로, 디코더는 인코더가 상대적으로 큰 인과적 시프트를 용이하게 할 때 윈도우의 반대 사이드를 제로-패딩할 수도 있다.
도 18 을 참조하면, 통신의 방법 (1800) 이 도시된다. 방법 (1800) 은 도 1 의 제 1 디바이스 (104), 도 1 및 도 2 의 인코더 (114), 도 1 내지 도 7 의 주파수-도메인 스테레오 코더 (109), 도 2 및 도 8 의 신호 사전-프로세서 (202), 도 2 및 도 9 의 시프트 추정기 (204), 도 12 의 제 1 디바이스 (1204), 도 12 의 인코더 (1214), 도 12 의 주파수-도메인 시프터 (1208), 도 12 의 주파수-도메인 스테레오 코더 (1209), 또는 이들의 조합에 의해 수행될 수도 있다.
방법 (1800) 은, 1802 에서, 제 1 디바이스에서 인코더-측 윈도윙 스킴을 사용하여 레퍼런스 채널 상에서 제 1 변환 동작을 수행하여 주파수-도메인 레퍼런스 채널을 생성하는 단계를 포함한다. 예를 들어, 도 13 을 참조하면, 변환 회로부 (1304) 는 제 1 오디오 신호 (1230)(예를 들어, 방법 (1800) 에 따른 레퍼런스 채널) 상에서 제 1 변환 동작을 수행하여 주파수-도메인 신호 (1290)(예를 들어, 방법 (1800) 에 따른 주파수-도메인 레퍼런스 채널) 을 생성할 수도 있다.
방법 (1800) 은, 1804 에서, 인코더-측 윈도윙 스킴을 사용하여 타겟 채널 상에서 제 2 변환 동작을 수행하여 주파수-도메인 타겟 채널을 생성하는 단계를 포함한다. 예를 들어, 도 13 을 참조하면, 변환 회로부 (1308) 는 제 2 오디오 신호 (1232)(예를 들어, 방법 (1800) 에 따른 타겟 채널) 상에서 제 2 변환 동작을 수행하여 주파수-도메인 신호 (1350)(예를 들어, 방법 (1800) 에 따른 주파수-도메인 타겟 채널) 을 생성할 수도 있다.
방법 (1800) 은 또한, 1806 에서, 주파수-도메인 레퍼런스 채널과 주파수-도메인 타겟 채널 간의 인터-채널 위상 오정렬 (예를 들어, 위상 시프트 또는 위상 회전) 의 양을 나타내는 불일치 값을 결정하는 단계를 포함한다. 예를 들어, 도 13 을 참조하면, 인터-채널 시프트 추정기 (1310) 는 주파수-도메인 신호 (1290) 와 주파수-도메인 신호 (1350) 간의 위상 시프트의 양을 나타내는 최종 시프트 값 (1216)(예를 들어, 방법 (1800) 에 따른 불일치 값) 을 결정할 수도 있다.
방법 (1800) 은 또한, 1808 에서, 불일치 값에 기초하여 주파수-도메인 타겟 채널을 조정하여 주파수-도메인 조정된 타겟 채널을 생성하는 단계를 포함한다. 예를 들어, 도 13 을 참조하면, 시프터 (1312) 는 최종 시프트 값 (1216) 에 기초하여 주파수-도메인 신호 (1350) 를 조정하여 주파수-도메인 신호 (1292)(예를 들어, 방법 (1800) 에 따른 주파수-도메인 조정된 타겟 채널) 를 생성할 수도 있다.
방법 (1800) 은 또한, 1810 에서, 주파수-도메인 레퍼런스 채널 및 주파수-도메인 조정된 타겟 채널에 기초하여 하나 이상의 스테레오 파라미터들을 추정하는 단계를 포함한다. 예를 들어, 도 15 및 도 16 을 참조하면, 스테레오 파라미터 추정기 (1502) 는 주파수-도메인 채널들 (1290, 1292) 에 기초하여 스테레오 파라미터들 (1262) 을 추정할 수도 있다. 방법 (1800) 은 또한, 1812 에서, 하나 이상의 스테레오 파라미터들을 수신기로 송신하는 단계를 포함한다. 예를 들어, 도 12 를 참조하면, 송신기 (1210) 는 스테레오 파라미터들 (1262) 을 제 2 디바이스 (1206) 의 수신기로 송신할 수도 있다.
일 구현에 따르면, 방법 (1800) 은 주파수-도메인 레퍼런스 채널 및 주파수-도메인 조정된 타겟 채널에 기초하여 주파수-도메인 중간-대역 채널을 생성하는 단계를 포함한다. 예를 들어, 도 15 를 참조하면, 중간-대역 신호 생성기 (1506) 는 주파수-도메인 신호들 (1290, 1292) 에 기초하여 중간-대역 신호 (1530)(예를 들어, 방법 (1800) 에 따른 주파수-도메인 중간-대역 채널) 를 생성할 수도 있다. 방법 (1800) 은 또한, 주파수-도메인 중간-대역 채널을 인코딩하여 중간-대역 비트스트림을 생성할 수도 있다. 예를 들어, 도 15 를 참조하면, 중간-대역 인코더 (1508) 는 주파수-도메인 중간-대역 신호 (1530) 를 인코딩하여 중간-대역 비트스트림 (1266) 을 생성할 수도 있다. 방법 (1800) 은 또한, 중간-대역 비트스트림을 수신기로 송신하는 단계를 포함할 수도 있다. 예를 들어, 도 12 를 참조하면, 송신기 (1210) 는 중간-대역 비트스트림 (1266) 을 제 2 디바이스 (1206) 의 수신기로 송신할 수도 있다.
일 구현에 따르면, 방법 (1800) 은 주파수-도메인 레퍼런스 채널, 주파수-도메인 조정된 타겟 채널, 및 하나 이상의 스테레오 파라미터들에 기초하여 사이드-대역 채널을 생성하는 단계를 포함한다. 예를 들어, 도 15 를 참조하면, 사이드-대역 신호 생성기 (1504) 는 주파수-도메인 신호들 (1290, 1292) 및 스테레오 파라미터들 (1262) 에 기초하여 주파수-도메인 사이드대역 신호 (1534)(예를 들어, 방법 (1800) 에 따른 사이드-대역 채널) 을 생성할 수도 있다. 방법 (1800) 은 또한, 사이드-대역 채널, 주파수-도메인 중간-대역 채널, 및 하나 이상의 스테레오 파라미터들에 기초하여 사이드-대역 비트스트림을 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 15 를 참조하면, 사이드-대역 인코더 (1510) 는 스테레오 파라미터들 (1262), 주파수-도메인 사이드대역 신호 (1534), 및 주파수-도메인 중간-대역 신호 (1530) 에 기초하여 사이드-대역 비트스트림 (1264) 을 생성할 수도 있다. 방법 (1800) 은 또한, 사이드-대역 비트스트림을 수신기로 송신하는 단계를 포함할 수도 있다. 예를 들어, 도 12 를 참조하면, 송신기는 사이드-대역 비트스트림 (1264) 을 제 2 디바이스 (1206) 의 수신기로 송신할 수도 있다.
일 구현에 따르면, 방법 (1800) 은 주파수-도메인 레퍼런스 채널을 다운샘플링함으로써 제 1 다운샘플링된 신호를 생성하고 주파수-도메인 타겟 채널을 다운샘플링함으로써 제 2 다운샘플링된 신호를 생성하는 단계를 포함할 수도 있다. 방법 (1800) 은 또한, 제 2 다운샘플링된 신호에 적용된 복수의 위상 시프트 값들 및 제 1 다운샘플링된 신호에 기초하여 비교 값들을 결정하는 단계를 포함할 수도 있다. 불일치는 비교 값들에 기초할 수도 있다.
다른 구현에 따르면, 방법 (1800) 은 제 2 변환 동작을 수행하기 전에 주파수-도메인 타겟 채널 상에서 제로-패딩 동작을 수행하는 단계를 포함한다. 제로-패딩 동작은 타겟 채널의 윈도우의 2 개의 사이드들 상에서 수행될 수도 있다. 다른 구현에 따르면, 제로-패딩 동작은 타겟 채널의 윈도우의 단일 사이드 상에서 수행될 수도 있다. 다른 구현에 따르면, 제로-패딩 동작은 타겟 채널의 윈도우의 어느 하나의 사이드 상에서 비대칭적으로 수행될 수도 있다. 각각의 구현에서, 동일한 윈도윙 스킴이 또한 레퍼런스 채널에 대해 사용될 수도 있다.
도 18 의 방법 (1800) 은 주파수-도메인 스테레오 코더 (1209) 로 하여금 스테레오 파라미터들 (1262), 사이드-대역 비트스트림 (1264), 및 중간-대역 비트스트림 (1266) 을 생성하게 할 수도 있다. 주파수-도메인 시프터 (1214) 의 주파수-시프팅 기법들은 주파수-도메인 신호 프로세싱과 함께 구현될 수도 있다. 예시하기 위해, 주파수-도메인 시프터 (1214) 는 인코더 (1214) 에서 각각의 프레임에 대해 시프트 (예를 들어, 비인과적 시프트 값) 을 추정하고, 비인과적 시프트 값에 따라 타겟 채널을 시프트 (예를 들어, 조정) 하며, 변환-도메인에서 스테레오 파라미터들 추정을 위해 시프트 조정된 채널들을 사용한다.
도 19 를 참조하면, 제 1 디코더 시스템 (1900) 및 제 2 디코더 시스템 (1950) 이 도시된다. 제 1 디코더 시스템 (1900) 은 디코더 (1902), 시프터 (1904)(예를 들어, 인과적 시프터 또는 비-인과적 시프터), 역 변환 회로부 (1906) 및 역 변환 회로부 (1908) 를 포함한다. 제 2 디코더 시스템 (1950) 은 디코더 (1902), 역 변환 회로부 (1906), 역 변환 회로부 (1908), 및 시프터 (1952)(예를 들어, 인과적 시프터 또는 비인과적 시프터) 를 포함한다. 일 구현에 따르면, 제 1 디코더 시스템 (1900) 은 도 12 의 디코더 (1218) 에 대응할 수도 있다. 다른 구현에 따르면, 제 2 디코더 시스템 (1950) 은 도 12 의 디코더 (1218) 에 대응할 수도 있다.
인코딩된 비트스트림 (1901) 은 디코더 (1902) 에 제공될 수도 있다. 인코딩된 비트스트림 (1902) 은 스테레오 파라미터들 (1262), 사이드-대역 비트스트림 (1264), 중간-대역 비트스트림 (1266), 주파수-도메인 다운믹스 파라미터들 (1268), 최종 시프트 값 (1216) 등을 포함할 수도 있다. 디코더 시스템들 (1900, 1950) 에서 수신된 최종 시프트 값 (1216) 은 채널 표시자 (예를 들어, 타겟 채널 표시자) 와 멀티플렉싱된 비-음의 시프트 값 또는 음 또는 비-음의 시프트를 나타내는 단일의 시프트 값일 수도 있다. 디코더 (1902) 는 인코딩된 비트스트림 (1901) 에 기초하여 중간-대역 채널 및 사이드-대역 채널을 디코딩하도록 구성될 수도 있다. 디코더 (1902) 는 또한, 중간-대역 채널 및 사이드-대역 채널 상에서 DFT 분석을 수행하도록 구성될 수도 있다. 디코더 (1902) 는 스테레오 파라미터들 (1262) 을 디코딩할 수도 있다.
디코더 (1902) 는 인코딩된 비트스트림 (1901) 을 디코딩하여 디코딩된 주파수-도메인 좌측 채널 (1910) 및 디코딩된 주파수-도메인 우측 채널 (1912) 을 생성할 수도 있다. 디코더 (1902) 는 비인과적 시프팅 동작 전에까지 인코더의 역 동작들에 밀접하게 대응하는 동작들을 수행하도록 구성된다. 따라서, 디코딩된 주파수-도메인 좌측 채널 (1910) 및 디코딩된 주파수-도메인 우측 채널 (1912) 은, 일부 구현들에서 인코더 측 주파수 도메인 레퍼런스 채널 (1290) 및 인코더 측 주파수 도메인 조정된 타겟 채널 (1292), 또는 그 반대로 대응하고; 반면에 다른 구현들에서, 디코딩된 주파수-도메인 좌측 채널 (1910) 및 디코딩된 주파수-도메인 우측 채널 (1912) 은 인코더 측 시간 도메인 레퍼런스 채널 (190) 및 인코더 측 시간 도메인 조정된 타겟 채널 (192), 또는 그 반대의 주파수-변환된 버전들에 대응할 수도 있다. 디코딩된 주파수-도메인 좌측 채널 (1910) 및 디코딩된 주파수-도메인 우측 채널 (1912) 은 시프터 (1904)(예를 들어, 인과적 시프터) 에 제공될 수도 있다. 디코더 (1902) 는 인코딩된 비트스트림 (1901) 에 기초하여 최종 시프트 값 (1216) 을 결정할 수도 있다. 최종 시프트 값은 레퍼런스 채널 (예를 들어, 제 1 오디오 신호 (1230) 와 타겟 채널 (예를 들어, 제 2 오디오 신호 (1232)) 간의 위상 시프트를 나타내는 불일치 값일 수도 있다. 최종 시프트 값 (1216) 은 시간적 시프트에 대응할 수도 있다. 최종 시프트 값 (1216) 은 인과적 시프터 (1904) 에 제공될 수도 있다.
시프터 (1904)(예를 들어, 인과적 시프터) 는 최종 시프트 값 (1216) 의 타겟 채널 표시자에 기초하여, 디코딩된 주파수-도메인 좌측 채널 (1910) 이 타겟 채널 또는 레퍼런스 채널인지 여부를 결정하도록 구성될 수도 있다. 유사하게, 시프터 (1904) 는 최종 시프트 값 (1216) 의 타겟 채널 표시자에 기초하여, 디코딩된 주파수-도메인 우측 채널 (1912) 이 타겟 채널 또는 레퍼런스 채널인지 여부를 결정하도록 구성될 수도 있다. 예시의 용이함을 위해, 디코딩된 주파수-도메인 우측 채널 (1912) 은 타겟 채널로서 설명된다. 그러나, 다른 구현들에서 (또는 다른 프레임들에 대해), 디코딩된 주파수-도메인 좌측 채널 (1910) 은 타겟 채널일 수도 있고 이하에 설명된 시프팅 동작들은 디코딩된 주파수-도메인 좌측 채널 (1910) 상에서 수행될 수도 있음이 이해되어야 한다.
시프터 (1904) 는 최종 시프트 값 (1216) 에 기초하여 디코딩된 주파수-도메인 우측 채널 (1912)(예를 들어, 예시된 예에서 타겟 채널) 상에서 주파수-도메인 시프트 동작 (예를 들어, 인과적 시프트 동작) 을 수행하여 조정된 디코딩된 주파수-도메인 타겟 채널 (1914) 을 생성하도록 구성될 수도 있다. 조정된 디코딩된 주파수-도메인 타겟 채널 (1914) 은 역 변환 회로부 (1908) 에 제공될 수도 있다. 인과적 시프터 (1904) 는 최종 시프트 값 (1216) 과 연관된 타겟 채널 표시자에 기초하여 디코딩된 주파수-도메인 좌측 채널 (1910) 상에서 시프팅 동작들을 바이패스할 수도 있다. 예를 들어, 최종 시프트 값 (1216) 은, 타겟 채널 (예를 들어, 주파수-도메인 인과적 시프트를 수행할 채널) 이 디코딩된 주파수-도메인 우측 채널 (1912) 이라는 것을 나타낼 수도 있다. 디코딩된 주파수-도메인 좌측 채널 (1910) 은 역 변환 회로부 (1906) 에 제공될 수도 있다.
역 변환 회로부 (1906) 는 디코딩된 주파수-도메인 좌측 채널 (1910) 상에서 제 1 역 변환 동작을 수행하여 디코딩된 시간-도메인 좌측 채널 (1916) 을 생성하도록 구성될 수도 있다. 일 구현에 따르면, 디코딩된 시간-도메인 좌측 채널 (1916) 은 도 12 의 제 1 출력 신호 (1226) 에 대응할 수도 있다. 역 변환 회로부 (1908) 는 조정된 디코딩된 주파수-도메인 타겟 채널 (1914) 상에서 제 2 역 변환 동작을 수행하여 조정된 디코딩된 시간-도메인 타겟 채널 (1918)(예를 들어, 시간-도메인 우측 채널) 을 생성하도록 구성될 수도 있다. 일 구현에 따르면, 조정된 디코딩된 시간-도메인 타겟 채널 (1918) 은 도 12 의 제 2 출력 신호 (1228) 에 대응할 수도 있다.
제 2 디코더 시스템 (1950) 에서, 디코딩된 주파수-도메인 좌측 채널 (1910) 은 역 변환 회로부 (1906) 에 제공될 수도 있고, 디코딩된 주파수-도메인 우측 채널 (1912) 은 역 변환 회로부 (1908) 에 제공될 수도 있다. 역 변환 회로부 (1906) 는 디코딩된 주파수-도메인 좌측 채널 (1910) 상에서 제 1 역 변환 동작을 수행하여 디코딩된 시간-도메인 좌측 채널 (1962) 을 생성하도록 구성될 수도 있다. 역 변환 회로부 (1908) 는 디코딩된 주파수-도메인 우측 채널 (1912) 상에서 제 2 역 변환 동작을 수행하여 디코딩된 시간-도메인 우측 채널 (1964) 을 생성하도록 구성될 수도 있다. 디코딩된 시간-도메인 좌측 채널 (1962) 및 디코딩된 시간-도메인 우측 채널 (1964) 은 시프터 (1952) 에 제공될 수도 있다.
제 2 디코더 시스템 (1950) 에서, 디코더 (1902) 는 최종 시프트 값 (1216) 을 시프터 (1952) 에 제공할 수도 있다. 최종 시프트 값 (1216) 은 위상 시프트 양에 대응할 수도 있고, (각각의 프레임에 대해) 어느 채널이 레퍼런스 채널이고 어느 채널이 타겟 채널인지 여부를 나타낼 수도 있다. 예를 들어, 시프터 (1904)(예를 들어, 인과적 시프터) 는 최종 시프트 값 (1216) 의 타겟 채널 표시자에 기초하여, 디코딩된 시간-도메인 좌측 채널 (1962) 이 타겟 채널 또는 레퍼런스 채널인지 여부를 결정하도록 구성될 수도 있다. 유사하게, 시프터 (1904) 는 최종 시프트 값 (1216) 의 타겟 채널 표시자에 기초하여, 디코딩된 시간-도메인 우측 채널 (1964) 이 타겟 채널 또는 레퍼런스 채널인지 여부를 결정하도록 구성될 수도 있다. 예시의 용이함을 위해, 디코딩된 시간-도메인 우측 채널 (1964) 은 타겟 채널로서 설명된다. 그러나, 다른 구현들에서 (또는 다른 프레임들에 대해), 디코딩된 시간-도메인 좌측 채널 (1962) 은 타겟 채널일 수도 있고 이하에 설명된 시프팅 동작들은 디코딩된 시간-도메인 좌측 채널 (1962) 상에서 수행될 수도 있음이 이해되어야 한다.
시프터 (1952) 는 최종 시프트 값 (1216) 에 기초하여 디코딩된 시간-도메인 우측 채널 (1964) 상에서 시간-도메인 시프트 동작을 수행하여 조정된 디코딩된 시간-도메인 타겟 채널 (1968) 을 생성할 수도 있다. 시간-도메인 시프트 동작은 비인과적 시프트 또는 인과적 시프트를 포함할 수도 있다. 일 구현에 따르면, 조정된 디코딩된 시간-도메인 타겟 채널 (1968) 은 도 12 의 제 2 출력 신호 (1228) 에 대응할 수도 있다. 시프터 (1952) 는 최종 시프트 값 (1216) 과 연관된 타겟 채널 표시자에 기초하여 디코딩된 시간-도메인 좌측 채널 (1962) 상에서 시프팅 동작들을 바이패스할 수도 있다. 디코딩된 시간-도메인 레퍼런스 채널 (1962) 은 도 12 의 제 1 출력 신호 (1226) 에 대응할 수도 있다.
본원에 설명된 각각의 디코더 (118, 1218) 및 각각의 디코딩 시스템 (1900, 1950) 은 본원에 설명된 각각의 인코더 (114, 1214) 및 각각의 인코딩 시스템과 연관되어 설명될 수도 있다. 비-제한적 예로서, 도 12 의 디코더 (1218) 는 도 1 의 인코더 (114) 로부터 비트스트림을 수신할 수도 있다. 비트스트림을 수신하는 것에 응답하여, 디코더 (1218) 는 주파수-도메인에서 타겟 채널 상에서 위상-회전 동작을 수행하여 인코더 (114) 에서 시간-도메인에서 수행된 시간-시프트 동작을 언두할 수도 있다. 다른 비-제한적 예로서, 도 1 의 디코더 (118) 는 도 12 의 인코더 (1214) 로부터 비트스트림을 수신할 수도 있다. 비트스트림을 수신하는 것에 응답하여, 디코더 (118) 는 시간-도메인에서 타겟 채널 상에서 시간-시프트 동작을 수행하여 인코더 (1214) 에서 주파수-도메인에서 수행된 위상-회전 동작을 언두할 수도 있다.
도 20 을 참조하면, 통신의 제 1 방법 (2000) 및 통신의 제 2 방법 (2020) 이 도시된다. 방법들 (2000, 2020) 은 도 1 의 제 2 디바이스 (106), 도 12 의 제 2 디바이스 (1206), 도 19 의 제 1 디코더 시스템 (1900), 도 19 의 제 2 디코더 시스템 (1950), 또는 이들의 조합에 의해 수행될 수도 있다.
제 1 방법 (2000) 은, 2002 에서, 제 2 디바이스로부터 인코딩된 비트스트림을 제 1 디바이스에서 수신하는 단계를 포함한다. 인코딩된 비트스트림은 제 2 디바이스에서 캡처된 레퍼런스 채널과 제 2 디바이스에서 캡처된 타겟 채널 간의 시프트 양을 나타내는 불일치 값을 포함할 수도 있다. 시프트 양은 시간적 시프트에 대응할 수도 있다. 예를 들어, 도 19 를 참조하면, 디코더 (1902) 는 인코딩된 비트스트림 (1901) 을 수신할 수도 있다. 인코딩된 비트스트림 (1901) 은 레퍼런스 채널과 타겟 채널 간의 시프트 양을 나타내는 불일치 값 (예를 들어, 최종 시프트 값 (1216)) 을 포함할 수도 있다. 시프트 양은 시간적 시프트에 대응할 수도 있다.
제 1 방법 (2000) 은 또한, 2004 에서, 인코딩된 비트스트림을 디코딩하여 디코딩된 주파수-도메인 좌측 채널 및 디코딩된 주파수-도메인 우측 채널을 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 19 를 참조하면, 디코더 (1902) 는 인코딩된 비트스트림 (1901) 을 디코딩하여 디코딩된 주파수-도메인 좌측 채널 (1910) 및 디코딩된 주파수-도메인 우측 채널 (1912) 을 생성할 수도 있다.
방법 (2000) 은 또한, 2006 에서, 불일치 값과 연관된 타겟 채널 표시자에 기초하여 디코딩된 주파수-도메인 좌측 채널 또는 디코딩된 주파수-도메인 우측 채널 중 하나를 디코딩된 주파수-도메인 타겟 채널로서 그리고 다른 하나를 디코딩된 주파수-도메인 레퍼런스 채널로서 맵핑하는 단계를 포함할 수도 있다. 예를 들어, 도 19 를 참조하면, 시프터 (1904) 는 디코딩된 주파수-도메인 좌측 채널 (1910) 을 디코딩된 주파수-도메인 레퍼런스 채널에 그리고 디코딩된-주파수 도메인 우측 채널 (1912) 을 디코딩된 주파수-도메인 타겟 채널에 맵핑한다. 다른 구현들에서 또는 다른 프레임들에 대해, 시프터 (1904) 는 디코딩된 주파수-도메인 좌측 채널 (1910) 을 디코딩된 주파수-도메인 타겟 채널에 그리고 디코딩된 주파수-도메인 우측 채널 (1912) 을 디코딩된 주파수-도메인 레퍼런스 채널에 맵핑할 수도 있다는 것이 이해되어야 한다.
제 1 방법 (2000) 은 또한, 2008 에서, 불일치 값에 기초하여 디코딩된 주파수-도메인 타겟 채널 상에서 주파수-도메인 인과적 시프트 동작을 수행하여 조정된 디코딩된 주파수-도메인 타겟 채널을 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 19 를 참조하면, 시프터 (1904) 는 최종 시프트 값 (1216) 에 기초하여 디코딩된 주파수-도메인 우측 채널 (1912)(예를 들어, 디코딩된 주파수-도메인 타겟 채널) 상에서 주파수-도메인 인과적 시프트 동작을 수행하여 조정된 디코딩된 주파수-도메인 타겟 채널 (1914) 을 생성할 수도 있다.
방법 (2000) 은 또한, 2010 에서, 디코딩된 주파수-도메인 레퍼런스 채널 상에서 제 1 역 변환 동작을 수행하여 디코딩된 시간-도메인 레퍼런스 채널을 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 19 를 참조하면, 역 변환 회로부 (1906) 는 디코딩된 주파수-도메인 좌측 채널 (1910) 상에서 제 1 역 변환 동작을 수행하여 디코딩된 시간-도메인 좌측 채널 (1916) 을 생성할 수도 있다.
제 1 방법 (2000) 은 또한, 2012 에서, 조정된 디코딩된 주파수-도메인 타겟 채널 상에서 제 2 역 변환 동작을 수행하여 조정된 디코딩된 시간-도메인 타겟 채널을 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 19 를 참조하면, 역 변환 회로부 (1908) 는 조정된 디코딩된 주파수-도메인 타겟 채널 (1914) 상에서 제 2 역 변환 동작을 수행하여 조정된 디코딩된 시간-도메인 타겟 채널 (1918) 을 생성할 수도 있다.
제 2 방법 (2020) 은, 2022 에서, 제 2 디바이스로부터 인코딩된 비트스트림을 수신하는 단계를 포함한다. 인코딩된 비트스트림은 시간적 불일치 값 및 스테레오 파라미터들을 포함할 수도 있다. 시간적 불일치 값 및 스테레오 파라미터들은 제 2 디바이스에서 캡처된 레퍼런스 채널 및 제 2 디바이스에서 캡처된 타겟 채널에 기초하여 결정된다. 예를 들어, 도 19 를 참조하면, 디코더 (1902) 는 인코딩된 비트스트림 (1901) 을 수신할 수도 있다. 인코딩된 비트스트림 (1901) 은 시간적 불일치 값 (예를 들어, 최종 시프트 값 (1216)) 및 스테레오 파라미터들 (1262)(예를 들어, IPD들 및 ILD들) 을 포함할 수도 있다.
제 2 방법 (2020) 은 또한, 2024 에서, 인코딩된 비트스트림을 디코딩하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 19 를 참조하면, 디코더 (1902) 는 인코딩된 비트스트림 (1901) 을 디코딩하여 디코딩된 주파수-도메인 좌측 채널 (1910) 및 디코딩된 주파수-도메인 우측 채널 (1912) 을 생성할 수도 있다.
제 2 방법 (2020) 은 또한, 2026 에서, 제 1 주파수-도메인 출력 신호 상에서 제 1 역 변환 동작을 수행하여 제 1 시간-도메인 신호를 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 19 를 참조하면, 역 변환 회로부 (1906) 는 디코딩된 주파수-도메인 좌측 채널 (1910) 상에서 제 1 역 변환 동작을 수행하여 디코딩된 시간-도메인 좌측 채널 (1962) 을 생성할 수도 있다.
제 2 방법 (2020) 은 또한, 2028 에서, 제 2 주파수-도메인 출력 신호 상에서 제 2 역 변환 동작을 수행하여 제 2 시간-도메인 신호를 생성하는 단계를 포함할 수도 있다. 예를 들어, 도 19 를 참조하면, 역 변환 회로부 (1908) 는 디코딩된 주파수-도메인 우측 채널 (1912) 상에서 제 2 역 변환 동작을 수행하여 디코딩된 시간-도메인 우측 채널 (1964) 을 생성할 수도 있다.
제 2 방법 (2020) 은 또한, 2030 에서, 시간적 불일치 값에 기초하여 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 하나를 디코딩된 타겟 채널로서 그리고 다른 하나를 디코딩된 레퍼런스 채널로서 맵핑하는 단계를 포함할 수도 있다. 예를 들어, 도 19 를 참조하면, 시프터 (1952) 는 디코딩된 시간-도메인 좌측 채널 (1962) 을 디코딩된 시간-도메인 레퍼런스 채널로서 맵핑하고 디코딩된 시간-도메인 우측 채널 (1964) 을 디코딩된 시간-도메인 주파수 채널로서 맵핑한다. 다른 구현들에서 또는 다른 프레임들에 대해, 시프터 (1904) 는 디코딩된 시간-도메인 좌측 채널 (1962) 을 디코딩된 시간-도메인 타겟 채널에 그리고 디코딩된 시간-도메인 우측 채널 (1964) 을 디코딩된 시간-도메인 레퍼런스 채널에 맵핑할 수도 있다는 것이 이해되어야 한다.
제 2 방법 (2020) 은 또한, 2032 에서, 시간적 불일치 값에 기초하여 디코딩된 타겟 채널 상에서 인과적 시간-도메인 시프트 동작을 수행하여 조정된 디코딩된 타겟 채널을 생성하는 단계를 포함할 수도 있다. 디코딩된 타겟 채널 상에서 수행된 인과적 시간-도메인 시프트 동작은 시간적 불일치 값의 절대 값에 기초할 수도 있다. 예를 들어, 도 19 를 참조하면, 시프터 (1952) 는 최종 시프트 값 (1216) 에 기초하여 디코딩된 시간-도메인 우측 채널 (1964) 상에서 시간-도메인 시프트 동작을 수행하여 조정된 디코딩된 시간-도메인 타겟 채널 (1968) 을 생성할 수도 있다. 시간-도메인 시프트 동작은 비인과적 시프트 또는 인과적 시프트를 포함할 수도 있다.
제 2 방법 (2020) 은 또한, 2032 에서, 제 1 출력 신호 및 제 2 출력 신호를 출력하는 단계를 포함할 수도 있다. 제 1 출력 신호는 디코딩된 레퍼런스 채널에 기초할 수도 있고 제 2 출력 신호는 조정된 디코딩된 타겟 채널에 기초할 수도 있다. 예를 들어, 도 12 를 참조하면, 제 2 디바이스는 제 1 출력 신호 (1226) 및 제 2 출력 신호 (1228) 를 출력할 수도 있다.
제 2 방법 (2020) 에 따르면, 시간적 불일치 값 및 스테레오 파라미터들은 인코더-측 윈도윙 스킴을 사용하여 제 2 디바이스 (예를 들어, 인코더-측 디바이스) 에서 결정될 수도 있다. 인코더-측 윈도윙 스킴은 제 1 오버랩 사이즈를 갖는 제 1 윈도우들을 사용할 수도 있고, 디코더 (1218) 에서 디코더-측 윈도윙 스킴은 제 2 오버랩 사이즈를 갖는 제 2 윈도우들을 사용할 수도 있다. 제 1 오버랩 사이즈는 제 2 오버랩 사이즈와는 상이하다. 예를 들어, 제 2 오버랩 사이즈는 제 1 오버랩 사이즈보다 더 작다. 인코더-측 윈도윙 스킴의 제 1 윈도우들은 제로-패딩의 제 1 양을 갖고, 디코더-측 윈도윙 스킴의 제 2 윈도우들은 제로-패딩의 제 2 양을 갖는다. 제로-패딩의 제 1 양은 제로-패딩의 제 2 양과는 상이하다. 예를 들어, 제로-패딩의 제 2 양은 제로-패딩의 제 1 양보다 작다.
일부 구현들에 따르면, 제 2 방법 (2020) 은 또한, 인코딩된 비트스트림을 디코딩하여 디코딩된 중간 신호를 생성하고 디코딩된 중간 신호 상에서 변환 동작을 수행하여 주파수-도메인 디코딩된 중간 신호를 생성하는 단계를 포함한다. 제 2 방법 (2020) 은 또한, 주파수-도메인 디코딩된 중간 신호 상에서 업-믹스 동작을 수행하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하는 단계를 포함할 수도 있다. 스테레오 파라미터들은 업-믹스 동작 동안 주파수-도메인 디코딩된 중간 신호에 적용된다. 스테레오 파라미터들은 제 2 디바이스에서 레퍼런스 채널 및 타겟 채널에 기초하여 추정되는 ILD 값들의 세트 및 IPD 값들의 세트를 포함할 수도 있다. ILD 값들의 세트 및 IPD 값들의 세트는 디코더-측 수신기로 송신된다.
도 21 을 참조하면, 디바이스 (예를 들어, 무선 통신 디바이스) 의 특정의 예시적인 예의 블록도가 도시되고, 일반적으로 2100 으로 지정된다. 다양한 실시형태들에서, 디바이스 (2100) 는 도 21 에 예시된 것보다 더 적은 또는 더 많은 컴포넌트들을 가질 수도 있다. 예시적 실시형태에서, 디바이스 (2100) 은 도 1 의 제 1 디바이스 (104), 도 1 의 제 2 디바이스 (106), 도 12 의 제 1 디바이스 (1204), 도 12 의 제 2 디바이스 (1206), 또는 이들의 조합에 대응할 수도 있다. 예시적인 실시형태에서, 디바이스 (2100) 는 도 1 내지 도 20 의 시스템들 및 방법들을 참조하여 설명된 하나 이상의 동작들을 수행할 수도 있다.
특정 실시형태에서, 디바이스 (2100) 는 프로세서 (2106)(예를 들어, 중앙 처리 장치 (CPU)) 를 포함한다. 디바이스 (2100) 는 하나 이상의 추가적인 프로세서들 (2110)(예를 들어, 하나 이상의 디지털 신호 프로세서 (DSP)들) 을 포함할 수도 있다. 프로세서들 (2110) 은 매체 (예를 들어, 스피치 및 음악) 코더-디코더 (CODEC)(2108), 및 에코 소거기 (2112) 를 포함할 수도 있다. 매체 CODEC (2108) 은 디코더 (118), 인코더 (114), 디코더 (1218), 인코더 (1214), 또는 이들의 조합을 포함할 수도 있다. 인코더 (114) 는 시간적 등화기 (108) 를 포함할 수도 있다.
디바이스 (2100) 는 메모리 (153) 및 CODEC (2134) 을 포함할 수도 있다. 매체 CODEC (2108) 이 프로세서들 (2110) 의 컴포넌트 (예를 들어, 전용 회로부 및/또는 실행 가능한 프로그래밍 코드) 로서 예시되지만, 다른 실시형태들에서 매체 CODEC (2108) 의 하나 이상의 컴포넌트들, 예컨대 디코더 (118), 인코더 (114), 디코더 (1218), 인코더 (1214), 또는 이들의 조합이 프로세서 (2106), CODEC (2134), 다른 프로세싱 컴포넌트, 또는 이들의 조합에 포함될 수도 있다.
디바이스 (2100) 는 안테나 (2142) 에 커플링된 송신기 (110) 를 포함할 수도 있다. 디바이스 (2100) 는 디스플레이 제어기 (2126) 에 커플링된 디스플레이 (2128) 를 포함할 수도 있다. 하나 이상의 스피커들 (2148) 이 CODEC (2134) 에 커플링될 수도 있다. 하나 이상의 마이크로폰들 (2146) 은, 입력 인터페이스(들)(112) 을 통해 CODEC (2134) 에 커플링될 수도 있다. 특정 구현에서, 스피커들 (2148) 은 도 1 의 제 1 라우드스피커 (142), 제 2 라우드스피커 (144), 또는 이들의 조합을 포함할 수도 있다. 특정 구현에서, 마이크로폰들 (2146) 은 도 1 의 제 1 마이크로폰 (146), 제 2 마이크로폰 (148), 도 12 의 제 1 마이크로폰 (1246), 도 12 의 제 2 마이크로폰 (1248), 또는 이들의 조합을 포함할 수도 있다. CODEC (2134) 은 디지털-대-아날로그 컨버터 (DAC)(2102) 및 아날로그-대-디지털 컨버터 (ADC)(2104) 를 포함할 수도 있다.
메모리 (153) 는 도 1 내지 도 20 을 참조하여 설명된 하나 이상의 동작들을 수행하도록, 프로세서 (2106), 프로세서들 (2110), CODEC (2134), 디바이스 (2100) 의 다른 프로세싱 유닛, 또는 이들의 조합에 의해 실행 가능한 명령들 (2160) 을 포함할 수도 있다. 메모리 (153) 는 분석 데이터 (191) 를 저장할 수도 있다.
디바이스 (2100) 의 하나 이상의 컴포넌트들은 하나 이상의 태스크들, 또는 이들의 조합을 수행하기 위한 명령들을 실행하는 프로세서에 의해 전용 하드웨어 (예를 들어, 회로부) 를 통해 구현될 수도 있다. 일 예로서, 메모리 (153) 또는 프로세서 (2106) 의 하나 이상의 컴포넌트들, 프로세서들 (2110), 및/또는 CODEC (2134) 은 메모리 디바이스, 예컨대 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 트랜스퍼 MRAM (STT-MRAM), 플래시 메모리, 판독-전용 메모리 (ROM), 프로그래머블 판독-전용 메모리 (PROM), 소거 가능한 프로그래머블 판독-전용 메모리 (EPROM), 전기적으로 소거 가능한 프로그래머블 판독-전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈형 디스크, 또는 컴팩트 디스크 판독-전용 메모리 (CD-ROM) 일 수도 있다. 메모리 디바이스는, 컴퓨터 (예를 들어, CODEC (2134) 내의 프로세서, 프로세서 (2106), 및/또는 프로세서들 (2110)) 에 의해 실행되는 경우, 컴퓨터로 하여금 도 1 내지 도 20 을 참조하여 설명된 하나 이상의 동작들을 수행하게 하는 명령들 (예를 들어, 명령들 (2160)) 을 포함할 수도 있다. 일 예로서, 메모리 (153) 또는 프로세서 (2106) 의 하나 이상의 컴포넌트들, 프로세서들 (2110), 및/또는 CODEC (2134) 은, 컴퓨터 (예를 들어, CODEC (2134) 내의 프로세서, 프로세서 (2106), 및/또는 프로세서들 (2110)) 에 의해 실행되는 경우, 컴퓨터로 하여금 도 1 내지 도 20 을 참조하여 설명된 하나 이상의 동작들을 수행하게 하는 명령들 (예를 들어, 명령들 (2160)) 을 포함하는 비-일시적 컴퓨터 판독가능 매체일 수도 있다.
특정 실시형태에서, 디바이스 (2100) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (예를 들어, 이동국 모뎀 (MSM)(2122)) 에 포함될 수도 있다. 특정 실시형태에서, 프로세서 (2106), 프로세서들 (2110), 디스플레이 제어기 (2126), 메모리 (153), CODEC (2134), 및 송신기 (110) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (2122) 에 포함된다. 특정 실시형태에서, 입력 디바이스 (2130), 예컨대 터치스크린 및/또는 키패드, 및 전력 공급기 (2144) 는 시스템-온-칩 디바이스 (2122) 에 커플링된다. 더욱이, 특정 실시형태에서, 도 21 에 예시된 바와 같이, 디스플레이 (2128), 입력 디바이스 (2130), 스피커들 (2148), 마이크로폰 (2146), 안테나 (2142), 및 전력 공급기 (2144) 는 시스템-온-칩 디바이스 (2122) 외부에 있다. 그러나, 디스플레이 (2128), 입력 디바이스 (2130), 스피커들 (2148), 마이크로폰들 (2146), 안테나 (2142), 및 전력 공급기 (2144) 각각은 시스템-온-칩 디바이스 (2122) 의 컴포넌트, 예컨대 인터페이스 또는 제어기에 커플링될 수 있다.
디바이스 (2100) 는 무선 전화기, 이동 통신 디바이스, 이동 전화, 스마트폰, 셀룰러 폰, 랩톱 컴퓨터, 데스크톱 컴퓨터, 컴퓨터, 태블릿 컴퓨터, 셋톱 박스, 개인 휴대 정보단말 (PDA), 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 음악 플레이어, 라디오, 비디오 플레이어, 엔터테인먼트 유닛, 통신 디바이스, 고정된 로케이션 데이터 유닛, 퍼스널 미디어 플레이어, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 튜너, 카메라, 네비게이션 디바이스, 디코더 시스템, 인코더 시스템, 또는 이들의 임의의 조합을 포함할 수도 있다.
개시된 구현들과 연관되어, 장치는 제 2 디바이스로부터 인코딩된 비트스트림을 수신하기 위한 수단을 포함한다. 인코딩된 비트스트림은 시간적 불일치 값 및 스테레오 파라미터들을 포함한다. 시간적 불일치 값 및 스테레오 파라미터들은 제 2 디바이스에서 캡처된 레퍼런스 채널 및 제 2 디바이스에서 캡처된 타겟 채널에 기초하여 결정된다. 예를 들어, 수신하기 위한 수단은 도 12 의 제 2 디바이스 (1218), 도 12 의 디코더 (1218), 도 19 의 디코더 (1902), 하나 이상의 다른 디바이스들, 회로들, 또는 모듈들을 포함할 수도 있다.
장치는 또한, 인코딩된 비트스트림을 디코딩하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하기 위한 수단을 포함한다. 예를 들어, 디코딩하기 위한 수단은 도 12 의 제 2 디바이스 (1218), 도 12 의 디코더 (1218), 도 19 의 역 변환 유닛 (1906), 도 21 의 CODEC (2134), 도 21 의 프로세서 (2106), 도 21 의 프로세서 (2110), 하나 이상의 다른 디바이스들, 회로들, 또는 모듈들을 포함할 수도 있다.
장치는 또한, 제 1 주파수-도메인 출력 신호 상에서 제 1 역 변환 동작을 수행하여 제 1 시간-도메인 신호를 생성하기 위한 수단을 포함한다. 예를 들어, 수행하기 위한 수단은 도 12 의 제 2 디바이스 (1218), 도 12 의 디코더 (1218), 도 19 의 디코더 (1902), 도 21 의 CODEC (2134), 도 21 의 프로세서 (2106), 도 21 의 프로세서 (2110), 하나 이상의 다른 디바이스들, 회로들, 또는 모듈들을 포함할 수도 있다.
장치는 또한, 제 2 주파수-도메인 출력 신호 상에서 제 2 역 변환 동작을 수행하여 제 2 시간-도메인 신호를 생성하기 위한 수단을 포함한다. 예를 들어, 수행하기 위한 수단은 도 12 의 제 2 디바이스 (1218), 도 12 의 디코더 (1218), 도 19 의 역 변환 유닛 (1908), 도 21 의 CODEC (2134), 도 21 의 프로세서 (2106), 도 21 의 프로세서 (2110), 하나 이상의 다른 디바이스들, 회로들, 또는 모듈들을 포함할 수도 있다.
장치는 또한, 제 1 시간-도메인 신호 또는 제 2 시간-도메인 신호 중 하나를 디코딩된 타겟 채널로서 그리고 다른 하나를 디코딩된 레퍼런스 채널로서 맵핑하기 위한 수단을 포함한다. 예를 들어, 맵핑하기 위한 수단은 도 12 의 제 2 디바이스 (1218), 도 12 의 디코더 (1218), 도 19 의 시프터 (1952), 도 21 의 CODEC (2134), 도 21 의 프로세서 (2106), 도 21 의 프로세서 (2110), 하나 이상의 다른 디바이스들, 회로들, 또는 모듈들을 포함할 수도 있다.
장치는 또한, 시간적 불일치 값에 기초하여 디코딩된 타겟 채널 상에서 인과적 시간-도메인 시프트 동작을 수행하여 조정된 디코딩된 타겟 채널을 생성하기 위한 수단을 포함한다. 예를 들어, 수행하기 위한 수단은 도 12 의 제 2 디바이스 (1218), 도 12 의 디코더 (1218), 도 19 의 시프터 (1952), 도 21 의 CODEC (2134), 도 21 의 프로세서 (2106), 도 21 의 프로세서 (2110), 하나 이상의 다른 디바이스들, 회로들, 또는 모듈들을 포함할 수도 있다.
장치는 또한, 제 1 출력 신호 및 제 2 출력 신호를 출력하기 위한 수단을 포함한다. 제 1 출력 신호는 디코딩된 레퍼런스 채널에 기초하고 제 2 출력 신호는 조정된 디코딩된 타겟 채널에 기초한다. 예를 들어, 출력하기 위한 수단은 도 12 의 제 2 디바이스 (1218), 도 12 의 디코더 (1218), 도 21 의 CODEC (2134), 하나 이상의 다른 디바이스들, 회로들, 또는 모듈들을 포함할 수도 있다.
도 22 를 참조하면, 기지국 (2200) 의 특정 예시적 예의 블록도가 도시된다. 다양한 구현들에서, 기지국 (2200) 은 도 22 에 예시된 것보다 더 많은 컴포넌트들 또는 더 적은 컴포넌트들을 가질 수도 있다. 예시적인 예에서, 기지국 (2200) 은 도 1 의 제 1 디바이스 (104), 제 2 디바이스 (106), 도 2 의 제 1 디바이스 (1204), 도 12 의 제 2 디바이스 (1206), 또는 이들의 조합을 포함할 수도 있다. 예시적 예에서, 기지국 (2200) 는 본원에 설명된 방법들에 따라 동작할 수도 있다.
기지국 (2200) 은 무선 통신 시스템의 부분일 수도 있다. 무선 통신 시스템은 다수의 기지국들 및 다수의 무선 디바이스들을 포함할 수도 있다. 무선 통신 시스템은 롱 텀 에볼루션 (LTE) 시스템, 코드 분할 다중 액세스 (CDMA) 시스템, 모바일 통신용 글로벌 시스템 (GSM) 시스템, 무선 로컬 영역 네트워크 (WLAN) 시스템, 또는 일부 다른 무선 시스템일 수도 있다. CDMA 시스템은 광대역 CDMA (WCDMA), CDMA 1X, 에볼루션-데이터 최적화 (EVDO), 시간 분할 동기식 CDMA (TD-SCDMA), 또는 CDMA 의 일부 다른 버전을 구현할 수도 있다.
무선 디바이스들은 또한, 사용자 장비 (UE), 이동국, 단말기, 액세스 단말기, 가입자 유닛, 스테이션 등으로서 지칭될 수도 있다. 무선 디바이스들은 셀룰러 폰, 스마트폰, 태블릿, 무선 모뎀, 개인 휴대 정보단말 (PDA), 핸드헬드 디바이스, 랩톱 컴퓨터, 스마트북, 넷북, 태블릿, 코드리스 폰, 무선 로컬 루프 (WLL) 스테이션, 블루투스 디바이스 등을 포함할 수도 있다. 무선 디바이스들은 도 21 의 디바이스 (2100) 를 포함 또는 이에 대응할 수도 있다.
다양한 기능들은 메시지들 및 데이터 (예를 들어, 오디오 데이터) 를 전송 및 수신하는 것과 같이, 기지국 (2200) 의 하나 이상의 컴포넌트들에 의해 (및/또는 도시되지 않은 다른 컴포넌트들에서) 수행될 수도 있다. 특정 예에서, 기지국 (2200) 은 프로세서 (2206)(예를 들어, CPU) 를 포함한다. 기지국 (2200) 은 트랜스코더 (2210) 를 포함할 수도 있다. 트랜스코더 (2210) 는 오디오 CODEC (2208)(예를 들어, 스피치 및 음악 CODEC) 을 포함할 수도 있다. 예를 들어, 트랜스코더 (2210) 는 오디오 CODEC (2208) 의 동작들을 수행하도록 구성된 하나 이상의 컴포넌트들 (예를 들어, 회로부) 을 포함할 수도 있다. 다른 예로서, 트랜스코더 (2210) 는 오디오 CODEC (2208) 의 동작들을 수행하기 위한 하나 이상의 컴퓨터-판독가능 명령들을 실행하도록 구성된다. 오디오 CODEC (2208) 은 트랜스코더 (2210) 의 컴포넌트로서 예시되지만, 다른 예들에서 오디오 CODEC (2208) 의 하나 이상의 컴포넌트들은 프로세서 (2206), 다른 프로세싱 컴포넌트, 또는 이들의 조합에 포함될 수도 있다. 예를 들어, 디코더 (1218)(예를 들어, 보코더 디코더) 는 수신기 데이터 프로세서 (2264) 에 포함될 수도 있다. 다른 예로서, 인코더 (1214)(예를 들어, 보코더 인코더) 는 송신 데이터 프로세서 (2282) 에 포함될 수도 있다.
트랜스코더 (2210) 는 2 이상의 네트워크들 간에 메시지들 및 데이터를 트랜스코딩하도록 기능할 수도 있다. 트랜스코더 (2210) 는 메시지 및 오디오 데이터를 제 1 포맷 (예를 들어, 디지털 포맷) 에서 제 2 포맷으로 컨버팅하도록 구성된다. 예시하기 위해, 디코더 (1218) 는 제 1 포맷을 갖는 인코딩된 신호들을 디코딩할 수도 있고 인코더 (1214) 는 디코딩된 신호들을 제 2 포맷을 갖는 인코딩된 신호들로 인코딩할 수도 있다. 부가적으로 또는 대안으로, 트랜스코더 (2210) 는 데이터 레이트 적응을 수행하도록 구성된다. 예를 들어, 트랜스코더 (2210) 는 오디오 데이터의 포맷을 변화시키지 않고 데이터 레이트를 다운컨버팅 또는 데이터 레이트를 업컨버팅할 수도 있다. 예시하기 위해, 트랜스코더 (2210) 는 64 kbit/s 신호들을 16 kbit/s 신호들로 다운컨버팅할 수도 있다. 오디오 CODEC (2208) 은 인코더 (1214) 및 디코더 (1218) 를 포함할 수도 있다.
기지국 (2200) 은 메모리 (2232) 를 포함할 수도 있다. 메모리 (2232), 예컨대 컴퓨터 판독가능 저장 디바이스는 명령들을 포함할 수도 있다. 명령들은 본원에 설명된 방법들을 수행하도록 프로세서 (2206), 트랜스코더 (2210), 또는 이들의 조합에 의해 실행 가능한 하나 이상의 명령들을 포함할 수도 있다. 기지국 (2200) 은 안테나들의 어레이에 커플링된, 다수의 송신기들 및 수신기들 (예를 들어, 트랜시버들), 예컨대 제 1 트랜시버 (2252) 및 제 2 트랜시버 (2254) 를 포함할 수도 있다. 안테나들의 어레이는 제 1 안테나 (2242) 및 제 2 안테나 (2244) 를 포함할 수도 있다. 안테나들의 어레이는 하나 이상의 무선 디바이스들, 예컨대 도 21 의 디바이스 (2100) 와 무선으로 통신하도록 구성된다. 예를 들어, 제 2 안테나 (2244) 는 무선 디바이스로부터 데이터 스트림 (2214)(예를 들어, 비트스트림) 을 수신할 수도 있다. 데이터 스트림 (2214) 은 메시지들, 데이터 (예를 들어, 인코딩된 스피치 데이터), 또는 이들의 조합을 포함할 수도 있다.
기지국 (2200) 은 네트워크 접속 (2260), 예컨대 백홀 접속을 포함할 수도 있다. 네트워크 접속 (2260) 은 무선 통신 네트워크의 하나 이상의 기지국들 또는 코어 네트워크와 통신하도록 구성된다. 예를 들어, 기지국 (2200) 은 네트워크 접속 (2260) 을 통해 코어 네트워크로부터 제 2 데이터 스트림 (예를 들어, 메시지들 또는 오디오 데이터) 을 수신할 수도 있다. 기지국 (2200) 은 제 2 데이터 스트림을 프로세싱하여 메시지들 또는 오디오 데이터를 생성하고 메시지들 또는 오디오 데이터를 안테나들의 어레이의 하나 이상의 안테나들을 통해 하나 이상의 무선 디바이스에 또는 네트워크 접속 (2260) 을 통해 다른 기지국에 제공할 수도 있다. 특정 구현에서, 네트워크 접속 (2260) 은 예시적인, 비-제한의 예로서 광역 네트워크 (WAN) 접속일 수도 있다. 일부 구현들에서, 코어 네트워크는 공중 전화 교환망 (PSTN), 패킷 백본 네트워크, 또는 양자 모두를 포함하거나 또는 이에 대응할 수도 있다.
기지국 (2200) 은 네트워크 접속 (2260) 및 프로세서 (2206) 에 커플링되는 매체 게이트웨이 (2270) 를 포함할 수도 있다. 매체 게이트웨이 (2270) 는 상이한 텔레통신 기술들의 매체 스트림들 간에 컨버팅하도록 구성된다. 예를 들어, 매체 게이트웨이 (2270) 는 상이한 송신 프로토콜들, 상이한 코딩 스킴들, 또는 양자 모두 간에 컨버팅할 수도 있다. 예시하기 위해, 매체 게이트웨이 (2270) 는, 예시적인 비-제한의 예로서, PCM 신호들로부터 실시간 이송 프로토콜 (RTP) 신호들로 컨버팅할 수도 있다. 매체 게이트웨이 (2270) 는 패킷 교환 네트워크들 (예를 들어, VoIP (Voice Over Internet Protocol) 네트워크, IP 멀티미디어 서브시스템 (IMS), 제 4 세대 (4G) 무선 네트워크, 예컨대 LTE, WiMax, 및 UMB, 등), 회선 교환 네트워크들 (예를 들어, PSTN), 및 하이브리드 네트워크들 (예를 들어, 제 2 세대 (2G) 무선 네트워크, 예컨대 GSM, GPRS, 및 EDGE, 제 3 세대 (3G) 무선 네트워크, 예컨대 WCDMA, EV-DO, 및 HSPA, 등) 사이에서 데이터를 컨버팅할 수도 있다.
부가적으로, 매체 게이트웨이 (2270) 는 트랜스코더, 예컨대 트랜스코더 (2210) 를 포함할 수도 있고, 코덱들이 호환 가능한 경우 데이터를 트랜스코딩하도록 구성된다. 예를 들어, 매체 게이트웨이 (2270) 는 예시적인, 비-제한의 예로서 적응적 멀티-레이트 (AMR) 코덱과 G.711 코덱 사이에서 트랜스코딩할 수도 있다. 매체 게이트웨이 (2270) 는 라우터 및 복수의 물리적 인터페이스들을 포함할 수도 있다. 일부 구현들에서, 매체 게이트웨이 (2270) 는 또한 제어기 (미도시) 를 포함할 수도 있다. 특정 구현에서, 매체 게이트웨이 제어기는 매체 게이트웨이 (2270) 외부, 기지국 (2200) 외부, 또는 양자 모두에 있을 수도 있다. 매체 게이트웨이 제어기는 다수의 매체 게이트웨이들의 동작들을 제어 및 코디네이트할 수도 있다. 매체 게이트웨이 (2270) 는 매체 게이트웨이 제어기로부터 제어 신호들을 수신할 수도 있고 상이한 송신 기술들 간의 브리지로 기능할 수도 있으며 엔드-사용자 능력들 및 접속들에 서비스를 추가할 수도 있다.
기지국 (2200) 은 트랜시버들 (2252, 2254), 수신기 데이터 프로세서 (2264), 및 프로세서 (2206) 에 커플링되는 복조기 (2262) 를 포함할 수도 있고, 수신기 데이터 프로세서 (2264) 는 프로세서 (2206) 에 커플링될 수도 있다. 복조기 (2262) 는 트랜시버들 (2252, 2254) 로부터 수신된 변조된 신호들을 복조하고, 복조된 데이터를 수신기 데이터 프로세서 (2264) 에 제공하도록 구성된다. 수신기 데이터 프로세서 (2264) 는 복조된 데이터로부터 메시지 또는 오디오 데이터를 추출하고, 메시지 또는 오디오 데이터를 프로세서 (2206) 로 전송하도록 구성될 수도 있다.
기지국 (2200) 은 송신 데이터 프로세서 (2282) 및 송신 다중 입력-다중 출력 (MIMO) 프로세서 (2284) 를 포함할 수도 있다. 송신 데이터 프로세서 (2282) 는 프로세서 (2206) 및 송신 MIMO 프로세서 (2284) 에 커플링될 수도 있다. 송신 MIMO 프로세서 (2284) 는 트랜시버들 (2252, 2254) 및 프로세서 (2206) 에 커플링될 수도 있다. 일부 구현들에서, 송신 MIMO 프로세서 (2284) 는 매체 게이트웨이 (2270) 에 커플링될 수도 있다. 송신 데이터 프로세서 (2282) 는 프로세서 (2206) 로부터 오디오 데이터 또는 메시지들을 수신하고 예시적인 비-제한의 예들로서, CDMA 또는 직교 주파수-분할 멀티플렉싱 (OFDM) 과 같은 코딩 스킴에 기초하여 메시지들 또는 오디오 데이터를 코딩하도록 구성된다. 송신 데이터 프로세서 (2282) 는 코딩된 데이터를 송신 MIMO 프로세서 (2284) 에 제공할 수도 있다.
코딩된 데이터는 CDMA 또는 OFDM 기법들을 사용하여 파일롯 데이터와 같은 다른 데이터와 멀티플렉싱되어, 멀티플렉싱된 데이터를 생성할 수도 있다. 멀티플렉싱된 데이터는 그 후, 특정 변조 스킴 (예를 들어, 바이너리 위상-시프트 키잉 ("BPSK"), 쿼드러처 위상-시프트 키잉 ("QSPK"), M-ary 위상 시프트 키잉 ("M-PSK"), M-ary 쿼드러처 진폭 변조 ("M-QAM"), 등) 에 기초하여 송신 데이터 프로세서 (2282) 에 의해 변조 (즉, 심볼 맵핑) 되어 변조 심볼들을 생성할 수도 있다. 특정 구현에서, 코딩된 데이터 및 다른 데이터는 상이한 변조 스킴들을 사용하여 변조될 수도 있다. 각각의 데이터 스트림에 대한 데이터 레이트, 코딩, 및 변조는 프로세서 (2206) 에 의해 실행된 명령들에 의해 결정될 수도 있다.
송신 MIMO 프로세서 (2284) 는 송신 데이터 프로세서 (2282) 로부터 변조 심볼들을 수신하도록 구성될 수도 있고, 변조 심볼들을 더 프로세싱할 수도 있으며 데이터 상에서 빔포밍을 수행할 수도 있다. 예를 들어, 송신 MIMO 프로세서 (2284) 는 변조 심볼들에 빔포밍 가중치들을 적용할 수도 있다. 빔포밍 가중치들은, 변조 심볼들이 송신되는 안테나들의 어레이의 하나 이상의 안테나들에 대응할 수도 있다.
동작 동안, 기지국 (2200) 의 제 2 안테나 (2244) 는 데이터 스트림 (2214) 을 수신할 수도 있다. 제 2 트랜시버 (2254) 는 제 2 안테나 (2244) 로부터 데이터 스트림 (2214) 을 수신할 수도 있고 데이터 스트림 (2214) 을 복조기 (2262) 에 제공할 수도 있다. 복조기 (2262) 는 데이터 스트림 (2214) 의 변조된 신호들을 복조하고 복조된 데이터를 수신기 데이터 프로세서 (2264) 에 제공할 수도 있다. 수신기 데이터 프로세서 (2264) 는 복조된 데이터로부터 오디오 데이터를 추출하고, 추출된 오디오 데이터를 프로세서 (2206) 에 제공할 수도 있다.
프로세서 (2206) 는 오디오 데이터를 트랜스코딩을 위해 트래랜스코더 (2210) 에 제공할 수도 있다. 트랜스코더 (2210) 의 디코더 (1218) 는 오디오 데이터를 제 1 포맷으로부터 디코딩된 오디오 데이터로 디코딩할 수도 있고 인코더 (1214) 는 디코딩된 오디오 데이터를 제 2 포맷으로 인코딩할 수도 있다. 일부 구현들에서, 인코더 (1214) 는 무선 디바이스로부터 수신된 것보다 더 높은 데이터 레이트 (예를 들어, 업컨버팅) 또는 더 낮은 데이터 레이트 (예를 들어, 다운컨버팅) 를 사용하여 오디오 데이터를 인코딩할 수도 있다. 다른 구현들에서, 오디오 데이터는 트랜스코딩되지 않을 수도 있다. 트랜스코딩 (예를 들어, 디코딩 및 인코딩) 은 트랜스코더 (2210) 에 의해 수행되는 것으로서 예시되지만, 트랜스코딩 동작들 (예를 들어, 디코딩 및 인코딩) 은 기지국 (2200) 의 다수의 컴포넌트들에 의해 수행될 수도 있다. 예를 들어, 디코딩은 수신기 데이터 프로세서 (2264) 에 의해 수행될 수도 있고 인코딩은 송신 데이터 프로세서 (2282) 에 의해 수행될 수도 있다. 다른 구현들에서, 프로세서 (2206) 는 다른 송신 프로토콜, 코딩 스킴, 또는 양자 모두로의 컨버전을 위해 매체 게이트웨이 (2270) 에 오디오 데이터를 제공할 수도 있다. 매체 게이트웨이 (2270) 는 컨버팅된 데이터를 네트워크 접속 (2260) 을 통해 다른 기지국 또는 코어 네트워크에 제공할 수도 있다.
인코더 (1214) 에서 생성된 인코딩된 오디오 데이터, 예컨대 트랜스코딩된 데이터는 프로세서 (2206) 를 통해 송신 데이터 프로세서 (2282) 또는 네트워크 접속 (2260) 에 제공될 수도 있다. 트랜스코더 (2210) 로부터 트랜스코딩된 오디오 데이터는 변조 스킴, 예컨대 OFDM 에 따라 코딩을 위해 송신 데이터 프로세서 (2282) 에 제공되어, 변조 심볼들을 생성할 수도 있다. 송신 데이터 프로세서 (2282) 는 추가의 프로세싱 및 빔포밍을 위해 변조 심볼들을 송신 MIMO 프로세서 (2284) 에 제공할 수도 있다. 송신 MIMO 프로세서 (2284) 는 빔포밍 가중치들을 적용할 수도 있고 변조 심볼들을 안테나들의 어레이의 하나 이상의 안테나들, 예컨대 제 1 트랜시버 (2252) 를 통한 제 1 안테나 (2242) 에 제공할 수도 있다. 따라서, 기지국 (2200) 은, 무선 디바이스로부터 수신된 데이터 스트림 (2214) 에 대응하는 트랜스코딩된 데이터 스트림 (2216) 을 다른 무선 디바이스에 제공할 수도 있다. 트랜스코딩된 데이터 스트림 (2216) 은 데이터 스트림 (2214) 과 상이한 인코딩 포맷, 데이터 레이트, 또는 양자 모두를 가질 수도 있다. 다른 구현들에서, 트랜스코딩된 데이터 스트림 (2216) 은 다른 기지국 또는 코어 네트워크로의 송신을 위해 네트워크 접속 (2260) 에 제공될 수도 있다.
특정 구현에서, 본원에 개시된 시스템들 및 디바이스들의 하나 이상의 컴포넌트들은 디코딩 시스템 또는 장치 (예를 들어, 전자 디바이스, CODEC, 또는 그 안에 프로세서) 안에, 인코딩 시스템 또는 장치 안에, 또는 양자 모두에 통합될 수도 있다. 다른 구현들에서, 본원에 개시된 시스템들 및 디바이스들의 하나 이상의 컴포넌트들은 무선 전화기, 태블릿 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 셋톱 박스, 음악 플레이어, 비디오 플레이어, 엔터테인먼트 유닛, 텔레비전, 게임 콘솔, 네비게이션 디바이스, 통신 디바이스, 개인 휴대 정보단말 (PDA), 고정 로케이션 데이터 유닛, 퍼스널 미디어 플레이어, 또는 디바이스의 다른 유형 안에 통합될 수도 있다.
본원에 개시된 시스템들 및 디바이스들의 하나 이상의 컴포넌트들에 의해 수행된 다양한 기능들은 소정의 컴포넌트들 또는 모듈들에 의해 수행되는 것으로서 설명된다는 것이 주목되어야 한다. 컴포넌트들 및 모듈들의 이 분할은 단지 예시를 위한 것이다. 대안의 구현에서, 특정 컴포넌트 또는 모듈에 의해 수행된 기능은 다수의 컴포넌트들 또는 모듈들 사이에 분할될 수도 있다. 더욱이, 다른 대안의 예들에서, 2 이상의 컴포넌트들 또는 모듈들은 단일의 컴포넌트 또는 모듈로 통합될 수도 있다. 각각의 컴포넌트 또는 모듈은 하드웨어 (예를 들어, 필드-프로그래머블 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), DSP, 제어기, 등), 소프트웨어 (예를 들어, 프로세서에 의해 실행 가능한 명령들), 또는 이들의 임의의 조합을 사용하여 구현될 수도 있다.
당업자는 또한, 본원에 개시된 실시형태들과 연관되어 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 하드웨어 프로세서와 같은 프로세싱 디바이스에 의해 실행된 컴퓨터 소프트웨어, 또는 양자 모두의 조합으로서 구현될 수도 있음을 인지할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 그 기능에 관하여 일반적으로 전술되어 있다. 그러한 기능이 하드웨어 또는 실행 가능한 소프트웨어로서 구현되는지 여부는 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 의존한다. 당업자는, 설명된 기능성을 각각의 특정 애플리케이션에 대해 다양한 방식으로 구현할 수도 있지만, 이러한 구현 결정들은 본 개시물의 범위를 벗어나게 하는 것으로 해석되지 않아야 한다.
본원에 개시된 실시형태들과 연관되어 설명된 방법 또는 알고리즘의 단계들은 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들 둘의 조합에서 직접적으로 구현될 수도 있다. 소프트웨어 모듈은 메모리 디바이스, 예컨대 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 트랜스퍼 MRAM (STT-MRAM), 플래시 메모리, 판독-전용 메모리 (ROM), 프로그래머블 판독-전용 메모리 (PROM), 소거 가능한 프로그래머블 판독-전용 메모리 (EPROM), 전기적으로 소거 가능한 프로그래머블 판독-전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈형 디스크, 또는 컴팩트 디스크 판독-전용 메모리 (CD-ROM) 에 있을 수도 있다. 예시적인 메모리 디바이스는, 프로세서가 메모리 디바이스로부터 정보를 판독하고, 메모리 디바이스에 정보를 기입하도록 프로세서에 커플링된다. 대안에서, 메모리 디바이스는 프로세서와 통합될 수도 있다. 프로세서 및 저장 매체는 주문형 집적 회로 (ASIC) 내에 있을 수도 있다. ASIC 는 컴퓨팅 디바이스 또는 사용자 단말 내에 있을 수도 있다. 대안에서, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에서 별개의 컴포넌트들로서 있을 수도 있다.
개시된 구현들의 이전 설명은 당업자가 개시된 구현들을 실시하거나 이용하는 것을 가능하게 하도록 제공된다. 이들 구현들에 대한 다양한 수정들이 당업자에게는 자명할 것이고, 본원에서 정의된 원리들은 본 개시물의 사상을 벗어나지 않으면서 다른 구현들에 적용될 수도 있다. 따라서, 본 개시물은 본원에서 보여진 구현들로 제한되도록 의도되지 않고, 다음의 청구항들에 의해 정의된 바와 같은 원리들 및 신규의 특성들과 가능한 일치하는 최광의 범위를 따르기 위한 것이다.

Claims (30)

  1. 디바이스로서,
    제 2 디바이스로부터 인코딩된 비트스트림을 수신하도록 구성된 수신기로서, 상기 인코딩된 비트스트림은 시간적 불일치 값을 포함하는, 상기 수신기;
    상기 인코딩된 비트스트림을 디코딩하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하고;
    상기 제 1 주파수-도메인 출력 신호에 대해 제 1 역 변환 동작을 수행하여 제 1 신호를 생성하고;
    상기 제 2 주파수-도메인 출력 신호에 대해 제 2 역 변환 동작을 수행하여 제 2 신호를 생성하고;
    상기 시간적 불일치 값에 기초하여, 상기 제 1 신호 또는 상기 제 2 신호 중 하나를 디코딩된 타겟 채널로서 맵핑하며;
    상기 시간적 불일치 값에 기초하여 상기 디코딩된 타겟 채널에 대해 시프트 동작을 수행하여 조정된 디코딩된 타겟 채널을 생성하도록
    구성된 디코더; 및
    제 1 출력 신호 및 제 2 출력 신호를 출력하도록 구성된 출력 디바이스로서, 상기 제 2 출력 신호는 상기 조정된 디코딩된 타겟 채널에 기초하는, 상기 출력 디바이스를 포함하는, 디바이스.
  2. 제 1 항에 있어서,
    상기 제 2 디바이스에서, 상기 시간적 불일치 값은 인코더-측 윈도윙 스킴을 사용하여 결정되는, 디바이스.
  3. 제 2 항에 있어서,
    상기 인코더-측 윈도윙 스킴은 제 1 오버랩 사이즈를 갖는 제 1 윈도우들을 사용하고, 상기 디코더에서의 디코더-측 윈도윙 스킴은 제 2 오버랩 사이즈를 갖는 제 2 윈도우들을 사용하는, 디바이스.
  4. 제 3 항에 있어서,
    상기 제 1 오버랩 사이즈는 상기 제 2 오버랩 사이즈와는 상이한, 디바이스.
  5. 제 4 항에 있어서,
    상기 제 2 오버랩 사이즈는 상기 제 1 오버랩 사이즈보다 작은, 디바이스.
  6. 제 2 항에 있어서,
    상기 인코더-측 윈도윙 스킴은 제 1 양의 제로-패딩을 갖는 제 1 윈도우들을 사용하고, 상기 디코더에서의 디코더-측 윈도윙 스킴은 제 2 양의 제로-패딩을 갖는 제 2 윈도우들을 사용하는, 디바이스.
  7. 제 6 항에 있어서,
    상기 제 1 양의 제로-패딩은 상기 제 2 양의 제로-패딩과는 상이한, 디바이스.
  8. 제 7 항에 있어서,
    상기 제 2 양의 제로-패딩은 상기 제 1 양의 제로-패딩보다 작은, 디바이스.
  9. 제 1 항에 있어서,
    상기 시간적 불일치 값은 상기 제 2 디바이스에서 캡처된 레퍼런스 채널 및 상기 제 2 디바이스에서 캡처된 타겟 채널에 기초하여 결정되고, 상기 제 1 신호 및 상기 제 2 신호는 시간-도메인 신호들이며, 상기 시프트 동작은 인과적 시간-도메인 시프트 동작에 대응하는, 디바이스.
  10. 제 9 항에 있어서,
    상기 인코딩된 비트스트림은 상기 레퍼런스 채널 및 상기 타겟 채널에 기초하여 결정된 스테레오 파라미터들을 포함하는, 디바이스.
  11. 제 10 항에 있어서,
    상기 스테레오 파라미터들은 상기 제 2 디바이스에서 상기 타겟 채널 및 상기 레퍼런스 채널에 기초하여 추정되는 인터-채널 위상 차이 (IPD) 값들의 세트 및 인터-채널 레벨 차이 (ILD) 값들의 세트를 포함하는, 디바이스.
  12. 제 11 항에 있어서,
    상기 ILD 값들의 세트 및 상기 IPD 값들의 세트는 상기 수신기로 송신되는, 디바이스.
  13. 제 1 항에 있어서,
    상기 디코더는 또한, 상기 제 1 신호 또는 상기 제 2 신호 중 다른 하나를 디코딩된 레퍼런스 채널로서 맵핑하도록 구성되고, 상기 제 1 출력 신호는 상기 디코딩된 레퍼런스 채널에 기초하는, 디바이스.
  14. 제 1 항에 있어서,
    상기 디코딩된 타겟 채널에 대해 수행된 상기 시프트 동작은 상기 시간적 불일치 값의 절대 값에 기초하는, 디바이스.
  15. 제 1 항에 있어서,
    상기 인코딩된 비트스트림을 디코딩하여 디코딩된 중간 신호를 생성하도록 구성된 스테레오 디코더;
    상기 디코딩된 중간 신호에 대해 변환 동작을 수행하여 주파수-도메인 디코딩된 중간 신호를 생성하도록 구성된 변환 유닛;
    상기 주파수-도메인 디코딩된 중간 신호에 대해 업-믹스 동작을 수행하여 상기 제 1 주파수-도메인 출력 신호 및 상기 제 2 주파수-도메인 출력 신호를 생성하도록 구성된 업-믹서;
    상기 제 1 주파수-도메인 출력 신호에 대해 상기 제 1 역 변환 동작을 수행하여 상기 제 1 신호를 생성하도록 구성된 제 1 역 변환 유닛; 및
    상기 제 2 주파수-도메인 출력 신호에 대해 상기 제 2 역 변환 동작을 수행하여 상기 제 2 신호를 생성하도록 구성된 제 2 역 변환 유닛을 더 포함하는, 디바이스.
  16. 제 1 항에 있어서,
    상기 수신기, 상기 디코더, 및 상기 출력 디바이스는 이동 디바이스에 통합되는, 디바이스.
  17. 제 1 항에 있어서,
    상기 수신기, 상기 디코더, 및 상기 출력 디바이스는 기지국에 통합되는, 디바이스.
  18. 방법으로서,
    디바이스의 수신기에서, 제 2 디바이스로부터 인코딩된 비트스트림을 수신하는 단계로서, 상기 인코딩된 비트스트림은 시간적 불일치 값을 포함하고, 상기 시간적 불일치 값은 상기 제 2 디바이스에서 캡처된 레퍼런스 채널 및 상기 제 2 디바이스에서 캡처된 타겟 채널에 기초하여 결정되는, 상기 인코딩된 비트스트림을 수신하는 단계;
    상기 디바이스의 디코더에서, 상기 인코딩된 비트스트림을 디코딩하여 제 1 신호 및 제 2 신호를 생성하는 단계로서, 상기 제 1 신호 및 상기 제 2 신호는 시간-도메인 신호들인, 상기 제 1 및 상기 제 2 신호를 생성하는 단계;
    상기 시간적 불일치 값에 기초하여, 상기 제 1 신호 또는 상기 제 2 신호 중 하나를 디코딩된 타겟 채널로서 맵핑하는 단계;
    상기 시간적 불일치 값에 기초하여 상기 디코딩된 타겟 채널에 대해 시프트 동작을 수행하여 조정된 디코딩된 타겟 채널을 생성하는 단계로서, 상기 시프트 동작은 인과적 시간-도메인 시프트 동작에 대응하는, 상기 조정된 디코딩된 타겟 채널을 생성하는 단계; 및
    제 1 출력 신호 및 제 2 출력 신호를 출력하는 단계로서, 상기 제 2 출력 신호는 상기 조정된 디코딩된 타겟 채널에 기초하는, 상기 제 1 출력 신호 및 제 2 출력 신호를 출력하는 단계를 포함하는, 방법.
  19. 제 18 항에 있어서,
    상기 제 2 디바이스에서, 상기 시간적 불일치 값은 인코더-측 윈도윙 스킴을 사용하여 결정되는, 방법.
  20. 제 19 항에 있어서,
    상기 인코더-측 윈도윙 스킴은 제 1 오버랩 사이즈를 갖는 제 1 윈도우들을 사용하고, 상기 디코더에서의 디코더-측 윈도윙 스킴은 제 2 오버랩 사이즈를 갖는 제 2 윈도우들을 사용하는, 방법.
  21. 제 20 항에 있어서,
    상기 제 1 오버랩 사이즈는 상기 제 2 오버랩 사이즈와는 상이한, 방법.
  22. 제 21 항에 있어서,
    상기 제 2 오버랩 사이즈는 상기 제 1 오버랩 사이즈보다 작은, 방법.
  23. 제 19 항에 있어서,
    상기 인코더-측 윈도윙 스킴은 제 1 양의 제로-패딩을 갖는 제 1 윈도우들을 사용하고, 상기 디코더에서의 디코더-측 윈도윙 스킴은 제 2 양의 제로-패딩을 갖는 제 2 윈도우들을 사용하는, 방법.
  24. 제 18 항에 있어서,
    상기 인코딩된 비트스트림을 디코딩하여 디코딩된 중간 신호를 생성하는 단계;
    상기 디코딩된 중간 신호에 대해 변환 동작을 수행하여 주파수-도메인 디코딩된 중간 신호를 생성하는 단계;
    상기 주파수-도메인 디코딩된 중간 신호에 대해 업-믹스 동작을 수행하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하는 단계; 및
    상기 제 1 주파수-도메인 출력 신호에 대해 상기 제 1 역 변환 동작을 수행하여 상기 제 1 신호를 생성하는 단계; 및
    상기 제 2 주파수-도메인 출력 신호에 대해 상기 제 2 역 변환 동작을 수행하여 상기 제 2 신호를 생성하는 단계를 더 포함하는, 방법.
  25. 제 18 항에 있어서,
    상기 디코딩된 타겟 채널에 대한 상기 시프트 동작은 이동 디바이스에서 수행되는, 방법.
  26. 제 18 항에 있어서,
    상기 디코딩된 타겟 채널에 대한 상기 시프트 동작은 기지국에서 수행되는, 방법.
  27. 명령들을 포함하는 비일시적 컴퓨터 판독가능 매체로서,
    상기 명령들은, 디코더 내의 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금,
    제 2 디바이스로부터 수신된 인코딩된 비트스트림을 디코딩하여 적어도 제 1 주파수-도메인 출력 신호를 생성하는 것으로서, 상기 인코딩된 비트스트림은 시간적 불일치 값을 포함하는, 상기 제 1 주파수-도메인 출력 신호를 생성하는 것;
    상기 제 1 주파수-도메인 출력 신호에 대해 제 1 역 변환 동작을 수행하여 제 1 신호를 생성하는 것;
    상기 시간적 불일치 값에 기초하여, 상기 제 1 신호에 대해 시프트 동작을 수행하여 조정된 디코딩된 타겟 채널을 생성하는 것; 및
    상기 조정된 디코딩된 타겟 채널에 기초하는 출력 신호를 출력하는 것을 포함하는 동작들을 수행하게 하는, 비일시적 컴퓨터 판독가능 매체.
  28. 제 27 항에 있어서,
    상기 제 2 디바이스에서, 상기 시간적 불일치 값은 인코더-측 윈도윙 스킴을 사용하여 결정되는, 비일시적 컴퓨터 판독가능 매체.
  29. 장치로서,
    제 2 디바이스로부터 인코딩된 비트스트림을 수신하기 위한 수단으로서, 상기 인코딩된 비트스트림은 시간적 불일치 값을 포함하는, 상기 인코딩된 비트스트림을 수신하기 위한 수단;
    상기 인코딩된 비트스트림을 디코딩하여 제 1 주파수-도메인 출력 신호 및 제 2 주파수-도메인 출력 신호를 생성하기 위한 수단;
    상기 제 1 주파수-도메인 출력 신호에 대해 제 1 역 변환 동작을 수행하여 제 1 신호를 생성하기 위한 수단;
    상기 제 2 주파수-도메인 출력 신호에 대해 제 2 역 변환 동작을 수행하여 제 2 신호를 생성하기 위한 수단;
    상기 시간적 불일치 값에 기초하여, 상기 제 1 신호 또는 상기 제 2 신호 중 하나를 디코딩된 타겟 채널로서 맵핑하기 위한 수단;
    조정된 디코딩된 타겟 채널을 생성하도록 상기 시간적 불일치 값에 기초하여 상기 디코딩된 타겟 채널에 대해 시프트 동작을 수행하기 위한 수단; 및
    제 1 출력 신호 및 제 2 출력 신호를 출력하기 위한 수단으로서, 상기 제 2 출력 신호는 상기 조정된 디코딩된 타겟 채널에 기초하는, 상기 제 1 출력 신호 및 제 2 출력 신호를 출력하기 위한 수단을 포함하는, 장치.
  30. 제 29 항에 있어서,
    상기 시프트 동작을 수행하기 위한 수단은 이동 디바이스 또는 기지국에 통합되는, 장치.
KR1020237006672A 2016-10-31 2017-09-22 다수의 오디오 신호들의 디코딩 KR20230035430A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201662415369P 2016-10-31 2016-10-31
US62/415,369 2016-10-31
US15/711,538 2017-09-21
US15/711,538 US10224042B2 (en) 2016-10-31 2017-09-21 Encoding of multiple audio signals
PCT/US2017/053040 WO2018080683A1 (en) 2016-10-31 2017-09-22 Decoding of multiple audio signals
KR1020197012309A KR102505148B1 (ko) 2016-10-31 2017-09-22 다수의 오디오 신호들의 디코딩

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197012309A Division KR102505148B1 (ko) 2016-10-31 2017-09-22 다수의 오디오 신호들의 디코딩

Publications (1)

Publication Number Publication Date
KR20230035430A true KR20230035430A (ko) 2023-03-13

Family

ID=62022507

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237006672A KR20230035430A (ko) 2016-10-31 2017-09-22 다수의 오디오 신호들의 디코딩
KR1020197012309A KR102505148B1 (ko) 2016-10-31 2017-09-22 다수의 오디오 신호들의 디코딩

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020197012309A KR102505148B1 (ko) 2016-10-31 2017-09-22 다수의 오디오 신호들의 디코딩

Country Status (8)

Country Link
US (2) US10224042B2 (ko)
EP (2) EP3855431A1 (ko)
KR (2) KR20230035430A (ko)
CN (2) CN116504255A (ko)
BR (1) BR112019007968A2 (ko)
SG (1) SG11201901942TA (ko)
TW (1) TWI806839B (ko)
WO (1) WO2018080683A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238300A (zh) * 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN108269577B (zh) 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
US10304468B2 (en) 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10878879B2 (en) * 2017-06-21 2020-12-29 Mediatek Inc. Refresh control method for memory system to perform refresh action on all memory banks of the memory system within refresh window
US10932122B1 (en) * 2019-06-07 2021-02-23 Sprint Communications Company L.P. User equipment beam effectiveness

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5557647A (en) * 1993-01-06 1996-09-17 Kabushiki Kaisha Toshiba Baseband signal demodulator
US6973184B1 (en) 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
JP3923783B2 (ja) * 2001-11-02 2007-06-06 松下電器産業株式会社 符号化装置及び復号化装置
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
AU2003216682A1 (en) * 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. Signal synthesizing
US7646875B2 (en) * 2004-04-05 2010-01-12 Koninklijke Philips Electronics N.V. Stereo coding and decoding methods and apparatus thereof
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
EP2232489B1 (fr) 2007-12-21 2018-02-07 Orange Codage/decodage par transformee, a fenetres adaptatives
KR20100095586A (ko) * 2008-01-01 2010-08-31 엘지전자 주식회사 신호 처리 방법 및 장치
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8811621B2 (en) * 2008-05-23 2014-08-19 Koninklijke Philips N.V. Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
WO2010115850A1 (en) * 2009-04-08 2010-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
US8848925B2 (en) * 2009-09-11 2014-09-30 Nokia Corporation Method, apparatus and computer program product for audio coding
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
CN103262158B (zh) * 2010-09-28 2015-07-29 华为技术有限公司 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
US9025660B2 (en) * 2011-03-04 2015-05-05 Vixs Systems, Inc. Video decoder with general video decoding device and methods for use therewith
KR101662681B1 (ko) * 2012-04-05 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
EP2856776B1 (en) * 2012-05-29 2019-03-27 Nokia Technologies Oy Stereo audio signal encoder
WO2014013294A1 (en) * 2012-07-19 2014-01-23 Nokia Corporation Stereo audio signal encoder
US9715880B2 (en) * 2013-02-21 2017-07-25 Dolby International Ab Methods for parametric multi-channel encoding
RU2625444C2 (ru) * 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
GB2518823A (en) * 2013-09-25 2015-04-08 Sony Corp Data encoding and decoding
KR20160087827A (ko) * 2013-11-22 2016-07-22 퀄컴 인코포레이티드 고대역 코딩에서의 선택적 위상 보상
EP3262639B1 (en) * 2015-02-26 2020-10-07 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope
CN117238300A (zh) * 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals

Also Published As

Publication number Publication date
EP3855431A1 (en) 2021-07-28
TW201818398A (zh) 2018-05-16
SG11201901942TA (en) 2019-05-30
KR20190067825A (ko) 2019-06-17
US10891961B2 (en) 2021-01-12
US20180122385A1 (en) 2018-05-03
KR102505148B1 (ko) 2023-02-28
BR112019007968A2 (pt) 2019-07-09
US10224042B2 (en) 2019-03-05
TWI806839B (zh) 2023-07-01
CN109844858B (zh) 2023-06-02
WO2018080683A1 (en) 2018-05-03
US20190147896A1 (en) 2019-05-16
CN116504255A (zh) 2023-07-28
CN109844858A (zh) 2019-06-04
EP3533055A1 (en) 2019-09-04

Similar Documents

Publication Publication Date Title
KR102230623B1 (ko) 다중의 오디오 신호들의 인코딩
KR102505148B1 (ko) 다수의 오디오 신호들의 디코딩
EP3692525B1 (en) Decoding of audio signals
CN111164680B (zh) 一种用于通信的装置及方法
US10593341B2 (en) Coding of multiple audio signals
CN111149158B (zh) 音频信号的解码
US10431231B2 (en) High-band residual prediction with time-domain inter-channel bandwidth extension
US10475457B2 (en) Time-domain inter-channel prediction
EP3692528B1 (en) Decoding of audio signals
KR102581558B1 (ko) 채널간 위상차 파라미터 수정
CN110447072B (zh) 声道间带宽扩展

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal