KR102019617B1 - 프레임간 시간 시프트 변동들에 대한 채널 조정 - Google Patents

프레임간 시간 시프트 변동들에 대한 채널 조정 Download PDF

Info

Publication number
KR102019617B1
KR102019617B1 KR1020187017125A KR20187017125A KR102019617B1 KR 102019617 B1 KR102019617 B1 KR 102019617B1 KR 1020187017125 A KR1020187017125 A KR 1020187017125A KR 20187017125 A KR20187017125 A KR 20187017125A KR 102019617 B1 KR102019617 B1 KR 102019617B1
Authority
KR
South Korea
Prior art keywords
samples
channel
target
mismatch value
audio signal
Prior art date
Application number
KR1020187017125A
Other languages
English (en)
Other versions
KR20180096625A (ko
Inventor
벤카트라만 아티
벤카타 수브라마니암 찬드라 세카르 체비얌
다니엘 제러드 신더
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20180096625A publication Critical patent/KR20180096625A/ko
Application granted granted Critical
Publication of KR102019617B1 publication Critical patent/KR102019617B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/08Access point devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)

Abstract

무선 통신의 방법은, 제 1 디바이스에서, 레퍼런스 채널 및 타깃 채널을 수신하는 단계를 포함한다. 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함하고, 타깃 채널은 타깃 샘플들의 세트를 포함한다. 방법은 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 단계를 또한 포함한다. 방법은 조정된 타깃 샘플들의 세트를 생성하기 위해 변동에 기초하여 타깃 샘플들의 세트를 조정하는 단계를 또한 포함한다. 방법은 레퍼런스 샘플들의 세트 및 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 단계를 더 포함한다. 방법은 적어도 하나의 인코딩된 채널을 제 2 디바이스에 송신하는 단계를 또한 포함한다.

Description

프레임간 시간 시프트 변동들에 대한 채널 조정
Ⅰ. 우선권의 주장
본 출원은 2015년 12월 21일자로 출원되고 발명의 명칭이 "AUDIO SIGNAL ADJUSTMENT FOR INTER-FRAME TEMPORAL SHIFT VARIATIONS" 인 공동 소유의 미국 가특허 출원 제62/270,501호, 및 2016년 12월 8일자로 출원되고 발명의 명칭이 "CHANNEL ADJUSTMENT FOR INTER-FRAME TEMPORAL SHIFT VARIATIONS" 인 미국 비-가특허 출원 제15/372,833호로부터의 우선권의 이익을 주장하고, 전술한 출원들 각각의 내용은 본 명세서에 그 전체가 참조로 명확히 포함된다.
Ⅱ. 분야
본 개시물은 일반적으로 프레임간 시간 시프트 변동들에 대한 채널 조정에 관한 것이다.
기술의 진보는 보다 소형이고 더 강력한 컴퓨팅 디바이스들을 발생시켰다. 예를 들어, 무선 전화기들 예컨대 모바일 및 스마트 폰들, 태블릿들 및 랩톱 컴퓨터들을 포함하는, 다양한 휴대용 개인 컴퓨팅 디바이스들은 작고 경량이며 사용자들에 의해 쉽게 휴대된다. 이들 디바이스들은 무선 네트워크들을 통해 보이스 및 데이터 패킷들을 통신할 수 있다. 추가로, 많은 그러한 디바이스들은 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어와 같은 추가적인 기능성을 포함한다. 또한, 그러한 디바이스들은 인터넷에 액세스하는 데 사용될 수 있는 웹 브라우저 애플리케이션과 같은 소프트웨어 애플리케이션들을 포함하여, 실행가능 명령들을 프로세싱할 수 있다. 이와 같이, 이들 디바이스들은 상당한 컴퓨팅 및 네트워킹 능력들을 포함할 수 있다.
무선 전화기들과 같은 전자 디바이스들은 오디오 신호들을 수신하기 위해 다수의 마이크로폰들을 포함할 수도 있다. 많은 상황들에서, 사운드 소스 (예를 들어, 말하는 사람, 음악 소스 등) 는 제 2 마이크로폰에 대한 것보다는 제 1 마이크로폰에 더 가까울 수도 있다. 그러한 상황들에서, 제 2 마이크로폰으로부터 수신된 제 2 오디오 신호는 제 1 마이크로폰으로부터 수신된 제 1 오디오 신호에 비해 지연될 수도 있다. 오디오 신호들을 인코딩하는 데 사용되는 인코딩의 일 형태는 스테레오 인코딩이다. 스테레오 인코딩에서, 마이크로폰들로부터의 오디오 신호들이 인코딩되어 미드-채널 (mid-channel) (예를 들어, 제 1 오디오 신호와 제 2 오디오 신호의 합에 대응하는 신호) 및 사이드-채널 (side-channel) (예를 들어, 제 1 오디오 신호와 제 2 오디오 신호 사이의 차이에 대응하는 신호) 을 생성할 수도 있다. 제 1 오디오 신호와 제 2 오디오 신호의 수신 사이의 지연 때문에, 오디오 신호들은 시간적으로 오정렬될 수도 있는데, 이는 제 1 오디오 신호와 제 2 오디오 신호 사이의 차이를 증가시킬 수도 있다. 제 1 오디오 신호와 제 2 오디오 신호 사이의 차이의 증가 때문에, 더 많은 개수의 비트들이 사이드-채널을 인코딩하는 데 사용될 수도 있다.
제 1 오디오 신호와 제 2 오디오 신호 사이의 차이를 감소시키기 위해 (그리고 사이드-채널을 인코딩하는 데 사용된 비트들의 개수를 감소시키기 위해), 제 1 오디오 신호 및 제 2 오디오 신호는 시간적으로 정렬될 수도 있다. 예를 들어, 제 2 오디오 신호의 프레임은 제 2 오디오 신호의 프레임을 제 1 오디오 신호의 대응하는 프레임과 시간적으로 정렬시키도록 시간-시프팅될 수도 있다. 사운드 소스와 마이크로폰들 사이의 거리가 변경될 수도 있기 때문에, 시프트량 (예를 들어, 제 2 오디오 신호가 시프팅되는 샘플들의 양) 이 프레임마다 변경될 수도 있다. 2 개의 프레임들 사이의 시프트 값들이 상이한 경우, 2 개의 프레임들 사이의 경계에 불연속성이 도입될 수도 있다. 예를 들어, 시프트 값들의 차이로 인해, 하나 이상의 샘플들이 한 프레임으로부터 다음 프레임으로 스킵 또는 반복될 수도 있다. 오디오 신호들의 프레임 경계들에서의 불연속성들은 오디오 신호들의 재생 동안 가청 클릭들 또는 다른 오디오 아티팩트 (artifact) 들을 초래할 수도 있다.
일 구현에 따르면, 디바이스는 레퍼런스 채널 및 타깃 채널을 수신하도록 구성된 인코더를 포함한다. 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함하고, 타깃 채널은 타깃 샘플들의 세트를 포함한다. 인코더는 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하도록 또한 구성된다. 제 1 미스매치 값은 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타낸다. 제 2 미스매치 값은 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타낸다. 인코더는 변동에 기초하여 타깃 샘플들의 세트를 조정하여 조정된 타깃 샘플들의 세트를 생성하도록 구성된다. 인코더는 레퍼런스 샘플들의 세트 및 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하도록 구성된다. 디바이스는 적어도 하나의 인코딩된 채널을 송신하도록 구성된 네트워크 인터페이스를 포함한다.
다른 구현에 따르면, 무선 통신의 방법은, 제 1 디바이스에서, 레퍼런스 채널 및 타깃 채널을 수신하는 단계를 포함한다. 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함하고, 타깃 채널은 타깃 샘플들의 세트를 포함한다. 방법은 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 단계를 또한 포함한다. 제 1 미스매치 값은 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타낸다. 제 2 미스매치 값은 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타낸다. 방법은 조정된 타깃 샘플들의 세트를 생성하기 위해 변동에 기초하여 타깃 샘플들의 세트를 조정하는 단계를 또한 포함한다. 방법은 레퍼런스 샘플들의 세트 및 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 단계를 더 포함한다. 방법은 적어도 하나의 인코딩된 채널을 제 2 디바이스에 송신하는 단계를 또한 포함한다.
다른 구현에 따르면, 장치는 레퍼런스 채널을 수신하는 수단 및 타깃 채널을 수신하는 수단을 포함한다. 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함하고, 타깃 채널은 타깃 샘플들의 세트를 포함한다. 장치는 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 수단을 또한 포함한다. 제 1 미스매치 값은 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타낸다. 제 2 미스매치 값은 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타낸다. 장치는 조정된 타깃 샘플들의 세트를 생성하기 위해 변동에 기초하여 타깃 샘플들의 세트를 조정하는 수단을 또한 포함한다. 장치는 레퍼런스 샘플들의 세트 및 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 수단을 더 포함한다. 장치는 적어도 하나의 인코딩된 채널을 송신하는 수단을 또한 포함한다.
다른 구현에 따르면, 비일시적 컴퓨터 판독가능 매체는, 프로세서에 의해 실행될 때, 프로세서로 하여금, 제 1 디바이스에서, 레퍼런스 채널 및 타깃 채널을 수신하는 것을 포함하는 동작들을 수행하게 하는 명령들을 저장한다. 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함하고, 타깃 채널은 타깃 샘플들의 세트를 포함한다. 동작들은 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 것을 또한 포함한다. 제 1 미스매치 값은 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타낸다. 제 2 미스매치 값은 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타낸다. 동작들은 변동에 기초하여 타깃 샘플들의 세트를 조정하여 조정된 타깃 샘플들의 세트를 생성하는 것을 또한 포함한다. 동작들은 레퍼런스 샘플들의 세트 및 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 것을 더 포함한다. 동작들은 적어도 하나의 인코딩된 채널을 제 2 디바이스에 송신하는 것을 또한 포함한다.
본 개시물의 다른 구현들, 이점들, 및 피처들 (features) 은 다음의 섹션들: 도면의 간단한 설명, 상세한 설명, 및 청구항들을 포함하는 전체 출원의 검토 후에 명백해질 것이다.
도 1 은 미스매치 값들 사이의 변동에 기초하여 오디오 샘플들을 조정하도록 구성된 디바이스를 포함하는 시스템의 특정 구현의 블록 다이어그램이다.
도 2 는 미스매치 값들 사이의 변동에 기초하여 조정될 수도 있는 샘플들의 제 1 특정 예를 예시하는 다이어그램이다.
도 3 은 미스매치 값들 사이의 변동에 기초하여 조정될 수도 있는 샘플들의 제 2 특정 예를 예시하는 다이어그램이다.
도 4 는 미스매치 값들 사이의 변동에 기초하여 오디오 샘플들을 조정하도록 구성된 디바이스를 포함하는 시스템의 제 2 특정 구현의 블록 다이어그램이다.
도 5 는 조정된 샘플들을 사용하여 다수의 채널들을 인코딩하도록 구성된 시스템의 다이어그램이다.
도 6 은 레퍼런스 채널을 결정하기 위한 상태 머신의 예의 다이어그램이다.
도 7 은 도 1 의 디바이스를 포함하는 시스템의 예를 예시하는 다이어그램이다.
도 8 은 도 1 의 디바이스를 포함하는 시스템의 다른 예를 예시하는 다이어그램이다.
도 9 는 조정된 샘플들을 사용하여 다수의 채널들을 인코딩하는 특정 방법을 예시하는 흐름도이다.
도 10 은 도 1 내지 도 9 의 시스템들 및 방법들에 따른 동작들을 수행하도록 동작가능한 무선 디바이스의 블록 다이어그램이다.
도 11 은 도 1 내지 도 9 의 시스템들 및 방법들에 따른 동작들을 수행하도록 동작가능한 기지국이다.
본 개시물의 특정 양태들은 도면들을 참조하여 후술된다. 설명에서, 공통된 피처들은 도면들 전반에 걸쳐 공통된 참조 번호들로 지정된다. 본 명세서에서 사용되는 바와 같이, "예시적인" 은 예, 구현, 및/또는 양태를 나타낼 수도 있고, 선호도 또는 선호된 구현을 나타내는 것으로서 또는 제한하는 것으로서 해석되어서는 안된다. 본 명세서에서 사용되는 바와 같이, 구조체, 컴포넌트, 동작 등과 같은 엘리먼트를 수정하기 위해 사용된 서수 용어 (예를 들어, "제 1", "제 2", "제 3" 등) 는 그것만으로는 다른 엘리먼트에 대한 엘리먼트의 임의의 우선순위 또는 순서를 나타내지 않으며, 오히려 엘리먼트를 동일한 명칭을 갖는 (그러나 서수 용어의 사용을 위한) 다른 엘리먼트로부터 단지 구별할 뿐이다. 본 명세서에서 사용되는 바와 같이, 용어 "세트" 는 하나 이상의 특정 엘리먼트를 지칭한다.
멀티-채널 오디오 인코딩에서 사용되는 오디오 채널들의 샘플들을 조정하는 시스템들 및 방법들이 개시된다. 디바이스는 다수의 오디오 채널들을 인코딩하도록 구성되는 인코더를 포함할 수도 있다. 다수의 오디오 채널들은 다수의 오디오 캡처 디바이스들 (예를 들어, 다수의 마이크로폰들) 을 사용하여 시간적으로 동시에 캡처될 수도 있다. 디바이스는 다수의 마이크로폰들 중 하나를 통한 오디오 채널의 수신 시의 지연을 고려하기 위해 다수의 오디오 채널들 중 하나를 시간-시프팅하도록 구성될 수도 있다. 예시하기 위해, 원격회의실 내의 다수의 위치들에 다수의 마이크로폰들이 배치될 수도 있고, 사운드 소스 (예를 들어, 말하는 사람) 가 제 2 마이크로폰에 대한 것보다 제 1 마이크로폰에 더 가까울 수도 있다. 따라서, 제 2 마이크로폰을 통해 수신된 제 2 오디오 채널은 제 1 마이크로폰을 통해 수신된 제 1 오디오 채널에 비해 지연될 수도 있다.
하나 이상의 오디오 채널들의 수신 시의 지연은 코딩 효율을 감소시킬 수도 있다. 예시하기 위해, 스테레오 인코딩에서, 다수의 마이크로폰들로부터의 오디오 채널들은 미드-채널 및 사이드-채널을 생성하도록 인코딩될 수도 있다. 미드-채널은 제 1 오디오 채널과 제 2 오디오 채널의 합에 대응할 수도 있고, 사이드-채널은 제 1 오디오 채널과 제 2 오디오 채널 사이의 차이에 대응할 수도 있다. 제 1 오디오 채널과 제 2 오디오 채널 사이의 차이가 작은 경우, 스테레오 인코딩의 대부분의 비트들은 미드-채널을 인코딩하기 위해 사용될 수도 있는데, 이는 미드-채널의 코딩 효율을 증가시키고, 디코딩 후의 오디오 채널들의 재생 품질을 증가시킨다. 제 1 오디오 채널과 제 2 오디오 채널이 시간적으로 정렬되지 않은 경우 (예를 들어, 하나의 오디오 채널이 다른 오디오 채널에 비해 시간적으로 지연되는 경우), 제 1 오디오 채널과 제 2 오디오 채널 사이의 차이가 증가할 수도 있고, 그에 따라 사이드-채널을 인코딩하는 데 사용되는 비트들의 개수가 증가할 수도 있다. 사이드-채널을 인코딩하는 데 사용되는 비트들의 개수가 증가하면 미드-채널을 인코딩하는 데 이용가능한 비트들의 개수가 감소한다.
제 1 오디오 채널과 제 2 오디오 채널 사이의 차이를 감소시키기 위해, 오디오 채널들 중 하나가 시간-시프팅되어 오디오 채널들을 시간적으로 정렬시킬 수도 있다. 인코더는 제 2 오디오 채널에 대한 제 1 오디오 채널의 제 1 시프트를 나타내는 제 1 미스매치 값을 결정하도록 구성될 수도 있다. 예를 들어, 제 1 미스매치 값은 제 2 오디오 채널의 프레임을 제 1 오디오 채널의 대응하는 프레임과 시간적으로 정렬시키도록 제 2 오디오 채널의 프레임이 시프팅되는 샘플들의 개수를 나타낼 수도 있다. 인코더는 제 1 미스매치 값에 기초하여 제 2 오디오 채널의 제 2 프레임을 시간-시프팅하여 제 2 프레임을 제 1 오디오 채널의 제 1 프레임과 시간적으로 정렬시킬 수도 있다. 제 1 오디오 채널과 제 2 오디오 채널을 시간적으로 정렬시키면 제 1 오디오 채널과 제 2 오디오 채널 사이의 차이를 감소시킬 수도 있다. 다른 오디오 채널에 대한 하나의 오디오 채널의 지연이 프레임마다 달라질 수도 있기 때문에, 인코더는 오디오 채널들의 각각의 프레임에 대한 대응하는 미스매치 값을 결정하도록 구성될 수도 있다. 예를 들어, 인코더는 제 2 오디오 채널에 대한 제 1 오디오 채널의 제 2 시프트를 나타내는 제 2 미스매치 값을 결정하도록 구성될 수도 있고, 인코더는 제 2 미스매치 값에 기초하여 제 2 오디오 채널의 제 4 프레임을 시간-시프팅하여 제 4 프레임을 제 1 오디오 채널의 제 3 프레임과 시간적으로 정렬시키도록 구성될 수도 있다. 제 1 미스매치 값과 제 2 미스매치 값이 상이한 경우, 제 1 미스매치 값과 제 2 미스매치 값 사이의 차이는 제 2 오디오 채널의 제 2 프레임과 제 4 프레임 사이의 경계에서의 불연속성을 야기할 수도 있다. 불연속성은 디코딩된 오디오 채널들의 재생 동안 가청 클릭 또는 다른 오디오 아티팩트를 야기할 수도 있다.
시간-시프팅에서 프레임간 변동 (예를 들어, 상이한 프레임들에 대한 상이한 미스매치 값들) 을 보상하기 위해, 인코더는 제 1 미스매치 값과 제 2 미스매치 값 사이의 차이에 기초하여 제 2 오디오 채널을 조정하도록 구성될 수도 있다. 제 2 오디오 채널을 조정하면 프레임 경계들에서의 불연속성들을 감소시킬 (또는 제거할) 수도 있다. 특정 예에서, 각각의 프레임은 640 개의 샘플들을 포함하고, 제 1 미스매치 값은 2 개의 샘플들이고, 제 2 미스매치 값은 3 개의 샘플들이다. 이 예에서, 오디오 채널들을 시간적으로 정렬시키기 위해, 제 1 오디오 채널의 샘플들 0 내지 639 (제 1 프레임을 표현함) 는 제 2 오디오 채널의 샘플들 2 내지 641 (제 2 프레임을 표현함) 과 시간적으로 정렬되고, 제 1 오디오 채널의 샘플들 640 내지 1279 (제 3 프레임을 표현함) 는 제 2 오디오 채널의 샘플들 643 내지 1282 (제 4 프레임을 표현함) 와 시간적으로 정렬된다. 제 1 오디오 채널과의 제 2 오디오 채널의 시간적 정렬은 샘플 642 가 스킵되게 할 수도 있는데, 이는 제 2 프레임과 제 4 프레임 사이의 불연속성을 야기하고 오디오 채널들의 재생 동안 클릭 또는 다른 사운드를 야기할 수도 있다.
불연속성을 보상하기 위해, 인코더는 프레임들 사이의 샘플들의 차이를 감소시키기 위해 제 2 오디오 채널을 조정하도록 구성될 수도 있다. 차이에 기초하여 제 2 오디오 채널을 조정하는 것은, 제 2 오디오 채널을 "평활화하는 (smoothing)" 것 또는 "슬로우 시프팅하는 (slow shifting)" 것으로 지칭될 수도 있다. 예시하기 위해, 인코더는 차이에 기초하여 제 2 오디오 채널의 샘플들의 부분을 보간하여 다수의 샘플들에 걸쳐 불연속성을 "확산 (spread out)" 시키도록 구성될 수도 있다. 보간은 싱크 보간 (sinc interpolation), 라그랑지 보간 (Lagrange interpolation), 하이브리드 보간 (예를 들어, 싱크 보간과 라그랑지 보간의 조합), 또는 다른 타입의 보간을 포함할 수도 있다. 특정 예시적 예로서, 보간을 사용하여 샘플들 642.x, 643.y, 644.z, 및 646 을 추정함으로써 샘플들의 서브세트 (예를 들어, 샘플들 642, 643, 644, 645, 및 646) 에 걸쳐 불연속성이 확산될 수도 있고, 여기서 x, y, 및 z 는 프랙셔널 샘플 레졸루션 (fractional sample resolution) 에 기초하는 값들이다. 샘플 레졸루션은 균일하게 이격 또는 불균일하게 이격될 수도 있다. 균일하게 이격된 샘플 레졸루션을 갖는 구현들에서, 보간은 표현식 D/N_SPREAD 에 기초할 수도 있고, 여기서 D 는 제 1 미스매치 값과 제 2 미스매치 값 사이의 (샘플들의 개수의) 차이이고, N_SPREAD 는 불연속성이 확산되는 샘플들의 개수이다. 특정 구현에서, N_SPREAD 는 프레임 (N) 에 포함된 총 개수의 샘플들보다 더 적은 임의의 값일 수도 있다. 대안적으로, N_SPREAD 는 N 과 동일할 수도 있거나, 또는 N_SPREAD 는 N 보다 더 클 수도 있다 (예를 들어, 불연속은 다수의 프레임들에 걸쳐 확산될 수도 있다). N_SPREAD 의 값이 클수록, 시프트가 "더 평활화하게" 된다 (예를 들어, 각각의 추정된 샘플 사이의 차이가 더 작아진다).
균일한 이격을 갖는 샘플 레졸루션의 특정 예로서, D 는 1 이고 (예를 들어, 제 2 미스매치 값 - 제 1 미스매치 값은 1 이다), N_SPREAD 는 4 이고, 인코더는 1-샘플 차이에 기초하여 제 2 오디오 채널을 보간하여 4 개의 추정된 샘플들을 생성할 수도 있다. 이 예에서, 샘플 레졸루션은 0.25 이고, 4 개의 추정된 샘플들은 샘플들 642.25, 643.5, 644.75, 및 646 을 표현할 수도 있고, 인코더는 제 2 오디오 채널의 4 개의 샘플들 (예를 들어, 샘플들 643 내지 646) 을 4 개의 추정된 샘플들로 대체시킬 수도 있다. 제 2 프레임의 각각의 마지막 샘플 (예를 들어, 샘플 641) 과 각각의 추정된 샘플 사이의 차이는 (예를 들어, 샘플 642 가 스킵되는 것으로 인해) 샘플 641 과 샘플 643 사이의 차이보다 더 작고, 그에 따라 임의의 2 개의 샘플들 사이의 차이는 하나 이상의 샘플들을 스킵하는 것에 비하면 감소된다. 대안적으로, 샘플 레졸루션은 불균일하게 이격될 수도 있다. 불균일한 이격을 갖는 샘플 레졸루션의 특정 예로서, 샘플들 642.25, 643, 644.5, 및 646 에 대한 추정치들이 보간을 사용하여 추정될 수도 있다. 대안적으로, 샘플 레졸루션은 불균일하게 이격될 수도 있고, 점진적으로 증가하는 레졸루션 또는 점진적으로 감소하는 레졸루션일 수도 있다. 샘플들 사이의 시간 차이를 감소시키면 (예를 들어, 추정된 샘플들을 사용하여 제 2 오디오 채널의 수 개의 샘플들에 걸쳐 1-샘플 시간 차이를 확산시키면), 프레임 경계에서의 불연속성을 평활화하거나 (예를 들어, 감소시키거나) 또는 보상한다.
제 2 채널을 조정한 후에, 인코더는 제 1 오디오 채널 및 조정된 제 2 오디오 채널에 기초하여 적어도 하나의 인코딩된 채널을 생성할 수도 있다. 예를 들어, 인코더는 제 1 오디오 채널 및 조정된 제 2 오디오 채널에 기초하여 미드-채널 및 사이드-채널을 생성할 수도 있다. 적어도 하나의 인코딩된 채널은 제 2 디바이스에 송신될 수도 있다. 제 2 디바이스는, 적어도 하나의 인코딩된 채널을 디코딩하도록 구성되는 디코더를 포함할 수도 있다. 적어도 하나의 인코딩된 채널의 생성에 앞서 제 2 오디오 채널이 조정되기 때문에, 디코딩된 오디오 채널들의 재생 동안, 프레임들 사이의 불연속성들로 인한 클릭들 또는 다른 사운드들이 감소될 (또는 제거될) 수도 있다.
도 1 을 참조하면, 미스매치 값들 사이의 차이에 기초하여 오디오 샘플들을 조정하도록 구성된 디바이스를 포함하는 시스템의 특정 예시적 예가 도시되고 일반적으로 100 으로 지정된다. 시스템 (100) 은 제 1 디바이스 (102) 및 제 2 디바이스 (160) 를 포함한다. 제 1 디바이스 (102) 는 네트워크 (152) 를 통해 제 2 디바이스 (160) 에 통신가능하게 커플링될 수도 있다. 네트워크 (152) 는 음성 인터넷 프로토콜 (voice over internet protocol ; VoIP) 네트워크, 음성 롱 텀 에볼루션 (voice over long-term evolution; VoLTE) 네트워크, 다른 패킷 교환 네트워크, 공중 교환 전화 네트워크 (PSTN) 네트워크, 모바일 통신용 글로벌 시스템 (GSM) 네트워크, 다른 회선 교환 네트워크, 인터넷, 무선 네트워크, 전기 전자 기술자 협회 (IEEE) 802.11 네트워크, 위성 네트워크, 유선 네트워크, 또는 다른 네트워크를 포함할 수도 있다. 특정 구현에서, 제 1 디바이스 (102), 제 2 디바이스 (160), 또는 이들 양쪽 모두는 통신 디바이스, 헤드셋, 디코더, 스마트 폰, 셀룰러 폰, 모바일 통신 디바이스, 랩톱 컴퓨터, 컴퓨터, 태블릿, 개인 휴대 정보 단말기 (PDA), 셋톱 박스, 비디오 플레이어, 엔터테인먼트 유닛, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 음악 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 튜너, 카메라, 내비게이션 디바이스, 차량, 차량의 온-보드 컴포넌트, 또는 이들의 조합을 포함할 수도 있다. 제 1 디바이스 (102) 는 본 명세서에서 데이터 (예를 들어, 채널들, 값들, 표시자들 등) 를 송신하는 것으로서 설명되고 제 2 디바이스 (160) 는 데이터를 수신하는 것으로서 설명되지만, 다른 구현들에서 제 1 디바이스 (102) 가 제 2 디바이스 (160) 로부터 데이터를 수신할 수도 있다. 따라서, 도 1 의 예시는 제한적이지 않다.
제 1 디바이스 (102) 는 인코더 (120), 메모리 (110), 및 하나 이상의 인터페이스들 (104) 을 포함할 수도 있다. 제 1 디바이스 (102) 는 편의를 위해 예시되지 않은 프로세서 (예를 들어, 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP) 등) 를 또한 포함할 수도 있다. 특정 구현에서, 인코더 (120) 는 제 3 세대 파트너십 프로젝트 (3GPP) 향상된 보이스 서비스 (enhanced voice services; EVS) 프로토콜과 같은 하나 이상의 표준들 또는 프로토콜들에 따라 통신하는 EVS 코덱에 포함 또는 통합될 수도 있다.
하나 이상의 인터페이스들 (104) 은 무선 인터페이스들 (예를 들어, IEEE 802.11 인터페이스들, 위성 인터페이스들, 근접장 통신 인터페이스들 등), 유선 인터페이스들, 입/출력 (I/O) 인터페이스들, 주변 인터페이스들, 및 다른 인터페이스들과 같은 네트워크 인터페이스들을 포함할 수도 있다. 하나 이상의 인터페이스들 (104) 중 제 1 입력 인터페이스는 제 1 마이크로폰 (140) 에 커플링될 수도 있고, 하나 이상의 인터페이들 (104) 의 제 2 입력 인터페이스는 제 2 마이크로폰 (144) 에 커플링될 수도 있고, 하나 이상의 인터페이스들 (104) 중 네트워크 인터페이스는 네트워크 (152) 를 통해 제 2 디바이스 (160) 에 통신가능하게 커플링될 수도 있다. 하나 이상의 인터페이스들 (104) 중 제 1 입력 인터페이스는 제 1 마이크로폰 (140) 으로부터 제 1 오디오 신호 (142) 를 수신하도록 구성될 수도 있고, 하나 이상의 인터페이스들 (104) 중 제 2 입력 인터페이스는 제 2 마이크로폰 (144) 으로부터 제 2 오디오 신호 (146) 를 수신하도록 구성될 수도 있다. 도 1 의 예에서, 제 1 오디오 신호 (142) 는 "레퍼런스 채널" 이고 제 2 오디오 신호 (146) 는 "타깃 채널" 이다. 예를 들어, 제 2 오디오 신호 (146) 는 제 1 오디오 신호와 시간적으로 정렬시키도록 조정 (예를 들어, 시간적으로 시프팅) 될 수도 있다. 그러나, 후술되는 바와 같이, 다른 구현들에서, 제 1 오디오 신호 (142) 는 타깃 채널일 수도 있고 제 2 오디오 신호 (146) 는 레퍼런스 채널일 수도 있다. 본 명세서에서 사용되는 바와 같이, "신호" 및 "채널" 은 상호교환가능하게 사용될 수도 있다. 다른 구현들에서, 제 1 디바이스 (102) 는 2 개 초과의 마이크로폰들에 통신가능하게 커플링되는 2 개 초과의 인터페이스들을 포함할 수도 있다. 특정 구현에서, 제 1 오디오 신호 (142) 는 우측 채널 신호 또는 좌측 채널 신호 중 하나를 포함하고, 제 2 오디오 신호 (146) 는 우측 채널 신호 또는 좌측 채널 신호 중 다른 하나를 포함한다. 다른 구현들에서, 오디오 신호들 (142 및 146) 은 다른 오디오 신호들을 포함한다.
하나 이상의 인터페이스들 (104) 중 네트워크 인터페이스는 인코딩된 오디오 채널들 및 관련 정보와 같은 데이터를 네트워크 (152) 를 통해 제 2 디바이스 (160) 에 송신하도록 구성될 수도 있다. 일부 구현들에서, 하나 이상의 인터페이스들 (104) 은 네트워크 (152) 를 통해 데이터를 전송하도록 그리고 수신하도록 구성되는 트랜시버, 수신기, 또는 이들 양쪽 모두 (또는 트랜시버) 를 포함할 수도 있다. 인코더 (120) 는, 본 명세서에서 추가로 설명되는 바와 같이, 오디오 채널들을 프로세싱 및 인코딩하도록 구성될 수도 있다. 대안적으로, 메모리 (110) 는 본 명세서에서 설명되는 동작들을 수행하기 위해 인코더 (120) (또는 프로세서) 에 의해 실행가능한 명령들을 저장할 수도 있다.
메모리 (110) 는 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 과 같은 미스매치 값들, 및 제 1 샘플들 (116) 및 제 2 샘플들 (118) 과 같은 오디오 샘플들을 저장할 수도 있다. 제 1 오디오 신호 (142) 는 제 1 샘플들 (116) 과 연관될 수도 있고 (예를 들어, 제 1 오디오 신호 (142) 가 샘플링되어 제 1 샘플들 (116) 을 생성할 수도 있다), 제 2 오디오 신호 (146) 는 제 2 샘플들 (118) 과 연관될 수도 있다 (예를 들어, 제 2 오디오 신호 (146) 가 샘플링되어 제 2 샘플들 (118) 을 생성할 수도 있다). 미스매치 값들 (112 및 114) 은, 본 명세서에서 추가로 설명되는 바와 같이, 제 1 샘플들 (116) 및 제 2 샘플들 (118) 을 시간적으로 정렬시키는 데 사용되는, 제 1 샘플들 (116) 과 제 2 샘플들 (118) 사이의 (예를 들어, 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 사이의) 시프트들을 나타낼 수도 있다. 일부 구현들에서, 메모리 (110) 는 표시자들, 이득 파라미터들, 및 오디오 채널들의 인코딩 및 송신과 관련된 다른 정보를 나타내는 데이터와 같은 추가 데이터를 저장할 수도 있다.
인코더 (120) 는 다수의 오디오 채널들을 다운-믹싱 및 인코딩하도록 구성될 수도 있다. 다수의 오디오 채널들을 프로세싱 및 인코딩하는 것의 부분으로서, 인코더 (120) 는 오디오 채널을 다른 오디오 채널에 대해 시간적으로 정렬시키도록 구성될 수도 있다. 예를 들어, 인코더 (120) 는 인코딩에 앞서 제 1 샘플들 (116) 및 제 2 샘플들 (118) 을 조작함으로써 레퍼런스 채널 (142) 의 프레임들을 타깃 채널 (146) 의 프레임들과 시간적으로 정렬시키도록 구성될 수도 있다. 오디오 채널들을 시간적으로 정렬시키면 오디오 채널들에 기초하여 사이드-채널 (또는 파라미터들) 을 인코딩하는 데 사용되는 비트들의 개수를 감소시킬 수도 있고, 그에 의해 오디오 채널들에 기초하여 미드-채널을 인코딩하는 데 사용되는 비트들의 개수를 증가시킬 수도 있다. 미드-채널을 인코딩하기 위해 더 많은 비트들을 사용하면 미드-채널의 코딩 효율을 증가시킬 수도 있고 제 2 디바이스 (160) 에서 디코딩된 오디오 채널들의 재생 품질을 증가시킬 수도 있다.
제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 를 시간적으로 정렬시키기 위해, 인코더 (120) 는 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 결정하도록 구성될 수도 있다. 예를 들어, 인코더 (120) 는, 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 결정하도록 구성된 시프트 추정기 (121) 를 포함할 수도 있다. 제 1 미스매치 값 (112) 은 제 2 오디오 신호 (146) 의 제 2 프레임에 대한 제 1 오디오 신호 (142) 의 제 1 프레임의 시프트를 나타낼 수도 있고, 제 2 미스매치 값 (114) 은 제 2 오디오 신호 (146) 의 제 4 프레임에 대한 제 1 오디오 신호 (142) 의 제 3 프레임의 시프트를 나타낼 수도 있다. 제 3 프레임은 제 1 프레임에 후속될 수도 있고, 제 4 프레임은 제 2 프레임에 후속될 수도 있다. 미스매치 값들 (112 및 114) 은 제 2 오디오 신호 (146) (예를 들어, "레퍼런스" 신호) 가 시간-시프팅되어 제 2 오디오 신호 (146) 를 제 1 오디오 신호 (142) (예를 들어, "타깃" 신호) 와 시간적으로 정렬시켜야 하는 샘플들의 개수 (또는 (밀리초 단위) 시간량) 를 나타낼 수도 있다. 예시적 예로서, 타깃 채널의 특정 프레임은 타깃 채널의 (예를 들어, 샘플링 레이트에 기초하는) 2 개의 샘플들에 대응하는 시간 기간 (time period) 만큼 레퍼런스 채널의 대응하는 프레임에 비해 지연되고, 대응하는 미스매치 값은 2 의 값을 갖는다. 타깃 채널은 레퍼런스 채널 (예를 들어, 시간-시프팅되지 않은 신호) 에 대해 시간-시프팅되는 신호를 지칭할 수도 있다. 시간-시프팅 또는 조정되는 타깃 채널 (예를 들어, "조정된 타깃 채널") 은 코딩된 타깃 채널과는 상이한데, 이 코딩된 타깃 채널은 코딩된 신호 (예를 들어, 본 명세서에서 추가로 설명되는 바와 같은, 미드 채널 신호, 사이드 채널 신호 등) 를 생성하는 데 사용되는 신호를 지칭한다. 본 명세서에서 추가로 설명되는 바와 같이, 인코더 (120) 는 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 어떤 것이 각각의 프레임에 대한 타깃 채널 (또는 레퍼런스 채널) 인지를 결정할 수도 있다. 어떤 신호가 타깃 채널인지 그리고 어떤 신호가 레퍼런스 채널인지의 결정은 프레임 기반으로 이루어질 수도 있다. 예를 들어, 인코더 (120) 는 프레임들의 제 1 쌍 (예를 들어, 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 에 대응하는 제 1 프레임) 에 대해 제 1 오디오 신호 (142) 가 레퍼런스 채널이고 제 2 오디오 신호 (146) 가 타깃 채널이라는 것을 결정할 수도 있고, 인코더 (120) 는 프레임들의 제 2 쌍 (예를 들어, 제 1 오디오 신호 (142) 에 대응하는 제 3 프레임 및 제 2 오디오 신호 (146) 에 대응하는 제 4 프레임) 에 대해 제 1 오디오 신호 (142) 가 타깃 채널이고 제 2 오디오 신호 (146) 가 레퍼런스 채널이라는 것을 결정할 수도 있다.
제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 는 제 1 마이크로폰 (140), 제 2 마이크로폰 (144), 및 사운드 소스 (150) 의 위치들로 인해 시간적으로 정렬되지 않을 수도 있다. 예를 들어, 사운드 소스 (150) 는 원격회의실에서 말하는 사람일 수도 있고, 특정 시간에, 사람 (예를 들어, 사운드 소스 (150)) 은 제 2 마이크로폰 (144) 에 대한 것보다 제 1 마이크로폰 (140) 에 더 가까울 수도 있다. 다른 예들에서, 사운드 소스 (150) 는 주변 노이즈, 악기, 음악 소스, 또는 다른 사운드 소스일 수도 있다. 사운드 소스 (150) 가 제 2 마이크로폰 (144) 으로부터 더 멀리 있기 때문에, 제 2 오디오 신호 (146) 는 제 1 오디오 신호 (142) 에 비해 지연되어 수신될 수도 있다.
제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 사이의 차이는 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 가 시간적으로 정렬될 때에 비하면 하나의 오디오 채널이 지연될 때 더 클 수도 있다. 큰 차이는 인코더 (120) 에서의 코딩 효율을 감소시킬 수도 있다. 예시하기 위해, 인코더 (120) 는, 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 에 기초하여, 인코딩된 채널들 (180) 과 같은 적어도 하나의 인코딩된 채널을 생성하도록 구성될 수도 있다. 예를 들어, 인코더 (120) 는, 인코딩된 채널들 (180) 을 생성하도록 구성된 채널 생성기 (130) 를 포함할 수도 있다. 특정 구현에서, 채널 생성기 (130) 는 미드-채널 (예를 들어, 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 의 합을 표현하는 채널) 및 사이드-채널 (예를 들어, 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 사이의 차이를 표현하는 채널) 을 생성하기 위해 스테레오 인코딩을 수행하도록 구성될 수도 있다. 인코딩된 채널들 (180) 은 미드-채널, 사이드-채널, 또는 이들 양쪽 모두를 포함할 수도 있다.
채널 생성기 (130) 는 다음의 식들에 따라 미드-채널 및 사이드-채널을 생성할 수도 있다:
Figure 112018058937869-pct00001
식 1a
Figure 112018058937869-pct00002
식 1b
Figure 112018058937869-pct00003
식 2a
Figure 112018058937869-pct00004
식 2b
여기서 M 은 미드-채널에 대응하고, S 는 사이드-채널에 대응하고,
Figure 112018058937869-pct00005
는 상대 이득 파라미터 (예를 들어, 레퍼런스 채널 및 타깃 채널의 전력 레벨들을 정규화 (또는 등화 (equalize)) 하기 위한 파라미터) 에 대응하고,
Figure 112018058937869-pct00006
은 레퍼런스 채널의 샘플들에 대응하고,
Figure 112018058937869-pct00007
은 타깃 채널의 샘플들에 대응하고,
Figure 112018058937869-pct00008
은 제 2 프레임의 (제 1 미스매치 값 (112) 에 기초하는) 비-인과적 미스매치 값 (non-causal mismatch value) 에 대응한다. 예로서, 이득 파라미터는 다음의 식들 중 하나에 기초할 수도 있다:
Figure 112018058937869-pct00009
식 3a
Figure 112018058937869-pct00010
식 3b
Figure 112018058937869-pct00011
식 3c
Figure 112018058937869-pct00012
식 3d
Figure 112018058937869-pct00013
식 3e
Figure 112018058937869-pct00014
식 3f
대안적으로, 채널 생성기 (130) 는 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 사이의 차이에 기초하여 미드-채널 및 하나 이상의 사이드 채널 파라미터들을 생성할 수도 있다. 다른 구현들에서, 채널 생성기 (130) 는 다른 인코딩, 예컨대 파라메트릭 스테레오 인코딩 (parametric stereo encoding), 듀얼-모노 인코딩, 또는 다른 인코딩을 수행하도록 구성될 수도 있다.
인코딩된 채널들 (180) 이 미드-채널 및 사이드-채널을 포함하는 구현들에서, 인코딩된 채널들에 대해 사용되는 총 개수의 비트들은 미드-채널의 인코딩과 사이드-채널의 인코딩 사이에서 분할된다. 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 사이의 차이가 작은 경우, 사이드-채널의 인코딩을 위해 몇몇 비트들이 사용되고, 대부분의 비트들은 미드-채널을 인코딩하기 위해 사용된다. 미드-채널을 인코딩하기 위해 더 많은 비트들을 사용하면 코딩 효율을 증가시키고, 제 2 디바이스 (160) 에서 출력되는 디코딩된 오디오 채널들의 품질을 증가시킬 수도 있다. 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 사이의 차이가 클 때, 사이드 채널 신호를 인코딩하기 위해 더 많은 비트들이 사용되는데, 이는 미드 채널 신호를 인코딩하는 데 이용가능한 비트들의 개수를 감소시킨다. 따라서, 인코더 (120) (예를 들어, 시프트 추정기 (121)) 는 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 를 시간적으로 정렬시켜 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 사이의 차이를 감소시키도록 구성되어, 그에 의해 미드-채널을 인코딩하는 데 이용가능한 비트들의 개수를 증가시킬 수도 있다.
제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 를 시간적으로 정렬시키기 위해, 인코더 (120) (예를 들어, 시프트 추정기 (121)) 는 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 의 프레임들의 각각의 쌍에 대해 미스매치 값들 (예를 들어, 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114)) 을 결정하도록 구성될 수도 있다. 제 1 미스매치 값 (112) 은 제 1 마이크로폰 (140) 을 통한 제 1 오디오 신호 (142) 의 제 1 프레임의 수신과 제 2 마이크로폰 (144) 을 통한 제 2 오디오 신호 (146) 의 제 2 프레임의 수신 사이의 시간 지연량에 대응할 수도 있고, 제 2 미스매치 값 (114) 은 제 1 마이크로폰 (140) 을 통한 제 1 오디오 신호 (142) 의 제 3 프레임의 수신과 제 2 마이크로폰 (144) 을 통한 제 2 오디오 신호 (146) 의 제 4 프레임의 수신 사이의 시간 지연량에 대응할 수도 있다.
제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 은 제 1 다운-샘플링된 채널과 제 2 다운-샘플링된 채널의 비교들에 기초하여 결정될 수도 있다. 제 1 다운-샘플링된 채널은 제 1 오디오 신호 (142) 에 기초할 수도 있고 제 2 다운-샘플링된 채널은 제 2 오디오 신호 (146) 에 기초할 수도 있다. 예시하기 위해, 시프트 추정기 (121) 는 레퍼런스 채널 (142) 을 다운-샘플링하여 제 1 다운-샘플링된 채널을 생성하도록 그리고 타깃 채널 (146) 을 다운-샘플링하여 제 2 다운-샘플링된 채널을 생성하도록 구성될 수도 있다. 다른 구현들에서, 다운-샘플링된 채널들은 업-샘플링된 채널들과 같은 다른 재샘플링된 채널들일 수도 있다.
시프트 추정기 (121) 는 제 1 다운-샘플링된 채널과 제 2 다운-샘플링된 채널의 비교들에 기초하여 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 결정하도록 구성될 수도 있다. 예를 들어, 시프트 추정기 (121) 는 제 1 샘플들 (116) 과 제 2 샘플들 (118) 의 비교들에 기초하여 차이 값들, 유사도 값들, 코히어런스 값들, 또는 교차 상관 값들과 같은 비교 값들을 생성할 수도 있다. 시프트 추정기 (121) 는 다른 비교 값들보다 더 높은 (또는 더 낮은) 값을 갖는 특정 비교 값을 식별할 수도 있고, 시프트 추정기 (121) 는 특정 비교 값에 대응하는 미스매치 값 (예를 들어, "잠정적" 미스매치 값) 을 식별할 수도 있다. 예를 들어, 시프트 추정기 (121) 는 제 1 다운-샘플링된 채널의 샘플 (또는 다수의 샘플들) 을 제 2 다운-샘플링된 채널의 샘플들과 비교하여 비교 값들을 생성할 수도 있고, 시프트 추정기 (121) 는 최저 (또는 최고) 비교 값에 대응하는 제 2 다운-샘플링된 채널의 특정 샘플을 식별할 수도 있다. 시프트 추정기 (121) 는 제 1 다운-샘플링된 채널의 샘플에 대한 제 2 다운-샘플링된 채널의 특정 샘플의 지연에 기초하여 잠정적 미스매치 값을 생성할 수도 있다.
시프트 추정기 (121) 는 잠정적 미스매치 값에 기초하여 하나 이상의 보간된 비교 값들 및 보간된 미스매치 값을 생성할 수도 있다. 시프트 추정기 (121) 는 보간된 미스매치 값을 "정제" (refine) 하여 미스매치 값을 생성할 수도 있다. 예를 들어, 이전 프레임과 연관된 미스매치 값과 보간된 미스매치 값 사이의 차이가 임계치를 초과하는 경우, 시프트 추정기 (121) 는 미스매치 값으로서 임계 값 (예를 들어, "최대" 미스매치 값) 을 선택할 수도 있고, 차이가 임계치를 초과하지 않는 경우, 시프트 추정기 (121) 는 미스매치 값으로서 보간된 미스매치 값을 선택할 수도 있다. 임계치는 프레임마다 발생할 수도 있는 임계 불연속성 레벨을 설정하도록 선택될 수도 있다. 예를 들어, 임계치는 불연속성이 4 개의 샘플들보다 더 크지 않도록 4 개의 샘플들로 설정될 수도 있다. 임계치를 작은 값으로 설정하면 디코딩된 오디오 채널들의 재생 동안 불연속성들에 의해 야기되는 클릭들 또는 다른 가청 사운드들을 감소시킬 (또는 방지할) 수도 있다. 다른 구현들에서, 임계치는 보다 높을 수도 있고, 타깃 채널은 프레임간 불연속성들을 보상하기 위해 (또는 은폐하기 위해) 조정 (예를 들어, 평활화 또는 슬로우-시프팅) 될 수도 있다. 시프트 추정기 (121) 는 시프트가 이전 미스매치 값에 비해 방향이 변경되었는지 여부에 기초하여 미스매치 값의 부호 (예를 들어, 포지티브 부호 또는 네거티브 부호) 를 또한 결정할 수도 있다.
미스매치 값들 (예를 들어, 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114)) 을 결정한 후에, 타깃 채널은 대응하는 미스매치 값에 기초하여 프레임에 대해 시프팅될 수도 있다. 특정 예에서, 제 2 오디오 신호 (146) 는 제 2 오디오 신호 (146) 에 대응하는 프레임들 양쪽 모두에 대한 타깃 채널이고, 제 2 오디오 신호 (146) 의 제 2 프레임은 제 1 미스매치 값 (112) 에 기초하여 시프팅되고, 제 2 오디오 신호 (146) 의 제 4 프레임은 제 2 미스매치 값 (114) 에 기초하여 시프팅된다. 예를 들어, 제 2 프레임에 대응하는 제 2 샘플들 (118) 의 부분은 제 1 미스매치 값 (112) 에 기초하는 양만큼 제 1 프레임에 대응하는 제 1 샘플들 (116) 의 부분에 대해 시간-시프팅될 수도 있고, 제 4 프레임에 대응하는 제 2 샘플들 (118) 의 부분은 제 2 미스매치 값 (114) 에 기초하는 양만큼 제 3 프레임에 대응하는 제 2 샘플들 (118) 의 부분에 대해 시간-시프팅될 수도 있다. 도 2 및 도 3 은 제 2 오디오 신호 (146) 를 제 1 오디오 신호 (142) 와 시간적으로 정렬시키기 위한 제 2 오디오 신호 (146) 의 시간-시프팅 샘플들을 예시한다.
타깃 채널 (예를 들어, 제 2 오디오 신호 (146)) 의 샘플들을 시간-시프팅하기 위해, 인코더 (120) 는 타깃 채널의 "장래" 값들에 액세스할 수도 있다. 특정 구현에서, 제 1 디바이스 (102) 는 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 의 샘플들을 저장하는 버퍼를 포함하고, 인코더 (120) 는 특정 샘플에 앞서 순차적으로 발생하는 샘플들에 액세스하는 것이 가능할 수도 있다. 일부 구현들에서, 버퍼는 제 1 디바이스 (102) 에서 음성 프로세싱 동작들을 수행하는 데 사용되는 룩어헤드 버퍼 (lookahead buffer) 를 포함하거나 또는 그에 대응할 수도 있다. 타깃 채널의 특정 샘플 (예를 들어, "현재" 샘플) 에 후속하여 발생하는 샘플들이 버퍼에서 이용가능하기 때문에, 도 2 및 도 3 을 참조하여 추가로 설명되는 바와 같이, 타깃 채널 (예를 들어, 제 2 오디오 신호 (146)) 은 타깃 채널의 순차적으로 후속하는 샘플을 레퍼런스 채널의 특정 샘플과 정렬시킴으로써 시간-시프팅될 수도 있다.
제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 이 동일한 값을 갖지 않은 경우 (예를 들어, 동일하지 않은 경우), 제 2 오디오 신호 (146) 의 제 2 프레임과 제 4 프레임 사이에 불연속성이 있을 수도 있다. 불연속성을 보상 (또는 은폐) 하기 위해, 인코더 (120) 는 프레임간 불연속성들을 감소시키기 위해 제 2 샘플들 (118) (예를 들어, 타깃 채널의 샘플들) 을 조정할 수도 있다. 타깃 채널을 조정하는 것은, 타깃 채널을 "평활화하는" 것 또는 "슬로우-시프팅하는" 것으로 또한 지칭될 수도 있다. 인코더 (120) 는 제 2 오디오 신호 (146) 가 타깃 채널로서 식별되는 프레임들에 대한 제 2 샘플들 (118) 을 조정할 수도 있다. 대안적으로, 인코더 (120) 는 제 1 오디오 신호 (142) 가 타깃 채널로서 식별되는 프레임들에 대한 제 1 샘플들 (116) 을 조정할 수도 있다. 따라서, 어떤 샘플들이 조정되는지 (예를 들어, 어떤 오디오 채널이 "평활화" 또는 "슬로우-시프팅" 되는지) 는 어떤 오디오 채널이 특정 프레임에 대한 타깃 채널로서 식별되는지에 좌우된다.
타깃 채널의 조정을 가능하게 하기 위해, 인코더 (120) 는 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 사이의 차이 (124) 를 결정하도록 구성될 수도 있다. 예를 들어, 인코더 (120) 는, 차이 (124) 를 결정하도록 구성된 비교기 (122) 를 포함할 수도 있다. 비교기 (122) 는 제 2 미스매치 값 (114) 으로부터 제 1 미스매치 값 (112) 을 감산하여 차이 (124) 를 결정하도록 구성될 수도 있다. 제 1 미스매치 값 (112) 은 제 2 오디오 신호 (146) 의 제 2 프레임에 대한 제 1 오디오 신호 (142) 의 제 1 프레임의 시프트를 나타낼 수도 있고, 제 2 미스매치 값 (114) 은 제 2 오디오 신호 (146) 의 제 4 프레임에 대한 제 1 오디오 신호 (142) 의 제 3 프레임의 시프트를 나타낼 수도 있다. 특정 예로서, 제 1 미스매치 값 (112) 은 2 개의 샘플들일 수도 있고, 제 2 미스매치 값 (114) 은 3 개의 샘플들일 수도 있고, 차이 (124) 는 하나의 샘플일 수도 있다. 차이 (124) 는 부호를 지닌 값 (예를 들어, 포지티브 값 또는 네거티브 값) 일 수도 있다. 차이 (124) 에 대한 포지티브 값은 레퍼런스 채널에 비하면 타깃 채널의 지연이 증가하고 있음을 나타낼 수도 있고, 차이 (124) 에 대한 네거티브 값은 레퍼런스 채널에 비하면 타깃 채널의 지연이 감소하고 있음을 나타낼 수도 있고, 차이 (124) 에 대한 제로의 값은 지연이 제 2 프레임과 제 4 프레임 사이에서 동일하게 (또는 거의 동일하게) 유지됨을 나타낼 수도 있다.
인코더 (120) 는 차이 (124) 에 기초하여 제 2 샘플들 (118) 을 조정하여 조정된 샘플들의 세트 (128) 를 생성하도록 구성될 수도 있다. 예를 들어, 인코더는, 차이 (124) 에 기초하여 제 2 샘플들 (118) 을 조정하여 조정된 샘플들의 세트 (128) 를 생성하도록 구성된 샘플 조정기 (126) 를 포함할 수도 있다. 특정 구현에서, 샘플 조정기 (126) 는 차이 (124) 에 기초하여 제 2 샘플들 (118) 의 부분을 보간하여 추정된 샘플들의 세트를 생성하도록 구성될 수도 있고, 샘플 조정기 (126) 는 그 부분을 추정된 샘플들의 세트로 대체시켜 조정된 샘플들 (128) 을 생성하도록 구성될 수도 있다. 샘플들의 부분은 타깃 채널의 단일 오디오 프레임으로부터의, 또는 타깃 채널의 다수의 프레임들로부터의 샘플들을 포함할 수도 있다. 예를 들어, 타깃 채널의 제 2 프레임 (레퍼런스 채널의 제 1 프레임에 대응함) 과 타깃 채널의 제 4 프레임 (레퍼런스 채널의 제 3 프레임에 대응함) 사이에 불연속성이 존재하는 경우, 특정 구현에서, 샘플 조정부 (126) 는 제 4 프레임에 대응하는 샘플들을 조정할 수도 있다. 다른 특정 구현에서, 샘플 조정기 (126) 는 제 2 프레임에 대응하는 샘플들을 조정할 수도 있다. 다른 특정 구현에서, 샘플 조정기 (126) 는 제 2 프레임 및 제 4 프레임에 대응하는 샘플들을 조정할 수도 있다.
차이 (124) 에 기초하여 샘플들을 조정하는 제 1 특정 예가 도 2 에 예시된다. 도 2 는 제 1 샘플들 (116), 제 2 샘플들 (118), 및 조정된 샘플들 (128) 을 예시하는 다이어그램 (200) 을 포함한다. 도 2 에 예시된 샘플들은 제 1 오디오 신호 (142) 에 대응하는 제 1 샘플들 (116) 및 제 2 오디오 신호 (146) 에 대응하는 제 2 샘플들 (118) 을 포함한다. 오디오 신호들 (142 및 146) 의 프레임들 각각은 특정 개수의 샘플들에, 또는 특정 시간 지속기간 및 특정 샘플 레이트에 대응할 수도 있다. 도 2 에 예시된 특정 예에서, 각각의 프레임은 20 밀리초들 (ms) 에 대응하는 특정 샘플링 레이트 (예를 들어, 32 킬로헤르쯔 (kHz)) 로 샘플링되는 640 개의 샘플들을 포함한다. 다른 구현들에서, 프레임들은 640 개보다 더 적거나 또는 640 개보다 더 많은 샘플들을 포함할 수도 있다. 예로서, 각각의 프레임은 20 ms 에 대응할 수도 있는 48 kHz 로 샘플링되는 960 개의 샘플들을 포함할 수도 있다.
상술된 바와 같이, 제 1 오디오 신호 (142) 는 레퍼런스 채널일 수도 있고, 제 2 오디오 신호 (146) 는 타깃 채널일 수도 있다. 제 2 오디오 신호 (146) 는 제 1 오디오 신호 (142) 에 비해 지연되어 수신될 수도 있다. 시프트 추정기 (121) 는 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 의 프레임들을 시간적으로 정렬시키는 데 사용되는 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 결정할 수도 있다. 도 2 에 예시된 특정 예에서, 제 1 미스매치 값 (112) (Tprev) 은 2 이고 제 2 미스매치 값 (114) (T) 은 3 이다. 제 1 오디오 신호 (142) 의 제 1 프레임 (202) 을 제 2 오디오 신호 (146) 의 제 2 프레임 (204) 과 시간적으로 정렬시키기 위해, 제 2 프레임 (204) 에 대응하는 제 2 샘플들 (118) 의 그룹이 2 개의 샘플들만큼 시프팅된다. 예시하기 위해, 시프트 추정기 (121) 는 각각의 오디오 채널의 샘플들 0 내지 639 를 포함하는 "입력 프레임" (예를 들어, 제 1 오디오 신호 (142) 의 제 1 프레임 및 제 2 오디오 신호 (146) 의 제 2 프레임) 을 수신할 수도 있다. 시프트 추정기 (121) 는 타깃 채널을 레퍼런스 채널과 시간적으로 정렬시키기 위해 미스매치 값을 결정할 수도 있고, 시프트 추정기 (121) 는 타깃 채널의 시프팅된 제 2 프레임 및 레퍼런스 채널의 제 1 프레임을 포함하는 "시프팅된 프레임" 을 생성하기 위해 타깃 채널을 미스매치 값만큼 시프팅시킬 수도 있다. 예를 들어, 제 2 샘플들 (118) 의 샘플들 2 내지 641 은 제 1 샘플들 (116) 의 샘플들 0 내지 639 와 정렬되어 시프팅된 프레임을 생성한다. 제 1 오디오 신호 (142) 의 제 3 프레임 (206) 을 제 2 오디오 신호 (146) 의 제 4 프레임 (208) 과 시간적으로 정렬시키기 위해, 제 4 프레임 (208) 에 대응하는 제 2 샘플들 (118) 의 그룹이 3 개의 샘플들만큼 시프팅된다. 시프트 추정기 (121) 는 각각의 오디오 채널의 샘플들 640 내지 1279 를 포함하는 제 2 입력 프레임 (예를 들어, 제 1 오디오 신호 (142) 의 제 3 프레임 및 제 2 오디오 신호 (146) 의 제 4 프레임) 을 수신할 수도 있다. 시프트 추정기 (121) 는 타깃 채널을 레퍼런스 채널과 시간적으로 정렬시키기 위해 제 2 미스매치 값을 결정할 수도 있고, 시프트 추정기 (121) 는 타깃 채널의 시프팅된 제 4 프레임 및 레퍼런스 채널의 제 3 프레임을 포함하는 제 2 시프팅된 프레임을 생성하기 위해 타깃 채널을 미스매치 값만큼 시프팅시킬 수도 있다. 예를 들어, 제 2 샘플들 (118) 의 샘플들 643 내지 1282 는 제 1 샘플들 (116) 의 샘플들 640 내지 1279 와 정렬되어 제 2 시프팅된 프레임을 생성한다. 시프팅된 프레임 및 제 2 시프팅된 프레임을 생성한 후에, 샘플 조정기 (126) 는 제 2 시프팅된 프레임의 샘플들을 조정하여 조정된 제 2 시프팅된 프레임을 생성하여 시프팅된 프레임과 제 2 시프팅된 프레임 사이의 불연속성을 보상 (또는 은폐) 할 수도 있다.
제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 이 상이할 때, 제 2 프레임 (204) 과 제 4 프레임 (208) 사이의 경계에 불연속성이 존재할 수도 있다. 제 2 미스매치 값 (114) 이 제 1 미스매치 값 (112) 보다 더 큰 경우, 하나 이상의 샘플들이 스킵될 수도 있다. 도 2 에 도시된 바와 같이, 제 2 미스매치 값 (114) 과 제 1 미스매치 값 (112) 사이의 차이 (124) (예를 들어, 1 프레임 차이) 로 인해 샘플 642 가 스킵된다. 따라서, 샘플 642 에 대응하는 오디오는 인코딩된 채널들 (180) 의 부분으로서 인코더 (120) 에 의해 인코딩되지 않을 수도 있다. (프레임들 사이의 불연속성을 갖는) 인코딩된 채널들 (180) 이 디코딩되고 제 2 디바이스 (160) 에서 재생될 때, 누락된 샘플로 인해 클릭, 팝 (pop), 히스 (hiss), 또는 다른 오디오 사운드가 들릴 수도 있다. 스킵되는 샘플들의 개수가 증가함에 따라, 클릭들 및 다른 오디오 사운드들이 청취자에게 더 눈에 띄게 될 수도 있다.
프레임들 사이의 불연속성들을 보상하기 위해 (또는 은폐하기 위해), 인코더 (120) 의 샘플 조정기 (126) 는 차이 (124) 에 기초하여 제 2 샘플들 (118) 을 조정할 수도 있다. 제 2 샘플들 (118) 을 조정하는 것은, 차이 (124) 에 기초하여 제 2 샘플들 (118) 의 부분을 보간하여 추정된 샘플들 (210) 을 생성하는 것을 포함할 수도 있다. 예를 들어, 샘플 조정기 (126) 는 제 4 프레임 (208) 에 대응하는 제 2 샘플들 (118) 의 서브세트를 보간할 수도 있다. 대안적으로, 샘플 조정기 (126) 는 제 2 프레임 (204) 에 대응하는 제 2 샘플들 (118) 의 서브세트, 또는 제 2 프레임 (204) 및 제 4 프레임 (208) 에 대응하는 샘플들의 서브세트를 보간할 수도 있다. 보간은 확산 팩터 (spreading factor) N_SPREAD 에 대응하는 수의 샘플들에 대해 수행될 수도 있다. 샘플들의 서브세트를 보간하여 추정된 샘플들 (210) 을 생성하면 확산 팩터 N_SPREAD 에 대응하는 수의 샘플들에 걸쳐 불연속성을 확산 (예를 들어, 평활화 또는 슬로우-시프팅) 시킬 수도 있다. 특정 구현에서, 확산 팩터 N_SPREAD 의 값은 대응하는 프레임 (예를 들어, 제 4 프레임 (208)) 의 샘플들의 개수 N 보다 더 적다. 대안적으로, 확산 팩터 N_SPREAD 의 값은 대응하는 프레임 내의 샘플들의 개수 N 과 동일할 수도 있다. 다른 대안들에서, 확산 팩터 N_SPREAD 는 N 보다 더 클 수 있고, 확산은 다수의 프레임들에 걸쳐 수행될 수 있다. 예를 들어, 2 개의 프레임들 (예를 들어, 도 2 의 제 2 프레임 (204) 및 제 4 프레임 (208)) 사이의 불연속성은 N 보다 더 큰 값을 갖는 확산 팩터 N_SPREAD 를 사용하여 다수의 프레임들에 걸쳐 확산될 수도 있다. 큰 확산 팩터 N_SPREAD (예를 들어, N 이상인 N_SPREAD) 를 사용하면 불연속성이 샘플들에 걸쳐 확산되게 하는 평활도를 증가시킬 수도 있다.
도 2 에 예시된 예에서, 확산 팩터 N_SPREAD 의 값은 4 개의 샘플들이다. 다른 구현들에서, 확산 팩터 N_SPREAD 의 값은 4 개보다 더 적거나 또는 4 개보다 더 많은 샘플들일 수도 있다. 특정 구현에서, 확산 팩터 N_SPREAD 의 값은 528 개의 샘플들이다. 확산 팩터는 인코더 (120) 또는 메모리 (110) 에 저장될 수도 있다. 특정 구현에서, 확산 팩터는 오디오 채널들의 타깃 평활도 레벨 또는 채널 조정에 할당될 프로세싱의 타깃 레벨에 기초하여 (예를 들어, 제 1 디바이스 (102) 의 제조 또는 프로그래밍 동안, 소프트웨어 또는 펌웨어 설치 또는 업데이트 동안 등) 선택되는 미리 프로그래밍되는 값이다. 예시하기 위해, 확산 팩터 N_SPREAD 에 대한 높은 값은 채널 조정을 수행하는 데 사용되는 프로세싱 리소스들을 증가시키면서 채널 조정의 평활도를 증가시킬 수도 있고 (예를 들어, 보다 높은 입도 (granularity) 를 사용하여 보간이 수행될 수도 있다), 확산 팩터 N_SPREAD 의 낮은 값은 채널 조정의 평활도를 감소시키면서 채널 조정을 수행하는 데 사용되는 프로세싱 리소스들을 감소시킬 수도 있다 (예를 들어, 보다 작은 입도를 사용하여 보간이 수행될 수도 있다).
다른 특정 구현에서, 확산 팩터 N_SPREAD 의 값은 오디오 평활도 설정에 기초한다. 예를 들어, 사용자는 오디오 평활도 설정을 선택할 수도 있고, 확산 팩터 N_SPREAD 는 오디오 평활도 설정에 기초하여 제 1 디바이스 (102) 에 의해 (예를 들어, 샘플 조정기 (126) 에 의해) 결정될 수도 있다. 추가적으로 또는 대안적으로, 확산 팩터 N_SPREAD 의 값은 오디오 채널들의 프레임 타입, 오디오 채널들의 샘플 레이트, 오디오 채널들의 피치, 과거의 지연 휴리스틱스 (past delay heuristics), 또는 이들의 조합에 기초할 수도 있다. 예시적 예로서, 확산 팩터 N_SPREAD 는 프레임 타입, 샘플 레이트, 피치, 과거의 지연 휴리스틱스, 또는 이들의 조합에 기초하여 64 개의 샘플들과 580 개의 샘플들 사이에서 변동될 수도 있다. 다른 특정 구현에서, (예를 들어, 인접한 프레임들의 미스매치 값들 사이의) 차이 D 의 임계 값은 타깃 채널의 프레임 타입에 기초할 수도 있다. 인코더 (120) 는 제 2 오디오 신호 (146) (예를 들어, 타깃 채널) 의 프레임 타입을 결정할 수도 있고, 인코더 (120) 는 프레임 타입에 기초하여 D 의 값이 특정 임계치를 초과하지 않는다는 것을 보장할 수도 있다. 예를 들어, 인코더 (120) 또는 메모리 (110) 는 D 의 임계 값들을 프레임 타입들에 맵핑시키는 테이블 (또는 다른 데이터 구조체) 을 저장할 수도 있다. 프레임 타입은 음성, 음악, 노이즈, 또는 다른 오디오 타입들을 포함할 수도 있다. 특정 예들로서, 음성은 4 의 임계 값과 연관될 수도 있고 (예를 들어, 음성의 인접한 프레임들의 미스매치 값들 사이의 차이는 4 를 초과하지 않을 수도 있다), 음악은 1 의 임계 값과 연관될 수도 있고 (예를 들어, 음악의 인접한 프레임들의 미스매치 값들 사이의 차이는 1 을 초과하지 않을 수도 있다), 노이즈는 20 의 임계 값과 연관될 수도 있다 (예를 들어, 노이즈의 인접한 프레임들의 미스매치 값들 사이의 차이는 20 을 초과하지 않을 수도 있다). 음성이 4 개의 프레임들의 임계 값과 연관되는 예시적 예로서, 이전 프레임이 1 의 미스매치 값을 갖는 경우, 현재 프레임에 대해 결정된 미스매치 값은 5 를 초과하지 않아서, 현재 프레임과 이전 프레임의 미스매치 값 사이의 차이는 4 개의 프레임들 (예를 들어, 음성 프레임들과 연관된 임계 값) 을 초과하지 않는다. 추가적으로 또는 대안적으로, 임계 값은 오디오 채널들의 주기성, 오디오 채널들의 시간/스펙트럼 희소성, 프레임 타입, 또는 이들의 조합에 기초할 수도 있다.
제 4 프레임 (208) 의 샘플들 중에서 프레임간 불연속성을 확산시키기 위해, 샘플 조정기 (126) 는 도 2 에 예시된 예에서 4 개의 추정된 샘플들을 포함하는 추정된 샘플들 (210) 을 생성한다. 추정된 샘플들 (210) 은 이전 프레임의 마지막 샘플 (예를 들어, 제 2 프레임 (204) 의 샘플 641) 및 현재 프레임 (예를 들어, 제 4 프레임 (208)) 의 처음 4 개의 샘플들을 보간함으로써 생성된다. 예를 들어, 추정된 샘플들 (210) 은 샘플들 642.w, 643.x, 644.y, 및 646.z 를 포함할 수도 있다. 특정 구현에서, 추정된 샘플들 (210) 은 추정된 샘플들 사이에 균일한 이격을 가질 수도 있다. 이 구현에서, 추정된 샘플들은 다음의 식에 기초하는 보간 팩터를 사용하여 생성될 수도 있다:
보간 팩터 = D/N_SPREAD 식 4
여기서 D 는 현재 프레임과 이전 프레임 사이의 차이 (예를 들어, 차이 (124)) 이고, 여기서 N_SPREAD 는 확산 팩터이다. 도 2 에 예시된 바와 같이, 추정된 샘플들 (210) 은 샘플들 642.w, 643.x, 644.y, 및 646.z 의 추정치들을 포함할 수도 있다. 추정된 샘플들이 균일하게 이격된 예시적인 실시형태에서, D 는 1 이고, N_SPREAD 는 4 이고, 보간 팩터는 1/4 (예를 들어, 0.25) 이다. 이 예에서, 추정된 샘플들 (210) 은 샘플들 642.25, 643.5, 644.75, 및 646 의 추정치들을 포함한다. 차이 (124) 가 포지티브일 (예를 들어, 제로보다 더 클) 때, 추정된 샘플들 (210) 은 제 2 샘플들 (118) 보다 더 낮은 샘플링 레이트에 대응한다. 예를 들어, 추정된 샘플들 (210) 은 제 2 샘플들 (118) 과 연관된 1 의 샘플링 레이트보다 더 낮은 1.25 의 샘플링 레이트와 연관된다. 다른 구현들에서 (예를 들어, D 또는 N_SPREAD 가 상이한 값을 가질 때), 추정된 샘플들 (210) (그리고 다른 샘플들) 은 프랙셔널 샘플들 (예를 들어, 예시적 예로서, 642.25 와 같은, 2 개의 기존 샘플들 사이의 샘플들) 과 같은 다른 샘플들의 추정치들을 표현할 수도 있다. 대안적으로, 추정된 샘플들 (210) 은 불균일한 이격과 연관될 수도 있다. 예를 들어, 샘플들 w 와 x 사이의 차이는 샘플들 x 와 y 사이의 차이와 상이할 수도 있다. 예시적 예로서, 추정된 샘플들 (210) 이 불균일한 이격과 연관될 때, 추정된 샘플들 (210) 은 샘플들 642.25, 643, 644.5, 및 646 의 추정치들을 포함할 수도 있다.
추정된 샘플들 (210) 은 제 2 샘플들 (118) 에 포함되지 않은 샘플들의 추정치들을 포함할 수도 있다. 추정된 샘플들 (210) 을 생성하기 위해, 샘플 조정기 (126) 는 제 2 샘플들 (118) 의 서브세트 (예를 들어, 확산 팩터 N_SPREAD 에 의해 나타내어진 샘플들의 개수) 에 대해 보간을 수행한다. 특정 구현에서, 보간은 싱크 보간 (예를 들어, "Whittaker-Shannon" 보간) 을 포함한다. 이 구현에서, 샘플 조정기 (126) (또는 메모리 (110)) 는 상이한 보간 팩터들에 대응하는 필터 계수들의 다수의 세트들을 저장할 수도 있다. 샘플 조정기 (126) 는 (식 4 를 사용하여) 보간 팩터를 결정하고, 필터 계수들의 대응하는 세트를 샘플들의 서브세트에 적용하여 추정된 샘플들 (210) 을 생성할 수도 있다. 필터 계수들의 세트가 결정된 보간 팩터와 정확히 매칭하지 않는 경우, 필터 계수들의 가장 근접한 매칭 세트가 식별되어 추정된 샘플들 (210) 을 생성하는 데 사용될 수도 있다. 싱크 보간의 복잡도, 그리고 그에 따라 싱크 보간을 수행하는 데 사용되는 프로세싱 리소스들은 보간에서 사용되는 스텝 사이즈에 따라 변경될 수도 있다.
다른 특정 구현에서, 보간은 라그랑지 보간을 포함한다. 이 구현에서, 샘플 조정기 (126) 는 보간 팩터에 기초하여 라그랑지 보간을 수행한다. 이 구현에서, 필터 계수들은 샘플 조정기 (126) (또는 메모리 (110)) 내에 저장되지 않는다. 라그랑지 보간은 저장된 필터 계수들을 사용하지 않기 때문에, 라그랑지 보간은 싱크 보간보다 더 적은 프로세싱 리소스들을 사용할 수도 있다. 다른 특정 구현에서, 보간은 하이브리드 보간을 포함한다. 하이브리드 보간은 보간 기법들의 임의의 조합을 사용할 수도 있다. 예시적 예로서, 하이브리드 보간은 싱크 보간과 라그랑지 보간의 조합을 포함할 수도 있다. 예를 들어, 하이브리드 보간을 수행하는 것은, 2 차 또는 4 차 싱크 보간을 수행하는 것, 그 다음에 64 샘플 정밀도를 갖는 라그랑지 보간을 수행하는 것을 포함할 수도 있다. 하이브리드 보간은 싱크 보간의 정밀도와 라그랑지 보간의 감소된 프로세싱 및 메모리 사용량을 결합할 수도 있다. 다른 구현들에서, 싱크 보간들과 라그랑지 보간들의 다른 조합들이 사용된다. 다른 구현들에서, 프랙셔널 지연 필터들, 재샘플링, 또는 프레임간 중첩과 같은 다른 보간 또는 평활화 방법들이 사용될 수도 있다.
다른 특정 구현에서, 보간은 윈도우 페이딩 (window fading) 을 사용하여 수행될 수도 있다. 예시하기 위해, 샘플 조정기 (126) 는 (레퍼런스 채널에 대한) 타깃 채널의 제 1 시프트 값이 3 개의 샘플들 (예를 들어, 3-샘플 시프트) 과 동일하다는 것을 결정할 수도 있고 제 1 시프트 값을 제 1 버퍼에 저장할 수도 있다. 샘플 조정기 (126) 는 타깃 채널의 제 2 시프트 값이 4 개의 샘플들과 동일하다는 것을 결정할 수도 있고 제 2 시프트 값을 제 2 버퍼에 저장할 수도 있다. 보간된 타깃 채널의 최종 샘플들은 제 1 및 제 2 버퍼들 내의 시프트 값들의 가중된 조합에 기초할 수도 있다. 예를 들어, 보간된 타깃 채널의 최종 샘플들은 target_final(n) = w(n)*target(n+3) + (1-w(n))*target(n+4) 로서 표현될 수도 있고, 여기서, w(n) 은 0 부터 1 까지 평활하게 증가하는 윈도우이다. 따라서, target_final(0) = target(n+3) 이고 target_final(N) = target(n+4) 이고 여기서 N 은 시프트가 적용되는 샘플들의 개수이다.
따라서, 본 명세서에서 설명되는 기법들에 따라 상이한 보간 모드들이 사용될 수도 있다. 일 구현에 따르면, 타깃 샘플들 (예를 들어, 제 2 샘플들 (118)) 의 세트의 제 1 부분에 대해 제 1 보간 모드가 사용될 수도 있고, 타깃 샘플들의 세트의 제 2 부분에 대해 제 2 보간 모드가 사용될 수도 있다. 타깃 샘플들의 세트의 제 1 부분은 제 1 타깃 프레임과 연관될 수도 있고, 타깃 샘플들의 세트의 제 2 부분은 제 2 타깃 프레임과 연관될 수도 있다.
추정된 샘플들 (210) 을 생성한 후에, 샘플 조정기 (126) 는 샘플들 (118) 의 서브세트를 추정된 샘플들 (210) 로 대체시켜 조정된 샘플들 (128) (예를 들어, 제 2 조정된 프레임) 을 생성할 수도 있다. 조정된 샘플들 (128) 에서, 제 2 프레임 (204) 과 제 4 프레임 (208) 사이의 불연속성은 추정된 샘플들 (210) 에 걸쳐 확산된다. 예를 들어, 샘플 641 다음에 샘플 643 이 후속되는 대신에 (이때 샘플 642 가 스킵된다), 샘플 641 다음에 샘플들 642.25, 643.5, 644.75, 및 646 의 추정치들이 후속된다. 4 개의 프레임들 중에서 (예를 들어, 도 2 의 .25 프레임 차이로서) 1-프레임 차이를 확산시키면 제 2 프레임 (204) 과 제 4 프레임 (208) 사이의 프레임간 불연속성을 감소시킨다 (또는 은폐한다). 샘플 조정기 (126) 는 다른 프레임간 불연속성들을 감소시키기 (또는 은폐하기) 위해 각각의 프레임 경계에서의 레퍼런스 채널의 샘플들을 유사하게 조정할 수도 있다. 따라서, 도 2 는 프레임들 사이에서 샘플들을 스킵하는 것을 피하기 위해 차이 (124) 가 포지티브일 (예를 들어, 제로보다 더 클) 때 조정된 샘플들 (128) 을 생성하는 예를 예시한다.
차이 (124) 에 기초하여 샘플들을 조정하는 제 2 특정 예가 도 3 에 예시된다. 도 3 은 제 1 샘플들 (116), 제 2 샘플들 (118), 및 조정된 샘플들 (128) 을 예시하는 다이어그램 (300) 을 포함한다. 도 3 에 예시된 예에서, 차이 (124) 는 네거티브이다 (예를 들어, 제로보다 더 작다). 도 3 에 예시된 샘플들은 제 1 오디오 신호 (142) 에 대응하는 제 1 샘플들 (116) 및 제 2 오디오 신호 (146) 에 대응하는 제 2 샘플들 (118) 을 포함한다. 오디오 신호들 (142 및 146) 의 프레임들 각각은 특정 개수의 샘플들에, 또는 특정 시간 지속기간 및 특정 샘플 레이트에 대응할 수도 있다. 도 3 에 예시된 특정 예에서, 각각의 프레임은 20 밀리초들 (ms) 에 대응하는 특정 샘플링 레이트 (예를 들어, 32 킬로헤르쯔 (kHz)) 로 샘플링되는 640 개의 샘플들을 포함한다. 다른 구현들에서, 프레임들은 640 개보다 더 적거나 또는 640 개보다 더 많은 샘플들을 포함할 수도 있다. 예로서, 각각의 프레임은 20 ms 에 대응할 수도 있는 48 kHz 로 샘플링되는 960 개의 샘플들을 포함할 수도 있다.
상술된 바와 같이, 제 1 오디오 신호 (142) 는 레퍼런스 채널일 수도 있고, 제 2 오디오 신호 (146) 는 타깃 채널일 수도 있다. 제 2 오디오 신호 (146) 는 제 1 오디오 신호 (142) 에 비해 지연되어 수신될 수도 있다. 시프트 추정기 (121) 는 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 의 프레임들을 시간적으로 정렬시키는 데 사용되는 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 결정할 수도 있다. 도 3 에 예시된 특정 예에서, 제 1 미스매치 값 (112) (Tprev) 은 3 이고 제 2 미스매치 값 (114) (T) 은 1 이다. 제 1 오디오 신호 (142) 의 제 1 프레임 (302) 을 제 2 오디오 신호 (146) 의 제 2 프레임 (304) 과 시간적으로 정렬시키기 위해, 제 2 프레임 (304) 에 대응하는 제 2 샘플들 (118) 의 그룹이 3 개의 샘플들만큼 시프팅된다. 예시하기 위해, 시프트 추정기 (121) 는 각각의 오디오 신호의 샘플들 0 내지 639 를 포함하는 입력 프레임 (예를 들어, 제 1 오디오 신호 (142) 의 제 1 프레임 및 제 2 오디오 신호 (146) 의 제 2 프레임) 을 수신할 수도 있다. 시프트 추정기 (121) 는 타깃 채널을 레퍼런스 채널과 시간적으로 정렬시키기 위해 미스매치 값을 결정할 수도 있고, 시프트 추정기 (121) 는 타깃 채널의 시프팅된 제 2 프레임 및 레퍼런스 채널의 제 1 프레임을 포함하는 "시프팅된 프레임" 을 생성하기 위해 타깃 채널을 미스매치 값만큼 시프팅시킬 수도 있다. 예를 들어, 제 2 샘플들 (118) 의 샘플들 3 내지 642 는 제 1 샘플들 (116) 의 샘플들 0 내지 639 와 정렬되어 시프팅된 프레임을 생성한다. 시프트 추정기 (121) 는 각각의 오디오 신호의 샘플들 640 내지 1279 를 포함하는 제 2 입력 프레임 (예를 들어, 제 1 오디오 신호 (142) 의 제 3 프레임 및 제 2 오디오 신호 (146) 의 제 4 프레임) 을 수신할 수도 있다. 시프트 추정기 (121) 는 타깃 채널을 레퍼런스 채널과 시간적으로 정렬시키기 위해 제 2 미스매치 값을 결정할 수도 있고, 시프트 추정기 (121) 는 타깃 채널의 시프팅된 제 4 프레임 및 레퍼런스 채널의 제 3 프레임을 포함하는 제 2 시프팅된 프레임을 생성하기 위해 타깃 채널을 미스매치 값만큼 시프팅시킬 수도 있다. 제 1 오디오 신호 (142) 의 제 3 프레임 (306) 을 제 2 오디오 신호 (146) 의 제 4 프레임 (308) 과 시간적으로 정렬시키기 위해, 제 4 프레임 (208) 에 대응하는 제 2 샘플들 (118) 의 그룹이 하나의 샘플만큼 시프팅된다. 예를 들어, 제 2 샘플들 (118) 의 샘플들 641 내지 1280 은 제 1 샘플들 (116) 의 샘플들 640 내지 1279 와 정렬되어 제 2 시프팅된 프레임을 생성한다. 시프팅된 프레임 및 제 2 시프팅된 프레임을 생성한 후에, 샘플 조정기 (126) 는 제 2 시프팅된 프레임의 샘플들을 조정하여 조정된 제 2 시프팅된 프레임을 생성하여 시프팅된 프레임과 제 2 시프팅된 프레임 사이의 불연속성을 보상 (또는 은폐) 할 수도 있다.
상술된 바와 같이, 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 이 상이할 때, 제 2 프레임 (304) 과 제 4 프레임 (308) 사이의 경계에 불연속성이 존재할 수도 있다. 제 2 미스매치 값 (114) 이 제 1 미스매치 값 (112) 보다 더 작은 경우, 하나 이상의 샘플들이 반복될 수도 있다. 도 3 에 도시된 바와 같이, 제 2 미스매치 값 (114) 과 제 1 미스매치 값 (112) 사이의 차이 (124) (예를 들어, 2 프레임 차이) 로 인해 샘플들 641 및 642 가 반복된다. 따라서, 샘플들 641 및 642 에 대응하는 오디오는 인코딩된 신호들 (180) 의 부분으로서 인코더 (120) 에 의해 2 회 인코딩되지 않을 수도 있다. (반복된 샘플들의 인코딩으로) 인코딩된 신호들 (180) 이 디코딩되고 제 2 디바이스 (160) 에서 재생될 때, 누락된 샘플로 인해 클릭, 팝, 히스, 또는 다른 오디오 사운드가 들릴 수도 있다. 반복되는 샘플들의 개수가 증가함에 따라, 클릭들 및 다른 오디오 사운드들이 청취자에게 더 두드러지게 될 수도 있다.
프레임들 사이의 불연속성들을 보상하기 위해 (또는 은폐하기 위해), 인코더 (120) 의 샘플 조정기 (126) 는 차이 (124) 에 기초하여 제 2 샘플들 (118) 을 조정할 수도 있다. 제 2 샘플들 (118) 을 조정하는 것은, 차이 (124) 에 기초하여 제 2 샘플들 (118) 의 부분을 보간하여 추정된 샘플들 (310) 을 생성하는 것을 포함할 수도 있다. 예를 들어, 샘플 조정기 (126) 는 제 4 프레임 (308) 에 대응하는 제 2 샘플들 (118) 의 서브세트를 보간할 수도 있다. 대안적으로, 샘플 조정기 (126) 는 제 2 프레임 (304) 에 대응하는 제 2 샘플들 (118) 의 서브세트, 또는 제 2 프레임 (304) 및 제 4 프레임 (308) 에 대응하는 샘플들의 서브세트를 보간할 수도 있다. 보간은 확산 팩터 N_SPREAD 에 대응하는 수의 샘플들에 대해 수행될 수도 있다. 샘플들의 서브세트를 보간하여 추정된 샘플들 (310) 을 생성하면 확산 팩터 M 에 대응하는 수의 샘플들에 걸쳐 불연속성을 확산 (예를 들어, 평활화 또는 슬로우-시프팅) 시킬 수도 있다. 도 3 에 예시된 예에서, 확산 팩터 N_SPREAD 의 값은 4 개의 샘플들이다. 다른 구현들에서, 확산 팩터 N_SPREAD 의 값은 4 개보다 더 적거나 또는 4 개보다 더 많은 샘플들일 수도 있다.
제 4 프레임 (308) 의 샘플들 중에서 프레임간 불연속성을 확산시키기 위해, 샘플 조정기 (126) 는 도 3 에 예시된 예에서 4 개의 추정된 샘플들을 포함하는 추정된 샘플들 (310) 을 생성한다. 추정된 샘플들 (310) 은 이전 프레임의 마지막 샘플 (예를 들어, 제 2 프레임 (304) 의 샘플 642) 및 현재 프레임 (예를 들어, 제 4 프레임 (308)) 의 처음 4 개의 샘플들을 보간함으로써 생성된다. 예를 들어, 추정된 샘플들 (310) 은 샘플들 642.w, 643.x, 643.y, 및 644.z 를 포함할 수도 있다. 특정 구현에서, 추정된 샘플들 (310) 은 추정된 샘플들 사이에 균일한 이격을 가질 수도 있다. 이 구현에서, 추정된 샘플들은 식 4 에 기초하는 보간 팩터를 사용하여 생성될 수도 있다. 도 3 에 예시된 바와 같이, 추정된 샘플들 (310) 은 샘플들 642.w, 643.x, 643.y, 및 644.z 의 추정치들을 포함할 수도 있다. 추정된 샘플들이 균일하게 이격된 예시적인 실시형태에서, D 는 2 이고, N_SPREAD 는 4 이고, 보간 팩터는 2/4 (예를 들어, 0.5) 이다. 이 예에서, 추정된 샘플들 (310) 은 샘플들 642.5, 643, 643.5, 및 644 의 추정치들을 포함한다. 차이 (124) 가 네거티브일 (예를 들어, 제로보다 더 작을) 때, 추정된 샘플들 (310) 은 제 2 샘플들 (118) 보다 더 높은 샘플링 레이트에 대응한다. 예를 들어, 추정된 샘플들 (310) 은 제 2 샘플들 (118) 과 연관된 1 의 샘플링 레이트보다 더 높은 .5 의 샘플링 레이트와 연관된다. 대안적으로, 추정된 샘플들 (310) 은 불균일한 이격과 연관될 수도 있고, 추정된 샘플들 (310) 은 상술된 것과는 상이한 값들 (예를 들어, w, x, y, 및 z 에 대한 값들) 을 포함할 수도 있다.
추정된 샘플들 (310) 을 생성한 후에, 샘플 조정기 (126) 는 샘플들 (118) 의 서브세트를 추정된 샘플들 (310) 로 대체시켜 조정된 샘플들 (128) (예를 들어, 제 2 조정된 프레임) 을 생성할 수도 있다. 조정된 샘플들 (128) 에서, 제 2 프레임 (304) 과 제 4 프레임 (308) 사이의 불연속성은 추정된 샘플들 (310) 에 걸쳐 확산된다. 예를 들어, 샘플들 641 및 642 가 샘플 642 후에 반복되는 대신에, 샘플 642 다음에 샘플들 642.5, 643, 643.5, 및 644 의 추정치들이 후속된다. 4 개의 프레임들 중에서 (예를 들어, 도 3 의 .5 프레임 차이로서) 2-프레임 차이를 확산시키면 제 2 프레임 (304) 과 제 4 프레임 (308) 사이의 프레임간 불연속성을 감소시킨다 (또는 은폐한다). 샘플 조정기 (126) 는 다른 프레임간 불연속성들을 감소시키기 (또는 은폐하기) 위해 각각의 프레임 경계에서의 레퍼런스 채널의 샘플들을 유사하게 조정할 수도 있다. 따라서, 도 3 은 프레임들 사이에서 샘플들이 반복되는 것을 피하기 위해 차이 (124) 가 네거티브일 (예를 들어, 제로보다 더 작을) 때 조정된 샘플들 (128) 을 생성하는 예를 예시한다.
도 1 을 참조하면, 조정된 샘플들 (128) 의 생성 후에, 채널 생성기 (130) 는 제 1 샘플들 (116) (예를 들어, 레퍼런스 채널의 샘플들) 및 조정된 샘플들 (128) 에 기초하여 인코딩된 채널들을 생성할 수도 있다. 채널 생성기 (130) 는 제 1 샘플들 (116) 및 조정된 샘플들 (128) 에 기초하여 미드-채널 및 사이드-채널 (또는 사이드 채널 파라미터들) 을 생성하기 위해 스테레오 인코딩을 수행할 수도 있고, 인코딩된 채널들 (180) 은 미드-채널 및 사이드-채널 (또는 사이드 채널 파라미터들) 을 포함할 수도 있다. 다른 예들에서, 레퍼런스 채널 (142) 이 타깃 채널이고 타깃 채널 (146) 이 레퍼런스 채널일 때, 제 1 샘플들 (116) 이 조정되어 조정된 샘플들 (128) 을 생성할 수도 있고, 채널 생성기 (130) 는 조정된 샘플들 (128) 및 제 2 샘플들 (118) (예를 들어, 레퍼런스 채널의 샘플들) 에 기초하여 인코딩된 채널들 (180) 을 생성할 수도 있다. 인코딩된 채널들 (180) 은, 하나 이상의 인터페이스들 (104) 중 네트워크 인터페이스를 통해, 제 2 디바이스 (160) 에서의 디코딩 및 재생을 위해 제 2 디바이스 (160) 에 송신될 수도 있다.
특정 구현에서, 인코더 (120) 는 레퍼런스 채널로서 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 하나를 선택하도록 그리고 레퍼런스 채널을 시간-시프팅하고 조정하는 것에 앞서 타깃 채널로서 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 하나를 선택하도록 구성될 수도 있다. 예를 들어, 인코더 (120) 는 제 1 미스매치 값 (112) 에 기초하여 제 1 시간 기간에 대해 레퍼런스 채널로서 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 하나를 선택하도록 그리고 타깃 채널로서 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 다른 하나를 선택하도록 구성된 레퍼런스 채널 지정기를 포함할 수도 있다. 레퍼런스 채널 지정기는 제 2 미스매치 값 (114) 에 기초하여 제 2 시간 기간에 대해 레퍼런스 채널로서 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 하나를 선택하도록 그리고 레퍼런스 채널로서 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 다른 하나를 선택하도록 또한 구성될 수도 있다. 레퍼런스 채널 및 타깃 채널의 선택은 도 6 을 참조하여 추가로 설명된다.
제 1 디바이스 (102) 는 인코딩된 신호들 (180) 과 함께 추가 정보를 송신할 수도 있다. 예로서, 제 1 디바이스 (102) 는 제 2 디바이스 (160) 에 미스매치 값들 (182) 을 송신할 수도 있다. 미스매치 값들 (182) 은 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 에 기초하여 결정되는 "비-인과적" 미스매치 값들을 포함할 수도 있다. 예를 들어, 미스매치 값들 (182) 은 제 1 미스매치 값 (112) 의 부호없는 버전 (예를 들어, 제 1 미스매치 값 (112) 에 대해 수행되는 절대 값 연산의 결과) 을 표현하는 제 1 비-인과적 미스매치 값을 포함할 수도 있다. 미스매치 값들 (182) 은 제 2 미스매치 값 (114) 의 부호없는 버전 (예를 들어, 제 2 미스매치 값 (114) 에 대해 수행되는 절대 값 연산의 결과) 을 표현하는 제 2 비-인과적 미스매치 값을 또한 포함할 수도 있다. 다른 예로서, 제 1 디바이스 (102) 는 제 2 디바이스 (160) 에 레퍼런스 채널 표시자 (184) 를 송신할 수도 있다. 레퍼런스 채널 표시자 (184) 의 값은 레퍼런스 채널로서 제 1 오디오 신호 (142) 또는 제 2 오디오 신호 (146) 중 어느 하나를 식별할 수도 있다. 예를 들어, 레퍼런스 채널 표시자 (184) 의 제 1 특정 값 (예를 들어, 논리적 제로 값) 은 제 1 오디오 신호 (142) 가 레퍼런스 채널임을 나타낼 수도 있고, 레퍼런스 채널 표시자 (184) 의 제 2 특정 값 (예를 들어, 논리적 1 값) 은 제 2 오디오 신호 (146) 가 레퍼런스 채널임을 나타낼 수도 있다. 추가적으로 또는 대안적으로, 제 1 디바이스 (102) 는 이득 파라미터들과 같은 다른 값들을 제 2 디바이스 (160) 에 송신할 수도 있다. 추가 정보 (예를 들어, 미스매치 값들 (182), 레퍼런스 채널 표시자 (184), 이득 파라미터들 등) 는 하나 이상의 인터페이스들 (104) 중 네트워크 인터페이스를 통해 송신될 수도 있고 인코딩된 신호들 (180) 을 디코딩하기 위해 제 2 디바이스 (160) 에 의해 사용될 수도 있다.
제 2 디바이스 (160) 는 디코더 (162) 를 포함할 수도 있다. 제 2 디바이스 (160) 는 편의를 위해 예시되지 않은 추가적인 컴포넌트들, 예컨대 프로세서, 메모리, 하나 이상의 인터페이스들, 송신기, 수신기, 트랜시버, 또는 이들의 조합을 포함할 수도 있다. 디코더 (162) 는 인코딩된 채널들 (180) 을 디코딩하도록 그리고 제 2 디바이스 (160) 에서의 재생을 위해 다수의 오디오 채널들을 렌더링하도록 구성될 수도 있다. 특정 구현에서, 인코딩된 채널들 (180) 을 디코딩하는 것은, 인코딩된 채널들 (180) 을 업-믹싱하는 것을 포함한다. 제 2 디바이스 (160) 는 오디오 채널들의 재생을 가능하게 하기 위해 제 1 스피커 (170), 제 2 스피커 (174), 또는 이들 양쪽 모두에 커플링될 수도 있다. 예를 들어, 디코더 (162) 는 제 1 스피커 (170) 를 통한 재생을 위해 제 1 출력 채널 (172) 을 생성할 수도 있고, 디코더 (162) 는 제 2 스피커 (174) 를 통한 재생을 위해 제 2 출력 채널 (176) 을 생성할 수도 있다.
도 1 에 예시된 예에서, 타깃 채널의 조정 (예를 들어, 평활화 또는 슬로우-시프팅) 은 제 1 디바이스 (102) 의 인코더 (120) 에 의해 수행되는 것으로서 설명된다. 다른 구현들에서, 오디오 채널들의 조정은 제 2 디바이스 (160) 의 디코더 (162) 에 의해 수행될 수도 있다. 디코더에서의 타깃 채널 조정에 관한 상세들은 도 4 를 참조하여 추가로 설명된다.
동작 동안, 제 1 디바이스는 하나 이상의 인터페이스들 (104) 을 통해 제 1 마이크로폰 (140) 으로부터의 제 1 오디오 신호 (142) 를 그리고 제 2 마이크로폰 (144) 으로부터의 제 2 오디오 신호 (146) 를 수신한다. 제 1 디바이스 (102) 는 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 에 각각 기초하여 제 1 샘플들 (116) 및 제 2 샘플들 (118) 을 생성할 수도 있다. 제 2 오디오 신호 (146) 는 사운드 소스 (150) 의 위치로 인해 (예를 들어, 사운드 소스 (150) 가 제 2 마이크로폰 (144) 에 대한 것보다 제 1 마이크로폰 (140) 에 더 가까울 때) 제 1 오디오 신호 (142) 에 비해 지연될 수도 있다. 인코더 (120) 는 제 2 오디오 신호 (146) 가 제 1 오디오 신호 (142) 에 비해 지연되는 것에 기초하여 제 1 오디오 신호 (142) 를 레퍼런스 채널로서 그리고 제 2 오디오 신호 (146) 를 타깃 채널로서 식별하도록 구성될 수도 있다. 대안적으로, 제 1 오디오 신호 (142) 가 제 2 오디오 신호 (146) 에 비해 지연되는 경우 (예를 들어, 사운드 소스 (150) 가 제 1 마이크로폰 (140) 에 대한 것보다 제 2 마이크로폰 (144) 에 더 가까운 경우), 인코더 (120) 는 제 1 오디오 신호 (142) 를 타깃 채널로서 그리고 제 2 오디오 신호 (146) 를 레퍼런스 채널로서 식별할 수도 있다. 타깃 채널 및 레퍼런스 채널의 식별의 추가적인 상세들이 도 5 및 도 6 을 참조하여 설명된다.
제 2 오디오 신호 (146) 가 타깃 채널로서 식별된 후에, 인코더 (120) 의 시프트 추정기 (121) 는 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 결정할 수도 있다. 제 1 미스매치 값 (112) 은 제 2 오디오 신호 (146) 의 제 2 프레임에 대한 제 1 오디오 신호 (142) 의 제 1 프레임의 시프트를 나타낼 수도 있고, 제 2 미스매치 값 (114) 은 제 2 오디오 신호 (146) 의 제 4 프레임에 대한 제 1 오디오 신호 (142) 의 제 3 프레임의 시프트를 나타낼 수도 있다. 미스매치 값들 (112 및 114) 은 메모리 (110) 에 저장되고 제 2 샘플들 (118) (또는 제 1 오디오 신호 (142) 가 타깃 채널인 경우에는 제 1 샘플들 (116)) 을 시프팅하는 데 사용될 수도 있다. 추가적으로, 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 은 인코더 (120) 의 비교기 (122) 에 제공될 수도 있다. 비교기 (122) 는 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 사이의 차이 (124) 를 결정할 수도 있다. 샘플 조정기 (126) 는 차이 (124) 및 제 2 샘플들 (118) (또는 제 1 오디오 신호 (142) 가 타깃 채널인 경우에는 제 1 샘플들 (116)) 을 수신할 수도 있고, 샘플 조정기 (126) 는 차이 (124) 에 기초하여 제 2 샘플들 (118) 을 조정할 수도 있다. 예를 들어, 샘플 조정기 (126) 는 차이 (124) 에 기초하여 제 2 샘플들 (118) 의 서브세트를 보간하여 추정된 샘플들을 생성할 수도 있고, 샘플 조정기 (126) 는 제 2 샘플들 (118) 의 서브세트를 추정된 샘플들로 대체시켜 조정된 샘플들 (128) 을 생성할 수도 있다. 차이 (124) 가 포지티브인 경우, 추정된 샘플들은 (도 2 를 참조하여 설명된 바와 같이) 하나 이상의 스킵된 샘플들을 은폐할 수도 있고, 차이 (124) 가 네거티브인 경우, 추정된 샘플들은 (도 3 을 참조하여 설명된 바와 같이) 하나 이상의 반복된 샘플들을 은폐할 수도 있다.
인코더 (120) 의 채널 생성기 (130) 는 조정된 샘플들 (128) 을 수신할 수도 있고 조정된 샘플들 (128) 및 제 1 샘플들 (116) 에 기초하여 인코딩된 채널들 (180) (예를 들어, 적어도 하나의 인코딩된 채널) 을 생성할 수도 있다. 특정 구현에서, 인코딩된 채널들 (180) 은 미드-채널 및 사이드-채널을 포함한다. 인코딩된 채널들 (180) 은 (예를 들어, 하나 이상의 인터페이스들 (104) 중 네트워크 인터페이스를 사용하는) 제 1 디바이스 (102) 로부터 네트워크 (152) 를 통해 제 2 디바이스 (160) 에 송신될 수도 있다. 미스매치 값들 (182) 및 레퍼런스 채널 표시자 (184) 와 같은 추가 정보는 또한 제 2 디바이스 (160) 에 송신될 수도 있다. 제 2 디바이스 (160) 는 인코딩된 채널들 (180) (및 추가 정보) 을 수신할 수도 있고, 디코더 (162) 는 인코딩된 채널들 (180) 을 디코딩하여 제 1 출력 채널 (172) 및 제 2 출력 채널 (176) 을 생성할 수도 있다. 예를 들어, 디코더 (162) 는 인코딩된 채널들 (180) 을 디코딩 및 업 믹싱하여 출력 채널들 (172 및 176) 을 생성할 수도 있다. 제 1 출력 채널 (172) 은 제 1 스피커 (170) 에 의해 출력될 수도 있고, 제 2 출력 채널 (176) 은 제 2 스피커 (174) 에 의해 출력될 수도 있다.
도 1 의 시스템 (100) 은 레퍼런스 채널을 시간-시프팅함으로써 야기된 프레임간 불연속성들에 대한 보상 (또는 이들의 은폐) 을 가능하게 한다. 예를 들어, 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 사이의 차이 (124) 에 기초하여 조정된 샘플들 (128) 을 생성함으로써, 제 2 오디오 신호 (146) 는 다수의 추정된 샘플들에 걸쳐 프레임간 불연속성을 확산 (예를 들어, 평활화 또는 슬로우-시프팅) 시키도록 조정될 수도 있다. 불연속성을 확산시키면 하나 이상의 샘플들을 스킵 또는 반복하는 것에 비하면 제 2 샘플들 (118) 의 샘플들 (예를 들어, 타깃 채널의 샘플들) 의 쌍 사이의 차이를 감소시킬 수도 있다. 프레임간 불연속성들을 감소시키기 (또는 은폐하기) 위해 타깃 채널의 샘플들을 조정하면, 타깃 채널을 시간-시프팅하는 것으로 인해 미드-채널을 인코딩하는 데 사용되는 증가된 개수의 비트들을 유지하면서 보다 높은 품질의 인코딩된 채널을 발생시킬 수도 있다. 인코딩된 채널들 (180) 이 디코딩되고 제 2 디바이스 (160) 에서 재생될 때, 프레임간 불연속성들에 의해 야기된 클릭들 또는 다른 오디오 사운드들이 감소 (또는 제거) 되어, 그에 의해 디코딩된 출력 채널들의 명료성을 향상시키고 청취자의 경험을 향상시킬 수도 있다.
상기의 설명에서, 도 1 의 시스템 (100) 에 의해 수행되는 다양한 기능들은 특정 컴포넌트들에 의해 수행되는 것으로서 설명된다. 컴포넌트들의 이 분할은 단지 예시를 위한 것이다. 대안적인 구현에서, 특정 컴포넌트에 의해 수행되는 기능이 그 대신에 다수의 컴포넌트들 중에서 분할될 수도 있다. 더욱이, 대안적인 구현에서, 도 1 의 2 개 이상의 컴포넌트들은 단일 컴포넌트로 통합될 수도 있다. 도 1 에 예시된 각각의 컴포넌트는 하드웨어 (예를 들어, 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), DSP, 제어기 등), 소프트웨어 (예를 들어, 프로세서에 의해 실행가능한 명령들), 또는 이들의 조합을 사용하여 구현될 수도 있다.
도 4 를 참조하면, 미스매치 값들 사이의 차이에 기초하여 오디오 샘플들을 조정하도록 구성된 디바이스를 포함하는 시스템의 제 2 특정 구현의 다이어그램이 도시되고 일반적으로 400 으로 지정된다. 시스템 (400) 은 도 1 의 시스템 (100) 의 대안적인 구현을 표현할 수도 있고, 여기서 디코더는 프레임간 불연속성들을 감소시키기 (또는 은폐하기) 위해 채널 조정을 수행한다. 시스템 (400) 은 도 1 의 제 1 디바이스 (102), 제 2 디바이스 (160), 네트워크 (152), 제 1 마이크로폰 (140), 제 2 마이크로폰 (144), 사운드 소스 (150), 제 1 스피커 (170), 및 제 2 스피커 (174) 를 포함할 수도 있다.
도 4 에서, 제 1 디바이스 (102) 는 메모리 (110), 인코더 (402), 및 하나 이상의 인터페이스들 (104) 을 포함한다. 인코더 (402) 는, 도 1 을 참조하여 설명된 인코더 (120) 와 유사하게, 오디오 신호들 (142 및 146) 을 시간적으로 정렬시키기 위해 타깃 채널 (예를 들어, 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 하나) 을 시간-시프팅하도록 구성될 수도 있다. 추가적으로, 인코더 (402) 는 인코딩된 채널들 (180) 을 생성하도록 그리고 인코딩된 채널들 (180) (및 미스매치 값들 (182) 및 레퍼런스 채널 표시자 (184) 와 같은 추가 정보) 을 네트워크 (152) 를 통해 제 2 디바이스 (160) 에 송신하도록 구성될 수도 있다. 도 4 에 예시된 예에서, 인코더 (402) 는 인코딩된 채널들 (180) 을 생성하기에 앞서 프레임간 불연속성들을 감소시키기 (또는 은폐하기) 위해 타깃 채널을 조정하지 않는다.
제 2 디바이스 (160) 는 메모리 (410) 및 디코더 (420) 를 포함한다. 디코더 (420) 는 비교기 (422), 샘플 조정기 (426), 및 출력 생성기 (430) 를 포함할 수도 있다. 메모리 (410) 는 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 제 1 샘플들 (412), 및 제 2 샘플들 (414) 을 저장할 수도 있다. 제 2 디바이스 (160) 는 미스매치 값들 (182) 을 수신하도록 그리고 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 메모리 (410) 에 저장하도록 구성될 수도 있다. 제 2 디바이스 (160) 는 인코딩된 채널들 (180) 을 수신하도록 구성될 수도 있고, 디코더 (420) 는 인코딩된 채널들 (180) 을 디코딩하여 제 1 샘플들 (412) 및 제 2 샘플들 (414) 을 생성하도록 구성될 수도 있다. 예를 들어, 디코더 (420) 는 인코딩된 채널들 (180) 을 디코딩 및 업-믹싱하여 신호들 (412 및 414) 을 생성할 수도 있다. 특정 구현에서, 제 1 샘플들 (412) 은 디코딩 후의 제 1 오디오 신호 (142) 에 대응할 수도 있고, 제 2 샘플들 (414) 은 디코딩 후의 제 2 오디오 신호 (146) 에 대응할 수도 있다. 대안적으로, 제 1 샘플들 (412) 은 미드-채널의 샘플들에 대응할 수도 있고, 제 2 샘플들 (414) 은 사이드-채널의 샘플들에 대응할 수도 있다.
디코더 (420) 는 프레임간 불연속성을 보상 (또는 은폐) 하기 위해 타깃 채널 (예를 들어, 제 1 샘플들 (412) 또는 제 2 샘플들 (414)) 을 조정하도록 구성될 수도 있다. 예시하기 위해, 비교기 (422) 는, 도 1 의 비교기 (122) 와 유사하게, 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 사이의 차이 (424) 를 결정하도록 구성될 수도 있다. 차이 (424) 는 인접한 프레임들 사이의 미스매치 값들의 변경을 나타낼 수도 있는데, 이는 타깃 채널이 조정되지 않은 경우 프레임간 불연속성을 초래할 수도 있다.
샘플 조정기 (426) 는 타깃 채널을 식별하도록 그리고 차이 (124) 에 기초하여 타깃 채널의 샘플들을 조정하도록 구성될 수도 있다. 예를 들어, 샘플 조정기 (426) 는 레퍼런스 채널 표시자 (184) 에 기초하여 레퍼런스 채널에 대응하는 것으로서 제 1 샘플들 (412) 또는 제 2 샘플들 (414) 을 식별할 수도 있다. 레퍼런스 채널 표시자 (184) 가 제 1 특정 값 (예를 들어, 제 2 오디오 신호 (146) 가 타깃 채널임을 나타내는 값) 을 가질 때, 샘플 조정기 (426) 는 제 2 샘플들 (414) 을 타깃 채널에 대응하는 것으로서 식별하고 제 1 샘플들 (412) 을 레퍼런스 채널에 대응하는 것으로서 식별할 수도 있다. 레퍼런스 채널 표시자 (184) 가 제 2 특정 값 (예를 들어, 제 1 오디오 신호 (142) 가 타깃 채널임을 나타내는 값) 을 가질 때, 샘플 조정기 (426) 는 제 1 샘플들 (412) 을 타깃 채널에 대응하는 것으로서 식별하고 제 2 샘플들 (414) 을 레퍼런스 채널에 대응하는 것으로서 식별할 수도 있다.
샘플 조정기 (426) 는 타깃 채널을 식별한 후에 타깃 채널에 대응하는 샘플들을 조정하도록 구성될 수도 있다. 예를 들어, 샘플 조정기 (426) 는 제 2 샘플들 (414) 을 타깃 채널에 대응하는 것으로서 식별할 수도 있고, 샘플 조정기 (426) 는 제 2 샘플들 (414) 을 조정하여 조정된 샘플들 (428) 을 생성할 수도 있다. 제 2 샘플들 (414) 을 조정하기 위해, 샘플 조정기 (426) 는 차이 (424) 에 기초하여 제 2 샘플들 (414) 의 서브세트를 보간하여 추정된 샘플을 생성하도록 구성될 수도 있고, 샘플 조정기 (426) 는 또한, 샘플의 서브세트를 추정된 샘플들로 대체시켜 조정된 샘플들 (428) 을 생성하도록 구성될 수도 있다. 차이 (424) 가 네거티브일 때, 샘플 조정기 (426) 는, 도 3 을 참조하여 설명된 바와 같이, 하나 이상의 샘플들의 반복을 피하기 위해 이전 프레임으로부터의 적어도 하나의 샘플 및 샘플들의 서브세트의 샘플들을 보간할 수도 있다.
차이 (424) 가 포지티브일 때, 샘플 조정기 (426) 는 하나 이상의 샘플들을 스킵하는 것을 피하기 위해 이전 프레임의 적어도 하나의 샘플 및 샘플들의 서브세트를 보간할 수도 있다. 시간-시프팅이 인코더 (402) 에 의해 수행되기 때문에, 도 2 를 참조하여 설명된 바와 같이, 하나 이상의 샘플들이 인코딩된 채널들 (180) 로부터 스킵되었고 그에 따라 생략되었을 수도 있다. 샘플 조정기 (426) 는 차이 (424) 에 기초하여 프레임들 사이에서 스킵된 샘플들의 개수를 식별할 수도 있고, 샘플 조정기 (426) 는 디코딩 후에 이용가능한 샘플들을 보간하여 추정된 샘플들을 생성할 수도 있다. 하나 이상의 샘플들이 인코더 (402) 에 의해 인코딩되지 않기 때문에, 일부 구현들에서, 디코더 (420) 에 의해 수행된 보간은 도 1 의 인코더 (120) 에 의해 수행된 보간보다 덜 정밀할 (예를 들어, 더 조대한 입도를 가질) 수도 있다.
대안적인 구현에서, 인코더 (402) 는 타깃 채널을 시간-시프팅하는 것으로 인해 하나 이상의 샘플들이 스킵될 때를 식별하도록 구성될 수도 있다. 인코더 (402) 는 스킵된 하나 이상의 샘플들을 추가 샘플들 (440) 로서 제 2 디바이스 (160) 에 송신하도록 구성될 수도 있다. 샘플 조정기 (426) 는 추가 샘플들 (440) 뿐만 아니라, 이전 프레임의 적어도 하나의 샘플 및 샘플들의 서브세트를 사용하여 추정된 샘플들을 생성할 수도 있다. 추가 샘플들 (440) 에 기초하여 생성된 추정된 샘플들은 도 1 의 샘플 조정기 (126) 에 의해 생성된 추정된 샘플들과 동일한 정밀도 (예를 들어, 동일한 입도) 를 가질 수도 있다.
출력 생성기 (430) 는 조정된 샘플들 (428) 및 제 1 샘플들 (412) 에 기초하여 제 1 출력 채널 (172) 및 제 2 출력 채널 (176) 을 생성하도록 구성될 수도 있다. 예를 들어, 출력 생성기 (430) 는 제 1 샘플들 (412) 에 기초하여 제 1 출력 채널 (172) 을 생성할 수도 있고, 출력 생성기 (430) 는 제 2 샘플들 (414) 에 기초하여 제 2 출력 채널 (176) 을 생성할 수도 있다. 제 2 디바이스 (160) 는 오디오 출력을 생성하기 위해, 출력 채널들 (172 및 176) 을 스피커들 (170 및 174) 에 각각 제공하도록 구성될 수도 있다.
동작 동안, 제 1 디바이스 (102) 의 인코더 (402) 는 타깃 채널 (예를 들어, 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 중 하나) 을 시간-시프팅하여 타깃 채널을 레퍼런스 채널 (예를 들어, 제 1 오디오 신호 (142) 와 제 2 오디오 신호 (146) 중 다른 하나) 와 시간적으로 정렬시킨다. 인코더 (402) 는 레퍼런스 채널 및 시간-시프팅된 타깃 채널에 기초하여 인코딩된 신호들 (180) 을 생성하고, 제 1 디바이스 (102) 는 인코딩된 오디오 신호들, 미스매치 값들 (182), 및 레퍼런스 채널 표시자 (184) 를 네트워크 (152) 를 통해 제 2 디바이스 (160) 에 송신한다.
제 2 디바이스 (160) 는 인코딩된 채널들 (180) 을 수신하고, 디코더 (420) 는 인코딩된 채널들 (180) 을 디코딩하여 제 1 샘플들 (412) 및 제 2 샘플들 (414) 을 생성한다. 특정 구현에서, 인코딩된 채널들 (180) 은 스테레오 인코딩되고 미드-채널 및 사이드-채널을 포함한다. 비교기 (422) 는 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 사이의 차이 (424) 를 결정한다. 샘플 조정기 (426) 는 레퍼런스 채널 표시자 (184) 에 기초하여 타깃 채널에 대응하는 (제 1 샘플들 (412) 및 제 2 샘플들 (414) 의) 샘플들을 식별하고, 샘플 조정기 (426) 는 차이 (424) 에 기초하여 타깃 채널의 샘플들을 조정한다. 예를 들어, 샘플 조정기 (426) 는 (제 2 샘플들 (414) 이 타깃 채널에 대응할 때) 제 2 샘플들 (414) 의 서브세트를 (예를 들어, 싱크 보간, 라그랑지 보간, 하이브리드 보간, 또는 다른 보간을 사용하여) 보간하여 추정된 샘플들을 생성할 수도 있고, 샘플 조정기 (426) 는 샘플들의 서브세트를 추정된 샘플들로 대체시켜 조정된 샘플들 (428) 을 생성할 수도 있다. 출력 생성기 (430) 는 제 1 샘플들 (412) 및 조정된 샘플들 (428) 에 기초하여 제 1 출력 채널 (172) 및 제 2 출력 채널 (176) 을 생성할 수도 있다. 프레임간 불연속성들로 인한 클릭들 또는 다른 오디오 사운드들은 샘플 조정기 (426) 에 의해 수행된 조정으로 인해 출력 채널들 (172 및 176) 의 재생 동안 감소 (또는 제거) 될 수도 있다.
따라서, 도 4 의 시스템 (400) 은 디코더가 타깃 채널을 시간-시프팅함으로써 야기된 프레임간 불연속성들을 보상 (또는 은폐) 하기 위해 채널 조정을 수행하는 것을 가능하게 한다. 예를 들어, 디코더 (420) 는 인코딩된 채널들 (180) 을 디코딩할 수도 있고, 디코더 (420) 의 샘플 조정기 (426) 는 다수의 샘플들에 걸쳐 프레임간 불연속성을 확산시키도록 타깃 채널 (예를 들어, 제 2 출력 채널 (176)) 을 조정할 수도 있다. 불연속성을 확산시키면 불연속성에 의해 야기된 클릭들 또는 다른 오디오 사운드들을 감소시켜 (또는 제거하여), 그에 의해 디코딩된 출력 채널들의 명료성을 향상시키고 청취자의 경험을 향상시킬 수도 있다.
도 5 를 참조하면, 조정된 샘플들을 사용하여 다수의 오디오 채널들을 인코딩하도록 구성된 시스템의 다이어그램이 도시되고 일반적으로 500 으로 지정된다. 시스템 (500) 은 도 1 의 시스템 (100) 에 대응할 수도 있다. 예를 들어, 시스템 (100), 제 1 디바이스 (102), 제 2 디바이스 (160), 또는 이들의 조합은 시스템 (500) 의 하나 이상의 컴포넌트들을 포함할 수도 있다.
시스템 (500) 은, 시프트 추정기 (121) 를 통해, 프레임간 시프트 변동 분석기 (506) 에, 레퍼런스 채널 지정기 (508) 에, 또는 이들 양쪽 모두에 커플링된 채널 프리-프로세서 (channel pre-processor; 502) 를 포함한다. 채널 프리-프로세서 (502) 는 오디오 채널들 (501) (예를 들어, 도 1 의 레퍼런스 채널 (142) 및 타깃 채널 (146)) 을 수신하도록 그리고 오디오 채널들 (501) 을 프로세싱하여 프로세싱된 채널들 (530) 을 생성하도록 구성될 수도 있다. 예를 들어, 채널 프리-프로세서 (502) 는 오디오 채널들 (501) 을 다운-샘플링 또는 재샘플링하여 프로세싱된 채널들 (530) 을 생성하도록 구성될 수도 있다. 시프트 추정기 (121) 는 프로세싱된 채널들 (530) 의 비교(들) 에 기초하여 미스매치 값들 (예를 들어, 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114)) 을 결정하도록 구성될 수도 있다. 프레임간 시프트 변동 분석기 (506) 는 오디오 채널들을 레퍼런스 채널들 및 타깃 채널들로서 식별하도록 구성될 수도 있다. 프레임간 시프트 변동 분석기 (506) 는 2 개의 미스매치 값들 (예를 들어, 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114)) 사이의 차이 (예를 들어, 도 1 의 차이 (124)) 를 결정하도록 또한 구성될 수도 있다. 레퍼런스 채널 지정기 (508) 는 하나의 오디오 채널을 레퍼런스 채널 (예를 들어, 시간-시프팅되지 않은 채널) 로서 선택하도록 그리고 다른 오디오 채널을 타깃 채널 (예를 들어, 채널을 레퍼런스 채널과 시간적으로 정렬시키기 위해 레퍼런스 채널에 대해 시간-시프팅되는 채널) 로서 선택하도록 구성될 수도 있다.
프레임간 시프트 변동 분석기 (506) 는, 샘플 조정기 (126) 를 통해, 이득 파라미터 생성기 (513) 에 커플링될 수도 있다. 도 1 을 참조하여 설명된 바와 같이, 샘플 조정기 (126) 는 미스매치 값들 사이의 차이에 기초하여 타깃 채널을 조정하도록 구성될 수도 있다. 예를 들어, 샘플 조정기 (126) 는 샘플들의 서브세트에 대해 보간을 수행하여 타깃 채널의 조정된 샘플들을 생성하는 데 사용되는 추정된 샘플들을 생성하도록 구성될 수도 있다. 이득 파라미터 생성기 (513) 는 타깃 채널의 전력 레벨에 대해 레퍼런스 채널의 전력 레벨을 "정상화" (예를 들어, 등화) 하는 레퍼런스 채널의 이득 파라미터를 결정하도록 구성될 수도 있다. 대안적으로, 이득 파라미터 생성기 (513) 는 레퍼런스 채널의 전력 레벨에 대해 타깃 채널의 전력 레벨을 정상화 (예를 들어, 등화) 하는 타깃 채널의 이득 파라미터를 결정하도록 구성될 수도 있다.
레퍼런스 채널 지정기 (508) 는 프레임간 시프트 변동 분석기 (506) 에, 이득 파라미터 생성기 (513) 에, 또는 이들 양쪽 모두에 커플링될 수도 있다. 샘플 조정기 (126) 는 미드사이드 생성기 (510) 에, 이득 파라미터 생성기 (513) 에, 또는 이들 양쪽 모두에 커플링될 수도 있다. 이득 파라미터 생성기 (513) 는 미드사이드 생성기 (510) 에 커플링될 수도 있다. 미드사이드 생성기 (510) 는 레퍼런스 채널 및 조정된 타깃 채널에 대한 인코딩을 수행하여 적어도 하나의 인코딩된 채널을 생성하도록 구성될 수도 있다. 예를 들어, 미드사이드 생성기 (510) 는 미드-채널 (540) 및 사이드-채널 (542) 을 생성하기 위해 스테레오 인코딩을 수행하도록 구성될 수도 있다. 특정 구현에서, 미드사이드 생성기 (510) 는 도 1 의 채널 생성기 (130) 를 포함하거나 또는 그에 대응할 수도 있다.
미드사이드 생성기 (510) 는 대역폭 확장 (bandwidth extension; BWE) 공간 밸런서 (512), 미드 BWE 코더 (514), 저대역 (low band; LB) 채널 재생성기 (516), 또는 이들의 조합에 커플링될 수도 있다. LB 채널 재생성기 (516) 는 LB 사이드 코어 코더 (518), LB 미드 코어 코더 (520), 또는 이들 양쪽 모두에 커플링될 수도 있다. 미드 BWE 코더 (514) 는 BWE 공간 밸런서 (512), LB 미드 코어 코더 (520), 또는 이들 양쪽 모두에 커플링될 수도 있다. BWE 공간 밸런서 (512), 미드 BWE 코더 (514), LB 채널 재생성기 (516), LB 사이드 코어 코더 (518), 및 LB 미드 코어 코더 (520) 는 미드-채널 (540), 사이드-채널 (542), 또는 이들 양쪽 모두에 대해 대역폭 확장 및 추가적인 코딩, 예컨대 저대역 코딩 및 미드 대역 코딩을 수행하도록 구성될 수도 있다. 대역폭 확장 및 추가적인 코딩을 수행하는 것은, 추가적인 채널 인코딩을 수행하는 것, 파라미터들을 생성하는 것, 또는 이들 양쪽 모두를 포함할 수도 있다.
동작 동안, 채널 프리-프로세서 (502) 는 오디오 채널들 (501) 을 수신할 수도 있다. 예를 들어, 채널 프리-프로세서 (502) 는 도 1 의 하나 이상의 인터페이스들 (104) 로부터 오디오 채널들 (501) 을 수신할 수도 있다. 오디오 채널들 (501) 은 제 1 오디오 신호 (142), 제 2 오디오 신호 (146), 또는 이들 양쪽 모두를 포함할 수도 있다. 특정 구현에서, 오디오 채널들 (501) 은 좌측 채널 및 우측 채널을 포함할 수도 있다. 다른 구현들에서, 오디오 채널들 (501) 은 다른 채널들을 포함할 수도 있다. 채널 프리-프로세서 (502) 는 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 를 다운-샘플링 (또는 재샘플링) 하여 프로세싱된 채널들 (530) (예를 들어, 다운샘플링된 제 1 오디오 신호 (142) 및 다운샘플링된 제 2 오디오 신호 (146)) 을 생성할 수도 있다. 채널 프리-프로세서 (502) 는 프로세싱된 채널들 (530) 을 시프트 추정기 (121) 에 제공할 수도 있다.
시프트 추정기 (121) 는 프로세싱된 채널들 (530) 에 기초하여 미스매치 값들을 생성할 수도 있다. 예를 들어, 시프트 추정기 (121) 는 프로세싱된 채널들 (530) 의 비교 (예를 들어, 다운샘플링된 제 1 오디오 신호 (142) 의 제 3 프레임과 다운샘플링된 제 2 오디오 신호 (146) 의 제 4 프레임의 비교) 에 기초하여 제 2 미스매치 값 (114) 을 생성할 수도 있다. 일부 구현들에서, 시프트 추정기 (121) 는, 도 1 을 참조하여 설명된 바와 같이, 잠정적 미스매치 값들, 보간된 미스매치 값들, 및 "최종" 미스매치 값들을 생성할 수도 있고, 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 은 최종 미스매치 값들에 대응할 수도 있다. 시프트 추정기 (121) 는 프레임간 시프트 변동 분석기 (506) 에 그리고 레퍼런스 채널 지정기 (508) 에 제 2 미스매치 값 (114) (및 다른 미스매치 값들) 을 제공할 수도 있다. 특정 구현에서, 제 2 미스매치 값 (114) 은 절대 값 연산의 수행 후에 비-인과적 미스매치 값 (NC_SHIFT_INDX) 으로서 제공될 수도 있다 (예를 들어, 비-인과적 미스매치 값은 제 2 미스매치 값 (114) 의 부호없는 버전일 수도 있다). 비-인과적 미스매치 값은, 도 1 을 참조하여 설명된 바와 같이, 다른 디바이스들로 송신될 수도 있다.
특정 구현에서, 시프트 추정기 (121) 는 다음 미스매치 값이 현재 미스매치 값과는 상이한 부호 (예를 들어, 포지티브 또는 네거티브) 를 갖는 것을 방지할 수도 있다. 예를 들어, 제 1 프레임에 대한 미스매치 값이 네거티브이고 제 2 프레임에 대한 미스매치 값이 포지티브인 것으로 결정될 때, 시프트 추정기 (121) 는 제 2 프레임에 대한 미스매치 값을 제로인 것으로 설정할 수도 있다. 다른 예로서, 제 1 프레임에 대한 미스매치 값이 포지티브이고 제 2 프레임에 대한 미스매치 값이 네거티브인 것으로 결정될 때, 시프트 추정기 (121) 는 제 2 프레임에 대한 미스매치 값을 제로인 것으로 설정할 수도 있다. 따라서, 이 구현에서, 현재 프레임에 대한 미스매치 값은 이전 프레임에 대한 미스매치 값과 동일한 부호 (예를 들어, 포지티브 또는 네거티브) 를 갖거나, 또는 현재 프레임에 대한 미스매치 값은 제로이다.
레퍼런스 채널 지정기 (508) 는 제 3 프레임 및 제 4 프레임에 대응하는 시간 기간에 대해 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 하나를 레퍼런스 채널로서 선택할 수도 있다. 레퍼런스 채널 지정기 (508) 는 제 2 미스매치 값 (114) 에 기초하여 레퍼런스 채널을 결정할 수도 있다. 예를 들어, 제 2 미스매치 값 (114) 이 네거티브일 때, 레퍼런스 채널 지정기 (508) 는 제 2 오디오 신호 (146) 를 레퍼런스 채널로서 그리고 제 1 오디오 신호 (142) 를 타깃 채널로서 식별할 수도 있다. 제 2 미스매치 값 (114) 이 포지티브 또는 제로일 때, 레퍼런스 채널 지정기 (508) 는 제 2 오디오 신호 (146) 를 타깃 채널로서 그리고 제 1 오디오 신호 (142) 를 레퍼런스 채널로서 식별할 수도 있다. 레퍼런스 채널 지정기 (508) 는 레퍼런스 채널을 나타내는 값을 갖는 레퍼런스 채널 표시자 (184) 를 생성할 수도 있다. 예를 들어, 제 1 오디오 신호 (142) 가 레퍼런스 채널로서 식별될 때 레퍼런스 채널 표시자 (184) 는 제 1 값 (예를 들어, 논리적 제로 값) 을 가질 수도 있고, 레퍼런스 채널 표시자 (184) 는 제 2 오디오 신호 (146) 가 레퍼런스 채널로서 식별될 때 제 2 값 (예를 들어, 논리적 1 값) 을 가질 수도 있다. 레퍼런스 채널 지정기 (508) 는 레퍼런스 채널 표시자 (184) 를 프레임간 시프트 변동 분석기 (506) 에 그리고 이득 파라미터 생성기 (513) 에 제공할 수도 있다. 추가적으로, 도 1 을 참조하여 설명된 바와 같이, 레퍼런스 채널 표시자 (184) (REF_CH_INDX) 가 다른 디바이스들로 송신될 수도 있다. 다른 구현들에서, 타깃 채널 지정기 (도시되지 않음) 는 타깃 채널을 나타내는 값을 갖는 타깃 채널 표시자를 생성할 수도 있다.
프레임간 시프트 변동 분석기 (506) 는 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 사이의 차이 (124) 를 결정할 수도 있다. 예시하기 위해, 프레임간 시프트 변동 분석기 (506) 는 제 2 미스매치 값 (114) 이 결정 (예를 들어, 생성) 된 후에 시프트 추정기 (121) 로부터 제 2 미스매치 값 (114) 을 수신할 수도 있고, 프레임간 시프트 변동 분석기 (506) 는 (예를 들어, 버퍼 또는 다른 스토리지 내의) 이전 미스매치 값들에 액세스하여 이전 미스매치 값 (예를 들어, 제 1 미스매치 값 (112)) 을 취출할 수도 있다. 프레임간 시프트 변동 분석기 (506) 는 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 사이의 차이 (124) 를 결정할 수도 있다. 특정 구현에서, 프레임간 시프트 변동 분석기 (506) 는, 차이 (124) 를 결정하는 비교기 (122) 를 포함한다.
추가적으로, 프레임간 시프트 변동 분석기 (506) 는 레퍼런스 채널 표시자 (184), 제 1 미스매치 값 (112) (Tprev), 제 2 미스매치 값 (114) (T), 및 이전 타깃 채널 (536) (예를 들어, 이전의 조정된 타깃 채널) 에 기초하여 조정된 타깃 채널을 식별할 수도 있다. 예시하기 위해, 프레임간 시프트 변동 분석기 (506) 는 다음의 표에 따라 조정된 타깃 채널을 결정할 수도 있다:
Figure 112018058937869-pct00015
표 1 에서, 이전 시프트 (Tprev) 는 제 1 미스매치 값 (112) 에 대응하고, 현재 시프트 (T) 는 제 2 미스매치 값 (114) 에 대응하고, 이전의 코딩된 타깃 채널은 이전 타깃 채널 (536) 에 대응한다. 코딩된 타깃 채널은 미드-채널 및 사이드-채널 생성에 사용되는 오디오 채널을 나타낸다. 코딩된 타깃 채널은 조정된 타깃 채널 (예를 들어, 시간 시프팅되고 프레임간 불연속성들을 평활화하도록 조정되는 오디오 채널) 과 동일하지 않을 수도 있다. 조정된 타깃 채널은 샘플 조정기 (126) 에 의해 조정되어야 하는 오디오 채널을 나타낸다.
표 1 에 나타내어진 바와 같이, 제 1 미스매치 값 (112) (Tprev) 이 네거티브이고 제 2 미스매치 값 (114) (T) 이 네거티브이고 이전의 코딩된 타깃 채널이 제 1 오디오 신호 (142) 일 때 제 1 오디오 신호 (142) ("CHAN_1") 는 조정된 타깃 채널 및 코딩된 타깃 채널이다. 제 1 미스매치 값 (112) 이 제로이고 제 2 미스매치 값 (114) 이 네거티브이고 이전의 코딩된 타깃 채널이 제 2 오디오 신호 (146) 일 때 제 1 오디오 신호 (142) 는 또한 조정된 타깃 채널 및 코딩된 타깃 채널이다. 제 1 미스매치 값 (112) 이 포지티브이고 제 2 미스매치 값 (114) 이 제로이고 이전의 코딩된 타깃 채널이 제 2 오디오 신호 (146) 일 때 제 2 오디오 신호 (146) 는 조정된 타깃 채널 및 코딩된 타깃 채널이다. 제 1 미스매치 값 (112) 이 포지티브이고 제 2 미스매치 값 (114) 이 포지티브이고 이전의 코딩된 타깃 채널이 제 2 오디오 신호 (146) 일 때 제 2 오디오 신호 (146) 는 또한 조정된 타깃 채널 및 코딩된 타깃 채널이다. 제 1 미스매치 값 (112) 이 제로이고 제 2 미스매치 값 (114) 이 포지티브이고 이전의 코딩된 타깃 채널이 제 2 오디오 신호 (146) 일 때 제 2 오디오 신호 (146) 는 또한 조정된 타깃 채널 및 코딩된 타깃 채널이다. 제 1 미스매치 값 (112) 이 네거티브이고 제 2 미스매치 값 (114) 이 제로이고 이전의 코딩된 타깃 채널이 제 1 오디오 신호 (142) 일 때 제 1 오디오 신호 (142) 는 조정된 타깃 채널이고 제 2 오디오 신호 (146) 는 코딩된 타깃 채널이다. 이 경우에서, 제 1 오디오 신호 (142) 는 샘플 조정기 (126) 에 의해 조정되어야 하고, 제 2 오디오 신호 (146) 는 미드-채널 및 사이드-채널들을 코딩하는 데 사용된다.
조정된 타깃 채널을 결정하기 위한 프레임간 시프트 변동 분석기 (506) 의 동작이 도 6 에 예시되어 있다. 도 6 은 프레임간 시프트 변동 분석기 (506) 의 특정 구현의 다이어그램 (600) 을 도시한다. 프레임간 시프트 변동 분석기 (506) 는 조정된 타깃 채널 결정기 (602) 를 포함할 수도 있다. 조정된 타깃 채널 결정기 (602) 는 상태 다이어그램 (610) 에 따라 조정된 타깃 채널을 결정할 수도 있다. 조정된 타깃 채널을 결정한 후에, 프레임간 시프트 변동 분석기 (506) 는 조정된 타깃 채널을 식별하기 (예를 들어, 나타내기) 위해 타깃 채널 표시자 (534) 의 값을 설정할 수도 있다.
상태 다이어그램 (610) 은, 상태 612 에서, 제 1 오디오 신호 (142) 를 나타내기 위해 타깃 채널 표시자 (534) 및 레퍼런스 채널 표시자 (184) 를 설정하는 것을 포함한다. 상태 다이어그램 (610) 은, 상태 614 에서, 제 2 오디오 신호 (146) 를 나타내기 위해 타깃 채널 표시자 (534) 및 레퍼런스 채널 표시자 (184) 를 설정하는 것을 포함한다. 제 1 미스매치 값 (112) 이 제로 이상인 값을 가지며 제 2 미스매치 값 (114) 이 제로 이상인 값을 갖는 경우, 프레임간 시프트 변동 분석기 (506) 는 상태 614 에서 남아있을 수도 있다. 프레임간 시프트 변동 분석기 (506) 는, 제 1 미스매치 값 (112) 이 제로이고 제 2 미스매치 값 (114) 이 네거티브 값을 갖는다는 결정에 응답하여, 상태 614 로부터 상태 612 로 천이할 수도 있다. 예를 들어, 프레임간 시프트 변동 분석기 (506) 는, 제 1 미스매치 값 (112) 이 제로이고 제 2 미스매치 값 (114) 이 네거티브 값을 갖는다는 결정에 응답하여, 제 2 오디오 신호 (146) 가 타깃 채널임을 나타내는 것으로부터 제 1 오디오 신호 (142) 가 타깃 오디오 신호임을 나타내는 것으로 타깃 채널 표시자 (534) 를 변경할 수도 있다. 제 1 미스매치 값 (112) 이 네거티브이고 제 2 미스매치 값 (114) 이 제로 이하인 경우, 프레임간 시프트 변동 분석기 (506) 는 상태 612 에서 남아있을 수도 있다. 프레임간 시프트 변동 분석기 (506) 는, 제 1 미스매치 값 (112) 이 제로이고 제 2 미스매치 값 (114) 이 포지티브 값을 갖는다는 결정에 응답하여, 상태 612 로부터 상태 614 로 천이할 수도 있다. 예를 들어, 프레임간 시프트 변동 분석기 (506) 는, 제 1 미스매치 값 (112) 이 제로이고 제 2 미스매치 값 (114) 이 포지거티브 값을 갖는다는 결정에 응답하여, 제 1 오디오 신호 (142) 가 타깃 채널임을 나타내는 것으로부터 제 2 오디오 신호 (146) 가 타깃 채널임을 나타내는 것으로 타깃 채널 표시자 (534) 를 변경할 수도 있다.
도 5 로 되돌아가면, 조정된 타깃 채널을 결정한 후에, 프레임간 시프트 변동 분석기 (506) 는 조정된 타깃 채널을 나타내는 타깃 채널 표시자 (534) 를 생성한다. 예를 들어, 타깃 채널 표시자 (534) 의 제 1 값 (예를 들어, 논리적 제로 값) 은 제 1 오디오 신호 (142) 가 조정된 타깃 채널임을 나타낼 수도 있고, 타깃 채널 표시자 (534) 의 제 2 값 (예를 들어, 논리적 1 값) 은 제 2 오디오 신호 (146) 가 조정된 타깃 채널임을 나타낼 수도 있다. 프레임간 시프트 변동 분석기 (506) 는 타깃 채널 표시자 (534) 및 차이 (124) 를 샘플 조정기 (126) 에 제공할 수도 있다.
샘플 조정기 (126) 는 차이 (124) 에 기초하여 조정된 타깃 채널에 대응하는 샘플들을 조정하여 조정된 샘플들 (128) 을 생성할 수도 있다. 샘플 조정기 (126) 는 타깃 채널 표시자 (534) 에 기초하여 제 1 샘플들 (116) 또는 제 2 샘플들 (118) 이 조정된 타깃 채널에 대응하는지 여부를 식별할 수도 있다. 타깃 채널을 조정하는 것은, 도 1 내지 도 3 을 참조하여 설명된 바와 같이, 타깃 채널의 샘플들의 서브세트에 대해 보간을 수행하여 추정된 샘플들을 생성하는 것, 및 샘플들의 서브세트를 추정된 샘플들로 대체시켜 조정된 샘플들 (128) 을 생성하는 것을 포함할 수도 있다. 예를 들어, 샘플 조정기 (126) 는 평활화 및 슬로우-시프팅을 통해 반복 또는 스킵되는 프레임 경계들에 대응하는 타깃 채널의 샘플들의 서브세트를 보간하여 조정된 샘플들 (128) 을 생성할 수도 있다. 평활화 및 슬로우-시프팅은 싱크 보간기들, 라그랑지 보간기들, 하이브리드 보간기들, 또는 이들의 조합에 기초하여 수행될 수도 있다. 차이 (124) 가 제로인 경우, 조정된 샘플들 (128) 은 타깃 채널의 샘플들과 동일할 수도 있다. 샘플 조정기 (126) 는 조정된 샘플들 (128) 을 이득 파라미터 생성기 (513) 및 미드사이드 생성기 (510) 에 제공할 수도 있다.
이득 파라미터 생성기 (513) 는 레퍼런스 채널 표시자 (184) 및 조정된 샘플들 (128) 에 기초하여 이득 파라미터 (532) 를 생성할 수도 있다. 이득 파라미터 (532) 는 레퍼런스 채널의 전력 레벨에 대해 타깃 채널의 전력 레벨을 정규화 (예를 들어, 등화) 할 수도 있다. 대안적으로, 이득 파라미터 생성기 (513) 는 레퍼런스 채널 (또는 그의 샘플들) 을 수신하고 타깃 채널의 전력 레벨에 대해 레퍼런스 채널의 전력 레벨을 정규화하는 이득 파라미터 (532) 를 결정할 수도 있다. 일부 구현들에서, 이득 파라미터 (532) 는 식 3a 내지 식 3f 에 기초하여 결정될 수도 있다. 이득 파라미터 생성기 (513) 는 이득 파라미터 (532) 를 미드사이드 생성기 (510) 에 제공할 수도 있다.
미드사이드 생성기 (510) 는 조정된 샘플들 (128), 제 1 샘플들 (116), 제 2 샘플들 (118), 및 이득 파라미터 (532) 에 기초하여 미드-채널 (540), 사이드-채널 (542), 또는 이들 양쪽 모두를 생성할 수도 있다. 예를 들어, 도 1 을 참조하여 설명된 바와 같이, 미드사이드 생성기 (510) 는 식 1a 또는 식 1b 에 기초하여 미드-채널 (540) 을 생성할 수도 있고, 미드사이드 생성기 (510) 는 식 2a 또는 식 2b 에 기초하여 사이드-채널 (542) 을 생성할 수도 있다. 미드사이드 생성기 (510) 는 미드-채널 (540) 및 사이드-채널 (542) 을 생성함에 있어서 레퍼런스 채널에 대응하는 (제 1 샘플들 (116) 의) 샘플들을 사용할 수도 있다.
미드사이드 생성기 (510) 는 사이드-채널 (542) 을 BWE 공간 밸런서 (512), LB 채널 재생성기 (516), 또는 이들 양쪽 모두에 제공할 수도 있다. 미드사이드 생성기 (510) 는 미드-채널 (540) 을 미드 BWE 코더 (514), LB 채널 재생성기 (516), 또는 이들 양쪽 모두에 제공할 수도 있다. LB 채널 재생성기 (516) 는 미드-채널 (540) 에 기초하여 LB 미드 채널 (560) 을 생성할 수도 있다. 예를 들어, LB 채널 재생성기 (516) 는 미드-채널 (540) 을 필터링함으로써 LB 미드 채널 (560) 을 생성할 수도 있다. LB 채널 재생성기 (516) 는 LB 미드 채널 (560) 을 LB 미드 코어 코더 (520) 에 제공할 수도 있다. LB 미드 코어 코더 (520) 는 LB 미드 채널 (560) 에 기초하여 파라미터들 (예를 들어, 코어 파라미터들 (571), 파라미터들 (575), 또는 이들 양쪽 모두) 을 생성할 수도 있다. 코어 파라미터들 (571), 파라미터들 (575), 또는 이들 양쪽 모두는 여기 파라미터, 보이싱 파라미터 등을 포함할 수도 있다. LB 미드 코어 코더 (520) 는 미드 BWE 코더 (514) 로의 코어 파라미터들 (571), LB 사이드 코어 코더 (518) 로의 파라미터들 (575), 또는 이들 양쪽 모두를 제공할 수도 있다. 코어 파라미터들 (571) 은 파라미터들 (575) 과 동일하거나 또는 다를 수도 있다. 예를 들어, 코어 파라미터들 (571) 은 파라미터들 (575) 중 하나 이상을 포함할 수도 있거나, 파라미터들 (575) 중 하나 이상을 배제할 수도 있거나, 하나 이상의 추가 파라미터들을 포함할 수도 있거나, 또는 이들의 조합으로 될 수도 있다. 미드 BWE 코더 (514) 는 미드-채널 (540), 코어 파라미터들 (571), 또는 이들의 조합에 기초하여 코딩된 미드 BWE 채널 (573) 을 생성할 수도 있다. 미드 BWE 코더 (514) 는 코딩된 미드 BWE 채널 (573) 을 BWE 공간 밸런서 (512) 에 제공할 수도 있다.
LB 채널 재생성기 (516) 는 사이드-채널 (542) 에 기초하여 LB 사이드 채널 (562) 을 생성할 수도 있다. 예를 들어, LB 채널 재생성기 (516) 는 사이드-채널 (542) 을 필터링함으로써 LB 사이드 채널 (562) 을 생성할 수도 있다. LB 채널 재생성기 (516) 는 LB 사이드 채널 (562) 을 LB 사이드 코어 코더 (518) 에 제공할 수도 있다.
따라서, 도 5 의 시스템 (500) 은 조정된 타깃 채널에 기초하는 인코딩된 채널들 (예를 들어, 미드-채널 (540) 및 사이드-채널 (542)) 을 생성한다. 미스매치 값들 사이의 차이에 기초하여 타깃 채널을 조정하면 프레임간 불연속성들을 보상 (또는 은폐) 할 수도 있는데, 이는 인코딩된 채널들의 재생 동안 클릭들 또는 다른 오디오 사운드들을 감소시킬 수도 있다.
도 7 을 참조하면, 시스템의 예시적 예가 도시되고 일반적으로 700 으로 지정된다. 시스템 (700) 은 도 1 의 시스템 (100) 에 대응할 수도 있다. 예를 들어, 시스템 (100), 도 1 의 제 1 디바이스 (102), 또는 이들 양쪽 모두는 시스템 (700) 의 하나 이상의 컴포넌트들을 포함할 수도 있다. 도 7 에서, 제 1 디바이스 (102) 는 제 1 마이크로폰 (140), 제 2 마이크로폰 (144), 제 3 마이크로폰 (746), 및 제 4 마이크로폰 (748) 에 커플링된다.
동작 동안, 제 1 디바이스 (102) 는 제 1 마이크로폰 (140) 을 통한 제 1 오디오 신호 (142), 제 2 마이크로폰 (74) 을 통한 제 2 오디오 신호 (146), 제 3 마이크로폰 (746) 을 통한 제 3 오디오 신호 (730), 제 4 마이크로폰 (748) 을 통한 제 4 오디오 신호 (732), 또는 이들의 조합을 수신할 수도 있다. 사운드 소스 (150) 는 제 1 마이크로폰 (140), 제 2 마이크로폰 (144), 제 3 마이크로폰 (746), 또는 제 4 마이크로폰 (748) 중 하나에, 나머지 마이크로폰들에 대한 것보다 더 가까울 수도 있다. 예를 들어, 사운드 소스 (150) 는 제 2 마이크로폰 (144), 제 3 마이크로폰 (746), 및 제 4 마이크로폰 (748) 각각에 대한 것보다 제 1 마이크로폰 (140) 에 더 가까울 수도 있다.
인코더 (120) 는 제 1 오디오 신호 (142), 제 2 오디오 신호 (146), 제 3 오디오 신호 (730), 또는 제 4 오디오 신호 (732) 중 특정 오디오 신호의, 나머지 오디오 신호들 각각에 대한, 시프트를 나타내는, 도 1 을 참조하여 설명된 바와 같은, 제 1 미스매치 값 (112) (예를 들어, 최종 미스매치 값) 을 결정할 수도 있다. 예를 들어, 인코더 (120) 는 제 1 오디오 신호 (142) 에 대한 제 2 오디오 신호 (146) 의 시프트를 나타내는 제 1 미스매치 값 (112), 제 1 오디오 신호 (142) 에 대한 제 3 오디오 신호 (730) 의 시프트를 나타내는 제 2 미스매치 값 (114) (예를 들어, 제 2 최종 미스매치 값), 제 1 오디오 신호 (142) 에 대한 제 4 오디오 신호 (732) 의 시프트를 나타내는 제 3 미스매치 값 (718) (예를 들어, 제 3 최종 미스매치 값), 또는 이들의 조합을 결정할 수도 있다. 일부 구현들에서, 인코더 (120) 는 도 1 을 참조하여 설명된 바와 같은 인코더 (120) 의 동작들을 수행하도록 구성되는 시간 등화기(들) (708) 를 포함할 수도 있다. 예를 들어, 시간 등화기(들) (708) 는 도 1 의 시프트 추정기 (121), 비교기 (122), 샘플 조정기 (126), 및 신호 생성기 (130), 시스템 (500) 의 하나 이상의 컴포넌트들, 또는 이들의 조합을 포함할 수도 있다.
시간 등화기(들) (708) 는 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 및 제 3 미스매치 값 (718) 에 기초하여 제 1 오디오 신호 (142), 제 2 오디오 신호 (146), 제 3 오디오 신호 (730), 또는 제 4 오디오 신호 (732) 중 하나를 레퍼런스 채널로서 선택할 수도 있다. 예를 들어, 시간 등화기(들) (708) 는, 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 및 제 3 미스매치 값 (718) 각각이 대응하는 오디오 신호가 특정 오디오 신호에 비해 시간적으로 지연됨 또는 대응하는 오디오 신호와 특정 오디오 신호 사이에 시간 지연이 없음을 나타내는 제 1 값 (예를 들어, 비-네거티브 값) 을 갖는다는 결정에 응답하여, 특정 신호 (예를 들어, 제 1 오디오 신호 (142)) 를 레퍼런스 채널로서 선택할 수도 있다. 예시하기 위해, 미스매치 값 (예를 들어, 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 또는 제 3 미스매치 값 (718)) 의 포지티브 값은 대응하는 신호 (예를 들어, 제 2 오디오 신호 (146), 제 3 오디오 신호 (730), 또는 제 4 오디오 신호 (732)) 가 제 1 오디오 신호 (142) 에 비해 시간적으로 지연됨을 나타낼 수도 있다. 미스매치 값 (예를 들어, 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 또는 제 3 미스매치 값 (718)) 의 제로 값은 대응하는 신호 (예를 들어, 제 2 오디오 신호 (146), 제 3 오디오 신호 (730), 또는 제 4 오디오 신호 (732)) 와 제 1 오디오 신호 (142) 사이에 시간 지연 (또는 비실질적 시간 지연) 이 없음을 나타낼 수도 있다.
시간 등화기(들) (708) 는 제 1 오디오 신호 (142) 가 레퍼런스 채널에 대응함을 나타내기 위해 레퍼런스 채널 표시자 (184) 를 생성할 수도 있다. 시간 등화기(들) (708) 는 제 2 오디오 신호 (146), 제 3 오디오 신호 (730), 및 제 4 오디오 신호 (732) 가 타깃 채널들에 대응한다는 것을 결정할 수도 있다.
대안적으로, 시간 등화기(들) (708) 는 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 또는 제 3 미스매치 값 (718) 중 적어도 하나가 특정 오디오 신호 (예를 들어, 제 1 오디오 신호 (142)) 가 다른 오디오 신호 (예를 들어, 제 2 오디오 신호 (146), 제 3 오디오 신호 (730), 또는 제 4 오디오 신호 (732)) 에 비해 지연됨을 나타내는 제 2 값 (예를 들어, 네거티브 값) 을 갖는다는 것을 결정할 수도 있다.
시간 등화기(들) (708) 는 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 및 제 3 미스매치 값 (718) 으로부터 미스매치 값들의 제 1 서브세트를 선택할 수도 있다. 제 1 서브세트의 각각의 미스매치 값은 제 1 오디오 신호 (142) 가 대응하는 오디오 신호에 비해 시간적으로 지연됨을 나타내는 값 (예를 들어, 네거티브 값) 을 가질 수도 있다. 예를 들어, 제 2 미스매치 값 (114) (예를 들어, -12) 은 제 1 오디오 신호 (142) 가 제 3 오디오 신호 (730) 에 비해 시간적으로 지연됨을 나타낼 수도 있다. 제 3 미스매치 값 (718) (예를 들어, -14) 은 제 1 오디오 신호 (142) 가 제 4 오디오 신호 (732) 에 비해 시간적으로 지연됨을 나타낼 수도 있다. 미스매치 값들의 제 1 서브세트는 제 2 미스매치 값 (114) 및 제 3 미스매치 값 (718) 을 포함할 수도 있다.
시간 등화기(들) (708) 는 대응하는 오디오 신호에 대한 제 1 오디오 신호 (142) 의 보다 높은 지연을 나타내는 제 1 서브세트의 특정 미스매치 값 (예를 들어, 보다 낮은 미스매치 값) 을 선택할 수도 있다. 제 2 미스매치 값 (114) 은 제 3 오디오 신호 (730) 에 대한 제 1 오디오 신호 (142) 의 제 1 지연을 나타낼 수도 있다. 제 3 미스매치 값 (718) 은 제 4 오디오 신호 (732) 에 대한 제 1 오디오 신호 (142) 의 제 2 지연을 나타낼 수도 있다. 시간 등화기(들) (708) 는 제 2 지연이 제 1 지연보다 더 길다는 결정에 응답하여 미스매치 값들의 제 1 서브세트로부터 제 3 미스매치 값 (718) 을 선택할 수도 있다.
시간 등화기(들) (708) 는 특정 미스매치 값에 대응하는 오디오 신호를 레퍼런스 채널로서 선택할 수도 있다. 예를 들어, 시간 등화기(들) (708) 는 제 3 미스매치 값 (718) 에 대응하는 제 4 오디오 신호 (732) 를 레퍼런스 채널로서 선택할 수도 있다. 시간 등화기(들) (708) 는 제 4 오디오 신호 (732) 가 레퍼런스 채널에 대응함을 나타내기 위해 레퍼런스 채널 표시자 (184) 를 생성할 수도 있다. 시간 등화기(들) (708) 는 제 1 오디오 신호 (142), 제 2 오디오 신호 (146), 및 제 3 오디오 신호 (730) 가 타깃 채널들에 대응한다는 것을 결정할 수도 있다.
시간 등화기(들) (708) 는 레퍼런스 채널에 대응하는 특정 미스매치 값에 기초하여 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 업데이트할 수도 있다. 예를 들어, 시간 등화기(들) (708) 는 제 2 오디오 신호 (146) 에 대한 제 4 오디오 신호 (732) 의 제 1 특정 지연을 나타내기 위해 제 3 미스매치 값 (718) 에 기초하여 제 1 미스매치 값 (112) 을 업데이트할 수도 있다 (예를 들어, 제 1 미스매치 값 (112) = 제 1 미스매치 값 (112) - 제 3 미스매치 값 (718)). 예시하기 위해, 제 1 미스매치 값 (112) (예를 들어, 2) 은 제 2 오디오 신호 (146) 에 대한 제 1 오디오 신호 (142) 의 지연을 나타낼 수도 있다. 제 3 미스매치 값 (718) (예를 들어, -14) 은 제 4 오디오 신호 (732) 에 대한 제 1 오디오 신호 (142) 의 지연을 나타낼 수도 있다. 제 1 미스매치 값 (112) 과 제 3 미스매치 값 (718) 사이의 제 1 차이 (예를 들어, 16 = 2 - (-14)) 는 제 2 오디오 신호 (146) 에 대한 제 4 오디오 신호 (732) 의 지연을 나타낼 수도 있다. 시간 등화기(들) (708) 는 제 1 차이에 기초하여 제 1 미스매치 값 (112) 을 업데이트할 수도 있다. 시간 등화기(들) (708) 는 제 3 오디오 신호 (730) 에 대한 제 4 오디오 신호 (732) 의 제 2 특정 지연을 나타내기 위해 제 3 미스매치 값 (718) 에 기초하여 제 2 미스매치 값 (114) (예를 들어, 2) 을 업데이트할 수도 있다 (예를 들어, 미스매치 값 (114) = 제 2 미스매치 값 (114) - 제 3 미스매치 값 (718)). 예시하기 위해, 제 2 미스매치 값 (114) (예를 들어, -12) 은 제 3 오디오 신호 (730) 에 대한 제 1 오디오 신호 (142) 의 지연을 나타낼 수도 있다. 제 3 미스매치 값 (718) (예를 들어, -14) 은 제 4 오디오 신호 (732) 에 대한 제 1 오디오 신호 (142) 의 지연을 나타낼 수도 있다. 제 2 미스매치 값 (114) 과 제 3 미스매치 값 (718) 사이의 제 2 차이 (예를 들어, 2 = -12 - (-14)) 는 제 3 오디오 신호 (730) 에 대한 제 4 오디오 신호 (732) 의 지연을 나타낼 수도 있다. 시간 등화기(들) (708) 는 제 2 차이에 기초하여 제 2 미스매치 값 (114) 을 업데이트할 수도 있다.
시간 등화기(들) (708) 는 제 1 오디오 신호 (142) 에 대한 제 4 오디오 신호 (732) 의 지연을 나타내기 위해 제 3 미스매치 값 (718) 을 반전시킬 수도 있다. 예를 들어, 시간 등화기(들) (708) 는 제 4 오디오 신호 (732) 에 대한 제 1 오디오 신호 (142) 의 지연을 나타내는 제 1 값 (예를 들어, -14) 으로부터 제 1 오디오 신호 (142) 에 대한 제 4 오디오 신호 (732) 의 지연을 나타내는 제 2 값 (예를 들어, +14) 으로 업데이트할 수도 있다 (예를 들어, 제 3 미스매치 값 (718) = - 제 3 미스매치 값 (718)).
시간 등화기(들) (708) 는 절대 값 함수를 제 1 미스매치 값 (112) 에 적용함으로써 비-인과적 미스매치 값 (760) 을 생성할 수도 있다. 시간 등화기(들) (708) 는 절대 값 함수를 제 2 미스매치 값 (114) 에 적용함으로써 제 2 비-인과적 미스매치 값 (761) 을 생성할 수도 있다. 시간 등화기(들) (708) 는 절대 값 함수를 제 3 미스매치 값 (718) 에 적용함으로써 제 3 비-인과적 미스매치 값 (762) 을 생성할 수도 있다.
시간 등화기(들) (708) 는, 도 1 을 참조하여 설명된 바와 같이, 레퍼런스 채널에 기초하여 각각의 타깃 채널의 이득 파라미터를 생성할 수도 있다. 제 1 오디오 신호 (142) 가 레퍼런스 채널에 대응하는 예에서, 시간 등화기(들) (708) 는 제 1 오디오 신호 (142) 에 기초하는 제 2 오디오 신호 (146) 의 이득 파라미터 (770), 제 1 오디오 신호 (142) 에 기초하는 제 3 오디오 신호 (730) 의 제 2 이득 파라미터 (772), 제 1 오디오 신호 (142) 에 기초하는 제 4 오디오 신호 (732) 의 제 3 이득 파라미터 (774), 또는 이들의 조합을 생성할 수도 있다.
시간 등화기(들) (708) 는 제 1 오디오 신호 (142), 제 2 오디오 신호 (146), 제 3 오디오 신호 (730), 및 제 4 오디오 신호 (732) 에 기초하여 인코딩된 신호 (예를 들어, 미드 채널 신호 프레임) 를 생성할 수도 있다. 예를 들어, 인코딩된 신호 (예를 들어, 제 1 인코딩된 신호 프레임 (763)) 는 레퍼런스 채널 (예를 들어, 제 1 오디오 신호 (142)) 의 샘플들과 타깃 채널들 (예를 들어, 제 2 오디오 신호 (146), 제 3 오디오 신호 (730), 및 제 4 오디오 신호 (732)) 의 샘플들의 합에 대응할 수도 있다. 타깃 채널들 각각의 샘플들은, 도 1 을 참조하여 설명된 바와 같이, 대응하는 미스매치 값에 기초하여 레퍼런스 채널의 샘플들에 대해 시간-시프팅될 수도 있다. 시간 등화기(들) (708) 는 이득 파라미터 (770) 와 제 2 오디오 신호 (146) 의 샘플들의 제 1 곱, 제 2 이득 파라미터 (772) 와 제 3 오디오 신호 (730) 의 샘플들의 제 2 곱, 및 제 3 이득 파라미터 (774) 와 제 4 오디오 신호 (732) 의 샘플들의 제 3 곱을 결정할 수도 있다. 제 1 인코딩된 신호 프레임 (763) 은 제 1 오디오 신호 (142) 의 샘플들, 제 1 곱, 제 2 곱, 및 제 3 곱의 합에 대응할 수도 있다. 즉, 제 1 인코딩된 신호 프레임 (763) 은 다음의 식들에 기초하여 생성될 수도 있다:
Figure 112018058937869-pct00016
식 5a
Figure 112018058937869-pct00017
식 5b
여기서 M 은 미드 채널 프레임 (예를 들어, 제 1 인코딩된 신호 프레임 (763)) 에 대응하고,
Figure 112018058937869-pct00018
은 레퍼런스 채널 (예를 들어, 제 1 오디오 신호 (142)) 의 샘플들에 대응하고,
Figure 112018058937869-pct00019
은 이득 파라미터 (770) 에 대응하고,
Figure 112018058937869-pct00020
는 제 2 이득 파라미터 (772) 에 대응하고,
Figure 112018058937869-pct00021
은 제 3 이득 파라미터 (774) 에 대응하고,
Figure 112018058937869-pct00022
은 비-인과적 미스매치 값 (760) 에 대응하고,
Figure 112018058937869-pct00023
는 제 2 비-인과적 미스매치 값 (761) 에 대응하고,
Figure 112018058937869-pct00024
은 제 3 비-인과적 미스매치 값 (762) 에 대응하고,
Figure 112018058937869-pct00025
은 제 1 타깃 채널 (예를 들어, 제 2 오디오 신호 (146)) 의 샘플들에 대응하고,
Figure 112018058937869-pct00026
는 제 2 타깃 채널 (예를 들어, 제 3 오디오 신호 (730)) 의 샘플들에 대응하고,
Figure 112018058937869-pct00027
은 제 3 타깃 채널 (예를 들어, 제 4 오디오 신호 (732)) 의 샘플들에 대응한다. 타깃 채널들 (예를 들어, Targ1, Targ2, Targ3) 각각은 현재 프레임에서 레퍼런스 채널에 대한 오프셋간 차이에 기초하여 시간 불연속성들을 보상하도록 조정된다. 지정된 레퍼런스 및 타깃 채널들 및 추정된 시간적 오프셋들의 프레임간 변경들에 기초하여, 도 6 에 도시된 바와 같은 상태 머신 로직이 멀티채널 케이스로 확장되어 현재 프레임에서 입력 채널들의 서브세트 중 어떤 것이 시간적으로 조정되는지를 판정한다.
시간 등화기(들) (708) 는 타깃 채널들 각각에 대응하는 인코딩된 신호 (예를 들어, 사이드 채널 신호 프레임) 를 생성할 수도 있다. 예를 들어, 시간 등화기(들) (708) 는 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 에 기초하여 제 2 인코딩된 신호 프레임 (764) 을 생성할 수도 있다. 예를 들어, 제 2 인코딩된 신호 프레임 (764) 은 제 1 오디오 신호 (142) 의 샘플들과 제 2 오디오 신호 (146) 의 샘플들의 차이에 대응할 수도 있다. 유사하게, 시간 등화기(들) (708) 는 제 1 오디오 신호 (142) 및 제 3 오디오 신호 (730) 에 기초하여 제 3 인코딩된 신호 프레임 (765) (예를 들어, 사이드 채널 프레임) 을 생성할 수도 있다. 예를 들어, 제 3 인코딩된 신호 프레임 (765) 은 제 1 오디오 신호 (142) 의 샘플들과 제 3 오디오 신호 (730) 의 샘플들의 차이에 대응할 수도 있다. 시간 등화기(들) (708) 는 제 1 오디오 신호 (142) 및 제 4 오디오 신호 (732) 에 기초하여 제 4 인코딩된 신호 프레임 (766) (예를 들어, 사이드 채널 프레임) 을 생성할 수도 있다. 예를 들어, 제 4 인코딩된 신호 프레임 (766) 은 제 1 오디오 신호 (142) 의 샘플들과 제 4 오디오 신호 (732) 의 샘플들의 차이에 대응할 수도 있다. 제 2 인코딩된 신호 프레임 (764), 제 3 인코딩된 신호 프레임 (765), 및 제 4 인코딩된 신호 프레임 (766) 은 다음의 식들 중 하나에 기초하여 생성될 수도 있다:
Figure 112018058937869-pct00028
식 6a
Figure 112018058937869-pct00029
식 6b
여기서, SP 는 사이드 채널 프레임에 대응하고,
Figure 112018058937869-pct00030
은 레퍼런스 채널 (예를 들어, 제 1 오디오 신호 (142)) 의 샘플들에 대응하고,
Figure 112018058937869-pct00031
는 연관된 타깃 채널에 대응하는 이득 파라미터에 대응하고,
Figure 112018058937869-pct00032
는 연관된 타깃 채널에 대응하는 비-인과적 미스매치 값에 대응하고,
Figure 112018058937869-pct00033
는 연관된 타깃 채널의 샘플들에 대응한다. 예를 들어, SP 는 제 2 인코딩된 신호 프레임 (764) 에 대응할 수도 있고,
Figure 112018058937869-pct00034
는 이득 파라미터 (770) 에 대응할 수도 있고,
Figure 112018058937869-pct00035
는 비-인과적 미스매치 값 (760) 에 대응할 수도 있고,
Figure 112018058937869-pct00036
는 제 2 오디오 신호 (146) 의 샘플들에 대응할 수도 있다. 다른 예로서, SP 는 제 3 인코딩된 신호 프레임 (765) 에 대응할 수도 있고,
Figure 112018058937869-pct00037
는 제 2 이득 파라미터 (772) 에 대응할 수도 있고,
Figure 112018058937869-pct00038
는 제 2 비-인과적 미스매치 값 (761) 에 대응할 수도 있고,
Figure 112018058937869-pct00039
는 제 3 오디오 신호 (730) 의 샘플들에 대응할 수도 있다. 추가의 예로서, SP 는 제 4 인코딩된 신호 프레임 (766) 에 대응할 수도 있고,
Figure 112018058937869-pct00040
는 제 3 이득 파라미터 (774) 에 대응할 수도 있고,
Figure 112018058937869-pct00041
는 제 3 비-인과적 미스매치 값 (762) 에 대응할 수도 있고,
Figure 112018058937869-pct00042
는 제 4 오디오 신호 (732) 의 샘플들에 대응할 수도 있다.
시간 등화기(들) (708) 는 제 2 미스매치 값 (114), 제 3 미스매치 값 (718), 제 2 비-인과적 미스매치 값 (761), 제 3 비-인과적 미스매치 값 (762), 제 2 이득 파라미터 (772), 제 3 이득 파라미터 (774), 제 1 인코딩된 신호 프레임 (763), 제 2 인코딩된 신호 프레임 (764), 제 3 인코딩된 신호 프레임 (765), 제 4 인코딩된 신호 프레임 (766), 또는 이들의 조합을 메모리 (110) 에 저장할 수도 있다. 예를 들어, 분석 데이터 (790) 는 제 2 미스매치 값 (114), 제 3 미스매치 값 (718), 제 2 비-인과적 미스매치 값 (761), 제 3 비-인과적 미스매치 값 (762), 제 2 이득 파라미터 (772), 제 3 이득 파라미터 (774), 제 1 인코딩된 신호 프레임 (763), 제 3 인코딩된 신호 프레임 (765), 제 4 인코딩된 신호 프레임 (766), 또는 이들의 조합을 포함할 수도 있다.
하나 이상의 인터페이스들 (104) 은, 다른 디바이스 (예를 들어, 도 1 의 제 2 디바이스 (160)) 에, 제 1 인코딩된 신호 프레임 (763), 제 2 인코딩된 신호 프레임 (764), 제 3 인코딩된 신호 프레임 (765), 제 4 인코딩된 신호 프레임 (766), 이득 파라미터 (770), 제 2 이득 파라미터 (772), 제 3 이득 파라미터 (774), 레퍼런스 채널 표시자 (184), 비-인과적 미스매치 값 (760), 제 2 비-인과적 미스매치 값 (761), 제 3 비-인과적 미스매치 값 (762), 또는 이들의 조합을 송신할 수도 있다. 제 1 인코딩된 신호 프레임 (763), 제 2 인코딩된 신호 프레임 (764), 제 3 인코딩된 신호 프레임 (765), 제 4 인코딩된 신호 프레임 (766), 또는 이들의 조합은 도 1 의 인코딩된 신호들 (180) 에 대응할 수도 있다. 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 제 3 미스매치 값 (718), 비-인과적 미스매치 값 (760), 제 2 비-인과적 미스매치 값 (761), 제 3 비-인과적 미스매치 값 (762), 또는 이들의 조합은 도 1 의 미스매치 값들 (182) 에 대응할 수도 있다.
도 8 을 참조하면, 시스템의 예시적 예가 도시되고 일반적으로 800 으로 지정된다. 시스템 (800) 은 시간 등화기(들) (808) 가, 본 명세서에서 설명되는 바와 같이, 다수의 레퍼런스 채널들을 결정하도록 구성될 수도 있다는 점에서 도 7 의 시스템 (700) 과는 상이하다.
동작 동안, 시간 등화기(들) (808) 는 제 1 마이크로폰 (140) 을 통한 제 1 오디오 신호 (142), 제 2 마이크로폰 (144) 을 통한 제 2 오디오 신호 (146), 제 3 마이크로폰 (846) 을 통한 제 3 오디오 신호 (830), 제 4 마이크로폰 (848) 을 통한 제 4 오디오 신호 (832), 또는 이들의 조합을 수신할 수도 있다. 시간 등화기(들) (808) 는, 도 1 및 도 5 를 참조하여 설명된 바와 같이, 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 에 기초하여, 제 1 미스매치 값 (112), 비-인과적 미스매치 값 (860), 이득 파라미터 (870), 레퍼런스 채널 표시자 (184), 제 1 인코딩된 신호 프레임 (863) (예를 들어, 미드 채널 신호 프레임), 제 2 인코딩된 신호 프레임 (864) (예를 들어, 사이드 채널 신호 프레임), 또는 이들의 조합을 결정할 수도 있다. 시간 등화기(들) (808) 는, 제 3 오디오 신호 (830) 및 제 4 오디오 신호 (832) 에 기초하여, 제 2 미스매치 값 (114), 제 2 비-인과적 미스매치 값 (861), 제 2 이득 파라미터 (872), 제 2 레퍼런스 채널 표시자 (852), 제 3 인코딩된 신호 프레임 (865) (예를 들어, 미드 채널 신호 프레임), 제 4 인코딩된 신호 프레임 (866) (예를 들어, 사이드 채널 신호 프레임), 또는 이들의 조합을 결정할 수도 있다.
하나 이상의 인터페이스들 (104) 은 제 1 인코딩된 신호 프레임 (863), 제 2 인코딩된 신호 프레임 (864), 제 3 인코딩된 신호 프레임 (865), 제 4 인코딩된 신호 프레임 (866), 이득 파라미터 (870), 제 2 이득 파라미터 (872), 비-인과적 미스매치 값 (860), 제 2 비-인과적 미스매치 값 (861), 레퍼런스 채널 표시자 (184), 제 2 레퍼런스 채널 표시자 (852), 또는 이들의 조합을 송신할 수도 있다. 제 1 인코딩된 신호 프레임 (863), 제 2 인코딩된 신호 프레임 (864), 제 3 인코딩된 신호 프레임 (865), 제 4 인코딩된 신호 프레임 (866), 또는 이들의 조합은 도 1 의 인코딩된 신호들 (180) 에 대응할 수도 있다. 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 비-인과적 미스매치 값 (860), 제 2 비-인과적 미스매치 값 (861), 또는 이들의 조합은 도 1 의 미스매치 값들 (182) 에 대응할 수도 있다.
도 9 를 참조하면, 조정된 샘플들을 사용하여 다수의 오디오 채널들을 인코딩하는 방법의 특정 예시적 구현의 흐름도가 도시되고 일반적으로 900 으로 지정된다. 방법 (900) 은 예시적인 비제한적 예들로서 도 1, 도 4, 도 7, 및 도 8 의 제 1 디바이스 (102) 에 의해, 도 1 및 도 4 의 제 2 디바이스 (160) 에 의해, 또는 도 5 의 시스템 (500) 에 의해 수행될 수도 있다.
902 에서, 방법 (900) 은, 제 1 디바이스에서, 레퍼런스 채널 및 타깃 채널을 수신하는 단계를 포함한다. 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함하고, 타깃 채널은 타깃 샘플들의 세트를 포함한다. 예를 들어, 도 1 을 참조하면, 인코더 (120) 는 제 1 마이크로폰 (140) 으로부터 제 1 오디오 신호 (142) (예를 들어, 레퍼런스 채널) 를 그리고 제 2 마이크로폰 (144) 으로부터 제 2 오디오 신호 (146) (예를 들어, 타깃 채널) 를 수신할 수도 있다. 제 1 오디오 신호 (142) 는 레퍼런스 샘플들 (예를 들어, 제 1 샘플들 (116)) 의 세트를 포함할 수도 있고, 제 2 오디오 신호 (146) 는 타깃 샘플들 (예를 들어, 제 2 샘플들 (118)) 의 세트를 포함할 수도 있다.
904 에서, 방법 (900) 은, 제 1 디바이스에서, 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 단계를 포함한다. 제 1 미스매치 값은 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타낼 수도 있다. 제 2 미스매치 값은 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타낼 수도 있다. 예를 들어, 도 1 을 참조하면, 비교기 (122) 는 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 사이의 차이 (124) (예를 들어, 변동) 를 결정할 수도 있다. 제 1 미스매치 값 (112) 은 제 1 샘플들 (116) 의 제 1 레퍼런스 샘플 (예를 들어, 제 1 프레임) 과 제 2 샘플들 (118) 의 제 1 타깃 샘플 (예를 들어, 대응하는 프레임) 사이의 시간적 미스매치의 양을 나타낼 수도 있다. 제 2 미스매치 값 (114) 은 제 1 샘플들 (116) 의 제 2 레퍼런스 샘플 (예를 들어, 제 2 프레임) 과 제 2 샘플들 (118) 의 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타낼 수도 있다. 제 2 레퍼런스 샘플은 제 1 레퍼런스 샘플에 후속될 수도 있고, 제 2 타깃 샘플은 제 1 타깃 샘플에 후속될 수도 있다.
특정 구현에서, 제 1 미스매치 값 (112) 은 제 2 오디오 신호 (146) 의 프레임이 제 1 오디오 신호 (142) 의 대응하는 프레임에 대해 시간-시프팅되는 샘플들의 개수를 나타내고, 제 2 미스매치 값 (114) 은 제 2 오디오 신호 (146) 의 다른 프레임이 제 1 오디오 신호 (142) 의 대응하는 프레임에 대해 시간-시프팅되는 샘플들의 개수를 나타낸다. 제 1 미스매치 값 (112) 은 제 1 마이크로폰 (140) 을 통한 제 1 프레임의 수신과 제 2 마이크로폰 (144) 을 통한 제 2 프레임의 수신 사이의 시간 지연량에 대응할 수도 있다. 예를 들어, 사운드 소스 (150) 가 제 2 마이크로폰 (144) 에 대한 것보다 제 1 마이크로폰 (140) 에 더 가까운 것으로 인해, 제 2 오디오 신호 (146) 는 제 1 오디오 신호 (142) 에 비해 지연될 수도 있다. 특정 구현에서, 제 1 오디오 신호 (142) 는 우측 채널 신호 또는 좌측 채널 신호 중 하나를 포함하고, 제 2 오디오 신호 (146) 는 우측 채널 신호 또는 좌측 채널 신호 중 다른 하나를 포함한다. 다른 구현들에서, 오디오 신호들 (142 및 146) 은 다른 신호들을 포함한다.
방법 (900) 의 일 구현에 따르면, 변동은, 제 1 미스매치 값과 제 2 미스매치 값 사이의 차이 및 레퍼런스 채널 표시자에 적어도 기초하는 값일 수도 있다. 변동은 또한 샘플들의 수 개의 세트들에 걸친 미스매치 값들의 세트에 기초할 수도 있다.
일 구현에 따르면, 방법 (900) 은 변동에 기초하여 타깃 샘플들의 세트를 조정할지 여부를 결정하는 단계를 포함할 수도 있다. 추가적으로, 방법 (900) 은 레퍼런스 채널 표시자에 기초하여 타깃 샘플들의 세트를 조정할지 여부를 결정하는 단계를 포함할 수도 있다. 방법 (900) 은 레퍼런스 채널의 에너지 및 타깃 채널의 에너지에 적어도 기초하여 타깃 샘플들의 세트를 조정할지 여부를 결정하는 단계를 또한 포함할 수도 있다. 방법 (900) 은 과도 검출기 (transient detector) 에 기초하여 타깃 샘플들의 세트를 조정할지 여부를 결정하는 단계를 더 포함할 수도 있다.
상술된 기법들 중 하나 이상에 기초하여 타깃 샘플들을 조정하는 것으로 결정한 후에, 906 에서, 방법 (900) 은, 제 1 디바이스에서, 차이에 기초하여 타깃 샘플들의 세트를 조정하여 조정된 타깃 샘플들의 세트를 생성하는 단계를 포함한다. 예를 들어, 도 1 을 참조하면, 샘플 조정기 (126) 는 차이 (124) 에 기초하여 제 2 샘플들 (118) 을 조정하여 조정된 샘플들 (128) (예를 들어, 조정된 타깃 샘플들) 을 생성할 수도 있다.
908 에서, 방법 (900) 은, 제 1 디바이스에서, 레퍼런스 샘플들의 세트 및 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 단계를 포함한다. 예를 들어, 신호 생성기 (130) 는 제 1 샘플들 (116) 및 조정된 샘플들 (128) 에 기초하여 인코딩된 채널들 (180) 을 생성할 수도 있다. 특정 구현에서, 적어도 하나의 인코딩된 채널 (예를 들어, 인코딩된 채널들 (180)) 은 미드-채널, 사이드-채널, 또는 이들 양쪽 모두를 포함한다. 예를 들어, 채널 생성기 (130) (또는 미드사이드 생성기 (510)) 는 미드-채널 (540) 및 사이드-채널 (542) 을 생성하기 위해 스테레오 인코딩을 수행할 수도 있다.
910 에서, 방법 (900) 은 제 1 디바이스로부터의 적어도 하나의 인코딩된 채널을 제 2 디바이스에 송신하는 단계를 더 포함한다. 예를 들어, 제 1 디바이스 (102) 는, 하나 이상의 인터페이스들 (104) 중 네트워크 인터페이스를 통해, 인코딩된 채널들 (180) 을 제 2 디바이스 (160) 에 송신할 수도 있다.
특정 구현에서, 제 2 샘플들 (118) 의 제 1 부분은 제 1 미스매치 값 (112) 에 기초하는 양만큼 제 1 샘플들 (116) 의 제 1 부분에 대해 시간-시프팅될 수도 있고, 제 2 샘플들 (118) 의 제 2 부분은 제 2 미스매치 값 (114) 에 기초하는 양만큼 제 1 샘플들 (116) 의 제 2 부분에 대해 시간-시프팅될 수도 있다. 예를 들어, 도 2 를 참조하면, 제 2 샘플들 (118) 의 샘플들 2 내지 641 은 제 1 샘플들 (116) 의 샘플들 0 내지 639 에 대해 시간-시프팅될 수도 있고, 제 2 샘플들 (118) 의 샘플들 643 내지 1282 는 제 1 샘플들 (116) 의 샘플들 640 내지 1279 에 대해 시간-시프팅될 수도 있다. 시간 시프팅되는 샘플들의 개수는 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 에 기초할 수도 있다.
다른 특정 구현에서, 차이 (124) 를 결정하는 것은, 제 2 미스매치 값 (114) 으로부터 제 1 미스매치 값 (112) 을 감산하는 것을 포함한다. 예를 들어, 비교기 (122) 는 제 2 미스매치 값 (114) 으로부터 제 1 미스매치 값 (112) 을 감산하여 차이 (124) 를 생성하도록 구성될 수도 있다. 추가적으로 또는 대안적으로, 방법 (900) 은 제 1 샘플들 (116) 과 조정된 샘플들 (128) 의 합에 기초하여 미드-채널 (540) 을 생성하는 단계, 및 제 1 샘플들 (116) 과 조정된 샘플들 (128) 의 차이에 기초하여 사이드-채널 (542) 을 생성하는 단계를 포함한다. 예를 들어, 채널 생성기 (130) 는 제 1 샘플들 (116) 과 조정된 샘플들 (128) 의 조합 (예를 들어, 합) 에 기초하여 미드-채널 (540) 을 생성할 수도 있고, 채널 생성기 (130) 는 제 1 샘플들 (116) 과 조정된 샘플들 (128) 사이의 차이에 기초하여 사이드-채널 (542) 을 생성할 수도 있다. 인코딩된 채널들 (180) 은 미드-채널 (540) 및 사이드-채널 (542) 을 포함할 수도 있다. 대안적으로, 채널 생성기 (130) 는 미드-채널 (540) 및 하나 이상의 사이드 채널 파라미터들을 생성할 수도 있다.
다른 특정 구현에서, 방법 (900) 은 레퍼런스 채널 (142) 을 다운-샘플링하여 제 1 다운-샘플링된 채널을 생성하는 단계, 타깃 채널 (146) 을 다운-샘플링하여 제 2 다운-샘플링된 채널을 생성하는 단계, 및 제 1 다운-샘플링된 채널과 제 2 다운-샘플링된 채널의 비교들에 기초하여 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 결정하는 단계를 포함한다. 예를 들어, 채널 프리-프로세서 (502) 는 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 를 다운-샘플링하여 프로세싱된 채널들 (530) 을 생성할 수도 있고, 시프트 추정기 (121) 는 프로세싱된 채널들 (530) 을 비교하여 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 결정할 수도 있다. 시프트 추정기 (121) 는 제 1 다운-샘플링된 채널의 샘플을 제 2 다운-샘플링된 채널의 다수의 샘플들과 비교하여 제 2 다운-샘플링된 채널의 특정 샘플을 결정할 수도 있다. 예를 들어, 시프트 추정기 (121) 는 제 1 다운-샘플링된 채널의 샘플과 제 2 다운-샘플링된 채널의 샘플들의 비교들에 기초하여 비교 값들 (예를 들어, 차이 값들, 유사도 값들, 코히어런스 값들, 또는 교차 상관 값들) 을 생성할 수도 있고, 시프트 추정기 (121) 는 최저 (또는 최고) 비교 값에 대응하는 제 2 다운-샘플링된 채널의 특정 샘플을 식별할 수도 있다. 제 1 다운-샘플링된 채널의 샘플에 대한 제 2 다운-샘플링된 채널의 특정 샘플의 지연은 제 1 값 (112) 에 대응할 수도 있다. 시프트 추정기 (121) 는 유사하게 제 2 미스매치 값 (114) 을 결정할 수도 있다. 추가적으로, 방법 (900) 은 차이가 임계치를 초과하지 않도록 제 1 미스매치 값 (112) 및 제 2 미스매치 값 (114) 을 선택하는 단계를 더 포함할 수도 있다. 예를 들어, 시프트 추정기 (121) 는 미스매치 값들 (112 및 114) 이 임계치를 초과하지 않도록 미스매치 값들 (112 및 114) 을 선택할 수도 있다. 임계치는 프레임에 대응하는 샘플들의 개수보다 더 적은 샘플들의 개수일 수도 있다.
다른 특정 구현에서, 제 2 샘플들 (118) 을 조정하는 것은, 차이 (124) 에 기초하여 제 2 샘플들 (118) 의 부분을 보간하여 추정된 샘플들의 세트를 생성하는 것 및 제 2 샘플들 (118) 의 부분을 추정된 샘플들의 세트로 대체시켜 조정된 샘플들 (128) 을 생성하는 것을 포함할 수도 있다. 예를 들어, 샘플 조정기 (126) 는 제 2 샘플들 (118) 의 서브세트를 보간하여 추정된 샘플들 (210) (또는 추정된 샘플들 (310)) 을 생성할 수도 있고, 샘플 조정기 (126) 는 제 2 샘플들 (118) 의 서브세트를 추정된 샘플들 (210) (또는 추정된 샘플들 (310)) 로 대체시켜 조정된 샘플들 (128) 을 생성할 수도 있다. 보간은 싱크 보간을 포함할 수도 있다. 대안적으로, 보간법은 라그랑지 보간을 포함할 수도 있다. 대안적으로, 보간은 하이브리드 보간 (예를 들어, 싱크 보간과 라그랑지 보간의 조합) 을 포함할 수도 있다.
추가적으로 또는 대안적으로, 보간은 확산 팩터에 대응하는 수의 샘플들에 대해 수행될 수도 있다. 예를 들어, 제 2 샘플들 (118) 의 서브세트 내의 샘플들의 개수는, 도 2 및 도 3 을 참조하여 설명된 바와 같이, 확산 팩터 M 에 대응할 수도 있다. 확산 팩터의 값은 제 2 오디오 신호 (146) 의 프레임 내의 샘플들의 개수 이하일 수도 있다. 예를 들어, 제 2 오디오 신호 (146) 의 프레임 (예를 들어, 제 2 프레임 또는 제 4 프레임) 의 샘플들의 개수는 640 일 수도 있고, 확산 팩터의 값은 640 보다 더 작을 수도 있다. 특정 구현에서, 확산 팩터의 값은 528 일 수도 있다. 도 2 및 도 3 에 예시된 예들에서, 확산 팩터의 값은 4 이다. 추가적으로 또는 대안적으로, 확산 팩터의 값은 오디오 평활도 설정에 기초할 수도 있다. 추가적으로 또는 대안적으로, 방법 (900) 은 제 2 오디오 신호 (146) 의 오디오 타입을 결정하는 단계 및 오디오 타입에 기초하여 확산 팩터의 값을 선택하는 단계를 포함할 수도 있다. 오디오 타입은 음성, 음악, 또는 노이즈를 포함할 수도 있다. 예를 들어, 샘플 조정기 (126) 는 제 2 오디오 신호 (146) 의 오디오 타입을 결정할 수도 있고, 샘플 조정기 (126) 는 결정된 오디오 타입에 대응하는 확산 팩터를 선택할 수도 있다. 각각의 오디오 타입 (예를 들어, 음성, 음악, 노이즈 등) 은 상이한 확산 팩터에 대응할 수도 있다. 추가적으로 또는 대안적으로, 추정된 샘플들 (310) 은 제 2 샘플들 (118) 보다 더 높은 샘플링 레이트에 대응할 수도 있다. 예를 들어, 제 2 샘플들 (118) 은 하나 이상의 샘플들의 반복을 방지하기 위해 추정된 샘플들 (310) 을 사용하여 조정될 수도 있고, 추정된 샘플들 (310) 은, 도 3 을 참조하여 설명된 바와 같이, 제 2 샘플들 (118) 보다 더 높은 샘플링 레이트에 대응할 수도 있다. 대안적인 구현에서, 추정된 샘플들 (310) 은 제 2 샘플들 (118) 보다 더 낮은 샘플링 레이트에 대응한다. 예를 들어, 제 2 샘플들 (118) 은 하나 이상의 샘플들의 스킵을 방지하기 위해 추정된 샘플들 (210) 을 사용하여 조정될 수도 있고, 추정된 샘플들 (210) 은, 도 2 를 참조하여 설명된 바와 같이, 제 2 샘플들 (118) 보다 더 낮은 샘플링 레이트에 대응할 수도 있다.
다른 특정 구현에서, 방법 (900) 은 제 1 미스매치 값 (112) 에 기초하여 제 1 시간 기간에 대해 레퍼런스 채널로서 제 1 오디오 신호 (142) 또는 제 2 오디오 신호 (146) 중 하나를 선택하는 단계, 및 타깃 채널로서 제 1 오디오 신호 (142) 또는 제 2 오디오 신호 (146) 중 다른 하나를 선택하는 단계를 포함한다. 방법 (900) 은 제 1 오디오 신호 (142) 또는 제 2 오디오 신호 (146) 가 레퍼런스 채널로서 선택되는지 여부를 나타내는 제 1 값을 제 1 시간 기간 동안 갖는 레퍼런스 채널 표시자 (184) 를 제 2 디바이스 (160) 에 송신하는 단계를 더 포함한다. 예시하기 위해, 레퍼런스 채널 지정기 (508) 는 제 1 미스매치 값 (112) 이 네거티브 값인지 여부에 기초하여 제 1 시간 기간 (제 1 프레임 및 제 2 프레임에 대응함) 에 대한 레퍼런스 채널로서 제 1 오디오 신호 (142) 및 제 2 오디오 신호 (146) 중 하나를 선택할 수도 있다. 레퍼런스 채널 지정기 (508) 는 레퍼런스 채널 표시자 (184) 의 값을 설정하여 레퍼런스 채널을 식별할 수도 있다. 예를 들어, 레퍼런스 채널 표시자 (184) 가 제 1 값 (예를 들어, 논리적 제로 값) 을 가질 때, 제 1 오디오 신호 (142) 가 레퍼런스 채널로서 식별되고, 레퍼런스 채널 표시자 (184) 가 제 2 값 (예를 들어, 논리적 1 값) 을 가질 때, 제 2 오디오 신호 (146) 가 레퍼런스 채널로서 식별된다. 제 1 디바이스 (102) 는 네트워크 (152) 를 통해 제 2 디바이스 (160) 에 레퍼런스 채널 표시자 (184) (또는 타깃 채널을 나타내는 타깃 채널 표시자) 를 송신할 수도 있다. 방법 (900) 은 제 2 미스매치 값 (114) 에 기초하여 제 2 시간 기간에 대한 레퍼런스 채널로서 제 1 오디오 신호 (142) 또는 제 2 오디오 신호 (146) 중 하나를 선택하는 단계를 더 포함할 수도 있고, 레퍼런스 채널 표시자 (184) 는 제 1 오디오 신호 (142) 또는 제 2 오디오 신호 (146) 가 레퍼런스 채널로서 선택되는지 여부를 나타내는 제 2 값을 제 2 시간 기간 동안 갖는다. 예를 들어, 레퍼런스 채널 지정기 (508) 는, 제 2 미스매치 값 (114) 에 기초하여, 제 1 오디오 신호 (142) 또는 제 2 오디오 신호 (146) 가 제 3 프레임 및 제 4 프레임에 대응하는 시간 기간에 대한 레퍼런스 채널인지 여부를 나타내기 위해 레퍼런스 채널 표시자 (184) 의 값을 설정할 수도 있다. 추가적으로, 제 2 샘플들 (118) 은 제 2 오디오 신호 (146) 가 제 2 시간 기간 동안 타깃 채널로서 선택될 때 조정될 수도 있다. 예를 들어, 샘플 조정기 (126) 는 제 2 오디오 신호 (146) 가 타깃 채널로서 식별될 때 제 2 샘플들 (118) 을 조정할 수도 있다. 대안적으로, 샘플 조정기 (126) 는 제 1 오디오 신호 (142) 가 타깃 채널로서 식별될 때 제 1 샘플들 (116) 을 조정할 수도 있다.
방법 (900) 은 프레임 경계들에서의 불연속성들을 보상하기 위해 (또는 은폐하기 위해) 오디오 채널의 조정을 가능하게 한다. 프레임 경계들에서의 불연속성들을 보상하기 위해 오디오 채널을 조정하면 디코딩된 오디오 채널들의 재생 동안 클릭들, 팝들, 또는 다른 오디오 사운드들을 감소시키거나 또는 제거할 수도 있다.
도 10 을 참조하면, 디바이스 (예를 들어, 무선 통신 디바이스) 의 특정 예시적 구현의 블록 다이어그램이 도시되고 일반적으로 1000 으로 지정된다. 다양한 구현들에서, 디바이스 (1000) 는 도 10 에 예시된 것보다 더 많거나 또는 더 적은 컴포넌트들을 가질 수도 있다. 예시적 구현에서, 디바이스 (1000) 는 도 1, 도 4, 도 7, 및 도 8 의 제 1 디바이스 (102), 도 1 및 도 4 의 제 2 디바이스 (160), 또는 도 5 의 시스템 (500) 중 하나 이상에 대응할 수도 있다.
특정 구현에서, 디바이스 (1000) 는 프로세서 (1006) (예를 들어, 중앙 프로세싱 유닛 (CPU)) 를 포함한다. 디바이스 (1000) 는 하나 이상의 추가적인 프로세서들 (1010) (예를 들어, 하나 이상의 디지털 신호 프로세서 (DSP) 들) 을 포함할 수도 있다. 프로세서들 (1010) 은 음성 및 음악 코더-디코더 (코덱) (1008) 를 포함할 수도 있다. 음성 및 음악 코덱 (1608) 은 보코더 인코더 (예를 들어, 도 1 의 인코더 (120) 또는 도 4 의 인코더 (120)), 보코더 디코더 (예를 들어, 도 1 의 디코더 (162) 또는 도 4 의 디코더 (420)), 또는 이들 양쪽 모두를 포함할 수도 있다. 특정 구현에서, 음성 및 음악 코덱 (1008) 은 제 3 세대 파트너십 프로젝트 (3GPP) 향상된 보이스 서비스 (EVS) 프로토콜과 같은 하나 이상의 표준들 또는 프로토콜들에 따라 통신하는 EVS 코덱일 수도 있다. 특정 구현에서, 인코더 (120) 는 비교기 (122), 샘플 조정기 (126), 및 채널 생성기 (130) 를 포함하고, 디코더 (420) 는 비교기 (422), 샘플 조정기 (426), 및 출력 생성기 (430) 를 포함한다. 대안적인 구현에서, 음성 및 음악 코덱 (1008) 은 도 1 의 디코더 (162), 도 4 의 인코더 (402), 또는 이들 양쪽 모두를 포함할 수도 있다.
디바이스 (1000) 는 메모리 (1032) 및 코덱 (1034) 을 포함할 수도 있다. 도시되지 않았지만, 메모리 (1032) 는 제 1 미스매치 값 (112), 제 2 미스매치 값 (114), 제 1 샘플들 (116), 제 2 샘플들 (118), 차이 (124), 조정된 샘플들 (128), 또는 이들의 조합을 포함할 수도 있다. 디바이스 (1000) 는 트랜시버 (1050) 를 통해 안테나 (1042) 에 커플링된 무선 인터페이스 (1040) 를 포함할 수도 있다.
디바이스 (1000) 는 디스플레이 제어기 (1026) 에 커플링된 디스플레이 (1028) 를 포함할 수도 있다. 스피커 (1046), 마이크로폰 (1048), 또는 이들의 조합이 코덱 (1034) 에 커플링될 수도 있다. 코덱 (1034) 은 DAC (1002) 및 ADC (1004) 를 포함할 수도 있다. 특정 구현에서, 코덱 (1034) 은 마이크로폰 (1048) 으로부터 아날로그 신호들을 수신하고, ADC (1004) 를 사용하여 아날로그 신호들을 디지털 신호들로 컨버팅하고, 디지털 신호들을 음성 및 음악 코덱 (1008) 에 제공할 수도 있다. 음성 및 음악 코덱 (1008) 은 디지털 신호들을 프로세싱할 수도 있다. 특정 구현에서, 음성 및 음악 코덱 (1008) 은 코덱 (1034) 에 디지털 신호들을 제공할 수도 있다. 코덱 (1034) 은 DAC (1002) 를 사용하여 디지털 신호들을 아날로그 신호들로 컨버팅할 수도 있고 아날로그 신호들을 스피커 (1046) 에 제공할 수도 있다.
특정 구현에서, 디바이스 (1000) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (1022) 에 포함될 수도 있다. 특정 구현에서, 메모리 (1032), 프로세서 (1006), 프로세서 (1010), 디스플레이 제어기 (1026), 코덱 (1034), 무선 인터페이스 (1040), 및 트랜시버 (1050) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (1022) 에 포함된다. 특정 구현에서, 입력 디바이스 (1030) 및 파워 서플라이 (1044) 는 시스템-온-칩 디바이스 (1022) 에 커플링된다. 더욱이, 특정 구현에서, 도 10 에 예시된 바와 같이, 디스플레이 (1028), 입력 디바이스 (1030), 스피커 (1046), 마이크로폰 (1048), 안테나 (1042), 및 파워 서플라이 (1044) 는 시스템-온-칩 디바이스 (1022) 의 외부에 있다. 특정 구현에서, 디스플레이 (1028), 입력 디바이스 (1030), 스피커 (1046), 마이크로폰 (1048), 안테나 (1042), 및 파워 서플라이 (1044) 각각은, 인터페이스 또는 제어기와 같은, 시스템-온-칩 디바이스 (1022) 의 컴포넌트에 커플링될 수도 있다.
디바이스 (1000) 는 헤드셋, 모바일 통신 디바이스, 스마트 폰, 셀룰러 폰, 랩톱 컴퓨터, 컴퓨터, 태블릿, 개인 휴대 정보 단말기, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 음악 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 튜너, 카메라, 내비게이션 디바이스, 차량, 차량의 컴포넌트, 또는 이들의 임의의 조합을 포함할 수도 있다.
예시적 구현에서, 메모리 (1032) 는 컴퓨터 판독가능 명령들 또는 프로세서 판독가능 명령들과 같은 명령들 (1060) (예를 들어, 실행가능 명령들) 을 포함 또는 저장한다. 예를 들어, 메모리 (1032) 는 명령들 (예를 들어, 명령들 (1060)) 을 저장하는 비일시적 컴퓨터 판독가능 매체를 포함하거나 또는 그에 대응할 수도 있다. 명령들 (1060) 은 프로세서 (1006) 또는 프로세서들 (1010) 과 같은 컴퓨터에 의해 실행가능한 하나 이상의 명령들을 포함할 수도 있다. 명령들 (1060) 은 프로세서 (1006) 또는 프로세서들 (1010) 로 하여금 도 9 의 방법 (900) 을 수행하게 할 수도 있다.
특정 구현에서, 인코더 (120) 는 제 1 미스매치 값 (112) 과 제 2 미스매치 값 (114) 사이의 차이 (124) 를 결정하도록 구성될 수도 있다. 제 1 미스매치 값 (112) 은 제 2 오디오 신호 (146) 의 제 2 프레임에 대한 제 1 오디오 신호 (142) 의 제 1 프레임의 시프트를 나타낼 수도 있고, 제 2 미스매치 값 (114) 은 제 2 오디오 신호 (146) 의 제 4 프레임에 대한 제 1 오디오 신호 (142) 의 제 3 프레임의 시프트를 나타낼 수도 있다. 제 1 오디오 신호 (142) 는 제 1 샘플들 (116) 과 연관될 수도 있고, 제 2 오디오 신호 (146) 는 제 2 샘플들 (118) 과 연관될 수도 있다. 인코더 (120) 는 차이 (124) 에 기초하여 제 2 샘플들 (118) 을 조정하여 조정된 샘플들 (128) 을 생성하도록 구성될 수도 있다. 인코더 (120) 는 또한, 제 1 샘플들 (116) 및 조정된 샘플들 (128) 에 기초하여 적어도 하나의 인코딩된 채널 (예를 들어, 도 1 의 인코딩된 채널들 (180)) 을 생성하도록 구성될 수도 있다. 무선 인터페이스 (1040) 는 적어도 하나의 인코딩된 채널 (예를 들어, 도 1 의 인코딩된 채널들 (180)) 을 송신하도록 구성될 수도 있다. 대안적으로, 메모리 (1032) 에 저장된 명령들 (1060) 은 프로세서 (예를 들어, 프로세서 (1006) 또는 프로세서들 (1010)) 로 하여금 상술된 동작들을 개시하게 할 수도 있다.
설명된 양태들과 관련하여, 제 1 장치는, 레퍼런스 채널을 수신하는 수단을 포함한다. 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함할 수도 있다. 예를 들어, 레퍼런스 채널을 수신하는 수단은 도 1 의 제 1 마이크로폰 (140), 도 1 의 제 2 마이크로폰, 도 1, 도 7, 및 도 8 의 인코더 (120), 도 10 의 프로세서 (1006), 프로세서들 (1010), 하나 이상의 다른 구조체들 또는 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 1 장치는, 타깃 채널을 수신하는 수단을 또한 포함할 수도 있다. 타깃 채널은 타깃 샘플들의 세트를 포함할 수도 있다. 예를 들어, 타깃 채널을 수신하는 수단은 도 1 의 제 1 마이크로폰 (140), 도 1 의 제 2 마이크로폰, 도 1, 도 7, 및 도 8 의 인코더 (120), 도 10 의 프로세서 (1006), 프로세서들 (1010), 하나 이상의 다른 구조체들 또는 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 1 장치는, 제 1 미스매치 값과 제 2 미스매치 값 사이의 차이를 결정하는 수단을 또한 포함할 수도 있다. 제 1 미스매치 값은 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타낼 수도 있다. 제 2 미스매치 값은 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타낼 수도 있다. 예를 들어, 결정하는 수단은 도 1, 도 7, 또는 도 8 의 인코더 (120), 도 1 의 비교기 (122), 도 4 의 디코더 (420), 비교기 (422), 도 5 의 프레임간 시프트 변동 분석기 (506), 도 10 의 인코더 (120), 비교기 (122), 디코더 (420), 비교기 (422), 프로세서 (1006), 프로세서들 (1010), 제 1 미스매치 값과 제 2 미스매치 값 사이의 차이를 결정하도록 구성된 하나 이상의 다른 구조체들 또는 회로들, 또는 이들의 임의의 조합을 포함하거나 또는 이들에 대응할 수도 있다.
제 1 장치는 조정된 타깃 샘플들의 세트를 생성하기 위해 차이에 기초하여 타깃 샘플들의 세트를 조정하는 수단을 또한 포함할 수도 있다. 예를 들어, 조정하는 수단은 도 1, 도 5, 및 도 10 의 샘플 조정기 (126), 도 7 의 시간 등화기 (708), 도 8 의 시간 등화기 (808), 도 10 의 프로세서 (1006), 프로세서들 (1010), 하나 이상의 다른 구조체들 또는 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 1 장치는 레퍼런스 샘플들의 세트 및 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 수단을 또한 포함할 수도 있다. 예를 들어, 생성하는 수단은 도 1, 도 7, 또는 도 8 의 인코더 (120), 도 10 의 프로세서 (1006), 프로세서들 (1010), 하나 이상의 다른 구조체들 또는 회로들, 또는 이들의 임의의 조합을 포함할 수도 있다.
제 1 장치는 적어도 하나의 인코딩된 채널을 디바이스에 송신하는 수단을 더 포함한다. 송신하는 수단은 도 1, 도 7, 또는 도 8 의 하나 이상의 인터페이스들 (104), 제 1 디바이스 (102), 도 10 의 무선 인터페이스 (1040), 트랜시버 (1050), 적어도 하나의 인코딩된 신호를 송신하도록 구성된 하나 이상의 다른 구조체들 또는 회로들, 또는 이들의 임의의 조합을 포함하거나 또는 이들에 대응할 수도 있다.
개시된 양태들 중 하나 이상은, 통신 디바이스, 고정 위치 데이터 유닛, 모바일 위치 데이터 유닛, 모바일 폰, 셀룰러 폰, 위성 폰, 컴퓨터, 태블릿, 휴대용 컴퓨터, 디스플레이 디바이스, 미디어 플레이어, 또는 데스크톱 컴퓨터를 포함할 수도 있는, 디바이스 (1000) 와 같은 시스템 또는 장치에서 구현될 수도 있다. 대안적으로 또는 추가적으로, 디바이스 (1000) 는 셋톱 박스, 엔터테인먼트 유닛, 내비게이션 디바이스, 개인 휴대 정보 단말기 (PDA), 모니터, 컴퓨터 모니터, 텔레비전, 튜너, 라디오, 위성 라디오, 디지털 음악 플레이어, 디지털 음악 플레이어, 휴대용 음악 플레이어, 비디오 플레이어, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 휴대용 디지털 비디오 플레이어, 위성, 차량, 프로세서를 포함하거나 또는 데이터 또는 컴퓨터 명령들을 저장 또는 취출하는 임의의 다른 디바이스, 또는 이들의 조합을 포함할 수도 있다. 다른 예시적인 비제한적 예로서, 시스템 또는 장치는 원격 유닛들, 예컨대 핸드헬드 개인 통신 시스템 (PCS) 유닛들, 휴대용 데이터 유닛들 예컨대 글로벌 포지셔닝 시스템 (GPS) 가능 디바이스들, 미터 판독 장비, 또는 프로세서를 포함하거나 또는 데이터 또는 컴퓨터 명령들을 저장 또는 취출하는 임의의 다른 디바이스, 또는 이들의 임의의 조합을 포함할 수도 있다.
도 1 내지 도 10 중 하나 이상이 본 개시물의 교시에 따른 시스템들, 장치들, 및/또는 방법들을 예시할 수도 있지만, 본 개시물은 이들 예시된 시스템들, 장치들, 및/또는 방법들에 제한되지 않는다. 본 명세서에 예시된 또는 설명된 도 1 내지 도 10 중 임의의 것의 하나 이상의 기능들 또는 컴포넌트들은 도 1 내지 도 10 의 다른 것의 하나 이상의 다른 부분들과 조합될 수도 있다. 따라서, 본 명세서에 설명된 어떠한 단일 구현도 제한으로서 해석되어서는 안되고, 본 개시물의 구현들은 본 개시물의 교시로부터 벗어남이 없이 적합하게 조합될 수도 있다. 예로서, 도 9 의 방법 (900) 은 도 1, 도 4, 도 7, 또는 도 8 의 제 1 디바이스 (102) 의 프로세서들에 의해, 도 1 및 도 4 의 제 2 디바이스 (160) 의 프로세서들에 의해, 또는 도 10 의 프로세서들 (1006 또는 1010) 에 의해 수행될 수도 있다. 예시하기 위해, 도 9 의 방법 (900) 의 부분은 본 명세서에서 설명되는 다른 동작들과 조합될 수도 있다. 추가적으로, 도 9 의 방법 (900) 을 참조하여 설명된 하나 이상의 동작들은 옵션적일 수도 있거나, 적어도 부분적으로 동시에 수행될 수도 있거나, 및/또는 도시된 또는 설명된 것과는 상이한 순서로 수행될 수도 있다.
도 11 을 참조하면, 기지국 (1100) 의 특정 예시적 예의 블록 다이어그램이 도시된다. 다양한 구현들에서, 기지국 (1100) 은 도 11 에 예시된 것보다 더 많은 컴포넌트들 또는 더 적은 컴포넌트들을 가질 수도 있다. 예시적 예에서, 기지국 (1100) 은 도 1 의 제 1 디바이스 (104), 제 2 디바이스 (106), 또는 이들의 조합을 포함할 수도 있다. 예시적 예에서, 기지국 (1100) 은 도 1 내지 도 10 을 참조하여 설명된 방법들 또는 시스템들 중 하나 이상에 따라 동작할 수도 있다.
기지국 (1100) 은 무선 통신 시스템의 부분일 수도 있다. 무선 통신 시스템은 다수의 기지국들 및 다수의 무선 디바이스들을 포함할 수도 있다. 무선 통신 시스템은 롱 텀 에볼루션 (LTE) 시스템, 코드 분할 다중 액세스 (CDMA) 시스템, 모바일 통신용 글로벌 시스템 (GSM) 시스템, 무선 로컬 영역 네트워크 (WLAN) 시스템, 또는 일부 다른 무선 시스템일 수도 있다. CDMA 시스템은 광대역 CDMA (WCDMA), CDMA 1X, EVDO (Evolution-Data Optimized), 시분할 동기식 CDMA (TD-SCDMA), 또는 CDMA 의 일부 다른 버전을 구현할 수도 있다.
무선 디바이스들은 또한 사용자 장비 (UE), 이동국, 단말기, 액세스 단말기, 가입자 유닛, 스테이션 등으로 지칭될 수도 있다. 무선 디바이스들은 셀룰러 폰, 스마트폰, 태블릿, 무선 모뎀, 개인 휴대 정보 단말기 (PDA), 핸드헬드 디바이스, 랩톱 컴퓨터, 스마트북, 넷북, 태블릿, 코드리스 폰, 무선 로컬 루프 (WLL) 스테이션, 블루투스 디바이스 등을 포함할 수도 있다. 무선 디바이스들은 도 10 의 디바이스 (1000) 를 포함하거나 또는 그에 대응할 수도 있다.
메시지들 및 데이터 (예를 들어, 오디오 데이터) 를 전송 및 수신하는 것과 같은 다양한 기능들이 기지국 (1100) 의 하나 이상의 컴포넌트들에 의해 (및/또는 도시되지 않은 다른 컴포넌트들에서) 수행될 수도 있다. 특정 예에서, 기지국 (1100) 은 프로세서 (1106) (예를 들어, CPU) 를 포함한다. 기지국 (1100) 은 트랜스코더 (1110) 를 포함할 수도 있다. 트랜스코더 (1110) 는 오디오 코덱 (1108) 을 포함할 수도 있다. 예를 들어, 트랜스코더 (1110) 는 오디오 코덱 (1108) 의 동작들을 수행하도록 구성된 하나 이상의 컴포넌트들 (예를 들어, 회로부) 을 포함할 수도 있다. 다른 예로서, 트랜스코더 (1110) 는 오디오 코덱 (1108) 의 동작들을 수행하기 위해 하나 이상의 컴퓨터 판독가능 명령들을 실행하도록 구성될 수도 있다. 오디오 코덱 (1108) 은 트랜스코더 (1110) 의 컴포넌트로서 예시되지만, 다른 예들에서 오디오 코덱 (1108) 의 하나 이상의 컴포넌트들이 프로세서 (1106), 다른 프로세싱 컴포넌트, 또는 이들의 조합에 포함될 수도 있다. 예를 들어, 디코더 (1138) (예를 들어, 보코더 디코더) 는 수신기 데이터 프로세서 (1164) 에 포함될 수도 있다. 다른 예로서, 인코더 (1136) (예를 들어, 보코더 인코더) 가 송신 데이터 프로세서 (1182) 에 포함될 수도 있다.
트랜스코더 (1110) 는 2 개 이상의 네트워크들 사이에서 메시지들 및 데이터를 트랜스코딩하도록 기능할 수도 있다. 트랜스코더 (1110) 는 메시지 및 오디오 데이터를 제 1 포맷 (예를 들어, 디지털 포맷) 으로부터 제 2 포맷으로 컨버팅하도록 구성될 수도 있다. 예시하기 위해, 디코더 (1138) 는 제 1 포맷을 갖는 인코딩된 신호들을 디코딩할 수도 있고 인코더 (1136) 는 디코딩된 신호들을 제 2 포맷을 갖는 인코딩된 신호들로 인코딩할 수도 있다. 추가적으로 또는 대안적으로, 트랜스코더 (1110) 는 데이터 레이트 적응을 수행하도록 구성될 수도 있다. 예를 들어, 트랜스코더 (1110) 는 오디오 데이터의 포맷을 변경하는 일 없이 데이터 레이트를 다운-컨버팅하거나 또는 데이터 레이트를 업-컨버팅할 수도 있다. 예시하기 위해, 트랜스코더 (1110) 는 64 kbit/s 신호들을 16 kbit/s 신호들로 다운-컨버팅할 수도 있다.
오디오 코덱 (1108) 은 인코더 (1136) 및 디코더 (1138) 를 포함할 수도 있다. 인코더 (1136) 는 도 1 의 인코더 (120) 를 포함할 수도 있다. 디코더 (1138) 는 도 1 의 디코더 (162) 를 포함할 수도 있다.
기지국 (1100) 은 메모리 (1132) 를 포함할 수도 있다. 컴퓨터 판독가능 저장 디바이스와 같은 메모리 (1132) 는 명령들을 포함할 수도 있다. 명령들은 도 1 내지 도 10 의 방법들 및 시스템들을 참조하여 설명된 하나 이상의 동작들을 수행하기 위해, 프로세서 (1106), 트랜스코더 (1110), 또는 이들의 조합에 의해 실행가능한 하나 이상의 명령들을 포함할 수도 있다. 기지국 (1100) 은 안테나들의 어레이에 커플링된 제 1 트랜시버 (1152) 및 제 2 트랜시버 (1154) 와 같은 다수의 송신기들 및 수신기들 (예를 들어, 트랜시버들) 을 포함할 수도 있다. 안테나들의 어레이는 제 1 안테나 (1142) 및 제 2 안테나 (1144) 를 포함할 수도 있다. 안테나들의 어레이는 도 10 의 디바이스 (1000) 와 같은 하나 이상의 무선 디바이스들과 무선으로 통신하도록 구성될 수도 있다. 예를 들어, 제 2 안테나 (1144) 는 무선 디바이스로부터 데이터 스트림 (1114) (예를 들어, 비트 스트림) 을 수신할 수도 있다. 데이터 스트림 (1114) 은 메시지들, 데이터 (예를 들어, 인코딩된 음성 데이터), 또는 이들의 조합을 포함할 수도 있다.
기지국 (1100) 은 백홀 커넥션과 같은 네트워크 커넥션 (1160) 을 포함할 수도 있다. 네트워크 커넥션 (1160) 은 무선 통신 네트워크의 하나 이상의 기지국들 또는 코어 네트워크와 통신하도록 구성될 수도 있다. 예를 들어, 기지국 (1100) 은 네트워크 커넥션 (1160) 을 통해 코어 네트워크로부터 제 2 데이터 스트림 (예를 들어, 메시지들 또는 오디오 데이터) 을 수신할 수도 있다. 기지국 (1100) 은 제 2 데이터 스트림을 프로세싱하여 메시지들 또는 오디오 데이터를 생성하고 메시지들 또는 오디오 데이터를 안테나들의 어레이의 하나 이상의 안테나들을 통해 하나 이상의 무선 디바이스에 또는 네트워크 커넥션 (1160) 을 통해 다른 기지국에 제공할 수도 있다. 특정 구현에서, 네트워크 커넥션 (1160) 은, 예시적인 비제한적 예로서, 광역 네트워크 (WAN) 커넥션일 수도 있다. 일부 구현들에서, 코어 네트워크는 공중 교환 전화 네트워크 (PSTN), 패킷 백본 네트워크, 또는 이들 양쪽 모두를 포함하거나 또는 이들에 대응할 수도 있다.
기지국 (1100) 은 네트워크 커넥션 (1160) 및 프로세서 (1106) 에 커플링되는 미디어 게이트웨이 (1170) 를 포함할 수도 있다. 미디어 게이트웨이 (1170) 는 상이한 전기통신 기술들의 미디어 스트림들 사이에서 컨버팅하도록 구성될 수도 있다. 예를 들어, 미디어 게이트웨이 (1170) 는 상이한 송신 프로토콜들, 상이한 코딩 스킴들, 또는 이들 양쪽 모두 사이에서 컨버팅할 수도 있다. 예시하기 위해, 미디어 게이트웨이 (1170) 는, 예시적인 비제한적 예로서, PCM 신호들을 실시간 전송 프로토콜 (RTP) 신호들로 컨버팅할 수도 있다. 미디어 게이트웨이 (1170) 는 패킷 교환 네트워크들 (예를 들어, 음성 인터넷 프로토콜 (VoIP) 네트워크, IP 멀티미디어 서브시스템 (IMS), 제 4 세대 (4G) 무선 네트워크, 예컨대 LTE, WiMax, 및 UMB 등), 회선 교환 네트워크들 (예를 들어, PSTN), 및 하이브리드 네트워크들 (예를 들어, 제 2 세대 (2G) 무선 네트워크, 예컨대 GSM, GPRS, 및 EDGE, 제 3 세대 (3G) 무선 네트워크, 예컨대 WCDMA, EV-DO, 및 HSPA 등) 사이의 데이터를 컨버팅할 수도 있다.
추가적으로, 미디어 게이트웨이 (1170) 는 트랜스코드를 포함할 수도 있고 코덱들이 호환가능하지 않을 때 데이터를 트랜스코딩하도록 구성될 수도 있다. 예를 들어, 미디어 게이트웨이 (1170) 는, 예시적인 비제한적 예로서, 적응형 멀티-레이트 (Adaptive Multi-Rate; AMR) 코덱과 G.711 코덱 사이에서 트랜스코딩할 수도 있다. 미디어 게이트웨이 (1170) 는 라우터 및 복수의 물리적 인터페이스들을 포함할 수도 있다. 일부 구현들에서, 미디어 게이트웨이 (1170) 는 또한 제어기 (도시되지 않음) 를 포함할 수도 있다. 특정 구현에서, 미디어 게이트웨이 제어기는 미디어 게이트웨이 (1170) 의 외부에 있거나, 기지국 (1100) 의 외부에 있거나, 또는 이들 양쪽 모두일 수도 있다. 미디어 게이트웨이 제어기는 다수의 미디어 게이트웨이들의 동작들을 제어 및 조정할 수도 있다. 미디어 게이트웨이 (1170) 는 미디어 게이트웨이 제어기로부터 제어 신호들을 수신할 수도 있고, 상이한 송신 기술들 사이를 브리지하도록 기능할 수도 있고 최종 사용자 능력들 및 연결들에 서비스를 추가할 수도 있다.
기지국 (1100) 은 트랜시버들 (1152, 1154), 수신기 데이터 프로세서 (1164), 및 프로세서 (1106) 에 커플링되는 복조기 (1162) 를 포함할 수도 있고, 수신기 데이터 프로세서 (1164) 는 프로세서 (1106) 에 커플링될 수도 있다. 복조기 (1162) 는 트랜시버들 (1152, 1154) 로부터 수신된 변조된 신호들을 복조하도록, 그리고 복조된 데이터를 수신기 데이터 프로세서 (1164) 에 제공하도록 구성될 수도 있다. 수신기 데이터 프로세서 (1164) 는 복조된 데이터로부터 메시지 또는 오디오 데이터를 추출하고 메시지 또는 오디오 데이터를 프로세서 (1106) 에 전송하도록 구성될 수도 있다.
기지국 (1100) 은 송신 데이터 프로세서 (1182) 및 송신 다중 입력-다중 출력 (MIMO) 프로세서 (1184) 를 포함할 수도 있다. 송신 데이터 프로세서 (1182) 는 프로세서 (1106) 및 송신 MIMO 프로세서 (1184) 에 커플링될 수도 있다. 송신 MIMO 프로세서 (1184) 는 트랜시버들 (1152, 1154) 및 프로세서 (1106) 에 커플링될 수도 있다. 일부 구현들에서, 송신 MIMO 프로세서 (1184) 는 미디어 게이트웨이 (1170) 에 커플링될 수도 있다. 송신 데이터 프로세서 (1182) 는 프로세서 (1106) 로부터 메시지들 또는 오디오 데이터를 수신하도록 그리고, 예시적인 비제한적 예들로서, CDMA 또는 직교 주파수 분할 멀티플렉싱 (OFDM) 과 같은 코딩 스킴에 기초하여 메시지들 또는 오디오 데이터를 코딩하도록 구성될 수도 있다. 송신 데이터 프로세서 (1182) 는 코딩된 데이터를 송신 MIMO 프로세서 (1184) 에 제공할 수도 있다.
코딩된 데이터는 멀티플렉싱된 데이터를 생성하기 위해 CDMA 또는 OFDM 기법들을 사용하여 파일럿 데이터와 같은 다른 데이터와 멀티플렉싱될 수도 있다. 그 후에, 멀티플렉싱된 데이터는 변조 심볼들을 생성하기 위해 특정 변조 스킴 (예를 들어, 이진 위상-시프트 키잉 ("BPSK"), 직교 위상-시프트 키잉 ("QSPK"), M진 위상-시프트 키잉 ("M-PSK"), M진 직교 진폭 변조 ("M-QAM") 등) 에 기초하여 송신 데이터 프로세서 (1182) 에 의해 변조 (즉, 심볼 맵핑) 될 수도 있다. 특정 구현에서, 코딩된 데이터 및 다른 데이터는 상이한 변조 스킴들을 사용하여 변조될 수도 있다. 각각의 데이터 스트림에 대한 데이터 레이트, 코딩, 및 변조는 프로세서 (1106) 에 의해 실행된 명령들에 의해 결정될 수도 있다.
송신 MIMO 프로세서 (1184) 는 송신 데이터 프로세서 (1182) 로부터 변조 심볼들을 수신하도록 구성될 수도 있고, 변조 심볼들을 추가로 프로세싱할 수도 있고 데이터에 대해 빔포밍을 수행할 수도 있다. 예를 들어, 송신 MIMO 프로세서 (1184) 는 빔포밍 가중치들을 변조 심볼들에 적용할 수도 있다. 빔포밍 가중치들은 변조 심볼들이 송신되게 하는 안테나들의 어레이의 하나 이상의 안테나들에 대응할 수도 있다.
동작 동안, 기지국 (1100) 의 제 2 안테나 (1144) 는 데이터 스트림 (1114) 을 수신할 수도 있다. 제 2 트랜시버 (1154) 는 제 2 안테나 (1144) 로부터 데이터 스트림 (1114) 을 수신할 수도 있고 데이터 스트림 (1114) 을 복조기 (1162) 에 제공할 수도 있다. 복조기 (1162) 는 데이터 스트림 (1114) 의 변조 신호들을 복조하고 복조된 데이터를 수신기 데이터 프로세서 (1164) 에 제공할 수도 있다. 수신기 데이터 프로세서 (1164) 는 복조된 데이터로부터 오디오 데이터를 추출하고 추출된 오디오 데이터를 프로세서 (1106) 에 제공할 수도 있다.
프로세서 (1106) 는 트랜스코딩을 위해 오디오 데이터를 트랜스코더 (1110) 에 제공할 수도 있다. 트랜스코더 (1110) 의 디코더 (1138) 는 제 1 포맷으로부터 오디오 데이터를 디코딩된 오디오 데이터로 디코딩할 수도 있고, 인코더 (1136) 는 디코딩된 오디오 데이터를 제 2 포맷으로 인코딩할 수도 있다. 일부 구현들에서, 인코더 (1136) 는 무선 디바이스로부터 수신된 것보다 더 높은 데이터 레이트 (예를 들어, 업-컨버트) 또는 더 낮은 데이터 레이트 (예를 들어, 다운-컨버트) 를 사용하여 오디오 데이터를 인코딩할 수도 있다. 다른 구현들에서, 오디오 데이터는 트랜스코딩되지 않을 수도 있다. 트랜스코딩 (예를 들어, 디코딩 및 인코딩) 이 트랜스코더 (1110) 에 의해 수행되는 것으로서 예시되지만, 트랜스코딩 동작들 (예를 들어, 디코딩 및 인코딩) 은 기지국 (1100) 의 다수의 컴포넌트들에 의해 수행될 수도 있다. 예를 들어, 디코딩은 수신기 데이터 프로세서 (1164) 에 의해 수행될 수도 있고 인코딩은 송신 데이터 프로세서 (1182) 에 의해 수행될 수도 있다. 다른 구현들에서, 프로세서 (1106) 는 다른 송신 프로토콜, 코딩 스킴, 또는 이들 양쪽 모두로의 컨버전을 위해 오디오 데이터를 미디어 게이트웨이 (1170) 에 제공할 수도 있다. 미디어 게이트웨이 (1170) 는 컨버팅된 데이터를 네트워크 커넥션 (1160) 을 통해 다른 기지국 또는 코어 네트워크에 제공할 수도 있다.
인코더 (1136) 는 레퍼런스 채널 및 타깃 채널을 수신할 수도 있다. 인코더 (1136) 는 또한 제 1 미스매치 값과 제 2 미스매치 값 사이의 차이를 결정할 수도 있다. 인코더 (1136) 는 또한, 차이에 기초하여 타깃 샘플들의 세트를 조정하여 조정된 타깃 샘플들의 세트를 생성할 수도 있다. 인코더 (1136) 는 레퍼런스 샘플들의 세트 및 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 또한 생성할 수도 있다. 인코더 (1136) 는 또한 적어도 하나의 인코딩된 채널을 송신할 수도 있다. 디코더 (118) 는 레퍼런스 채널 표시자 (164), 비-인과적 미스매치 값 (162), 이득 파라미터 (160), 또는 이들의 조합에 기초하여 인코딩된 신호들을 디코딩함으로써 제 1 출력 신호 (126) 및 제 2 출력 신호 (128) 를 생성할 수도 있다. 트랜스코딩된 데이터와 같이 인코더 (1136) 에서 생성된 인코딩된 오디오 데이터는 프로세서 (1106) 를 통해 송신 데이터 프로세서 (1182) 또는 네트워크 커넥션 (1160) 에 제공될 수도 있다.
트랜스코더 (1110) 로부터의 트랜스코딩된 오디오 데이터는 OFDM 과 같은 변조 스킴에 따라 코딩하기 위해 송신 데이터 프로세서 (1182) 에 제공되어, 변조 심볼들을 생성할 수도 있다. 송신 데이터 프로세서 (1182) 는 추가의 프로세싱 및 빔포밍을 위해 송신 MIMO 프로세서 (1184) 에 변조 심볼들을 제공할 수도 있다. 송신 MIMO 프로세서 (1184) 는 빔포밍 가중치들을 적용할 수도 있고, 제 1 트랜시버 (1152) 를 통해 제 1 안테나 (1142) 와 같은 안테나들의 어레이의 하나 이상의 안테나들에 변조 심볼들을 제공할 수도 있다. 따라서, 기지국 (1100) 은 무선 디바이스로부터 수신된 데이터 스트림 (1114) 에 대응하는 트랜스코딩된 데이터 스트림 (1116) 을 다른 무선 디바이스에 제공할 수도 있다. 트랜스코딩된 데이터 스트림 (1116) 은 데이터 스트림 (1114) 과는 상이한 인코딩 포맷, 데이터 레이트, 또는 이들 양쪽 모두를 가질 수도 있다. 다른 구현들에서, 트랜스코딩된 데이터 스트림 (1116) 은 다른 기지국 또는 코어 네트워크로의 송신을 위해 네트워크 커넥션 (1160) 에 제공될 수도 있다.
그에 따라, 기지국 (1100) 은, 프로세서 (예를 들어, 프로세서 (1106) 또는 트랜스코더 (1110)) 에 의해 실행될 때, 프로세서로 하여금 레퍼런스 채널 및 타깃 채널을 수신하는 것을 포함하는 동작들을 수행하게 하는 명령들을 저장하는 컴퓨터 판독가능 저장 디바이스 (예를 들어, 메모리 (1132)) 를 포함할 수도 있다. 동작들은 제 1 미스매치 값과 제 2 미스매치 값 사이의 차이를 결정하는 것을 또한 포함한다. 동작들은 차이에 기초하여 타깃 샘플들의 세트를 조정하여 조정된 타깃 샘플들의 세트를 생성하는 것을 또한 포함한다. 동작들은 레퍼런스 샘플들의 세트 및 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 것을 또한 포함한다. 동작들은 적어도 하나의 인코딩된 채널을 송신하는 것을 또한 포함한다.
당업자들은, 본 명세서에 개시된 구현들과 관련되어 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 프로세서에 의해 실행되는 컴퓨터 소프트웨어, 또는 이들 양쪽의 조합들로서 구현될 수도 있다는 것을 추가로 인식할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 이들의 기능성의 관점에서 일반적으로 상술되었다. 그러한 기능성이 하드웨어로서 또는 프로세서 실행가능 명령들로서 구현되는지 여부는 전체 시스템에 부과되는 설계 제약들 및 특정 애플리케이션에 좌우된다. 당업자들은 각각의 특정 애플리케이션에 대한 다양한 방법들로 설명된 기능성을 구현할 수도 있지만, 이러한 구현 판정들은 본 개시물의 범위로부터의 벗어남을 야기시키는 것으로 해석되어서는 안된다.
본 명세서의 본 개시물과 관련되어 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들 둘의 조합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독-전용 메모리 (ROM), 프로그램가능 판독-전용 메모리 (PROM), 소거가능 프로그램가능 판독-전용 메모리 (EPROM), 전기적 소거가능 프로그램가능 판독-전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 콤팩트 디스크 판독-전용 메모리 (CD-ROM), 또는 당업계에 공지된 임의의 다른 형태의 비순시적 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독할 수 있고 정보를 저장 매체에 기입할 수 있도록 프로세서에 커플링된다. 대안적으로, 저장 매체는 프로세서와 일체적일 수도 있다. 프로세서 및 저장 매체는 주문형 집적 회로 (ASIC) 에 상주할 수도 있다. ASIC 는 컴퓨팅 디바이스 또는 사용자 단말기에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에 이산 컴포넌트들로서 상주할 수도 있다.
이전 설명은 당업자가 개시된 구현들을 제조하거나 사용하는 것을 가능하게 하도록 제공된다. 이들 구현들에 대한 다양한 수정들은 당업자들에게 쉽게 명백할 것이며, 본 명세서에서 정의되는 원리들은 본 개시물의 범위로부터 벗어남이 없이 다른 구현들에 적용될 수도 있다. 따라서, 본 개시물은 본 명세서에 도시된 구현들로 제한되도록 의도된 것이 아니라, 다음의 청구항들에 의해 정의된 원리들 및 신규한 피처들에 부합하는 가능한 가장 넓은 범위를 부여받게 하려는 것이다.

Claims (68)

  1. 무선 통신의 디바이스로서,
    레퍼런스 채널 및 타깃 채널을 수신하는 것으로서, 상기 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함하고, 상기 타깃 채널은 타깃 샘플들의 세트를 포함하는, 상기 레퍼런스 채널 및 타깃 채널을 수신하고;
    제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 것으로서, 상기 제 1 미스매치 값은 상기 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 상기 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타내고, 상기 제 2 미스매치 값은 상기 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 상기 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타내는, 상기 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하고;
    확산 팩터 및 상기 변동에 기초한 보간 팩터를 사용해 상기 타깃 샘플들의 세트의 서브세트를 보간하여 추정된 샘플들의 세트를 생성하는 것으로서, 상기 확산 팩터는 하나 이상의 오디오 채널들의 적어도 하나의 특성에 기초하여 결정된 값에 대응하는, 상기 추정된 샘플들의 세트를 생성하고;
    상기 추정된 샘플들의 세트로 상기 타깃 샘플들의 세트의 서브세트를 대체하여 조정된 타깃 샘플들의 세트를 생성하는 것으로서, 상기 조정된 타깃 샘플들의 세트는 상기 타깃 채널과 연관된 타깃 프레임들의 경계들 근처의 불연속성의 양을 감소시키도록 구성되는, 상기 조정된 타깃 샘플들의 세트를 생성하고; 그리고
    상기 레퍼런스 샘플들의 세트 및 상기 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하도록
    구성된, 인코더; 및
    상기 적어도 하나의 인코딩된 채널을 송신하도록 구성된 네트워크 인터페이스
    를 포함하는, 무선 통신의 디바이스.
  2. 제 1 항에 있어서,
    상기 인코더는,
    상기 변동을 결정하도록 구성된 비교기를 포함하고,
    상기 변동은, 상기 제 1 미스매치 값과 상기 제 2 미스매치 값 사이의 차이 및 레퍼런스 채널 표시자에 적어도 기초하는 값인, 무선 통신의 디바이스.
  3. 제 1 항에 있어서,
    상기 인코더는,
    상기 변동을 결정하도록 구성된 비교기를 포함하고,
    상기 변동은 샘플들의 수 개의 세트들에 걸친 미스매치 값들의 세트에 기초하는, 무선 통신의 디바이스.
  4. 제 1 항에 있어서,
    상기 인코더는,
    상기 변동에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하도록 구성된 샘플 조정기를 포함하는, 무선 통신의 디바이스.
  5. 제 1 항에 있어서,
    상기 인코더는,
    레퍼런스 채널 표시자에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하도록 구성된 샘플 조정기를 포함하는, 무선 통신의 디바이스.
  6. 제 1 항에 있어서,
    상기 인코더는,
    상기 레퍼런스 채널의 에너지 및 상기 타깃 채널의 에너지에 적어도 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하도록 구성된 샘플 조정기를 포함하는, 무선 통신의 디바이스.
  7. 제 1 항에 있어서,
    상기 인코더는,
    과도 검출기 (transient detector) 에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하도록 구성된 샘플 조정기를 포함하는, 무선 통신의 디바이스.
  8. 제 1 항에 있어서,
    상기 인코더는, 상기 적어도 하나의 인코딩된 채널을 생성하도록 구성된 채널 생성기를 더 포함하는, 무선 통신의 디바이스.
  9. 제 8 항에 있어서,
    상기 적어도 하나의 인코딩된 채널은 미드-채널 (mid-channel), 사이드-채널 (side-channel), 또는 이들 양쪽 모두를 포함하는, 무선 통신의 디바이스.
  10. 제 9 항에 있어서,
    상기 채널 생성기는 상기 레퍼런스 샘플들의 세트 및 상기 조정된 타깃 샘플들의 세트의 합에 기초하여 상기 미드-채널을 생성하도록 구성되고, 상기 채널 생성기는 또한, 상기 레퍼런스 샘플들의 세트와 상기 조정된 타깃 샘플들의 세트 사이의 차이에 기초하여 상기 사이드-채널을 생성하도록 구성되는, 무선 통신의 디바이스.
  11. 제 1 항에 있어서,
    상기 인코더는, 상기 제 1 미스매치 값 및 상기 제 2 미스매치 값을 결정하도록 구성된 시프트 추정기를 포함하고, 상기 제 1 미스매치 값 및 상기 제 2 미스매치 값은 레퍼런스 다운-샘플링된 채널과 타깃 다운-샘플링된 채널의 비교들에 기초하여 결정되고, 상기 레퍼런스 다운-샘플링된 채널은 상기 레퍼런스 채널에 기초하고, 상기 타깃 다운-샘플링된 채널은 상기 타깃 채널에 기초하는, 무선 통신의 디바이스.
  12. 제 11 항에 있어서,
    상기 시프트 추정기는 상기 레퍼런스 다운-샘플링된 채널의 샘플을 상기 타깃 다운-샘플링된 채널의 다수의 샘플들과 비교하여 상기 타깃 다운-샘플링된 채널의 특정 샘플을 결정하도록 구성되고, 상기 제 1 미스매치 값은 상기 특정 샘플과 연관되는, 무선 통신의 디바이스.
  13. 제 1 항에 있어서,
    제 1 마이크로폰으로부터 제 1 오디오 신호를 수신하도록 구성된 제 1 입력 인터페이스; 및
    제 2 마이크로폰으로부터 제 2 오디오 신호를 수신하도록 구성된 제 2 입력 인터페이스
    를 더 포함하고,
    상기 제 1 오디오 신호는 상기 레퍼런스 채널 또는 상기 타깃 채널 중 하나에 대응하고, 상기 제 2 오디오 신호는 상기 레퍼런스 채널 또는 상기 타깃 채널 중 다른 하나에 대응하는, 무선 통신의 디바이스.
  14. 제 1 항에 있어서,
    상기 인코더 및 상기 네트워크 인터페이스는 모바일 디바이스에 통합되는, 무선 통신의 디바이스.
  15. 제 1 항에 있어서,
    상기 인코더 및 상기 네트워크 인터페이스는 기지국에 통합되는, 무선 통신의 디바이스.
  16. 무선 통신의 방법으로서,
    제 1 디바이스에서, 레퍼런스 채널 및 타깃 채널을 수신하는 단계로서, 상기 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함하고, 상기 타깃 채널은 타깃 샘플들의 세트를 포함하는, 상기 레퍼런스 채널 및 타깃 채널을 수신하는 단계;
    상기 제 1 디바이스에서, 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 단계로서, 상기 제 1 미스매치 값은 상기 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 상기 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타내고, 상기 제 2 미스매치 값은 상기 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 상기 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타내는, 상기 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 단계;
    상기 제 1 디바이스에서, 확산 팩터 및 상기 변동에 기초한 보간 팩터를 사용해 상기 타깃 샘플들의 세트의 서브세트를 보간하여 추정된 샘플들의 세트를 생성하는 단계로서, 상기 확산 팩터는 하나 이상의 오디오 채널들의 적어도 하나의 특성에 기초하여 결정된 값에 대응하는, 상기 추정된 샘플들의 세트를 생성하는 단계;
    상기 추정된 샘플들의 세트로 상기 타깃 샘플들의 세트의 서브세트를 대체하여 조정된 타깃 샘플들의 세트를 생성하는 단계로서, 상기 조정된 타깃 샘플들의 세트는 상기 타깃 채널과 연관된 타깃 프레임들의 경계들 근처의 불연속성의 양을 감소시키도록 구성되는, 상기 조정된 타깃 샘플들의 세트를 생성하는 단계; 및
    상기 제 1 디바이스에서, 상기 레퍼런스 샘플들의 세트 및 상기 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 단계; 및
    상기 제 1 디바이스로부터의 상기 적어도 하나의 인코딩된 채널을 제 2 디바이스에 송신하는 단계
    를 포함하는, 무선 통신의 방법.
  17. 제 16 항에 있어서,
    상기 변동은, 상기 제 1 미스매치 값과 상기 제 2 미스매치 값 사이의 차이 및 레퍼런스 채널 표시자에 적어도 기초하는 값인, 무선 통신의 방법.
  18. 제 16 항에 있어서,
    상기 변동은 샘플들의 수 개의 세트들에 걸친 미스매치 값들의 세트에 기초하는, 무선 통신의 방법.
  19. 제 16 항에 있어서,
    상기 변동에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 단계를 더 포함하는, 무선 통신의 방법.
  20. 제 16 항에 있어서,
    레퍼런스 채널 표시자에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 단계를 더 포함하는, 무선 통신의 방법.
  21. 제 16 항에 있어서,
    상기 레퍼런스 채널의 에너지 및 상기 타깃 채널의 에너지에 적어도 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 단계를 더 포함하는, 무선 통신의 방법.
  22. 제 16 항에 있어서,
    과도 검출기에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 단계를 더 포함하는, 무선 통신의 방법.
  23. 제 16 항에 있어서,
    상기 타깃 샘플들의 세트의 제 1 서브세트는 상기 제 1 미스매치 값에 기초하는 양만큼 상기 레퍼런스 샘플들의 세트의 제 1 서브세트에 대해 시간-시프팅되고, 상기 타깃 샘플들의 세트의 제 2 서브세트는 상기 제 2 미스매치 값에 기초하는 양만큼 상기 레퍼런스 샘플들의 세트의 제 2 서브세트에 대해 시간-시프팅되는, 무선 통신의 방법.
  24. 제 16 항에 있어서,
    상기 레퍼런스 채널을 다운-샘플링하여 레퍼런스 다운-샘플링된 채널을 생성하는 단계;
    상기 타깃 채널을 다운-샘플링하여 타깃 다운-샘플링된 채널을 생성하는 단계; 및
    상기 레퍼런스 다운-샘플링된 채널과 상기 타깃 다운-샘플링된 채널의 비교들에 기초하여 상기 제 1 미스매치 값 및 상기 제 2 미스매치 값을 결정하는 단계
    를 더 포함하는, 무선 통신의 방법.
  25. 제 24 항에 있어서,
    상기 변동이 임계치를 초과하지 않도록 상기 제 1 미스매치 값 및 상기 제 2 미스매치 값을 선택하는 단계를 더 포함하는, 무선 통신의 방법.
  26. 제 16 항에 있어서,
    상기 타깃 샘플들의 세트의 서브세트를 보간하는 단계는 싱크 보간 (sinc interpolation) 을 수행하는 단계를 포함하는, 무선 통신의 방법.
  27. 제 16 항에 있어서,
    상기 타깃 샘플들의 세트의 서브세트를 보간하는 단계는 라그랑지 보간 (Lagrange interpolation) 을 수행하는 단계를 포함하는, 무선 통신의 방법.
  28. 제 16 항에 있어서,
    상기 보간은 윈도우 페이딩 (window fading) 을 사용하여 수행되는, 무선 통신의 방법.
  29. 제 16 항에 있어서,
    상기 타깃 샘플들의 세트의 서브세트를 보간하는 단계는 하이브리드 보간을 수행하는 단계를 포함하는, 무선 통신의 방법.
  30. 제 16 항에 있어서,
    상기 보간은 상기 확산 팩터에 대응하는 수의 샘플들에 대해 수행되는, 무선 통신의 방법.
  31. 제 30 항에 있어서,
    상기 확산 팩터의 값은 상기 타깃 채널의 프레임 내의 샘플들의 개수 이하인, 무선 통신의 방법.
  32. 제 30 항에 있어서,
    상기 확산 팩터의 값은 오디오 평활도 설정에 기초하는, 무선 통신의 방법.
  33. 제 30 항에 있어서,
    상기 타깃 채널의 오디오 타입을 결정하는 단계; 및
    상기 오디오 타입에 기초하여 상기 확산 팩터의 값을 선택하는 단계
    를 더 포함하는, 무선 통신의 방법.
  34. 제 33 항에 있어서,
    상기 오디오 타입은 음성, 음악, 또는 노이즈를 포함하는, 무선 통신의 방법.
  35. 제 16 항에 있어서,
    상기 추정된 샘플들의 세트는 상기 타깃 샘플들의 세트보다 더 높은 샘플링 레이트에 대응하는, 무선 통신의 방법.
  36. 제 16 항에 있어서,
    상기 추정된 샘플들의 세트는 상기 타깃 샘플들의 세트보다 더 낮은 샘플링 레이트에 대응하는, 무선 통신의 방법.
  37. 제 16 항에 있어서,
    상기 제 1 미스매치 값은 제 1 마이크로폰을 통한 제 1 오디오 신호의 프레임의 수신과 제 2 마이크로폰을 통한 제 2 오디오 신호의 대응하는 프레임의 수신 사이의 시간 지연량에 대응하고, 상기 제 1 오디오 신호는 상기 레퍼런스 채널 또는 상기 타깃 채널 중 하나에 대응하고, 상기 제 2 오디오 신호는 상기 레퍼런스 채널 또는 상기 타깃 채널 중 다른 하나에 대응하는, 무선 통신의 방법.
  38. 제 16 항에 있어서,
    상기 적어도 하나의 인코딩된 채널은 미드-채널, 사이드-채널, 또는 이들 양쪽 모두를 포함하는, 무선 통신의 방법.
  39. 제 16 항에 있어서,
    제 1 오디오 신호가 우측 채널 또는 좌측 채널 중 하나를 포함하고, 제 2 오디오 신호가 상기 우측 채널 또는 상기 좌측 채널 중 다른 하나를 포함하고, 상기 제 1 오디오 신호는 상기 레퍼런스 채널 또는 상기 타깃 채널 중 하나에 대응하고, 상기 제 2 오디오 신호는 상기 레퍼런스 채널 또는 상기 타깃 채널 중 다른 하나에 대응하는, 무선 통신의 방법.
  40. 제 16 항에 있어서,
    상기 제 1 디바이스는 모바일 디바이스에 통합되는, 무선 통신의 방법.
  41. 제 16 항에 있어서,
    상기 제 1 디바이스는 기지국에 통합되는, 무선 통신의 방법.
  42. 무선 통신의 장치로서,
    레퍼런스 샘플들의 세트를 포함하는 레퍼런스 채널을 수신하는 수단;
    타깃 샘플들의 세트를 포함하는 타깃 채널을 수신하는 수단;
    제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 수단으로서, 상기 제 1 미스매치 값은 상기 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 상기 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타내고, 상기 제 2 미스매치 값은 상기 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 상기 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타내는, 상기 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 수단;
    확산 팩터 및 상기 변동에 기초한 보간 팩터를 사용해 상기 타깃 샘플들의 세트의 서브세트를 보간하여 추정된 샘플들의 세트를 생성하는 수단으로서, 상기 확산 팩터는 하나 이상의 오디오 채널들의 적어도 하나의 특성에 기초하여 결정된 값에 대응하는, 상기 추정된 샘플들의 세트를 생성하는 수단;
    상기 추정된 샘플들의 세트로 상기 타깃 샘플들의 세트의 서브세트를 대체하여 조정된 타깃 샘플들의 세트를 생성하는 수단으로서, 상기 조정된 타깃 샘플들의 세트는 상기 타깃 채널과 연관된 타깃 프레임들의 경계들 근처의 불연속성의 양을 감소시키도록 구성되는, 상기 조정된 타깃 샘플들의 세트를 생성하는 수단; 및
    상기 레퍼런스 샘플들의 세트 및 상기 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 수단; 및
    상기 적어도 하나의 인코딩된 채널을 송신하는 수단
    을 포함하는, 무선 통신의 장치.
  43. 제 42 항에 있어서,
    상기 변동은, 상기 제 1 미스매치 값과 상기 제 2 미스매치 값 사이의 차이 및 레퍼런스 채널 표시자에 적어도 기초하는 값인, 무선 통신의 장치.
  44. 제 42 항에 있어서,
    상기 변동은 샘플들의 수 개의 세트들에 걸친 미스매치 값들의 세트에 기초하는, 무선 통신의 장치.
  45. 제 42 항에 있어서,
    상기 변동에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 수단을 더 포함하는, 무선 통신의 장치.
  46. 제 42 항에 있어서,
    레퍼런스 채널 표시자에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 수단을 더 포함하는, 무선 통신의 장치.
  47. 제 42 항에 있어서,
    상기 레퍼런스 채널의 에너지 및 상기 타깃 채널의 에너지에 적어도 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 수단을 더 포함하는, 무선 통신의 장치.
  48. 제 42 항에 있어서,
    과도 검출기에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 수단을 더 포함하는, 무선 통신의 장치.
  49. 제 42 항에 있어서,
    제 1 오디오 신호가 우측 채널 또는 좌측 채널 중 하나를 포함하고, 제 2 오디오 신호가 상기 우측 채널 또는 상기 좌측 채널 중 다른 하나를 포함하고, 상기 제 1 오디오 신호는 상기 레퍼런스 채널 또는 상기 타깃 채널 중 하나에 대응하고, 상기 제 2 오디오 신호는 상기 레퍼런스 채널 또는 상기 타깃 채널 중 다른 하나에 대응하는, 무선 통신의 장치.
  50. 제 42 항에 있어서,
    상기 결정하는 수단, 상기 보간하는 수단, 상기 생성하는 수단, 및 상기 송신하는 수단은 모바일 디바이스에 통합되는, 무선 통신의 장치.
  51. 제 42 항에 있어서,
    상기 결정하는 수단, 상기 보간하는 수단, 상기 생성하는 수단, 및 상기 송신하는 수단은 기지국에 통합되는, 무선 통신의 장치.
  52. 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 동작들을 수행하게 하는 명령들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체로서,
    상기 동작들은,
    제 1 디바이스에서, 레퍼런스 채널 및 타깃 채널을 수신하는 것으로서, 상기 레퍼런스 채널은 레퍼런스 샘플들의 세트를 포함하고, 상기 타깃 채널은 타깃 샘플들의 세트를 포함하는, 상기 레퍼런스 채널 및 타깃 채널을 수신하는 것;
    상기 제 1 디바이스에서, 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 것으로서, 상기 제 1 미스매치 값은 상기 레퍼런스 샘플들의 세트 중 제 1 레퍼런스 샘플과 상기 타깃 샘플들의 세트 중 제 1 타깃 샘플 사이의 시간적 미스매치의 양을 나타내고, 상기 제 2 미스매치 값은 상기 레퍼런스 샘플들의 세트 중 제 2 레퍼런스 샘플과 상기 타깃 샘플들의 세트 중 제 2 타깃 샘플 사이의 시간적 미스매치의 양을 나타내는, 상기 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 것;
    확산 팩터 및 상기 변동에 기초한 보간 팩터를 사용해 상기 타깃 샘플들의 세트의 서브세트를 보간하여 추정된 샘플들의 세트를 생성하는 것으로서, 상기 확산 팩터는 하나 이상의 오디오 채널들의 적어도 하나의 특성에 기초하여 결정된 값에 대응하는, 상기 추정된 샘플들의 세트를 생성하는 것;
    상기 추정된 샘플들의 세트로 상기 타깃 샘플들의 세트의 서브세트를 대체하여 조정된 타깃 샘플들의 세트를 생성하는 것으로서, 상기 조정된 타깃 샘플들의 세트는 상기 타깃 채널과 연관된 타깃 프레임들의 경계들 근처의 불연속성의 양을 감소시키도록 구성되는, 상기 조정된 타깃 샘플들의 세트를 생성하는 것;
    상기 제 1 디바이스에서, 상기 레퍼런스 샘플들의 세트 및 상기 조정된 타깃 샘플들의 세트에 기초하여 적어도 하나의 인코딩된 채널을 생성하는 것; 및
    상기 제 1 디바이스로부터의 상기 적어도 하나의 인코딩된 채널을 제 2 디바이스에 송신하는 것
    을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  53. 제 52 항에 있어서,
    상기 변동은, 상기 제 1 미스매치 값과 상기 제 2 미스매치 값 사이의 차이 및 레퍼런스 채널 표시자에 적어도 기초하는 값인, 비일시적 컴퓨터 판독가능 저장 매체.
  54. 제 52 항에 있어서,
    상기 변동은 샘플들의 수 개의 세트들에 걸친 미스매치 값들의 세트에 기초하는, 비일시적 컴퓨터 판독가능 저장 매체.
  55. 제 52 항에 있어서,
    상기 동작들은, 상기 변동에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  56. 제 52 항에 있어서,
    상기 동작들은, 레퍼런스 채널 표시자에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  57. 제 52 항에 있어서,
    상기 동작들은, 상기 레퍼런스 채널의 에너지 및 상기 타깃 채널의 에너지에 적어도 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  58. 제 52 항에 있어서,
    상기 동작들은, 과도 검출기에 기초하여 상기 타깃 샘플들의 세트를 조정할지 여부를 결정하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  59. 무선 통신의 디바이스로서,
    제 2 디바이스로부터 적어도 하나의 인코딩된 채널을 수신하도록 구성된 네트워크 인터페이스;
    상기 적어도 하나의 인코딩된 채널을 디코딩하여 디코딩된 레퍼런스 채널 및 디코딩된 타깃 채널을 생성하는 것으로서, 상기 디코딩된 레퍼런스 채널은 디코딩된 레퍼런스 샘플들의 세트를 포함하고, 상기 디코딩된 타깃 채널은 디코딩된 타깃 샘플들의 세트를 포함하는, 상기 디코딩된 레퍼런스 채널 및 디코딩된 타깃 채널을 생성하고;
    제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하는 것으로서, 상기 제 1 미스매치 값은 상기 디코딩된 레퍼런스 샘플들의 세트 중 제 1 디코딩된 레퍼런스 샘플과 상기 디코딩된 타깃 샘플들의 세트 중 제 1 디코딩된 타깃 샘플 사이의 시간적 미스매치의 양을 나타내고, 상기 제 2 미스매치 값은 상기 디코딩된 레퍼런스 샘플들의 세트 중 제 2 디코딩된 레퍼런스 샘플과 상기 디코딩된 타깃 샘플들의 세트 중 제 2 디코딩된 타깃 샘플 사이의 시간적 미스매치의 양을 나타내는, 상기 제 1 미스매치 값과 제 2 미스매치 값 사이의 변동을 결정하고;
    확산 팩터 및 상기 변동에 기초한 보간 팩터를 사용해 상기 디코딩된 타깃 샘플들의 세트의 서브세트를 보간하여 추정된 샘플들의 세트를 생성하는 것으로서, 상기 확산 팩터는 하나 이상의 오디오 채널들의 적어도 하나의 특성에 기초하여 결정된 값에 대응하는, 상기 추정된 샘플들의 세트를 생성하고; 그리고
    상기 추정된 샘플들의 세트로 상기 디코딩된 타깃 샘플들의 세트의 서브세트를 대체하여 조정된 디코딩된 타깃 샘플들의 세트를 생성하는 것으로서, 상기 조정된 디코딩된 타깃 샘플들의 세트는 상기 디코딩된 타깃 채널과 연관된 디코딩된 타깃 프레임들의 경계들 근처의 불연속성의 양을 감소시키도록 구성되는, 상기 조정된 디코딩된 타깃 샘플들의 세트를 생성하도록
    구성되는, 디코더; 및
    상기 조정된 디코딩된 타깃 샘플들의 세트에 적어도 부분적으로 기초하여 오디오 신호를 출력하도록 구성된 하나 이상의 스피커들
    을 포함하는, 무선 통신의 디바이스.
  60. 제 59 항에 있어서,
    상기 디코더는,
    상기 변동을 결정하도록 구성된 비교기; 및
    상기 디코딩된 타깃 샘플들의 세트를 조정하도록 구성된 샘플 조정기
    를 포함하는, 무선 통신의 디바이스.
  61. 제 60 항에 있어서,
    상기 비교기는 상기 제 2 미스매치 값으로부터 상기 제 1 미스매치 값을 감산하여 상기 변동을 결정하도록 구성되는, 무선 통신의 디바이스.
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
KR1020187017125A 2015-12-21 2016-12-09 프레임간 시간 시프트 변동들에 대한 채널 조정 KR102019617B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562270501P 2015-12-21 2015-12-21
US62/270,501 2015-12-21
US15/372,833 US10074373B2 (en) 2015-12-21 2016-12-08 Channel adjustment for inter-frame temporal shift variations
US15/372,833 2016-12-08
PCT/US2016/065860 WO2017112434A1 (en) 2015-12-21 2016-12-09 Channel adjustment for inter-frame temporal shift variations

Publications (2)

Publication Number Publication Date
KR20180096625A KR20180096625A (ko) 2018-08-29
KR102019617B1 true KR102019617B1 (ko) 2019-09-06

Family

ID=59064479

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187017125A KR102019617B1 (ko) 2015-12-21 2016-12-09 프레임간 시간 시프트 변동들에 대한 채널 조정

Country Status (9)

Country Link
US (1) US10074373B2 (ko)
EP (3) EP3709297A1 (ko)
JP (1) JP6542478B2 (ko)
KR (1) KR102019617B1 (ko)
CN (1) CN108369812B (ko)
BR (1) BR112018012500A2 (ko)
CA (1) CA3004609C (ko)
TW (1) TWI691192B (ko)
WO (1) WO2017112434A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210871B2 (en) 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10431231B2 (en) * 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
EP3673671A1 (en) * 2017-08-25 2020-07-01 Sony Europe B.V. Audio processing to compensate for time offsets
US10872611B2 (en) * 2017-09-12 2020-12-22 Qualcomm Incorporated Selecting channel adjustment method for inter-frame temporal shift variations
CN108924618A (zh) * 2018-07-27 2018-11-30 青岛海信传媒网络技术有限公司 一种音视频延迟的确定方法及装置
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
CN114391262B (zh) 2019-07-30 2023-10-03 杜比实验室特许公司 跨具有不同回放能力的设备的动态处理
WO2021038341A1 (en) * 2019-08-23 2021-03-04 3M Innovative Properties Company Mobile radio

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110288872A1 (en) 2009-01-22 2011-11-24 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US20110301962A1 (en) 2009-02-13 2011-12-08 Wu Wenhai Stereo encoding method and apparatus
US20130282384A1 (en) 2007-09-25 2013-10-24 Motorola Mobility Llc Apparatus and Method for Encoding a Multi-Channel Audio Signal

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6973184B1 (en) 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US20050185541A1 (en) * 2004-02-23 2005-08-25 Darren Neuman Method and system for memory usage in real-time audio systems
CN101385077B (zh) * 2006-02-07 2012-04-11 Lg电子株式会社 用于编码/解码信号的装置和方法
FI20060133A0 (fi) * 2006-02-13 2006-02-13 Juha Ruokangas Menetelmä ja järjestelmä äänisignaalien modifioimiseksi
WO2007116809A1 (ja) 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JP2009142017A (ja) * 2007-12-05 2009-06-25 Yoshinobu Ohashi 電気自動車の警戒音発生装置
US20100290629A1 (en) * 2007-12-21 2010-11-18 Panasonic Corporation Stereo signal converter, stereo signal inverter, and method therefor
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
CN101594186B (zh) * 2008-05-28 2013-01-16 华为技术有限公司 双通道信号编码中生成单通道信号的方法和装置
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
WO2010017833A1 (en) * 2008-08-11 2010-02-18 Nokia Corporation Multichannel audio coder and decoder
CN102301748B (zh) 2009-05-07 2013-08-07 华为技术有限公司 检测信号延迟的方法、检测装置及编码器
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
TWI540912B (zh) * 2010-05-25 2016-07-01 晨星半導體股份有限公司 音訊處理裝置及音訊處理方法
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282384A1 (en) 2007-09-25 2013-10-24 Motorola Mobility Llc Apparatus and Method for Encoding a Multi-Channel Audio Signal
US20110288872A1 (en) 2009-01-22 2011-11-24 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US20110301962A1 (en) 2009-02-13 2011-12-08 Wu Wenhai Stereo encoding method and apparatus

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ETSI TS 103 190-2 V1.1.1, Digital Audio Compression (AC-4) Standard Part 2: Immersive and personalized audio, 2015.09.
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20.

Also Published As

Publication number Publication date
CN108369812B (zh) 2020-05-08
TW201725880A (zh) 2017-07-16
CA3004609C (en) 2021-01-12
WO2017112434A1 (en) 2017-06-29
KR20180096625A (ko) 2018-08-29
EP4002357A3 (en) 2022-07-20
EP3394854A1 (en) 2018-10-31
US20170178639A1 (en) 2017-06-22
EP4002357A2 (en) 2022-05-25
TWI691192B (zh) 2020-04-11
CN108369812A (zh) 2018-08-03
JP6542478B2 (ja) 2019-07-10
EP3709297A1 (en) 2020-09-16
US10074373B2 (en) 2018-09-11
CA3004609A1 (en) 2017-06-29
BR112018012500A2 (pt) 2018-12-11
JP2019504349A (ja) 2019-02-14
EP3394854B1 (en) 2021-01-20

Similar Documents

Publication Publication Date Title
KR102019617B1 (ko) 프레임간 시간 시프트 변동들에 대한 채널 조정
US11823689B2 (en) Stereo parameters for stereo decoding
EP3391371B1 (en) Temporal offset estimation
US10885925B2 (en) High-band residual prediction with time-domain inter-channel bandwidth extension
US10475457B2 (en) Time-domain inter-channel prediction
EP3682445B1 (en) Selecting channel adjustment method for inter-frame temporal shift variations

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant