KR20210141602A - 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 - Google Patents
예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 Download PDFInfo
- Publication number
- KR20210141602A KR20210141602A KR1020217033589A KR20217033589A KR20210141602A KR 20210141602 A KR20210141602 A KR 20210141602A KR 1020217033589 A KR1020217033589 A KR 1020217033589A KR 20217033589 A KR20217033589 A KR 20217033589A KR 20210141602 A KR20210141602 A KR 20210141602A
- Authority
- KR
- South Korea
- Prior art keywords
- sound source
- channel
- response
- channels
- memory
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000011084 recovery Methods 0.000 title claims abstract description 38
- 230000004044 response Effects 0.000 claims abstract description 165
- 238000005259 measurement Methods 0.000 claims abstract description 151
- 238000004590 computer program Methods 0.000 claims abstract description 23
- 230000004807 localization Effects 0.000 claims description 51
- 238000004891 communication Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 19
- 230000003213 activating effect Effects 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 8
- 230000001939 inductive effect Effects 0.000 claims 9
- 238000012545 processing Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000024875 Infantile dystonia-parkinsonism Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000001543 infantile parkinsonism-dystonia Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Discrete Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
수신된 멀티채널 신호에서 디코딩된 매개변수를 대체하기 위한 방법, 장치, 디코더, 및 컴퓨터 프로그램이 제공된다. 신호의 프레임의 멀티채널 매개변수가 디코딩된다. 불량 프레임이 표시되는 것에 응답하여, 매개변수 메모리가 손상됨이 결정된다. 불량 프레임이 표시되지 않는 것에 응답하여: 매개변수 메모리가 손상되지 않은 것에 응답하여, 위치 측정이 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원에서 유도된다. 매개변수 메모리가 손상되는 것에 응답하여, 위치 측정을 기반으로, 재구성된 음원이 안정적이고 주로 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부가 결정된다. 재구성된 음원이 멀티채널 중 채널의 서브세트에 집중되어 있고 안정적인 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구가 활성화된다.
Description
본 출원은 스테레오 또는 멀티채널 오디오 인코딩 및 디코딩에 대한 예측 코딩에서 에러 복구를 위한 방법 및 장치에 관련된다.
전기통신 네트워크의 용량이 지속적으로 증가하고 있지만, 통신 채널당 요구되는 대역폭을 제한하는 것에 대한 관심은 여전히 크다. 모바일 네트워크에서, 각 호출에 대한 더 작은 전송 대역폭은 모바일 디바이스 및 기지국 모두에서 더 낮은 전력 소비를 초래한다. 이는 모바일 운영자의 에너지 및 비용 절감으로 해석되고, 최종 사용자는 배터리 수명 연장 및 통화 시간 증가를 경험하게 된다. 또한, 사용자당 더 적은 대역폭을 사용하면, 모바일 네트워크는 더 많은 수의 사용자에게 병렬로 서비스를 제공할 수 있다.
현대 음악 재생 시스템과 영화관을 통해, 대부분의 청취자는 고품질 몰입형 오디오에 익숙해져 있다. 모바일 전기통신 서비스에서는 무선 리소스에 대한 제한 및 프로세싱 지연으로 낮은 레벨의 품질이 유지되었고 대부분의 음성 서비스가 여전히 모노 사운드만을 제공한다. 최근에는 모노를 넘어 몰입형 사운드 재생을 요구하는 가상/혼합/증강 현실의 맥락에서 통신 서비스를 위한 스테레오 및 멀티채널 사운드가 탄력을 받고 있다. 통신 네트워크의 대역폭 제한 내에서 고품질 공간 사운드를 렌더링(rendering) 하는 것은 여전히 어려운 과제이다. 부가하여, 사운드 재생은 예를 들어, 네트워크 혼잡 또는 열악한 셀 커버리지로 인해 데이터 패킷이 때로 손실될 수 있는 다양한 채널 상태에도 대처할 필요가 있다.
일반적인 스테레오 녹음에서, 채널 쌍은 높은 정도의 유사성 또는 상관관계를 나타낼 수 있다. 스테레오 코딩 방식의 일부 실시예는 파라메트릭 코딩(parametric coding)을 사용하여 이 상관관계를 활용할 수 있고, 여기서는 C. Faller, "파라메트릭 멀티채널 오디오 코딩: 일관성 신호 합성(Parametric multichannel audio coding: synthesis of coherence cues)," in IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 1, pp. 299-310, Jan. 2006에서 논의된 방식과 같이, 단일 채널이 고품질로 인코딩되고 전체 스테레오 이미지의 재구성을 허용하는 매개변수의 설명으로 보완된다. 채널 쌍을 단일 채널로 줄이는 프로세스는 때로 다운-믹스(down-mix)라 칭하여지고, 결과 채널은 때로 다운-믹스 채널이라 칭하여진다. 다운-믹스 과정은 일반적으로 채널을 혼합하기 전에 채널간 시간차(inter-channel time difference, ITD) 및 채널간 위상차(inter-channel phase difference, IPD)를 정렬함으로서 에너지를 유지하도록 시도한다. 입력 신호의 에너지 균형을 유지하기 위해, 채널간 레벨차(inter-channel level difference, ILD)도 측정될 수 있다. 따라서, ITD, IPD 및 ILD는 인코딩될 수 있고, 디코더에서 스테레오 채널 쌍을 재구성할 때 역방향 업-믹스(up-mix) 과정에서 사용될 수 있다. ITD, IPD 및 ILD 매개변수는 채널 쌍의 상관된 구성성분을 설명하고, 스테레오 채널 쌍은 다운-믹스에서 재구성할 수 없는 비-상관 구성성분을 또한 포함할 수 있다. 이 비-상관 구성성분은 채널간 일관성(inter-channel coherence, ICC) 매개변수로 표현될 수 있다. 비-상관 구성성분은 디코딩된 다운-믹스와 낮은 상관관계를 갖는 신호를 출력하는 역상관기(decorrelator) 필터를 통해 디코딩된 다운-믹스 채널을 실행함으로서 스테레오 디코더에서 합성될 수 있다. 역상관된 구성성분의 강도는 ICC 매개변수로 제어될 수 있다.
5.1 및 7.1.4와 같은 멀티채널 오디오 및 앰비소닉(Ambisonics) 또는 공간 오디오 객체 코딩(Spatial Audio Object Coding)과 같은 공간 오디오 표현에 대해 유사한 원리가 적용된다. 채널 수는 채널 사이의 상관관계를 활용하고 디코더에서 채널 재구성 또는 공간 오디오 렌더링을 위한 메타데이터 또는 매개변수와 함께 감소된 채널 세트를 번들링(bundling) 하여 줄일 수 있다.
전송 에러 및 패킷 손실의 문제점을 극복하기 위해, 전기통신 서비스는 패킷 손실 은닉(Packet Loss Concealment, PLC) 기술을 사용한다. 연결 불량, 네트워크 혼잡 등으로 인해 데이터 패킷이 손실되거나 손상된 경우, 수신기 측에서 손실되거나 손상된 데이터 패킷의 누락 정보는 손실되거나 손상된 데이터 패킷을 은닉하기 위해 합성 신호로 디코더에 의해 치환될 수 있다. PLC 기술의 일부 실시예는 때로 디코더에 밀접하게 연결되고, 여기서 내부 상태는 패킷 손실을 커버하기 위해 신호 연속 또는 외삽을 생성하는데 사용될 수 있다. 다른 신호 타입에 대해 여러 작동 모드를 갖는 멀티모드 코덱의 경우, 손실되거나 손상된 데이터 패킷의 은닉을 처리하기 위해 구현할 수 있는 여러 PLC 기술이 있다.
누락되거나 손상된 패킷은 연결을 처리하는 전송 레이어에 의해 식별될 수 있고, 플래그 형태일 수 있는 불량 프레임 표시자(Bad Frame Indicator, BFI)를 통해 "불량 프레임"으로 디코더에 시그널링된다. 디코더는 이 플래그를 내부 상태에 저장할 수 있고, 또한 예를 들어, "이전 불량 프레임 표시자"(PREV BFI)와 같이, 불량 프레임의 히스토리를 추적할 수 있다. 하나의 전송 패킷은 하나 이상의 음성 또는 오디오 프레임을 포함할 수 있음을 주목한다. 이는 하나의 손실되거나 손상된 패킷이 그 안에 포함된 모든 프레임을 "불량"으로 표시하게 됨을 의미한다.
안정적인 오디오 장면을 위해, 매개변수는 인접 프레임 사이에 높은 정도의 유사성을 나타낼 수 있다. 이 유사성을 활용하기 위해, 예측 코딩 방식이 적용될 수 있다. 이러한 방식에서, 현재 프레임 매개변수의 예측은 과거에 디코딩된 매개변수를 기반으로 유도되고 실제 매개변수와의 차이는 인코딩된다. 간단하지만 효율적인 예측은 마지막 디코딩된 매개변수를 예측으로 사용하는 것이고, 이 경우 예측 코딩 방식은 차동 인코딩 방식(differential encoding scheme)이라 칭하여질 수 있다.
예측 코딩 방식의 한 가지 문제점은 그 방식이 에러에 민감할 수 있다는 것이다. 예를 들어, 예측된 시퀀스 중 하나 이상의 요소가 손실되면, 디코더는 에러가 발생된 이후 오랜 시간 지속될 수 있는 예측 에러를 갖게 된다. 이러한 문제는 에러 전파라 칭하여지고, 모든 예측 코딩 방식에서 주어질 수 있다. 에러 전파의 설명은 도 1에 제공된다. 도 1에서, 절대 코딩 프레임은 연속적인 예측 코딩 프레임 (즉, 예측 코딩 스트릭(streak)) 시퀀스보다 먼저 손실된다. 손실된 프레임으로부터의 매개변수로 업데이트된 메모리는 이전에 저장된 매개변수를 갖게 되므로손상된다. 메모리가 프레임 손실로 인해 손상되기 때문에, 에러는 전체 예측 코딩 스트릭 동안 지속되고, 새로운 절대 코딩 프레임이 수신될 때만 종료된다. 이러한 손실의 한 가지 결과는 합성된 신호에 대한 영향으로, 이는 소스의 인지된 위치에서 원치 않고 심지어 급격한 변화일 수 있다. 이는 소스가 정적이고 극단적인 위치에 있는 경우, 예를 들어 스테레오 장면에서 맨 오른쪽 또는 맨 왼쪽에 위치한 음원에서, 특히 두드러진다.
한 가지 해결법은 규칙적인 시간 간격으로 비-예측 코딩을 강제 실행하여 에러 전파를 종료시키는 것이다. 또 다른 해결법은 매개변수의 저분해능 인코딩이 인접 오디오 프레임과 함께 전송되는 부분 중복 방식을 사용하는 것이다. 디코더가 예측 코딩 스트릭에서 프레임 손실을 감지하는 경우, 저분해능 매개변수는 에러 전파를 줄이는데 사용될 수 있다.
상기에 설명된 예측 코딩 해결법의 한 가지 단점은 전송 채널에 에러가 없을 때 대역폭이 낭비되는 대역폭을 소비한다는 것이다.
일부 실시예에 따라, 수신된 멀티채널 신호에서 디코딩 매개변수를 대체하기 위한 방법이 제공된다. 그 방법은 수신된 멀티채널 신호의 한 프레임의 멀티채널 매개변수를 디코딩하는 단계를 포함한다. 방법은 또한 불량 프레임이 표시되는가 여부를 결정하는 단계를 포함한다. 불량 프레임이 표시되는 것에 응답하여, 방법은 매개변수 메모리가 손상됨을 결정하는 단계를 포함한다. 방법은 불량 프레임이 표시되지 않는 것에 응답하여, 또한 매개변수 메모리가 손상되지 않은 것에 응답하여, 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계를 포함한다. 방법은 매개변수 메모리가 손상된 것에 응답하여, 위치 측정을 기반으로, 재구성된 음원이 안정적이고 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 재구성된 음원이 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 방법은 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계를 포함한다.
디코딩된 매개변수 대신 메모리로부터의 매개변수를 사용하는 잠재적인 이점은 에러 없는 채널 동작에서 낭비되는 중복 매개변수 정보를 전송하지 않고 동작이 예측 코딩의 문제점을 줄일 수 있다는 것이다. 또한, 안정적인 오디오 장면 동안만 추정된 매개변수를 사용하면, 불안정한 오디오 장면 동안 부자연스러운 방식으로 오디오 장면이 "정지"되는 것을 방지할 수 있다.
디코딩된 매개변수 대신 메모리로부터의 매개변수를 사용하는 또 다른 잠재적 이점은 불량 프레임이 표시될 때 메모리로부터의 매개변수를 사용하여 재생된 사운드의 인지된 위치가 디코딩된 매개변수와 비교하여 사운드의 실제 위치에 더 가까울 수 있다는 것이다. 특히, 메모리로부터의 매개변수를 사용하면 소스가 안정적이고 하나의 채널 또는 채널의 서브세트에 집중될 때 사운드 위치의 바람직하지 않거나 부자연스러운 쉬프트를 줄일 수 있다.
본 발명의 개념의 일부 실시예에 따라, 통신 네트워크를 위한 디코더가 제공된다. 디코더는 프로세서 및 그 프로세서와 연결된 메모리를 갖고, 여기서 메모리는 프로세서에 의해 실행될 때 프로세서가 수신된 멀티채널 신호의 한 프레임의 멀티채널 매개변수를 디코딩하는 단계를 포함하는 동작을 실행하게 하는 명령을 포함한다. 동작은 또한 불량 프레임이 표시되는가 여부를 결정하는 단계를 포함한다. 동작은 또한 불량 프레임이 표시되는 것에 응답하여 매개변수 메모리가 손상됨을 결정하는 단계를 포함한다. 동작은 또한 불량 프레임이 표시되지 않는 것에 응답하여, 또한 매개변수 메모리가 손상되지 않은 것에 응답하여, 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계를 포함한다. 동작은 또한 매개변수 메모리가 손상된 것에 응답하여, 위치 측정을 기반으로, 재구성된 음원이 안정적이고 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 재구성된 음원이 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 동작은 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계를 포함한다.
본 발명의 개념의 일부 실시예에 따라, 통신 네트워크에서 동작하도록 구성된 디코더가 제공된다. 디코더는 동작을 실행하도록 적응된다. 동작은 수신된 멀티채널 신호의 한 프레임의 멀티채널 매개변수를 디코딩하는 단계를 포함한다. 동작은 불량 프레임이 표시되는가 여부를 결정하는 단계를 포함한다. 동작은 불량 프레임이 표시되는 것에 응답하여 매개변수 메모리가 손상됨을 결정하는 단계를 포함한다. 동작은 불량 프레임이 표시되지 않는 것에 응답하여, 또한 매개변수 메모리가 손상되지 않은 것에 응답하여, 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계를 포함한다. 동작은 매개변수 메모리가 손상된 것에 응답하여, 위치 측정을 기반으로, 재구성된 음원이 안정적이고 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 재구성된 음원이 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 동작은 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계를 포함한다.
본 발명의 개념의 일부 실시예에 따라, 디바이스에 포함된 프로세서에서 실행될 때 디바이스가 동작을 실행하게 하는 컴퓨터-실행가능 명령을 포함하는 컴퓨터 프로그램이 제공된다. 동작은 수신된 멀티채널 신호의 한 프레임의 멀티채널 매개변수를 디코딩하는 단계를 포함한다. 동작은 또한 불량 프레임이 표시되는가 여부를 결정하는 단계를 포함한다. 동작은 또한 불량 프레임이 표시되는 것에 응답하여 매개변수 메모리가 손상됨을 결정하는 단계를 포함한다. 동작은 불량 프레임이 표시되지 않는 것에 응답하여, 또한 매개변수 메모리가 손상되지 않은 것에 응답하여, 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계를 포함한다. 동작은 매개변수 메모리가 손상된 것에 응답하여, 위치 측정을 기반으로, 재구성된 음원이 안정적이고 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 재구성된 음원이 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 동작은 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계를 포함한다.
본 발명의 개념의 일부 실시예에 따라, 비-일시적 컴퓨터-판독가능 저장 매체를 포함하는 컴퓨터 프로그램이 제공되고, 비-일시적 컴퓨터-판독가능 저장 매체는 디바이스에 포함된 프로세서에서 실행될 때 디바이스가 동작을 실행하게 하는 컴퓨터-실행가능 명령을 갖는다. 동작은 수신된 멀티채널 신호의 한 프레임의 멀티채널 매개변수를 디코딩하는 단계를 포함한다. 동작은 또한 불량 프레임이 표시되는가 여부를 결정하는 단계를 포함한다. 동작은 또한 불량 프레임이 표시되는 것에 응답하여 매개변수 메모리가 손상됨을 결정하는 단계를 포함한다. 동작은 불량 프레임이 표시되지 않는 것에 응답하여, 또한 매개변수 메모리가 손상되지 않은 것에 응답하여, 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계를 포함한다. 동작은 매개변수 메모리가 손상된 것에 응답하여, 위치 측정을 기반으로, 재구성된 음원이 안정적이고 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 재구성된 음원이 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 동작은 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계를 포함한다.
본 발명의 개념의 일부 실시예에 따라, 디코딩된 매개변수를 수신된 멀티채널 신호에서 추정된 매개변수로 치환하도록 구성된 장치가 제공된다. 그 장치는 적어도 하나의 프로세서, 및 그 프로세서에 통신되게 연결된 메모리를 포함하고, 상기 메모리는 프로세서에 의해 실행되고 프로세서가 동작을 실행하게 하는 명령을 포함한다. 동작은 수신된 멀티채널 신호의 한 프레임의 멀티채널 매개변수를 디코딩하는 단계를 포함한다. 동작은 또한 불량 프레임이 표시되는가 여부를 결정하는 단계를 포함한다. 동작은 또한 불량 프레임이 표시되는 것에 응답하여 매개변수 메모리가 손상됨을 결정하는 단계를 포함한다. 동작은 불량 프레임이 표시되지 않는 것에 응답하여, 또한 매개변수 메모리가 손상되지 않은 것에 응답하여, 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계를 포함한다. 동작은 매개변수 메모리가 손상된 것에 응답하여, 위치 측정을 기반으로, 재구성된 음원이 안정적이고 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 재구성된 음원이 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 동작은 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계를 포함한다.
본 발명의 개념의 다른 실시예에 따라, 수신된 멀티채널 신호에서 디코딩된 매개변수를 대체하기 위한 방법이 제공된다. 그 방법은 코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계를 포함한다. 방법은 코딩 모드가 예측 코딩 모드인 것에 응답하여, 메모리 손상 플래그가 설정되는가를 결정하는 단계를 포함한다. 방법은 메모리 손상 플래그가 설정되는 것에 응답하여, 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 방법은 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 멀티채널 중 채널의 서브세트에 주로 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계를 포함한다. 방법은 메모리 손상 플래그가 설정되지 않는 것에 응답하여, 위치 측정을 업데이트하도록 소스 위치의 위치 측정을 분석하고 저장된 멀티채널 매개변수를 디코딩된 멀티채널 매개변수로 업데이트하는 단계를 포함한다.
본 발명의 개념의 일부 다른 실시예에 따라, 통신 네트워크를 위한 디코더가 제공된다. 디코더는 프로세서 및 그 프로세서와 연결된 메모리를 갖고, 여기서 메모리는 프로세서에 의해 실행될 때 프로세서가 동작을 실행하게 하는 명령을 포함한다. 동작은 코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계를 포함한다. 동작은 코딩 모드가 예측 코딩 모드인 것에 응답하여, 메모리 손상 플래그가 설정되는가를 결정하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되는 것에 응답하여, 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 동작은 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 멀티채널 중 채널의 서브세트에 주로 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되지 않는 것에 응답하여, 위치 측정을 업데이트하도록 소스 위치의 위치 측정을 분석하고 저장된 멀티채널 매개변수를 디코딩된 멀티채널 매개변수로 업데이트하는 단계를 포함한다.
본 발명의 개념의 일부 다른 실시예에 따라, 통신 네트워크에서 동작하도록 구성된 디코더가 제공된다. 디코더는 동작을 실행하도록 적응된다. 동작은 코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계를 포함한다. 동작은 코딩 모드가 예측 코딩 모드인 것에 응답하여, 메모리 손상 플래그가 설정되는가를 결정하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되는 것에 응답하여, 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 동작은 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 멀티채널 중 채널의 서브세트에 주로 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되지 않는 것에 응답하여, 위치 측정을 업데이트하도록 소스 위치의 위치 측정을 분석하고 저장된 멀티채널 매개변수를 디코딩된 멀티채널 매개변수로 업데이트하는 단계를 포함한다.
본 발명의 개념의 일부 다른 실시예에 따라, 디바이스에 포함된 프로세서에서 실행될 때 디바이스가 동작을 실행하게 하는 컴퓨터-실행가능 명령을 포함하는 컴퓨터 프로그램이 제공된다. 동작은 코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계를 포함한다. 동작은 코딩 모드가 예측 코딩 모드인 것에 응답하여, 메모리 손상 플래그가 설정되는가를 결정하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되는 것에 응답하여, 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 동작은 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 멀티채널 중 채널의 서브세트에 주로 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되지 않는 것에 응답하여, 위치 측정을 업데이트하도록 소스 위치의 위치 측정을 분석하고 저장된 멀티채널 매개변수를 디코딩된 멀티채널 매개변수로 업데이트하는 단계를 포함한다.
본 발명의 개념의 일부 다른 실시예에 따라, 디바이스에 포함된 프로세서에서 실행될 때 디바이스가 동작을 실행하게 하는 컴퓨터-실행가능 명령을 갖는 비-일시적 컴퓨터-판독가능 저장 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다. 동작은 코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계를 포함한다. 동작은 코딩 모드가 예측 코딩 모드인 것에 응답하여, 메모리 손상 플래그가 설정되는가를 결정하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되는 것에 응답하여, 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 동작은 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 멀티채널 중 채널의 서브세트에 주로 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되지 않는 것에 응답하여, 위치 측정을 업데이트하도록 소스 위치의 위치 측정을 분석하고 저장된 멀티채널 매개변수를 디코딩된 멀티채널 매개변수로 업데이트하는 단계를 포함한다.
본 발명의 개념의 일부 다른 실시예에 따라, 디코딩된 매개변수를 수신된 멀티채널 신호에서 추정된 매개변수로 치환하도록 구성된 장치가 제공된다. 그 장치는 적어도 하나의 프로세서, 및 그 프로세서에 통신되게 연결된 메모리를 포함하고, 상기 메모리는 프로세서에 의해 실행되고 프로세서가 동작을 실행하게 하는 명령을 포함한다. 동작은 코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계를 포함한다. 동작은 코딩 모드가 예측 코딩 모드인 것에 응답하여, 메모리 손상 플래그가 설정되는가를 결정하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되는 것에 응답하여, 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 채널의 서브세트에 주로 집중되어 있는가 여부를 결정하는 단계를 포함한다. 동작은 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 멀티채널 중 채널의 서브세트에 주로 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계를 포함한다. 동작은 메모리 손상 플래그가 설정되지 않는 것에 응답하여, 위치 측정을 업데이트하도록 소스 위치의 위치 측정을 분석하고 저장된 멀티채널 매개변수를 디코딩된 멀티채널 매개변수로 업데이트하는 단계를 포함한다.
본 개시의 추가 이해를 제공하기 위해 포함되고 본 출원에 통합되고 그 일부를 구성하는 첨부 도면은 본 발명의 개념의 특정한 비-제한적 실시예를 도시한다.
도 1은 에러 전파를 설명하는 도면이다.
도 2는 일부 실시예에 따라 예측 코딩에서 에러 복구가 실행될 수 있는 디코더 시스템의 한 환경예를 설명하는 블록도이다.
도 3은 일부 실시예에 따라 스테레오 인코더 및 디코더의 구성성분을 설명하는 블록도이다.
도 4는 본 발명의 개념의 일부 실시예에 따라 디코더의 동작을 설명하는 흐름도이다.
도 5는 본 발명의 개념의 일부 실시예에 따라 에러 복구를 제공하는 디코더의 동작을 설명하는 블록도이다.
도 6은 본 발명의 개념의 일부 실시예에 따라 상태 머신(state machine)을 설명하는 블록도이다.
도 7은 본 발명의 개념의 일부 실시예에 따라 치환 매개변수를 생성하는 동작을 설명하는 블록도이다.
도 8은 본 발명의 개념의 일부 실시예에 따라 디코더를 설명하는 블록도이다.
도 9 및 도 10은 본 발명의 개념의 일부 실시예에 따라 디코더의 동작을 설명하는 흐름도이다.
도 1은 에러 전파를 설명하는 도면이다.
도 2는 일부 실시예에 따라 예측 코딩에서 에러 복구가 실행될 수 있는 디코더 시스템의 한 환경예를 설명하는 블록도이다.
도 3은 일부 실시예에 따라 스테레오 인코더 및 디코더의 구성성분을 설명하는 블록도이다.
도 4는 본 발명의 개념의 일부 실시예에 따라 디코더의 동작을 설명하는 흐름도이다.
도 5는 본 발명의 개념의 일부 실시예에 따라 에러 복구를 제공하는 디코더의 동작을 설명하는 블록도이다.
도 6은 본 발명의 개념의 일부 실시예에 따라 상태 머신(state machine)을 설명하는 블록도이다.
도 7은 본 발명의 개념의 일부 실시예에 따라 치환 매개변수를 생성하는 동작을 설명하는 블록도이다.
도 8은 본 발명의 개념의 일부 실시예에 따라 디코더를 설명하는 블록도이다.
도 9 및 도 10은 본 발명의 개념의 일부 실시예에 따라 디코더의 동작을 설명하는 흐름도이다.
본 발명의 개념은 이제 그 실시예가 도시된 첨부 도면을 참조로 이후 더욱 상세히 설명된다. 그러나, 본 발명의 개념은 많은 다른 형태로 구현될 수 있고, 여기에서 설명하는 실시예에 한정되는 것으로 해석되어서는 안 된다. 오히려, 이러한 실시예는 본 개시가 철저하고 완전하며, 종래 기술에 숙련된 자에게 본 발명의 개념의 범위를 충분히 전달하도록 제공된다. 또한, 이러한 실시예는 상호 배타적이지 않음을 주목하여야 한다. 한 실시예의 구성성분은 다른 실시예에 존재/사용되는 것으로 암묵적으로 가정될 수 있다.
다음 설명은 설명되는 주제의 다양한 실시예를 제시한다. 이들 실시예는 교시하는 예로서 제시되고 설명되는 주제의 범위를 제한하는 것으로 해석되어서는 안 된다. 예를 들면, 설명되는 실시예의 특정 세부사항은 설명되는 주제의 범위를 벗어나지 않고 수정, 생략 또는 확장될 수 있다.
설명되는 본 발명의 개념은 소스 위치에 대응하는 마지막 수신된 매개변수의 메모리를 유지한다. 디코더가 예측 코딩 스트릭에서 에러를 감지하고 위치 분석에서 음원이 안정적이고 극단적인 위치에 있음을 (즉, 음원의 위치 측정이 디코딩되는 멀티채널 신호의 멀티채널 중 채널의 서브세트에 주로 집중되어 있는) 확인하는 경우, 예측 코딩 스트릭이 절대 코딩 프레임에 의해 종료될 때까지 디코딩된 매개변수 대신 메모리로부터의 매개변수가 사용될 수 있다.
오디오 장면이 불안정하고 스테레오 매개변수에 큰 변화가 나타나는 경우, 디코딩된 매개변수를 정지된 추정 매개변수로 치환하는 것은 청취자에게 성가실 수 있다.
이러한 목적을 달성하기 위해, 한 실시예에서의 방법은 소스의 위치를 결정하는 위치 분석기, 마지막으로 관찰된 활성화 소스에 대한 매개변수를 저장하는 매개변수 메모리, 매개변수 메모리가 손상되는가를 결정하는 메모리 손상 검출기, 및 적어도 불량 프레임 표시자의 히스토리를, 추가 실시예에서는 위치 분석기의 출력을 기반으로, 매개변수 복구를 활성화하는 (디코딩된 매개변수를 메모리에 저장된 매개변수로 대체하는) 결정 메카니즘을 포함한다. 여기서, 활성화 소스는 음성 대화에서의 보이스와 같이, 재구성하고자 하는 소스를 칭한다. 소스가 비활성화 (무음) 일 때, 캡처된 사운드는 일반적으로 사운드 재구성에 덜 관련성이 있는 것으로 간주되는 배경 노이즈에 의해 지배된다. 배경 노이즈는 매개변수 설명에 큰 변화가 있는 불안정한 오디오 장면을 렌더링할 수 있는 많은 다른 소스로 구성될 수 있다. 이러한 큰 변화는 활성화 소스 위치를 추정할 때 무시되어야 한다. 따라서, 소스가 활성화 상태일 때만 위치를 추정하는 것이 유리할 수 있다.
본 발명의 개념에 의해 제공될 수 있는 한 가지 이점은 에러 없는 채널 동작에서 낭비되는 여분의 매개변수 정보를 전송하지 않고 예측 코딩 동안 채널 에러의 문제를 줄이는 것을 포함한다. 제공될 수 있는 또 다른 이점은 불안정한 오디오 장면에 대해 예측 디코딩 동작에서 매개변수 추정이 인에이블되지 않아 부자연스럽게 정지된 오디오 장면을 방지할 수 있다는 것이다. 제공될 수 있는 또 다른 이점은 소스 위치가 안정적이고 멀티채널 신호의 채널의 서브세트에 집중되어 있을 때 소스 위치에서 부자연스럽거나 원치 않는 불안정성을 줄일 수 있다는 것이다.
도 2는 여기서 설명되는 바와 같이 멀티채널 비트스트림을 디코딩하는데 사용될 수 있는 디코더(200)의 운영 환경예를 도시한다. 디코더(200)는 미디어 플레이어, 모바일 디바이스, 셋탑 디바이스, 데스크탑 컴퓨터 등의 일부가 될 수 있다. 다른 실시예에서, 디코더(200)는 독립형 서버, 클라우드-구현 서버, 분산 서버의 하드웨어 및/또는 소프트웨어로 구현되거나 서버 팜의 프로세싱 리소스로 구현될 수 있다. 예를 들어, 디코더는 클라우드-구현 원격 회의 애플리케이션의 일부가 될 수 있다. 디코더(200)는 네트워크의 운송 레이어를 통해 전송되는 인코딩된 비트스트림을 수신한다. 비트스트림은 인코더로부터, 저장 디바이스(204)로부터, 네트워크(202)를 통해 클라우드 상의 디바이스로부터 송신될 수 있다. 동작 동안, 디코더(200)는 여기서 설명되는 바와 같이 비트스트림의 프레임을 수신하고 처리한다. 디코더(200)는 멀티채널 오디오 신호를 출력하고, 멀티채널 오디오 신호의 재생을 위해 적어도 하나의 스피커를 갖는 멀티채널 오디오 플레이어(206)에 멀티채널 오디오 신호를 전송할 수 있다. 저장 디바이스(204)는 상점 또는 스트리밍 음악 서비스의 저장소, 별도의 저장 구성성분, 모바일 디바이스의 구성성분 등과 같은 멀티채널 오디오 신호의 저장소 일부가 될 수 있다. 멀티채널 오디오 플레이어는 블루투스 스피커, 적어도 하나의 스피커를 갖는 디바이스, 모바일 디바이스, 스트리밍 음악 서비스 등이 될 수 있다.
파라메트릭 스테레오 재생은 낮은 비트비율에서 좋은 품질을 제공하지만, 파라메트릭 모델의 제한으로 인해 비트비율을 증가시켜 품질이 포화되는 경향이 있다. 이러한 문제를 해결하기 위해, 비-상관된 구성성분이 인코딩될 수 있다. 이 인코딩은 인코더에서 스테레오 재구성을 시뮬레이션하고 입력 채널에서 재구성된 신호를 빼서 잔여 신호를 생성함으로써 달성된다. 다운-믹스 변환이 복귀가능하면, 잔여 신호는 스테레오 채널의 경우 단일 채널로만 표현될 수 있다. 일반적으로, 잔여 신호 인코딩은 심리음향적으로 더 관련성이 높은 낮은 주파수를 대상으로 하는 반면, 높은 주파수는 역상관기 방법으로 합성할 수 있다. 도 3은 잔여 코더를 포함하는 파라메트릭 스테레오 코덱에 대한 셋업의 한 실시예를 도시하는 블록도이다. 도 3에서, 인코더(310)는 입력 신호를 수신하고, 스테레오 프로세싱 및 다운-믹스 블록(312)에서 상기에 설명된 프로세싱을 실행하고, 다운-믹스 인코더(314)를 통해 출력을 인코딩하고, 잔여 인코더(316)를 통해 잔여 신호를 인코딩하고, 또한 매개변수 인코더(318)를 통해 ITD, IPD, ILD, 및 ICC 매개변수를 인코딩할 수 있다. 디코더(320)는 인코딩된 출력, 인코딩된 잔여 신호, 및 인코딩된 매개변수를 수신할 수 있다. 디코더(320)는 잔여 디코더(326)를 통해 잔여 신호를 디코딩하고, 다운-믹스 디코더(324)를 통해 다운-믹스 신호를 디코딩할 수 있다. 매개변수 디코더(328)는 인코딩된 매개변수를 디코딩할 수 있다. 스테레오 합성기(322)는 디코딩된 출력 신호 및 디코딩된 잔여 신호를 수신하고, 디코딩 매개변수를 기반으로, 스테레오 채널 CH1 및 CH2를 출력할 수 있다.
도 8은 본 발명의 개념의 일부 실시예에 따른 예측 코딩 모드에서 멀티채널 오디오 프레임을 디코딩하고 손실되거나 손상된 프레임에 대한 에러 복구를 제공하도록 구성된 디코더(200)의 요소를 도시하는 블록도이다. 도시된 바와 같이, 디코더(200)는 다른 디바이스/엔터티/기능 등과의 통신을 제공하도록 구성된 네트워크 인터페이스 회로(805)를 (네트워크 인터페이스라고도 칭하여지는) 포함할 수 있다. 디코더(200)는 또한 네트워크 인터페이스 회로(805)에 연결된 프로세서 회로(801) (프로세서라고도 칭하여지는), 및 프로세서 회로에 연결된 메모리 회로(803)를 (메모리라고도 칭하여지는) 포함할 수 있다. 메모리 회로(803)는 프로세서 회로(801)에 의해 실행될 때 프로세서 회로가 여기서 설명된 실시예에 따른 동작을 실행하게 하는 컴퓨터 판독가능 프로그램 코드를 포함할 수 있다.
다른 실시예에 따라, 프로세서 회로(801)는 별도의 메모리 회로가 요구되지 않도록 메모리를 포함하게 정의될 수 있다. 여기서 논의되는 바와 같이, 디코더(200)의 동작은 프로세싱 회로(801) (프로세서라도고 칭하여지는) 및/또는 네트워크 인터페이스 회로(805)에 (네트워크 인터페이스라도고 칭하여지는) 의해 실행될 수 있다. 예를 들어, 프로세싱 회로(801)는 네트워크 인터페이스(805)를 제어하여 멀티채널 오디오 플레이어(206)에 통신을 전송하고 또한/또는 인코더 노드, 저장소 서버 등과 같은 하나 이상의 다른 네트워크 노드/엔터티/서버로부터 네트워크 인터페이스(805)를 통해 통신을 수신할 수 있다. 또한, 모듈은 메모리 회로(803)에 저장될 수 있고, 이러한 모듈은 모듈의 명령이 프로세싱 회로(801)에 의해 실행될 때 프로세싱 회로(801)가 각각의 동작을 실행하도록 명령을 제공할 수 있다.
다음 설명에서는 도 3에 개요가 설명된 스테레오 인코더 및 디코더 시스템의 스테레오 디코더가 사용될 수 있다. 실시예를 설명하기 위해 2개의 채널이 사용될 것이다. 이러한 실시예는 2개 이상의 채널과 함께 사용될 수 있다. 멀티채널 인코더(310)는 입력된 좌우 채널을 프레임이라 칭하여지는 세그먼트(segment)로 처리할 수 있다. 스테레오 분석 및 다운-믹스 블록(312)은 파라메트릭 분석을 수행하고 다-운믹스를 생성할 수 있다. 주어진 프레임 m에 대해, 두개의 입력 채널은 다음과 같이 기록될 수 있다.
여기서, l은 좌측 채널을 나타내고, r은 우측 채널을 나타내고, n = 0,1,2,...,N은 프레임 m에서 샘플 수를 나타내고, 또한 N은 프레임의 길이이다. 한 실시예에서, 프레임은 디코더가 오버랩 추가 전략을 사용하여 멀티채널 오디오 신호를 재구성할 수 있도록 인코더에서 오버랩과 함께 추출될 수 있다. 입력 채널은 적절한 윈도우 함수(window function) w(n)로 윈도우 처리되고 이산 푸리에 변환(Discrete Fourier Transform, DFT) 도메인으로 변환될 수 있다.
여기서는 직각 미러 필터(Quadrature Mirror Filter, QMF) 필터 뱅크, 하이브리드 QMF 필터 뱅크, 또는 수정된 이산 코사인 변환(modified discrete cosine transform, MDCT) 및 수정된 이산 사인 변환(modified discrete sine transform, MDST)으로 구성된 홀수 DFT(odd DFT, ODFT) 표현과 같은 다른 주파수 도메인 표현이 사용될 수 있음을 주목한다.
파라메트릭 분석에서, 주파수 스펙트럼은 대역 b로 분할될 수 있고, 여기서 각 대역 b는 주파수 계수의 범위에 대응한다.
k = kstart(b) ... kend(b), b = 0,1,2,... Nbands -1
여기서, Nbands는 대역의 총 수를 나타낸다. 대역 제한은 일반적으로 낮은 주파수에 대해 좁은 대역을 제안하고 높은 주파수에 대해 더 넓은 대역을 제안하는 인간 청각 인식의 분해능를 반영하도록 설정된다. 다른 매개변수에 대해 다른 대역 분해능이 사용될 수 있음을 주목한다.
이어서, 신호는 ITD, IPD 및 ILD 매개변수를 추출하도록 분석될 수 있다. ILD는 사운드의 인지된 위치에 상당한 영향을 미칠 수 있음을 주목한다. 그러므로, 일부 실시예에서, 사운드의 안정적이고 정확한 위치를 유지하기 위해 높은 정확도로 ILD 매개변수를 재구성하는 것이 중요할 수 있다.
부가하여, 채널 일관성이 분석될 수 있고, ICC 매개변수가 유도될 수 있다. 프레임 m에 대한 멀티채널 오디오 매개변수의 세트는 파라메트릭 표현에서 사용되는 ITD, IPD, ILD 및 ICC 매개변수의 완전한 세트를 포함할 수 있다. 매개변수는 매개변수 인코더(318)에 의해 인코딩되고 비트스트림에 추가되어 디코더에 저장 및/또는 전송될 수 있다.
다운-믹스 채널을 생성하기 전에, 한 실시예에서는 상쇄를 감소시키고 다운-믹스의 에너지를 최대화하기 위해 ITD 및 IPD를 보상하는 것이 유리할 수 있다. ITD 보상은 주파수 변환 이전의 시간 도메인 또는 주파수 도메인 모두에서 구현될 수 있지만, 기본적으로 ITD를 제거하기 위해 하나 또는 두 채널 모두에서 시간 쉬프트를 실행한다. 위상 정렬은 다른 방법으로 구현될 수 있지만, 그 목적은 상쇄가 최소화되도록 위상을 정렬하는 것이다. 이는 다운-믹스에서 최대 에너지를 보장한다. ITD 및 IPD 조정은 주파수 대역에서 수행되거나 전체 주파수 스펙트럼에서 수행될 수 있고, 조정은 디코더 스테이지에서 수정이 반전될 수 있음을 보장하기 위해 양자화된 ITD 및 IPD 매개변수를 사용하여 수행될 수 있다.
이후 설명되는 실시예는 IPD 및 ITD 매개변수 분석 및 보상의 실현과 무관하다. 다른 말로 하면, 실시예는 IPD 및 ITP가 분석 또는 보상되는 방법에 의존하지 않는다. 이러한 실시예에서, ITD 및 IPD 조정 채널은 (')로 표시될 수 있다:
이어서, ITD 및 IPD 조정 입력 채널은 파라메트릭 분석 및 다운-믹스 블록(312)에 의해 다운-믹스되어, 다운-믹스/사이드(down-mix/side) 표현이라고도 칭하여지는, 미드/사이드(mid/side) 표현을 생성할 수 있다. 다운-믹스를 실행하는 한 가지 방법은 신호의 합과 차를 사용하는 것이다:
다운-믹스 신호 XM(m,k)는 다운-믹스 인코더(314)에 의해 인코딩되어 디코더에 저장 및/또는 전송될 수 있다. 이 인코딩은 주파수 도메인에서 수행될 수 있지만, 시간 도메인에서도 수행될 수 있다. 후자의 경우, 다운-믹스 신호의 시간 도메인 버전을 생성하기 위해 DFT 합성 스테이지가 요구되며, 이는 차례로 다운-믹스 인코더(314)에 제공된다. 그러나 시간 도메인으로의 변환은 추가 처리를 요구하는 멀티채널 오디오 매개변수와 지연 오정렬을 도입할 수 있다. 한 실시예에서, 이러한 지연 오정렬은 추가 지연을 도입함으로서 또는 멀티채널 오디오 매개변수 및 다운-믹스의 디코더 합성이 정렬됨을 보장하도록 매개변수를 보간함으로서 해결된다.
사이드 신호 XS(m,k)의 재구성은 로컬 파라메트릭 합성을 통해 다운-믹스 및 획득된 멀티채널 오디오 매개변수로부터 생성될 수 있다. 사이드 신호 예측 는 다운-믹스 신호를 사용하여 유도될 수 있다.
여기서, p(.)는 예측 함수이고 사이드 신호와 예측된 사이드 신호 사이의 평균 제곱 에러(MSE)를 최소화하는 단일 스케일링 인자 α로 구현될 수 있다. 또한, 예측은 주파수 대역에서 적용될 수 있고 각 주파수 대역 b에 대한 예측 매개변수를 포함할 수 있다.
그러나, 이 표현식은 보다 안정적인 예측 매개변수를 생성하기 위해 단순화될 수 있다. 예측 매개변수 αb는 레벨 차이를 나타내지 않지만, 좌측 및 우측 채널로 라우팅되는 다운-믹스 신호의 일부를 제어할 수 있다. 따라서, ILD 매개변수에 대해, 예측 매개변수 αb(m)은 인지된 사운드 위치에 상당한 영향을 미칠 수 있다. 더 상세한 내용은 Breebaart, J., Herre, J., Faller, C., Roden, J., Myburg, F., Disch, S., ... & Oomen, W. (2005). "MPEG 공간 오디오 코딩/MPEG 서라운드: 개요 및 현황 (MPEG spatial audio coding/MPEG surround: Overview and current status)", 2005 In Preprint 119th Conv. Aud. Eng. Soc. (No. LCAV-CONF-2005-029)의 예측 모드에서 설명된다. 예측 매개변수 αb(m)은 프레임간 예측 코딩 방식을 사용하여 차례로 인코딩되고, 여기서는 프레임 m 사이의 차이가 고려된다. 각 대역 b에 대해, 이전 프레임의 재구성된 매개변수 으로부터의 차이가 계산될 수 있다.
인코더는 αb(m) 또는 Δαb(m) 중 어느 것이 가장 낮은 비트 소비를 산출하는지에 따라 인코딩하도록 선택할 수 있다. 한 실시예에서, αb(m) 및 Δαb(m)은 양자화기 인덱스에서 엔트로피 코더로 이어지는 스칼라 양자화기를 사용하여 양자화될 수 있다. 산술 코딩, 허프만 코딩(Huffman coding) 및 골롬-라이스 코딩(Golomb-Rice coding)이 엔트로피 코더로 사용될 수 있는 코딩의 예이다. 엔트로피 코더는 작은 변형, 즉 Δαb(m)의 작은 값에 더 작은 코드어를 지정한다. 이는 Δαb(m)을 사용한 예측 코딩이 안정적인 오디오 장면에 사용될 수 있음을 의미한다. 빠른 장면 변경으로 인해 큰 Δαb(m)이 발생하는 경우, 비-예측 또는 절대 인코딩 방식을 사용하여 αb(m)의 인코딩을 위한 비트 소비를 낮출 수 있다. 따라서, 인코딩 방식은 두 가지 모드를 가질 수 있다:
1) 절대(ABSOLUTE) : αb(m)의 인코딩, 및
2) 예측(PREDICTIVE) : Δαb(m)의 인코딩.
이러한 인코딩 방식의 추가 변형이 가능하다. 예를 들어, 예측 매개변수 αb(m)이 잔여 코딩 에너지 또는 대응하는 표현과 같은 또 다른 매개변수와 높은 상관관계를 나타내면, 이들 매개변수를 공동으로 인코딩하는 것이 유리할 수 있다. 중요한 부분은 인코딩 방식이 예측 코딩 모드 및 절대(비-예측) 코딩 모드를 가질 때 이러한 결정이 인코딩되어 디코더에 시그널링 된다는 것이다. 연속적인 PREDICTIVE 코딩 모드의 시퀀스는 "예측 코딩 스트릭(predictive coding streak)" 또는 "예측 스트릭"이라 칭하여질 수 있고, 장면이 안정적인 오디오 세그먼트에 대해 관찰될 수 있다. 예측 스트릭이 시작될 때 오디오 프레임이 손실되면, 전체적인 스트릭 동안 매개변수에 에러 전파가 발생될 수 있다 (그림 1을 참조). 에러 전파의 영향을 줄이기 위해, ABSOLUTE 코딩이 규칙적인 간격으로 강제 실행될 수 있고, 이는 예측 스트릭을 최대 길이의 시간에서 효과적으로 제한한다.
디코딩 단계는 인코딩 단계와 유사할 수 있다. 디코더에서:
재구성된 값에 대해 예측 코딩이 설명되지만, 양자화기 인덱스에서 예측 코딩 단계를 수행하는 것도 또한 가능함을 주목하여야 한다. 그러나, 메모리 종속성의 원칙은 동일하게 유지된다.
에러 없는 동작 동안, 인코더에서의 로컬 재구성은 디코더에서 재구성된 매개변수 과 동일하다. 또한, 메모리 는 프레임 m-1, 에 대해 재구성된 매개변수 값과 동일하게 됨을 주목한다. 첫 번째 프레임의 경우, 매개변수 메모리는 일부 미리 정의된 값으로, 예를 들면 모두 0 또는 매개변수의 평균 기대값으로 설정될 수 있다.
이제 잔여 코딩에 대한 상세 내용이 논의된다. 예측된 사이드 신호가 주어지면, 예측 잔여 XR(m,k)가 생성될 수 있다.
예측 잔여는 잔여 인코더(316)에 입력될 수 있다. 인코딩은 DFT 도메인에서 직접 수행되거나 시간 도메인에서 수행될 수 있다. 유사하게, 다운-믹스 인코더의 경우, 시간 도메인 인코더는 디코더에서 신호의 정렬을 요구할 수 있는 DFT 합성을 요구한다. 잔여 신호는 다운-믹스 신호와 상관되지 않는 확산 구성성분을 나타낸다. 잔여 신호가 전송되지 않는 경우, 한 실시예의 솔루션은 디코더에서 스테레오 합성 상태의 잔여 신호에 대한 신호를 디코딩된 다운-믹스 신호의 역상관된 버전으로부터 오는 신호로 치환하는 것이 될 수 있다. 치환은 일반적으로 비트 버짓(bit budget)이 너무 낮아 유용한 분해능으로 잔여 신호를 나타낼 수 없는 낮은 비트비율에서 사용된다. 중간 비트비율의 경우에는 잔여 중 일부를 인코딩하는 것이 일반적일 수 있다. 이 경우, 더 낮은 주파수는 지각적으로 더 관련이 있을 수 있기 때문에 종종 인코딩된다. 스펙트럼의 나머지 부분에 대해, 역상관기 신호는 디코더에서 잔여 신호에 대한 대체물로 사용될 수 있다. 이 접근 방식은 때로 하이브리드 코딩(hybrid coding) 모드라고 칭하여진다. 더 자세한 내용은 이후 디코더 설명에서 제공된다.
인코딩된 다운-믹스의 표현, 인코딩된 멀티채널 오디오 매개변수, 및 인코딩된 잔여 신호는 비트스트림으로 (도시되지 않은) 멀티플렉싱 될 수 있고, 이는 디코더(320)로 전송되거나 향후 디코딩을 위해 매체에 저장될 수 있다.
디코더 내에서, 다운-믹스 디코더(328)는 DFT 분석 프레임 m으로 분할되고 n = 0,1,2,…,N-1이 프레임 m 내의 샘플 수를 나타내는 재구성된 다운-믹스 신호 을 제공할 수 있다. 분석 프레임은 일반적으로 DFT 합성 스테이지에서 오버랩-추가 전략을 허용하는 오버랩으로 추출된다. 대응하는 DFT 스펙트럼은 DFT 변환을 통해 획득될 수 있다.
여기서, w(n)은 적절한 윈도우 함수를 나타낸다. 윈도우 함수의 형상은 주파수 특성 및 오버랩 영역의 길이로 인한 알고리즘 지연 사이의 균형을 사용하여 설계될 수 있다. 유사하게, 잔여 디코더(326)는 프레임 m 및 시간 인스턴스 n = 0,1,2,…NR-1에 대해 재구성된 잔여 신호 을 생성한다. 프레임 길이 NR은 잔여 신호가 다른 샘플링 비율로 생성될 수 있기 때문에 N과 다를 수 있음을 주목한다. 잔여 코딩은 더 낮은 주파수 범위만을 대상으로 할 수 있으므로, 메모리 및 계산 복잡성을 줄이기 위해 더 낮은 샘플링 비율로 이를 표현하는 것이 유리할 수 있다. 잔여 신호 의 DFT 표현이 획득된다. 잔여 신호가 재구성된 다운-믹스와 동일한 샘플링 비율로 DFT 도메인에서 업샘플링되면, DFT 계수는 N/NR로 스케일링될 필요가 있고 는 길이 N을 매칭시키도록 제로-패딩(zero-padding) 된다. 표기를 단순화하기 위해, 또한 실시예가 다른 샘플링 비율의 사용에 의해 영향을 받지 않기 때문에, 더 나은 이해를 위해, 다음 설명에서는 샘플링 비율이 동일하게 NR = N이 된다. 따라서 스케일링 또는 제로-패딩이 표시되지 않는다.
다운-믹스 및/또는 잔여 신호가 DFT 도메인에서 인코딩되는 경우 DFT에 의한 주파수 변환이 필요하지 않음을 주목하여야 한다. 이 경우, 다운-믹스 및/또는 잔여 신호의 디코딩은 추가 프로세싱에 필요한 DFT 스펙트럼을 제공한다.
때로 양호한 프레임이라고 칭하여지는 에러 없는 프레임에서, 멀티채널 오디오 디코더는 디코딩된 잔여 신호와 조합하여 디코딩된 멀티채널 오디오 매개변수와 함께 디코딩된 다운-믹스 신호를 사용하여 멀티채널 합성을 생성할 수 있다. 예측 매개변수 αb(m)의 경우, 디코더는 모드 매개변수 αmode(m)을 사용하여 적절한 디코딩 모드를 선택하고 재구성된 예측 매개변수 를 생성할 수 있다.
디코딩된 다운-믹스 , 스테레오 매개변수, 및 잔여 신호 는 파라메트릭 스테레오 합성 블록(322)으로 공급되어 재구성된 스테레오 신호를 생성한다. DFT 영역의 스테레오 합성이 적용된 후, 좌측 및 우측 채널은 시간 도메인으로 변환되어 스테레오 디코더에서 출력된다.
디코더가 손실되거나 손상된 프레임을 감지하는 경우, 디코더는 하나 또는 여러 PLC 모듈을 사용하여 누락된 데이터를 은닉시킬 수 있다. 누락된 정보를 대체하기 위해, 예를 들어 다운-믹스 디코더, 잔여 디코더 또는 매개변수 디코더의 일부로, 여러 전용 PLC 기술이 있을 수 있다. PLC의 목표는 누락된 오디오 세그먼트와 유사한 외삽 오디오 세그먼트를 생성하고, 손실되거나 손상된 프레임 전후에 올바르게 디코딩된 오디오 사이의 원활한 전환을 보장하는 것이다.
스테레오 매개변수에 대한 PLC 방법은 다를 수 있다. 한 예는 이전에 디코딩된 프레임의 매개변수를 단순히 반복하는 것이다. 또 다른 방법은 대규모 오디오 데이터베이스에서 관찰된 평균 스테레오 매개변수를 사용하거나, 연속 프레임 손실에 (버스트(burst) 손실) 대한 평균 스테레오 매개변수로 천천히 수렴하는 것이다. PLC 방법은 매개변수 메모리를 은닉 매개변수로 업데이트하거나, 마지막으로 디코딩된 매개변수가 남아 있도록 매개변수 메모리를 그대로 둘 수 있다. 어떠한 경우든, 메모리는 인코더와 관련하여 동기화되지 않는다.
도 4를 참조로, 예측 파라메트릭 코딩 복구의 실시예에서 디코더 동작의 흐름도가 제공된다. 동작(400)에서 불량 프레임 표시자(BFI)를 통해 불량 프레임이 표시되면, 디코더는 동작(402)에서 패킷 손실 은닉 방법을 사용할 수 있고 일부 실시예에서는 동작(404)에서 디코딩된 매개변수의 메모리에 손상을 나타내는 플래그를 설정할 수 있다 (예를 들면, αmemory_corrupted_flag := TRUE). BFI가 활성화되지 않으면, 동작(406)에서 정상적인 디코딩이 사용된다. 정상적인 디코딩 이후, 매개변수 복구 동작(408)이 실행된다.
보다 상세하게, 에러 없는 디코딩 동작은 도 5에 의해 개략적으로 설명된 바와 같이 설명될 수 있다. 도 5는 도 3의 스테레오 디코더 블록(320)과 비교될 수 있다. 도 5는 다운-믹스 디코더(510) 및 선택적으로 잔여 디코더(520)를 제공한다. 디코더는 이후 더 상세히 설명되는 매개변수 복구(530)를 포함한 매개변수 디코더를 갖는다.
매개변수 디코더(532)는 절대 코딩 모드 또는 예측 코딩 모드를 사용하여 스테레오 매개변수의 디코딩을 실행할 수 있다. 이후의 설명에서, 재구성된 사이드 신호 예측 매개변수 는 에러 복구 방법에 사용된다. 위치 분석기 블록(538)에서는 소스의 위치를 나타내는 위치 측정이 유도된다. 위치 측정의 한 예는 각 프레임에 대한 모든 서브-대역에 걸쳐 재구성된 예측 매개변수 의 평균 을 사용하는 것이다.
복구 솔루션은 위치가 극단적이고 정적일 때 (또는 안정적일 때) 활성화된다. 극단적 위치는 특정 채널이나 방향으로 신호 전력이 집중되는 것으로 분명해질 수 있고, 여기서는 집중된 에너지 방향의 쉬프트가 인지된 위치에 큰 영향을 미친다. 예를 들어, 스테레오 신호에서, 극단 위치는 좌측 또는 우측 채널에 집중된 소스를 나타낸다. 다른 말로 하면, 소스의 (예를 들면, 재구성된 소스 신호) 위치 측정은 주로 멀티채널 중 채널의 서브세트에 집중된다. 스테레오 신호의 경우, 소스의 위치 측정은 주로 두 채널 중 하나에 집중된다. 활성화 메카니즘은 저역-통과 필터링된 위치를 기반으로 할 수 있다. 예를 들면,
필터 매개변수 γ에 대한 적절한 값은 γ=0.425이거나 [0.3, 0.7] 범위에 있을 수 있다. 극한 위치 결정 P(m)은 저역-통과 필터링된 위치를 고정 임계값과 비교함으로서 형성될 수 있다.
여기서 는 매개변수 의 범위에 의존한다. 또한, αb의 범위, 결과적으로 는 [-1.0, 1.0]이고, 에 대한 적절한 값은 0.4이다. 다른 말로 하면, 1과 동일한 P(m)은 음원이 좌측 또는 우측 채널로 패닝(panning) 되어 극단적인 위치에 있는 안정적인 소스임을 나타낸다. 따라서, 가 0.4인 경우, 의 값이 0.4 보다 크거나 -0.4 보다 작으면 (즉, ), 음원이 극단적 위치에 있음을 나타낸다 (예를 들면, 위치 측정이 주로 좌측 채널 또는 우측 채널에 집중된다). 에 대한 값은 다른 값으로 설정될 수 있다.
상기에 설명된 위치 측정은 계산적으로 간단한 구현인 솔루션을 제공한다. 그러나, 다운-믹스의 대역 에너지를 고려하는 매개변수 차이의 가중치를 포함하는 것이 지각적 관점에서 의미가 있을 수 있다. 또한, 가중치 계수는 가 [-0.1, 0.1] 범위를 유지하도록 [0.0, 1.0] 범위로 정규화될 수 있다. 그러므로, 위치에 대한 대체 표현은 다음과 같을 수 있다:
여기서, 는 가중화된 위치 측정으로, 각 프레임 m에 대한 모든 서브-대역에 걸쳐 재구성된 예측 매개변수 의 가중화된 평균을 포함하고, Nbands는 프레임 m에 있는 서브-대역의 수이고, wb(m) 및 은 가중화 계수이고, kend(b)는 합의 수의 끝이고, kstart(b)는 합의 수의 시작이고, 또한 는 변환된 다운-믹스 신호이다.
상기의 표현은 패닝 측정 에서 높은 에너지 대역을 강조한다. 에 가중치를 적용하면, 필터 매개변수 γ를 다시 최적화해야 할 수 있다. 활성 소스에서 오는 것으로 분류된 프레임 동안에만 위치 측정을 업데이트하거나, 현재 피크 에너지 또는 노이즈 플로어(noise floor) 레벨의 추정으로 가중치를 정규화하는 것이 더 바람직할 수 있다.
복구 결정 로직은 메모리 손상 검출기(536) 및 위치 분석기(538)로부터의 출력에 의존한다. 메모리 손상 검출기(536)는 적어도 메모리 손상 검출에서 매개변수 (예측/절대) 및 불량 프레임 표시기(BFI)의 코딩 모드를 사용할 수 있다. 복구 결정 로직은 도 6에 개요가 설명된 바와 같이 상태 머신에 의해 추가로 설명될 수 있다.
도 6을 참조로, 시작 상태(610)는 일반적인 디코딩 모드를 나타낸다. 디코더가 예측 모드 αmode = PREDICTIVE에 있고, 이전 프레임이 기술적으로 매개변수의 메모리 가 손상된 것을 의미하는 (αmemory_corrupted_flag := TRUE) 불량 프레임이었고, 또한 오디오가 극단적이고 안정적인 위치를 () 가지는 경우, 복구 단계(620)로 들어간다. 복구 단계(620)에 있는 동안 디코더가 절대 디코딩 모드 αmode = ABSOLUTE로 들어가는 경우, 정상적인 디코딩 상태(610)로 진입된다.
복구 상태(620)에서, 디코딩된 매개변수는 메모리에 저장된 매개변수로 치환된다.
다시 도 5를 참조로, 매개변수 복구 블록(530)을 포함하는 매개변수 디코더의 출력은 다운-믹스 디코더 블록(510) 및 잠재적으로 잔여 디코더 블록(520)의 출력과 함께 스테레오 합성기 블록(540)에 입력되고, 스테레오 합성기 블록(540)는 채널 CH1 및/또는 CH2에서 출력할 오디오 신호를 합성한다.
매개변수 복구의 동작은 또한 도 7의 흐름도에 의해 설명될 수 있다. 이제 도 7을 참조로, 동작(710)에서, 코딩 모드가 절대 또는 예측인지를 결정하기 위해 αmode(m) 매개변수가 점검될 수 있다.
코딩 모드가 절대 코딩 모드인 것에 응답하여, 동작(720)에서는 메모리 손상을 나타내는 플래그가 설정 해제, 예를 들어 αmemory_corrupted_flag := FALSE가 될 수 있다.
코딩 모드가 예측 코딩 모드인 것에 응답하여, 동작(730)에서는 메모리 상태가 점검될 수 있다. 매개변수 메모리가 손상되지 않았으면 (예를 들어, αmemory_corrupted_flag := FALSE), 동작(740)에서 음원의 위치가 분석될 수 있다. 즉, 이 업데이트될 수 있다.
동작(750)에서, 디코딩된 매개변수의 메모리가 업데이트될 수 있다. 매개변수 메모리가 손상되는 것에 응답하여 (예를 들어, αmemory_corrupted_flag := TRUE), 동작(760)에서는 음원이 극단적 위치를 갖는 (예를 들어, 위치 측정이 주로 멀티채널 시스템의 채널의 서브세트에 집중되어 있음을 나타내는 ) 안정적인 음원인가를 결정한다.
동작(770)에서, 음원이 극단적 위치를 갖는 안정적인 음원인 것에 응답하여, 디코딩된 매개변수는 디코딩된 매개변수의 메모리로 치환된다.
매개변수 복구를 갖는 디코더의 동작은 또한 도 9의 흐름도에 의해 설명될 수 있다. 동작(900)에서, 디코더(200)의 프로세싱 회로(801)는 수신된 멀티채널 신호의 프레임의 멀티채널 매개변수를 디코딩할 수 있다. 이 동작은 도 4의 동작(406)과 유사할 수 있다. 동작(902)에서, 디코더(200)는 불량 프레임이 되는가 여부를 결정할 수 있다. 이 동작은 도 4의 동작(400)과 유사할 수 있다. 한 실시예에서, 이는 데이터 패킷 메시지에서의 플래그로부터 유도된 플래그가 될 수 있다.
불량 프레임이 표시되는 것에 응답하여, 프로세싱 회로(801)는 동작(904)에서 패킷 손실 은닉 동작을 실행할 수 있다. 이 동작은 도 4의 동작(402)과 유사할 수 있다. 예를 들어, 도 3과 관련하여 상기에 설명된 패킷 손실 은닉 동작은 동작(904)에서 실행될 수 있다.
동작(906)에서, 프로세싱 회로(801)는 적어도 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 매개변수 메모리가 손상되었나 여부를 결정할 수 있다. 이 동작은 도 7의 동작(730)과 유사할 수 있다. 한 실시예에서, 코딩 모드는 절대 코딩 모드 또는 예측 코딩 모드 중 하나가 될 수 있다. 이 실시예에서는 결정하는 단계가 예측 코딩 모드인 코딩 모드를 기반으로 한다. 따라서, 적어도 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 매개변수 메모리가 손상되었나 여부를 결정하는 단계는 예측 코딩 모드인 코딩 모드 및 이전의 불량 프레임 표시자를 기반으로 하여 결정된다.
동작(908)에서, 프로세싱 회로(801)는 디코딩된 멀티채널 매개변수를 기반으로 소스 위치의 위치 측정을 유도할 수 있다. 이 동작은 도 7의 동작(740)과 유사할 수 있다. 한 실시예에서, 위치 측정은 다음을 기반으로 유도될 수 있다.
다른 실시예에서, 위치 측정은 다음을 기반으로 유도될 수 있다.
여기서, 는 위치 측정으로, 각 프레임 m에 대한 모든 서브-대역에 걸쳐 재구성된 예측 매개변수 의 가중화된 평균을 포함하고, Nbands는 프레임 m에 있는 서브-대역의 수이고, wb(m) 및 은 가중화 계수이고, kend(b)는 합의 수의 끝이고, kstart(b)는 합의 수의 시작이고, 또한 는 변환된 다운-믹스 신호이다.
동작(910)에서, 프로세싱 회로(801)는 재구성된 음원이 안정적이고 위치 측정이 주로 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정할 수 있다. 이 동작은 도 7의 동작(760)과 유사할 수 있다. 한 실시예에서, 재구성된 음원이 안정적이고 위치 측정이 주로 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는 저역-통과 필터링된 위치가 임계값 이상인가 여부를 결정하는 단계, 및 저역-통과 필터링된 위치가 임계값 이상인 것에 응답하여, 위치 측정이 주로 멀티채널 중 채널의 서브세트에 집중되어 있음을 결정하는 단계를 포함한다. 저역-통과 필터링된 위치는 다음을 기반으로 결정될 수 있다.
멀티채널이 2개의 채널일 때 (예를 들어, 좌측 및 우측 채널을 갖는 스테레오 시스템), 위치 측정이 주로 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는 위치 측정이 주로 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계를 포함한다.
동작(912)에서, 프로세싱 회로(801)는 재구성된 음원의 위치 측정이 멀티채널 중 채널의 서브세트에 집중되고 재구성된 음원이 안정적이고 매개변수 메모리가 손상되는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화할 수 있다. 이 동작은 도 7의 동작(770)과 유사할 수 있다.
매개변수 복구를 포함하는 디코더의 작동은 도 10의 흐름도에 의해 더 설명될 수 있다.
불량 프레임이 표시되면, 하나 이상의 PLC 방법이 매개변수를 결정하는데 사용된다. 불량 프레임은 불량 프레임이 수신되었음을 시그널링하는 BFI 플래그에 의해 표시될 수 있다. 동작(1000)에서, 프로세싱 회로(801)는 불량 프레임이 표시되는 것에 응답하여, 매개변수의 메모리가 손상되었음을 나타내기 위해 메모리 손상 플래그를 설정할 수 있다.
불량 프레임이 표시되지 않은 경우, 매개변수 복구를 포함하는 매개변수 디코더 동작이 사용된다. 동작(1002)에서, 디코더(200)의 프로세싱 회로(801)는 코딩 모드가 절대 디코딩 모드 또는 예측 코딩 모드인가를 결정할 수 있다. 디코더(200)는 인코더로부터 코딩 모드를 수신할 수 있다. 이 동작은 도 7의 동작(710)과 유사할 수 있다.
코딩 모드가 절대 코딩 모드인 것에 응답하여, 동작(1004)에서 프로세싱 회로(801)는 메모리 손상 플래그를 설정 해제한다. 메모리 손상 플래그는 매개변수의 메모리가 손상되었음을 나타내는데 사용될 수 있다. 이는 현재 디코딩 중인 프레임의 이전 프레임이 불량 프레임인 경우 발생될 수 있고, 매개변수의 메모리가 손상되었음을 의미한다. 메모리 손상 플래그를 설정하는 한 예는 또한 도 4에서 설명된다.
코딩 모드가 예측 코딩 모드인 것에 응답하여, 동작(1006)에서 프로세싱 회로(801)는 메모리 손상 플래그가 설정되었나를 결정할 수 있다. 이 동작은 도 7의 동작(730)과 유사할 수 있다.
메모리 손상 플래그가 설정된 것에 응답하여, 동작(1008)에서 프로세싱 회로(801)는 재구성된 음원이 안정적인 음원인지 여부와 재구성된 음원의 위치 측정이 주로 디코딩되는 멀티채널 신호의 채널의 서브세트에 집중되어 있는가 여부를 결정할 수 있다. 이 동작은 도 7의 동작(760)과 유사할 수 있다. 한 실시예에서, 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 이 단계는 저역-통과 필터링된 위치의 절대값이 임계값 이상인가 여부를 결정하는 단계, 및 저역-통과 필터링된 위치의 절대값이 임계값 이상인 것에 응답하여, 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있음을 결정하는 단계를 포함한다. 저역-통과 필터링된 위치는 다음을 기반으로 결정될 수 있다.
멀티채널이 2개의 채널일 때 (예를 들어, 좌측 및 우측 채널을 갖는 스테레오 시스템), 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는 재구성된 음원의 위치 측정이 주로 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계를 포함한다.
동작(1010)에서, 프로세싱 회로(801)는 재구성된 음원이 안정적인 소스이고 재구성된 음원의 위치 측정이 주로 멀티채널 중 채널의 서브세트에 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환할 수 있다. 이 동작은 도 7의 동작(770)과 유사할 수 있다.
메모리 손상 플래그가 설정되지 않은 것에 응답하여, 프로세싱 회로(801)는 동작(1012)에서 위치 측정을 업데이트하기 위해 소스 위치의 위치 측정을 분석할 수 있다. 이 동작은 도 7의 동작(740)과 유사할 수 있다. 한 실시예에서, 위치 측정을 업데이트하는 것은 다음을 기반으로 위치 측정을 업데이트할 수 있다.
다른 실시예에서, 위치 측정을 업데이트하는 것은 다음을 기반으로 위치 측정을 업데이트할 수 있다.
여기서, 은 위치 측정으로, 각 프레임 m에 대한 모든 서브-대역에 걸쳐 재구성된 예측 매개변수 의 가중화된 평균을 포함하고, Nbands는 프레임 m에 있는 서브-대역의 수이고, wb(m) 및 은 가중화 계수이고, kend(b)는 합의 수의 끝이고, kstart(b)는 합의 수의 시작이고, 또한 는 변환된 다운-믹스 신호이다.
메모리 손상 플래그가 설정되지 않은 것에 응답하여, 동작(1014)에서 프로세싱 회로(801)는 저장된 멀티채널 매개변수를 디코딩된 멀티채널 매개변수로 업데이트할 수 있다. 이 동작은 도 7의 동작(750)과 유사할 수 있다.
상기의 설명은 디코더(200)를 사용한 매개변수 복구를 설명한다. 디코딩된 매개변수 대신에 메모리로부터의 매개변수를 사용하는 잠재적인 이점은 동작이 에러 없는 채널 동작에서 낭비되는 중복 매개변수 정보를 전송하지 않고 예측 코딩의 문제를 줄일 수 있다는 것이다. 또한, 안정적인 오디오 장면에서만 추정된 매개변수를 사용하면, 불안정한 오디오 장면에서 부자연스러운 방식으로 오디오 장면이 "정지"되는 것을 방지할 수 있다.
디코딩된 매개변수 대신에 메모리로부터의 매개변수를 사용하는 또 다른 잠재적 이점은 불량 프레임이 표시될 때 메모리로부터의 매개변수를 사용하여 재생된 사운드의 인지된 위치가 디코딩된 매개변수와 비교하여 사운드의 실제 위치에 더 가까울 수 있다는 것이다.
실시예의 리스트:
1. 수신된 멀티채널 신호에서 디코딩된 매개변수를 대체하는 방법으로서:
수신된 멀티채널 신호의 프레임의 멀티채널 매개변수를 디코딩하는 단계(900);
불량 프레임이 표시되는가 여부를 결정하는 단계(902);
불량 프레임이 표시되는 것에 응답하여, 패킷 손실 은익 동작을 실행하는 단계(904);
불량 프레임이 표시되지 않은 것에 응답하여:
적어도 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 매개변수 메모리가 손상되었나 여부를 결정하는 단계(906);
디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계(908);
위치 측정을 기반으로, 재구성된 음원이 안정적이고 주로 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계;
재구성된 음원의 위치 측정이 멀티채널 중 채널의 서브세트에 집중되고 안정적이고 또한 매개변수 메모리가 손상된 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계(912)를 포함하는 방법.
2. 실시예 1의 방법에서, 멀티채널은 두개의 채널을 포함하고, 위치 측정을 기반으로, 재구성된 음원의 위치 측정이 주로 멀티채널 중 채널의 서브채널에 집중되어 있는가 여부를 결정하는 단계는 위치 측정을 기반으로, 재구성된 음원의 위치 측정이 주로 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계를 포함하는 방법.
3. 실시예 1 및 실시예 2 중 한 실시예의 방법에서, 코딩 모드는 절대 코딩 모드 및 예측 코딩 모드를 포함하고, 여기서 적어도 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 매개변수 메모리가 손상되었나 여부를 결정하는 단계는 예측 코딩 모드인 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 매개변수 메모리가 손상되었나 여부를 결정하는 단계를 포함하는 방법.
4. 실시예 1 내지 실시예 3 중 임의의 한 실시예의 방법에서, 위치 측정을 유도하는 단계는 다음을 기반으로 위치 측정을 유도하는 단계를 포함하고,
5. 실시예 4의 방법에서, 재구성된 음원의 위치 측정이 주로 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음을 기반으로 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
6. 실시예 1의 방법에서, 위치 측정을 유도하는 단계는 다음을 기반으로 위치 측정을 유도하는 단계를 포함하고,
여기서, 는 위치 측정으로, 각 프레임 m에 대한 모든 서브-대역에 걸쳐 재구성된 예측 매개변수 의 가중화된 평균을 포함하고, Nbands는 프레임 m에 있는 서브-대역의 수이고, wb(m) 및 은 가중화 계수이고, kend(b)는 합의 수의 끝이고, kstart(b)는 합의 수의 시작이고, 또한 는 변환된 다운-믹스 신호인 방법.
7. 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하는 방법으로서:
코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계(1002);
코딩 모드가 예측 코딩 모드인 것에 응답하여:
메모리 손상 플래그가 설정되었나를 결정하는 단계(1006);
메모리 손상 플래그가 설정된 것에 응답하여:
재구성된 음원이 안정적인 음원이고 재구성된 음원의 위치 측정이 주로 디코딩되는 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계;
재구성된 음원이 안정적인 음원이고 재구성된 음원의 위치 측정이 주로 멀티채널 중 채널의 서브세트에 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계(1010);
메모리 손상 플래그가 설정되지 않은 것에 응답하여:
위치 측정을 업데이트하기 위해 재구성된 음원의 위치 측정을 분석하는 단계(1012); 및
저장된 멀티채널 매개변수를 디코딩된 멀티채널 매개변수로 업데이트하는 단계(1014)를 포함하는 방법.
8. 실시예 7의 방법에서, 멀티채널은 두개의 채널을 포함하고, 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는 재구성된 음원의 위치 측정이 주로 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계(910)를 포함하는 방법.
9. 실시예 7 및 실시예 8 중 한 실시예의 방법에서, 코딩 모드가 절대 코딩 모드인 것에 응답하여, 메모리 손상 플래그를 설정 해제하는 단계(1004)를 더 포함하는 방법.
10. 실시예 7 내지 실시예 9 중 임의의 한 실시예의 방법에서, 불량 프레임이 표시된 것에 응답하여, 메모리 손상 플래그를 설정하는 단계(1000)를 더 포함하는 방법.
11. 실시예 7 내지 실시예 10 중 임의의 한 실시예의 방법에서, 위치 측정을 업데이트하는 단계는 다음을 기반으로 위치 측정을 업데이트하는 단계를 포함하고,
12. 실시예 11의 방법에서, 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음을 기반으로 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
13. 실시예 7의 방법에서, 위치 측정을 유도하는 단계는 다음을 기반으로 위치 측정을 유도하는 단계를 포함하고,
여기서, 는 위치 측정으로, 각 프레임 m에 대한 모든 서브-대역에 걸쳐 재구성된 예측 매개변수 의 가중화된 평균을 포함하고, Nbands는 프레임 m에 있는 서브-대역의 수이고, wb(m) 및 은 가중화 계수이고, kend(b)는 합의 수의 끝이고, kstart(b)는 합의 수의 시작이고, 또한 는 변환된 다운-믹스 신호인 방법.
14. 통신 네트워크를 위한 디코더(200)로서:
프로세서(801); 및
프로세서와 연결되는 메모리(803)를 포함하고, 여기서 메모리는 프로세서에 의해 실행될 때 프로세서가 실시예 1 내지 실시예 13 중 임의의 한 실시예에 따른 동작을 실행하게 하는 명령을 포함하는 디코더.
15. 통신 네트워크에서 동작하도록 구성된 디코더(200)로서, 실시예 1 내지 실시예 13 중 임의의 한 실시예에 따른 방법을 실행하도록 적응된 디코더.
16. 컴퓨터-실행가능 명령이 디바이스에 포함된 프로세서(801)에서 실행될 때, 디바이스가 실시예 1 내지 실시예 13 중 임의의 한 실시예에 따른 방법을 실행하게 하도록 구성된 컴퓨터-실행가능 명령을 포함하는 컴퓨터 프로그램.
17. 비-일시적 컴퓨터-판독가능 저장 매체(803)를 포함하는 컴퓨터 프로그램 제품으로서, 비-일시적 컴퓨터-판독가능 저장 매체는 컴퓨터-실행가능 명령이 디바이스에 포함된 프로세서(801)에서 실행될 때, 디바이스가 실시예 1 내지 실시예 13 중 임의의 한 실시예에 따른 방법을 실행하게 하도록 구성된 컴퓨터-실행가능 명령을 갖는 컴퓨터 프로그램 제품.
18. 수신된 멀티채널 신호에서 디코딩된 매개변수를 추정된 매개변수로 치환하도록 구성된 장치로서:
적어도 하나의 프로세서(801); 및
프로세서에 통신되게 연결된 메모리(803)를 포함하고, 상기 메모리는 프로세서에 의해 실행가능하고 프로세서가:
절대 코딩 모드 또는 예측 코딩 모드 중 하나를 사용하여 수신된 멀티채널 신호의 프레임의 멀티채널 매개변수를 디코딩하는 단계(900);
불량 프레임이 표시되는가 여부를 결정하는 단계(902);
불량 프레임이 표시되는 것에 응답하여, 패킷 손실 은익 동작을 실행하는 단계;
불량 프레임이 표시되지 않은 것에 응답하여:
적어도 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 매개변수 메모리가 손상되었나 여부를 결정하는 단계(906);
디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계(908);
위치 측정을 기반으로, 재구성된 음원이 안정적이고 위치 측정이 주로 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(910);
재구성된 음원이 안정적이고 위치 측정이 주로 멀티채널 중 채널의 서브세트에 집중되고 또한 매개변수 메모리가 손상된 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계(912)를 포함하는 동작을 실행하게 하는 명령을 포함하는 장치.
19. 실시예 18의 장치에서, 코딩 모드는 절대 코딩 모드 및 예측 코딩 모드 중 하나를 포함하고, 여기서 적어도 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 매개변수 메모리가 손상되었나 여부를 결정하는 단계는 예측 코딩 모드인 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 매개변수 메모리가 손상되었나 여부를 결정하는 단계를 포함하는 장치.
20. 실시예 18 및 실시예 19 중 한 실시예의 장치에서, 멀티채널은 두개의 채널을 포함하고, 위치 측정을 기반으로, 재구성된 음원의 위치 측정이 주로 멀티채널 중 채널의 서브채널에 집중되어 있는가 여부를 결정하는 단계(910)는 위치 측정을 기반으로, 재구성된 음원의 위치 측정이 주로 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계를 포함하는 장치.
21. 실시예 18 내지 실시예 20 중 임의의 한 실시예의 장치에서, 위치 측정을 유도하는 단계는 다음을 기반으로 위치 측정을 유도하는 단계를 포함하고,
22. 실시예 21의 장치에서, 재구성된 음원이 주로 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음에 따라 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
23. 실시예 18의 장치에서, 위치 측정을 유도하는 단계는 다음을 기반으로 위치 측정을 유도하는 단계를 포함하고,
여기서, 는 위치 측정으로, 각 프레임 m에 대한 모든 서브-대역에 걸쳐 재구성된 예측 매개변수 의 가중화된 평균을 포함하고, Nbands는 프레임 m에 있는 서브-대역의 수이고, wb(m) 및 은 가중화 계수이고, kend(b)는 합의 수의 끝이고, kstart(b)는 합의 수의 시작이고, 또한 는 변환된 다운-믹스 신호인 장치.
24. 수신된 멀티채널 신호에서 디코딩된 매개변수를 추정된 매개변수로 치환하도록 구성된 장치로서:
적어도 하나의 프로세서(801); 및
프로세서에 통신되게 연결된 메모리(803)를 포함하고, 상기 메모리는 프로세서에 의해 실행가능하고 실행될 때 프로세서가:
코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계(1002);
코딩 모드가 예측 코딩 모드인 것에 응답하여:
메모리 손상 플래그가 설정되었나를 결정하는 단계(1006);
메모리 손상 플래그가 설정된 것에 응답하여:
재구성된 음원이 안정적인 음원이고 재구성된 음원의 위치 측정이 주로 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계;
재구성된 음원이 안정적인 음원이고 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계(1010);
메모리 손상 플래그가 설정되지 않은 것에 응답하여:
위치 측정을 업데이트하기 위해 재구성된 음원의 위치 측정을 분석하는 단계(1012); 및
저장된 멀티채널 매개변수를 디코딩된 멀티채널 매개변수로 업데이트하는 단계(1014)를 포함하는 동작을 실행하게 하는 명령을 포함하는 장치.
25. 실시예 24의 장치에서, 메모리는 프로세서에 의해 실행가능하고, 실행될 때 프로세서가:
코딩 모드가 절대 코딩 모드인 것에 응답하여, 메모리 손상 플래그를 설정 해제하는 단계(1004)를 포함하는 동작을 실행하게 하는 명령을 더 포함하는 장치.
26. 실시예 24의 장치에서, 메모리는 프로세서에 의해 실행가능하고, 실행될 때 프로세서가:
불량 프레임이 표시된 것에 응답하여, 메모리 손상 플래그를 설정하는 단계(1000)를 포함하는 동작을 실행하게 하는 명령을 더 포함하는 장치.
27. 실시예 24 및 실시예 26 중 한 실시예의 장치에서, 멀티채널은 두개의 채널을 포함하고, 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는 재구성된 음원의 위치 측정이 주로 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계(910)를 포함하는 장치.
28. 실시예 24 내지 실시예 27 중 임의의 한 실시예의 장치에서, 위치 측정을 업데이트하는 단계는 다음을 기반으로 위치 측정을 업데이트하는 단계를 포함하고,
29. 실시예 28의 장치에서, 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음을 기반으로 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
30. 실시예 24의 장치에서, 위치 측정을 유도하는 단계는 다음을 기반으로 위치 측정을 유도하는 단계를 포함하고,
여기서, 는 위치 측정으로, 각 프레임 m에 대한 모든 서브-대역에 걸쳐 재구성된 예측 매개변수 의 가중화된 평균을 포함하고, Nbands는 프레임 m에 있는 서브-대역의 수이고, wb(m) 및 은 가중화 계수이고, kend(b)는 합의 수의 끝이고, kstart(b)는 합의 수의 시작이고, 또한 는 변환된 다운-믹스 신호인 장치.
상기 개시 내용으로부터의 약자에 대한 설명이 아래 제공된다.
약자
설명
BFI
불량 프레임 표시자(Bad Frame Indicator)
PREV BFI
이전 프레임 불량 프레임 표시자(Previous frame Bad Frame Indicator)
DFT
이산 푸리에 변환(Discrete Fourier Transform)
LP
선형 예측(Linear Prediction)
PLC
패킷 손실 은닉(Packet Loss Concealment)
ECU
에러 은닉 유닛(Error Concealment Unit)
FEC
프레임 에러 정정/은닉(Frame Error Correction/Concealment)
MDCT
수정 이산 코사인 변환(Modified Discrete Cosine Transform)
MDST
수정 이산 사인 변환(Modified Discrete Sine Transform)
MSE
평균 제곱 에러(Mean Squared Error)
ODFT
홀수 이산 푸리에 변환(Odd Discrete Fourier Transform)
LTP
롱 텀 예측기(Long Term Predictor)
ITD
채널간 시간차(Inter-channel Time Difference)
IPD
채널간 위상차(Inter-channel Phase Difference)
ILD
채널간 레벨차(Inter-channel Level Difference)
ICC
채널간 일관성(Inter-channel Coherence)
FD
주파수 도메인(Frequency Domain)
TD
시간 도메인(Time Domain)
FLC
프레임 손실 은닉(Frame Loss Concealment)
상기 개시 내용으로부터 참조에 대한 인용이 아래 제공된다.
C. Faller, "파라메트릭 멀티채널 오디오 코딩: 일관성 신호 합성 (Parametric multichannel audio coding: synthesis of coherence cues)," in IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 1, pp. 299-310, 2006 1월.
Breebaart, J., Herre, J., Faller, C., Roden, J., Myburg, F., Disch, S., ... & Oomen, W. (2005). "MPEG 공간 오디오 코딩/MPEG 서라운드: 개요 및 현황 (MPEG spatial audio coding/MPEG surround: Overview and current status)", 2005 In Preprint 119th Conv. Aud. Eng. Soc. (No. LCAV-CONF-2005-029).
추가 정의 및 실시예가 이후 논의된다.
상기에 본 발명의 개념의 다양한 실시예에 대한 설명에서, 여기서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것이고, 본 발명의 개념을 한정하려는 의도가 아님을 이해하여야 한다. 다른 방법으로 정의되지 않는 한, 여기서 사용되는 모든 용어는 (기술 및 과학 용어를 포함하여) 본 발명의 개념이 속하는 종래 기술에 숙련된 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의된 것과 같은 용어는 본 명세서 및 관련 기술의 맥락에서 그 의미와 일치하는 의미를 갖는 것으로 해석되어야 하고, 여기에 명시적으로 정의되지 않는 한 이상화되거나 과도하게 해석되지 않음을 더 이해하게 된다.
요소가 다른 요소에 "연결된", "결합된", "응답하는" 또는 그 변형으로 언급되는 경우, 다른 요소에 직접적으로 연결되거나, 결합되거나 또는 응답할 수 있거나, 중간 요소가 존재할 수 있다. 대조적으로, 요소가 다른 요소에 "직접 연결된", "직접 결합된", "직접 응답하는" 또는 그 변형으로 언급되는 경우에는 중간 요소가 존재하지 않는다. 같은 숫자는 전체에 걸쳐 같은 요소를 나타낸다. 또한, 여기서 사용되는 "결합된", "연결된", "응답하는" 또는 그 변형은 무선으로 결합된, 연결된 또는 응답하는 것을 포함할 수 있다. 여기서 사용된 바와 같이, 단수 형태는 ("a", "an" 및 "the") 문맥이 명백하게 다른 방법으로 나타내지 않는 한, 복수 형태도 포함하는 것으로 의도된다. 이미 공지된 기능이나 구성은 간결함 및/또는 명확성을 위해 자세히 설명되지 않을 수 있다. "및/또는"이라는 용어는 하나 이상의 관련 나열된 항목의 임의의 또한 모든 조합을 포함한다.
제1, 제2, 제3 등의 용어가 다양한 요소/동작을 설명하기 위해 여기서 사용될 수 있지만, 이러한 요소/동작이 이러한 용어에 의해 제한되어서는 안됨을 이해될 것이다. 이러한 용어는 한 요소/작업을 또 다른 요소/작업과 구별하는데만 사용된다. 따라서, 일부 실시예에서 제1 구성요소/동작은 본 발명의 개념의 교시를 벗어나지 않으면서 다른 실시예에서 제2 구성요소/동작으로 명명될 수 있다. 명세서 전체에 걸쳐 동일한 참조 번호 또는 동일한 참조 부호는 동일하거나 유사한 요소를 나타낸다.
여기서 사용된 바와 같이, "포함한다", "가지다", 또는 그 변형은 ("comprise", "comprising", "comprises", "include", "including", "includes", "have", "has", "having") 개방형이고, 하나 이상의 언급된 특성, 정수, 요소, 단계, 구성성분 또는 기능을 포함하지만, 하나 이상의 다른 특성, 정수, 요소, 단계, 구성성분, 기능 또는 그들의 그룹의 존재 또는 추가를 배제하지 않는다. 또한, 여기서 사용된 바와 같이, 라틴어 구 "exempli gratia"에서 파생된 일반적인 약어 "e.g."는 이전에 언급된 항목의 일반적인 예시 또는 예시들을 소개하거나 지정하는데 사용될 수 있고, 다음 항목을 한정하도록 의도되지 않는다. 라틴어 구 "id est"에서 파생된 일반적인 약어 "i.e."는 보다 일반적인 인용에서 특정 항목을 지정하는데 사용할 수 있다.
예시적인 실시예는 컴퓨터-구현 방법, 장치 (시스템 및/또는 디바이스), 및/또는 컴퓨터 프로그램 제품의 블록도 및/또는 흐름도 예시를 참조로 여기에 설명된다. 블록도 및/또는 흐름도의 블록, 및 블록도 및/또는 흐름도의 블록의 조합은 하나 이상의 컴퓨터 회로에 의해 실행되는 컴퓨터 프로그램 명령에 의해 구현될 수 있음을 이해하게 된다. 이러한 컴퓨터 프로그램 명령은 범용 컴퓨터 회로, 특수 목적 컴퓨터 회로 및/또는 다른 프로그램가능 데이터 프로세싱 회로의 프로세서 회로에 제공되어 기계를 생성하므로, 컴퓨터의 프로세서 및/또는 다른 프로그램가능 데이터 프로세싱 장치를 통해 실행하고, 트랜지스터, 메모리 위치에 저장된 값, 및 이러한 회로 내의 다른 하드웨어 구성성분을 변환 및 제어하는 명령은 블록도 및/또는 흐름도 블록 또는 블록들에서 지정된 기능/동작을 구현하고, 그에 따라 블록도 및/또는 흐름도에서 지정된 기능/동작을 구현하기 위한 수단 (기능) 및/또는 구조를 생성하게 된다.
이러한 컴퓨터 프로그램 명령은 또한 컴퓨터 또는 다른 프로그램가능 데이터 프로세싱 장치가 특정 방식으로 기능하도록 지시할 수 있는 유형의 컴퓨터-판독가능 매체에 저장될 수 있으므로, 컴퓨터-판독가능 매체에 저장된 명령은 블록도 및/또는 흐름도 블록 또는 블록들에서 지정된 기능/동작을 구현하는 명령어을 포함한 제조 물품을 생성한다. 따라서, 본 발명의 개념의 실시예는 디지털 신호 프로세서와 같은 프로세서에서 실행되는 하드웨어 및/또는 소프트웨어로 (펌웨어, 상주 소프트웨어, 마이크로-코드 등을 포함하는) 구현될 수 있고, 이는 총합하여 "회로", "모듈" 또는 그 변형으로 칭하여질 수 있다.
또한, 일부 대안적인 구현에서는 블록에 기술된 기능/동작이 흐름도에 기술된 순서와 다르게 일어날 수 있음을 주목하여야 한다. 예를 들어, 연속적으로 도시된 두개의 블록은 사실상 실질적으로 동시에 실행되거나, 관련된 기능/동작에 따라 블록이 때로 역순으로 실행될 수 있다. 더욱이, 흐름도 및/또는 블록도의 주어진 블록의 기능은 다수의 블록으로 분리될 수 있고, 또한/또는 흐름도 및/또는 블록도의 둘 이상의 블록의 기능이 적어도 부분적으로 통합될 수 있다. 마지막으로, 도시된 블록 사이에 다른 블록이 추가/삽입될 수 있고, 본 발명의 개념의 범위를 벗어나지 않으면서 블록/동작이 생략될 수 있다. 또한, 일부 도면에는 통신의 주요 방향을 표시하기 위해 통신 경로에 화살표가 포함되어 있지만, 도시된 화살표와 반대 방향으로 통신이 일어날 수 있음을 이해하여야 한다.
본 발명의 개념의 원리에서 실질적으로 벗어나지 않고 실시예에 많은 변형 및 수정이 이루어질 수 있다. 이러한 모든 변형 및 수정은 본 발명의 개념의 범위 내에 포함되도록 의도된다. 따라서, 상기에 설명된 주제는 예시적인 것이고, 제한적이지 않은 것으로 간주되어야 하며, 실시예의 예시는 본 발명의 개념의 의도 및 범위 내에 속하는 이러한 모든 수정, 개선 및 다른 실시예를 포함하도록 의도된다. 그래서, 본 발명의 개념의 범위는 법률이 허용하는 최대한의 범위 내에서 실시예 및 그 등가물의 예시를 포함하여 본 개시에 대해 가장 광범위하게 허용되는 해석에 의해 결정되어야 하며, 상기의 상세한 설명에 의해 제한되거나 한정되어서는 안 된다.
일반적으로, 여기에서 사용되는 모든 용어는 문맥상 명백하게 다른 의미가 부여되거나 암시되지 않는 한, 관련 기술 분야에서 통상적인 의미에 따라 해석되어야 한다. 요소, 장치, 구성성분, 수단, 단계 등에 대한 모든 참조는 명시적으로 다른 방법으로 언급되지 않는 한, 요소, 장치, 구성성분, 수단, 단계 등의 적어도 하나의 인스턴스를 참조하는 것으로 공개적으로 해석되어야 한다. 여기에 설명된 모든 방법의 단계는 단계가 또 다른 단계에 이어지거나 선행하는 것으로 명시적으로 설명되지 않는 한 및/또는 단계가 또 다른 단계에 이어지거나 선행해야 함을 암시하지 않는 한, 설명된 정확한 순서로 실행될 필요는 없다. 여기서 설명된 임의의 실시예의 임의의 특성은 적절한 경우에 임의의 다른 실시예에 적용될 수 있다. 유사하게, 임의의 실시예의 임의의 이점은 임의의 다른 실시예에 적용될 수 있다.
여기서 설명된 임의의 적절한 단계, 방법, 특성, 기능 또는 이점은 하나 이상의 가상 장치의 하나 이상의 기능 유닛 또는 모듈을 통해 실행될 수 있다. 각각의 가상 장치는 다수의 이러한 기능 유닛을 포함할 수 있다. 이러한 기능 유닛은 하나 이상의 마이크로프로세서 또는 마이크로컨트롤러, 뿐만 아니라 디지털 신호 프로세서(DSP), 특수-목적 디지털 로직 등을 포함할 수 있는 다른 디지털 하드웨어를 포함할 수 있는 프로세싱 회로를 통해 구현될 수 있다. 프로세싱 회로는 메모리에 저장된 프로그램 코드를 실행하도록 구성될 수 있고, 메모리는 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 캐시 메모리, 플래시 메모리 디바이스, 광학 저장 디바이스와 같은 하나 또는 여러 타입의 메모리를 포함할 수 있다. 메모리에 저장된 프로그램 코드는 하나 이상의 전기통신 및/또는 데이터 통신 프로토콜을 실행하기 위한 프로그램 명령 뿐만 아니라 여기서 설명된 하나 이상의 기술을 수행하기 위한 명령을 포함한다. 일부 구현에서, 프로세싱 회로는 각각의 기능 유닛이 본 개시의 하나 이상의 실시예에 따른 대응하는 기능을 수행하게 하는데 사용될 수 있다.
200 : 디코더
202 : 네트워크
204 : 저장기
206 : 멀티채널 오디오 플레이어
310 : 인코더
312 : 스테레오 분석기 + 다운-믹서
314 : 다운-믹스 인코더
316 : 잔여 인코더
318 : 매개변수 인코더
320 : 디코더
322 : 스테레오 합성기
324 : 다운-믹스 디코더
326 : 잔여 디코더
328 : 매개변수 디코더
801 : 프로세서
803 : 메모리
805 : 네트워크 인터페이스
202 : 네트워크
204 : 저장기
206 : 멀티채널 오디오 플레이어
310 : 인코더
312 : 스테레오 분석기 + 다운-믹서
314 : 다운-믹스 인코더
316 : 잔여 인코더
318 : 매개변수 인코더
320 : 디코더
322 : 스테레오 합성기
324 : 다운-믹스 디코더
326 : 잔여 디코더
328 : 매개변수 디코더
801 : 프로세서
803 : 메모리
805 : 네트워크 인터페이스
Claims (53)
- 수신된 멀티채널 신호에서 디코딩된 매개변수를 대체하는 방법으로서:
상기 수신된 멀티채널 신호의 프레임의 멀티채널 매개변수를 디코딩하는 단계(900);
불량 프레임이 표시되는가 여부를 결정하는 단계(902);
상기 불량 프레임이 표시되는 것에 응답하여, 매개변수 메모리가 손상됨을 결정하는 단계(904);
상기 불량 프레임이 표시되지 않은 것에 응답하여:
상기 매개변수 메모리가 손상되지 않은 것에 응답하여(906), 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계 (908);
상기 매개변수 메모리가 손상되는 것에 응답하여(906), 상기 위치 측정을 기반으로, 상기 재구성된 음원이 안정적이고 주로 상기 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(910); 및
상기 재구성된 음원이 상기 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계(912)를 포함하는 방법. - 제1항에 있어서,
상기 불량 프레임이 표시되는 것에 응답하여, 패킷 손실 은익 동작을 실행하는 단계를 더 포함하는 방법. - 제1항 및 제2항 중 한 항에 있어서,
상기 불량 프레임이 표시되지 않은 것에 응답하여, 상기 디코딩된 멀티채널 매개변수를 상기 저장된 멀티채널 매개변수로 저장하는 단계를 더 포함하는 방법. - 제1항에 있어서,
상기 멀티채널은 두개의 채널을 포함하고, 상기 위치 측정을 기반으로, 상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브채널에 집중되어 있는가 여부를 결정하는 단계는 상기 위치 측정을 기반으로, 상기 재구성된 음원의 위치 측정이 주로 상기 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계를 포함하는 방법. - 제1항 및 제2항 중 한 항에 있어서,
코딩 모드는 절대 코딩 모드 및 예측 코딩 모드 중 하나를 포함하고, 상기 코딩 모드가 절대 코딩 모드인 것에 응답하여, 메모리 손상 플래그가 설정된 것에 응답해 메모리 손상 플래그를 설정 해제하는 단계를 포함하는 방법. - 제6항에 있어서,
상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음을 기반으로 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
여기서 γ는 필터 매개변수이고, 은 프레임 m에 대해 재구성된 예측 매개변수의 평균이고, 또한 는 저역-통과 필터링된 위치이고;
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인가 여부를 결정하는 단계; 및
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인 것에 응답하여, 상기 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있음을 결정하는 단계를 포함하는 방법. - 통신 네트워크를 위한 디코더(200)로서:
프로세서(801); 및
상기 프로세서와 연결되는 메모리(803)를 포함하고, 여기서 상기 메모리는 상기 프로세서에 의해 실행될 때 상기 프로세서가:
수신된 멀티채널 신호의 프레임의 멀티채널 매개변수를 디코딩하는 단계(900);
불량 프레임이 표시되는가 여부를 결정하는 단계(902);
상기 불량 프레임이 표시되는 것에 응답하여, 매개변수 메모리가 손상됨을 결정하는 단계(904);
상기 불량 프레임이 표시되지 않은 것에 응답하여:
상기 매개변수 메모리가 손상되지 않은 것에 응답하여(906), 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계 (908);
상기 매개변수 메모리가 손상되는 것에 응답하여(906), 상기 위치 측정을 기반으로, 상기 재구성된 음원이 안정적이고 주로 상기 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(910); 및
상기 재구성된 음원이 상기 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계(912)를 포함하는 동작을 실행하게 하는 명령을 포함하는 디코더(200). - 제9항에 있어서,
상기 멀티채널은 두개의 채널을 포함하고, 상기 위치 측정을 기반으로, 상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브채널에 집중되어 있는가 여부를 결정하는 단계는 상기 위치 측정을 기반으로, 상기 재구성된 음원의 위치 측정이 주로 상기 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계를 포함하는 디코더(200). - 제9항 및 제10항 중 한 항에 있어서,
코딩 모드는 절대 코딩 모드 및 예측 코딩 모드 중 하나를 포함하고, 상기 코딩 모드가 절대 코딩 모드인 것에 응답하여, 메모리 손상 플래그가 설정된 것에 응답해 메모리 손상 플래그를 설정 해제하는 단계를 포함하는 디코더(200). - 제12항에 있어서,
상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음을 기반으로 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
여기서 γ는 필터 매개변수이고, 은 프레임 m에 대해 재구성된 예측 매개변수의 평균이고, 또한 는 저역-통과 필터링된 위치이고;
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인가 여부를 결정하는 단계; 및
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인 것에 응답하여, 상기 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있음을 결정하는 단계를 포함하는 디코더(200). - 통신 네트워크에서 동작하도록 구성된 디코더(200)로서:
수신된 멀티채널 신호의 프레임의 멀티채널 매개변수를 디코딩하는 단계(900);
불량 프레임이 표시되는가 여부를 결정하는 단계(902);
상기 불량 프레임이 표시되는 것에 응답하여, 매개변수 메모리가 손상됨을 결정하는 단계(904);
상기 불량 프레임이 표시되지 않은 것에 응답하여:
상기 매개변수 메모리가 손상되지 않은 것에 응답하여(906), 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계 (908);
상기 매개변수 메모리가 손상되는 것에 응답하여(906), 상기 위치 측정을 기반으로, 상기 재구성된 음원이 안정적이고 주로 상기 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(910); 및
상기 재구성된 음원이 상기 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계(912)를 포함하는 동작을 실행하도록 적응되는 디코더(200). - 제15항에 있어서,
제2항 내지 제8항 중 임의의 한 항에 따른 동작을 실행하도록 더 적응되는 디코더(200). - 컴퓨터-실행가능 명령을 포함하는 컴퓨터 프로그램으로서:
상기 컴퓨터-실행가능 명령은 디바이스에 포함된 프로세서에서 실행될 때 상기 디바이스가:
수신된 멀티채널 신호의 프레임의 멀티채널 매개변수를 디코딩하는 단계(900);
불량 프레임이 표시되는가 여부를 결정하는 단계(902);
상기 불량 프레임이 표시되는 것에 응답하여, 매개변수 메모리가 손상됨을 결정하는 단계(904);
상기 불량 프레임이 표시되지 않은 것에 응답하여:
상기 매개변수 메모리가 손상되지 않은 것에 응답하여(906), 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계 (908);
상기 매개변수 메모리가 손상되는 것에 응답하여(906), 상기 위치 측정을 기반으로, 상기 재구성된 음원이 안정적이고 주로 상기 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(910); 및
상기 재구성된 음원이 상기 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계(912)를 포함하는 동작을 실행하게 하는 컴퓨터 프로그램. - 제17항에 있어서,
디바이스에 포함된 프로세서에서 실행될 때 상기 디바이스가 제2항 내지 제8항 중 임의의 한 항에 따른 동작을 실행하게 하는 컴퓨터-실행가능 명령을 더 포함하는 컴퓨터 프로그램. - 비-일시적 컴퓨터-판독가능 저장 매체(803)을 포함하는 컴퓨터 프로그램 제품으로서:
상기 비-일시적 컴퓨터-판독가능 저장 매체는 디바이스에 포함된 프로세서(801)에서 실행될 때 상기 디바이스가:
수신된 멀티채널 신호의 프레임의 멀티채널 매개변수를 디코딩하는 단계(900);
불량 프레임이 표시되는가 여부를 결정하는 단계(902);
상기 불량 프레임이 표시되는 것에 응답하여, 매개변수 메모리가 손상됨을 결정하는 단계(904);
상기 불량 프레임이 표시되지 않은 것에 응답하여:
상기 매개변수 메모리가 손상되지 않은 것에 응답하여(906), 디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계 (908);
상기 매개변수 메모리가 손상되는 것에 응답하여(906), 상기 위치 측정을 기반으로, 상기 재구성된 음원이 안정적이고 주로 상기 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(910); 및
상기 재구성된 음원이 상기 멀티채널 중 채널의 서브세트에 집중되고 안정적인 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계(912)를 포함하는 동작을 실행하게 하는 컴퓨터-실행가능 명령을 갖는 컴퓨터 프로그램 제품. - 제19항에 있어서,
상기 비-일시적 컴퓨터-판독가능 저장 매체는 디바이스에 포함된 프로세서(801)에서 실행될 때 상기 디바이스가 제2항 내지 제8항 중 임의의 한 항에 따른 동작을 실행하게 하는 컴퓨터-실행가능 명령을 더 갖는 컴퓨터 프로그램 제품. - 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하는 방법으로서:
코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계(1002);
상기 코딩 모드가 예측 코딩 모드인 것에 응답하여:
메모리 손상 플래그가 설정되는가를 결정하는 단계(1006);
상기 메모리 손상 플래그가 설정되는 것에 응답하여:
재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 디코딩되는 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(1008);
상기 재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계(1010);
상기 메모리 손상 플래그가 설정되지 않은 것에 응답하여:
상기 위치 측정을 업데이트하기 위해 상기 재구성된 음원의 위치 측정을 분석하는 단계(1012); 및
상기 저장된 멀티채널 매개변수를 상기 디코딩된 멀티채널 매개변수로 업데이트하는 단계(1014)를 포함하는 방법. - 제21항에 있어서,
상기 멀티채널은 두개의 채널을 포함하고, 상기 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는 상기 재구성된 음원의 위치 측정이 주로 상기 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계(910)를 포함하는 방법. - 제21항 및 제22항 중 한 항에 있어서,
상기 코딩 모드가 절대 코딩 모드인 것에 응답하여, 상기 메모리 손상 플래그를 설정 해제하는 단계(1004)를 더 포함하는 방법. - 제21항 내지 제23항 중 임의의 한 항에 있어서,
불량 프레임이 표시되는 것에 응답하여, 상기 메모리 손상 플래그를 설정하는 단계(1000)를 더 포함하는 방법. - 제25항에 있어서,
상기 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음을 기반으로 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
여기서 γ는 필터 매개변수이고, 은 프레임 m에 대해 재구성된 예측 매개변수의 평균이고, 또한 는 저역-통과 필터링된 위치이고;
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인가 여부를 결정하는 단계; 및
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인 것에 응답하여, 상기 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있음을 결정하는 단계를 포함하는 방법. - 통신 네트워크를 위한 디코더(200)로서:
프로세서(801); 및
상기 프로세서와 연결되는 메모리(803)를 포함하고, 여기서 상기 메모리는 상기 프로세서에 의해 실행될 때 상기 프로세서가:
코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계(1002);
상기 코딩 모드가 예측 코딩 모드인 것에 응답하여:
메모리 손상 플래그가 설정되는가를 결정하는 단계(1006);
상기 메모리 손상 플래그가 설정되는 것에 응답하여:
재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 디코딩되는 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(1008);
상기 재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계(1010);
상기 메모리 손상 플래그가 설정되지 않은 것에 응답하여:
상기 위치 측정을 업데이트하기 위해 상기 재구성된 음원의 위치 측정을 분석하는 단계(1012); 및
상기 저장된 멀티채널 매개변수를 상기 디코딩된 멀티채널 매개변수로 업데이트하는 단계(1014)를 포함하는 동작을 실행하게 하는 명령을 포함하는 디코더(200). - 제28항에 있어서,
상기 멀티채널은 두개의 채널을 포함하고, 상기 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는 상기 재구성된 음원의 위치 측정이 주로 상기 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계(910)를 포함하는 디코더(200). - 제28항 및 제29항 중 한 항에 있어서,
상기 메모리는 상기 프로세서에 의해 실행될 때 상기 프로세서가:
상기 코딩 모드가 절대 코딩 모드인 것에 응답하여, 상기 메모리 손상 플래그를 설정 해제하는 단계(1004)를 포함하는 동작을 더 실행하게 하는 명령을 더 포함하는 디코더(200). - 제28항 내지 제30항 중 임의의 한 항에 있어서,
상기 메모리는 상기 프로세서에 의해 실행될 때 상기 프로세서가:
불량 프레임이 표시되는 것에 응답하여, 상기 메모리 손상 플래그를 설정하는 단계(1000)를 포함하는 동작을 더 실행하게 하는 명령을 더 포함하는 디코더(200). - 제32항에 있어서,
상기 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음을 기반으로 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
여기서 γ는 필터 매개변수이고, 은 프레임 m에 대해 재구성된 예측 매개변수의 평균이고, 또한 는 저역-통과 필터링된 위치이고;
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인가 여부를 결정하는 단계; 및
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인 것에 응답하여, 상기 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있음을 결정하는 단계를 포함하는 디코더(200). - 통신 네트워크에서 동작하도록 구성된 디코더(200)로서:
코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계(1002);
상기 코딩 모드가 예측 코딩 모드인 것에 응답하여:
메모리 손상 플래그가 설정되는가를 결정하는 단계(1006);
상기 메모리 손상 플래그가 설정되는 것에 응답하여:
재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 디코딩되는 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(1008);
상기 재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계(1010);
상기 메모리 손상 플래그가 설정되지 않은 것에 응답하여:
상기 위치 측정을 업데이트하기 위해 상기 재구성된 음원의 위치 측정을 분석하는 단계(1012); 및
상기 저장된 멀티채널 매개변수를 상기 디코딩된 멀티채널 매개변수로 업데이트하는 단계(1014)를 포함하는 동작을 실행하도록 적응되는 디코더(200). - 제35항에 있어서,
제22항 내지 제27항 중 임의의 한 항에 따른 동작을 실행하도록 더 적응되는 디코더(200). - 컴퓨터-실행가능 명령을 포함하는 컴퓨터 프로그램으로서:
상기 컴퓨터-실행가능 명령은 디바이스에 포함된 프로세서에서 실행될 때 상기 디바이스가:
코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계(1002);
상기 코딩 모드가 예측 코딩 모드인 것에 응답하여:
메모리 손상 플래그가 설정되는가를 결정하는 단계(1006);
상기 메모리 손상 플래그가 설정되는 것에 응답하여:
재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 디코딩되는 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(1008);
상기 재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계(1010);
상기 메모리 손상 플래그가 설정되지 않은 것에 응답하여:
상기 위치 측정을 업데이트하기 위해 상기 재구성된 음원의 위치 측정을 분석하는 단계(1012); 및
상기 저장된 멀티채널 매개변수를 상기 디코딩된 멀티채널 매개변수로 업데이트하는 단계(1014)를 포함하는 동작을 실행하게 하는 컴퓨터 프로그램. - 제37항에 있어서,
디바이스에 포함된 프로세서에서 실행될 때 상기 디바이스가 제22항 내지 제27항 중 임의의 한 항에 따른 동작을 실행하게 하는 컴퓨터-실행가능 명령을 더 포함하는 컴퓨터 프로그램. - 비-일시적 컴퓨터-판독가능 저장 매체(803)을 포함하는 컴퓨터 프로그램 제품으로서:
상기 비-일시적 컴퓨터-판독가능 저장 매체는 디바이스에 포함된 프로세서(801)에서 실행될 때 상기 디바이스가:
코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계(1002);
상기 코딩 모드가 예측 코딩 모드인 것에 응답하여:
메모리 손상 플래그가 설정되는가를 결정하는 단계(1006);
상기 메모리 손상 플래그가 설정되는 것에 응답하여:
재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 디코딩되는 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(1008);
상기 재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계(1010);
상기 메모리 손상 플래그가 설정되지 않은 것에 응답하여:
상기 위치 측정을 업데이트하기 위해 상기 재구성된 음원의 위치 측정을 분석하는 단계(1012); 및
상기 저장된 멀티채널 매개변수를 상기 디코딩된 멀티채널 매개변수로 업데이트하는 단계(1014)를 포함하는 동작을 실행하게 하는 컴퓨터-실행가능 명령을 갖는 컴퓨터 프로그램 제품. - 제41항에 있어서,
상기 비-일시적 컴퓨터-판독가능 저장 매체는 디바이스에 포함된 프로세서(801)에서 실행될 때 상기 디바이스가 제22항 내지 제27항 중 임의의 한 항에 따른 동작을 실행하게 하는 컴퓨터-실행가능 명령을 더 갖는 컴퓨터 프로그램 제품. - 수신된 멀티채널 신호에서 디코딩된 매개변수를 추정된 매개변수로 치환하도록 구성된 장치로서:
적어도 하나의 프로세서(801); 및
상기 프로세서에 통신되게 연결된 메모리(803)를 포함하고, 상기 메모리는 상기 프로세서에 의해 실행가능하고 상기 프로세서가:
절대 코딩 모드 또는 예측 코딩 모드 중 하나를 사용하여 상기 수신된 멀티채널 신호의 프레임의 멀티채널 매개변수를 디코딩하는 단계(900);
불량 프레임이 표시되는가 여부를 결정하는 단계(902);
상기 불량 프레임이 표시되는 것에 응답하여, 패킷 손실 은익 동작을 실행하는 단계;
상기 불량 프레임이 표시되지 않은 것에 응답하여:
적어도 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 매개변수 메모리가 손상되는가 여부를 결정하는 단계(906);
디코딩된 멀티채널 매개변수를 기반으로 재구성된 음원의 위치 측정을 유도하는 단계(908);
상기 위치 측정을 기반으로, 상기 재구성된 음원이 안정적이고 상기 위치 측정이 주로 상기 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(910); 및
상기 재구성된 음원이 안정적이고 상기 위치 측정이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있고 또한 상기 매개변수 메모리가 손상되는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 대체하기 위해 매개변수 복구를 활성화하는 단계(912)를 포함하는 동작을 실행하게 하는 명령을 포함하는 장치. - 제41항에 있어서,
상기 코딩 모드는 절대 코딩 모드 및 예측 코딩 모드 중 하나를 포함하고, 여기서 적어도 상기 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 상기 매개변수 메모리가 손상되는가 여부를 결정하는 단계는 상기 예측 코딩 모드인 코딩 모드 및 이전 불량 프레임 표시자를 기반으로, 상기 매개변수 메모리가 손상되는가 여부를 결정하는 단계를 포함하는 장치. - 제41항 및 제42항 중 한 항에 있어서,
상기 멀티채널은 두개의 채널을 포함하고, 상기 위치 측정을 기반으로, 상기 재구성된 음원의 위치 측정이 주로 상기 멀티채널 중 채널의 서브채널에 집중되어 있는가 여부를 결정하는 단계(910)는 상기 위치 측정을 기반으로, 상기 재구성된 음원의 위치 측정이 주로 상기 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계(910)를 포함하는 장치. - 제44항에 있어서,
상기 재구성된 음원이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음에 따라 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
여기서 γ는 필터 매개변수이고, 은 프레임 m에 대해 재구성된 예측 매개변수의 평균이고, 또한 는 저역-통과 필터링된 위치이고;
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인가 여부를 결정하는 단계; 및
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인 것에 응답하여, 상기 재구성된 음원이 주로 상기 멀티채널 중 채널의 서브세트에 집중되어 있음을 결정하는 단계를 포함하는 장치. - 수신된 멀티채널 신호에서 디코딩된 매개변수를 추정된 매개변수로 치환하도록 구성된 장치로서:
적어도 하나의 프로세서(801); 및
상기 프로세서에 통신되게 연결된 메모리(803)를 포함하고, 상기 메모리는 상기 프로세서에 의해 실행가능하고, 실행될 때 상기 프로세서가:
코딩 모드가 절대 코딩 모드 또는 예측 코딩 모드인가 여부를 결정하는 단계(1002);
상기 코딩 모드가 예측 코딩 모드인 것에 응답하여:
메모리 손상 플래그가 설정되는가를 결정하는 단계(1006);
상기 메모리 손상 플래그가 설정되는 것에 응답하여:
재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 상기 수신된 멀티채널 신호의 멀티채널 중 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계(1008);
상기 재구성된 음원이 안정적인 음원이고 상기 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는 것에 응답하여, 디코딩된 멀티채널 매개변수를 저장된 멀티채널 매개변수로 치환하는 단계(1010);
상기 메모리 손상 플래그가 설정되지 않은 것에 응답하여:
상기 위치 측정을 업데이트하기 위해 상기 재구성된 음원의 위치 측정을 분석하는 단계(1012); 및
상기 저장된 멀티채널 매개변수를 상기 디코딩된 멀티채널 매개변수로 업데이트하는 단계(1014)를 포함하는 동작을 실행하게 하는 명령을 포함하는 장치. - 제47항에 있어서,
상기 메모리는 상기 프로세서에 의해 실행가능하고, 실행될 때 상기 프로세서가:
상기 코딩 모드가 절대 코딩 모드인 것에 응답하여, 상기 메모리 손상 플래그를 설정 해제하는 단계(1004)를 포함하는 동작을 실행하게 하는 명령을 더 포함하는 장치. - 제47항에 있어서,
상기 메모리는 상기 프로세서에 의해 실행가능하고, 실행될 때 상기 프로세서가:
불량 프레임이 표시되는 것에 응답하여, 상기 메모리 손상 플래그를 설정하는 단계(1000)를 포함하는 동작을 실행하게 하는 명령을 더 포함하는 장치. - 제47항 내지 제49항 중 임의의 한 항에 있어서,
상기 멀티채널은 두개의 채널을 포함하고, 상기 재구성된 음원의 위치 측정이 주로 채널의 서브채널에 집중되어 있는가 여부를 결정하는 단계는 상기 재구성된 음원의 위치 측정이 주로 상기 두 채널 중 하나에 집중되어 있는가 여부를 결정하는 단계(910)를 포함하는 장치. - 제51항에 있어서,
상기 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있는가 여부를 결정하는 단계는:
다음을 기반으로 저역-통과 필터링된 위치를 결정하는 단계를 포함하고,
여기서 γ는 필터 매개변수이고, 은 프레임 m에 대해 재구성된 예측 매개변수의 평균이고, 또한 는 저역-통과 필터링된 위치이고;
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인가 여부를 결정하는 단계; 및
상기 저역-통과 필터링된 위치의 절대값이 임계값 이상인 것에 응답하여, 상기 재구성된 음원의 위치 측정이 주로 채널의 서브세트에 집중되어 있음을 결정하는 단계를 포함하는 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020247010611A KR20240046634A (ko) | 2019-03-29 | 2020-03-27 | 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962826084P | 2019-03-29 | 2019-03-29 | |
US62/826,084 | 2019-03-29 | ||
US201962892637P | 2019-08-28 | 2019-08-28 | |
US62/892,637 | 2019-08-28 | ||
PCT/EP2020/058638 WO2020201039A1 (en) | 2019-03-29 | 2020-03-27 | Method and apparatus for low cost error recovery in predictive coding |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247010611A Division KR20240046634A (ko) | 2019-03-29 | 2020-03-27 | 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210141602A true KR20210141602A (ko) | 2021-11-23 |
KR102654181B1 KR102654181B1 (ko) | 2024-04-02 |
Family
ID=70057121
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247010611A KR20240046634A (ko) | 2019-03-29 | 2020-03-27 | 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 |
KR1020217033589A KR102654181B1 (ko) | 2019-03-29 | 2020-03-27 | 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247010611A KR20240046634A (ko) | 2019-03-29 | 2020-03-27 | 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20220199098A1 (ko) |
EP (1) | EP3948858A1 (ko) |
JP (2) | JP7420829B2 (ko) |
KR (2) | KR20240046634A (ko) |
CN (1) | CN113614827B (ko) |
CO (1) | CO2021013506A2 (ko) |
WO (1) | WO2020201039A1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040039464A1 (en) * | 2002-06-14 | 2004-02-26 | Nokia Corporation | Enhanced error concealment for spatial audio |
US20160111100A1 (en) * | 2013-05-28 | 2016-04-21 | Nokia Technologies Oy | Audio signal encoder |
US20160148618A1 (en) * | 2013-07-05 | 2016-05-26 | Dolby Laboratories Licensing Corporation | Packet Loss Concealment Apparatus and Method, and Audio Processing System |
US20160337776A1 (en) * | 2014-01-09 | 2016-11-17 | Dolby Laboratories Licensing Corporation | Spatial error metrics of audio content |
US20170180905A1 (en) * | 2014-04-01 | 2017-06-22 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7835916B2 (en) * | 2003-12-19 | 2010-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Channel signal concealment in multi-channel audio systems |
ES2387869T3 (es) | 2008-07-30 | 2012-10-03 | FRANCE TéLéCOM | Reconstrucción de datos de audio multicanal |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
CN104021792B (zh) * | 2014-06-10 | 2016-10-26 | 中国电子科技集团公司第三十研究所 | 一种语音丢包隐藏方法及其系统 |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
CN109155133B (zh) * | 2016-03-07 | 2023-06-02 | 弗劳恩霍夫应用研究促进协会 | 音频帧丢失隐藏的错误隐藏单元、音频解码器及相关方法 |
CN108810281B (zh) * | 2018-06-22 | 2020-12-11 | Oppo广东移动通信有限公司 | 丢帧补偿方法、装置、存储介质及终端 |
-
2020
- 2020-03-27 EP EP20715335.4A patent/EP3948858A1/en active Pending
- 2020-03-27 WO PCT/EP2020/058638 patent/WO2020201039A1/en active Application Filing
- 2020-03-27 KR KR1020247010611A patent/KR20240046634A/ko active Application Filing
- 2020-03-27 JP JP2021557779A patent/JP7420829B2/ja active Active
- 2020-03-27 KR KR1020217033589A patent/KR102654181B1/ko active IP Right Grant
- 2020-03-27 US US17/599,070 patent/US20220199098A1/en active Pending
- 2020-03-27 CN CN202080026050.0A patent/CN113614827B/zh active Active
-
2021
- 2021-10-11 CO CONC2021/0013506A patent/CO2021013506A2/es unknown
-
2024
- 2024-01-11 JP JP2024002291A patent/JP2024050601A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040039464A1 (en) * | 2002-06-14 | 2004-02-26 | Nokia Corporation | Enhanced error concealment for spatial audio |
US20160111100A1 (en) * | 2013-05-28 | 2016-04-21 | Nokia Technologies Oy | Audio signal encoder |
US20160148618A1 (en) * | 2013-07-05 | 2016-05-26 | Dolby Laboratories Licensing Corporation | Packet Loss Concealment Apparatus and Method, and Audio Processing System |
US20160337776A1 (en) * | 2014-01-09 | 2016-11-17 | Dolby Laboratories Licensing Corporation | Spatial error metrics of audio content |
US20170180905A1 (en) * | 2014-04-01 | 2017-06-22 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
Non-Patent Citations (3)
Title |
---|
ETSI TS 126 447 V12.0.0, EVS Codec Error Concealment of Lost Packets, 3GPP TS 26.447 version 12.0.0 Release 12, 2014.10. * |
ITU-T Recommendation. G.718. Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s. ITU-T, 2008.06. * |
Low-complexity, full-band audio coding for high-quality, conversational applications. Recommendation ITU-T G.719. 2008.06. * |
Also Published As
Publication number | Publication date |
---|---|
CN113614827A (zh) | 2021-11-05 |
CN113614827B (zh) | 2024-07-02 |
KR102654181B1 (ko) | 2024-04-02 |
JP7420829B2 (ja) | 2024-01-23 |
EP3948858A1 (en) | 2022-02-09 |
WO2020201039A1 (en) | 2020-10-08 |
JP2022526559A (ja) | 2022-05-25 |
JP2024050601A (ja) | 2024-04-10 |
KR20240046634A (ko) | 2024-04-09 |
US20220199098A1 (en) | 2022-06-23 |
CO2021013506A2 (es) | 2022-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108701464B (zh) | 多个音频信号的编码 | |
CN105378834B (zh) | 丢包掩蔽装置和方法以及音频处理系统 | |
RU2625444C2 (ru) | Система обработки аудио | |
CN105556596B (zh) | 使用基于残差信号调整解相关信号贡献的多声道音频解码器、多声道音频编码器、方法和数据载体 | |
CN110085239B (zh) | 对音频场景进行解码的方法、解码器及计算机可读介质 | |
KR101590919B1 (ko) | 멀티채널 오디오 데이터의 재구성 | |
KR102709512B1 (ko) | 다수의 오디오 신호들의 디코딩 | |
CN113196386B (zh) | 用于控制多声道音频帧丢失隐藏的方法和装置 | |
KR20240006717A (ko) | 스테레오 디코딩을 위한 스테레오 파라미터들 | |
US20160111100A1 (en) | Audio signal encoder | |
KR102717379B1 (ko) | 멀티 채널 오디오 프레임에서 예측적인 코딩에서 에러 복구를 위한 방법 및 장치 | |
KR102654181B1 (ko) | 예측 코딩에서 저비용 에러 복구를 위한 방법 및 장치 | |
EP3577647B1 (en) | Multi channel decoding | |
KR20240152948A (ko) | 멀티 채널 오디오 프레임에서 예측적인 코딩에서 에러 복구를 위한 방법 및 장치 | |
AU2021305381B2 (en) | Packet loss concealment | |
KR20220137005A (ko) | 다채널 사운드 코덱에 있어서 스테레오 코딩 모드들간의 스위칭 | |
CN118414662A (zh) | 自适应预测编码 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |