KR102548184B1 - 컴포트 노이즈 생성 지원 - Google Patents

컴포트 노이즈 생성 지원 Download PDF

Info

Publication number
KR102548184B1
KR102548184B1 KR1020207031954A KR20207031954A KR102548184B1 KR 102548184 B1 KR102548184 B1 KR 102548184B1 KR 1020207031954 A KR1020207031954 A KR 1020207031954A KR 20207031954 A KR20207031954 A KR 20207031954A KR 102548184 B1 KR102548184 B1 KR 102548184B1
Authority
KR
South Korea
Prior art keywords
spatial coherence
frequency band
audio channels
receiving node
coherence
Prior art date
Application number
KR1020207031954A
Other languages
English (en)
Other versions
KR20200140353A (ko
Inventor
프레드릭 얀슨
에릭 노벨
토마스 얀슨 토프트가드
Original Assignee
텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) filed Critical 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘)
Priority to KR1020237013683A priority Critical patent/KR20230058546A/ko
Publication of KR20200140353A publication Critical patent/KR20200140353A/ko
Application granted granted Critical
Publication of KR102548184B1 publication Critical patent/KR102548184B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/20Manipulation of established connections
    • H04W76/28Discontinuous transmission [DTX]; Discontinuous reception [DRX]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Stereophonic System (AREA)

Abstract

수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 방법 및 송신 노드. 이 방법은 송신 노드에 의해 수행된다. 이 방법은 적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하는 단계 및 오디오 신호들 사이의 공간 코히런스를 결정하는 단계를 포함한다. 공간 코히런스는 지각적 중요도 척도들과 연관된다. 공간 코히런스의 압축된 표현은 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스를 가중함으로써 주파수 대역별로 결정된다. 수신 노드에서의 컴포트 노이즈의 생성을 가능하게 하기 위해 스펙트럼 특성들 및 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보가 수신 노드에 시그널링된다.

Description

컴포트 노이즈 생성 지원
본 명세서에서 제시된 실시예는 수신 노드에서 적어도 2개의 오디오 채널에 대한 컴포트 노이즈(comfort noise)의 생성을 지원하기 위한 방법, 송신 노드, 컴퓨터 프로그램, 및 컴퓨터 프로그램 제품에 관한 것이다. 본 명세서에서 제시된 실시예는 추가로 수신 노드에서의 컴포트 노이즈의 생성을 위한 방법, 수신 노드, 컴퓨터 프로그램, 및 컴퓨터 프로그램 제품에 관한 것이다.
통신 네트워크에서는, 주어진 통신 프로토콜, 그의 파라미터 및 통신 네트워크가 설치된 물리적 환경에 대해 양호한 성능 및 용량을 획득하는 데 어려움이 있을 수 있다.
예를 들어, 비록 원격통신 네트워크에서의 용량이 지속적으로 증가하고 있지만, 사용자당 요구된 리소스 사용량을 제한하는 것이 여전히 관심 대상이다. 모바일 원격통신 네트워크에서, 통화당 더 적은 요구된 리소스 사용량은 모바일 원격통신 네트워크가 더 많은 수의 사용자에게 동시에 서비스를 제공할 수 있음을 의미한다. 리소스 사용량을 줄이는 것은 또한 (단말 디바이스에서와 같은) 사용자 측에서의 디바이스 및 (네트워크 노드에서와 같은) 네트워크 측에서의 디바이스 둘 모두에서 더 낮은 전력 소비를 가져온다. 이것은, 단말 디바이스에서 경험될 수 있는 연장된 배터리 수명 및 증가된 통화 시간(talk-time)을 가능하게 하면서, 네트워크 운영자를 위한 에너지 및 비용 절감으로 이어진다.
모바일 원격통신 네트워크에서 음성 통신 애플리케이션에 요구된 리소스 사용량을 감소시키기 위한 하나의 메커니즘은 발화에서의 자연스러운 일시중지를 이용하는 것이다. 더 상세히 말하면, 대부분의 대화에서 한 번에 하나의 당사자만이 활성이고, 따라서 하나의 통신 방향에서의 발화 일시중지(speech pause)가 전형적으로 신호의 절반 이상을 차지할 것이다. 요구된 리소스 사용량을 감소시키기 위해 이 속성을 활용하는 한 가지 방법은 발화 일시중지 동안 활성 신호 인코딩이 중단되는 불연속 전송(Discontinuous Transmission)(DTX) 시스템을 이용하는 것이다.
발화 일시중지 동안, 수신단에서의 CNG(Comfort Noise Generator) 시스템이 원래의 노이즈와 유사한 특성을 갖는 배경 노이즈로 위에서 언급된 일시중지를 채울 수 있게 하기 위해 배경 노이즈의 매우 낮은 비트 레이트의 인코딩을 전송하는 것이 통상적이다. 배경 노이즈가 유지되고 발화와 함께 스위치 온 및 스위치 오프되지 않기 때문에, CNG는 발화 일시중지에서 침묵을 갖는 것보다 사운드를 더 자연스럽게 만든다. 발화 일시중지에서의 완전한 침묵은 통상적으로 거슬리는 것으로 인지되며, 종종 통화가 끊어졌다는 오해를 가져온다.
DTX 시스템은, 활성 신호 인코딩을 사용할지 저 레이트 배경 노이즈 인코딩을 사용할지를 송신 디바이스에 알려주는, 음성 활동 검출기(Voice Activity Detector)(VAD)에 추가로 의존할 수 있다. 이와 관련하여, 송신 디바이스는, 음성과 배경 노이즈를 구별할 뿐만 아니라, 관련성이 있다고 간주되는, 음악 또는 다른 신호 유형을 검출하도록 구성될 수 있는, (일반) 사운드 활동 검출기((Generic) Sound Activity Detector)(GSAD 또는 SAD)를 사용하여 다른 소스 유형 간에 구별하도록 구성될 수 있다.
통신 서비스는 스테레오 또는 다중 채널 오디오 전송을 지원함으로써 더욱 향상될 수 있다. 이러한 경우에, DTX/CNG 시스템은 또한 듣기 좋은 컴포트 노이즈를 제공하기 위해 신호의 공간 특성을 고려할 수 있다.
컴포트 노이즈를 생성하는 통상적인 메커니즘은 발화 일시중지에서 배경 노이즈의 에너지 및 스펙트럼 형상에 관한 정보를 전송하는 것이다. 이것은 음성 세그먼트의 정규 코딩(regular coding)보다 상당히 더 적은 수의 비트를 사용하여 행해질 수 있다.
수신 디바이스 측에서는, 의사 랜덤 신호를 생성하고 이어서 송신 디바이스로부터 수신된 정보에 기초하여 필터를 사용하여 신호의 스펙트럼을 성형함으로써 컴포트 노이즈가 생성된다. 신호 생성 및 스펙트럼 성형은 시간 또는 주파수 도메인에서 수행될 수 있다.
본 명세서에서의 실시예의 목적은 2개 이상의 채널에 대한 컴포트 노이즈의 효율적인 생성을 가능하게 하는 것이다.
제1 양태에 따르면, 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 방법이 제시된다. 이 방법은 송신 노드에 의해 수행된다. 이 방법은 적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하는 단계를 포함한다. 이 방법은 각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스(spatial coherence)를 결정하는 단계를 포함하며, 여기서 공간 코히런스는 지각적 중요도 척도들(perceptual importance measures)과 연관된다. 이 방법은 공간 코히런스를 주파수 대역들로 분할하는 단계를 포함하며, 여기서 공간 코히런스의 압축된 표현은 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스를 가중함으로써 주파수 대역별로 결정된다. 이 방법은, 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 수신 노드에 시그널링하는 단계를 포함한다.
제2 양태에 따르면, 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 송신 노드가 제시된다. 송신 노드는 프로세싱 회로를 포함한다. 프로세싱 회로는 송신 노드로 하여금 적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하게 하도록 구성된다. 프로세싱 회로는 송신 노드로 하여금 각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정하게 하도록 구성되며, 여기서 공간 코히런스는 지각적 중요도 척도들과 연관된다. 프로세싱 회로는 송신 노드로 하여금 공간 코히런스를 주파수 대역들로 분할하게 하도록 구성되며, 여기서 공간 코히런스의 압축된 표현은 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스를 가중함으로써 주파수 대역별로 결정된다. 프로세싱 회로는, 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 송신 노드로 하여금 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 수신 노드에 시그널링하게 하도록 구성된다.
제3 양태에 따르면, 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 컴퓨터 프로그램이 제시되고, 컴퓨터 프로그램은, 송신 노드 상에서 실행될 때, 송신 노드로 하여금 적어도 제1 양태에 따른 방법을 수행하게 하는 컴퓨터 프로그램 코드를 포함한다.
제4 양태에 따르면, 제3 양태에 따른 컴퓨터 프로그램 및 컴퓨터 프로그램이 저장되는 컴퓨터 판독 가능 저장 매체를 포함하는 컴퓨터 프로그램 제품이 제시된다. 컴퓨터 판독 가능 저장 매체는 비일시적 컴퓨터 판독 가능 저장 매체일 수 있다.
제5 양태에 따르면, 라디오 트랜시버 디바이스가 제시된다. 라디오 트랜시버 디바이스는 제2 양태에 따른 송신 노드를 포함한다.
유리하게는, 이러한 방법들, 이러한 송신 노드들, 이러한 컴퓨터 프로그램, 이러한 컴퓨터 프로그램 제품 및 이러한 라디오 트랜시버 디바이스는 2개 이상의 채널에 대한 컴포트 노이즈의 효율적인 생성을 가능하게 한다.
유리하게는, 이러한 방법들, 이러한 송신 노드들, 이러한 컴퓨터 프로그램, 이러한 컴퓨터 프로그램 제품 및 이러한 라디오 트랜시버 디바이스는 위에서 언급된 문제를 겪지 않고 2개 이상의 채널에 대한 컴포트 노이즈가 생성될 수 있게 한다.
유리하게는, 이러한 방법들, 이러한 송신 노드들, 이러한 컴퓨터 프로그램, 이러한 컴퓨터 프로그램 제품 및 이러한 라디오 트랜시버 디바이스는, 수신 노드에서 사실적인 스테레오 이미지를 재생성하는 능력을 유지하면서, 스테레오 또는 다중 채널 DTX 시스템에서 인코딩될 필요가 있는 정보의 양이 감소될 수 있게 한다.
포함된 실시예들의 다른 목적들, 특징들 및 장점들은 이하의 상세한 개시, 청구 범위는 물론 도면으로부터 명백할 것이다.
이제 발명 개념이 첨부 도면을 참조하여, 예로서, 설명된다.
도 1은 실시예들에 따른 통신 네트워크를 예시하는 개략 다이어그램이다;
도 2는 실시예에 따른 DTX 시스템을 개략적으로 예시한다;
도 3 및 도 4는 실시예들에 따른 방법들의 플로차트들이다;
도 5 및 도 6은 실시예들에 따른 채널 코히런스 값들의 스펙트럼들을 개략적으로 예시한다;
도 7은 일부 실시예에 따른 인코딩 프로세스를 예시하는 플로차트이다;
도 8은 일부 실시예에 따른 절단(truncation) 스킴을 예시한다;
도 9는 일부 실시예에 따른 디코딩 프로세스를 예시하는 플로차트이다;
도 10은 일 실시예에 따른 프로세스를 예시하는 플로차트이다;
도 11은 일 실시예에 따른 프로세스를 예시하는 플로차트이다;
도 12는 실시예에 따른 송신 노드의 기능 유닛들을 도시하는 개략 다이어그램이다;
도 13는 실시예에 따른 송신 노드의 기능 모듈들을 도시하는 개략 다이어그램이다;
도 14는 실시예에 따른 컴퓨터 판독 가능 저장 매체를 포함하는 컴퓨터 프로그램 제품의 일 예를 도시한다;
도 15는 일부 실시예에 따른 스테레오 인코딩 및 디코딩 시스템을 예시한다.
발명 개념의 특정 실시예들이 도시되어 있는 첨부 도면들을 참조하여 발명 개념이 이제 이하에서 더 상세히 설명될 것이다. 그렇지만, 이러한 발명 개념은 많은 상이한 형태로 구현될 수 있고 본 명세서에 기재된 실시예들로 제한되는 것으로 해석되어서는 안되며; 오히려, 이러한 실시예들은 본 개시가 철저하고 완전하며 발명 개념의 범위를 본 기술 분야의 통상의 기술자에게 충분히 전달하도록 예로서 제공된다. 유사한 번호들은 설명 전반에 걸쳐 유사한 요소들을 지칭한다. 파선으로 예시된 임의의 단계 또는 특징은 임의적인 것으로 간주되어야 한다.
공간 코히런스는 다중 채널 오디오 표현의 공간 속성들을 구성하며, 오디오 채널들 간의 코히런스를 나타내므로 채널 코히런스라고도 불린다. 이하의 설명에서, 용어 채널 코히런스 및 공간 코히런스는 상호 교환 가능하게 사용된다.
2개의 스테레오 채널 각각에서의 신호에 대해 개별적으로 작동하는 자체 DTX 시스템을 각각 갖는 2개의 모노 인코더가 사용될 때, 2개의 상이한 신호에서의 상이한 에너지 및 스펙트럼 형상이 전송될 것이다.
대부분의 현실적인 경우에, 좌 채널에서의 신호와 우 채널에서의 신호 사이의 에너지 및 스펙트럼 형상의 차이가 크지 않을 것이지만, 신호의 스테레오 이미지가 얼마나 넓게 인지되는지에서 여전히 큰 차이가 있을 수 있다.
컴포트 노이즈를 생성하는 데 사용되는 랜덤 시퀀스가 좌 채널에서의 신호와 우 채널에서의 신호 간에 동기화되면, 결과는 매우 좁은 스테레오 이미지를 갖고 사운드가 청취자의 머리의 중심으로부터 나오는 느낌을 주는 스테레오 신호 사운드일 것이다. 그 대신에 좌 채널에서의 신호와 우 채널에서의 신호가 동기화되지 않으면, 이는 반대 효과, 즉 매우 넓은 스테레오 이미지를 갖는 신호를 제공할 것이다.
대부분의 경우에, 원래의 배경 노이즈는 이러한 두 극단 사이의 어딘가에 있는 스테레오 이미지를 가질 것이며, 이는, 랜덤 시퀀스가 동기화되어 있거나 동기화되어 있지 않든 간에, 송신 디바이스가 스테레오 폭의 양호한 표현을 갖는 활성 음성 인코딩과 비활성 노이즈 인코딩 사이에서 전환할 때 스테레오 이미지에 거슬리는 차이가 있을 것임을 의미한다.
예를 들면, 송신 디바이스의 사용자가 여기저기로 이동하기 때문에 및/또는 배경에서 발생하는 일들로 인해, 원래의 배경 노이즈의 인지된 스테레오 이미지 폭이 통화 동안에도 변경될 수 있다. 자체 DTX 시스템을 각각 가지는 2개의 모노 인코더를 갖는 시스템은 이러한 변경을 따르는 메커니즘을 갖지 않는다.
듀얼 모노 DTX 시스템을 사용하는 것의 하나의 추가적인 문제는 VAD 결정이 2개의 채널 간에 동기화되지 않을 것이고, 이는, 예를 들면, 좌 채널에서의 신호가 활성 인코딩으로 인코딩되고 우 채널에서의 신호가 저 비트 레이트 컴포트 노이즈 인코딩으로 인코딩될 때 가청 아티팩트를 야기할 수 있다는 것이다. 이는 또한 랜덤 시퀀스가 일부 시간 인스턴스에서는 동기화되고 다른 시간 인스턴스에서는 동기화되지 않는 것을 초래할 수 있어, 시간이 지남에 따라 매우 넓은 것과 매우 좁은 것 사이에서 토글하는 스테레오 이미지를 결과할 것이다.
따라서, 2개 이상의 채널에 대한 컴포트 노이즈의 개선된 생성에 대한 필요성이 여전히 있다.
이하의 실시예들은 2개의 채널(스테레오 오디오)에 대한 DTX 시스템을 설명하지만, 일반적으로 이 방법들은 다중 채널 오디오에 대한 DTX 및 CNG에 적용될 수 있다.
도 1은 본 명세서에서 제시된 실시예들이 적용될 수 있는 통신 네트워크(100)를 예시하는 개략 다이어그램이다. 통신 네트워크(100)는 통신 링크(110)를 통해 수신 노드(200b)와 통신하는 송신 노드(200a)를 포함한다.
송신 노드(200a)는 직접 통신 링크(110)를 통해 수신 노드(200b)와 통신할 수 있거나, 또는 통신 네트워크(100) 내의 네트워크 노드 등과 같은 하나 이상의 다른 디바이스, 노드, 또는 엔티티를 경유하는 간접 통신 링크(110)를 통해 수신 노드(200b)와 통신할 수 있다.
일부 양태에서, 송신 노드(200a)는 라디오 트랜시버 디바이스(200)의 일부이고, 수신 노드(200b)는 다른 라디오 트랜시버 디바이스(200)의 일부이다. 추가적으로, 일부 양태에서, 라디오 트랜시버 디바이스(200)는 송신 노드(200a) 및 수신 노드(200b) 둘 모두를 포함한다. 라디오 트랜시버 디바이스의 상이한 예가 있을 수 있다. 예는 휴대용 무선 디바이스, 이동국, 모바일 폰, 핸드셋, 무선 로컬 루프 전화기, 사용자 장비(UE), 스마트 폰, 랩톱 컴퓨터, 및 태블릿 컴퓨터를 포함하지만 이에 제한되지 않는다.
위에서 개시된 바와 같이, DTX 시스템은 필요한 경우에만 인코딩된 음성/오디오를 전송하기 위해 사용될 수 있다. 도 2는 하나 이상의 오디오 채널에 대한 DTX 시스템(300)의 개략 블록 다이어그램이다. DTX 시스템(300)은 송신 노드(200a)의 일부이거나, 송신 노드(200a)와 공존(collocated)하거나, 또는 송신 노드(200a) 내에 구현될 수 있다. 입력 오디오는 VAD(310), 음성/오디오 인코더(320) 및 CNG 인코더(330)에 제공된다. 신호가 음성 또는 오디오를 포함함을 VAD가 나타낼 때는 음성/오디오 인코더가 활성화되고, 신호가 배경 노이즈를 포함함을 VAD가 나타낼 때는 CNG 인코더가 활성화된다. VAD는 그에 대응하여 음성/오디오 인코더로부터의 출력을 전송할지 CNG 인코더로부터의 출력을 전송할지를 선택적으로 제어한다. 2개 이상의 채널에 대한 컴포트 노이즈의 생성을 위한 기존의 메커니즘에서의 문제가 위에서 개시되었다.
따라서, 본 명세서에서 개시된 실시예들은 수신 노드(200b)에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하고 수신 노드(200b)에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈를 생성하기 위한 메커니즘에 관한 것이다. 그러한 메커니즘을 획득하기 위해, 송신 노드(200a), 송신 노드(200a)에 의해 수행되는 방법, 송신 노드(200a) 상에서 실행될 때, 송신 노드(200a)로 하여금 방법을 수행하게 하는, 예를 들어, 컴퓨터 프로그램 형태의, 코드를 포함하는 컴퓨터 프로그램 제품이 제공된다. 그러한 메커니즘을 획득하기 위해, 수신 노드(200b), 수신 노드(200b)에 의해 수행되는 방법, 및 수신 노드(200b)의 프로세싱 회로 상에서 실행될 때, 수신 노드(200b)로 하여금 방법을 수행하게 하는, 예를 들어, 컴퓨터 프로그램 형태의, 코드를 포함하는 컴퓨터 프로그램 제품이 추가로 제공된다.
도 3은 수신 노드(200b)에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 방법의 실시예를 예시하는 플로차트이다. 이 방법은 송신 노드(200a)에 의해 수행된다. 이 방법은 유리하게는 컴퓨터 프로그램(1420)으로서 제공된다.
S102: 송신 노드(200a)는 적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정한다.
S104: 송신 노드(200a)는 각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정한다. 공간 코히런스는 지각적 중요도 척도들과 연관된다.
DTX 시스템(300)을 사용하는 것을 뒷받침하는 전체적인 이론적 근거가 음성/오디오 사이의 일시정지에서 필요한 만큼의 적은 정보를 전송하는 것이기 때문에 공간 코히런스가 전송 이전에 매우 효율적인 방식으로 인코딩된다.
S106: 송신 노드(200a)는 공간 코히런스를 주파수 대역들로 분할한다. 공간 코히런스의 압축된 표현은 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스 값들을 가중함으로써 주파수 대역별로 결정된다.
S108: 송신 노드(200a)는, 수신 노드(200b)에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 수신 노드에 시그널링한다.
실시예에 따르면, 지각적 중요도 척도는 적어도 2개의 입력 오디오 채널의 스펙트럼 특성들에 기초한다.
실시예에 따르면, 지각적 중요도 척도는 적어도 2개의 입력 오디오 채널의 전력 스펙트럼들에 기초하여 결정된다.
실시예에 따르면, 지각적 중요도 척도는 적어도 2개의 입력 오디오 채널의 가중 합의 전력 스펙트럼에 기초하여 결정된다.
실시예에 따르면, 공간 코히런스의 압축된 표현은 주파수 대역별 하나의 단일 값이다.
도 4는 수신 노드(200b)에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 방법의 실시예를 예시하는 플로차트이다. 이 방법은 송신 노드(200a)에 의해 수행된다. 이 방법은 유리하게는 컴퓨터 프로그램(1420)으로서 제공된다.
S202: 송신 노드(200a)는 적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정한다. 스펙트럼 특성들은 지각적 중요도 척도들과 연관된다.
S204: 송신 노드(200a)는 각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정한다. 공간 코히런스는 주파수 대역들로 분할된다.
DTX 시스템(300)을 사용하는 것을 뒷받침하는 전체적인 이론적 근거가 음성/오디오 사이의 일시정지에서 필요한 만큼의 적은 정보를 전송하는 것이기 때문에 공간 코히런스가 전송 이전에 매우 효율적인 방식으로 인코딩된다. 따라서 공간 코히런스의 하나의 단일 값이 주파수 대역별로 결정된다.
공간 코히런스의 단일 값은 각각의 주파수 대역 내에서의 공간 코히런스 값들을 가중함으로써 결정된다. 가중을 위해 사용되는 가중 함수의 하나의 목적은 다른 주파수보다 지각적으로 더 중요한 주파수에서 발생하는 공간 코히런스에 더 높은 가중치를 두는 것이다. 따라서, 각각의 주파수 대역 내에서의 공간 코히런스 값들은 스펙트럼 특성들의 대응하는 값들의 지각적 중요도 척도들에 따라 가중된다.
S206: 송신 노드(200a)는, 수신 노드(200b)에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 단일 값들에 관한 정보를 수신 노드(200b)에 시그널링한다.
수신 노드(200b)에 있는 디코더에서, 코히런스가 재구성되고 원래의 사운드와 유사한 스테레오 이미지를 갖는 컴포트 노이즈 신호가 생성된다.
송신 노드(200a)에 의해 수행되는 바와 같이 수신 노드(200b)에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하는 것에 대한 추가 세부 사항에 관련된 실시예들이 이제 개시될 것이다.
본 명세서에 개시된 실시예들은 스테레오 인코더 및 디코더 아키텍처는 물론 채널 쌍에서 채널 코히런스가 고려되는 다중 채널 인코더 및 디코더에 적용될 수 있다.
일부 양태에서, 스테레오 인코더는 입력으로서 채널 쌍 [l(m,n) r(m,n)]을 수신하고, 여기서 l(m,n) 및 r(m,n)은, 제각기, 프레임 m의 샘플 인덱스 n에 대한 좌 채널 및 우 채널에 대한 입력 신호를 나타낸다. 신호는 샘플링 주파수 fs로 길이 N 샘플의 프레임 단위로 프로세싱되고, 여기서 프레임의 길이는 (과거 샘플들의 룩어헤드(look-ahead) 및/또는 메모리(memory)와 같은) 오버랩을 포함할 수 있다.
도 2에서와 같이, 신호가 배경 노이즈를 포함함을 스테레오 인코더(VAD)가 나타낼 때 스테레오 CNG 인코더가 활성화된다. 신호는, 예를 들면, 이산 푸리에 변환(DFT) 또는 QMF(quadrature mirror filter), 하이브리드 QMF 또는 수정된 이산 코사인 변환(MDCT)과 같은 임의의 다른 적합한 필터 뱅크 또는 변환에 의해 주파수 도메인으로 변환된다. DFT 또는 MDCT 변환이 사용되는 경우에, 입력 신호는 전형적으로 변환 이전에 윈도잉되어, 다음에 따라 결정되는 채널 쌍 [lwin(m,n) rwin(m,n)]을 결과한다:
Figure 112020118050911-pct00001
따라서, 실시예에 따르면, 적어도 2개의 오디오 채널의 프레임 인덱스 m 및 샘플 인덱스 n에 대한 오디오 신호 l(m,n), r(m,n)은 스펙트럼 특성들이 결정되기 전에 각자의 윈도잉된 신호 lwin(m,n), rwin(m,n)을 형성하도록 윈도잉된다. 윈도의 선택은 일반적으로, 시간 및 주파수 분해능 특성들, 알고리즘적 지연(오버랩 길이), 재구성 속성들 등과 같은, 다양한 파라미터들에 의존할 수 있다. 이와 같이 윈도잉된 채널 쌍 [lwin(m,n) rwin(m,n)]은 이어서 다음에 따라 변환된다:
Figure 112020118050911-pct00002
주파수 f에 대한 채널 코히런스 Cgen(f)의 일반적인 정의는 다음과 같이 주어지며:
Figure 112020118050911-pct00003
여기서 Sxx(f) 및 Syy(f)는 2개의 채널 x 및 y의 각자의 전력 스펙트럼을 나타내고, Sxy(f)는 2개의 채널 x 및 y의 교차 전력 스펙트럼(cross power spectrum)이다. DFT 기반 솔루션에서, 스펙트럼은 DFT 스펙트럼에 의해 표현될 수 있다. 특히, 실시예에 따르면, 프레임 인덱스 m 및 주파수 빈 인덱스 k에 대한 공간 코히런스 C(m,k)는 다음과 같이 결정되며:
Figure 112020118050911-pct00004
여기서 L(m, k)는 윈도잉된 오디오 신호 lwin(m,n)의 스펙트럼이고, 여기서 R(m, k)는 윈도잉된 오디오 신호 rwin(m,n)의 스펙트럼이며, 여기서 *는 복소 공액을 나타낸다.
코히런스에 대한 상기 표현은 통상적으로 높은 주파수 분해능으로 계산된다. 이러한 한 가지 이유는 주파수 분해능이 신호 프레임 크기에 의존하고, CNG 인코딩에 대한 신호 프레임 크기가 고분해능이 요망되는 활성 음성/오디오 인코딩에 대해서와 전형적으로 동일하기 때문이다. 다른 이유는 높은 주파수 분해능이 지각적 동기로 인한(perceptually motivated) 주파수 대역 분할을 가능하게 하기 때문이다. 또 다른 이유는 코히런스 계산의 요소들, 즉 L(m,k), R(m,k), Sxx, Sxy, Syy가, 전형적인 오디오 인코더에서, 더 높은 주파수 분해능이 요망되는 다른 목적으로 사용될 수 있기 때문이다. 샘플링 주파수 fs = 48kHz 및 20ms의 프레임 길이인 경우의 전형적인 값은 채널 코히런스를 위한 960개의 주파수 빈일 것이다.
비활성(즉, 비-음성) 세그먼트를 인코딩하기 위한 비트 레이트를 낮게 유지하는 것이 중요한 DTX 애플리케이션의 경우, 높은 주파수 분해능으로 채널 코히런스를 전송하는 것은 실현가능하지 않다. 채널 코히런스를 표현하는 데 필요한 비트 수를 감소시키기 위해, 도 5에 도시된 바와 같이, 스펙트럼이 주파수 대역들로 분할될 수 있으며, 여기서 각각의 주파수 대역 내에서의 채널 코히런스는 단일 값 또는 어떤 다른 압축된 표현에 의해 표현될 것이다. 주파수 대역들의 수는 전형적으로 20 내지 20000Hz의 전체 가청 대역폭에 대해 2 내지 50 정도이다.
모든 주파수 대역들이 동일한 주파수별 폭(frequency-wise width)을 가질 수 있지만, 오디오 코딩 애플리케이션에서는 각각의 주파수 대역의 폭을 오디오에 대한 인간 지각에 매칭시키는 것이 더 통상적이며, 따라서 낮은 주파수에 대해서는 비교적 좁은 주파수 대역을 결과하고 더 높은 주파수에 대해서는 증가하는 폭의 주파수 대역을 결과한다. 특히, 실시예에 따르면, 공간 코히런스는 동일하지 않은 길이들의 주파수 대역들로 분할된다. 예를 들어, 주파수 대역이 ERB 레이트 스케일을 사용하여 생성될 수 있으며, 여기서 ERB는 등가 사각 주파수 대역폭(equivalent rectangular frequency bandwidth)의 약자이다.
일 실시예에서, 코히런스의 압축된 표현은 각각의 주파수 대역 내에서의 코히런스의 평균 값에 의해 정의되고, 이러한 주파수 대역별 단일 값은 수신 노드(200b)에 있는 디코더로 전송되고, 따라서 디코더는 이어서 컴포트 노이즈를 생성할 때 주파수 대역 내의 모든 주파수들에 대해 이 단일 값을 사용할 수 있거나, 또는 어쩌면 시간 및/또는 주파수의 갑작스러운 변화를 피하기 위해 신호 프레임들 및/또는 주파수 대역들에 걸쳐 약간 평활화하여 이 단일 값을 사용할 수 있다.
그렇지만, 단계(S204)에서 위에서 개시된 바와 같이, 다른 실시예에서, 주파수 대역 내의 상이한 주파수들은 주파수 대역별 단일 코히런스 값의 결정에서 지각적 중요도 척도들에 따라 상이한 가중치들을 부여받는다.
지각적 중요도 척도들의 상이한 예들이 있을 수 있다.
일부 양태에서, 지각적 중요도 척도는 스펙트럼 특성들에 관련된다.
특히, 일 실시예에서, 지각적 중요도 척도는 적어도 2개의 입력 오디오 신호의 크기 또는 전력 스펙트럼에 관련된다.
다른 실시예에서, 지각적 중요도 척도는 적어도 2개의 입력 오디오 채널에 대한 가중 합의 크기 또는 전력 스펙트럼에 관련된다.
일부 양태에서, 높은 에너지는 높은 지각적 중요도에 대응하고, 그 반대의 경우도 마찬가지이다. 특히, 실시예에 따르면, 더 높은 전력을 갖는 주파수 계수들에 대응하는 공간 코히런스 값들이 더 낮은 에너지를 갖는 주파수 계수들에 대응하는 상기 공간 코히런스 값들에 비해 공간 코히런스의 이 하나의 단일 값에 더 많은 영향을 미치도록 각각의 주파수 대역 내에서의 공간 코히런스 값들이 가중된다.
실시예에 따르면, 주파수 대역 내의 상이한 주파수들은 각각의 주파수에서의 전력에 따라 상이한 가중치들을 부여받는다. 이 실시예를 뒷받침하는 하나의 이론적 근거는 더 높은 에너지를 갖는 주파수가 더 낮은 에너지를 갖는 다른 주파수에 비해 결합된 코히런스 값에 더 많은 영향을 미쳐야 한다는 것이다.
일부 다른 양태에서, 지각적 중요도 척도는 인코딩된 스펙트럼 특성들에 관련된다. 인코딩된 스펙트럼 특성들은 수신 노드(200b)에서 재구성되는 바와 같은 신호를 더 가깝게(즉, 인코딩되지 않은 스펙트럼 특성들보다 더 가깝게) 반영할 수 있다.
일부 다른 양태에서, 지각적 중요도 척도는 공간 코히런스에 관련된다. 예를 들어, 더 높은 공간 코히런스를 갖는 신호 성분을 더 낮은 공간 코히런스를 갖는 신호 성분보다 더 정확하게 표현하는 것이 더 지각적으로 중요할 수 있다. 다른 양태에서, 지각적 중요도 척도는, 능동적으로 인코딩된 음성/오디오 세그먼트를 포함하여, 시간에 따른 공간 코히런스에 관련될 수 있다. 이러한 하나의 이유는 능동적으로 인코딩된 음성/오디오 세그먼트에서와 유사한 특성들의 공간 코히런스를 생성하는 것이 지각적으로 중요할 수 있기 때문이다.
다른 지각적 중요도 척도가 또한 구상된다.
실시예에 따르면, 가중 평균이 각각의 주파수 대역에서의 코히런스를 표현하는 데 사용되고, 여기서 모노 신호 lr(m,n) = w1 l(m,n) + w2 r(m,n)에 대한 변환된 에너지 스펙트럼 |LR(m,k)|2이 프레임 m 내에서의 지각적 중요도 척도들을 정의하고 가중 함수로서 사용된다. 즉, 일부 양태에서, lr(m,n) = w1 l(m,n) + w2 r(m,n)의 에너지 스펙트럼 |LR(m,k)|2은 공간 코히런스 값들을 가중하는 데 사용된다. 다운믹스 가중치 w1 및 w2는 시간에 걸쳐 일정하거나 가변적일 수 있거나, 또는 유사한 동작이 주파수 도메인에서 수행되는 경우, 주파수에 걸쳐 일정하거나 가변적일 수 있다. 일 실시예에서, 채널에 대한 가중치는 동일하며, 예를 들면, w1 = w2 = 0.5이다. 이어서, 실시예에 따르면, 각각의 주파수 대역은 하위 주파수 빈과 상부 주파수 빈 사이에 연장되며, 프레임 인덱스 m 및 주파수 대역 b에 대한 공간 코히런스 Cw(m,b)의 하나의 단일 값은 다음과 같이 결정되며:
Figure 112020118050911-pct00005
여기서 m은 프레임 인덱스이고, b는 주파수 대역의 인덱스이며, Nband는 주파수 대역들의 총수이고, 여기서 limit(b)는 주파수 대역 b의 최하위 주파수 빈을 나타낸다. 따라서 파라미터 limit(b)는 각각의 주파수 대역에서의 첫 번째 계수를 기술하고, 주파수 대역들 사이의 경계들을 정의한다. 이 실시예에서, limit(b)는 주파수 대역 Nband - 1의 상한을 정의하기 위해 주파수 대역 Nband에 대해서도 정의될 것이다. limit(b)를 획득하는 상이한 방식들이 있을 수 있다. 실시예에 따르면, limit(b)는 함수 또는 룩업 테이블로서 제공된다.
도 6은 주파수 대역 b + 1에서의 가중을 예시한다. 각각의 주파수 빈에 대해, 실선 수직선을 갖는 포인트는 코히런스 값을 나타내고, 일점쇄선 수직선을 갖는 포인트는 스펙트럼 특성들의 대응하는 값들의 에너지를 나타낸다. 수평 점선은 주파수 대역 b + 1에서 4개의 코히런스 값의 평균을 나타내고, 일점쇄선은 가중 평균을 나타낸다. 이 예에서, 주파수 대역 b + 1에서의 세 번째 빈은 높은 코히런스 값 및 높은 에너지 둘 모두를 가지며, 이로 인해 가중 평균이 비가중 평균보다 더 높다.
에너지가 주파수 대역에서의 모든 빈에 대해 동일하다고 가정하면, 가중 평균과 비가중 평균은 동일할 것이다. 게다가, 하나의 빈을 제외한 주파수 대역에서의 모든 빈에 대해 에너지가 0이라고 가정하면, 가중 평균은 해당 하나의 빈의 코히런스 값과 동일할 것이다.
공간 코히런스 값 Cw(m, b)는 이어서 수신 노드(200b)에 있는 디코더에 저장되거나 전송되기 위해 인코딩되며, 여기서 사실적인 스테레오 이미지를 생성하기 위해 컴포트 노이즈가 디코딩된 코히런스를 사용하여 생성된다.
실시예에 따른 공간 코히런스의 인코딩
주파수 대역별로 주어진 코히런스 대표 값들은 공간 코히런스 벡터
Figure 112020118050911-pct00006
을 형성하고, 여기서 Nbnd는 주파수 대역들의 수이고, b는 주파수 대역 인덱스이며, m은 프레임 인덱스이다. 실시예에서, 공간 코히런스 벡터 Cm의 값들 Cb,m은 프레임 m 및 대역 b에 대한 가중된 공간 코히런스 값들 Cw(m,b)에 대응한다.
실시예에서, 코히런스 벡터는 예측 스킴 및 이에 뒤이은 가변 비트 레이트 엔트로피 코딩을 사용하여 인코딩된다. 코딩 스킴은 적응적 인터 프레임 예측(adaptive inter-frame prediction)을 통해 성능을 더욱 개선시킨다. 코히런스 벡터의 인코딩은 다음과 같은 속성들을 고려한다: (1) 다양한 프레임별 비트 버짓 Bm에 적응 가능한 인코딩, (2) 코히런스 벡터가 강력한 프레임간 유사성(frame-to-frame similarity)을 보여주는 것, (3) 에러 전파가 손실된 프레임에 대해 낮게 유지되어야 하는 것.
다양한 프레임별 비트 버짓을 해결하기 위해, 조악-미세(coarse-fine) 인코딩 전략이 구현된다. 더 구체적으로, 조악한 인코딩이 먼저 낮은 비트 레이트로 달성되고, 비트 한계(bit limit)에 도달할 때, 후속하는 미세한 인코딩이 절단될 수 있다.
일부 실시예에서, 조악한 인코딩은 예측 스킴을 활용하여 수행된다. 그러한 실시예에서, 예측자는 대역 b를 증가시키기 위해 코히런스 벡터를 따라 작동하고, 벡터의 이전 값들에 기초하여 각각의 계수를 추정한다. 즉, 코히런스 벡터의 인트라 프레임 예측이 수행되고, 다음과 같이 주어진다:
Figure 112020118050911-pct00007
각각의 예측자 세트 P(q)는 (Nbnd -1)개의 예측자로 구성되고, 각각의 예측자는 각각의 대역 b에 대해 (b - 1)개의 예측자 계수를 포함하며, 여기서 q = 1,2, ... Nq이고 Nq는 예측자 세트들의 총수를 나타낸다. 위에서 나타낸 바와 같이, b = 1일 때 이전 값들이 없고 코히런스 벡터의 인트라 프레임 예측은 0이다. 예로서, 6개의 코히런스 대역이 있을 때, 즉 Nbnd = 6일 때, 예측자 세트 번호 q는 다음과 같이 주어진다.
Figure 112020118050911-pct00008
다른 예로서, 예측자 세트들의 총수는 4개, 즉 Nq = 4일 수 있고, 이는 선택된 예측자 세트가 2 비트를 사용하여 시그널링될 수 있음을 나타낸다. 일부 실시예에서, 예측자 세트 q에 대한 예측자 계수들이 순차적으로 어드레싱되고 길이
Figure 112020118050911-pct00009
의 단일 벡터에 저장될 수 있다.
도 7은 일부 실시예에 따른 인코딩 프로세스(701)를 예시하는 플로차트이다. 인코딩 프로세스(701)는 다음과 같은 단계들에 따라 인코더에 의해 수행될 수 있다:
단계(700)에서, 각각의 프레임 m에 대해, 인코딩을 위해 소비되는 비트들을 추적하기 위한 비트 변수(비트 카운터라고도 지칭됨)가 0으로 초기화된다(Bcurr,m = 0). 인코딩 알고리즘은 인코딩할 코히런스 벡터(Cb,m), 이전에 재구성된 코히런스 벡터
Figure 112020118050911-pct00010
의 사본, 및 비트 버짓 Bm을 수신한다. 일부 실시예에서, 이전 인코딩 단계들에서 소비된 비트들은 Bm 및 Bcurr,m에 포함될 수 있다. 그러한 실시예에서, 아래의 알고리즘에서의 비트 버짓은 Bm - Bcurr,m에 의해 주어질 수 있다.
단계(710)에서, 이용 가능한 예측자들
Figure 112020118050911-pct00011
중 가장 작은 예측 에러를 제공하는 예측자 세트
Figure 112020118050911-pct00012
가 선택된다. 선택된 예측자 세트는 다음과 같이 주어진다.
Figure 112020118050911-pct00013
일부 실시예에서, b = 1은 예측자 세트로부터 생략되는데 그 이유는 예측이 0이고 에러에 대한 기여도가 모든 예측자 세트에 대해 동일할 것이기 때문이다. 선택된 예측자 세트 인덱스가 저장되고 비트 카운터(Bcurr,m)는 요구된 비트 수만큼 증가되며, 예를 들어, 예측자 세트를 인코딩하는 데 2 비트가 요구되는 경우
Figure 112020118050911-pct00014
Figure 112020118050911-pct00015
.
단계(720)에서, 예측 가중 인자 α가 계산된다. 예측 가중 인자는 아래의 단계(760)에서 설명되는 바와 같은 가중된 예측을 생성하는 데 사용된다. 가중치 인자 α는 각각의 프레임 m에서의 공간 코히런스 값들의 벡터를 인코딩하는 데 이용 가능한 비트 버짓 Bm에 기초하여 결정된다.
일반적으로, 가중치 인자 α는 0 내지 1의 범위에 있는 값을 취할 수 있으며, 즉 현재 프레임으로부터의 정보만을 사용하는 것(α = 1)과 이전 프레임으로부터의 정보만을 사용하는 것(α = 0) 및 이들 사이에의 임의의 것(0 <α <1)을 취할 수 있다. 더 낮은 가중치 인자 α는 인코딩을 손실된 프레임에 더 민감하게 만들 수 있기 때문에 가능한 한 높은 가중치 인자 α를 사용하는 것이 일부 양태에서 바람직하다. 그러나 가중치 인자 α의 선택은 프레임(m)별 비트 버짓 Bm과 균형을 이루어야 하는데, 그 이유는 가중치 인자 α의 낮은 값은 통상적으로 더 적은 인코딩된 비트를 생성하기 때문이다.
인코딩에 사용된 가중치 인자 α의 값은, 적어도 암시적으로, 수신 노드(200b)에 있는 디코더에 알려져 있어야 한다. 즉, 실시예에서, 가중치 인자 α에 관한 정보는 (단계(S1016)에서와 같이) 인코딩되어 디코더에 전송되어야 한다. 다른 실시예에서, 디코더는 디코더에서 이미 이용 가능한 다른 파라미터들에 기초하여 예측 가중치 인자를 도출할 수 있다. 가중치 인자 α에 관한 정보를 어떻게 제공할지에 대한 추가 양태는 아래에서 개시될 것이다.
공간 코히런스를 인코딩하기 위한 프레임 m에 대한 비트 버짓 Bm이 송신 노드(200a)로부터의 명시적인 시그널링 없이 수신 노드(200b)에 있는 디코더에 알려져 있는 것으로 추가로 가정된다. 이 점에서, 비트 버짓 Bm의 값이 수신 노드(200b)에 명시적으로 시그널링될 필요가 없다. 이는 부수 효과로서 오게 되는데, 그 이유는 수신 노드(200b)에 있는 디코더가 비트스트림을 어떻게 해석할지를 알고 있고 또한 몇 비트가 디코딩되었는지를 알고 있기 때문이다. 나머지 비트는 (역시 알려져 있는) 총 비트 버짓으로부터 디코딩된 비트 수를 감산함으로써 수신 노드(200b)에 있는 디코더에서 간단히 구해진다.
일부 양태에서, 비트 버짓 Bm에 기초하여, 사용된 후보 가중치 인자가 주어진 경우, 인코딩된 비트의 총수를 구하기 위해 후보 가중치 인자 세트가 선택되고 이들 후보 가중치 인자 전부에 대해 결합된 예측 및 잔차 인코딩 스킴을 사용하는 시험 인코딩(trial encoding)(아래에서 개시된 바와 같은 레이트 절단 전략을 수행하지 않음)이 수행된다. 특히, 실시예에 따르면, 가중치 인자 α는 적어도 2개의 후보 가중치 인자의 세트를 선택하고 각각의 후보 가중치 인자에 대한 공간 코히런스 값들의 벡터의 시험 인코딩을 수행함으로써 결정된다.
일부 양태에서, 시험 인코딩 동안 어느 후보 가중치 인자들을 사용할지는 비트 버짓 Bm에 기초한다. 이 점에서, 후보 가중치 인자들은 비트 버짓 Bm을 입력으로 사용하여 테이블 룩업을 수행하는 것에 의해 또는 비트 버짓 Bm을 함수에 입력하는 것에 의해 결정될 수 있다. 테이블 룩업은 배경 노이즈 세트에 대한 트레이닝을 통해 획득된 테이블 값들에 대해 수행될 수 있다.
각각의 후보 가중치 인자에 대한 시험 인코딩은 공간 코히런스 값들의 벡터에 대한 인코딩된 비트들의 각자의 총수를 산출한다. 가중치 인자 α는 이어서 후보 가중치 인자들에 대한 인코딩된 비트들의 총수가 비트 버짓 Bm 내에 들어맞는지 여부에 따라 선택될 수 있다. 특히, 실시예에 따르면, 가중치 인자 α는 인코딩된 비트들의 총수가 비트-버짓 Bm 내에 들어맞는 가장 큰 후보 가중치 인자로서 선택된다. 실시예에 따르면, 가중치 인자 α는 후보 가중치 인자들 중 임의의 것에 대해 인코딩된 비트들의 총수가 비트 버짓 Bm 내에 들어맞지 않을 때 인코딩된 비트들의 가장 적은 총수를 산출하는 후보 가중치 인자로서 선택된다.
즉, 모든 후보 가중치 인자들이 인코딩된 비트들의 총수가 비트 버짓 Bm 내에 들어맞게 하는 경우, 가장 높은 후보 가중치 인자가 가중치 인자 α로서 선택된다. 마찬가지로, 후보 가중치 인자들 중 가장 낮은 것만이 비트들의 총수가 비트 버짓 Bm 내에 들어맞게 하거나 후보 가중치 인자들 중 어느 것도 비트들의 총수가 비트 버짓 Bm 내에 들어맞게 하지 않는 경우, 가장 낮은 수의 비트를 가져오는 후보 가중치 인자가 가중치 인자 α로서 선택된다. 후보 가중치 인자 중 어느 것이 선택되는지가 이어서 디코더에 시그널링된다.
공간 코히런스 값들의 벡터의 인코딩에 필요한, 비트 수 Bcurrlow,m 및 Bcurrhigh,m을, 제각기, 결과하는 2개의 후보 가중치 인자 αlow 및 αhigh에 대해 시험 인코딩이 수행되는 예시적인 예가 이제 개시될 것이다.
Bcurr,m을 입력으로서 사용하여, 2개의 후보 가중치 인자 αlow 및 αhigh가, 비트 버짓 Bm을 입력으로 사용하여 테이블 룩업을 수행하는 것에 의해 또는 비트 버짓 Bm을 함수에 입력하는 것에 의해, 획득된다. 인코딩에 필요한 비트 수의 2개의 값 Bcurrlow,m 및 Bcurrhigh,m을 산출하는, 각각의 후보 가중치 인자 αlow 및 αhigh에 대해 아래에서 설명되는 레이트 절단 전략 없이 시험 인코딩이 수행된다. 이에 기초하여, 2개의 후보 가중치 인자 αlow 및 αhigh 중 하나가 인코딩에 따라 다음과 같이 선택된다:
Figure 112020118050911-pct00016
선택된 가중치 인자 α는 1 비트, 예를 들면, αlow에 대해 "0" 및 αhigh에 대해 "1"을 사용하여 인코딩된다. 가중치 인자 α에 대한 상기 표현식에서의 세 번째 대안은 다음과 같이 해석되어야 한다: 후보 가중치 인자 αlow 및 αhigh 둘 모두가 비트 버짓 Bm을 초과하는 결과적인 인코딩된 비트 수를 산출하는 경우, 가장 낮은 수의 인코딩된 비트를 산출하는 후보 가중치 인자가 선택된다.
단계(730)에서 대역들 b = 1,2, ..., Nbnd 각각에 대해, 다음과 같은 단계들이 수행된다:
단계(740)에서, 인트라 프레임 예측 값
Figure 112020118050911-pct00017
이 획득된다. 첫 번째 대역(b = 1)에 대해서는 선행하는 인코딩된 코히런스 값이 없다. 일부 실시예에서, 첫 번째 대역에 대한 인트라 프레임 예측은 0으로 설정될 수 있으며,
Figure 112020118050911-pct00018
. 일부 실시예에서, 첫 번째 대역에 대한 인트라 프레임 예측은 평균 값
Figure 112020118050911-pct00019
으로 설정될 수 있으며,
Figure 112020118050911-pct00020
.
일부 대안적인 실시예에서, 첫 번째 대역의 코히런스 값은 개별적으로 인코딩될 수 있다. 그러한 실시예에서, 첫 번째 값은 재구성된 값
Figure 112020118050911-pct00021
을 생성하기 위해 스칼라 양자화기를 사용하여 인코딩된다. 따라서, 첫 번째 대역에 대한 인트라 프레임 예측은 재구성된 값으로 설정될 수 있으며,
Figure 112020118050911-pct00022
. 비트 카운터 Bcurr, m은 계수를 인코딩하는 데 필요한 비트의 양만큼 증가된다. 예를 들어, 계수를 인코딩하는 데 3 비트가 사용되는 경우, 인코딩에 소비되는 현재 비트 양에 3 비트가 추가되며, 예를 들어,
Figure 112020118050911-pct00023
.
나머지 대역 b = 2, 3, ..., Nbnd에 대해, 인트라 프레임 예측
Figure 112020118050911-pct00024
은 이전에 인코딩된 코히런스 값에 기초하며, 즉
Figure 112020118050911-pct00025
.
단계(750)에서, 인터 프레임 예측 값
Figure 112020118050911-pct00026
이 하나 이상의 선행 프레임으로부터 이전에 재구성된 코히런스 벡터 요소들에 기초하여 획득된다. 배경 노이즈가 안정적이거나 느리게 변하는 경우에, 코히런스 대역 값 Cb,m의 프레임 간 변동이 작을 것이다. 따라서, 이전 프레임으로부터의 값을 사용하는 인터 프레임 예측은 종종 작은 예측 잔차 및 작은 잔차 코딩 비트 레이트를 산출하는 양호한 근사치일 것이다. 예로서, 대역 b에 대한 마지막 재구성된 값은 인터 프레임 예측 값으로 사용될 수 있으며, 즉
Figure 112020118050911-pct00027
. 2개 이상의 선행 프레임을 고려한 인터 프레임 선형 예측자는
Figure 112020118050911-pct00028
으로서 수식화될 수 있고, 여기서
Figure 112020118050911-pct00029
은 프레임 m의 모든 대역 b에 대한 인터 프레임 예측된 코히런스 값들의 열 벡터를 나타내고,
Figure 112020118050911-pct00030
은 프레임 m-n의 모든 대역 b에 대한 재구성된 코히런스 값을 나타내며, gn은 Ninter개의 선행 프레임에 걸쳐 있는 선형 예측자 계수이다. gn은 미리 정의된 예측자 세트 중에서 선택될 수 있으며, 이 경우에 사용된 예측자는 디코더에 통신될 수 있는 인덱스로 표현될 필요가 있다.
단계(760)에서, 가중된 예측
Figure 112020118050911-pct00031
이 인트라 프레임 예측
Figure 112020118050911-pct00032
, 인터 프레임 예측
Figure 112020118050911-pct00033
, 및 예측 가중 인자 α에 기초하여 형성된다. 일부 실시예에서, 가중된 예측은
Figure 112020118050911-pct00034
에 의해 주어진다.
단계(770)에서, 예측 잔차가 계산되고 인코딩된다. 일부 실시예에서, 예측 잔차는 코히런스 벡터 및 가중된 예측에 기초하여 계산되며, 즉
Figure 112020118050911-pct00035
. 일부 실시예에서, 예측 잔차를 인덱스 Ib,m로 양자화하기 위해 스칼라 양자화기가 사용된다. 그러한 실시예에서, 인덱스는 Ib,m = SQ(rb,m)에 의해 주어지고 여기서 SQ(x)는 적합한 범위를 갖는 스칼라 양자화 함수이다. 스칼라 양자화기의 예는 아래 표 1에 보여지고 있다. 표 1은 예측 잔차에 대한 재구성 레벨 및 양자화 인덱스의 예를 보여준다.
Figure 112020118050911-pct00036
일부 실시예에서, 인덱스 Ib,m은 더 작은 값에 대해 더 적은 비트를 소비하는 가변 길이 코드워드 스킴으로 인코딩된다. 예측 잔차를 인코딩하는 일부 예는 Huffman 코딩, Golomb-Rice 코딩, 및 단항 코딩(unary coding)이다(단항 코딩은 제수 1을 사용한 Golomb-Rice 코딩과 동일하다). 예측 잔차를 인코딩하는 단계에서, 나머지 비트 버짓(Bm - Bcurr,m)이 고려될 필요가 있다. 인덱스 Ib,m에 대응하는 코드워드의 길이 Lcode(Ib,m)가 나머지 비트 버짓 내에 들어맞는경우, 즉, Lcode(Ib,m) ≤ Bm - Bcurr,m인 경우, 인덱스 Ib,m은 최종 인덱스
Figure 112020118050911-pct00037
으로서 선택된다. 나머지 비트가 인덱스 Ib,m을 인코딩하기에 충분하지 않은 경우, 비트 레이트 절단 전략이 적용된다. 일부 실시예에서, 비트 레이트 절단 전략은, 더 작은 잔차 값이 더 적은 비트를 소비한다고 가정하여, 가능한 가장 큰 잔차 값을 인코딩하는 것을 포함한다. 그러한 레이트 절단 전략은 도 8에서의 테이블(800)에 예시된 바와 같이 코드북을 재정렬함으로써 달성될 수 있다. 도 8은 표 1에 보여지는 스칼라 양자화기 예에 대한 단항 코드워드 매핑을 갖는 예시적인 양자화기 테이블(800)을 도시한다. 일부 실시예에서, 비트 레이트 절단은 코드워드 0에 도달할 때까지 2의 스텝으로 테이블(800)에서 위쪽으로 전진함으로써 달성될 수 있다. 즉, 도 8은 긴 코드워드로부터 더 짧은 코드워드로 위쪽으로 이동하는 절단 스킴을 예시한다. 재구성된 값의 올바른 부호를 유지하기 위해, 각각의 절단 스텝은 음수 값 및 양수 값에 대해, 제각기, 파선 화살표 및 실선 화살표로 표시된 바와 같이, 테이블(800)을 위로 2 스텝 올라간다. 테이블(800)에서 2의 스텝으로 위쪽으로 이동함으로써, 새로운 절단된 코드북 인덱스
Figure 112020118050911-pct00038
가 구해질 수 있다. 상향 검색은
Figure 112020118050911-pct00039
이 충족되거나 테이블(800)의 상단에 도달할 때까지 계속된다.
상향 검색 적합(upward search fit)에 의해 결정된 코드워드의 길이가 비트 버짓을 초과하지 않는 경우, 최종 인덱스가
Figure 112020118050911-pct00040
로 선택되고,
Figure 112020118050911-pct00041
이 비트스트림에 출력되며, 재구성된 잔차가 최종 인덱스에 기초하여 형성되고, 즉,
Figure 112020118050911-pct00042
.
상향 검색 후에, 코드워드의 길이가 여전히 비트 버짓을 초과하는 경우, 즉
Figure 112020118050911-pct00043
인 경우, 이는 비트 한계에 도달했다는 것, 즉 Bm = Bcurr,m임을 의미한다. 그러한 경우에, 재구성된 잔차는 0로 설정되고(
Figure 112020118050911-pct00044
) 인덱스가 비트스트림에 추가되지 않는다. 디코더가 동기화된 비트 카운터 Bcurr,m를 유지하기 때문에, 디코더는 이러한 상황을 검출하고 명시적인 시그널링이 없어도
Figure 112020118050911-pct00045
을 사용할 수 있다.
대안적인 실시예에서, 초기 인덱스와 연관된 코드워드의 길이가 비트 버짓을 초과하는 경우, 잔차 값은 즉시 0으로 설정되고, 이에 의해 위에서 설명된 상향 검색을 보류한다. 이것은 계산 복잡도가 크리티컬한 경우에 유익할 수 있다.
단계(780)에서, 재구성된 코히런스 값
Figure 112020118050911-pct00046
이 재구성된 예측 잔차 및 가중된 예측에 기초하여 형성되며, 즉
Figure 112020118050911-pct00047
Figure 112020118050911-pct00048
.
단계(790)에서, 비트 카운터가 그에 따라 증분된다. 위에서 설명된 바와 같이, 비트 카운터는 인코딩 프로세스(701) 전반에 걸쳐 증가된다.
일부 실시예에서, 코히런스 벡터의 프레임 간 변동은 작다. 따라서, 이전 프레임 값을 사용하는 인터 프레임 예측은 종종 작은 예측 잔차 및 작은 잔차 코딩 비트 레이트를 산출하는 양호한 근사치이다. 추가적으로, 예측 가중 인자 α는 비트 레이트와 프레임 손실 복원성(frame loss resilience)의 균형을 맞추는 데 도움이 된다.
도 9는 일부 실시예에 따른 디코딩 프로세스(901)를 예시하는 플로차트이다. 디코딩 프로세스(901)는 인코딩 프로세스(701)에 대응하며, 다음과 같은 단계들에 따라 디코더에 의해 수행될 수 있다:
단계(900)에서, 디코딩 프로세스(901) 동안 소비되는 비트를 추적하도록 구성된 비트 카운터 Bcurr,m이 0으로 초기화되며, 즉 Bcurr, m = 0. 각각의 프레임 m에 대해, 디코더는 마지막으로 재구성된 코히런스 벡터
Figure 112020118050911-pct00049
의 사본 및 비트 버짓 Bm을 획득한다.
단계(910)에서, 선택된 예측자 세트
Figure 112020118050911-pct00050
가 비트스트림으로부터 디코딩된다. 비트 카운터는 선택된 예측자 세트를 디코딩하는 데 필요한 비트의 양만큼 증가된다. 예를 들어, 선택된 예측자 세트를 디코딩하는 데 2 비트가 필요한 경우, 비트 카운터 Bcurr,m은 2만큼 증가되며, 즉
Figure 112020118050911-pct00051
.
단계(920)에서, 인코더에 사용된 가중 인자에 대응하는 예측 가중 인자 α가 도출된다.
단계(930)에서 대역들 b = 1,2, ..., Nbnd 각각에 대해, 다음과 같은 단계들이 수행된다:
단계(940)에서, 인트라 예측 값
Figure 112020118050911-pct00052
이 획득된다. 첫 번째 대역에 대한 인트라 프레임 예측은 인코딩 프로세스(701)의 단계(740)와 유사하게 획득된다. 따라서, 첫 번째 프레임에 대한 인트라 프레임 예측은 0으로 설정될 수 있다
Figure 112020118050911-pct00053
,
첫 번째 대역의 평균 값
Figure 112020118050911-pct00054
또는 코히런스 값이 비트스트림으로부터 디코딩될 수 있고, 첫 번째 프레임에 대한 인트라 프레임 예측은 재구성된 값
Figure 112020118050911-pct00055
으로 설정될 수 있다
Figure 112020118050911-pct00056
. 계수가 디코딩되면, 비트 카운터 Bcurr,m는 인코딩에 대해 요구된 비트의 양만큼 증가된다. 예를 들어, 계수를 인코딩하는 데 3 비트가 필요한 경우, 비트 카운터 Bcurr,m은 3만큼 증가되며, 즉
Figure 112020118050911-pct00057
.
나머지 대역 b = 2,3, ..., Nbnd에 대해, 인트라 프레임 예측
Figure 112020118050911-pct00058
은 이전에 디코딩된 코히런스 값에 기초하며, 즉
Figure 112020118050911-pct00059
.
단계(950)에서, 인터 프레임 예측 값
Figure 112020118050911-pct00060
은 인코딩 프로세스(701)의 단계(750)와 유사하게 획득된다. 예로서, 대역 b에 대한 마지막 재구성된 값은 인터 프레임 예측 값으로 사용될 수 있으며, 즉
Figure 112020118050911-pct00061
.
단계(960)에서, 가중된 예측
Figure 112020118050911-pct00062
이 인트라 프레임 예측
Figure 112020118050911-pct00063
, 인터 프레임 예측
Figure 112020118050911-pct00064
, 및 예측 가중 인자 α에 기초하여 형성된다. 일부 실시예에서, 가중된 예측은
Figure 112020118050911-pct00065
에 의해 주어진다.
단계(970)에서, 재구성된 예측 잔차
Figure 112020118050911-pct00066
이 디코딩된다. 비트 카운터 Bcurr,m이 비트 한계 미만인 경우, 즉 Bcurr,m < Bm인 경우, 재구성된 예측 잔차는 이용 가능한 양자화기 인덱스로부터 도출되며, 즉
Figure 112020118050911-pct00067
Figure 112020118050911-pct00068
. 비트 카운터가 비트 한계와 동일하거나 이를 초과하면, 재구성된 예측 잔차는 0으로 설정되며, 즉
Figure 112020118050911-pct00069
.
단계(980)에서, 코히런스 값
Figure 112020118050911-pct00070
이 재구성된 예측 잔차 및 가중된 예측에 기초하여 재구성되며, 즉
Figure 112020118050911-pct00071
Figure 112020118050911-pct00072
. 단계(990)에서, 비트 카운터가 증분된다.
일부 실시예에서, 인코더에서 CNG의 추가적인 향상이 요구될 수 있다. 그러한 실시예에서, 로컬 디코더는 재구성된 코히런스 값
Figure 112020118050911-pct00073
이 사용되는 인코더에서 실행될 것이다.
도 10은 벡터를 인코딩하기 위해 송신 노드(200a)의 인코더에 의해 수행되는, 일부 실시예에 따른, 프로세스(1000)를 예시하는 플로차트이다. 프로세스(1000)는 인코더가 예측 가중 인자를 형성하는 단계(S1002)로 시작될 수 있다. 뒤따르는 단계들(S1004 내지 S1014)은 각각의 벡터 요소에 대해 반복될 수 있다. 단계(S1004)에서, 인코더는 벡터 요소의 제1 예측을 형성한다. 일부 실시예에서, 제1 예측은 벡터 시퀀스에서의 현재 벡터에 기초한 인트라 프레임 예측이다. 그러한 실시예에서, 인트라 프레임 예측은 예측자 세트 중에서 예측자를 선택하는 것; 선택된 예측자를 현재 벡터의 재구성된 요소들에 적용하는 것; 및 선택된 예측자에 대응하는 인덱스를 인코딩하는 것을 포함하는 프로세스를 수행함으로써 형성된다. 단계(S1006)에서, 인코더는 벡터 요소의 제2 예측을 형성한다. 일부 실시예에서, 제2 예측은 재구성된 벡터 시퀀스에서의 하나 이상의 이전 벡터에 기초한 인터 프레임 예측이다.
단계(S1008)에서, 인코더는 예측 가중 인자를 사용하여 제1 예측과 제2 예측을 결합된 예측으로 결합시킨다.
단계(S1010)에서, 인코더는 벡터 요소 및 결합된 예측을 사용하여 예측 잔차를 형성한다. 단계(S1012)에서, 인코더는 가변 비트 레이트 스킴으로 예측 잔차를 인코딩한다. 일부 실시예에서, 예측 잔차는 양자화되어 제1 잔차 양자화기 인덱스를 형성하고, 여기서 제1 잔차 양자화기 인덱스는 제1 코드워드와 연관된다. 일부 실시예에서, 가변 비트 레이트 스킴으로 예측 잔차를 인코딩하는 단계는 제1 코드워드의 길이가 나머지 비트의 양을 초과하지 않는다고 결정한 결과로서 제1 잔차 양자화기 인덱스를 인코딩하는 단계를 포함한다. 일부 실시예에서, 가변 비트 레이트 스킴으로 예측 잔차를 인코딩하는 단계는 제1 코드워드의 길이가 나머지 비트의 양을 초과한다고 결정한 결과로서 제2 잔차 양자화기 인덱스를 획득하는 단계를 포함하고, 여기서 제2 잔차 양자화기 인덱스는 제2 코드워드와 연관되며, 여기서 제2 코드워드의 길이는 제1 코드워드의 길이보다 짧다. 그러한 실시예에서, 프로세스(600)는 인코더가 제2 코드워드의 길이가 결정된 나머지 비트의 양을 초과하는지 여부를 결정하는 추가 단계를 포함한다.
단계(S1014)에서, 인코더는 결합된 예측 및 예측 잔차에 기초하여 벡터 요소를 재구성한다. 단계(S1016)에서, 인코더는 인코딩된 예측 잔차를 전송한다. 일부 실시예에서, 인코더는 또한 예측 가중 인자를 인코딩하고 인코딩된 예측 가중 인자를 전송한다.
일부 실시예에서, 프로세스(1000)는 인코더가 제1 입력 채널 상에서 제1 신호를 수신하고, 제2 입력 채널 상에서 제2 신호를 수신하며, 제1 신호 및 제2 신호의 스펙트럼 특성들을 결정하고, 제1 신호 및 제2 신호의 결정된 스펙트럼 특성들에 기초하여 공간 코히런스를 결정하며, 공간 코히런스에 기초하여 벡터를 결정하는 추가 단계를 포함한다.
도 11은 벡터를 디코딩하기 위해 수신 노드(200b)의 디코더에 의해 수행되는, 일부 실시예에 따른, 프로세스(1100)를 예시하는 플로차트이다. 프로세스(1100)는 디코더가 예측 가중 인자를 획득하는 단계(S1102)로 시작될 수 있다. 일부 실시예에서, 예측 가중 인자를 획득하는 단계는 (i) 예측 가중 인자를 도출하는 것 또는 (ii) 예측 가중 인자를 수신하여 디코딩하는 것을 포함한다. 뒤따르는 단계들(S1104 내지 S1112)은 벡터의 각각의 요소에 대해 반복될 수 있다. 단계(S1104)에서, 디코더는 벡터 요소의 제1 예측을 형성한다. 일부 실시예에서, 제1 예측은 벡터 시퀀스에서의 현재 벡터에 기초한 인트라 프레임 예측이다. 그러한 실시예에서, 인트라 프레임 예측은 예측자를 수신하여 디코딩하는 것 및 디코딩된 예측자를 현재 벡터의 재구성된 요소들에 적용하는 것을 포함하는 프로세스를 수행함으로써 형성된다. 단계(S1106)에서, 디코더는 벡터 요소의 제2 예측을 형성한다. 일부 실시예에서, 제2 예측은 벡터 시퀀스에서의 하나 이상의 이전 벡터에 기초한 인터 프레임 예측이다.
단계(S1108)에서, 디코더는 예측 가중 인자를 사용하여 제1 예측과 제2 예측을 결합된 예측으로 결합시킨다.
단계(S1110)에서, 디코더는 수신된 인코딩된 예측 잔차를 디코딩한다. 일부 실시예에서, 인코딩된 예측 잔차를 디코딩하는 단계는 디코딩에 이용 가능한 나머지 비트의 양을 결정하는 것 및 인코딩된 예측 잔차를 디코딩하는 것이 나머지 비트의 양을 초과하는지 여부를 결정하는 것을 포함한다. 일부 실시예에서, 인코딩된 예측 잔차를 디코딩하는 단계는 인코딩된 예측 잔차를 디코딩하는 것이 나머지 비트의 양을 초과한다고 결정한 결과로서 예측 잔차를 0으로 설정하는 것을 포함한다. 일부 실시예에서, 인코딩된 예측 잔차를 디코딩하는 단계는 인코딩된 예측 잔차를 디코딩하는 것이 나머지 비트의 양을 초과하지 않는다고 결정한 결과로서 예측 인덱스에 기초하여 예측 잔차를 도출하는 것을 포함하고, 여기서 예측 인덱스는 예측 잔차의 양자화이다.
단계(S1112)에서, 디코더는 결합된 예측 및 예측 잔차에 기초하여 벡터 요소를 재구성한다. 일부 실시예에서, 벡터는 벡터 시퀀스 중 하나이다. 일부 실시예에서, 프로세스(1100)는 디코더가 재구성된 벡터에 기초하여 적어도 2개의 출력 채널에 대한 신호를 생성하는 단계를 추가로 포함한다.
도 12는 실시예에 따른 송신 노드(200a)의 컴포넌트들을, 다수의 기능 유닛의 관점에서, 개략적으로 예시한다. 프로세싱 회로(210)는, 예를 들면, 저장 매체(230)의 형태로, (도 14에서와 같은) 컴퓨터 프로그램 제품(1410)에 저장된 소프트웨어 명령어들을 실행할 수 있는 적합한 중앙 프로세싱 유닛(CPU), 멀티프로세서, 마이크로컨트롤러, 디지털 신호 프로세서(DSP) 등 중 하나 이상의 임의의 조합을 사용하여 제공된다. 프로세싱 회로(210)는 추가로 적어도 하나의 ASIC(application specific integrated circuit) 또는 FPGA(field programmable gate array)로서 제공될 수 있다.
특히, 프로세싱 회로(210)는 송신 노드(200a)로 하여금, 위에서 개시된 바와 같은, 동작들 또는 단계들의 세트를 수행하게 하도록 구성된다. 예를 들어, 저장 매체(230)는 동작들의 세트를 저장할 수 있고, 프로세싱 회로(210)는 송신 노드(200a)로 하여금 동작들의 세트를 수행하게 하기 위해 저장 매체(230)로부터 동작들의 세트를 검색하도록 구성될 수 있다. 동작들의 세트는 실행 가능한 명령어 세트로서 제공될 수 있다. 따라서, 프로세싱 회로(210)는 이에 의해 본 명세서에 개시된 바와 같은 방법들을 실행하도록 배열된다.
실시예에서, 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 송신 노드(200a)는 프로세싱 회로(210)를 포함한다. 프로세싱 회로는 송신 노드로 하여금 적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하게 하고, 각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정하게 하도록 구성되며, 여기서 공간 코히런스는 지각적 중요도 척도들과 연관된다. 송신 노드는 추가로 공간 코히런스를 주파수 대역들로 분할하게 하도록 되어 있고, 여기서 공간 코히런스의 압축된 표현은 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스를 가중함으로써 주파수 대역별로 결정된다. 송신 노드는 추가로, 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 수신 노드에 시그널링하도록 되어 있다.
송신 노드(200a)는 추가로 벡터 및 결합된 예측을 사용하여 벡터의 제1 예측, 벡터의 제2 예측, 예측 가중 인자, 및 예측 잔차를 형성하는 것에 의해 공간 코히런스 벡터를 인코딩하도록 되어 있을 수 있다. 송신 노드는 추가로 가변 비트 레이트 스킴으로 예측 잔차를 인코딩하고 결합된 예측 및 예측 잔차에 기초하여 벡터를 재구성하도록 되어 있을 수 있다. 송신 노드는 추가로 인코딩된 예측 가중 인자 및 인코딩된 예측 잔차를 수신 노드(200b)에 전송하도록 되어 있을 수 있다.
저장 매체(230)는, 예를 들어, 자기 메모리, 광학 메모리, 솔리드 스테이트 메모리 또는 심지어 원격 장착된(remotely mounted) 메모리 중 임의의 단일의 것 또는 그 조합일 수 있는 영구 스토리지를 또한 포함할 수 있다. 송신 노드(200a)는 적어도 수신 노드(200b)와의 통신을 위해 구성된 통신 인터페이스(220)를 추가로 포함할 수 있다. 이에 따라, 통신 인터페이스(220)는, 아날로그 및 디지털 컴포넌트들을 포함한, 하나 이상의 송신기 및 수신기를 포함할 수 있다. 프로세싱 회로(210)는, 예를 들면, 데이터 및 제어 신호를 통신 인터페이스(220) 및 저장 매체(230)에 송신하는 것에 의해, 통신 인터페이스(220)로부터 데이터 및 보고를 수신하는 것에 의해, 그리고 데이터 및 명령어들을 저장 매체(230)로부터 검색하는 것에 의해 송신 노드(200a)의 일반적인 동작을 제어한다. 본 명세서에서 제시된 개념을 모호하게 하지 않기 위해 송신 노드(200a)의 다른 컴포넌트들은 물론 관련 기능성이 생략되어 있다.
도 13은 실시예에 따른 송신 노드(200a)의 컴포넌트들을, 다수의 기능 모듈의 관점에서, 개략적으로 예시한다. 도 13의 송신 노드(200a)는 다수의 기능 모듈: 단계들(S102, S202)을 수행하도록 구성된 결정 모듈(210a), 단계들(S104, S204)을 수행하도록 구성된 결정 모듈(210b), 단계(S106)를 수행하도록 구성된 분할 모듈(210c), 및 단계들(S108, S206)을 수행하도록 구성된 시그널링 모듈(210d)을 포함한다. 도 13의 송신 노드(200a)는 다수의 임의적인 기능 모듈(도 8에 도시되지 않음)을 추가로 포함할 수 있다. 송신 노드는, 예를 들어, 벡터의 제1 예측을 형성하기 위한 제1 형성 유닛, 벡터의 제2 예측을 형성하기 위한 제2 형성 유닛, 예측 가중 인자를 형성하고 인코딩하기 위한 제3 형성 유닛 및 인코딩 유닛, 예측 가중 인자를 사용하여 제1 예측과 제2 예측을 결합된 예측으로 결합시키기 위한 결합 유닛, 벡터 및 결합된 예측을 사용하여 예측 잔차를 형성하기 위한 제4 형성 유닛, 예측 잔차를 가변 비트 레이트 스킴으로 인코딩하기 위한 인코딩 유닛(1014)을 포함할 수 있다. 시그널링 모듈(210d)은 인코딩된 예측 가중 인자 및 인코딩된 예측 잔차를 전송하도록 추가로 구성될 수 있다.
일반적으로, 각각의 기능 모듈(210a 내지 210d)은, 일 실시예에서, 하드웨어로만 구현될 수 있고 다른 실시예에서 소프트웨어의 도움을 받아 구현될 수 있으며, 즉, 후자의 실시예는 프로세싱 회로 상에서 실행될 때 송신 노드(200a)로 하여금 도 12와 관련하여 위에서 언급된 대응하는 단계들을 수행하게 하는 저장 매체(230)에 저장된 컴퓨터 프로그램 명령어들을 갖는다. 또한 모듈들이 컴퓨터 프로그램의 일부에 대응하더라도, 이들이 그 내부의 별도의 모듈일 필요는 없지만, 이들이 소프트웨어로 구현되는 방식은 사용되는 프로그래밍 언어에 의존한다는 것이 언급되어야 한다. 바람직하게는, 하나 이상의 또는 모든 기능 모듈(210a 내지 210d)은, 어쩌면 통신 인터페이스(220) 및/또는 저장 매체(230)와 협력하여, 프로세싱 회로(210)에 의해 구현될 수 있다. 따라서, 프로세싱 회로(210)는 저장 매체(230)로부터 기능 모듈(210a 내지 210d)에 의해 제공되는 바와 같은 명령어들을 페치하고 이들 명령어를 실행하여, 이에 의해 본 명세서에서 개시된 바와 같은 임의의 단계들을 수행하도록 구성될 수 있다.
송신 노드(200a)는 독립형 디바이스로서 또는 적어도 하나의 추가 디바이스의 일부로서 제공될 수 있다. 예를 들어, 도 1의 예에서와 같이, 일부 양태에서 송신 노드(200a)는 라디오 트랜시버 디바이스(200)의 일부이다. 따라서, 일부 양태에서, 본 명세서에서 개시된 송신 노드(200a)를 포함하는 라디오 트랜시버 디바이스(200)가 제공된다. 일부 양태에서, 라디오 트랜시버 디바이스(200)는 수신 노드(200b)를 추가로 포함한다.
대안적으로, 송신 노드(200a)의 기능성은 적어도 2개의 디바이스 또는 노드 사이에 분산될 수 있다. 이러한 적어도 2개의 노드 또는 디바이스는 동일한 네트워크 부분의 일부일 수 있거나, 또는 적어도 2개의 그러한 네트워크 부분 사이에 확산되어 있을 수 있다. 따라서, 송신 노드(200a)에 의해 수행되는 명령어들의 제1 부분은 제1 디바이스에서 실행될 수 있고, 송신 노드(200a)에 의해 수행되는 명령어들의 제2 부분은 제2 디바이스에서 실행될 수 있으며; 본 명세서에서 개시된 실시예는 송신 노드(200a)에 의해 수행되는 명령어들이 실행될 수 있는 임의의 특정 수의 디바이스로 제한되지 않는다. 따라서, 본 명세서에서 개시된 실시예에 따른 방법은 클라우드 컴퓨팅 환경에 존재하는 송신 노드(200a)에 의해 수행되기에 적합하다. 따라서, 단일 프로세싱 회로(210)가 도 12에 예시되어 있지만, 프로세싱 회로(210)는 복수의 디바이스 또는 노드 사이에 분산될 수 있다. 도 13의 기능 모듈(210a 내지 210d) 및 도 14의 컴퓨터 프로그램(1420)도 마찬가지이다(아래 참조).
수신 노드(200b)는 코히런스를 재구성하고 원래의 사운드와 유사한 스테레오 이미지를 갖는 컴포트 노이즈 신호를 생성하기 위한 디코더를 포함한다. 디코더는 벡터의 제1 예측 및 벡터의 제2 예측을 형성하고 예측 가중 인자를 획득하도록 추가로 구성될 수 있다. 디코더는 예측 가중 인자를 사용하여 제1 예측과 제2 예측을 결합된 예측으로 결합시키도록 추가로 구성될 수 있다. 디코더는 결합된 예측 및 수신된 디코딩된 예측 잔차에 기초하여 벡터를 재구성하도록 추가로 구성될 수 있다.
도 14는 컴퓨터 판독 가능 저장 매체(1430)를 포함하는 컴퓨터 프로그램 제품(1410)의 일례를 도시한다. 이 컴퓨터 판독 가능 저장 매체(1430) 상에, 컴퓨터 프로그램(1420)이 저장될 수 있으며, 이 컴퓨터 프로그램(1420)은 프로세싱 회로(210) 및 이에 동작 가능하게 결합된 엔티티 및 디바이스, 예컨대, 통신 인터페이스(220) 및 저장 매체(230)로 하여금 본 명세서에서 설명된 실시예들에 따른 방법들을 실행하게 할 수 있다. 따라서 컴퓨터 프로그램(1420) 및/또는 컴퓨터 프로그램 제품(1410)은 본 명세서에서 개시된 바와 같은 임의의 단계들을 수행하기 위한 수단을 제공할 수 있다.
도 14의 예에서, 컴퓨터 프로그램 제품(1410)은, CD(compact disc) 또는 DVD(digital versatile disc) 또는 블루레이 디스크와 같은, 광학 디스크로서 예시되어 있다. 컴퓨터 프로그램 제품(1410)은 또한 RAM(random access memory), ROM(read-only memory), EPROM(erasable programmable read-only memory), 또는 EEPROM(electrically erasable programmable read-only memory)과 같은 메모리로서 그리고 더 상세하게는 USB(Universal Serial Bus) 메모리와 같은 외부 메모리 또는 콤팩트 플래시 메모리와 같은 플래시 메모리에 디바이스의 비휘발성 저장 매체로서 구현될 수 있다. 따라서, 컴퓨터 프로그램(1420)이 여기서 묘사된 광학 디스크 상의 트랙으로서 개략적으로 도시되어 있지만, 컴퓨터 프로그램(1420)은 컴퓨터 프로그램 제품(1410)에 적합한 임의의 방식으로 저장될 수 있다.
본 명세서에서 개시된 제안된 솔루션은 스테레오 인코더 및 디코더 아키텍처 또는 채널 쌍에서 채널 코히런스가 고려되는 다중 채널 인코더 및 디코더에 적용된다.
도 15는 일부 실시예에 따른 파라메트릭 스테레오 인코딩 및 디코딩 시스템(1500)을 예시한다. 파라메트릭 스테레오 인코딩 및 디코딩 시스템(1500)은 CNG 인코더(1504)를 포함하는 모노 인코더(1503) 및 CNG 디코더(1506)를 포함하는 모노 디코더(1505)를 포함한다. 인코더(1501)는 입력 채널 쌍(1507A 및 1507B)의 분석을 수행하고 파라메트릭 분석(1508)을 통해 스테레오 이미지의 파라메트릭 표현을 획득하며 다운믹스(down-mix)(1509)를 통해 채널들을 단일 채널로 감소시켜 이에 의해 다운믹스된 신호를 획득한다. 다운믹스된 신호는 모노 인코더(1503)에 의해 모노 인코딩 알고리즘을 사용하여 인코딩되고, 스테레오 이미지의 파라메트릭 표현은 파라미터 인코더(1510)에 의해 인코딩된다. 인코딩된 다운믹스된 신호 및 스테레오 이미지의 인코딩된 파라메트릭 표현은 비트스트림(1511)을 통해 전송된다. 디코더(1502)는 모노 디코더(1505)를 이용하여 모노 디코딩 알고리즘을 적용하고 합성된 다운믹스된 신호를 획득한다. 파라미터 디코더(1512)는 스테레오 이미지의 수신된 파라메트릭 표현을 디코딩한다. 디코더(1502)는, 스테레오 이미지의 디코딩된 파라메트릭 표현을 사용하여, 합성된 다운믹스된 신호를 합성된 채널 쌍으로 변환한다. 파라메트릭 스테레오 인코딩 및 디코딩 시스템(1500)은 파라메트릭 분석(1508) 내의 코히런스 분석(1513) 및 파라메트릭 합성(1515) 내의 코히런스 합성(1514)을 추가로 포함한다. 파라메트릭 분석(1508)은 입력 신호(1507A 및 1507B)의 코히런스를 분석하는 능력을 포함한다. 파라메트릭 분석(1508)은 모노 인코더(1503)가 CNG 인코더(1504)로서 동작하도록 구성될 때 입력 신호(1507A 및 1507B)를 분석할 수 있다. 모노 인코더(1503)는 일부 실시예에 따른 스테레오 인코더 VAD를 추가로 포함할 수 있다. 스테레오 인코더 VAD는 신호가 배경 노이즈를 포함한다는 것을 CNG 인코더(1504)에 알려주어, 이에 의해 CNG 인코더(1504)를 활성화시킬 수 있다. 따라서, 코히런스 분석(1513)을 포함하는 CNG 분석은 파라메트릭 분석(1508)에서 활성화되고 모노 인코더(1503)는 CNG 인코더(1504)를 개시한다. 결과적으로, 코히런스 및 모노 CNG의 인코딩된 표현은 전송 및/또는 저장을 위해 비트스트림(1511)에 함께 번들링된다. 디코더(1502)는 비트스트림(1511)에서 스테레오 CNG 프레임을 식별하고, 모노 CNG 및 코히런스 값들을 디코딩하며, 타깃 코히런스를 합성한다. CNG 프레임을 디코딩할 때, 디코더(1502)는 2개의 합성 채널(1517A 및 1517B)에 대응하는 2개의 CNG 프레임을 생성한다.
여기서 이제 본 명세서에서 제시된 개념을 추가로 설명하기 위해 한 세트의 예시적인 실시예가 이어진다.
1. 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 방법으로서, 이 방법은 송신 노드에 의해 수행되고, 이 방법은:
적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하는 단계;
각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정하는 단계 - 공간 코히런스는 지각적 중요도 척도들과 연관됨 -;
공간 코히런스를 주파수 대역들로 분할하는 단계 - 공간 코히런스의 압축된 표현은 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스 값들을 가중함으로써 주파수 대역별로 결정됨 -; 및
수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 수신 노드에 시그널링하는 단계를 포함한다.
2. 항목 1에 있어서, 지각적 중요도 척도는 적어도 2개의 입력 오디오 채널의 스펙트럼 특성들에 기초하는, 방법.
3. 항목 2에 있어서, 지각적 중요도 척도는 적어도 2개의 입력 오디오 채널의 전력 스펙트럼들에 기초하여 결정되는, 방법.
4. 항목 2에 있어서, 지각적 중요도 척도는 적어도 2개의 입력 오디오 채널의 가중 합의 전력 스펙트럼에 기초하여 결정되는, 방법.
5. 항목 1에 있어서, 공간 코히런스의 압축된 표현은 주파수 대역별 하나의 단일 값인, 방법.
6. 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 방법으로서, 이 방법은 송신 노드에 의해 수행되고, 이 방법은:
적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하는 단계 - 스펙트럼 특성들은 지각적 중요도 척도들과 연관됨 -;
각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정하는 단계 - 공간 코히런스는 주파수 대역들로 분할되고, 공간 코히런스의 하나의 단일 값은 스펙트럼 특성들의 대응하는 값들의 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스 값들을 가중함으로써 주파수 대역별로 결정됨 -; 및
수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 단일 값들에 관한 정보를 수신 노드에 시그널링하는 단계를 포함한다.
7. 항목 1 또는 항목 6에 있어서, 스펙트럼 특성들의 주어진 값의 지각적 중요도 척도는 적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 합의 전력에 의해 정의되는, 방법.
8. 항목 1 또는 항목 6에 있어서, 더 높은 에너지를 갖는 스펙트럼 특성들의 값들에 대응하는 공간 코히런스 값들이 더 낮은 에너지를 갖는 스펙트럼 특성들의 값들에 대응하는 공간 코히런스 값들에 비해 공간 코히런스의 상기 하나의 단일 값에 더 많은 영향을 미치도록 각각의 주파수 대역 내에서의 공간 코히런스 값들이 가중되는, 방법.
9. 항목 1 또는 항목 6에 있어서, 적어도 2개의 오디오 채널의 프레임 인덱스 m 및 샘플 인덱스 n에 대한 오디오 신호 l(m,n), r(m,n)은 스펙트럼 특성들이 결정되기 전에 각자의 윈도잉된 신호 lwin(m,n), rwin(m,n)을 형성하도록 윈도잉되는, 방법.
10. 항목 9에 있어서, 프레임 인덱스 m 및 샘플 인덱스 k에 대한 공간 코히런스 C(m,k)는 다음과 같이 결정되며:
Figure 112020118050911-pct00074
L(m, k)는 윈도잉된 오디오 신호 lwin(m,n)의 스펙트럼이고, R(m, k)는 윈도잉된 오디오 신호 rwin(m,n)의 스펙트럼이며, *는 복소 공액을 나타내는, 방법.
11. 항목 10에 있어서, lr(m,n) = l(m,n) + r(m,n)의 에너지 스펙트럼 |LR(m,k)|2은 프레임 m 내에서의 지각적 중요도 척도를 정의하고 공간 코히런스 값들을 가중하는 데 사용되는, 방법.
12. 항목 11에 있어서, 각각의 주파수 대역은 하부 경계와 상부 경계 사이에서 연장되고, 프레임 인덱스 m 및 주파수 대역 b에 대한 공간 코히런스의 상기 하나의 단일 값은 Cw(m,b)로 나타내어지고, 다음과 같이 결정되며:
Figure 112020118050911-pct00075
Nband는 주파수 대역들의 총수를 나타내고, limit(b)는 주파수 대역 b의 하위 주파수 빈을 나타내는, 방법.
13. 항목 12에 있어서, limit(b)는 함수 또는 룩업 테이블로서 제공되는, 방법.
14. 항목 1 또는 항목 6에 있어서, 공간 코히런스는 동일하지 않은 길이들의 주파수 대역들로 분할되는, 방법.
15. 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 송신 노드로서, 송신 노드는 프로세싱 회로를 포함하고, 프로세싱 회로는 송신 노드로 하여금:
적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하게 하고;
각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정하게 하며 - 공간 코히런스는 지각적 중요도 척도들과 연관됨 -;
공간 코히런스를 주파수 대역들로 분할하게 하고 - 공간 코히런스의 압축된 표현은 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스 값들을 가중함으로써 주파수 대역별로 결정됨 -;
수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 수신 노드에 시그널링하게 하도록 구성되는, 송신 노드.
16. 항목 15에 있어서, 항목 2 내지 항목 5 중 어느 한 항목에 따른 방법을 수행하도록 추가로 구성되는, 송신 노드.
17. 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 송신 노드로서, 송신 노드는 프로세싱 회로를 포함하고, 프로세싱 회로는 송신 노드로 하여금:
적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하게 하고 - 스펙트럼 특성들은 지각적 중요도 척도들과 연관됨 -;
각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정하게 하며 - 공간 코히런스는 주파수 대역들로 분할되고, 공간 코히런스의 하나의 단일 값은 스펙트럼 특성들의 대응하는 값들의 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스 값들을 가중함으로써 주파수 대역별로 결정됨 -;
수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 단일 값들에 관한 정보를 수신 노드에 시그널링하게 하도록 구성되는, 송신 노드.
18. 항목 17에 있어서, 항목 7 내지 항목 14 중 어느 한 항목에 따른 방법을 수행하도록 추가로 구성되는, 송신 노드.
19. 라디오 트랜시버 디바이스로서, 항목 15 내지 항목 18 중 어느 한 항목에 따른 송신 노드를 포함하는, 라디오 트랜시버 디바이스.
20. 항목 19에 있어서, 수신 노드를 추가로 포함하는, 라디오 트랜시버 디바이스.
21. 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 컴퓨터 프로그램으로서, 컴퓨터 프로그램은, 송신 노드의 프로세싱 회로 상에서 실행될 때, 송신 노드로 하여금:
적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하게 하고;
각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정하게 하며 - 공간 코히런스는 지각적 중요도 척도들과 연관됨 -;
공간 코히런스를 주파수 대역들로 분할하게 하고 - 공간 코히런스의 압축된 표현은 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스 값들을 가중함으로써 주파수 대역별로 결정됨 -;
수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 수신 노드에 시그널링하게 하는
컴퓨터 코드를 포함하는, 컴퓨터 프로그램.
22. 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 컴퓨터 프로그램으로서, 컴퓨터 프로그램은, 송신 노드의 프로세싱 회로 상에서 실행될 때, 송신 노드로 하여금:
적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하게 하고 - 스펙트럼 특성들은 지각적 중요도 척도들과 연관됨 -;
각자의 입력 오디오 채널들 상의 오디오 신호들 사이의 공간 코히런스를 결정하게 하며 - 공간 코히런스는 주파수 대역들로 분할되고, 공간 코히런스의 하나의 단일 값은 스펙트럼 특성들의 대응하는 값들의 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 공간 코히런스 값들을 가중함으로써 주파수 대역별로 결정됨 -;
수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 가능하게 하기 위해, 스펙트럼 특성들에 관한 정보 및 주파수 대역별 공간 코히런스의 단일 값들에 관한 정보를 수신 노드에 시그널링하게 하는
컴퓨터 코드를 포함하는, 컴퓨터 프로그램.
23. 항목 21 및 항목 22 중 적어도 하나의 항목에 따른 컴퓨터 프로그램, 및 컴퓨터 프로그램이 저장되는 컴퓨터 판독 가능 저장 매체를 포함하는 컴퓨터 프로그램 제품.
일반적으로, 예시적인 실시예들 및 첨부된 청구범위에서 사용되는 모든 용어들은, 본 명세서에서 달리 명시적으로 정의되지 않는 한, 기술 분야에서의 그들의 일반적인 의미에 따라 해석되어야 한다. "요소, 장치, 컴포넌트, 수단, 모듈, 단계 등"에 대한 모든 언급들은, 명시적으로 달리 언급되지 않는 한, 요소, 장치, 컴포넌트, 수단, 모듈, 단계 등의 적어도 하나의 인스턴스를 지칭하는 것으로 개방적으로 해석되어야 한다. 본 명세서에서 개시된 임의의 방법의 단계들은, 명시적으로 언급되지 않는 한, 개시된 정확한 순서로 수행될 필요가 없다.
발명 개념이 주로 몇몇 실시예를 참조하여 위에서 설명되었다. 그렇지만, 본 기술 분야의 통상의 기술자에 의해 용이하게 이해되는 바와 같이, 위에서 개시된 실시예들 이외의 다른 실시예들은, 열거된 실시예들의 첨부된 리스트에 의해 정의된 바와 같이, 발명 개념의 범위 내에서 동등하게 가능하다.

Claims (15)

  1. 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 방법으로서, 상기 방법은 송신 노드에 의해 수행되고, 상기 방법은:
    적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하는 단계(S102);
    상기 각자의 입력 오디오 채널들 상의 상기 오디오 신호들 사이의 공간 코히런스를 결정하는 단계(S104) - 상기 공간 코히런스는 지각적 중요도 척도들(perceptual importance measures)과 연관됨 -;
    상기 공간 코히런스를 주파수 대역들로 분할하는 단계(S106) - 상기 공간 코히런스의 압축된 표현은 상기 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 상기 공간 코히런스를 가중함으로써 주파수 대역별로 결정됨 -; 및
    상기 수신 노드에서의 상기 적어도 2개의 오디오 채널에 대한 상기 컴포트 노이즈의 생성을 가능하게 하기 위해, 상기 스펙트럼 특성들에 관한 정보 및 상기 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 상기 수신 노드에 시그널링하는 단계(S108)
    를 포함하는, 방법.
  2. 제1항에 있어서, 상기 공간 코히런스의 압축된 표현은 주파수 대역별 하나의 단일 값인, 방법.
  3. 제1항에 있어서, 상기 지각적 중요도 척도는 상기 적어도 2개의 입력 오디오 채널의 스펙트럼 특성들에 기초하는, 방법.
  4. 제3항에 있어서, 상기 지각적 중요도 척도는 상기 적어도 2개의 입력 오디오 채널의 전력 스펙트럼들에 기초하여 결정되는, 방법.
  5. 제3항에 있어서, 상기 지각적 중요도 척도는 상기 적어도 2개의 입력 오디오 채널의 가중 합의 전력 스펙트럼에 기초하여 결정되는, 방법.
  6. 제1항에 있어서, 상기 스펙트럼 특성들의 주어진 값의 지각적 중요도 척도는 상기 적어도 2개의 입력 오디오 채널 상의 상기 오디오 신호들의 합의 전력 스펙트럼에 기초하는, 방법.
  7. 제2항에 있어서, 더 높은 에너지를 갖는 주파수 계수들의 값들에 대응하는 상기 공간 코히런스 값들이 더 낮은 에너지를 갖는 주파수 계수들의 값들에 대응하는 상기 공간 코히런스 값들에 비해 상기 공간 코히런스의 상기 하나의 단일 값에 더 많은 영향을 미치도록 각각의 주파수 대역 내에서의 상기 공간 코히런스 값들이 가중되는, 방법.
  8. 제1항에 있어서, lr(m,n) = l(m,n) + r(m,n)의 에너지 스펙트럼 |LR(m,k)|2 - l(m, n)은 좌 채널에 대한 입력 신호를 나타내고 r(m, n)은 우 채널에 대한 입력 신호를 나타냄 - 은 프레임 m 내에서의 상기 지각적 중요도 척도를 정의하고 상기 공간 코히런스 값들을 가중하는 데 사용되는, 방법.
  9. 제8항에 있어서, 프레임 인덱스 m 및 주파수 대역 b에 대한 상기 공간 코히런스의 하나의 단일 값 Cw(m,b)는 다음과 같이 결정되고:
    Figure 112020118050911-pct00076

    Nband는 주파수 대역들의 총수를 나타내고, limit(b)는 주파수 대역 b의 최하위 주파수 빈을 나타내는, 방법.
  10. 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 송신 노드(200a)로서, 상기 송신 노드는 프로세싱 회로(210)를 포함하고, 상기 프로세싱 회로는 상기 송신 노드로 하여금:
    적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하게 하고;
    상기 각자의 입력 오디오 채널들 상의 상기 오디오 신호들 사이의 공간 코히런스를 결정하게 하며 - 상기 공간 코히런스는 지각적 중요도 척도들과 연관됨 -;
    상기 공간 코히런스를 주파수 대역들로 분할하게 하고 - 상기 공간 코히런스의 압축된 표현은 상기 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 상기 공간 코히런스를 가중함으로써 주파수 대역별로 결정됨 -;
    상기 수신 노드에서의 상기 적어도 2개의 오디오 채널에 대한 상기 컴포트 노이즈의 생성을 가능하게 하기 위해, 상기 스펙트럼 특성들에 관한 정보 및 상기 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 상기 수신 노드에 시그널링하게 하도록 구성되는, 송신 노드.
  11. 제10항에 있어서, 제2항 내지 제9항 중 어느 한 항에 따른 방법을 수행하도록 추가로 구성되는, 송신 노드.
  12. 라디오 트랜시버 디바이스로서, 제10항에 따른 송신 노드를 포함하는, 라디오 트랜시버 디바이스.
  13. 제12항에 있어서, 수신 노드를 추가로 포함하는, 라디오 트랜시버 디바이스.
  14. 수신 노드에서의 적어도 2개의 오디오 채널에 대한 컴포트 노이즈의 생성을 지원하기 위한 컴퓨터 판독 가능 기록 매체에 저장된 컴퓨터 프로그램(1420)으로서, 상기 컴퓨터 프로그램은, 송신 노드의 프로세싱 회로 상에서 실행될 때, 상기 송신 노드로 하여금:
    적어도 2개의 입력 오디오 채널 상의 오디오 신호들의 스펙트럼 특성들을 결정하게 하고;
    상기 각자의 입력 오디오 채널들 상의 상기 오디오 신호들 사이의 공간 코히런스를 결정하게 하며 - 상기 공간 코히런스는 지각적 중요도 척도들과 연관됨 -;
    상기 공간 코히런스를 주파수 대역들로 분할하게 하고 - 상기 공간 코히런스의 압축된 표현은 상기 지각적 중요도 척도들에 따라 각각의 주파수 대역 내에서의 상기 공간 코히런스를 가중함으로써 주파수 대역별로 결정됨 -;
    상기 수신 노드에서의 상기 적어도 2개의 오디오 채널에 대한 상기 컴포트 노이즈의 생성을 가능하게 하기 위해, 상기 스펙트럼 특성들에 관한 정보 및 상기 주파수 대역별 공간 코히런스의 압축된 표현에 관한 정보를 상기 수신 노드에 시그널링하게 하는
    컴퓨터 코드를 포함하는, 컴퓨터 판독 가능 기록 매체에 저장된 컴퓨터 프로그램.
  15. 제14항에 따른 컴퓨터 프로그램이 저장되는 컴퓨터 판독 가능 저장 매체.
KR1020207031954A 2018-04-05 2019-04-05 컴포트 노이즈 생성 지원 KR102548184B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237013683A KR20230058546A (ko) 2018-04-05 2019-04-05 컴포트 노이즈 생성 지원

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862652949P 2018-04-05 2018-04-05
US201862653078P 2018-04-05 2018-04-05
US201862652941P 2018-04-05 2018-04-05
US62/653,078 2018-04-05
US62/652,941 2018-04-05
US62/652,949 2018-04-05
PCT/EP2019/058650 WO2019193156A1 (en) 2018-04-05 2019-04-05 Support for generation of comfort noise

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237013683A Division KR20230058546A (ko) 2018-04-05 2019-04-05 컴포트 노이즈 생성 지원

Publications (2)

Publication Number Publication Date
KR20200140353A KR20200140353A (ko) 2020-12-15
KR102548184B1 true KR102548184B1 (ko) 2023-06-28

Family

ID=66102706

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020207031954A KR102548184B1 (ko) 2018-04-05 2019-04-05 컴포트 노이즈 생성 지원
KR1020207031390A KR102535034B1 (ko) 2018-04-05 2019-04-05 통신 소음 발생 및 통신 소음 발생을 위한 지원
KR1020237013683A KR20230058546A (ko) 2018-04-05 2019-04-05 컴포트 노이즈 생성 지원

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020207031390A KR102535034B1 (ko) 2018-04-05 2019-04-05 통신 소음 발생 및 통신 소음 발생을 위한 지원
KR1020237013683A KR20230058546A (ko) 2018-04-05 2019-04-05 컴포트 노이즈 생성 지원

Country Status (8)

Country Link
US (8) US11495237B2 (ko)
EP (6) EP3776546B1 (ko)
JP (2) JP7085640B2 (ko)
KR (3) KR102548184B1 (ko)
CN (3) CN112119457A (ko)
DK (1) DK3776547T3 (ko)
MX (1) MX2020010468A (ko)
WO (3) WO2019193156A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112119457A (zh) 2018-04-05 2020-12-22 瑞典爱立信有限公司 可截断的预测编码
GB2595891A (en) * 2020-06-10 2021-12-15 Nokia Technologies Oy Adapting multi-source inputs for constant rate encoding
AU2021288690A1 (en) * 2020-06-11 2023-01-19 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding spatial background noise within a multi-channel input signal
GB2596138A (en) * 2020-06-19 2021-12-22 Nokia Technologies Oy Decoder spatial comfort noise generation for discontinuous transmission operation
US20230282220A1 (en) * 2020-07-07 2023-09-07 Telefonaktiebolaget Lm Ericsson (Publ) Comfort noise generation for multi-mode spatial audio coding
GB2598104A (en) * 2020-08-17 2022-02-23 Nokia Technologies Oy Discontinuous transmission operation for spatial audio parameters
WO2022042908A1 (en) * 2020-08-31 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
CN117223054A (zh) * 2021-04-29 2023-12-12 沃伊斯亚吉公司 经解码的声音信号中的多声道舒适噪声注入的方法及设备
WO2023031498A1 (en) * 2021-08-30 2023-03-09 Nokia Technologies Oy Silence descriptor using spatial parameters
WO2023110082A1 (en) 2021-12-15 2023-06-22 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive predictive encoding
WO2024056701A1 (en) * 2022-09-13 2024-03-21 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive stereo parameter synthesis
WO2024074302A1 (en) 2022-10-05 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Coherence calculation for stereo discontinuous transmission (dtx)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170047072A1 (en) * 2014-02-14 2017-02-16 Telefonaktiebolaget Lm Ericsson (Publ) Comfort noise generation

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7920697B2 (en) 1999-12-09 2011-04-05 Broadcom Corp. Interaction between echo canceller and packet voice processing
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
RU2004118840A (ru) 2001-11-23 2005-10-10 Конинклейке Филипс Электроникс Н.В. (Nl) Способ замещения воспринимаемого шума
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
JP2008519306A (ja) * 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号の組のエンコード及びデコード
WO2008004940A1 (en) 2006-07-07 2008-01-10 Telefonaktiebolaget Lm Ericsson (Publ) Video data management
DK3401907T3 (da) * 2007-08-27 2020-03-02 Ericsson Telefon Ab L M Fremgangsmåde og indretning til perceptuel spektral afkodning af et audiosignal omfattende udfyldning af spektrale huller
EP2283483B1 (en) * 2008-05-23 2013-03-13 Koninklijke Philips Electronics N.V. A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
EP2345027B1 (en) * 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
US8817991B2 (en) * 2008-12-15 2014-08-26 Orange Advanced encoding of multi-channel digital audio signals
US20120230405A1 (en) 2009-10-28 2012-09-13 Media Tek Singapore Pte. Ltd. Video coding methods and video encoders and decoders with localized weighted prediction
KR101690252B1 (ko) 2009-12-23 2016-12-27 삼성전자주식회사 신호 처리 방법 및 장치
EP2526546A4 (en) * 2010-01-22 2013-08-28 Agency Science Tech & Res METHOD AND DEVICE FOR DETERMINING NUMBER OF BITS FOR ENCODING AUDIO SIGNAL
US9236063B2 (en) * 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
ES2664090T3 (es) * 2011-03-10 2018-04-18 Telefonaktiebolaget Lm Ericsson (Publ) Relleno de subvectores no codificados en señales de audio codificadas por transformada
RU2571561C2 (ru) * 2011-04-05 2015-12-20 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи
CN104396249B (zh) 2012-06-20 2017-12-26 寰发股份有限公司 可伸缩视频编码的层间预测的方法和设备
US9906786B2 (en) 2012-09-07 2018-02-27 Qualcomm Incorporated Weighted prediction mode for scalable video coding
DK2901715T3 (da) 2012-09-28 2017-01-02 Sonova Ag Metode til anvendelse af et binauralt høresystem og et binauralt høresystem / method for operating a binaural hearing system and binaural hearing system
CN107516530B (zh) * 2012-10-01 2020-08-25 日本电信电话株式会社 编码方法、编码装置以及记录介质
US9318092B2 (en) 2013-01-29 2016-04-19 2236008 Ontario Inc. Noise estimation control system
CN104050969A (zh) * 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
EP2976768A4 (en) * 2013-03-20 2016-11-09 Nokia Technologies Oy AUDIO SIGNAL ENCODER COMPRISING A MULTI-CHANNEL PARAMETER SELECTOR
GB2515593B (en) 2013-12-23 2015-12-23 Imagination Tech Ltd Acoustic echo suppression
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
EP2980793A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
US10366698B2 (en) * 2016-08-30 2019-07-30 Dts, Inc. Variable length coding of indices and bit scheduling in a pyramid vector quantizer
US9865274B1 (en) * 2016-12-22 2018-01-09 Getgo, Inc. Ambisonic audio signal processing for bidirectional real-time communication
US10367948B2 (en) * 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10170134B2 (en) 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
CN112119457A (zh) 2018-04-05 2020-12-22 瑞典爱立信有限公司 可截断的预测编码
US11025951B2 (en) 2019-01-13 2021-06-01 Tencent America LLC Method and apparatus for video coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170047072A1 (en) * 2014-02-14 2017-02-16 Telefonaktiebolaget Lm Ericsson (Publ) Comfort noise generation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EVS Codec Comfort Noise Generation (CNG) Aspects (3GPP TS 26.449 version 12.0.0 Release 12). ETSI TS 126 449 V12.0.0. 2014.10.
EVS Codec Detailed algorithmic description (3GPP TS 26.445 version 13.4.1 Release 13). ETSI TS 126 445 V13.4.1. 2017.04.

Also Published As

Publication number Publication date
CN112154502A (zh) 2020-12-29
EP4273858A1 (en) 2023-11-08
EP3776546B1 (en) 2022-01-19
KR20200140353A (ko) 2020-12-15
US20210151060A1 (en) 2021-05-20
EP3776547A1 (en) 2021-02-17
US20230131249A1 (en) 2023-04-27
US20210158825A1 (en) 2021-05-27
EP3776547B1 (en) 2021-08-11
MX2020010468A (es) 2020-10-22
US20210090582A1 (en) 2021-03-25
JP7438268B2 (ja) 2024-02-26
US11495237B2 (en) 2022-11-08
DK3776547T3 (da) 2021-09-13
US11862181B2 (en) 2024-01-02
JP7085640B2 (ja) 2022-06-16
KR20200138367A (ko) 2020-12-09
EP4047601A3 (en) 2022-12-21
US11978460B2 (en) 2024-05-07
JP2022126688A (ja) 2022-08-30
EP3776546A1 (en) 2021-02-17
WO2019193173A1 (en) 2019-10-10
US20230037845A1 (en) 2023-02-09
EP4047601A2 (en) 2022-08-24
WO2019193149A1 (en) 2019-10-10
US20220328055A1 (en) 2022-10-13
KR20230058546A (ko) 2023-05-03
JP2021520515A (ja) 2021-08-19
CN118038881A (zh) 2024-05-14
WO2019193156A1 (en) 2019-10-10
CN112119457A (zh) 2020-12-22
US11417348B2 (en) 2022-08-16
KR102535034B1 (ko) 2023-05-19
CN112154502B (zh) 2024-03-01
US11837242B2 (en) 2023-12-05
US20240161758A1 (en) 2024-05-16
US20240055008A1 (en) 2024-02-15
US11404069B2 (en) 2022-08-02
EP3776548A1 (en) 2021-02-17
EP3913626A1 (en) 2021-11-24

Similar Documents

Publication Publication Date Title
KR102548184B1 (ko) 컴포트 노이즈 생성 지원
JP2018533058A (ja) ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
KR101868926B1 (ko) 노이즈 신호 처리 및 생성 방법, 인코더/디코더 및 인코딩/디코딩 시스템
JP2017526006A (ja) オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム
JP2024073419A (ja) 快適雑音の生成のサポート
EP3664083A1 (en) Signal reconstruction method and device in stereo signal encoding
CA3215225A1 (en) Method and device for multi-channel comfort noise injection in a decoded sound signal

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right