KR20220042165A - 공분산 평활화를 위한 시스템 및 방법 - Google Patents

공분산 평활화를 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20220042165A
KR20220042165A KR1020227006135A KR20227006135A KR20220042165A KR 20220042165 A KR20220042165 A KR 20220042165A KR 1020227006135 A KR1020227006135 A KR 1020227006135A KR 20227006135 A KR20227006135 A KR 20227006135A KR 20220042165 A KR20220042165 A KR 20220042165A
Authority
KR
South Korea
Prior art keywords
frame
smoothing
value
forgetting factor
transient
Prior art date
Application number
KR1020227006135A
Other languages
English (en)
Inventor
데이비드 에스. 맥그래스
스테파니 브라운
주안 필릭스 토레스
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20220042165A publication Critical patent/KR20220042165A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Picture Signal Circuits (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Stereophonic System (AREA)

Abstract

밴드의 빈을 기초로 망각 인자를 설정함으로써 다중-채널 신호의 공분산 행렬을 평활화함으로써 신호 처리를 개선하기 위한 방법 및 시스템. 과도 상태 검출을 기초로 평활화를 재설정하기 위한 방법 및 시스템이 또한 개시된다. 밴딩 전환 동안 평활화를 위한 재샘플링을 위한 방법 및 시스템이 또한 개시된다.

Description

공분산 평활화를 위한 시스템 및 방법
연관된 출원에 대한 상호 참조
본 출원은 2019년 8월 1일에 출원된 미국 가특허출원 제62/881,825호 및 2020년 7월 28일에 출원된 미국 가특허출원 제63/057,533호의 이익을 주장하며, 이는 본원에 참조로 포함된다.
기술분야
본 개시는 신호의 처리를 위한 개선에 관한 것이다. 특히, 본 개시는 개선된 처리를 위한 공분산 평활화(covariance smoothing)를 개선하기 위해 오디오 신호를 처리하는 것에 관한 것이다.
오디오 신호 처리의 양상은 청취자가 오디오에 대한 가상 공간 위치를 결정할 수 있도록 다중-채널 오디오를 청취자에게 제공하는 것을 포함하며, 청취자에게 몰입형 경험을 제공한다. 이의 초기 구현은 청취자가 사운드가 나오는 "방향"을 공간적으로 결정할 수 있는 스테레오(stereo)이다.
이 기술에서의 더 최근의 개발은 더욱 완전한 몰입형 사운드 경험을 제공하기 위해, 다중-채널 시스템의 인터-채널 종속성(inter-channel dependencies)을 사용한다. 이는 오디오 채널의 공분산 행렬의 사용을 포함할 수 있다.
다양한 신호 처리 시스템 및 방법이 본원에 개시된다. 일부 이러한 시스템 및 방법은 연속적인 프레임에 걸쳐 밴드(band)에 대한 공분산 값을 평활화하는 것을 수반할 수 있다.
일부 예시에서, 주파수 밴드에서 신호 프레임의 시퀀스에 대한 공분산 행렬의 추정을 평활화하기 위한 시스템 및 방법에서, 방법은: 신호 프레임에 대해, 주파수 밴드에서 빈(bins)의 유효 카운트를 주파수 밴드에 대한 원하는 카운트와 비교하는 단계; 유효 카운트 대 원하는 카운트의 비율로서 밴드에 대한 망각 인자(forgetting factor)를 계산하는 단계; 및 주파수 밴드에서 빈의 유효 카운트가 원하는 카운트보다 작은 경우, 현재 프레임에 관련된 이전 프레임에 대한 공분산 행렬 값의 값의 이전에 생성된 추정 및 망각 인자를 사용하여, 현재 프레임에 대한 공분산 행렬의 값의 값의 현재 추정을 생성하는 단계를 포함하고, 비교하는 단계, 계산하는 단계 및 생성하는 단계는 하나 이상의 컴퓨터 프로세서를 포함하는 시스템에 의해 수행된다. 평활화된 공분산 행렬은 행렬에서의 대략적인 전환(rough transition)에 의해 야기되는 아티팩트(artifacts)를 감소시킴으로써 신호의 개선된 추가적인 처리에 사용될 수 있다.
일부 이러한 예시에서, 시스템 및 방법은 빈의 유효 수를 주파수 밴드에 대한 필터뱅크 응답 값의 합으로서 계산하는 것을 수반할 수 있다.
이러한 일부 예시에서, 생성하는 단계는 1차 필터를 사용한다.
일부 이러한 예시에서, 1차 필터는 현재 프레임에 대한 값과 이전 프레임에 대해 이전에 생성된 추정 사이의 차이를 포함하며, 차이는 망각 인자에 의해 가중된다.
이러한 일부 예시에서, 시스템 및 방법은 망각 인자를 최대 망각 인자와 비교하는 단계; 및 망각 인자를 계산된 망각 인자와 최대 허용된 망각 인자의 최소값으로 설정하는 단계를 또한 포함하고, 비교하는 단계 및 설정하는 단계는 현재 프레임에 대한 공분산 행렬의 값의 현재 추정을 생성하는 단계 이전에 수행된다.
이러한 일부 예시에서, 시스템 및 방법은 또한 모니터링된 프레임 내에 과도 상태(transient)가 발생하였는지를 검출하는 단계; 및 모니터링된 프레임에 대한 망각 인자의 사용 없이, 모니터링된 프레임에 대한 공분산 행렬 값의 값의 현재 추정을 모니터링된 프레임에 대한 공분산 행렬 값의 원래 값으로 설정함으로써 과도 상태가 발생한다는 것을 검출하는 것에 응답하여 평활화를 재설정하는 단계를 포함한다. 검출하는 단계는 더킹 역상관기(ducking decorrelator)의 양상을 사용함으로써 수행될 수 있다.
일부 이러한 예시에서, 시스템 및 방법은 또한, 현재 프레임의 공분산 행렬의 현재 추정을 저장하는 단계; 및 주파수 밴드에 걸쳐 저장된 현재 추정을 재샘플링하고, 하나의 밴딩 구조로부터 다른 밴딩 구조로 변환하는 단계를 포함한다.
시스템 및 방법은 오디오 신호 디코더의 일부일 수 있다.
본원에서 설명된 방법의 일부 또는 전부는 하나 이상의 비일시적 매체 상에 저장된 명령어(예를 들어, 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적인 매체는 랜덤 액세스 메모리(random access memory, RAM) 디바이스, 읽기-전용 메모리(read-only memory, ROM) 디바이스 등을 포함하지만 이에 제한되지 않는 본원에서 설명된 것과 같은 메모리 디바이스를 포함할 수 있다. 따라서, 본 개시에서 설명된 주제의 다양한 혁신적인 양상은 소프트웨어가 저장된 비일시적 매체에서 구현될 수 있다. 소프트웨어는 예를 들어, 본원에 개시된 것과 같은 제어 시스템의 하나 이상의 구성요소에 의해 실행될 수 있다. 소프트웨어는 예를 들어, 본원에 개시된 방법 중 하나 이상을 수행하기 위한 명령어를 포함할 수 있다.
본 개시의 적어도 일부 양상은 장치 또는 장치들을 통해 구현될 수 있다. 예를 들어, 하나 이상의 디바이스는 본원에 개시된 방법을 적어도 부분적으로 수행하도록 구성될 수 있다. 일부 구현에서, 장치는 인터페이스 시스템 및 제어 시스템을 포함할 수 있다. 인터페이스 시스템은 하나 이상의 네트워크 인터페이스, 제어 시스템과 메모리 시스템 사이의 하나 이상의 인터페이스, 제어 시스템과 다른 디바이스 사이의 하나 이상의 인터페이스 및/또는 하나 이상의 외부 디바이스 인터페이스를 포함할 수 있다. 제어 시스템은 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 애플리케이션 특정 집적 회로(application specific integrated circuit, ASIC), 필드 프로그램 가능 게이트 어레이(field programmable gate array, FPGA) 또는 다른 프로그램 가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 또는 이산 하드웨어 구성요소 중 적어도 하나를 포함할 수 있다. 따라서, 일부 구현에서 제어 시스템은 하나 이상의 프로세서 및 하나 이상의 프로세서에 작동 가능하게 결합된 하나 이상의 비일시적 저장 매체를 포함할 수 있다.
본 명세서에 설명된 주제의 하나 이상의 구현의 세부 사항은 첨부 도면 및 아래의 설명에 제시된다. 다른 특징, 양상 및 이점은 설명, 도면 및 청구범위로부터 명백해질 것이다. 다음 그림의 상대적인 치수는 축척대로 도시되지 않을 수 있다. 다양한 도면에서 유사한 참조 부호 및 지정은 일반적으로 유사한 요소를 나타내지만, 상이한 참조 번호가 반드시 상이한 도면 사이에 상이한 요소를 지정하지는 않는다.
도 1은 샘플, 프레임, 빈 및 밴드로 분할된 신호 채널의 예시를 나타낸다.
도 2는 평활화 알고리즘을 사용하여 신호 공분산 행렬을 평활화하기 위한 예시적인 방법에 대한 흐름도를 예시한다.
도 3은 최대 망각 인자(maximum forgetting factor)를 통한 평활화 알고리즘을 사용하여 신호 공분산 행렬을 평활화하기 위한 예시적인 방법에 대한 흐름도(부분)를 예시한다.
도 4는 과도 상태 검출(transient detection)을 통한 평활화 알고리즘을 사용하여 신호 공분산 행렬을 평활화하기 위한 예시적인 방법에 대한 흐름도(부분)를 예시한다.
도 5는 인코더에서 평활화 알고리즘을 갖는 예시적인 인코더/디코더 시스템을 예시한다.
도 6은 디코더에서 평활화 알고리즘을 갖는 예시적인 인코더/디코더 시스템을 예시한다.
도 7은 DTX의 일부로서 평활화 알고리즘을 갖는 예시적인 인코더/디코더 시스템을 예시한다.
본 개시는 시간에 걸쳐 추정된 행렬(예를 들어, 공분산 행렬)의 값을 평활화하기 위한 방법 및 시스템을 설명하며, 적은 수의 샘플로부터 추정이 계산되어 그러한 값의 평활화되지 않은 변동이 출력(예를 들어, 오디오)에서 눈에 띄는 아티팩트와 같은 문제를 야기할 수 있는 경우를 포함한다.
본 개시는 또한, (무엇보다도) 값을 과도하게 평활화하는(over-smoothing) 것을 방지하고, 그로 인해 평활화로부터 원치 않는 아티팩트를 추가하는 것을 방지하기 위한 과도 상태 검출의 사용을 설명한다.
본원에서 "평활화"라는 용어는 신호의 순차적인 프레임의 값의 변동을 감소시키는 것을 지칭한다. 예를 들어, 순차적인 프레임에 대한 공분산 값의 변동을 감소시킨다.
본원에서 사용된 "공분산"이란 용어는 두 개의 신호의 공동 변동성의 측정을 지칭한다. 예를 들어, 신호의 에너지의 공분산.
본원에서 사용된 "공분산 행렬"은 다수의 신호의 공분산의 행렬을 지칭한다. "밴딩된 공분산 행렬(Banded covariance matrix)"은 공분산이 (밴드의 수와 동일한) 현저히 적은 수로 나타날 수 있도록, 빈-당(per-bin) 공분산 행렬의 여러 인접한 주파수 빈이 밴드로 결합되는 공분산 행렬을 지칭한다. 예를 들어, 960개의 주파수 빈을 갖는 입력은 960개의 빈이 12개의 밴드 사이에 균등하게 또는 불균등하게 분포된 12개의 주파수 밴드가 될 수 있다. 본원에 제공된 예시에 대해, "공분산 행렬"는 밴드 공분산 행렬로 간주된다.
본원에서 사용된 "추정된 행렬"은 샘플 공분산 행렬을 지칭한다. 본원에서 사용되는, "공분산 행렬" 및 "평활화된 행렬은 추정된 행렬을 포함한다.
본원에서 사용된 CACPL(complex advanced coupling)이란 용어는 스테레오 인코딩의 방법을 지칭하며, 그로 인해 좌측 신호 및 우측 신호는 중간 (L+R)/2 및 측면 (LR)/2 신호로 결합되고, 그 후 측면 신호는 중간으로부터 예측된다.
본원에서 사용되는 "평활화 알고리즘"이란 용어는 본 개시에 따른 공분산 행렬을 평활화하는 것, 특히 밴드의 유효 빈 카운트에 기초한 평활화를 지칭한다. 본원에서 사용된 "평활화된 행렬"라는 용어는 평활화 알고리즘에 의해 수정된 공분산 행렬을 지칭한다.
본원에서 사용된 "유효 빈 카운트"라는 용어는 밴드에서의 빈의 수의 실제 카운트 또는 밴드에서의 유효 빈의 카운트의 추정을 지칭한다. 밴드에서 유효 빈의 카운트의 추정의 예시는 그 밴드에 대한 필터뱅크 응답 값(filterbank response values)을 합산하는 것을 포함한다.
본원에서 사용된 "망각 인자"라는 용어는 함수의 일부의 의미를 수정하는 가중 값을 지칭한다.
본원에서 사용되는 "DTX"라는 용어는 불연속적인 전송 이벤트를 처리하는 인코더 모듈을 지칭한다.
입력 채널의 공분산을 평활화하는 문제에 대한 해결책이 본원에서 설명된다. 이는 사용자에게 몰입형 경험(예를 들어, 가상 현실, 증강 현실)을 제공하는 것과 같은, 음성 및 오디오 서비스와 같은 신호 처리의 기술을 개선한다.
도 1에 도시된 디지털 신호 처리에서, 입력 신호(채널)는 시간 도메인에서 프레임(101)으로 나뉜다. 연속적인 프레임의 시퀀스는 "프레임 시퀀스"(102)로 함께 그룹화될 수 있다. 주파수 도메인에서, 신호는 빈(103)으로 불리는 주파수 간격으로 나뉠 수 있다. 주어진 프레임에서 주어진 빈은 샘플(106)로 불린다. 빈은 주파수 밴드(104/105)에서 함께 그룹화될 수 있다. 이는 주어진 윈도우화된 프레임/프레임 시퀀스에 대한 주어진 밴드에 걸친 통계적인 평균("윈도우"는 프레임 또는 프레임 시퀀스에 적용되는 가중 함수임)을 허용한다. 이 평균화의 하나의 용도는 오디오 채널 사이의 공분산을 추정하는 것이다.
모든 밴드가 반드시 동일한 수의 빈을 포함하는 것은 아니다. 예를 들어, 더 낮은 주파수 밴드(104)는 더 높은 주파수 밴드(105)보다 밴드당 더 적은 수의 빈을 가질 수 있다. 이는, 통계적 분석의 경우, 더 낮은 주파수 밴드가 더 높은 주파수 밴드가 요구하는 것보다 의미 있는 통계 결과를 생성하기 위해 빈당 더 큰 윈도우(더 많은 프레임)를 요구한다는 것을 의미한다. 주어진 프레임에서 주어진 빈은 이와 연관된 신호 에너지를 가질 수 있고, 몇몇 빈 값은 밴드 및/또는 윈도우에 걸쳐 평균화될 수 있다.
공분산 행렬 예시
CACPL(complex advanced coupling)을 예시로 들면, 파라미터 α(복소 예측 계수) 및 β(실수 역상관 계수)는 (2×2) 중간-측 공분산 행렬 ΣMS의 요소로부터 계산될 수 있다. 이 행렬은 일련의 분석 밴드 1≤b≤ B에 대해 계산된다.
[수학식 1]
Figure pct00001
여기서 형태
Figure pct00002
에서의 항은 주파수 밴드 b에 걸쳐 계산된 신호 XY의 공분산이다. 첨자 *는 값의 복소 켤레 전치(complex conjugate transpose)를 나타낸다. 위의 예시는 2 × 2 공분산 행렬이다. 다양한 구현에서 임의의 수의 입력 채널이 가능하다(예를 들어, 4 x 4 공분산 행렬을 갖는 4-채널 시스템). 위의 예시는 중간(M) 및 측면(S) 신호에 대한 것이지만, 통상의 기술자는 다른 신호 타입에 대해 위의 것을 추론할 수 있다.
평활화 함수 및 망각 인자
일반적으로, 평활화된 행렬은 평활화 요건을 충족하도록 설계된 저역-통과 필터를 사용하여 계산될 수 있다. 평활화 알고리즘의 경우, 평활화 요건은 공분산 행렬의 현재 추정을 생성하는 데 사용되는 주파수 샘플(빈)의 수를 인위적으로 증가시키기 위해 이전 추정이 사용되도록 한다. 일부 실시예에서, 프레임 시퀀스에 걸쳐 입력 공분산 행렬 A로부터 평활화된 행렬
Figure pct00003
를 계산하는 것은 과거 및 현재 프레임의 추정된 행렬 값의 가중된 합을 사용하는 1차 자동-회귀 저역 통과 필터를 사용한다:
[수학식 2]
Figure pct00004
여기서 λ는 망각 인자 또는 업데이트 속도, 즉 이전 추정 데이터에 얼마나 많은 강조(emphasis)가 있는지이고, n은 프레임 수이다. 일부 실시예에서, 이는 A[0]에 대한 값이 없기 때문에 제1 프레임 이후의 프레임에 대해서만 의미를 갖는다. 일부 실시예에서, A[0]은 0의 값이 주어지고, A[1]의 평활화를 초래한다. 일부 실시예에서, A[0]은 A[1]의 값이 주어지고, A[1]의 평활화를 초래하지 않는다. 수학식 2에서의 알고리즘은 평활화 알고리즘에 사용될 수 있는 알고리즘의 예시이지만, 다른 수학식 또한 사용될 수 있다. 예를 들어, 수학식 2가 1차 저역 통과 필터를 도시하지만, 더 높은 차수의 필터 설계 또한 사용될 수 있다. 알고리즘(평활화 함수)의 중요한 인자는 이전에 평활화된 결과를 사용하는 루킹-백 양상(looking-back aspect) 및 이 결과의 영향에 가중치를 주기 위한 망각 인자이다.
망각 인자
망각 인자의 효과는 평활화가 연속적인 프레임에 걸쳐 적용되기에, 이전 프레임의 효과가 평활화되는(조정되는) 프레임의 평활화에 점점 더 적은 영향을 미치게 된다.
수학식 1에서의 망각 인자가 1(λ = 1)일 때, 평활화가 발생하지 않으며, 이는 전역-통과 필터로 효과적으로 작용한다. 0<λ<1일 때 수학식은 저역 통과 필터의 역할을 한다. 더 낮은 λ는 오래된 공분산 데이터를 더 강조하는 한편, 더 높은 λ는 더 새로운 공분산을 고려한다. 1보다 큰 망각 인자(예를 들어, 1<λ<2)는 고역 통과 필터로 구현된다. 일부 실시예에서, 최대 허용 가능한 망각 인자 λ max 가 구현된다. 이 최대값은 빈/밴드 값이 커지면 알고리즘의 동작을 결정할 것이다. 일부 실시예에서, λ max <1은 계산된 망각 인자가 무엇인지에 관계없이, 항상 모든 밴드에서 일부 평활화를 구현할 것이고; λ max =1은 원하는 N min 보다 적은 빈을 갖는 밴드에만 평활화 함수를 적용할 것이며, 더 큰 밴드를 평활화되지 않게 둘 것이다.
이 실시예 중 일부에서, 특정 밴드에 대한 망각 인자 λ b 는 윈도우 크기를 기f초로 양호한 통계적인 추정을 제공하기 위해 최대 허용 망각 인자 λ max 와, 결정되는 밴드에서 빈의 유효 수 N b 및 빈의 최소 수 N min 의 비율의 최소 값으로 계산된다.
[수학식 3]
Figure pct00005
일부 실시예에서, N b 는 주파수 밴드에 대한 빈의 실제 카운트이다. 일부 실시예에서, N b 는 특정 밴드의 주파수 응답의 합으로부터 계산될 수 있고, 예를 들어, 밴드의 응답이 r = [0.5,1,1,0.5,0, ...,0]인 경우, 빈의 유효 수는 N b =sum(r)= 0.5+1+1+0.5=3이다. 일부 실시예에서, λ b 가 합리적인 범위, 예를 들어 0≤λ b ≤1 내에 머물도록 λ max =1이다. 이는 평활화가 작은 표본 추정에 비례하여 적용되고, 평활화가 큰 표본 추정에 전혀 적용되지 않는다는 것을 의미한다. 일부 실시예에서, λ max <1이며, 이는 그의 크기에 관계 없이 더 큰 밴드가 특정 정도로 평활화되는 것을 강제한다(예를 들어, λ max = 0.9). 일부 실시예에서, N min 은 최선의 주관적인 결과를 생성하는 가까운(at hand) 데이터에 기초하여 선택될 수 있다. 일부 실시예에서, N min 은 얼마나 많은 초기(주어진 윈도우의 초기 프레임 이후의 제1 후속 프레임) 평활화가 요구되는지에 기초하여 선택될 수 있다.
예시에서, 더 좁은 (즉, 양호한 통계적 분석을 위해 필요한 더 적은 빈, 더 많은 프레임) 낮은-주파수 밴드 및 더 넓은 (즉, 양호한 통계적 분석을 위해 필요한 더 많은 빈, 더 적은 프레임) 높은 주파수 밴드를 사용하여, 이는 더 낮은 주파수 밴드에서 평활화의 양을 증가시키고, 더 높은 주파수 밴드에서 양을 감소시키는(또는 모든 λ max = 1의 경우에 평활화를 하지 않는) 효과를 가질 것이다.
이 방법에 대한 예시적인 프로세스 흐름이 도 2에 도시된다. 입력 신호 FFT(고속 푸리에 변환)(201)는 입력 신호에서의 주어진 밴드에 대해, 윈도우에 걸쳐 대응하는 공분산 행렬을 제공한다. 그 밴드에 대한 빈의 유효 카운트가 취해진다(202). 이는 예를 들어, 밴드의 필터뱅크 응답 값에 의해 계산될 수 있다. 원하는 빈 카운트는 예를 들어, 윈도우에 대한 양호한 통계적 분석을 제공하기 위해 얼마나 많은 빈이 필요한지에 대한 주관적인 분석에 의해 결정된다(203). 망각 인자는 계산된 빈의 수 대 원하는 빈 카운트의 비율을 취함으로써 계산된다(204). (제1 프레임 이외의) 주어진 프레임에 대해, 이전 프레임에 대해 계산된 새로운 공분산 값, 현재 프레임에 대한 원래 값 및 망각 인자를 기초로 새로운 공분산 행렬 값이 계산된다(205). 이 새로운 값에 의해 형성된 새로운 (평활화된) 행렬은 추가적인 신호 처리에서 사용된다(206).
도 3은 최대 허용된 망각 인자에 대한 흐름에 대한 예시적인 수정을 도시한다. 도 2에서와 같이, 망각 인자는 밴드에 대해 계산된다(301). 추가적으로, 최대 허용된 망각 인자가 결정된다(302). 값이 비교되고(303), 계산된 인자가 최대 허용된 인자보다 작다는 것에 응답하여, 계산된 인자는 평활화에 사용된다(305). 계산된 인자가 최대 허용된 인자보다 큰 경우, 최대 허용된 인자가 평활화(305)에서 사용된다(304). 예시는 인자가 동일한 경우(그보다 크지 않음), 계산된 인자가 사용되는 것을 도시하지만, 이들이 동일한 경우 최소 값이 사용되는 동등한 흐름이 구상될 수 있다.
평활화 재설정
일부 실시예에서, 이는 출력에서 원치 않는 신호 왜곡/아티팩트를 생성할 수 있으므로, 과도 상태(신호 크기의 급격한 변화)에 대한 평활화의 원하는 회피가 있을 수 있다. 이 실시예에서, 평활화는 신호에서 과도 상태가 검출되는 지점에서 "재설정"될 수 있다.
이전 시간 프레임의 추정된 행렬은 현재 프레임에 대한 평활화 값의 계산을 용이하게 하기 위해 저장될 수 있다. 그 프레임 동안 입력 신호에서 과도 상태가 검출된 경우, 평활화 함수가 자체적으로 다시 초기화되도록 설정될 수 있다.
과도 상태가 검출될 때, 과도 상태 이후의 평활화 필터의 출력이 추정 그 자체가 되도록(변경이 적용되지 않음) 과거 행렬 추정이 현재 추정으로 재설정된다. 다시 말해, 재설정 프레임에 대해
Figure pct00006
이다. 프레임 재설정 이후에, 후속하는 프레임은 다음 재설정까지 평활화 함수를 다시 적용할 수 있다.
도 4는 과도 상태 검출을 위한 흐름에 대한 예시적인 수정을 도시한다. 주어진 프레임에 대해 과도 상태가 검출되는 경우, 결정이 이루어진다(401). 그러하면(403), 새로운 행렬 값이 입력 값과 동일하게 유지된다. 그렇지 않으면(402), 그 프레임에 대해 일반적인 평활화 알고리즘이 사용된다. 평활화된 및 평활화되지 않은(과도 상태) 프레임 값의 조합(행렬)은 신호 처리에 사용된다(404).
일부 실시예에서, 평활화는 임의의 채널에서 과도 상태가 검출될 때 재설정된다. 예를 들어, N개의 채널이 있는 경우, N개의 과도 상태 검출기가 사용될 수 있고(채널 당 하나), 이들 중 어느 것이 과도 상태를 검출하는 경우, 평활화는 재설정되거나 또는 신호의 마지막 또는 평활화의 마지막이다(평활화가 턴 오프된다).
스테레오 입력의 예시에 대해, 채널은 좌측 채널에서의 과도 상태만을 고려하는 것이 우측 채널에서의 중요한 과도 상태가 부적절하게 평활화될 수 있음을(및 그 역으로도) 의미할 수 있도록 충분히 구별되는(또는 가능하면 구별되는) 것으로 결정될 수 있다. 그러므로, 두 개의 과도 상태 검출기가 (좌측 및 우측에서) 사용되고, 이들 중 어느 하나는 전체 2×2 행렬의 평활화 재설정을 트리거할 수 있다.
일부 실시예에서, 평활화는 특정 채널에 대한 과도 상태에서만 재설정된다. 예를 들어, N개의 채널이 있는 경우, M(<N, 가능하면 1)개의 검출기만이 사용된다.
1차 앰비소닉(First Order Ambisonics, FOA) 입력의 예시에 대해, 제1 (W) 채널은 다른 세 개의 (X, Y, Z)에 비해 가장 중요한 것으로 결정될 수 있고, FOA 신호 사이의 공간적 관계가 주어지면 후자의 세 개의 채널에서 과도 상태가 W 채널에 그래도 반영될 가능성이 있을 것이다. 그러므로, 시스템은 W 채널 상에서만 과도 상태 검출기로 설정될 수 있으며, W 상에서 과도 상태를 검출할 때, 전체 4x4 공분산 행렬의 재설정을 트리거링한다.
일부 실시예에서, 재설정은 과도 상태를 경험한 공분산 요소만을 재설정한다. 이는 n번째 채널에서의 과도 상태가 공분산 행렬의 n번째 행 및 n번째 열(전체 행 및 전체 열)에서의 값만을 재설정한다는 것을 의미할 것이다. 이는 각 채널 상에서 별도의 과도 상태 모니터링을 가짐으로써 수행할 수 있으며, 임의의 주어진 채널 상에서 검출된 과도 상태는 다른 채널에 대한 그 채널의 공분산에 대응하는 행렬 위치에 대한 재설정을 트리거한다(및 그 자체에 대해 역으로도 그러하고 및 자명하다).
일부 실시예에서, 재설정은 과도 상태를 검출하는 대부분의/임계 수의 채널 상에서만 발생한다. 예를 들어, 네 개의 채널 시스템에서, 임계치는 채널 중 적어도 두 개가 동일한 프레임에서 과도 상태를 보고하는 경우에만 재설정을 트리거하도록 설정할 수 있다.
과도 상태 검출 예시
과도 상태 검출기의 예시는 더킹 역상관기(ducking decorrelator)의 더킹 이득 속성에 사용하는 것이고, 이는 단일 입력 채널에서 과도 상태가 발생했는지를 결정하는 데 사용될 수 있다. 예를 들어, US 9,747,909를 참조하고, 그의 내용은 본원에 참조로 통합된다. 더킹 이득에서의 급격한 감소는 과도 상태에서 발생한다. 더킹 이득에서의 변화는 과도 상태가 발생했는지를 결정하기 위해 임계값과 비교될 수 있다. 임계값은 정확한 과도 상태 검출을 제공하는 것의 주관적인 평가에 의해 결정될 수 있다.
예시적인 과도 상태 검출기는 다음의 방식으로 작동한다:
1. 입력 신호는 과도 상태를 향상시키기 위해 고역 통과 필터링된다.
2. 고역 통과 필터 출력 신호의 절대값은 신호 포락선을 결정하기 위해 저역 통과 필터링된다.
3. 약간 상이한 차단 주파수를 갖는 두 개의 상이한 저역 통과 필터를 사용하여, 빠른 e f [n] 및 느린 e s [n]의 두 개의 포락선이 생성된다, ω f >ω s .
4. 특정 프레임 내의 신호 포락선의 각 시간-도메인 샘플 n에 대해, 여기서, 1≤n≤N이고
[수학식 4]
Figure pct00007
이면, 더킹 이득 g d 가 다음과 같이 감소되고
[수학식 5]
Figure pct00008
그렇지 않으면, 이득은 다음과 같이 다시 1로 서서히 증가할 수 있다:
[수학식 6]
Figure pct00009
여기서 τ d 는 더킹 이득이 1로 얼마나 빨리 돌아가는지를 결정하는 시간 상수이다.
5. 현재 프레임에 걸쳐 더킹 이득에서 더 큰 변화가 있는 경우, 과도 상태가 발생한 것으로 간주되고: 즉,
[수학식 7]
Figure pct00010
이다.
일부 실시예에서, 더킹 이득으로부터 과도 상태의 발생을 결정하기 위한 방법은 위의 조건이 충족되는 각 프레임 내의 시간-도메인 샘플의 수/분율(fraction)을 카운팅하는 것이다. 이 값이 특정 임계치를 통과하는 경우, 프레임은 과도 상태를 포함하는 것으로 결정된다.
평활화 알고리즘에 대한 과도 검출을 위해 더킹 이득이 사용될 수 있지만, 이 기술분야에 알려진 과도 상태 검출의 임의의 방법이 이용될 수 있다.
리샘플링(밴딩 전환)
일부 실시예에서, 평활화를 겪는 밴드는 채널의 밴딩이 변경될 때 평활화를 위한 새로운 밴드로 변환될 수 있다. 입력 신호의 밴딩이 하나의 프레임으로부터 다음의 것으로 변경되는 경우, 수 및/또는 대역폭의 측면에서(예를 들어, 인코더에서의 필터뱅크 스위치에 기인함) 저장된(이전) 행렬 추정은 평활화 메커니즘의 중단되지 않는 동작을 계속하기 위해 새로운 밴딩 구조로 재샘플링될 수 있다. 밴딩 구조 사이의 변환 행렬은 주파수 도메인에서 윈도잉 함수의 세트, 즉 이전 밴딩 방식(즉, 이전 필터뱅크)에 대한 이상적인 필터뱅크 크기 응답을 행렬로 취함으로써 계산될 수 있다.
예시로서:
Bank 1 은 이전의 이상적인 필터뱅크 응답 FR1의 행을 포함하는 (B 1 ×F) 어레이이고, Bank 2 는 새로운 필터뱅크 이상적인 응답 FR2를 포함하는 (B 2 ×F) 어레이이다. F는 주파수 빈의 수이다.
Figure pct00011
Bank 1 로부터의 밴드 b 1 Bank 2 로부터의 밴드 b 2 로 변환하는 변환 행렬 C b1 -> b2 의 요소:
[수학식 8]
Figure pct00012
이전 밴딩된 추정을 새로운 밴딩 방식으로 변환하는 데 사용될 수 있는 (B 1 × B 2 ) 행렬을 생성한다.
재설정을 통한 평활화의 예시
1×1 공분산 행렬 A b [n]의 단일 밴드 b의 예시가 주어지면, 여기서 밴드는 3개의 빈(N b = 3)으로 구성되지만 이는 적어도 8개의 빈(N min =8)이 양호한 통계적 분석을 위해 필요하다고 (주관적으로) 결정된다. 이는 λ b = 3/8의 밴드 망각 인자를 제공한다.
초기 밴딩된 공분산 행렬은 (제1 프레임 및 과도 상태는 굵게 도시됨):
Figure pct00013
및 다음의 출력을 갖는 과도 상태 검출기 - 과도 상태를 포함하는 제1 프레임 및 제7 프레임을 나타냄 -:
Figure pct00014
평활화된 공분산 출력은 다음과 같다.
Figure pct00015
제1 프레임은 제1 프레임에 나타난 과도 현상에 기인하여 제2 프레임까지 평활화가 시작되지 않기 때문에 A[n]에 있는 것처럼
Figure pct00016
에서 동일하게 유지된다. 제1 프레임에 과도 상태가 없었던 경우, 일 실시예에서 이전 프레임을 0 값을 갖는 것으로 취함으로써, 또는 다른 실시예에서 그 자체와 동일한 값을 갖는 것으로서 제1 프레임이 평활화될 수 있고; 상황은 알고리즘이 어떻게 구성되는 지에 의존한다. 일부 실시예에서, 제1 프레임은 임의의 실제 검출이 발생하는 지에 상관없이 검출된 과도 상태를 갖는 것으로 항상 표시된다.
Figure pct00017
의 제7 값은 평활화 재설정에 기인하여 A[n]로부터의 것과 동일하다.
제2 프레임은 그 자체의 값(0.05), 이전 프레임의 "평활화된" 값(0.1), 망각 인자(3/8)를 사용하여,
Figure pct00018
의 평활화된 값(약 0.813)을 계산한다. 식은 이 예시에 있다(1차 필터):
Figure pct00019
이는 프레임 7에 도달할 때까지 후속 프레임에 대해 반복되며, 이는 T[n]에서 과도 상태를 갖는 것으로 지정된다. 이를 위해,
Figure pct00020
. 그 후, 후속 프레임은 평활화 함수에 의해 다시 계산된다(프레임 7이 초기 프레임인 것과 같이).
일부 실시예에서, 공분산 행렬 평활화 시스템은 인코더에 통합될 수 있다. 예시적인 시스템이 도 5에 제공된다. 예시적인 인코더(501)는 신호(504)가 디코더(505)로 전송되기 전에 평활화 알고리즘(503)이 수정하는 신호(504)에 대한 하나 이상의 공분산 행렬을 생성한다(502).
일부 실시예에서, 공분산 행렬 평활화 시스템은 디코더에 통합될 수 있다. 평활화 알고리즘을 갖는 디코더의 예시가 도 6에 도시된다. 인코더(601)는 디코더(603)에 신호(602)(예를 들어, 오디오 채널)를 전송한다. 디코더(603)는 추가적인 처리(605)가 수행되기 전에 평활화 알고리즘(604)을 적용한다(평활화 전에 처리가 있을 수도 있다).
일부 실시예에서, 공분산 평활화는 또한 공간적인 안락 잡음(spatial comfort noise)의 파라미터화를 안정화하기 위해 불연속 전송(discontinuous transmission, DTX) 프레임의 경우 인코더에서 사용될 수 있다. 이 경우, DTX 프레임 동안 과도 현상에 기인한 공분산 평활화의 재설정이 없을 것이며, 그 대신에 코덱의 DTX 모드 진입/종료 시 재설정될 것이다. 평활화 알고리즘을 갖는 인코더의 예시가 도 7에 도시되며, 여기서 인코더 (701)는 평활화 알고리즘 (703)을 통합하는 DTX 모듈(702)을 갖는다.
본 개시의 다수의 실시예가 설명되었다. 그럼에도 불구하고, 본 개시의 사상 및 범주를 벗어나지 않고 다양한 수정이 이루어질 수 있음이 이해될 것이다. 따라서, 다른 실시예는 다음 청구범위의 범주 내에 있다.
공분산 평활화 기술을 구현하는 컴퓨팅 디바이스는 다음의 예시적인 아키텍처를 가질 수 있다. 더 많거나 더 적은 구성요소를 갖는 아키텍처를 포함하여 다른 아키텍처도 가능하다. 일부 구현에서, 예시적인 아키텍처는 하나 이상의 프로세서(예를 들어, 듀얼-코어 Intel® Xeon® 프로세서), 하나 이상의 출력 디바이스(예를 들어, LCD), 하나 이상의 네트워크 인터페이스, 하나 이상의 입력 디바이스(예를 들어, 마우스, 키보드, 터치 디스플레이) 및 하나 이상의 컴퓨터 판독-가능 매체(예를 들어, RAM, ROM, SDRAM, 하드 디스크, 광 디스크, 플래시 메모리 등)를 포함한다. 이 구성요소는 하나 이상의 통신 채널(예를 들어, 버스)을 통해 통신 및 데이터를 교환할 수 있으며, 구성요소 간의 데이터 및 제어 신호의 전송을 용이하게 하기 위해 다양한 하드웨어 및 소프트웨어를 이용할 수 있다.
"컴퓨터 판독 가능 매체"라는 용어는 비휘발성 매체(예를 들어, 광학 또는 자기 디스크), 휘발성 매체(예를 들어, 메모리) 및 전송 매체를 포함하지만 이에 제한되지 않는 실행을 위해 프로세서에 명령어를 제공하는 데 참여하는 매체를 지칭한다. 전송 매체는 동축 케이블, 구리선 및 광섬유를 포함하며 이에 제한되지 않다.
컴퓨터-판독 가능 매체는 운영체제(예를 들어, Linux® 운영체제), 네트워크 통신 모듈, 오디오 인터페이스 관리자, 오디오 처리 관리자 및 라이브 콘텐츠 배포자를 더 포함할 수 있다. 운영체제는 다중-사용자, 다중 처리, 다중 작업, 다중 스레딩(multithreading), 실시간 등일 수 있다. 운영체제는: 네트워크 인터페이스(706) 및/또는 디바이스(708)로부터 입력을 인식하고, 그에 출력을 제공하는 것; 컴퓨터 판독 가능 매체(예를 들어, 메모리 또는 저장 디바이스) 상의 파일 및 디렉토리를 추적하고 관리하는 것; 주변 디바이스를 제어하는 것; 및 하나 이상의 통신 채널 상의 트래픽을 관리하는 것을 포함하지만 이에 제한되지 않는 기본 작업을 수행한다. 네트워크 통신 모듈은 네트워크 연결을 설정하고 유지하기 위한 다양한 구성요소(예를 들어, TCP/IP, HTTP 등과 같은 통신 프로토콜을 구현하기 위한 소프트웨어)를 포함한다.
아키텍처는 병렬 처리 또는 P2P 인프라구조로 구현되거나 또는 하나 이상의 프로세서를 갖는 단일 디바이스 상에서 구현될 수 있다. 소프트웨어는 여러 소프트웨어 구성요소를 포함하거나, 또는 단일 코드의 본문(body of code)일 수 있다.
설명된 특징은 적어도 하나의 입력 디바이스에서 및 적어도 하나의 출력 디바이스에서 데이터 저장 시스템으로부터 데이터 및 명령어를 수신하고, 그에 데이터 및 명령어를 송신하도록 결합된 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 실행 가능한 적어도 하나의 컴퓨터 프로그램에서 유리하게 구현될 수 있다. 컴퓨터 프로그램은 특정 활동을 수행하거나 특정 결과를 가져오기 위해 컴퓨터에서 직접적으로 또는 간접적으로 사용될 수 있는 명령어의 세트이다. 컴퓨터 프로그램은 컴파일된 언어 또는 해석된 언어를 포함하는, 임의의 형태의 프로그래밍 언어(예를 들어, Objective-C, Java)로 작성될 수 있으며, 이는 독립형 프로그램(stand-alone program)로서, 또는 모듈, 구성요소, 서브루틴, 브라우저 기반 웹 애플리케이션 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛으로서 배포될 수 있다.
명령어의 프로그램의 실행에 적합한 프로세서는 예를 들어, 범용 및 특수 목적 마이크로프로세서, 및 임의의 종류의 컴퓨터의 단독 프로세서 또는 다중 프로세서 또는 코어 중 하나를 포함한다. 일반적으로, 프로세서는 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 이들 둘 다모두로부터 명령어 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소는 명령어를 실행하기 위한 프로세서 및 명령어 및 데이터를 저장하기 위한 하나 이상의 메모리이다. 일반적으로, 컴퓨터는 또한 데이터 파일을 저장하기 위한 하나 이상의 대용량 저장 디바이스와 통신하도록 동작 가능하게 결합될 수 있으며; 이러한 디바이스는 내부 하드 디스크 및 이동식 디스크와 같은 자기 디스크; 광자기 디스크; 및 광학 디스크를 포함한다. 컴퓨터 프로그램 명령어 및 데이터를 유형적으로 구현하기에 적합한 저장 디바이스는 예시로서, EPROM, EEPROM 및 플래시 메모리 디바이스와 같은 반도체 메모리 디바이스; 내부 하드 디스크 및 이동식 디스크와 같은 자기 디스크; 광자기 디스크; 및 CD-ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리를 포함한다. 프로세서 및 메모리는 애플리케이션 특정 집적 회로(application-specific integrated circuit, ASIC)에 의해 보완되거나 통합될 수 있다.
사용자와의 상호작용을 제공하기 위해, 특징은 사용자에게 정보를 디스플레이하기 위한 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터, 또는 망막 디스플레이 디바이스와 같은 디스플레이 디바이스를 갖는 컴퓨터 상에서 구현될 수 있다. 컴퓨터는 사용자가 컴퓨터에 입력을 제공할 수 있는 터치 표면 입력 디바이스(예를 들어, 터치 스크린) 또는 키보드 및 마우스 또는 트랙볼과 같은 포인팅 디바이스(pointing device)를 가질 수 있다. 컴퓨터는 사용자로부터 음성 명령어를 수신하기 위한 음성 입력 디바이스를 가질 수 있다.
특징은 데이터 서버와 같은 백엔드 구성요소(back-end component)를 포함하거나, 애플리케이션 서버 또는 인터넷 서버와 같은 미들웨어 구성요소를 포함하거나, 또는 그래픽 사용자 인터페이스, 또는 인터넷 브라우저, 또는 이들의 조합을 갖는 클라이언트 컴퓨터와 같은 프론트엔드 구성요소(front-end component)를 포함하는 컴퓨터 시스템에서 구현될 수 있다. 시스템의 구성요소는 통신 네트워크와 같은 디지털 데이터 통신의 임의의 형태 또는 매체에 의해 연결될 수 있다. 통신 네트워크의 예시는 예를 들어, 인터넷을 형성하는 LAN, WAN, 컴퓨터 및 네트워크를 포함한다.
컴퓨팅 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트 및 서버의 관계는 각각의 컴퓨터 상에서 실행되고 서로에 대해 클라이언트-서버 관계를 갖는 컴퓨터 프로그램 덕분에 발생한다. 일부 실시예에서, 서버는 (예를 들어, 클라이언트 디바이스에 데이터를 디스플레이하고, 클라이언트 디바이스와 상호작용하는 사용자로부터 사용자 입력을 수신하기 위해) 데이터(예를 들어, HTML 페이지)를 클라이언트 디바이스로 송신한다. 클라이언트 디바이스에서 생성된 데이터(예를 들어, 사용자 상호작용의 결과)는 서버에서 클라이언트 디바이스로부터 수신될 수 있다.
하나 이상의 컴퓨터의 시스템은 동작에서 시스템이 작업을 수행하게 하는 시스템 상에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 갖는 것으로 인해 특정 작업을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램은 데이터 처리 장치에 의해 실행될 때 장치가 작업을 수행하게 하는 명령어를 포함하는 것으로 인해 특정 작업을 수행하도록 구성될 수 있다.
본 명세서는 많은 특정 구현 세부사항을 포함하지만, 이는 임의의 발명의 범주 또는 청구될 수 있는 것에 대한 제한으로 해석되어서는 안 되며, 오히려 특정 발명의 특정 실시예에 특정한 특징의 설명으로 해석되어서는 안 된다. 별도의 실시예의 맥락에서 본 명세서에 설명된 특정 특징은 또한, 단일 실시예에서 조합하여 구현될 수 있다. 역으로, 단일 실시예의 맥락에서 설명된 다양한 특징은 또한 개별적으로 또는 임의의 적절한 하위 조합으로 다수의 실시예에서 구현될 수 있다. 더욱이, 특징이 특정 조합으로 작용하는 것으로 위에서 설명될 수 있고 심지어 처음에 그렇게 청구될 수도 있지만, 청구된 조합으로부터의 하나 이상의 특징이 일부 경우에 조합으로부터 제거될 수 있고, 청구된 조합은 하위 조합 또는 하위 조합의 변형에 관련될 수 있다.
유사하게, 동작이 특정 순서로 도면에 도시되어 있지만, 이는 바람직한 결과를 달성하기 위해, 이러한 동작이 도시된 특정 순서 또는 순차적인 순서로 수행되거나, 또는 모든 예시된 동작이 수행되는 것을 요구하는 것으로 이해되지 않아야 한다. 특정 상황에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다. 더욱이, 위에서 설명된 실시예에서 다양한 시스템 구성요소의 분리는 모든 실시예에서 이러한 분리를 요구하는 것으로 이해되어서는 안 되며, 설명된 프로그램 구성요소 및 시스템은 일반적으로, 단일 소프트웨어 제품에 함께 통합되거나 또는 여러 소프트웨어 제품으로 패키지화될 수 있음이 이해되어야 한다.
따라서, 주제의 특정 실시예가 설명되었다. 다른 실시예는 다음 청구항의 범주 내에 있다. 어떤 경우에서 청구범위에 인용된 행동이 상이한 순서로 수행될 수 있으며, 여전히 바람직한 결과를 달성할 수 있다. 덧붙여, 첨부 도면에 도시된 프로세스는 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차적인 순서를 반드시 요구하는 것은 아니다. 특정 구현에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.
본 발명의 다수의 구현이 설명되었다. 그럼에도 불구하고, 본 발명의 사상 및 범주를 벗어나지 않고 다양한 변형이 이루어질 수 있음이 이해될 것이다.

Claims (15)

  1. 주파수 밴드에서 신호 프레임의 시퀀스에 대한 입력 공분산 행렬을 평활화하는 방법으로서, 상기 방법은:
    상기 신호 프레임에 대해, 상기 주파수 밴드에서 빈(bin)의 유효 카운트를 상기 주파수 밴드에 대한 빈의 원하는 카운트와 비교하는 단계;
    상기 유효 카운트 대 상기 원하는 카운트의 비율로서 상기 밴드에 대한 망각 인자(forgetting factor)를 계산하는 단계; 및
    상기 주파수 밴드에서 상기 빈의 유효 카운트가 상기 원하는 카운트보다 작다고 결정하는 것에 응답하여, 현재 프레임에 대한 이전 프레임에 대한 평활화된 행렬의 이전에 생성된 값 및 상기 망각 인자를 사용하여, 상기 현재 프레임에 대한 상기 평활화된 행렬의 값을 생성하는 단계를 포함하고,
    상기 비교하는 단계, 계산하는 단계 및 생성하는 단계는 하나 이상의 컴퓨터 프로세서를 포함하는 시스템에 의해 수행되는, 방법.
  2. 제1항에 있어서, 상기 빈의 유효 수는 상기 주파수 밴드에 대한 필터뱅크 응답 값(filterbank response values)의 합으로서 계산되는, 방법.
  3. 제1항 내지 제2항 중 어느 한 항에 있어서, 상기 생성하는 단계는 1차 필터(first order filter)를 사용하는, 방법.
  4. 제3항에 있어서, 상기 1차 필터는 상기 현재 프레임에 대한 상기 입력 공분산 행렬의 상기 값과 상기 이전 프레임에 대한 상기 평활화된 행렬의 상기 이전에 생성된 값 사이의 차이를 포함하고, 상기 차이는 상기 망각 인자에 의해 가중되는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 망각 인자를 최대 허용된 망각 인자와 비교하는 단계; 및
    상기 망각 인자를 상기 망각 인자와 상기 최대 허용된 망각 인자 중 최소값으로 설정하는 단계를 더 포함하고,
    상기 비교하는 단계 및 설정하는 단계는 상기 현재 프레임에 대한 상기 평활화된 행렬의 상기 값을 생성하는 단계 이전에 수행되는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    모니터링된 프레임 내에 과도 상태가 발생하였는지를 검출하는 단계; 및
    상기 망각 인자의 사용 없이 상기 모니터링된 프레임에 대한 상기 평활화된 행렬 값의 값을 상기 모니터링된 프레임에 대한 입력 행렬 값의 원래 값으로 설정함으로써 상기 과도 상태가 발생한다는 것을 검출하는 것에 응답하여 상기 평활화를 재설정하는 단계를 더 포함하는, 방법.
  7. 제6항에 있어서, 상기 검출하는 단계는 더킹 역상관기(ducking decorrelator)의 양상을 사용함으로써 수행되는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 검출하는 단계는 모든 채널 상에서 수행되는, 방법.
  9. 제8항에 있어서, 상기 검출하는 단계는 임의의 과도 상태가 상기 모니터링된 프레임에 대해 임의의 채널 상에서 검출된 경우 상기 과도 상태가 발생한 것을 검출하는, 방법.
  10. 제8항에 있어서, 상기 검출하는 단계는 특정 채널 상에서 과도 상태가 발생한 경우에만 상기 과도 상태가 발생한 것을 검출하는, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 현재 프레임의 상기 평활화된 행렬을 저장하는 단계; 및
    주파수 밴드에 걸쳐 상기 저장된 평활화된 행렬을 재샘플링하는 단계를 더 포함하는, 방법.
  12. 시스템으로서,
    하나 이상의 컴퓨터 프로세서; 및
    상기 하나 이상의 컴퓨터 프로세서에 의해 실행 시, 상기 하나 이상의 컴퓨터 프로세서가 제1항 내지 제11항 중 어느 한 항의 동작을 수행하게 하는 명령어를 저장하는 비일시적 컴퓨터-판독가능 매체를 포함하는, 시스템.
  13. 하나 이상의 컴퓨터 프로세서에 의해 실행 시, 상기 하나 이상의 컴퓨터 프로세서가 제1항 내지 제11항 중 어느 한 항의 동작을 수행하게 하는 명령어를 저장하는, 비일시적 컴퓨터-판독가능 매체.
  14. 제12항의 시스템을 포함하는, 인코더.
  15. 제12항의 시스템을 포함하는, 디코더.
KR1020227006135A 2019-08-01 2020-07-31 공분산 평활화를 위한 시스템 및 방법 KR20220042165A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962881825P 2019-08-01 2019-08-01
US62/881,825 2019-08-01
US202063057533P 2020-07-28 2020-07-28
US63/057,533 2020-07-28
PCT/US2020/044670 WO2021022235A1 (en) 2019-08-01 2020-07-31 Systems and methods for covariance smoothing

Publications (1)

Publication Number Publication Date
KR20220042165A true KR20220042165A (ko) 2022-04-04

Family

ID=72179201

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227006135A KR20220042165A (ko) 2019-08-01 2020-07-31 공분산 평활화를 위한 시스템 및 방법

Country Status (13)

Country Link
US (1) US11972767B2 (ko)
EP (1) EP4008001A1 (ko)
JP (1) JP2022542427A (ko)
KR (1) KR20220042165A (ko)
CN (1) CN114223031A (ko)
AU (1) AU2020319893A1 (ko)
BR (1) BR112022000806A2 (ko)
CA (1) CA3147429A1 (ko)
CL (1) CL2022000258A1 (ko)
IL (1) IL289752A (ko)
MX (1) MX2022001150A (ko)
TW (1) TW202123221A (ko)
WO (1) WO2021022235A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024097485A1 (en) 2022-10-31 2024-05-10 Dolby Laboratories Licensing Corporation Low bitrate scene-based audio coding

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100392365B1 (ko) 2001-08-08 2003-07-23 한국전자통신연구원 음향 반향 제거기를 위한 동시통화 검출기에서의 동시통화 구간의 끝점 검출 지연 제거 장치 및 그 방법
EP1829424B1 (en) * 2005-04-15 2009-01-21 Dolby Sweden AB Temporal envelope shaping of decorrelated signals
JP5321914B2 (ja) 2007-09-20 2013-10-23 日本電気株式会社 システム同定装置及びシステム同定方法
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
KR101335975B1 (ko) * 2008-08-14 2013-12-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 복수의 오디오 입력 신호를 리포맷팅하는 방법
US8260209B2 (en) * 2009-11-18 2012-09-04 Futurewei Technologies, Inc. System and method for coordinated spatial multiplexing using second order statistical information
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
US9213703B1 (en) * 2012-06-26 2015-12-15 Google Inc. Pitch shift and time stretch resistant audio matching
US8983844B1 (en) * 2012-07-31 2015-03-17 Amazon Technologies, Inc. Transmission of noise parameters for improving automatic speech recognition
DK3190587T3 (en) 2012-08-24 2019-01-21 Oticon As Noise estimation for noise reduction and echo suppression in personal communication
US9830917B2 (en) * 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
EP3582218A1 (en) * 2013-02-21 2019-12-18 Dolby International AB Methods for parametric multi-channel encoding
US10049685B2 (en) 2013-03-12 2018-08-14 Aaware, Inc. Integrated sensor-array processor
WO2014171920A1 (en) 2013-04-15 2014-10-23 Nuance Communications, Inc. System and method for addressing acoustic signal reverberation
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2838086A1 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP3028274B1 (en) 2013-07-29 2019-03-20 Dolby Laboratories Licensing Corporation Apparatus and method for reducing temporal artifacts for transient signals in a decorrelator circuit
CN106409313B (zh) * 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
US9379924B2 (en) 2013-12-20 2016-06-28 King Fahd University Of Petroleum And Minerals Cognitive radio spectrum sensing with improved edge detection of frequency bands
US9502021B1 (en) * 2014-10-09 2016-11-22 Google Inc. Methods and systems for robust beamforming
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
WO2016173659A1 (en) 2015-04-30 2016-11-03 Huawei Technologies Co., Ltd. Audio signal processing apparatuses and methods
GB2548325B (en) 2016-02-10 2021-12-01 Audiotelligence Ltd Acoustic source seperation systems
JP6987075B2 (ja) * 2016-04-08 2021-12-22 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ源分離
EP3440671B1 (en) 2016-04-08 2020-02-19 Dolby Laboratories Licensing Corporation Audio source parameterization
US10170134B2 (en) 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
WO2019016494A1 (en) 2017-07-19 2019-01-24 Cedar Audio Ltd ACOUSTIC SOURCE SEPARATION SYSTEMS
US10542153B2 (en) * 2017-08-03 2020-01-21 Bose Corporation Multi-channel residual echo suppression
EP3460795A1 (en) 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US10638252B1 (en) * 2019-05-20 2020-04-28 Facebook Technologies, Llc Dynamic adjustment of signal enhancement filters for a microphone array

Also Published As

Publication number Publication date
WO2021022235A1 (en) 2021-02-04
AU2020319893A1 (en) 2022-02-10
BR112022000806A2 (pt) 2022-03-08
IL289752A (en) 2022-03-01
CA3147429A1 (en) 2021-02-04
CN114223031A (zh) 2022-03-22
EP4008001A1 (en) 2022-06-08
CL2022000258A1 (es) 2022-10-07
TW202123221A (zh) 2021-06-16
US20220277757A1 (en) 2022-09-01
JP2022542427A (ja) 2022-10-03
MX2022001150A (es) 2022-02-22
US11972767B2 (en) 2024-04-30

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
US9729965B2 (en) Percentile filtering of noise reduction gains
EP2673778B1 (en) Post-processing including median filtering of noise suppression gains
JP6242489B2 (ja) 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
US8515098B2 (en) Noise suppression device and noise suppression method
JP5312680B2 (ja) マルチチャネル信号のチャネル遅延パラメータを調整する方法及び装置
KR101616700B1 (ko) 예측-기반 fm 스테레오 라디오 노이즈 감소
US8862257B2 (en) Method and device for clipping control
JP2007219542A (ja) 複素指数変調フィルタバンクを基にした新型プロセッシングおよび適応型時間信号伝達方法
US10692509B2 (en) Signal encoding of comfort noise according to deviation degree of silence signal
WO2012116934A1 (en) Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
KR20220042165A (ko) 공분산 평활화를 위한 시스템 및 방법
US20110153828A1 (en) Load balancing apparatus and method for regulating load using the same
CN107979507A (zh) 一种数据传输方法、装置、设备及存储介质
RU2815754C2 (ru) Системы и способы для сглаживания ковариации
KR101944758B1 (ko) 스테레오 신호의 스테레오 이미지를 수정하기 위한 오디오 신호 처리 장치 및 방법
CN111164683B (zh) 独立于绝对信号电平的音频咝声消除器
CN109032813B (zh) 一种移动终端及其进程间通信的限制方法、存储介质
EP3226511B1 (en) Evaluation of perceptual delay impact on conversation in teleconferencing system