KR20240132101A - 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크 - Google Patents

심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크 Download PDF

Info

Publication number
KR20240132101A
KR20240132101A KR1020247027720A KR20247027720A KR20240132101A KR 20240132101 A KR20240132101 A KR 20240132101A KR 1020247027720 A KR1020247027720 A KR 1020247027720A KR 20247027720 A KR20247027720 A KR 20247027720A KR 20240132101 A KR20240132101 A KR 20240132101A
Authority
KR
South Korea
Prior art keywords
components
harmonic
frequencies
spectrum
audio
Prior art date
Application number
KR1020247027720A
Other languages
English (en)
Inventor
요셉 앤소니 3세 마리글리오
Original Assignee
붐클라우드 360 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 붐클라우드 360 인코포레이티드 filed Critical 붐클라우드 360 인코포레이티드
Publication of KR20240132101A publication Critical patent/KR20240132101A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 시스템은 심리음향 주파수 범위 확장을 제공한다. 이 시스템은 오디오 채널로부터의 직교 성분을 생성하고, 직교 성분의 스펙트럼을 표준 기준에서 회전 기준으로 회전시키는 순방향 변환을 적용하여 회전된 스펙트럼 직교 성분을 생성한다. 회전 기저에서 시스템은 타겟 주파수에서 회전된 스펙트럼 직교 성분의 성분을 분리하고, 스케일에 대한 의존성 제약을 갖는 비선형성을 분리된 성분에 적용하여 가중 위상 코히어런스 고조파 스펙트럼 직교 성분을 생성한다. 이 시스템의 회로는 가중 위상 코히어런스 고조파 스펙트럼 직교 성분의 스펙트럼을 회전 기저에서 표준 기저로 회전시키는 역방향 변환을 적용하여 고조파 스펙트럼 성분을 생성한다. 회로는 고조파 스펙트럼 성분을 타겟 주파수 외부의 상기 오디오 채널의 주파수와 결합하여 출력 채널을 생성하고 출력 채널을 스피커에 제공한다.

Description

심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크{ADAPTIVE FILTERBANKS USING SCALE-DEPENDENT NONLINEARITY FOR PSYCHOACOUSTIC FREQUENCY RANGE EXTENSION}
관련 출원에 대한 상호 참조
본 출원은 2021년 7월 15일에 출원된 미국 가출원 번호 63/222,370 및 2021년 9월 9일에 출원된 미국 가출원 번호 17/471,012의 이익을 주장하며, 이들 출원은 그 전체가 참조로 포함된다.
기술분야
본 개시는 일반적으로 오디오 처리에 관한 것이며, 더 구체적으로는 물리적 드라이버의 대역폭을 넘어서는 주파수의 임프레션(impression of frequencies)을 생성하는 것에 관한 것이다.
확성기, 헤드폰 및 기타 음향 작동기의 대역폭은 종종 인간 청각 시스템의 대역폭의 하위 영역으로 제한된다. 이는 가청 스펙트럼의 저주파 영역(약 18Hz ~ 250Hz)에서 가장 흔히 발생하는 문제이다. 물리적 드라이버의 대역폭을 넘어서는 주파수 임프레션을 생성하기 위해 오디오 신호를 수정하는 것이 바람직하다.
일부 실시예는 스피커에 대한 심리음향 주파수 범위 확장을 제공하는 회로(예를 들어, 하나 이상의 프로세서)를 포함하는 시스템을 포함한다. 회로는 오디오 채널의 직교 표현을 정의하는 오디오 채널로부터의 직교 성분(quadrature component)을 생성하고, 표준 기저(standard basis)에서 회전 기저로 상기 직교 성분의 스펙트럼을 회전시키는 순방향 변환을 적용함으로써 회전된 스펙트럼 직교 성분을 생성한다. 회전 기저에서, 회로는 타겟 주파수에서 상기 회전된 스펙트럼 직교 성분의 성분을 분리하고, 제약을 받는 스케일에 대한 의존성을 갖는 비선형성을 분리된 성분에 적용하여 가중 위상 코히어런스 고조파 스펙트럼 직교 성분(weighted phase-coherent harmonic spectral quadrature component)을 생성한다. 회로는 상기 가중 위상 코히어런스 고조파 스펙트럼 직교 성분의 스펙트럼을 상기 회전 기저로부터 상기 표준 기저로 회전시키는 역방향 변환을 적용함으로써 고조파 스펙트럼 성분을 생성한다. 회로는 상기 고조파 스펙트럼 성분을 상기 타겟 주파수 외부의 상기 오디오 채널의 주파수와 결합하여 출력 채널을 생성하며, 상기 출력 채널을 스피커에 제공한다.
일부 실시예에서, 상기 비선형성은 구성 비선형성의 가중 혼합을 포함한다. 상기 제약은 개개의 구성 비선형성의 입력에 적용되는 이득 보정에 대한 제약을 포함한다.
일부 실시예에서, 상기 비선형성은 상기 제약에 따라 크기가 선택적으로 미분되는 제1 종 체비쇼프 다항식(Chebyshev polynomial)의 가중 합을 포함한다.
일부 실시예에서, 상기 회로는 복수의 고조파 스펙트럼 성분을 생성하도록 더 구성된다. 각각의 고조파 스펙트럼 성분은 상기 오디오 채널의 서로 다른 주파수 대역을 사용하여 생성된다. 상기 회로는 상기 복수의 고조파 스펙트럼 성분을 결합함으로써 상기 출력 채널을 생성하도록 구성된다.
일부 실시예에서, 상기 회로는 업스트림 고조파 스펙트럼 성분의 잔차(residual)를 입력으로 사용하여 각각의 다운스트림 고조파 스펙트럼 성분과 직렬인 상기 복수의 고조파 스펙트럼 성분을 생성하도록 구성된다.
일부 실시예에서, 상기 회로는 상기 복수의 고조파 스펙트럼 성분을 병렬로 생성하도록 구성된다.
일부 실시예에서, 상기 회로는 상기 고조파 스펙트럼 성분에 홀수 비선형성을 적용하도록 더 구성된다.
일부 실시예에서, 상기 고조파 스펙트럼 성분은 상기 오디오 채널의 상기 타겟 주파수와 다른 주파수를 포함하고, 상기 스피커에 의해 렌더링될 때 상기 타겟 주파수의 심리음향 임프레션(psychoacoustic impression)을 생성한다.
일부 실시예에서, 상기 순방향 변환은 타겟 주파수가 0Hz에 매핑되도록 상기 직교 성분의 스펙트럼을 회전한다. 상기 역방향 변환은 0Hz가 상기 타겟 주파수에 매핑되도록 상기 가중 위상 코히어런스 고조파 스펙트럼 직교 성분의 스펙트럼을 회전시킨다.
일부 실시예에서, 상기 타겟 주파수는 18Hz와 250Hz 사이의 주파수를 포함한다.
일부 실시예에서, 상기 회로는 상기 스피커의 재생 가능 범위, 상기 스피커의 전력 소비 감소, 또는 상기 스피커의 수명 증가에 기초하여 상기 타겟 주파수를 결정한다.
일부 실시예에서, 상기 스피커는 모바일 장치의 구성요소이다.
일부 실시예에서, 상기 회로는 게이트 함수를 사용하여 타겟 크기에서 상기 성분을 분리하도록 더 구성된다. 일부 실시예에서, 상기 회로는 상기 분리된 성분에 평활화 함수를 적용하도록 더 구성된다.
일부 실시예는 방법을 포함한다. 방법은 회로에 의해, 오디오 채널의 직교 표현을 정의하는 오디오 채널로부터의 직교 성분을 생성하는 단계; 표준 기저에서 회전 기저로 상기 직교 성분의 스펙트럼을 회전시키는 순방향 변환을 적용함으로써 회전된 스펙트럼 직교 성분을 생성하는 단계; 상기 회전 기저에서: 타겟 주파수에서 상기 회전된 스펙트럼 직교 성분의 성분을 분리하는 단계; 스케일에 대한 의존성 제약을 갖는 비선형성을 상기 분리된 성분에 적용하여 가중 위상 코히어런스 고조파 스펙트럼 직교 성분을 생성하는 단계; 상기 가중 위상 코히어런스 고조파 스펙트럼 직교 성분의 스펙트럼을 상기 회전 기저로부터 상기 표준 기저로 회전시키는 역방향 변환을 적용함으로써 고조파 스펙트럼 성분을 생성하는 단계; 상기 고조파 스펙트럼 성분을 상기 타겟 주파수 외부의 상기 오디오 채널의 주파수와 결합하여 출력 채널을 생성하는 단계; 및 상기 출력 채널을 스피커에 제공하는 단계를 포함한다.
일부 실시예는 저장된 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체를 포함하고, 상기 명령어는 적어도 하나의 프로세서에 의해 실행될 때: 오디오 채널의 직교 표현을 정의하는 오디오 채널로부터의 직교 성분을 생성하고; 표준 기저에서 회전 기저로 상기 직교 성분의 스펙트럼을 회전시키는 순방향 변환을 적용함으로써 회전된 스펙트럼 직교 성분을 생성하며; 상기 회전 기저에서: 타겟 주파수에서 상기 회전된 스펙트럼 직교 성분의 성분을 분리하고; 스케일에 대한 의존성 제약을 갖는 비선형성을 상기 분리된 성분에 적용하여 가중 위상 코히어런스 고조파 스펙트럼 직교 성분을 생성하며; 상기 가중 위상 코히어런스 고조파 스펙트럼 직교 성분의 스펙트럼을 상기 회전 기저로부터 상기 표준 기저로 회전시키는 역방향 변환을 적용함으로써 고조파 스펙트럼 성분을 생성하고; 상기 고조파 스펙트럼 성분을 상기 타겟 주파수 외부의 상기 오디오 채널의 주파수와 결합하여 출력 채널을 생성하며; 상기 출력 채널을 스피커에 제공하도록 상기 적어도 하나의 프로세서를 구성한다.
도 1은 일부 실시예에 따른 오디오 시스템의 블록도이다.
도 2는 일부 실시예에 따른 고조파 처리 모듈의 블록도이다.
도 3은 일부 실시예에 따른 순방향 변환 모듈의 블록도이다.
도 4는 일부 실시예에 따른 계수 연산기 모듈의 블록도이다.
도 5는 일부 실시예에 따른 역방향 변환 모듈의 블록도이다.
도 6은 일부 실시예에 따른 결합기 모듈의 블록도이다.
도 7은 일부 실시예에 따른 필터뱅크 모듈의 블록도이다.
도 8은 일부 실시예에 따른 심리음향 주파수 범위 확장을 위한 프로세스의 흐름도이다.
도 9는 일부 실시예에 따른 컴퓨터의 블록도이다.
도면은 단지 예시의 목적으로 다양한 실시예를 나타낸다. 당업자는 본 명세서에 설명된 구조 및 방법의 대안적인 실시예가 본 명세서에 설명된 원리에서 벗어나지 않고 채용될 수 있다는 것을 다음의 논의로부터 쉽게 이해할 것이다.
도면(도) 및 다음의 설명은 단지 예시로서 바람직한 실시예에 관한 것이다. 다음의 논의로부터, 본 명세서에 개시된 구조 및 방법의 대안적인 실시예는 청구된 원리로부터 벗어나지 않고 채용될 수 있는 실행 가능한 대안으로서 쉽게 인식될 것이라는 점에 유의해야 한다.
이제 여러 실시예를 상세히 참조할 것이며, 그 예는 첨부된 도면에 예시되어 있다. 실행 가능한 경우 유사하거나 동일한 참조 번호가 도면에 사용될 수 있으며 유사하거나 동일한 기능을 나타낼 수 있다는 점에 유의한다. 도면은 단지 예시의 목적으로 개시된 시스템(또는 방법)의 실시예를 묘사하다. 당업자는 본 명세서에 설명된 구조 및 방법의 대안적인 실시예가 본 명세서에 설명된 원리로부터 벗어나지 않고 채용될 수 있다는 것을 다음의 설명으로부터 쉽게 인식할 것이다.
실시예는 심리음향 주파수 범위 확장을 제공하는 것에 관한 것이다. 인간의 청각 시스템은 비선형 방식으로 신호(cue)에 반응하기 때문에, 심리음향 현상을 사용하여 실제 자극이 불가능한 가상 자극을 생성하는 것이 가능하다. 오디오 시스템은 제약이 있는 스케일(scale)에 대한 의존성을 갖는 고도로 조정 가능한 비선형성을 사용하는 적응형 비선형 필터뱅크를 제공하는 회로를 포함할 수 있다. 비선형성은 오디오 채널의 하나 이상의 부대역에서 가중된 위상 코히어런스 고조파 스펙트럼을 생성하는 데 사용된다. 비선형성은 구성 비선형성의 가중된 혼합을 포함할 수 있다. 제약은 각각, 개개의 구성 비선형성의 입력에 적용되는 이득 보정에 대한 제약을 포함할 수 있다. 비선형성을 정의하는 합계로 각 구성 비선형성에 독립적인 제약을 가질 수 있으며, 이는 생성된 고조파의 선택된 하위 집합 사이에서 선택적 스펙트럼 애니메이션을 허용한다. 이를 통해 훨씬 더 자연스러운 효과를 얻을 수 있으며, 이는 콘텐트 전반에 걸쳐 성공적으로 일반화된다. 또한 상호 변조 아티팩트의 지각적 돌출(perceptual salience)을 줄여 잠재적으로 더 넓은 대역폭으로 더 적은 수의 필터를 사용할 수 있다. 일부 실시예에서, 비선형성은 제약에 따라 선택적으로 제외되는 크기를 갖는 제1 종 체비쇼프 다항식(Chebyshev polynomial)의 가중 합산을 포함한다. 하나 이상의 부대역에 대한 위상 코히어런스 고조파 스펙트럼은 부대역의 주파수가 물리적 드라이버의 대역폭을 벗어날 때 부대역의 임프레션을 생성한다.
일부 실시예에서, 적응형 비선형 필터뱅크는 다중 고조파 프로세서를 포함할 수 있다. 각 고조파 프로세서에는 오디오 신호 내의 대상 부대역을 분석하고 구성 가능한 스펙트럼 변환을 통해 부대역의 데이터를 재합성하는 비선형 필터가 포함되어 있다. 고조파 프로세서는 각각 오디오 채널의 서로 다른 주파수 대역을 사용하여 고조파 스펙트럼 성분을 생성하고, 이러한 고조파 스펙트럼 성분을 결합하여 출력 채널을 생성한다. 고조파 스펙트럼 성분은 병렬 또는 직렬로 생성될 수 있다. 직렬 사례에서 각 다운스트림 고조파 스펙트럼 성분은 업스트림 고조파 스펙트럼 성분의 잔차를 입력으로 사용한다. 병렬 사례는 개념적으로는 단순하지만, 병렬 설계가 분석된 콘텐트의 전력 스펙트럼을 제한하지 않는 경우와 같이 튜닝 프로세스가 어려운 경우가 있다. 후속 필터가 입력 신호의 잔류에만 작용하는 직렬 아키텍처를 활용함으로써, 총 스펙트럼 전력은 필터뱅크 입력에서 보존된다. 그 결과 구성 필터가 보강 간섭을 받지 않는 필터뱅크 아키텍처가 탄생했다.
주파수 범위 확장의 장점은 특정 주파수를 렌더링할 수 없는 스피커가 해당 주파수의 심리 음향학적 임프레션을 생성할 수 있도록 하는 것(예를 들어, 낮은 품질)을 포함한다. 따라서 모바일 장치에서 흔히 찾을 수 있는 저가형 스피커는 고품질 청취 경험을 제공할 수 있다. 심리음향 주파수 범위 확장은 모바일 장치에 있는 회로 처리와 같은 오디오 신호 처리를 통해 이루어지며, 스피커에 대한 하드웨어 수정이 필요하지 않다. 최적이 아닌 부대역에서 물리적 에너지의 양을 늘리지 않고 주파수 범위 확장 및 주파수 응답 개선을 달성하면 스피커 드라이버의 전력 소비 특성 및 수명을 개선하는 데에도 유용할 수 있다.
오디오 처리 시스템
도 1은 일부 실시예에 따른 오디오 시스템(100)의 블록도이다. 오디오 시스템(100)은 비선형 필터뱅크 모듈(120)을 사용하여 스피커(110)에 대한 주파수 범위 확장을 제공한다. 시스템(100)은 고조파 처리 모듈(104(1), 104(2), 104(3) 및 104(4))을 포함하는 필터뱅크 모듈(120), 전역 통과 필터 네트워크 모듈(122) 및 결합기 모듈(106)을 포함한다. 오디오 시스템(100)의 일부 실시예는 여기에 설명된 것과 다른 구성요소를 포함할 수 있다.
필터뱅크 모듈(120)은 오디오 채널 a(t)로부터 위상 코히어런스 고조파 스펙트럼을 생성하기 위해 제약이 적용되는 스케일 의존성을 갖는 고도로 조정 가능한 비선형성을 사용한다. 일부 실시예에서, 고조파 처리 모듈(104)은 도시된 바와 같이 병렬로 연결될 수 있다. 일부 실시예는 필터뱅크 모듈의 일련의 구현을 포함할 수 있으며, 여기서 각 업스트림 고조파 처리 모듈의 잔차는 다운스트림 고조파 처리 모듈로 전달된다. 일련의 구현은 도 7과 관련하여 더 자세히 논의된다. 시스템(100)은 렌더링을 위해 스피커(110)에 제공되는 출력 채널 o(t)를 생성한다. 필터뱅크 모듈(120)의 고조파 처리 모듈(104(1)~104(4))은 스피커(110)의 물리적 대역폭을 넘어 오디오 채널 a(t)에 대한 심리음향 주파수 범위 확장을 제공한다.
필터뱅크 모듈(120)은 고조파 스펙트럼 성분 h(t)(n)을 생성하는 다수의 고조파 처리 모듈(104(n))을 포함한다. 일부 실시예에서, 각각의 고조파 처리 모듈(104(1) 내지 104(4))은 전체 오디오 채널 a(t)를 분석하고 각각의 고조파 스펙트럼 성분 h(t)(1) 내지 h(t)(4)를 합성한다. 일부 실시예에서, 각각의 고조파 처리 모듈은 오디오 채널의 서로 다른 타겟 부대역을 분석할 수 있다. 각각의 고조파 스펙트럼 성분 h(t)(n)은 a(t)에 있는 데이터의 위상 코히어런스 스펙트럼 변환이다. 각 고조파 스펙트럼 성분 h(t)(n)은 a(t)의 각각의 타겟 부대역의 데이터 주파수와 다른 주파수를 포함하는 가중 위상 코히어런스 고조파 스펙트럼을 갖고, 스피커(1l0)에 의해 출력될 때 개개의 타겟 부대역의 주파수의 심리음향 임프레션을 생성한다. 고조파 처리 모듈(104(n)) 중 하나 이상은 스피커(110)에 대한 심리음향 주파수 범위 확장을 제공하기 위해 고조파 스펙트럼 성분 h(t)(n)을 생성하도록 선택될 수 있다. 일부 실시예에서, 타겟 부대역의 선택은 스피커(110)의 주파수 응답과 같은 스피커(110)의 성능에 기초할 수 있다. 예를 들어, 스피커(110)가 저주파 사운드를 효과적으로 렌더링할 수 없는 경우, 고조파 처리 모듈(104)은 저주파에 대응하는 주파수 부대역 성분을 타겟으로 삼도록 구성될 수 있으며, 이는 고조파 스펙트럼 성분 h(t)(n)으로 변환될 수 있다. 오디오 시스템(100)은 하나 이상의 고조파 처리 모듈(104)을 포함할 수 있다. 고조파 처리 모듈(104)에 관한 추가 세부사항은 도 1 내지 도 5와 관련하여 논의된다.
전역통과 필터 네트워크 모듈(allpass filter network module)(122)은 필터링된 오디오 채널 a(t)를 생성하여 오디오 채널 a(t)가 필터뱅크 모듈(120)의 출력과 일관성을 유지하도록 보장한다. 전역통과 필터 네트워크 모듈(122)은 입력 신호 a(t)에 매칭 위상 변화를 적용함으로써 고조파 처리 모듈(104(n))을 적용한 결과로서 위상 변화를 보상한다. 이는 a(t)와 지각적으로 구별할 수 없지만 위상이 조작된 신호와 필터뱅크 모듈(120)에 의해 생성된 고조파 스펙트럼 성분 h(t)(n) 사이에서 일관된 합산이 발생하도록 한다.
결합기 모듈(106)은 전역통과 필터 네트워크 모듈(122)로부터 필터링된 오디오 채널 a(t)와 필터뱅크 모듈(120)로부터의 하나 이상의 고조파 스펙트럼 성분 h(t)(n)을 결합함으로써 출력 채널 o(t)를 생성한다. 결합기 모듈(106)은 스피커(110)에 출력 채널 o(t)를 제공한다. 일부 실시예에서, 결합기 모듈(106)은 도 6에 관하여 더 상세히 논의된 바와 같이, 합산된 고조파 스펙트럼 성분 h(t)(n)에 대한 추가 처리를 수행한다.
도 2는 일부 실시예에 따른 고조파 처리 모듈(104)의 블록도이다. 고조파 처리 모듈(104)은 오디오 채널을 분석하고 구성 가능한 스펙트럼 변환을 통해 타겟 부대역의 데이터를 재합성하는 비선형 필터를 제공한다. 고조파 처리 모듈(104)은 전역 통과 네트워크 모듈(202), 순방향 변환기 모듈(204), 계수 연산기 모듈(206) 및 역방향 변환기 모듈(208)을 포함한다. 전역 통과 네트워크 모듈(202)은 한 쌍의 위상 변환을 오디오 채널 x(t)에 적용하여 직교 성분을 생성한다. 순방향 변환기 모듈(204)은 회전된 스펙트럼 직교 성분을 생성하기 위해 선택된 주파수가 0Hz에 매핑되도록 전체 스펙트럼을 회전시키는 직교 성분에 순방향 변환을 적용한다. 선택한 주파수가 0Hz로 이동하는 것은 표준 기준에서 회전 기준으로 변경하는 것으로 지칭된다. 선택된 주파수는 타겟 부대역의 중심 주파수 또는 다른 주파수일 수 있다. 계수 연산기 모듈(206)은 회전 기저의 동작을 수행하며, 이는 주파수, 크기 또는 위상을 기저로 데이터를 선택적으로 필터링하는 것, 스케일에 대한 의존성 제약을 갖는 분리된 성분에 비선형성을 적용하여 가중 위상 코히어런스 고조파 스펙트럼 직교 성분(weighted phase-coherent harmonic spectral quadrature component)을 생성하는 것을 포함한다. 역방향 변환기 모듈(208)은 역방향 변환을 적용하여 0Hz가 선택된 주파수에 매핑되어 고조파 스펙트럼 성분 를 생성하도록 가중 위상 코히어런스 회전 스펙트럼 직교 성분의 스펙트럼을 회전시킨다. 0Hz를 선택한 주파수로 이동하는 것을 회전 기준에서 표준 기준으로 변경하는 것으로서 지칭한다. 고조파 스펙트럼 성분 는 오디오 채널 x(t)의 타겟 부대역과 다른 주파수를 포함할 수 있지만 스피커에 의해 렌더링될 때 오디오 채널 x(t)의 타겟 부대역 주파수의 심리음향 임프레션을 생성한다.
일부 실시예에서, 고조파 처리 모듈(104)에 입력되는 오디오 성분 x(t)는 부대역 성분 a(t)(n)일 수 있다. 이 예에서, 타겟 주파수를 선택하기 위한 계수 연산기 모듈(206)에 의한 선택적 필터링은 생략될 수 있다.
전역통과 네트워크(202)는 오디오 채널 x(t)를 직교 성분 y1(t) 및 y2(t)를 포함하는 벡터 y(t)로 변환한다. 직교 성분 y1(t) 및 y2(t)는 90° 위상 관계를 포함한다. 직교 성분 y1(t) 및 y2(t)와 입력 신호 x(t)는 모든 주파수에 대해 단위 크기 관계를 포함한다. 실수 값 입력 신호 x(t)는 일치하는 전역 통과 필터 H1 및 H2 쌍에 의해 직교 값으로 변환된다. 이 동작은 다음 식 1에 나타낸 바와 같이 연속시간 프로토타입을 통해 정의될 수 있다:
(1)
일부 실시예는 입력(모노) 신호와 두 개의 (스테레오) 직교 성분 y1(t) 및 y2(t) 중 하나 사이의 위상 관계를 반드시 보장하지는 않지만 90° 위상 관계를 포함하는 직교 성분 y1(t) 및 y2(t)과 모든 주파수에 대한 단위 크기 관계를 포함하는 입력 신호 x(t) 및 직교 성분 y1(t) 및 y2(t)를 생성한다.
도 3은 일부 실시예에 따른 순방향 변환기 모듈(204)의 블록도이다. 순방향 변환기 모듈(204)은 회전 행렬 모듈(302) 및 행렬 곱셈기(304)를 포함한다. 순방향 변환기 모듈(204)은 직교 성분 y1(t) 및 y2(t)를 수신하고 순방향 변환을 적용하여 회전된 스펙트럼 직교 성분 u1(t) 및 u2(t)을 포함하는 벡터 u(t)를 생성한다. 이 변환은 회전 행렬 모듈(302)을 통해 시변 회전 행렬을 생성하고 이를 행렬 곱셈기(304)를 통해 직교 성분에 적용함으로써 적용되며, 그 결과 회전된 스펙트럼 직교 성분 u(t)가 생성된다. 벡터 u(t)는 오디오 신호 x(t) 스펙트럼의 주파수 이동 형태이며 서로 다른 시간 t의 각 u가 회전된 스펙트럼 직교 성분으로 정의되는 계수 공간을 정의한다. 벡터 u(t)에 의해 정의된 계수는 원하는 중심 주파수 θc가 이제 0Hz에 있도록 x(t)의 스펙트럼을 회전한 결과이다.
순방향 변환은 수학식 2에 의해 정의된 바와 같이 직교 신호에 대한 시변 2차원 회전으로서 적용될 수 있다.
(2)
여기서 H1은 전역통과 필터이고, 회전 은 각주파수 θc이며 수학식 3으로 정의된다.
(3)
수학식 2 및 3은 삼각 함수에 대한 반복 호출을 포함한다. θc가 일정한 간격에서 순방향 변환은 삼각 함수에 대한 반복 호출이 아닌 재귀적인 2D 회전을 통해 계산될 수 있다. 이 최적화 전략을 사용하면 θc가 초기화되거나 변경될 때만 sin 및 cos에 대한 호출이 이루어진다. 이 최적화는 각 행렬 을 무한 회전 행렬의 연속 거듭제곱으로 재귀적으로 정의한다. 즉, 두 개의 2x2 행렬을 곱하는 것은 대부분의 아키텍처에서 매우 최적화된 계산이므로, 이 정의는 수학식 3에 제시된 삼각 함수에 대한 반복 호출에 비해 성능상의 이점을 제공할 수 있으나, 그럼에도 불구하고 이는 동일하다.
도 4는 일부 실시예에 따른 계수 연산기 모듈(206)의 블록도이다. 계수 연산기 모듈(206)은 필터 모듈(402), 크기 모듈(404), 게이트 모듈(406), 나눗셈 연산기(408 및 410), 고조파 생성기 모듈(412), 곱셈 연산기(414 및 416) 및 최대 모듈(420)을 포함한다. 계수 연산기 모듈(206)은 회전된 스펙트럼 직교 성분 u1(t) 및 u2(t)를 포함하는 벡터 u(t)를 사용하여 가중 위상 코히어런스 회전 스펙트럼 직교 성분 를 포함하는 회전 스펙트럼 를 생성한다.
일부 실시예에서, 필터 모듈(402)은 2채널 저역통과 필터이다. 이 경우, 고조파 처리 모듈(104)은 필터 모듈(402)의 차단 주파수(cutoff frequency)의 두 배인 대역폭에서 θc에 중심을 둔 타겟 부대역에 대한 스펙트럼 변환을 수행하도록 구성된다. 필터 모듈(402)은 역방향 변환 후에 조정 가능한 대역통과 필터를 생성하는 저역통과 필터 F(x)를 적용할 수 있다. 이 경우 F(x)의 차단 주파수는 비선형 필터 분석 영역 대역폭의 절반에 해당한다.
크기 모듈(404)은 분할 연산기(408 및 410)를 사용하여 필터링된 신호 벡터에서 선택적으로 인수분해할 수 있는 순간 크기의 측정값으로 사용되는 2D 벡터의 길이를 결정한다. 예를 들어, 분할 연산기(408)는 u(t)의 u1(t) 성분에 대한 나눗셈을 수행할 수 있고, 나눗셈 연산기(410)는 u(t)의 u2(t) 성분에 대한 나눗셈을 수행할 수 있다. 수학식 9의 max() 함수에 의해 정의된 스케일 독립성에 대한 제약은 max 모듈(420)에 의해 적용되며, 이는 분할 연산기(408 및 410)의 동작을 효과적으로 제약한다. 일부 실시예에서, 크기는 고조파 발생기 모듈(412)이 그 관계가 스케일에 의존하지 않는 신호에 기초하여 고조파를 제공할 수 있도록 스케일과 관계없이 인수분해(factor out)될 수 있다.
고조파 생성기 모듈(412)은 가중된 구성 비선형성의 합을 포함하는 비선형성을 생성한다. 비선형성은 회전된 스펙트럼 직교 성분의 타겟 부대역을 기저로 고조파 스펙트럼을 제공한다. 예를 들어, 고조파 생성기 모듈(412)은 서로 다른 고조파의 구성 비선형성을 생성하고, 구성 비선형성에 가중치 an을 적용하며, 가중된 구성 비선형성의 합으로 비선형성을 생성한다.
크기 모듈(404)에 의해 제공되는 크기가 그런 다음 다시 사용되며, 이번에는 게이트 모듈(406)을 통과한다. 게이트 모듈(406)은 순간 기울기가 슬루 제한기(418)에 의해 제한되는 엔벨로프를 생성한다. 결과 슬루 제한 엔벨로프(envelope, 포락선)는 곱셈 연산기(414 및 416)를 통해 고조파 발생기 모듈(412)의 출력에 적용된다. 예를 들어, 곱셈 연산기(416)는 u(t)의 u1(t) 성분에 대한 곱셈을 수행할 수 있고 곱셈 연산기(414)는 u(t)의 u2(t) 성분에 대한 곱셈을 수행할 수 있다. 가중 고조파의 합으로 정의되는 비선형성에 시간에 따라 변하는 엔벨로프를 곱하여 회전된 스펙트럼 를 생성한다.
u(t)의 계수는 수학식 4를 사용하여 극좌표로 표현될 수 있고,
(4)
여기서 ∥u(t)∥ 는 계수 신호의 순간 크기이고 ∠u(t)는 순간 위상이다. 이제 이러한 항은 역방향 변환 단계 이전에 조작될 수 있다.
u(t)에 의해 정의된 계수는 순간 크기에 기초하여 선택적으로 필터링된다. 필터링은 게이트 모듈(406)에 의해 적용되는 게이트 함수 및 슬루 제한기(418)에 의해 적용되는 슬루 제한 필터를 포함할 수 있다. 임계값 n에 기초한 게이트 함수는 수학식 5에 의해 정의될 수 있고,
(5)
여기서 x ≥ n인 경우에는 계수가 유지되고 x < n인 경우에는 계수가 제거된다. 일부 실시예에서, x < n의 경우는 대안적으로 계수의 완전한 제거보다는 감쇠를 초래할 수 있다. 게이트 함수는 순간 크기 추정에 따라 동작하기 때문에 일반적으로 실수 값 진폭을 기저로 하는 게이트보다 반응성이 뛰어나고 아티팩트가 적다.
비선형 필터 응답의 엔벨로프 특성을 더욱 맞춤화하기 위해 슬루 제한 필터(slew limiting filter)를 통해 시간 영역 평활화가 달성될 수 있다. 슬루 제한 필터는 함수의 최대(양수) 및 최소(음수) 기울기를 포화시키는 비선형 필터이다. 아래에서 S(x)로 표기된 포지티브 및 네거티브 포화점에 대한 독립적인 제어 기능을 갖춘 비선형 필터와 같은 다양한 유형의 슬루 제한 필터 또는 요소가 사용될 수 있다. 게이트 함수의 출력에 슬루 제한을 적용하면 시간에 따라 변하는 포락선 S (G (∥u[t]∥))가 생성된다. 이는 계수의 포락선을 조각하는 데 사용될 수 있다.
의 위상 코히어런스 고조파 스펙트럼을 생성하기 위해, 고조파 생성기 모듈(412)은 수학식 6에 정의된 제1 종 체비쇼프 다항식을 사용할 수 있다:
(6)
이러한 다항식은 스케일 독립적인 비선형성에 대해 수학식 7 또는 8에 의해 정의된 대로 출력을 합산하여 고조파의 제어된 생성을 제공한다.
(7)
또는 등가적으로:
(8)
여기서 an = [a0,a1,a2...aN]은 위상 코히어런스 고조파 스펙트럼의 각 고조파 n에 적용되는 고조파 가중치이고 N은 생성된 가장 높은 고조파이다. 수학식 7과 8의 두 가지 표현 모두에서, 비선형성(예: 합산 결과로 정의됨)은 입력 스케일과 무관하다. 이렇게 하면 출력 스펙트럼이 입력 음량에 따라 달라지는 것을 방지하고 대신 스펙트럼 가중치 a에 의해 결정되는 변형만 허용된다. 가중치는 일반적으로 감쇠 시리즈로 배열되어 인간의 청각 시스템에 익숙한 자연 발생 사운드의 조화 시리즈를 에뮬레이션한다. 일련의 가중치는 수신 오디오 채널의 스케일과 무관하다.
등가이지만, 수학식 7은 출력 위상의 직접적인 조작을 허용하는 이점을 갖는 반면, 수학식 8은 잠재적으로 비용이 많이 드는 삼각 함수를 생략하여 크기에 대해서만 동작한다.
수학식 7 및 8에서, 비선형성의 출력 스펙트럼은 입력 계수 크기 ∥u(t)∥의 함수로 변하지 않는다. 이로 인해 엄격하게 제어되고 예측 가능한 비선형성이 발생하지만 이러한 균일성은 경우에 따라 부자연스럽게 들리는 텍스처(texture)를 생성할 수 있다. 이러한 기괴한 효과는 말하거나 노래하는 보컬과 같은 특정 입력 콘텐트에서 특히 뚜렷하며 저주파 콘텐트도 있는 경우 더욱 악화된다.
예를 들어, 영화 콘텐트는 종종 대화와 동시에 저주파 효과(LFE) 콘텐트를 사용할 수 있다. 이 LFE 컨텐츠는 정확하게 우리가 기술을 사용하여 재생하려는 컨텐츠 유형이지만 결과적인 상호 변조 왜곡은 음성의 명료도(intelligibility)와 사실성에 영향을 미칠 수 있다.
이를 해결하기 위해, 다양한 정도의 제어가 비선형성의 각 구성 비선형성에 적용될 수 있으며, 결과적인 고조파 혼합이 입력 콘텐트에 응답하여 (예를 들어 어느 정도) 애니메이션화되도록 할 수 있다. 들어오는 크기가 유니티(unity)로 잘리는 정도에 따라 스펙트럼 안정성의 정도가 결정될 것이다. 유니티보다 작은 크기에서 구성 비선형성의 고조파 기여에는 더 낮은 정수 고조파의 혼합이 포함될 것이다. 짝수 다항식은 짝수 정수 고조파의 혼합을 생성하지만, 홀수 다항식은 홀수 정수 고조파의 혼합을 생성할 것이다.
순시 크기 계산은 수학식 8에 직접 적용되므로, 수학식 9에 정의된 대로 적용에 제약을 적용하도록 알고리즘을 간단히 수정할 수 있고,
(9)
여기서 bn = [b0,b1,b2...bN]은 위상 코히어런스 고조파 스펙트럼의 각 고조파 n에 대해 max(∥u(t)∥, bn)로 정의된 크기 보정 계수에 대한 최소값 제약을 정의하고, N은 생성된 가장 높은 고조파이다. 각 고조파 n에 대해 크기 보정 계수 max(∥u(t)∥, bn)는 수학식 10에 정의된 대로 구성 비선형성의 입력 u(t)에 적용되는 이득 보정에 대한 제약을 정의한다.
(10)
이와 같이, 수학식 11에 의해 정의되는 비선형성은:
(11)
서로 다른 고조파(n = 0 ~ N)에 대한 구성 비선형성의 가중(예를 들어 an 만큼) 혼합을 포함하고, 여기서 구성 비선형성은 수학식 10으로 정의된다.
bn 미만의 u(t) 크기에 대해, 보정에 사용되는 신호 크기는 변동하는 것이 허용된다. bn보다 큰 u(t) 크기의 경우, 고조파 콘텐트는 수학식 8의 모든 가능한 크기에 대한 경우와 마찬가지로 다항식의 차수에 해당하는 고조파의 합으로 정의된다. b와 0 사이의 u(t) 크기에서, 크기가 감소함에 따라 상위 고조파 콘텐트가 대략적으로 감소하지만 고차 다항식 혼합의 경우 관계는 단순한 단조보다 더 복잡할 수 있다.
예를 들어, 수학식 12와 같이 세 번째 체비쇼프 다항식을 포함하는 전달 함수는 다음과 같다.
(12)
수학식 13으로 정의된 대로 x가 단위 크기 코사인파인 경우 다음과 같은 순수 3차 고조파(및 1차 고조파의 -∞ dB)가 발생하고,
(13)
그러나 수학식 14에 정의된 대로 x가 -6dB 크기의 코사인파인 경우 고조파 혼합이 발생할 것이며,
(14)
또는 구어체로 3차 고조파의 -18dB 및 1차(기본) 고조파의 +1dB이다. 이 혼합은 또한 모든 구성 결과 고조파가 이상하다는 것을 증명한다. 또한 1차 고조파가 입력에 비해 증폭되어 양의 dB 값이 생성된다.
-12dB의 코사인파에 적용될 때 동일한 전달 함수는 수학식 15에 의해 정의된 결과를 생성하고,
(15)
여기에는 1차 고조파의 감소하는 3차 고조파 및 비단조적인 동작이 포함된다.
스펙트럼 클리핑 정도(spectral clipping)를 제한함으로써, 알고리즘은 콘텐트 전반에 걸쳐 더 잘 일반화될 수 있다. 또한 상호 변조 효과가 인지적으로 덜 나타나기 때문에 잠재적으로 더 적은 수의 대역을 계산해야 할 수도 있다.
상호 변조 효과는 하나 이상의 주파수를 갖는 신호에 대한 비선형 전달 함수 적용의 전형적인 부산물이다. 일반적으로 이러한 상호 변조 효과에는 입력 신호 주파수의 합과 차이인 주파수가 포함된다. 제약이 없는 경우 이러한 상호 변조 효과에 추가적인 가중치와 안정성이 부여된다. 스펙트럼 클리핑 기능을 제한하면 결과 스펙트럼의 안정성이 떨어지며 상호 변조 효과보다 주요 주파수가 더 강조된다.
결과적으로, 제한된 스펙트럼 클리핑을 통해 주파수 범위를 확장하면 유사한 효과를 달성하기 위해 제한되지 않은 방법을 사용하는 것보다 더 적은 수의 개별 비선형 필터를 사용할 수 있다. 이로 인해 계산 효율성이 향상될 수 있다. 또한 매개변수 감소로 인해 조정이 더 간단한 알고리즘이 생성될 수도 있는데 왜냐하면 많은 필터 간의 상호 작용이 때로는 관리하기 어려울 수 있기 때문이다.
수학식 14에 나타낸 바와 같이, 크기 -6dB의 코사인에 적용된 3차 체비쇼프 다항식의 처리는 감쇠로 전락되기보다는 증폭을 초래할 수 있다. 이 사실은 고조파 혼합의 상대적으로 직관적이지 않은 동작과 결합되어 이를 방지하기 위해 주의를 기울이지 않으면 클리핑을 유발할 수 있다. 일부 실시예에서, 도 1과 관련하여 더 자세히 논의되는 바와 같이, 이러한 결과적인 동역학을 관리하기 위해 필터뱅크 모듈(120)에 의해 생성된 고조파 스펙트럼 성분에 홀수 비선형성이 적용될 수 있다.
도 5는 일부 실시예에 따른 역방향 변환기 모듈(208)의 블록도이다. 역방향 변환기 모듈(208)은 회전 행렬 모듈(502), 행렬 곱셈기(504), 투영 연산기(506) 및 행렬 전치 연산기(508)를 포함한다. 역방향 변환기 모듈(208)은 위상 코히어런스 회전 스펙트럼 직교 성분 를 포함하는 회전된 스펙트럼 로부터 고조파 스펙트럼 성분 를 생성한다. 회전 행렬 모듈(502)은 행렬 모듈(302)에 의해 생성된 회전 행렬과 동일한 회전 행렬을 생성한다. 회전 행렬 모듈(502)에 의해 생성된 행렬은 행렬 전치 연산기(508)에 의해 전치되고, 행렬 곱셈기(504)에 의해 위상 코히어런스 회전 스펙트럼 직교 성분 의 들어오는 2D 벡터에 적용된다. 결과적인 2D 벡터는 투영 연산기(506)에 의해 단일 차원으로 투영된다.
회전 기저에서 표준 기저로 다시 역방향 변환을 수행하기 위해, 출력 스펙트럼은 수학식 16에 정의된 바와 같이 0Hz가 원래 위치 θc로 복귀하도록 이동되고,
(16)
여기서 P는 수학식 17에 정의된 대로 2차원 실수 계수 공간에서 단일 차원으로의 투영이다.
(17)
순방향 변환 은 정규직교 회전(orthonormal rotation)을 포함하기 때문에 역방향 변환은 전치이다. 이 대수적 구조를 사용하면 계수가 곱해지는 순서를 변경하여 순방향 변환 행렬을 캐싱하고 간단히 반전시킬 수 있다. 이러한 의미에서 도 3의 회전 매트릭스 모듈(302) 및 도 5의 회전 매트릭스 모듈(502)이 동일하다고 할 것이다. 고조파 스펙트럼 성분 은 고조파 스펙트럼 성분 h(t)(n)의 예이므로 더 큰 필터뱅크의 비선형 필터의 응답일 수 있다.
도 6은 일부 실시예에 따른 결합기 모듈(106)의 블록도이다. 결합기 모듈(106)은 필터뱅크 모듈(120)로부터의 고조파 스펙트럼 성분 h(t)(n)에 대해 추가 처리를 수행하고, 고조파 스펙트럼 성분 h(t)(n)을 결합하여 결합된 성분 z(t)를 생성하고, 결합된 성분 z(t)에 대해 추가 처리를 수행하며, 결합된 성분 z(t)를 전역통과 필터 네트워크 모듈(122)로부터 필터링된 오디오 채널 a(t)와 결합하여 출력 채널 o(t)를 생성한다.
결합기 모듈(106)은 성분 프로세서(602(1) ~ 602(4))(개별적으로 성분 프로세서(602 또는 602(n))라고 함), 고조파 스펙트럼 성분 결합기(604), 결합된 성분 프로세서(606) 및 출력 결합기(608)를 포함한다. 성분 프로세서(602(1) 내지 602(4))는 각각 고조파 스펙트럼 성분 h(t)(1) 내지 h(t)(n)에 처리를 적용한다. 결합기 모듈(106)은 필터뱅크 모듈(120)의 각각의 고조파 처리 모듈(104)에 대한 성분 프로세서(602)를 포함할 수 있다. 위에서 논의된 바와 같이, 필터뱅크 모듈(120)은 고조파 스펙트럼 성분 h(t)(n) 중 하나 이상을 선택적으로 생성할 수 있고 각각의 고조파 스펙트럼 성분 h(t)(n)은 오디오 채널 a(t)의 서로 다른 주파수 대역 n을 사용하여 생성된다.
수학식 10에 정의된 제한된 비선형성에 대해, 더 많은 것을 제안할 수 있는 출력 레벨의 더 큰 가변성은 순간적인 피크 레벨을 제한하기 위해 수행될 수 있다. 고조파 스펙트럼 성분 h(t)(n)(또는 수학식 16에 의해 정의된 )의 생성 이후, 성분 프로세서(602(n))는 신호를 범위(-1,1)로 제한하는 신호에 비선형성을 적용한다. 이 비선형성은 시그모이드 함수(sigmoid function)와 같은 홀수 선형성(odd linearity)일 수 있다. 이 비선형성은 일반적으로 부호를 보존하고 범위의 극단쪽으로 완만하게 기울어진다. 스케일링 계수 를 갖는 쌍곡선 탄젠트는 수학식 18로 정의된 것과 같은 함수의 한 예이다.
(18)
피크를 감소시키기 위해 채용될 때, 이러한 비선형성은 또한 고조파 스펙트럼 성분 h(t)(n)에 홀수 고조파를 추가할 수도 있다. 이러한 홀수 고조파는 고조파 스펙트럼 성분 h(t)(n)의 고조파와 위상이 동일할 것이다. 이 단계의 홀수 고조파는 소리 크기에 대한 일반적인 인간의 청각 신호를 존중하는 방식으로 전체 진폭의 변화를 음색의 변화로 전환한다.
피크 리미터와 결합될 때, 피크 제한 임계값은 수학식 18의 임계값보다 작은 양으로 설정될 수 있으므로 제한 함수의 고조파 특성은 피크 리미터의 날카로운 에지보다는 지각적으로 더 의미 있는 쌍곡선 탄젠트에 의해 지배된다.
일부 실시예에서, 성분 프로세서(602(n)) 중 하나 이상은 결합된 성분 z(t)에 대한 원하는 비선형 특성을 획득하기 위해 이들 개개의 고조파 스펙트럼 성분을 (예를 들어, 독립적 조정으로) 감쇠시킬 수 있다.
고조파 스펙트럼 성분 결합기(604)는 고조파 스펙트럼 성분 h(t)(1) 내지 h(t)(n)과 같은 고조파 스펙트럼 성분 h(t)(n)을 결합하여 결합된 성분 z(t)를 생성한다.
결합 성분 처리 모듈(606)은 결합된 성분 z(t)를 처리한다. 결합 성분 처리 모듈(606)은 또한 고역통과 필터링, 동적 범위 처리(예: 제한 또는 압축) 등과 같은 다양한 유형의 처리를 적용할 수 있다.
출력 결합기(608)는 결합된 성분 z(t)를 전역 통과 필터 네트워크 모듈(122)로부터 필터링된 오디오 채널 a(t)와 결합하여 출력 채널 o(t)를 생성한다. 일부 실시예에서, 출력 결합기(608)는 필터링된 오디오 채널 a(t) 또는 결합된 성분 z(t)를 결합 전에 감쇠시킬 수 있다.
도 7은 일부 실시예에 따른 필터뱅크 모듈(700)의 블록도이다. 필터뱅크 모듈(700)은 필터뱅크 모듈(120)의 실시예이다. 필터뱅크 모듈(700)은 각각의 다운스트림 고조파 스펙트럼 성분이 업스트림 고조파 스펙트럼 성분의 잔차를 입력으로 사용하여 생성되는 직렬 구현을 사용한다. 병렬로 적용된 독립적인 필터를 사용하여 필터뱅크 모듈을 구성하는 것은 상대적으로 직관적이지만, 이러한 필터뱅크 모듈을 조정하는 것은 복잡한 작업이 될 수 있다. 이러한 어려움은 전력 스펙트럼 보존이 상실된 결과이다. 실제로, 전력 스펙트럼 보존에 문제가 있는 필터뱅크 튜닝은 종종 낮은 주파수에서 짧은 지연이나 콤 필터의 임프레션을 주어 청취자의 타이밍 결정 능력을 방해한다. 이는 타악기 저주파 콘텐트의 엔벨로프가 진폭과 기본 주파수 모두에서 동시에 떨어지는 경우가 많기 때문에 발생한다. 따라서 전력 스펙트럼의 불연속성으로 인해 이전에는 하나만 존재했던 여러 과도 현상이 인식된다.
직렬 패러다임에서, 필터뱅크 모듈(700)의 각 필터는 분석할 대역과 들어오는 콘텐트의 잔여 신호 사이에서 신호를 분기시킨다. 이는 저역통과 필터 F(x)를 2대역 크로스오버 네트워크로 대체하여 수행된다. 어떤 경우에는 저역통과 동작 직전에 광대역 신호에서 저역통과 신호를 빼는 것만으로 간단히 달성될 수 있다. 그런 다음 후속 필터는 잔여 고역 통과 신호에서만 작동하며 이전에 업스트림 필터에 의해 작동되었던 스펙트럼 데이터는 제외된다. 결과적으로, 필터뱅크 모듈(700)에 의해 분석된 전체 스펙트럼 에너지는 입력에서의 전체 스펙트럼 에너지와 동일하다.
병렬의 경우와 마찬가지로, 각 직렬 필터는 독립적인 순방향 및 역방향 변환을 사용한다. 이는 다양한 방법으로 수행될 수 있다. 첫 번째 예에서, 각 필터의 순방향 및 역방향 변환은 다운스트림 필터의 순방향 및 역방향 변환 등으로 이동하기 전에 적용된다. 두 번째 예에서는 후속 필터의 순방향 변환에 대한 좌표가 변환되는 피라미드 알고리즘이 사용되며, 이는 업스트림 필터의 주파수 편이 θcn-1과 다음 θcn의 주파수 편이 간의 차이를 사용하여 변환 행렬을 계산하는 것을 포함한다. 모든 순방향 변환이 적용된 후 역방향 변환은 가장 아래의 다운스트림 필터부터 시작하여 시리즈 위로 올라가는 역순으로 적용될 수 있다. 이를 통해 순방향 단계와 역방향 단계 사이의 주파수 델타를 캐싱할 수 있다.
필터뱅크 모듈(700)은 순방향 및 역방향 변환의 피라미드 알고리즘을 사용한다. 이 예에서, 부대역 1부터 부대역 N까지 직렬로 처리되는 오디오 채널 a(t)의 N개의 부대역이 있다. 블록 op1(718), op2(734) 및 opM(752)은 각각 첫 번째, 두 번째, 및 N번째 부대역에 대해 계수 연산을 수행한다. op1(718), op2(734) 및 opM(752) 각각은 계수 연산기 모듈(206)에 대해 본 명세서에서 논의된 바와 같은 계수 연산을 수행할 수 있다.
블록 R(704), R(720) 및 R(736)은 각각 회전 행렬 모듈(302)에 대해 본 명세서에서 논의된 바와 같이 시변 회전 행렬 R2와 오른쪽의 2차원 신호의 곱셈을 수행한다. 블록 H(702)는 수학식 1에 설명된 직교 필터 동작을 나타내고, 블록 H와 R이 함께 수학식 2에 의해 정의된 동작을 수행한다.
블록 F(706), F(708), F(722), F(724), F(740) 및 F(742)는 각각 필터 모듈(402)에 대해 본 명세서에서 논의된 것과 같은 저역통과 필터 연산 F(x)를 수행한다.
블록 *(-1)(710), *(-1)(712), *(-1)(726), *(-1)(728), *(-1)(744), 및 *(-1)(746)은 수신된 입력을 반전시킨다. 블록 +(714), +(716), +(730), +(732), +(748), +(750), +(774), +(776)은 수신된 입력을 결합하여 출력을 생성한다.
블록 R-1 (754), R-1(756), R-1(762), R-1(766), R-1(764), 및 R- 1(772)는 R 블록의 역방향 변환을 수행한다. 예를 들어, 블록 R(704) 및 R-1(772) 및 R-1(766)은 -(θc1t)의 회전을 사용한다. 블록 R(720) 및 R-1(764) 및 R-1(762)은 -(θc2 - θc1)t의 회전을 사용한다. 블록 R(736) 및 R-1(754) 및 R-1(756)은 -(θcN - θc(N-1))t의 회전을 사용한다.
블록 P(778)은 수학식 17에 설명된 1차원 투영 연산을 수행한다.
각주파수 θc보다는 θcn의 인접한 값 사이의 차이를 사용하는 것에 주의한다. θcn의 특정 선택에 대해, 피라미드 알고리즘은 회전 이 계산되는 횟수를 제한함으로써 보다 계산 효율적인 구현을 제공할 수 있다. θcn 분포에 대한 특히 계산 효율적인 선택은 선형(인접 필터에 대한 θc 간의 차이는 일정하게 유지됨)이므로 행렬이 서로 동일하기 때문에 의 재계산을 완전히 최소화한다.
최종 잔차에는 전체 필터뱅크의 영향을 받지 않는 데이터가 포함되어 있어 영향을 받은 신호와 영향을 받지 않은 신호 사이의 건설적이거나 파괴적인 간섭 가능성이 제거된다. 이 잔류 신호의 전달 함수는 필터뱅크 분석 영역과 완벽하게 일치할 것이다. 계수 동작으로 인해 동적 동작이 수정되거나 완전히 새로운 콘텐트가 합성될 가능성이 높기 때문에 이는 반드시 출력 신호의 전력 스펙트럼이 완벽하게 재구성된다는 의미는 아니다. 많은 경우에 이 최종 잔차는 모두 폐기될 수 있으며, H(702)의 출력은 영향을 받지 않은 콘텐트를 다시 최종 합계로 혼합하는 데 사용될 수 있다.
필터뱅크 모듈(700)은 업스트림 고조파 스펙트럼 성분의 잔차를 입력으로 사용하여 각각의 다운스트림 고조파 스펙트럼 성분을 생성한다. 이 경우 총 M개의 비선형 필터를 포함하는 필터뱅크 토폴로지는 직렬 아키텍처로 설명될 수 있다. 따라서, 비선형 필터는 1부터 M까지의 값을 갖는 인덱스 m에 의해 정의될 수 있다. 예를 들어, 블록 +(714) 및 +(716)은 제1 고조파 스펙트럼 성분의 잔차(예를 들어, m = 1)를 출력하고, 이는 2차 고조파 스펙트럼 성분(예: m = 2)을 생성하는 데 사용된다. 여기서, 제1 고조파 스펙트럼 성분의 잔차는 블록 F(706) 및 F(708)에 의해 필터링되어 블록 Op1(718)에 의해 처리되지 않은 오디오 채널의 부분을 나타낸다. 이러한 잔차 부분은 블록 *(-1)(710) 및 *(-1)(712)에 의해 필터링된 부분을 반전시키고 역방향 필터링된 부분을 블록 +(714) 및 +(716)에 의해 필터링된 부분에 추가하여 생성된다. 추가 다운스트림 처리는 유사한 방식으로 작동한다. 예를 들어, 블록 +(730) 및 +(732)는 3차 고조파 스펙트럼 성분(예: m = 3)을 생성하는 데 사용되는 2차 고조파 스펙트럼 성분의 잔차를 출력하다.
예시 프로세스
도 8은 일부 실시예에 따른 심리음향 주파수 범위 확장을 위한 프로세스(800)의 흐름도이다. 도 8에 도시된 프로세스는 오디오 시스템(예를 들어, 오디오 시스템(100))의 구성요소에 의해 수행될 수 있다. 다른 엔터티는 도 8의 단계 중 일부 또는 전부를 수행할 수 있다. 실시예는 다른 및/또는 추가 단계를 포함하거나 다른 순서로 단계를 수행할 수 있다.
오디오 시스템은 오디오 채널의 직교 표현을 정의하는 직교 성분(quadrature component)을 생성한다(805). 오디오 채널은 스테레오 오디오 신호의 좌측 채널 또는 우측 채널과 같은 다중 채널 오디오 신호의 채널일 수 있다. 직교 성분에는 90° 위상 관계가 포함된다. 직교 성분과 오디오 채널에는 모든 주파수에 대한 유니티 크기 관계(unity magnitude relationship)가 포함된다. 일부 실시예에서, 실수 값 입력 신호는 매칭된 전역통과 필터 쌍에 의해 직교 값으로 변환된다.
오디오 시스템은 표준 기저에서 회전 기저로 직교 성분의 스펙트럼(예를 들어, 전체 스펙트럼)을 회전시키는 순방향 변환을 적용함으로써 회전된 스펙트럼 직교 성분을 생성한다(810). 표준 기저는 회전 전 입력 오디오 채널의 주파수를 나타낸다. 회전으로 인해 타겟 주파수가 0Hz로 매핑될 수 있다. 이 타겟 주파수는 심리 음향 범위 확장을 위한 타겟 부대역의 중심 주파수와 같이 고조파 처리 모듈의 분석 영역의 중심일 수 있다. 순방향 변환은 수학식 3에 의해 정의된 삼각 함수에 대한 반복 호출을 사용하거나 동등한 재귀 2D 회전을 사용하여 계산될 수 있다.
오디오 시스템은 타겟 주파수 및 타겟 크기에서 회전된 스펙트럼 직교 성분의 성분을 분리한다(815). 성분 분리는 회전 기저로 수행될 수 있다. 예를 들어, 타겟 주파수는 필터 F(x)를 사용하여 분리될 수 있으며, 여기서 x는 u(t)에 의해 정의된 성분을 포함한다. 일부 실시예에서, 필터는 임계값 위의 주파수를 제거하고, 이는 순방향 변환이 조정된 중심 주파수 θc에 대해 대칭적으로 임계값의 두 배에 걸쳐 있는 타겟 부대역을 분리하는 효과를 갖는다. 일부 실시예에서, 오디오 시스템은 스피커의 재생 가능 범위, 스피커의 전력 소비 감소, 스피커의 수명 연장과 같은 요인에 기초하여 타겟 주파수를 결정한다.
오디오 시스템은 또한 게이트 함수를 사용하는 것과 같이 회전된 스펙트럼 직교 성분으로부터 타겟 크기의 성분을 분리할 수 있다. 게이트 함수는 부대역에서 원하지 않는 정보를 삭제하거나 진폭 포락선을 유지하도록 구성할 수 있다. 게이트 함수는 슬루 제한 필터 또는 유사한 평활화 기능을 더 포함할 수 있다.
오디오 시스템은 스케일에 대한 의존성 제약을 갖는 분리된 성분에 비선형성을 적용함으로써 가중 위상 코히어런스 고조파 스펙트럼 직교 성분을 생성한다(820). 가중 위상 코히어런스 회전 스펙트럼 직교 성분은 회전 기저로 생성될 수 있다. 이 회전 기저는 표준 기저 신호를 2차원 벡터로 나타내고 타겟 주파수의 중심을 0에 두기 때문에 설계자 스펙트럼을 생성하는 데 매우 적합하다. 그런 다음 벡터는 수학식 4에서 볼 수 있듯이 극좌표로 더 분해될 수 있고, 이는 특정 주파수에 대한 정보의 자연스러운 설명자인 STFT(short-time Fourier transform)에서 단일 빈의 크기와 인수를 계산하는 것과 유사하다. 이 구현은 STFT 표현에 비해 몇 가지 뚜렷한 장점이 있다. 첫 번째는 빈 정보가 전체 스펙트럼이 아닌 필요한 경우에만 계산된다는 것이다. 또 다른 장점은 일시적인 데이터를 적절하게 표현하는 데 필요한 시간적 해상도로 결과가 계산된다는 것이다. 또한, STFT 기술의 창 함수와 유사하게 작동하는 필터는 타겟 스펙트럼 내용을 잔차에서 분리할 목적으로 쉽게 조정되며, 다수의 고조파 처리 모듈의 경우 균일하지 않은 조정이 있을 수 있다.
회전된 스펙트럼 직교 성분의 위상 정보가 주어지면 위상 코히어런스 스펙트럼을 생성하는 기능을 주로 하는 비선형성은 수학식 11에 의해 정의된 바와 같은 제약을 받는 스케일에 대한 의존성을 가질 수 있다. 비선형성은 구성 비선형성의 가중 혼합을 포함하고, 각 구성 비선형성은 수학식 10으로 정의되고 서로 다른 고조파 n에 대응한다. 분리된 성분에 대한 비선형성 적용은 수학식 9로 정의된다. 각 고조파 n에 대해, 크기 보정 계수 max(∥u(t)∥, bn)는 구성 비선형성의 입력 u(t)에 적용되는 이득 보정에 대한 제약을 정의한다. 스케일은 ∥u(t)∥로 정의된 입력 성분 u(t)의 크기를 나타내며 시간 t에서 신호에 존재하는 에너지를 나타낸다. 서로 다른 고조파 n은 서로 다른 최소값 제약 bn을 포함할 수 있다. 예를 들어, 더 낮은 고조파(예: 기본 n = 1)는 제한되지 않을 수 있지만(예: bn = 0), 더 높은 고조파는 더 높은 bn 값으로 더 제한될 수 있다.
비선형성 자체는 제약에 따라 선택적으로 미분되는 크기를 갖는 제1종 체비쇼프 다항식의 가중 합산을 포함할 수 있다. 비선형성의 각 구성 비선형성은 수학식 9에 의해 정의된 바와 같이 미리 정의된 고조파 가중치 an에 의해 가중될 수 있다.
오디오 시스템은 가중 위상 코히어런스 회전 스펙트럼 직교 성분의 스펙트럼을 회전 기저에서 표준 기저로 회전시키는 역방향 변환을 적용함으로써 고조파 스펙트럼 성분을 생성한다(625). 역방향 변환은 0Hz가 타겟 주파수에 매핑되도록 스펙트럼을 회전시킬 수 있다. 고조파 스펙트럼 성분에는 타겟 주파수와 다른 주파수가 포함되어 있지만 스피커가 렌더링할 때 타겟 주파수의 심리음향 임프레션을 생성한다. 고조파 스펙트럼 성분의 주파수는 스피커의 대역폭 내에 있을 수 있는 반면, 부대역 주파수는 스피커의 대역폭 밖에 있을 수 있다. 일부 실시예에서, 부대역 주파수는 고조파 스펙트럼 성분의 주파수보다 낮다. 일부 실시예에서, 부대역 주파수는 18Hz와 250Hz 사이의 주파수를 포함한다. 일부 실시예에서, 타겟 부대역 또는 주파수는 스피커의 재생 가능 범위 내에 있을 수 있지만, 예를 들어 오디오 시스템의 전력 소비를 줄이거나 스피커의 수명을 향상시키기 위해 애플리케이션별 이유로 선택되었을 수 있다.
오디오 시스템은 고조파 스펙트럼 성분을 타겟 주파수 외부의 상기 오디오 채널의 주파수와 결합하여(830) 출력 채널을 생성하고 출력 채널을 스피커에 제공한다(835). 일부 실시예에서, 오디오 시스템은 고조파 스펙트럼 성분을 원래 오디오 채널과 결합함으로써 출력 채널을 생성하고 출력 채널을 스피커에 제공한다. 일부 실시예에서, 오디오 시스템은 오디오 채널 또는 오디오 채널의 다른 부대역 성분(예를 들어, 주파수 범위 확장에 사용되는 부대역 성분(들) 제외)을 필터링하여 오디오 채널 또는 다른 부대역 성분이 고조파 스펙트럼 성분과 코히어런스를 유지하도록 보장하고, 필터링된 오디오 채널이나 기타 부대역 성분을 고조파 스펙트럼 성분과 결합하여 스피커의 출력 채널을 생성한다. 일부 실시예에서, 필터링된 또는 원본 오디오 채널과 고조파 스펙트럼 성분의 조합은 예를 들어 이퀄라이제이션, 압축 등을 통해 추가 처리되어 스피커의 출력 채널을 생성할 수 있다.
단계 805 내지 825에서, 오디오 채널의 주파수 대역에 대해 고조파 스펙트럼 성분이 생성된다. 일부 실시예에서, 다수의 고조파 스펙트럼 성분이 생성되고 결합(830)되는데, 여기서 각각의 고조파 스펙트럼은 성분은 오디오 채널의 다른 주파수 대역을 사용하여 생성된다. 출력 채널은 고조파 스펙트럼 성분의 타겟 주파수 외부의 상기 오디오 채널의 주파수를 결합함으로써 생성될 수 있다. 고조파 스펙트럼 성분은 병렬 또는 직렬로 생성될 수 있다. 직렬의 경우, 각각의 다운스트림 고조파 스펙트럼 성분은 업스트림 고조파 스펙트럼 성분의 잔차를 입력으로 사용하여 생성될 수 있다. 일부 실시예에서, 서로 다른 스피커는 서로 다른 사용 가능한 대역폭 또는 주파수 응답을 가질 수 있다. 예를 들어, 모바일 장치(예: 휴대폰)에는 불균형 스피커가 포함될 수 있다. 서로 다른 스피커에 대한 주파수 범위 확장을 위해 서로 다른 부대역 성분이 사용될 수 있다.
예시 컴퓨터
도 9는 일부 실시예에 따른 컴퓨터(900)의 블록도이다. 컴퓨터(900)는 오디오 시스템(100), 필터뱅크 모듈(120) 또는 필터뱅크 모듈(700)과 같은 오디오 시스템 및 그 구성요소를 구현하는 회로의 예이다. 칩셋(904)에 커플링된 적어도 하나의 프로세서(902)가 예시되어 있다. 칩셋(904)에는 메모리 컨트롤러 허브(920) 및 입력/출력(I/O) 컨트롤러 허브(922)가 포함된다. 메모리(906) 및 그래픽 어댑터(912)는 메모리 컨트롤러 허브(920)에 커플링되고, 디스플레이 디바이스(918)는 그래픽 어댑터(912)에 커플링된다. 저장 디바이스(908), 키보드(910), 포인팅 디바이스(914) 및 네트워크 어댑터(916)는 I/O 컨트롤러 허브(922)에 커플링된다. 컴퓨터(900)는 다양한 형태의 입력 또는 출력 디바이스를 포함할 수 있다. 컴퓨터(900)의 다른 실시예는 상이한 아키텍처를 갖는다. 예를 들어, 일부 실시예에서 메모리(906)는 프로세서(902)에 직접 커플링된다.
저장 디바이스(908)는 하드 드라이브, CD-ROM(Compact Disk Read-Only Memory), DVD 또는 고체 상태 메모리 디바이스와 같은 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다. 메모리(906)는 프로세서(902)에 의해 사용되는 프로그램 코드(하나 이상의 명령어로 구성됨) 및 데이터를 보유한다. 프로그램 코드는 도 1 내지 도 3을 참조하여 설명된 처리 양태에 대응할 수 있다.
포인팅 디바이스(914)는 컴퓨터 시스템(900)에 데이터를 입력하기 위해 키보드(910)와 조합하여 사용된다. 그래픽 어댑터(912)는 디스플레이 디바이스(918)에 이미지 및 다른 정보를 표시한다. 일부 실시예에서, 디스플레이 디바이스(918)는 사용자 입력 및 선택을 수신하기 위한 터치 스크린 능력을 포함한다. 네트워크 어댑터(916)는 컴퓨터 시스템(900)을 네트워크에 커플링한다. 컴퓨터(900)의 일부 실시예에는 도 9에 도시된 것과는 상이한 및/또는 다른 구성요소가 포함된다.
회로에는 비일시적 컴퓨터 판독 가능 매체에 저장된 프로그램 코드를 실행하는 하나 이상의 프로세서를 포함할 수 있으며, 프로그램 코드는, 하나 이상의 프로세서에 의해 실행될 때, 오디오 처리 시스템 또는 오디오 처리 시스템의 모듈을 구현하도록 하나 이상의 프로세서를 구성한다. 오디오 처리 시스템 또는 오디오 처리 시스템의 모듈을 구현하는 회로의 다른 예는 ASIC(Application-Specific Integrated Circuit), FPGA(Field-Programmable Gate Array), 또는 다른 유형의 컴퓨터 회로와 같은 집적 회로를 포함할 수 있다.
추가적인 고려 사항
개시된 구성의 예시적인 장점 및 이점에는 스피커가 스피커의 물리적 성능을 넘어서는 (예: 더 낮은) 주파수를 효과적으로 렌더링할 수 있도록 한다. 여기에 설명된 대로 오디오 신호를 처리함으로써 렌더링된 사운드는 물리적 드라이버의 대역폭을 넘어서는 주파수의 임프레션을 생성한다.
본 명세서 전반에 걸쳐, 복수의 인스턴스는 하나의 인스턴스로 설명된 구성요소, 동작 또는 구조를 구현할 수 있다. 하나 이상의 방법의 개별 동작이 별도의 동작으로 예시되고 설명되어 있지만, 개별 동작 중 하나 이상이 동시에 수행될 수 있으며, 동작이 예시된 순서대로 수행될 필요는 없다. 예시적인 구성에서 별도의 구성요소로 제시된 구조 및 기능은 조합된 구조 또는 구성요소로 구현될 수 있다. 유사하게, 단일 구성요소로 제시된 구조와 기능은 별도의 구성요소로 구현될 수 있다. 이들 및 다른 변형, 수정, 추가 및 개선은 본 명세서의 주제 범주에 속한다.
특정 실시예는 로직 또는 다수의 구성요소, 모듈, 블록 또는 메커니즘을 포함하는 것으로 본 명세서에서 설명된다. 모듈은 소프트웨어 모듈(예컨대, 기계 판독 가능 매체나 전송 신호에 구현된 코드) 또는 하드웨어 모듈로 구성될 수 있다. 하드웨어 모듈은 특정 작업을 수행할 수 있는 유형의 유닛(tangible unit)이며, 특정 방식으로 구성되거나 배열될 수 있다. 예시적인 실시예에서, 하나 이상의 컴퓨터 시스템(예컨대, 독립형, 클라이언트 또는 서버 컴퓨터 시스템) 또는 컴퓨터 시스템의 하나 이상의 하드웨어 모듈(예컨대, 프로세서 또는 프로세서 그룹)은, 본 명세서에 설명된 바와 같이, 특정 동작을 수행하도록 작동하는 하드웨어 모듈로서 소프트웨어(예컨대, 애플리케이션 또는 애플리케이션 부분)에 의해 구성될 수 있다.
본 명세서에 설명된 예시적인 방법의 다양한 동작은 (예컨대, 소프트웨어에 의해) 관련 동작을 수행하도록 일시적으로 구성되거나 영구적으로 구성되는 하나 이상의 프로세서에 의해 적어도 부분적으로 수행될 수 있다. 이와 같은 프로세서는, 일시적으로 구성되든 영구적으로 구성되든, 하나 이상의 동작이나 기능을 수행하도록 작동하는 프로세서 구현 모듈을 구성할 수 있다. 본 명세서에서 언급된 모듈은, 일부 예시적인 실시예에서, 프로세서로 구현된 모듈(processor-implemented module)을 포함할 수 있다.
유사하게, 본 명세서에 설명된 방법은 적어도 부분적으로 프로세서로 구현될 수 있다. 예를 들어, 방법의 동작 중 적어도 일부는 하나 이상의 프로세서 또는 프로세서로 구현된 하드웨어 모듈에 의해 수행될 수 있다. 특정 동작의 성능은 하나 이상의 프로세서 사이에 분산될 수 있으며, 단일 머신 내에 상주할 뿐만 아니라, 다수의 머신에 걸쳐 분배될 수 있다. 일부 예시적인 실시예에서, 프로세서 또는 프로세서들은 단일 위치(예컨대, 가정 환경, 사무실 환경 또는 서버 팜(server farm))에 위치될 수 있는 반면, 다른 실시예에서 프로세서는 다수의 위치에 걸쳐 분산될 수 있다.
달리 구체적으로 언급되지 않는 한, 본 명세서에서 "처리하는", "컴퓨팅하는", "계산하는", "결정하는", "제시하는", "표시하는" 등과 같은 단어를 사용하는 논의는 하나 이상의 메모리(예컨대, 휘발성 메모리, 비휘발성 메모리 또는 이들의 조합), 레지스터, 또는 정보를 수신, 저장, 전송 또는 표시하는 다른 기계 구성요소 내에서 물리적(예컨대, 전자적, 자기적 또는 광학적) 양으로 표현되는 데이터를 조작하거나 변환하는 기계(예컨대, 컴퓨터)의 작동이나 프로세스를 지칭할 수 있다.
본 명세서에 사용되는 바와 같이, "일 실시예" 또는 "실시예"에 대한 임의 참조는, 실시예와 관련하여 설명된 특정한 요소, 피처, 구조 또는 특성이 적어도 하나의 실시예에 포함된다는 것을 의미한다. 본 명세서의 다양한 곳에서의 "일 실시예에서"라는 문구의 등장은 반드시 모두 동일한 실시예를 지칭하는 것은 아니다.
일부 실시예는 "커플링된(coupled)" 및 "연결된(connected)"이라는 표현과 그 파생어를 사용하여 설명될 수 있다. 이들 용어는 서로 동의어로 의도된 것은 아니라는 점을 이해해야 한다. 예를 들어, 일부 실시예는 2개 이상의 요소가 서로 직접 물리적 또는 전기적으로 접촉하고 있음을 나타내기 위해 "연결된"이라는 용어를 사용하여 설명될 수 있다. 다른 예에서, 일부 실시예는 2개 이상의 요소가 직접 물리적 또는 전기적으로 접촉하고 있음을 나타내기 위해 "커플링된"이라는 용어를 사용하여 설명될 수 있다. 그러나, "커플링된"이라는 용어는 둘 이상의 요소가 서로 직접 접촉하지는 않지만, 여전히 서로 협력하거나 상호 작용한다는 것을 의미할 수도 있다. 실시예는 이러한 맥락으로 한정되는 것은 아니다.
본 명세서에 사용되는 바와 같이, 용어 "구성하다", "구성하는", "포함하다", "갖는다", "갖는" 또는 이들의 임의의 다른 변형어는 비배타적 포함을 포괄하도록 의도된다. 예를 들어, 요소의 목록을 포함하는 프로세스, 방법, 물품 또는 장치는 반드시 해당 요소로만 한정되는 것은 아니며, 명시적으로 나열되지 않았거나, 그와 같은 프로세스, 방법, 물품 또는 장치에 내재된 다른 요소를 포함할 수 있다. 또한, 명시적으로 달리 기술되지 않는 한, "또는(or)"은 배타적인 또는(exclusive or)이 아닌 포괄적인 또는(inclusive or)을 의미한다. 예를 들어, 조건 A 또는 B는 다음 중 하나를 만족한다: A는 참(또는 존재)이고 B는 거짓(또는 존재하지 않음)이고; A는 거짓(또는 존재하지 않음)이고 B는 참(또는 존재)이며; A와 B가 모두 참(또는 존재)이다.
또한, "a" 또는 "an"의 사용은 본 명세서의 실시예의 요소 및 구성요소를 설명하는 데 사용된다. 이것은 단지 편의상 그리고 본 발명의 일반적인 이해를 돕기 위한 것이다. 본 설명은 하나 또는 적어도 하나를 포함하는 것으로 읽어야 하며, 단수형은 다른 의미가 있는 것이 명백하지 않은 한 복수형도 포함한다.
본 설명의 일부분은 정보에 대한 연산의 알고리즘 및 기호적 표현의 관점에서 실시예를 설명한다. 이들 알고리즘 설명 및 표현은 데이터 처리 분야의 당업자가 그들의 작업 내용을 다른 당업자에게 효과적으로 전달하기 위해 일반적으로 사용된다. 이들 동작은, 기능적으로, 계산적으로 또는 논리적으로 설명되지만, 컴퓨터 프로그램이나 등가의 전기 회로, 마이크로코드 등에 의해 구현되는 것으로 이해된다. 더욱이, 일반성을 잃지 않고, 모듈로서 이들 동작의 배열을 참조하는 것이 때때로 편리하다는 것 또한 입증되었다. 설명된 동작 및 이들의 연관 모듈은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 임의 조합으로 구현될 수 있다.
본 명세서에 설명된 임의의 단계, 동작 또는 프로세스는 하나 이상의 하드웨어 또는 소프트웨어 모듈을 단독으로 또는 다른 디바이스와 결합하여 수행되거나 구현될 수 있다. 일 실시예에서, 소프트웨어 모듈은 설명된 단계, 동작 또는 프로세스 중 일부 또는 전부를 수행하기 위해 컴퓨터 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램 코드를 포함하는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품으로 구현된다.
실시예는 또한 본 명세서에서 동작을 수행하기 위한 장치에 관한 것일 수 있다. 이 장치는 필요한 목적을 위해 특별히 구성될 수 있고/있거나, 컴퓨터에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨팅 디바이스를 포함할 수 있다. 이와 같은 컴퓨터 프로그램은 비일시적인 유형의 컴퓨터 판독 가능 저장 매체, 또는 컴퓨터 시스템 버스에 커플링될 수 있는 전자 명령어를 저장하는 데 적합한 임의 유형의 매체에 저장될 수 있다. 더욱이, 본 명세서에서 언급된 임의의 컴퓨팅 시스템은 단일 프로세서를 포함할 수 있거나 증가된 컴퓨팅 능력을 위해 다수의 프로세서 설계를 채용하는 아키텍처일 수 있다.
실시예는 또한 본 명세서에 설명된 컴퓨팅 프로세스에 의해 생산되는 제품과 관련될 수 있다. 이와 같은 제품은 컴퓨팅 프로세스의 결과로 생성된 정보를 포함할 수 있으며, 해당 정보는 비일시적이고 유형의 컴퓨터 판독 가능 저장 매체에 저장되며, 본 명세서에 설명된 컴퓨터 프로그램 제품 또는 다른 데이터 조합의 임의의 실시예를 포함할 수 있다.
본 개시내용을 읽으면, 당업자는 본 명세서에 개시된 원리를 통해 시스템 및 프로세스에 대한 추가적이고 대안적인 구조적 및 기능적 설계를 이해할 것이다. 따라서, 특정 실시예 및 적용예가 예시되고 설명되었지만, 개시된 실시예는 본 명세서에 개시된 정확한 구성 및 구성요소로 한정되지 않는다는 것을 이해해야 한다. 본 명세서에 개시된 방법 및 장치의 배열, 동작 및 상세는, 첨부된 청구범위에서 정의된 사상 및 범주를 벗어나지 않고, 당업자에게 명백한 다양한 수정, 변경 및 변형이 이루어질 수 있다.
마지막으로, 본 명세서에 사용된 언어는 주로 가독성과 설명 목적으로 선택되었으며, 특허권을 기술하거나 한정하기 위해 선택되지 않았을 수 있다. 따라서, 특허권의 범주는 이러한 상세한 설명에 의해 한정되는 것이 아니라, 이에 기초하여 출원된 모든 청구범위에 의해 한정되도록 의도된다. 따라서, 실시예의 개시내용은 이하의 청구범위에 제시된 특허권의 범주를 예시적으로 설명하기 위한 것일 뿐, 한정하기 위한 것은 아니다.

Claims (25)

  1. 시스템으로서,
    회로를 포함하되,
    상기 회로는,
    오디오 채널을 수신하고,
    스케일에 대한 의존성 제약(scale-dependent constraints)을 갖는 비선형성(nonlinearity)을 타겟 주파수 세트에 대응하는 상기 오디오 채널의 성분에 적용하여, 오디오 렌더링 장치에 의해 렌더링될 때 상기 타겟 주파수 세트의 주파수의 심리음향 임프레션(psychoacoustic impression)을 생성하는, 상기 오디오 채널의 타겟 주파수 세트와는 다른 주파수를 갖는 고조파 스펙트럼 성분을 생성하며,
    상기 오디오 렌더링 장치에 의해 렌더링될 출력 채널을 생성하기 위해 상기 고조파 스펙트럼 성분을 상기 타겟 주파수 세트 외부의 상기 오디오 채널의 주파수와 결합하도록 구성되는
    시스템.
  2. 제1항에 있어서,
    상기 비선형성은 구성 비선형성의 가중 혼합(weighted mixture of constituent nonlinearities)을 포함하고,
    상기 제약 각각은 개개의 구성 비선형성의 입력에 적용되는 이득 보정에 대한 제약을 포함하는,
    시스템.
  3. 제2항에 있어서,
    상기 비선형성은, 상기 제약에 따라 크기가 선택적으로 미분되는 제1 종 체비쇼프 다항식(Chebyshev polynomial)의 가중 합을 포함하는,
    시스템.
  4. 제1항에 있어서,
    상기 회로는, 상기 오디오 채널의 직교 표현(quadrature representation)을 정의하는, 상기 오디오 채널로부터의 직교 성분(quadrature component)을 생성하도록 더 구성되고,
    상기 고조파 스펙트럼 성분은 상기 오디오 채널의 상기 직교 표현에 상기 비선형성을 적용함으로써 생성되는,
    시스템.
  5. 제4항에 있어서,
    상기 회로는,
    표준 기저(standard basis)에서 회전 기저(rotated basis)로 상기 직교 성분의 스펙트럼을 회전시키는 순방향 변환을 적용함으로써, 회전된 스펙트럼 직교 성분을 생성하고,
    상기 회전 기저의 상기 타겟 주파수에 대응하는 상기 오디오 채널의 성분에 상기 비선형성을 적용하여 가중 위상 코히어런스 고조파 스펙트럼 직교 성분(weighted phase-coherent harmonic spectral quadrature component)을 생성하며,
    상기 가중 위상 코히어런스 고조파 스펙트럼 직교 성분의 스펙트럼을 상기 회전 기저로부터 상기 표준 기저로 회전시키는 역방향 변환을 적용함으로써 상기 고조파 스펙트럼 성분을 생성하도록 더 구성되는,
    시스템.
  6. 제5항에 있어서,
    상기 순방향 변환은 상기 타겟 주파수 세트의 한 타겟 주파수가 0Hz에 매핑되도록 상기 직교 성분의 스펙트럼을 회전하고,
    상기 역방향 변환은 0Hz가 상기 한 타겟 주파수에 매핑되도록 상기 가중 위상 코히어런스 고조파 스펙트럼 직교 성분의 스펙트럼을 회전시키는,
    시스템.
  7. 제1항에 있어서,
    상기 회로는 복수의 고조파 스펙트럼 성분을 생성하도록 더 구성되되,
    각각의 고조파 스펙트럼 성분은 상기 오디오 채널의 서로 다른 주파수 대역의 개개의 타겟 주파수 세트를 사용하여 생성되며,
    상기 회로는 상기 복수의 고조파 스펙트럼 성분을 결합함으로써 상기 출력 채널을 생성하도록 구성되는,
    시스템.
  8. 제7항에 있어서,
    상기 회로는 업스트림 고조파 스펙트럼 성분의 잔차(residual)를 입력으로 사용하여 각각의 다운스트림 고조파 스펙트럼 성분과 직렬로 상기 복수의 고조파 스펙트럼 성분을 생성하도록 구성되는,
    시스템.
  9. 제7항에 있어서,
    상기 회로는 상기 복수의 고조파 스펙트럼 성분을 병렬로 생성하도록 구성되는,
    시스템.
  10. 제1항에 있어서,
    상기 회로는 상기 고조파 스펙트럼 성분에 홀수 비선형성(odd nonlinearity)을 적용하도록 더 구성되는,
    시스템.
  11. 제1항에 있어서,
    상기 타겟 주파수 세트는 18Hz와 250Hz 사이의 주파수를 포함하는,
    시스템.
  12. 제1항에 있어서,
    상기 회로는
    상기 오디오 렌더링 장치의 재생 가능 범위,
    상기 오디오 렌더링 장치의 전력 소비 감소, 또는
    상기 오디오 렌더링 장치의 수명 증가
    중 적어도 하나에 기초하여 상기 타겟 주파수 세트를 결정하도록 더 구성되는,
    시스템.
  13. 제1항에 있어서,
    상기 오디오 렌더링 장치는 모바일 장치의 구성요소인,
    시스템.
  14. 제1항에 있어서,
    상기 회로는 게이트 함수를 사용하여 타겟 크기에서 상기 타겟 주파수 세트에 대응하는 상기 오디오 채널의 성분을 분리하도록 더 구성되는,
    시스템.
  15. 제1항에 있어서,
    상기 회로는 상기 타겟 주파수 세트에 대응하는 상기 오디오 채널의 성분에 평활화 함수(smoothing function)를 적용하도록 더 구성되는,
    시스템.
  16. 저장된 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체로서,
    상기 명령어는 적어도 하나의 프로세서에 의해 실행될 때,
    오디오 채널을 수신하고,
    스케일에 대한 의존성 제약(scale-dependent constraints)을 갖는 비선형성을 타겟 주파수 세트에 대응하는 상기 오디오 채널의 성분에 적용하여, 오디오 렌더링 장치에 의해 렌더링될 때 상기 타겟 주파수 세트의 주파수의 심리음향 임프레션(psychoacoustic impression)을 생성하는, 상기 오디오 채널의 타겟 주파수 세트와는 다른 주파수를 갖는 고조파 스펙트럼 성분을 생성하며,
    상기 오디오 렌더링 장치에 의해 렌더링될 출력 채널을 생성하기 위해 상기 고조파 스펙트럼 성분을 상기 타겟 주파수 세트 외부의 상기 오디오 채널의 주파수와 결합하도록
    상기 적어도 하나의 프로세서를 구성하는,
    비일시적 컴퓨터 판독 가능 매체.
  17. 제16항에 있어서,
    상기 비선형성은 구성 비선형성의 가중 혼합을 포함하고,
    상기 제약 각각은 개개의 구성 비선형성의 입력에 적용되는 이득 보정에 대한 제약을 포함하는,
    비일시적 컴퓨터 판독 가능 매체.
  18. 제16항에 있어서,
    상기 명령어는 상기 오디오 채널의 직교 표현을 정의하는 상기 오디오 채널로부터의 직교 성분을 생성하도록 상기 적어도 하나의 프로세서를 더 구성하고,
    상기 고조파 스펙트럼 성분은 상기 오디오 채널의 상기 직교 표현에 상기 비선형성을 적용함으로써 생성되는,
    비일시적 컴퓨터 판독 가능 매체.
  19. 제18항에 있어서,
    상기 명령어는
    표준 기저에서 회전 기저로 상기 직교 성분의 스펙트럼을 회전시키는 순방향 변환을 적용함으로써, 회전된 스펙트럼 직교 성분을 생성하고,
    상기 회전 기저의 상기 타겟 주파수에 대응하는 상기 오디오 채널의 성분에 상기 비선형성을 적용하여 가중 위상 코히어런스 고조파 스펙트럼 직교 성분을 생성하며,
    상기 가중 위상 코히어런스 고조파 스펙트럼 직교 성분의 스펙트럼을 상기 회전 기저로부터 상기 표준 기저로 회전시키는 역방향 변환을 적용함으로써 상기 고조파 스펙트럼 성분을 생성하도록
    상기 적어도 하나의 프로세서를 더 구성하는,
    비일시적 컴퓨터 판독 가능 매체.
  20. 제16항에 있어서,
    상기 명령어는 복수의 고조파 스펙트럼 성분을 생성하도록 상기 적어도 하나의 프로세서를 더 구성하되,
    각각의 고조파 스펙트럼 성분은 상기 오디오 채널의 서로 다른 주파수 대역의 개개의 타겟 주파수 세트를 사용하여 생성되며,
    상기 명령어는 상기 복수의 고조파 스펙트럼 성분을 결합함으로써 상기 출력 채널을 생성하도록 상기 적어도 하나의 프로세서를 더 구성하는,
    비일시적 컴퓨터 판독 가능 매체.
  21. 방법으로서,
    회로에 의해,
    오디오 채널을 수신하는 단계와,
    스케일에 대한 의존성 제약을 갖는 비선형성을 타겟 주파수 세트에 대응하는 상기 오디오 채널의 성분에 적용하여, 오디오 렌더링 장치에 의해 렌더링될 때 상기 타겟 주파수 세트의 주파수의 심리음향 임프레션을 생성하는, 상기 오디오 채널의 타겟 주파수 세트와는 다른 주파수를 갖는 고조파 스펙트럼 성분을 생성하는 단계와,
    상기 오디오 렌더링 장치에 의해 렌더링될 출력 채널을 생성하기 위해 상기 고조파 스펙트럼 성분을 상기 타겟 주파수 세트 외부의 상기 오디오 채널의 주파수와 결합하는 단계를 포함하는
    방법.
  22. 제21항에 있어서,
    상기 비선형성은 구성 비선형성의 가중 혼합을 포함하고,
    상기 제약 각각은 개개의 구성 비선형성의 입력에 적용되는 이득 보정에 대한 제약을 포함하는,
    방법.
  23. 제21항에 있어서,
    상기 오디오 채널의 직교 표현을 정의하는, 상기 오디오 채널로부터의 직교 성분을 생성하는 단계를 더 포함하고,
    상기 고조파 스펙트럼 성분은 상기 오디오 채널의 직교 표현에 상기 비선형성을 적용함으로써 생성되는,
    방법.
  24. 제23항에 있어서,
    표준 기저에서 회전 기저로 상기 직교 성분의 스펙트럼을 회전시키는 순방향 변환을 적용함으로써 회전된 스펙트럼 직교 성분을 생성하는 단계와,
    상기 회전 기저의 상기 타겟 주파수에 대응하는 상기 오디오 채널의 상기 성분에 상기 비선형성을 적용하여 가중 위상 코히어런스 고조파 스펙트럼 직교 성분을 생성하는 단계와,
    상기 가중 위상 코히어런스 고조파 스펙트럼 직교 성분의 스펙트럼을 상기 회전 기저로부터 상기 표준 기저로 회전시키는 역방향 변환을 적용함으로써 상기 고조파 스펙트럼 성분을 생성하는 단계를 포함하는
    방법.
  25. 제21항에 있어서,
    복수의 고조파 스펙트럼 성분을 생성하는 단계를 더 포함하되,
    각각의 고조파 스펙트럼 성분은 상기 오디오 채널의 서로 다른 주파수 대역의 개개의 타겟 주파수 세트를 사용하여 생성되며,
    상기 회로는 상기 복수의 고조파 스펙트럼 성분을 결합함으로써 상기 출력 채널을 생성하도록 구성되는,
    방법.
KR1020247027720A 2021-07-15 2022-07-14 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크 KR20240132101A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202163222370P 2021-07-15 2021-07-15
US63/222,370 2021-07-15
US17/471,012 US11838732B2 (en) 2021-07-15 2021-09-09 Adaptive filterbanks using scale-dependent nonlinearity for psychoacoustic frequency range extension
US17/471,012 2021-09-09
PCT/US2022/037182 WO2023288008A1 (en) 2021-07-15 2022-07-14 Adaptive filterbanks using scale-dependent nonlinearity for psychoacoustic frequency range extension
KR1020247001311A KR102698128B1 (ko) 2021-07-15 2022-07-14 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020247001311A Division KR102698128B1 (ko) 2021-07-15 2022-07-14 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크

Publications (1)

Publication Number Publication Date
KR20240132101A true KR20240132101A (ko) 2024-09-02

Family

ID=84920495

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020247027720A KR20240132101A (ko) 2021-07-15 2022-07-14 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크
KR1020247001311A KR102698128B1 (ko) 2021-07-15 2022-07-14 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020247001311A KR102698128B1 (ko) 2021-07-15 2022-07-14 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크

Country Status (5)

Country Link
US (2) US11838732B2 (ko)
EP (1) EP4327565A1 (ko)
JP (1) JP2024526758A (ko)
KR (2) KR20240132101A (ko)
WO (1) WO2023288008A1 (ko)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60043585D1 (de) * 2000-11-08 2010-02-04 Sony Deutschland Gmbh Störungsreduktion eines Stereoempfängers
US9668074B2 (en) 2014-08-01 2017-05-30 Litepoint Corporation Isolation, extraction and evaluation of transient distortions from a composite signal
US9667803B2 (en) 2015-09-11 2017-05-30 Cirrus Logic, Inc. Nonlinear acoustic echo cancellation based on transducer impedance
EP3577908A1 (en) 2017-01-31 2019-12-11 Widex A/S Method of operating a hearing aid system and a hearing aid system
US10349195B1 (en) * 2017-12-21 2019-07-09 Harman International Industries, Incorporated Constrained nonlinear parameter estimation for robust nonlinear loudspeaker modeling for the purpose of smart limiting
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US10972852B2 (en) 2019-07-03 2021-04-06 Qualcomm Incorporated Adapting audio streams for rendering
JP7270836B2 (ja) * 2019-08-08 2023-05-10 ブームクラウド 360 インコーポレイテッド 音響心理学的周波数範囲拡張のための非線形適応フィルタバンク

Also Published As

Publication number Publication date
US20240137697A1 (en) 2024-04-25
EP4327565A1 (en) 2024-02-28
KR20240011251A (ko) 2024-01-25
US11838732B2 (en) 2023-12-05
US20230036487A1 (en) 2023-02-02
WO2023288008A1 (en) 2023-01-19
KR102698128B1 (ko) 2024-08-26
JP2024526758A (ja) 2024-07-19
TW202307828A (zh) 2023-02-16

Similar Documents

Publication Publication Date Title
US10299040B2 (en) System for increasing perceived loudness of speakers
CA2785743C (en) System and method for digital signal processing
EP2465200B1 (en) System for increasing perceived loudness of speakers
EP2334103A2 (en) Sound enhancement apparatus and method
US11006216B2 (en) Nonlinear adaptive filterbanks for psychoacoustic frequency range extension
US11032644B2 (en) Subband spatial and crosstalk processing using spectrally orthogonal audio components
KR102698128B1 (ko) 심리음향 주파수 범위 확장을 위해 스케일 의존적 비선형성을 사용하는 적응형 필터뱅크
US12101613B2 (en) Bass enhancement for loudspeakers
CN117616780A (zh) 用于心理声学频率范围扩展的使用尺度依赖非线性的自适应滤波器组
CN111988726A (zh) 一种立体声合成单声道的方法和系统
RU2819779C1 (ru) Усиление низких частот для громкоговорителей
CN117678014A (zh) 使用全通滤波器网络的仰角感知线索的无色生成

Legal Events

Date Code Title Description
A107 Divisional application of patent