KR20150088253A - 압축된 오디오 신호의 보수를 위한 시스템, 컴퓨터-판독 가능한 저장 매체 및 방법 - Google Patents

압축된 오디오 신호의 보수를 위한 시스템, 컴퓨터-판독 가능한 저장 매체 및 방법 Download PDF

Info

Publication number
KR20150088253A
KR20150088253A KR1020157013233A KR20157013233A KR20150088253A KR 20150088253 A KR20150088253 A KR 20150088253A KR 1020157013233 A KR1020157013233 A KR 1020157013233A KR 20157013233 A KR20157013233 A KR 20157013233A KR 20150088253 A KR20150088253 A KR 20150088253A
Authority
KR
South Korea
Prior art keywords
signal
audio signal
component
processor
sample
Prior art date
Application number
KR1020157013233A
Other languages
English (en)
Other versions
KR101825507B1 (ko
Inventor
길버트 아써 조셉 소울로드리
Original Assignee
하만인터내셔날인더스트리스인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만인터내셔날인더스트리스인코포레이티드 filed Critical 하만인터내셔날인더스트리스인코포레이티드
Publication of KR20150088253A publication Critical patent/KR20150088253A/ko
Application granted granted Critical
Publication of KR101825507B1 publication Critical patent/KR101825507B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

압축된 오디오를 프로세싱하기 위한 시스템은 하나 이상의 신호 처리를 생성하도록 구성된 신호 인핸서 모듈을 포함한다. 하나 이상의 신호 처리는 유입 오디오 신호의 분석을 기초로 하여 신호 인핸서 모듈에 의해 생성될 수 있다. 대안적으로 또는 추가적으로, 유입 오디오 신호의 특성이 하나 이상의 신호 처리를 생성하는 데 사용되기 위해 신호 인핸서 모듈에 제공될 수 있다. 하나 이상의 신호 처리는 오디오 신호에 추가될 수 있다.

Description

압축된 오디오 신호의 보수를 위한 시스템, 컴퓨터-판독 가능한 저장 매체 및 방법{SYSTEM, COMPUTER-READABLE STORAGE MEDIUM AND METHOD FOR REPAIR OF COMPRESSED AUDIO SIGNALS}
관련 출원에 대한 상호-참조
본 발명은 2012년 11월 26일에 출원된 미국 가출원 번호 61/730,053의 이익을 주장하며 2013년 3월 15일에 출원된 미국 출원 번호 13/842,479을 기초로 우선권을 주장하고, 이의 내용은 그 전체가 본 명세서에 참조로서 포함된다.
기술분야
본 발명은 오디오 신호 프로세싱과 관련되고 더 구체적으로 오디오 신호 증강 및 복원과 관련된다.
압축된 오디오 신호는 지각 오디오 코덱(perceptual audio codec)에 의한 임의의 형태의 데이터 압축을 겪은 신호이다. 지각 오디오 코덱은 덜 가청적이거나 지각 시 덜 중요하다고 지각되는 오디오 신호 성분을 폐기함으로써 오디오 신호를 저장, 전달, 또는 전송하기 위해 사용되는 데이터의 양을 감소시킨다. 데이터 압축 프로세스는 종종 원본(압축되지 않은) 오디오 신호와 압축된 오디오 신호 간의 바람직하지 않은 가청 차이(audible difference)를 야기한다. 서로 다른 지각 오디오 코덱이 원본 오디오 신호의 일부분을 폐기하기 위한 서로 다른 전략을 이용할 수 있지만, 일반적으로 가청 차이의 지각되는 특성들이 유사하다.
압축된 오디오 신호의 지각되는 증강 및 복원을 위한 시스템은, 압축 프로세스에서 폐기됐거나 변경된 신호 성분 및 특성이 프로세싱된 출력 신호에서 증강되거나 복원되어 지각되도록 압축된 오디오 신호를 수정하는 신호 인핸서 시스템을 포함한다. 신호 인핸서의 일부 형태는 다음을 포함한다; 신호 인핸서는 압축된 오디오 신호의 대역폭을 연장할 수 있고, 소실 또는 손실 인밴드 신호 고조파를 복원할 수 있으며, 과도부분을 증강시킬 수 있으며, 드라이 신호 성분을 복원할 수 있고, 잔향 신호 성분을 복원할 수 있으며, 마스킹된 신호 성분을 복원할 수 있으며, 고조파 신호 성분을 위상-정렬할 수 있다. 덧붙여, 신호 인핸서는 스테레오 또는 멀티-채널 오디오 신호로부터 온 개별 공간 슬라이스를 조작할 수 있다. 상기 신호 인핸서는 스테레오 신호의 미드-사이드 성분도 조작할 수 있다.
또 다른 시스템, 방법, 특징 및 이점이 다음의 도면 및 상세한 설명의 검토 후 해당 분야의 통상의 기술자에게 자명해질 것이다. 이러한 모든 추가 시스템, 방법, 특징 및 이점이 본 명세서에 포함되고, 본 발명의 범위 내에 있으며, 이하의 특허청구범위에 의해 보호된다.
상기 시스템은 다음의 도면 및 기재를 참조하여 더 잘 이해될 수 있다. 도면의 구성요소들은 반드시 실제 비율로 그려진 것은 아니며, 대신, 본 발명의 원리를 설명할 때 강조가 이뤄졌다. 덧붙여, 도면에서, 유사한 도면 부호들은 서로 다른 도면에서 대응하는 부분을 지시한다.
도 1은 지각 오디오 인코더 및 디코더와 함께 사용된 예시적 신호 인핸서 시스템을 포함하는 블록도이다.
도 2는 신호 인핸서 시스템에 일체 구성되는 지각 오디오 디코더의 하나의 예시를 포함하는 블록도이다.
도 3은 신호 인핸서 시스템의 하나의 예시의 블록도이다.
도 4는 스테레오 신호의 미드-사이드 부분을 조작하는 신호 인핸서 시스템의 하나의 예시의 블록도이다.
도 5는 오디오 신호의 개별 공간 슬라이스를 조작하는 개별 신호 인핸서 모듈의 하나의 예시의 블록도이다.
도 6은 블록-기반 분해를 나타내는 예시적 임펄스 응답의 구성요소를 도시한다.
도 7은 도 3에 도시된 잔향 채움 모듈의 예시적 블록도이다.
도 8은 특정 주파수에서의 일련의 입력 잔향 샘플의 샘플 성분의 예시적 추정치이다.
도 9는 신호 품질 분석기, 처리 레벨 조절기, 및 디스플레이 모듈의 예시적 블록도이다.
도 10은 대역폭 증강 신호 처리에 의한 출력 신호의 예시적 디스플레이이다.
도 11a 및 11b는 신호 인핸서 시스템에 의한 압축을 도시하기 위해 예시적 스펙트럼 뷰(주파수-영역)을 도시한다.
도 12a 및 12b는 신호 인핸서 시스템에 의한 과도 증강을 도시하기 위해 예시적 스펙트럼 뷰를 도시한다.
도 13은 예시적 컴퓨팅 시스템이다.
압축된 오디오 신호는 일부 형태의 데이터 압축, 가령, 지각 오디오 코덱에 의한 데이터 압축을 겪은 오디오 콘텐츠를 포함하는 신호이다. 일반적인 유형의 지각 오디오 코덱은 MP3, AAC, Dolby Digital, 및 DTS를 포함한다. 이들 지각 오디오 코덱은 오디오 신호의 상당한 부분을 폐기함으로써 오디오 신호의 크기를 감소시킨다. 지각 오디오 코덱은 오디오 신호를 저장하는 데 요구되는 공간(메모리)의 크기를 감소시키거나, 오디오 신호를 전송하는 데 요구되는 대역폭의 크기를 감소시키도록 사용될 수 있다. 오디오 신호를 90% 이상 압축하는 것은 특별한 일이 아니다. 지각 오디오 코덱은 인간의 청각 체계가 음(sound)을 지각하는 방식에 대한 모델을 채용할 수 있다. 이러한 방식으로, 지각 오디오 코덱이 오디오 신호 중 들리지 않거나 청자에 의한 음의 지각과 최소한으로 관련된다고 인정되는 부분을 폐기할 수 있다. 따라서, 지각 오디오 코덱은 나머지 신호로 비교적 우수한 지각되는 오디오의 품질을 여전히 유지하면서 오디오 신호의 크기를 감소시킬 수 있다. 일반적으로 압축된 오디오 신호의 지각되는 품질은 압축된 신호의 비트율(bitrate)에 따라 달라질 수 있다. 낮은 비트율일수록 원본 오디오 신호의 더 큰 부분이 폐기되었음을 지시할 수 있으며 따라서 압축된 오디오 신호의 지각된 품질이 더 열악할 수 있다.
많은 유형의 지각 오디오 코덱이 존재하며 각각의 유형은 압축 프로세스에서 원본 오디오 신호의 어느 부분이 폐기될 것인지를 결정하는 데 서로 다른 기준 세트를 이용할 수 있다. 지각 오디오 코덱은 인코딩 및 디코딩 프로세스를 포함할 수 있다. 인코더는 원본 오디오 신호를 수신하고, 신호 중 어느 부분이 폐기될 것인지를 결정할 수 있다. 그 후 상기 인코더는 압축된 저장 및/또는 전송에 적합한 포맷으로 나머지 신호를 배치할 수 있다. 디코더는 압축된 오디오 신호를 수신할 수 있고, 이를 디코딩할 수 있으며, 그 후 디코딩된 오디오 신호를 오디오 재생에 적합한 포맷으로 변환할 수 있다. 대부분의 지각 오디오 코덱에서, 지각 모델(perceptual model)의 사용을 포함할 수 있는 인코딩 프로세스가 압축된 오디오 신호의 최종 품질을 결정할 수 있다. 이들 경우, 디코더는 신호를 압축된 형태(일반적으로 주파수-영역 표현의 일부 형태)에서 오디오 재생에 적합한 포맷으로 변환하는 포맷 변환기로서 기능할 수 있다.
신호 인핸서(Signal Enhancer) 시스템이 지각 오디오 코덱에 의해 압축 프로세스에서 폐기 또는 변경됐을 수 있는 신호 성분 및 특성이 프로세싱된 출력 신호에서 복원될 것으로 지각되도록 프로세싱된 압축된 오디오 신호를 변조할 수 있다. 본 명세서에서 사용될 때, 오디오 신호라는 용어는, 달리 기재되지 않는 한, 오디오 콘텐츠를 나타내는 전기 신호 또는 가청음(audible sound)을 지칭할 수 있다.
지각 오디오 코덱을 이용해 오디오 신호가 압축될 때, 폐기된 신호 성분을 불러오는 것이 불가능하다. 그러나 신호 인핸서 시스템은 압축된 오디오 신호에서 나머지 신호 성분을 분석할 수 있고, 폐기된 성분을 지각적으로(perceptually) 대체하도록 새 신호 성분을 생성할 수 있다.
도 1은 신호 인핸서 시스템(110)의 하나의 예시를 포함하는 블록도이다. 신호 인핸서 시스템(110)은 주파수-영역 또는 시간-영역에서 동작할 수 있다. 상기 신호 인핸서 시스템(110)은 샘플러 모듈(Sampler Module)(112)을 포함할 수 있다. 상기 샘플러 모듈(112)은 입력 신호(X)를 실시간으로 수신하고, 상기 입력 신호(X)를 샘플들로 분할한다. 주파수 영역에서의 동작 동안, 샘플러 모듈(112)은 순차적 시간 영역 샘플을 수집할 수 있고, 적절한 윈도잉 함수(가령, 루트-핸 윈도(root-Hann window))가 적용되며, 윈도 적용된 샘플들이, 가령, FFT(Fast Fourier Transform)를 이용해, 주파수 영역의 순차적인 빈(bin)들로 변환된다. 마찬가지로, 신호 인핸서 시스템(110)에서의 최종 단계로서, 증강된 주파수-영역 빈이 샘플러 모듈(112)에 의해 역-FFT(inverse Fast Fourier Transform)를 이용해 시간 영역으로 변환될 수 있고, 적절한 상호보완 윈도(가령, 루트-핸 윈도)가 적용되어, 증강된 시간-영역 샘플들의 블록을 생성할 수 있다. 시간-영역 샘플들을 주파수 영역으로 변환하기 전에, 지정 크기, 가령, 적어도 50%의 오버랩(overlap)이 시간-영역 샘플들을 추가하고 윈도 적용하도록 사용될 수 있다. 신호 인핸서 시스템(110)의 출력 라인(105) 상의 출력에서, 주파수-영역에서 시간-영역으로의 변환 후 증강된 시간-영역 샘플들을 구성할 때 유사한 지정 오버랩, 가령, 적어도 50%의 오버랩이 사용될 수 있다. 대안적으로, 신호 인핸서 시스템(110)은 시간 영역 샘플의 순차적 블록들을 이용하여 시간 영역에서 동작할 수 있고, 샘플러 모듈(112)에서 변환기가 제거될 수 있다. 설명 및 도면을 단순화하기 위해, 샘플러 모듈(112)에 대한 추가 설명 및 도시뿐 아니라 시간-주파수 및 주파수-시간 변환도 생략된다. 따라서 본 명세서에서 기재될 때, 순차적 샘플들 또는 샘플들의 시퀀스는 상호 교환 가능하게, 샘플러 모듈(112)에 의해 샘플링된 입력 신호(X)의 시계열적 수신에 대응하는 시간 영역 샘플들의 시계열적 시퀀스 또는 주파수 영역 빈들의 시계열적 시퀀스를 지칭할 수 있다.
도 1에서, 신호 인핸서(110)는 지각 오디오 인코더(perceptual audio encoder)(101) 및 지각 오디오 디코더(perceptual audio decoder)(103)와 함께 사용되는 것으로 도시된다. 원본 오디오 신호(Z)가 오디오 신호 입력 라인(100) 상에서 지각 오디오 인코더(101)에 제공될 수 있다. 상기 지각 오디오 인코더(101)는 오디오 신호 성분을 폐기하여, 압축된 비트스트림 라인(102) 상에서 압축된 오디오 비트스트림(Q)을 생성할 수 있다. 상기 지각 오디오 디코더(103)는 압축된 오디오 비트스트림(Q)을 디코딩하여 입력 신호 라인(104) 상에 입력 신호(X)를 생성할 수 있다. 입력 신호(X)는 오디오 재생에 적합한 포맷으로 된 오디오 신호일 수 있다. 상기 신호 인핸서 시스템(110)은 입력 신호(X)를 증강하여 출력 신호 라인(105) 상의 출력 신호(Y)를 생성하기 위해 입력 신호(X)를 샘플들의 시퀀스로 분할하도록 동작할 수 있다. 사이드-체인 데이터(side-chain data)가 입력 신호(X)의 프로세싱과 관련된 정보, 가령, 사용되는 오디오 코덱의 유형, 코덱 제조사, 비트율, 스테레오 대 조인트-스테레오 인코딩, 샘플링율, 고유 입력 채널의 수, 코딩 블록 크기, 및 노래/트랙 식별자의 지시자를 포함할 수 있다. 또 다른 예시에서, 오디오 신호(X)와 관련된 그 밖의 다른 임의의 정보 또는 인코딩/디코딩 프로세스가 사이드 체인 데이터의 일부로서 포함될 수 있다. 상기 사이드 체인 데이터는 사이드 체인 데이터 라인(106) 상에서 지각 오디오 디코더(103)로부터 신호 인핸서 시스템(110)에 제공될 수 있다. 대안적으로, 또는 덧붙여, 사이드 체인 데이터가 입력 신호(X)의 일부분으로서 포함될 수 있다.
도 2는 지각 오디오 인코더 및 디코더와 함께 사용되는 신호 인핸서 시스템(110)의 하나의 예시의 블록도이다. 이 경우, 지각 오디오 디코더(103)는 신호 인핸서 시스템(110)의 일부로서 포함될 수 있다. 따라서, 신호 인핸서 시스템(110)은 압축된 비트스트림 라인(102) 상에서 수신된 압축된 오디오 비트스트림(Q)을 직접 조작할 수 있다. 대안적으로, 또 다른 예시에서, 신호 인핸서 시스템(110)은 지각 오디오 디코더(103)에 포함될 수 있다. 이 구성에서, 신호 인핸서 시스템(110)은 압축된 오디오 비트스트림(Q)(102)의 세부사항을 액세스할 수 있다.
도 3은 신호 인핸서 시스템(110)의 하나의 예시의 블록도이다. 도 3에서, 신호 인핸서 시스템(110)은 입력 신호 라인(104) 상에서 입력 신호(X)를 수신할 수 있는 신호 처리 모듈(Signal Treatment Module)(300)을 포함한다. 상기 신호 처리 모듈(300)은 대응하는 신호 처리 라인(310) 상에서 복수의 개별적이고 고유한 신호 처리(ST1, ST2, ST3, ST4, ST5, ST6, 및 ST7)를 생성할 수 있다. 7개의 신호 처리가 도시되어 있지만, 또 다른 예시에서 더 적거나 더 많은 수(n)의 신호 처리가 가능하다. 신호 처리(STn) 각각의 상대적 에너지 레벨이, 제 1 합산 블록(321)에서 다 함께 더해져서 총 신호 처리(STT)(323)를 생성하기 전에, 처리 이득(g1, g2, g3, g4, g5, g6, 및 g7)(315)에 의해 개별적으로 조절될 수 있다. 총 신호 처리(STT)(323)의 레벨이, 제 2 합산 블록(322)에서 입력 신호(X)(104)로 더해지기 전에 총 처리 이득(gT)(320)에 의해 조절될 수 있다.
신호 처리 모듈(300)은, 입력 신호(X)의 순차적 샘플들의 개별 샘플 성분을 조작하여 각각의 성분에 대해 샘플 단위로 순차적으로 신호 처리(310)를 생성하는 하나 이상의 처리 모듈(301, 302, 303, 304, 305, 306, 및 307)을 포함할 수 있다. 순차적 샘플들의 개별 샘플 성분은 오디오 신호의 서로 다른 특성과 관련될 수 있다. 대안적으로, 또는 추가로, 신호 처리 모듈(300)은 추가적인 또는 더 적은 처리 모듈(300)을 포함할 수 있다. 도시된 모듈은 독립적이거나, 모듈을 생성하기 위한 다양한 조합들 중 임의의 조합으로 형성된 서브모듈일 수 있다.
도 4는 입력 신호(X)의 미드-사이드 성분(Mid-Side component), 가령, 미드-사이드 성분 모듈(400)에 의해 추출된 것을 조작하는 신호 인핸서 시스템(110)의 하나의 예시이다. "미드-사이드"라는 용어는 스테레오 오디오 신호에서의 오디오 정보를 지칭하는데, 여기서 좌 스테레오 채널과 우 스테레오 채널 모두에게 공통적인 오디오 정보가 오디오 정보의 "미드" 신호 성분으로 간주되며 오디오 정보의 "사이드" 신호 성분은 좌 스테레오 채널과 우 스테레오 채널 간에 상이한 오디오 정보이다. 지각 오디오 코덱은 오디오 신호의 미드-사이드 성분을 조작하여 지각 오디오 코덱의 성능을 개선할 수 있다. 이 상황에서, 인코더는 미드 신호 성분을 더 유지하면서 사이드 신호 성분을 더 폐기할 수 있다. 따라서 이 상황에서, 신호 인핸서 시스템(110)은 스테레오 신호의 좌 채널과 우 채널을 직접 조작하기보다는 스테레오 입력 신호(X)의 미드-사이드 신호 성분을 조작한다면, 신호 인핸서 시스템(110)의 동작의 최적화가 개선될 수 있다.
도 4에서, 스테레오 대 미드-사이드 모듈(400)이 스테레오 입력 신호 X를 미드-사이드 신호 구성 Xms로 변환시킬 수 있으며, 그 후 미드-사이드 신호 라인(401) 상에서의 프로세싱을 위해 미드-사이드 신호 구성이 신호 인핸서 시스템(110)로 제공될 수 있다. 신호 인핸서 시스템(110)은 미드-사이드 신호 Xms를 조작하여 증강된 미드-사이드 신호(Yms)를 생성할 수 있다. 증강된 미드-사이드 신호(Yms)가 증강된 미드-사이드 신호 라인(402) 상에서 미드-사이드 대 스테레오 모듈(403)로 공급될 수 있다. 상기 미드-사이드 대 스테레오 모듈(403)은 증강된 미드-사이드 신호(Yms)를 출력 라인(105) 상에서 공급되는 스테레오(좌 채널 및 우 채널) 출력 신호(Y)로 변환할 수 있다.
도 5는 공간 슬라이스 스트림 라인(501) 상에서 공간 슬라이스 분해 모듈(Spatial Slice Decomposition module)(500)로부터 얻어질 수 있는 "n"개의 공간 슬라이스 스트림(XSS1, XSS2, XSS3,…,XSSn)의 세트를 조작하는 "n"개의 신호 인핸서 시스템(110)의 세트의 하나의 예시이다. 상기 공간 슬라이스 분해 모듈(500)은 입력 신호 라인(104) 상에서 스테레오 또는 멀티-채널 오디오 입력 신호(X)를 수신하여 공간 슬라이스 스트림의 세트를 생성할 수 있다. 공간 슬라이스 스트림은 지각된 스테레오 또는 멀티-채널 사운드스테이지 내 오디오 신호 근원의 공간 위치를 기초로 하여 입력 신호를 분해하는 공간 필터뱅크(filterbank)의 출력을 포함할 수 있다. 공간 슬라이스 스트림(501)을 생성하기 위해 입력 신호를 공간 슬라이스로 분해하기 위한 하나의 가능한 방법이, 본 명세서에 참조로 포함되는 미국 특허 출원 12/897,709호, 발명의 명칭 "SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS"에 기재되어 있다.
도 5에서, "n" 개의 신호 인핸서(110) 각각은 증강된 출력 스트림 라인(502) 상에서 증강된 출력 스트림(YSS1, YSS2, YSS3,…,YSSn)을 생성한다. "n"개의 출력 스트림이 합산 모듈(503)에서 조합되어 출력 라인(105) 상에서 출력 신호(Y)를 생성할 수 있다. 각각의 신호 인핸서 시스템(110)이 오디오 입력 신호(104)의 더 고립된 샘플 성분을 조작할 수 있기 때문에 개별 공간 슬라이스 스트림에 대해 개별 신호 인핸서 시스템(110)을 동작시킬 때 시스템의 개선된 성능이 획득될 수 있으며, 따라서 각각의 공간 슬라이스 스트림(XSSn)에 대해 적절한 신호 처리(ST1, ST2, ST3, ST4, ST5, ST6, 및 ST7)를 더 잘 얻을 수 있다. 임의의 개수의 서로 다른 신호 처리(ST1, ST2, ST3, ST4, ST5, ST6, 및 ST7)가 각자의 공간 슬라이스 스트림(XSSn) 각각의 샘플에 포함된 서로 다른 샘플 성분에 대해 독립적으로 얻어질 수 있다.
도 3에서, 신호 처리 모듈(300)은 오디오 신호, 또는 오디오 신호로부터 생성된 공간 슬라이스 스트림의 각자의 순차적인 샘플들의 개별 샘플 성분에 대한 신호 처리(ST1, ST2, ST3, ST4, ST5, ST6, 및 ST7)를 얻기 위해 하나 이상의 처리 모듈(301, 302, 303, 304, 305, 306, 및 307)을 포함할 수 있다. 처리 모듈(301, 302, 303, 304, 305, 306, 및 307) 각각은 오디오 신호 또는 공간 스트림과 관련된 서로 다른 특성에 대한 신호 처리(ST1, ST2, ST3, ST4, ST5, ST6, 및 ST7)를 얻을 수 있다. 예시적 오디오 신호 특성은 대역폭, 고조파, 과도부분, 확장, 잔향(reverberation), 마스킹 및 고조파 위상 정렬을 포함한다. 또 다른 예를 들면, 신호 처리가 오디오 신호와 관련된 추가적인 또는 더 적은 특성에 대해 얻어질 수 있다. 신호 처리는 각자의 처리 모듈의 특성에 대응하는 오디오 신호의 소실 부분에 대해 얻어질 수 있다. 따라서, 신호 처리는 일련의 샘플 중 개별적인 샘플 성분에서 소실된 것으로 식별되는 오디오 신호의 다양한 서로 다른 특성의 대체 부분을 효과적으로 공급할 수 있다. 따라서 각자의 특성 중 손실 부분이 식별되는 일련의 샘플 성분 내 샘플 성분의 일부에 신호 처리가 적용되게 할 수 있으며, 반면에 시퀀스 중 각자의 특성의 어떠한 소실 부분도 식별되지 않은 그 밖의 다른 샘플 성분에는 어떠한 신호 처리도 적용되지 않게 할 수 있다.
대역폭의 특성이 오디오 신호의 소실 부분인 것과 관련하여, 일부 지각 오디오 코덱, 가령, 비교적 낮은 비트율에서 동작하는 지각 오디오 코덱은 일부 지정된 임계치보다 큰 신호 성분을 폐기함으로써 압축된 신호의 대역폭을 제한할 수 있다. 예를 들어, 지각 오디오 코덱은 지정 주파수, 가령, 12㎑보다 큰 모든 주파수 성분을 지각적으로 덜 중요하다고 간주하고 따라서 이들을 폐기할 수 있다. 대역폭 연장 모듈(Bandwidth Extension module)(301)은 입력 신호(X)를 조작하여 이러한 지정 차단 주파수(Fx)보다 큰 신호 성분, 또는 신호 처리(ST1)를 생성할 수 있다. 대역폭 연장 모듈(301)은 입력 신호(X)를 분석하여, 존재한다면 입력 신호의 차단 주파수(Fx)를 결정할 수 있다. 오디오 신호의 대응하는 샘플 성분 내 이러한 특성의 부재를 보상하기 위해 지정된 차단 주파수(Fx)보다 큰 새로운 신호 성분을 갖는 신호 처리 스트림(ST1)의 생성을 안내하기 위해 차단 주파수(Fx)에 대한 지식이 사용될 수 있다.
대안적으로 또는 추가로, 도 1에 도시된 바와 같이, 사이드-체인 정보(106)가 지각 오디오 디코더(103)로부터 이용 가능한 경우, 차단 주파수(Fx)가 대역폭 연장 모듈(301)로 제공될 수 있다. 또 다른 경우에서, 도 2의 예시에서처럼, 지각 오디오 디코더(103) 및 신호 인핸서 시스템(110)이 일체 구성되는 경우, 차단 주파수(Fx)는 지각 오디오 디코더(103)에 의해 대역폭 연장 모듈(301)에 직접 제공될 수 있다.
고조파의 특성이 오디오 신호의 소실 또는 손실 부분인 것과 관련하여, 일부 지각 오디오 코덱, 가령, 비교적 낮은 비트율에서 동작하는 지각 오디오 코덱이 신호 내 지정 시점에서 압축된 신호 내에서 특정 "중간 고조파"를 폐기할 수 있다. 예를 들어, 일부 시점에서, 지각 오디오 코덱이 몇 개의 저차 고조파와 함께 특정 음원의 기본 주파수 성분을 유지할 수 있다. 상기 지각 오디오 코덱은 신호의 최고차 고조파 중 일부 또는 모두도 보존하지만, 음원의 중간 고조파들 중 하나 이상을 폐기할 수 있다. 지각 오디오 코덱이 오디오 신호의 하나 이상의 중간 고조파 특성을 폐기했다는 이벤트를 검색하기 위해, 인밴드 고조파 채움 모듈(Inband Harmonic Fill module)(302)이 입력 신호(X)(104)를 분석할 수 있다. 인밴드 고조파 채움 모듈(302)은 오디오 신호의 샘플 성분에서의 이러한 특성의 소실에 응답하여 오디오 신호에 적용될 새로운 중간 고조파를 갖는 신호 처리 스트림(ST2)을 생성하도록 동작할 수 있다.
과도부분의 특성이 오디오 신호의 소실 부분인 것과 관련하여, 일부 지각 오디오 코덱, 가령, 비교적 낮은 비트율에서 동작하는 지각 오디오 코덱은 과도 신호의 "번짐현상(smearing)"을 야기할 수 있다. 이러한 유형의 코딩 아티팩트가 "프리-에코(pre-echo)"로 기재될 수 있고, 과도 신호가 급격한 충격(sharp attack)을 갖고 과도 이벤트 시간에서 다른 신호 성분과 관련하여 비교적 클 때 가장 쉽게 들릴 수 있다. 프리-에코는 과도 신호 성분의 지각되는 둔탁함(perceived dulling)을 야기하는 경향이 있다. 과도부분 증강 모듈(Transient Enhancement module)(303)은 이 특성을 오디오 신호의 성분 샘플에서 소실된 것으로 식별하고, 신호 처리를 얻어 과도 신호 성분의 지각되는 급격한 충격을 복원하려 시도할 수 있다. 과도부분 증강 모듈(303)은 입력 신호(X)를 분석할 수 있고 과도 이벤트 및 과도 신호 성분을 식별하여, 소실된 특성을 식별할 수 있다. 과도부분 증강 모듈(303)은 기존 과도 신호 성분의 시작의 지각을 증강하기 위해 오디오 신호에 적용될 새로운 과도 신호 성분을 포함하는 신호 처리 스트림(ST3)을 생성하도록 동작할 수 있다.
오디오 신호에서 과도부분을 검출하기 위한 예시적 방법은 다음의 활동을 포함할 수 있다. 시간-영역 입력 신호 샘플의 현재 블록에 대한 FFT 빈의 크기(magnitude)가 계산되고 히스토리 버퍼에 저장된다. FFT 빈의 현재 세트의 크기가 계산되어 빈 단위로 FFT 빈의 과거 세트의 크기에 비교되며, 여기서 현재 세트와 과거 세트가 일련의 샘플 각각의 일련의 샘플 성분을 나타낸다. FFT 빈의 과거 세트의 크기가 히스토리 버퍼에 이전에 저장되고 이 비교를 위해 불러와 진다. 지정 임계치에 의해, 가령, 크기 임계치(Magnitude Threshold)에 의해, 현재 FFT 빈의 크기가 과거 FFT 빈의 크기를 초과한 빈의 수가 카운트된다. 카운트가 지정 카운트 임계치(Count Threshold)를 초과하면, 시간-영역 샘플의 현재 블록이 과도 이벤트를 포함한다고 결정된다. 지정 값, 가령, 20dB이 과도부분을 검출하기 위한 크기 임계치에 적합할 수 있다. 과거 FFT 빈이 현재 샘플 블록 뒤 하나 또는 두 개의 블록으로부터 취해질 수 있다. 즉, 히스토리 버퍼는 하나의 샘플의 샘플 성분들의 순차적 프로세싱에서 하나 또는 두 개의 프로세싱 블록의 딜레이를 나타낼 수 있다.
확장의 특성이 오디오 신호의 소실 또는 손실 부분인 것과 관련하여, 일부 지각 오디오 코덱, 가령, 비교적 낮은 비트율에서 동작하는 지각 오디오 코덱이 오디오 신호가 가청음으로서 생성될 때 청자에 의해 지각되는 스테레오 사운드스테이지의 지각된 협소화를 야기할 수 있다. 즉, 압축되지 않은 원본 오디오 신호에서 좌측 끝 또는 우측 끝에 위치하는 것으로 지각되는 음이 압축 프로세스 동안 다른 음에 비해 감쇠될 수 있다는 것이다. 따라서, 최종 오디오 신호가 더 "모노포닉(monophonic)"이며 덜 "스테레오포닉(stereophonic)"인 것으로 지각될 수 있다. 사운드스테이지 증강 모듈(Soundstage Enhancement module)(304)이 일련의 샘플 성분에서 이 특성과 관련된 오디오 신호의 소실 또는 손실 부분을 식별하고, 생성된 신호 처리로서 입력 신호(X) 내에서 좌측 끝 또는 우측 끝에 위치하는 것으로 지각되는 신호 성분을 증폭할 수 있다. 예를 들어, 사운드스테이지 증강 모듈(304)은 좌측 끝 또는 우측 끝 신호 성분을 추출하고 이들 신호 성분의 증폭된 버전을 포함하는 신호 처리 스트림(ST4)을 생성하도록 동작할 수 있다. 좌측 끝 또는 우측 끝 신호 성분을 추출하기 위한 한 가지 가능한 방법이, 그 전체가 본 명세서에 참조로서 포함되는 미국 특허 출원 번호 12/897,709, 발명의 명칭 "SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS"에 기재되어 있다.
잔향의 특성이 오디오 신호의 소실 또는 손실 부분인 것과 관련하여, 일부 지각 오디오 코덱, 가령, 비교적 낮은 비트율에서 동작하는 지각 오디오 코덱이 오디오 신호에서 "현장음(ambience)" 또는 "잔향" 특성의 지각되는 감소를 야기할 수 있다. 잔향 특성의 이러한 감소는 오디오 신호의 손실된 부분으로 인해 전체 음의 지각되는 "둔탁함"뿐 아니라 음의 디테일의 지각되는 손실까지 야기할 수 있다. 또한 잔향의 감소가 전체 음장의 지각되는 크기 및 폭을 감소시킬 수 있다. 잔향 채움 모듈(Reverb Fill module)(305)이 입력 신호(X)를 드라이 및 잔향 신호 성분으로 분해하도록 동작할 수 있다. 그 후 잔향 채움 모듈(305)은 대응하는 샘플 성분에서 오디오 신호의 소실 부분을 식별하고, 상기 샘플 성분에서 잔향의 지각되는 레벨을 증가시키며, 새 잔향 신호 성분을 포함할 수 있으며, 오디오 신호의 일부분이 소실된 것으로 결정된 샘플의 시퀀스의 샘플 성분에만 적용되도록 증폭된 잔향 신호 성분을 포함할 수 있는 신호 처리 스트림(ST5)을 생성하도록 동작할 수 있다.
입력 신호(X)를 드라이 및 잔향 신호 성분을 분해하기 위한 가능한 방법이 미국 특허 번호 8,180,067, 발명의 명칭 "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL" 및 미국 특허 번호 8,036,767, 발명의 명칭 "SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL"에 기재되어 있으며, 이들 모두 그 전체가 본 명세서에 참조로서 포함된다.
마스크 신호(mask signal)의 특성이 오디오 신호의 소실 또는 손실 부분인 것과 관련하여, 일부 지각 오디오 코덱, 가령, 비교적 낮은 비트율에서 동작하는 지각 오디오 코덱이 신호에서 선명함의 지각되는 감소 및 저-레벨 디테일을 야기할 수 있다. 이는 지각 오디오 코덱이, 예를 들어, 지각 모델(perceptual model)에 따라 대부분의 청자에게 비가청적(inaudible)이라고 여겨지는 신호 성분을 폐기함으로써 야기될 수 있다. 일반적으로 지각 모델은, 제 1 신호 성분을 마스킹할 수 있는 다른 우세 신호 성분이 존재하는 경우 상기 특정 제 1 신호 성분을 비가청적이라고 식별할 것이다. 즉, 인간 청각계의 마스킹 속성 때문에, 우세 신호 성분이 제 1 신호 성분을 비가청적이라고 (마스킹) 렌더링할 수 있다는 것이다. 그러나 각각의 청자의 마스킹 속성이 다소 상이하며, 지각 오디오 코덱의 지각 모델은 한 명의 청자의 마스킹 속성을 근사할 수 있을 뿐이다. 따라서, 지각 오디오 코덱이 일부 청자에게 가청적인 특정 신호 성분을 폐기할 수 있다.
마스킹된 신호 채움 모듈(Masked Signal Fill module)(306)은 오디오 신호의 대응하는 샘플 성분의 소실 부분을 식별하고, 낮은 레벨 신호 성분을 마스킹되는 임계치가 되도록 증폭하도록 동작할 수 있다. 마스킹된 신호 채움 모듈(306)은 입력 신호(X)를 수신하고 지각 모델을 적용시켜 각각의 주파수에 대해 "동시 마스킹 임계치"를 결정할 수 있다. 동시 마스킹 임계치는 지각 모델이 특정 주파수에서의 신호 성분이 그 밖의 다른 주파수에서의 신호 성분에 의해 마스킹된다고 결정하는 레벨을 지시한다. 예를 들어, 1000㎐에서 충분히 큰 신호가 존재하는 경우 1100㎐에서의 신호 성분이 비가청적일 수 있다. 이 예시에서, 동시 마스킹 임계치는 1000㎐에서의 신호 성분에 의해 다른 주파수(가령, 1100㎐)에서의 신호 성분이 마스킹될 것임을 지시한다. 따라서 1100㎐에서의 신호 성분의 레벨이 동시 마스킹 임계치 미만에 해당하는 경우, 지각 모델은 이 신호 성분이 마스킹될 것(비가청적)임을 결정한다.
계속하여 이 예시에서, 마스킹된 신호 채움 모듈(306)이 1100㎐에서의 신호 성분이 동시 마스킹 임계치 미만에 해당함을 결정하고 따라서 오디오 신호의 대응하는 샘플 성분의 손실된 부분을 식별하는 경우, 상기 마스킹된 신호 채움 모듈(306)은 1100㎐에서의 신호 성분이 동시 마스킹 임계치에 도달하도록 1100㎐에서의 신호 성분의 증폭된 버전을 포함할 수 있는 신호 처리 스트림(ST6)을 생성할 수 있다. 마찬가지로, 마스킹된 신호 채움 모듈(306)은 모든 주파수에서의 신호 성분에 대해 이 동작을 수행하여, 대응하는 샘플 성분의 소실 부분을 식별하여, 다양한 주파수에서의 증폭된 신호 성분을 포함하는 신호 처리 스트림(ST6)을 생성하여 모든 주파수에서의 신호 성분이 동시 마스킹 임계치에 도달하도록 할 수 있다.
동시 마스킹 임계치를 결정하기 위한 지각 모델의 예시가 미국 특허 번호 8,180,067, 발명의 명칭 "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL" 및 미국 특허 번호 8,036,767, 발명의 명칭 "SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL"에 기재되며, 이들 모두 그 전체가 본 명세서에 참조로서 포함된다. 일반적으로, 지각 모델은 시간에 따른 성분 샘플의 생성 동안(가령, 일련의 샘플 동안 성분 샘플의 복수의 스냅숏(snapshot) 동안) 시간-기반 청각 마스킹 추정치, 및 주파수-기반 청각 마스킹 추정치 중 적어도 하나를 기초로 하는 평활화(smoothing)를 수행할 수 있다.
고조파가 풍부한 신호(harmonically rich signal)의 기본 성분 및 고조파 성분의 위상이 시간의 흐름에 따라 서로 추적(track)하는 경향을 가질 수 있다. 즉, 고조파가 풍부한 신호의 기본 성분 및 고조파 성분이 어떠한 방식으로 정렬되는 경향을 가질 수 있다는 것이다. 고조파 신호 정렬의 특성이 오디오 신호의 소실 또는 손실 부분인 것과 관련하여, 일부 지각 오디오 코덱, 가령, 비교적 낮은 비트율에서 동작하는 지각 오디오 코덱에 의해, 특정 음원의 고조파의 위상이 위상과 관련하여 정렬 상태에서 벗어날 수 있다. 샘플 성분의 소실 부분으로서 위상 정렬상태에서의 이러한 벗어남이 신호의 적어도 고차 고조파에서만 발생할 수 있다. 이러한 위상 정렬 상태에서의 벗어남은 여러 다른 방식으로 청자에 의해 지각될 수 있다. 위상 정렬 상태에서의 벗어남의 한 가지 일반적인 결과가 더 높은 주파수에서 가청적인 것이 일반적인 "휙(swooshing)" 음이다. 고조파 위상 정렬 모듈(Harmonic Phase Alignment module)(307)이 고조파 관계인 신호 성분들이 시간에 따라 위상-정렬되게 하도록 동작할 수 있다. 고조파 위상 정렬 모듈(307)은 입력 신호(X)를 분석하고 (과도 또는 잡음형 신호 성분과 다른) 음조 신호 성분(tonal signal component)을 찾고 상기 음조 성분이 고조파 관계인지 여부를 결정할 수 있다. 덧붙여, 고조파 위상 정렬 모듈(307)은 임의의 고조파 관계인 음조 성분들의 위상이 시간에 따라 정렬되는지 여부를 결정할 수 있다. 대응하는 샘플 성분의 특성이 오디오 신호의 소실 부분, 즉, 고조파 관계인 음조 성분들의 위상 정렬로 식별된 경우, 정렬되지 않은 임의의 고조파의 위상이 조절될 수 있다. 상기 고조파 위상 정렬 모듈(307)은 이들 정렬되지 않은 음조 성분의 위상-정렬된 버전을 포함할 수 있는 신호 처리 스트림(ST7)을 생성할 수 있다. 대안적으로 또는 추가적으로, 고조파 위상 정렬 모듈(307)은 음조 성분의 정렬의 또 다른 형태를 제공할 수 있다.
입력 신호(X)(104)가 스테레오 또는 멀티채널인 경우, 도 5를 참조하여 기재된 바와 같이 신호 인핸서(110)에 의해 프로세싱되기 전에 공간 슬라이스(spatial slice)(501)로 분해될 수 있다. 신호를 공간 슬라이스로 분해하기 위한 시스템 및 방법이 미국 특허 출원 번호 12/897,709, 발명의 명칭 "SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS"에 기재되며, 이는 그 전체가 본 명세서에 참조로서 포함된다. 입력 신호를 공간 슬라이스로 분해함으로써, 공간 슬라이스(XSS1, XSS2, XSS3,…, XSSn)(501) 각각에 포함된 신호 성분으로의 다양한 처리(301, 302, 303, 304, 304, 305, 306, 및 307)의 정교한 적용이 가능해질 수 있다. 예를 들어, 과도 신호가 특정 공간 슬라이스 내에 위치하는 경우, 과도부분 증강 처리(303)는, 다른 공간 슬라이스의 비-과도 신호 성분에는 영향을 미치지 않으면서, 상기 특정 공간 슬라이스에만 적용될 수 있다.
적절한 처리가 공간 슬라이스 각각에 적용되면, 공간 슬라이스 각각으로부터의 증강된 출력 스트림(YSS1, YSS2, YSS3,…,YSSn)(502)이 합산 모듈(summing module)(503)에서 조합되어, 출력 라인(105) 상의 복합 출력 신호(composite output signal)(Y)를 생성할 수 있다.
특정 공간 슬라이스 내 신호 성분에 적용된 다양한 처리가 입력 신호(X)의 콘텐츠가 변경되는 시간에 따라 달라질 수 있다. 상기 예시를 이용해, 과도부분 증강 처리(303)가 과도 신호 성분이 특정 공간 슬라이스에서 발견됐을 시간 동안 상기 특정 공간 슬라이스 내 샘플 성분들 중 일부에만 적용될 수 있다.
오디오 신호, 가령, 음악 또는 음성이 일부 크기의 잔향을 포함하는 것이 일반적이다. 이 잔향은 오디오 신호가 기록됐던 공간(가령, 콘서트 홀) 때문이거나 전자적으로 추가된 것일 수 있다. 잔향의 근원이 잔향 시스템(reverberant system)이라고 지칭된다. 잔향 시스템의 임펄스 응답에 의해 잔향의 특성이 결정된다. 잔향 시스템의 임펄스 응답이 블록들의 세트로 분할될 수 있다. 임펄스 응답 추정기(Impulse Response Estimator)(910)가 입력 신호를 조작하여 임펄스 응답의 주파수 영역 표현의 지각적으로 관련된 추정치를 생성할 수 있다. 일반적으로, 임펄스 응답 추정기가 입력 신호를 조작하여 임펄스 응답의 블록-기반 추정치를 생성할 수 있다. 임펄스 응답의 블록-기반의 추정치는 임펄스 응답의 주파수 영역 추정치에 대응하는 복수의 블록 추정치로 구성된다.
도 6은 임펄스 응답의 하나의 예시이다. 첫 번째 수직선이 직접음 성분(602)을 나타내며, 나머지 선들은 반사음(reflection)을 나타낸다. 각각의 선의 높이가 이의 진폭을 지시하며 시간축(t) 상의 이의 위치가 음 측정 장치, 가령, 마이크로폰에의 도착 시각을 지시한다. 시간이 흐름에 따라, 반사음의 개수가 개별 반사음을 식별하는 것이 더 이상 가능하지 않은 지점까지 증가한다. 결국 반사음은 확산 지수 감쇠하는 시스템으로 진화한다. 이는 일반적으로 임펄스 응답의 잔향 꼬리(reverberant tail)(604)라고 지칭된다.
이른바 초기 반사음(early reflection)(606)이 직접음 성분(602) 뒤에 바로 도달하고 잔향 꼬리와 상이한 지각 효과를 가진다. 이들 초기 반사음은 음향 공간의 크기 및 오디오 신호의 근원과 마이크로폰 간의 거리와 관련된 지각 큐(perceptual cue)를 제공한다. 또한 상기 초기 반사음(606)은 개선된 명확도 및 양해도(intelligibility)를 음에 제공할 수 있다는 점에 중요하다. 또한 상기 잔향 꼬리는 음향 공간과 관련된 지각 큐(perceptual cue)를 제공한다.
또한 임펄스 응답의 푸리에 변환(또는 그 밖의 다른 임의의 변환)을 계산함으로써, 임펄스 응답이 주파수 영역에서 관찰될 수 있고, 따라서 잔향 시스템은 이의 주파수 영역 표현으로 완벽하게 기술될 수 있다. 변수는 주파수를 지시한다. 임펄스 응답의 푸리에 표현이 크기 응답(magnitude response)과 위상 응답 모두를 제공한다. 일반적으로 말하면, 크기 응답은 임펄스 응답 내 서로 다른 주파수 성분의 상대적 레벨과 관련된 정보를 제공하며, 위상 응답은 주파수 성분의 시간 양태와 관련된 정보를 제공한다.
잔향 채움 모듈(305)은 입력 신호에서의 잔향 에너지의 크기의 추정치의 주파수 영역 추정치를 생성할 수 있다. 잔향 에너지의 크기의 이 추정치가 입력 신호에서 빼짐으로써, 입력 신호의 드라이 오디오 신호 성분의 크기의 추정치를 제공한다. 잔향 입력 신호의 위상이 원본 드라이 신호의 위상에 근사하도록 사용된다. 본 명세서에서 사용될 때, "드라이 신호(dry signal)", "드라이 신호 성분", "드라이 오디오 신호 성분", 또는 "직접 신호 성분"이라는 용어는 오디오 신호에 잔향 에너지가 거의 존재하지 않는 오디오 신호 또는 오디오 신호의 일부분을 지칭한다. 따라서 원본 드라이 신호는 거의 전체적으로 직접음 임펄스(602)로 구성되어 있기 때문에 잔향 에너지를 거의 갖지 않을 수 있다. 본 명세서에서 사용될 때, "잔향 에너지", "잔향 입력 신호", "잔향 성분", "잔향 신호 성분", "잔향 성분", 또는 "잔향 신호 성분이라는 용어는 오디오 신호의 초기 반사음, 및 잔향 꼬리를 지칭한다. 덧붙여, 오디오 신호와 관련하여, 본 명세서에서 사용될 때, "성분" 또는 "성분들"이라는 용어는 하나 이상의 성분을 지칭한다.
잔향 입력 신호의 위상은 전체 임펄스 응답을 통 채로 이용하여 원본 드라이 신호의 위상을 근사하도록 사용되는 경우, 심한 시간-영역 아티팩트가 프로세싱된 신호에서 가청적일 가능성이 높다. 따라서 잔향 채움 모듈(305)은 전체 임펄스 응답의 추정치를 블록(608)들로 분할할 수 있고, 프로세싱이 블록-기반 방식으로 수행될 수 있다. 블록(608)의 지정 길이는 인간의 귀가 프로세싱된 출력 신호의 위상의 오차로 인한 어떠한 시간-영역 아티팩트도 지각하지 않을 정도로 충분히 짧을 수 있다.
두 개의 인자가 조합되어 잔향 입력 신호가 특정 주파수에서 감쇠하는 속도(rate)를 결정할 수 있다. 첫 번째 인자는 드라이(즉, 비-잔향) 음원의 감쇠 속도이고, 두 번째 인자는 잔향 시스템의 감쇠 속도이다. 특정 주파수에서의 잔향 시스템의 감쇠 속도가 시간에 따라 비교적 일정하지만, 드라이 음원의 감쇠 속도는 계속 변한다. 입력 신호(X)에 대해 가능한 가장 빠른 감쇠 속도가 드라이 음원이 특정 주파수에서 중단되고, 신호의 감쇠는 전적으로 잔향 시스템의 감쇠로 인할 때 발생한다. 도 6의 예시에서, 예를 들어, 드라이 음원은 초기 반사음(606)의 시점에서 중단될 수 있다. 특정 주파수에서의 잔향 시스템의 감쇠 속도가 상기 특정 주파수에서의 잔향 시스템의 임펄스 응답에 의해 직접 결정될 수 있다. 따라서 입력 신호(X)는 잔향 시스템의 임펄스 응답에 의해 지시된 속도보다 빠른 속도로 감쇠하지 않아야 한다.
도 7은 잔향 채움 모듈(305)의 더 상세한 도시를 나타낸다. 상기 잔향 채움 모듈(305)은 입력 신호(X)(104)를 수신하고 신호 처리(310)(ST5)를 출력으로서 제공할 수 있다. 임펄스 응답 추정기(Impulse Response Estimator)(710), 잔향 드롭-아웃 검출기 모듈(Reverb Drop-out Detector Module)(711) 및 잔향 드롭-아웃 채움 모듈(Reverb Drop-out Fill Module)(712), 및 분해 프로세서 모듈(Decompose Processor module)(713)이 잔향 채움 모듈(305) 내에 포함될 수 있다. 또 다른 예를 들면, 언급된 기능을 이루기 위해 더 적거나 더 많은 개수의 모듈이 기술될 수 있다.
임펄스 응답 추정기(710)는 입력 신호(X)의 잔향 시스템의 임펄스 응답의 추정치를 얻기 위해 사용될 수 있다. 입력 신호(X)의 잔향 시스템의 임펄스 응답을 추정하기 위한 한 가지 가능한 방법이 미국 특허 번호 8,180,067, 발명의 명칭 "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL" 및 미국 특허 번호 8,036,767, 발명의 명칭 "SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL"에 기재되어 있으며, 이들 모두 그 전체가 본 명세서에 참조로서 포함된다.
도 8은 잔향 채움 모듈(305)에 의해 추정될 수 있는 오디오 신호의 잔향 성분의 추정치의 하나의 예시이다. 분해 프로세서 모듈(713)이 입력 신호(X)를 조작하여, 입력 신호의 앞서 언급된 샘플 성분들 중 하나인 입력 잔향 성분(Input Reverb Component)(802)을 도출할 수 있다. 입력 잔향 성분(802)은 잔향 성분(잔향)의 추정치 또는 입력 신호의 특성으로 구성될 수 있다. 입력 신호(X)의 입력 잔향 성분(802)을 도출하기 위한 한 가지 가능한 방법이 미국 특허 번호 8,180,067, 발명의 명칭 "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL" 및 미국 특허 번호 8,036,767, 발명의 명칭 "SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL"에 기재되어 있으며, 이들 모두 그 전체가 본 명세서에 참조로서 포함된다. 기대 감쇠 속도(Expected Decay Rate)(806)가 분해 프로세서 모듈(713)에 의한 임펄스 응답으로부터의 각각의 순차적 샘플에 대해 직접 결정될 수 있다. 도 8에서, 입력 잔향 성분(802)이 시간 주기(t) 동안 특정 주파수에서의 샘플 성분의 시퀀스로서 도시된다. 입력 잔향 성분(802)이 어떤 시점에서 성장(증가)하고 다른 시점에서 감쇠함을 알 수 있다.
도 7 및 8을 참조하면, 잔향 드롭-아웃 검출기(711)는 여러 다른 시점에서 입력 잔향 성분(802)의 감쇠 속도를 기대 감쇠 속도(806)에 비교할 수 있다. 입력 잔향 성분(802)이 기대 감쇠 속도(806) 미만에 해당하는 경우, 잔향 드롭-아웃 검출기(711)는 개별 샘플 성분에서 하나 이상의 잔향 드롭-아웃(804)을 오디오 신호의 소실 또는 손실 부분으로서 식별할 수 있다. 잔향 드롭-아웃 채움 모듈(712)은 잔향 드롭-아웃(804)으로 인한 손실된 에너지를 보상하기 위한 신호 처리로서 잔향 채움 처리를 생성하도록 동작할 수 있다. 도 8에 도시된 바와 같이, 신호 처리는 오디오 신호의 일부분이 소실된 샘플 성분에만 적용된다. 따라서 샘플 성분의 시퀀스가 순차적으로 프로세싱되는 중일 때, 신호 처리가 입력 신호의 소실 또는 손실 부분을 가진다고 식별된 샘플 성분에만 선택적으로 적용될 수 있다.
도 9는 증강 제어기 모듈(Enhancement Controller Module)(900)과 연결된 신호 인핸서 모듈(110)의 블록도 예시이다. 증강 제어기 모듈(900)은 처리 레벨 조절기 모듈(Treatment Level Adjuster module)(901), 신호 품질 분석기 모듈(Signal Quality Analyzer module)(902), 및 디스플레이 모듈(Display module)(906)을 포함할 수 있다. 동작 동안, 신호 처리 모듈(300)은 신호 품질 분석기(902)로 처리 요건 지시자(Treatment Requirement Indicator)를 제공할 수 있다. 상기 처리 요건 지시자는 입력 신호(X)의 식별된 소실 부분으로 인해 요구되는 신호 처리의 크기와 관련된 다양한 처리 모듈(301, 302, 303, 304, 305, 306, 및 307)로부터 관련 정보를 제공할 수 있다.
가능한 처리 요건 지시자의 하나의 예시로서, 대역폭 연장 모듈(301)(도 3)은 입력 신호(X)의 차단 주파수(Fx)의 추정치를 제공할 수 있다. 차단 주파수에 대해 낮은 값일수록 지각 오디오 인코더(101)가 원본 오디오 신호(Z)(100)(도 1)에 더 적극적으로 작용했으며, 따라서 입력 신호(X)는 오디오 신호가 재생된다면 청자에 의해 더 열등하게 지각되는 품질을 초래하는 신호의 고주파수 부분의 상당한 부분을 소실했음을 암시할 수 있다. 대안적으로 또는 추가적으로, 대역폭 연장 처리 모듈(301)은 유지된 신호의 에너지에 대한 지각 오디오 인코더(101)에 의해 폐기됐던 차단 주파수보다 높은 신호의 소실 에너지의 비의 추정치를 제공할 수 있다. 이 비에 대해 큰 값일수록 원본 오디오 신호(Z)(100)의 더 상당한 부분이 소실되어 있고(폐기됐고) 따라서 입력 신호(X)가 오디오 신호가 재생된다면 청자에 의해 더 열등하게 지각되는 품질을 가질 수 있음을 암시할 수 있다.
또 다른 예를 들면, 인밴드 고조파 채움 모듈(302)(도 3)은 중간(인밴드) 고조파가 폐기됐고 오디오 신호에서 소실된 빈도의 지시를 제공할 수 있다. 대안적으로 또는 추가적으로, 인밴드 고조파 채움 모듈(302)이 폐기된 고조파의 에너지의 추정치를 제공할 수 있다. 높은 레벨의 소실(폐기된) 인밴드 고조파 에너지일수록 입력 신호(X)가 오디오 신호가 재생된다면 청자에 의해 더 열등하게 지각되는 품질을 가짐을 나타낼 수 있다.
또 다른 예를 들면, 잔향 채움 모듈(305)은 입력 신호(X) 내 잔향 에너지의 측정치뿐 아니라 지각 오디오 인코더(101)에 의해 폐기됐던 손실된 잔향 에너지의 추정치까지 제공할 수 있다. 높은 레벨의 소실 잔향 에너지일수록 입력 신호(X)가 오디오 신호가 재생된다면 청자에 의해 더 열등하게 지각되는 품질을 가짐을 나타낼 수 있다.
또 다른 예를 들면, 사운드스테이지 확장 모듈(304)(도 3)은 지각 오디오 인코더(101)에 의해 폐기된 소실 또는 손실 사이드(좌 빼기 우) 에너지 및 미드(좌 더하기 우) 에너지의 양의 추정치를 제공할 수 있다. 대안적으로 또는 추가적으로, 사운드스테이지 확장 모듈(304)은 입력 신호(X)의 총 에너지에 대한 좌측 끝 또는 우측 끝 신호 성분의 에너지의 측정치를 제공할 수 있다. 낮은 레벨의 좌측 끝 또는 우측 끝 신호 에너지일수록 오디오 신호가 재생된다면 청자에 의해 더 열등하게 지각되는 품질을 초래하는 부분들이 입력 신호(104)에서 소실되어 있음을 나타낼 수 있다.
또 다른 예를 들면, 과도부분 증강 모듈(303)은 입력 신호(X)(104)에서 과도부분이 발생하는 빈도를 지시함으로써 오디오 신호의 소실 부분의 지시를 제공할 수 있다. 또 다른 예를 들면, 마스킹된 신호 채움(306) 모듈은 입력 신호(X)를 검사하고 동시 마스킹 임계치 미만에 속하는 신호 성분이 폐기되었고 따라서 오디오 신호에서 소실되어 있는 빈도의 지시를 제공할 수 있다. 신호 성분이 자주 소실되어 있는 경우(폐기된 경우), 이는 입력 신호(X)가 오디오 신호가 재생된다면 청자에 의해 더 열등하게 지각되는 품질을 가질 수 있음을 나타낼 수 있다.
또 다른 예를 들면, 고조파 위상 정렬 모듈(307)(도 3)은 입력 신호(X)를 검사하고 고조파 관계인 신호 성분들이 위상-정렬되지 않는 빈도에 대한 지시자를 제공할 수 있다. 대안적으로 또는 추가적으로, 상기 고조파 위상 정렬 모듈(307)은 위상 정렬되지 않은 고조파 성분들의 에너지의 측정치를 제공할 수 있다. 높은 레벨의 위상-정렬되지 않는 고조파 성분일수록 오디오 신호가 재생된다면 청자에 의해 더 열등하게 지각되는 품질을 가질 수 있는 입력 신호(X)(104)의 부분이 소실되어 있음을 암시할 수 있다.
신호 품질 분석기(902)는 처리 요건 지시자를 수신하고 신호 품질 지시자를 도출할 수 있다. 대안적으로 또는 추가적으로, 신호 품질 분석기(902)는 메타-데이터 버퍼(905)로부터 메타-데이터(Meta-data)를 수신할 수 있다. 상기 메타-데이터는 입력 신호(X)의 지각되는 품질의 직접 지시를 제공할 수 있다. 메타-데이터 버퍼(905)에 포함되는 메타-데이터가 지각 오디오 디코더(103), 오디오 신호, 또는 그 밖의 다른 일부 근원에 의해 제공될 수 있다. 대안적으로, 메타-데이터가 신호 품질 분석기(902)로 직접 제공될 수 있고, 메타-데이터 버퍼(905)는 생략될 수 있다. 메타-데이터는 입력 신호의 출처 및 특성, 비제한적 예를 들면, 차단 주파수(Fx), 지각 오디오 인코더(101)에 의해 사용되는 현 프로세싱 블록의 길이, 입력 신호(X)의 비트율 및/또는 입력 신호(X)의 샘플링율에 대한 정보를 제공할 수 있다.
수신된 처리 요건 지시자 및/또는 메타-데이터 중 하나 이상을 이용하여, 신호 품질 분석기(902)는 입력 신호(X)의 지각되는 전체 품질의 추정치를 도출할 수 있다. 대안적으로 또는 추가적으로, 신호 품질 분석기(902)는 개별 신호 처리와 관련하여 입력 신호의 지각되는 품질의 추정치를 도출할 수 있다.
신호 인핸서 모듈(110)이 입력 신호(X)에 적용하는 신호 처리(310)의 상대적 에너지 레벨이 입력 신호 및/또는 상기 입력 신호의 샘플 성분의 상대적 품질에 따라 달라질 수 있다. 예를 들어, 입력 신호(X)의 품질이 비교적 우수한 상황에서, 신호 처리(310)의 상대적 에너지 레벨이 감소될 수 있다. 마찬가지로, 입력 신호(X)의 품질이 비교적 열등한 상황에서, 신호 처리(310)의 상대적 에너지 레벨이 대응하여 증가될 수 있다. 처리 레벨 조절기(901)가 처리 이득(g1, g2, g3, g4, g5, g6, 및 g7)(315) 중 하나 이상의 증가 또는 감소시킴으로써 신호 처리(310)의 상대적 에너지 레벨을 독립적으로 변경할 수 있다. 대안적으로 또는 추가적으로, 상기 처리 레벨 조절기(901)는 총 처리 이득(total treatment gain)(gT)(320)을 증가 또는 감소시킴으로써 상기 신호 처리(310)의 총 상대적 에너지 레벨을 변경할 수 있다.
상기 처리 레벨 조절기(901)는 신호 품질 분석기(902)로부터 하나 이상의 신호 품질 지시자를 파라미터로서 수신할 수 있다. 상기 처리 레벨 조절기(901)는 가용한 신호 품질 지시자(903) 중 하나 이상을 이용해 개별 처리 이득(g1, g2, g3, g4, g5, g6, 및 g7)(315) 각각에 대한 적절한 값뿐 아니라 총 처리 이득(gT)(320)에 대한 적절한 값까지 독립적으로 결정할 수 있다. 대안적으로 또는 추가적으로, 신호 품질 분석기(1002)는 입력 신호(X)의 지각되는 품질의 직접 지시를 제공할 수 있는 메타-데이터를 이용하여 개별 처리 이득(g1, g2, g3, g4, g5, g6, 및 g7)(315) 각각에 대한 적절한 값뿐 아니라 총 처리 이득(gT)(320)에 대한 적절한 값까지 결정할 수 있다. 이러한 방식으로, 다양한 신호 처리(310)의 레벨이 입력 신호(X)의 요건에 부합하도록 자동으로 조절될 수 있다.
또한 처리 레벨 조절기 모듈(901)은 개별 처리 이득 및 총 처리 이득을 결정할 때 그 밖의 다른 파라미터를 고려할 수 있다. 따라서 예를 들어 파라미터를 기초로 하여 상기 처리 레벨 조절기 모듈(901)에 의해 개별 처리 이득 중 일부가 감소될 수 있고 개별 처리 이득 중 다른 일부가 증가될 수 있다. 이러한 파라미터는 입력 신호의 메타데이터, 가령, 생성될 오디오 신호의 장르를 포함하여, 가령, 록 음악 장르의 경우 과도부분 처리 레벨 이득이 증가되어 드럼을 강조하도록 할 수 있고, 고전 음악 장르의 경우 잔향 처리 레벨 이득이 증가되어 뮤직홀 효과(music hall effect)를 강조하도록 할 수 있다. 또 다른 예를 들면, 입력 신호가 음성 대 음악(talk versus music)일 때 처리 이득이 조절될 수 있다. 그 밖의 다른 예시에서 임의의 개수의 처리 레벨 이득 및 파라미터가 사용될 수 있다. 또한 처리 레벨 조절기 모듈(901)에 의한 이득 조절이 규칙 기반일 수 있는데, 가령, 지정 임계치보다 높은 잔향의 특성의 처리가 존재할 때, 따라서 과도부분 증강의 특성에 대한 이득이, 예를 들어, 비(ratio)를 기초로 감소될 수 있다. 또한 동작의 특정 조건 또는 모드 하에서 선택적으로 적용되는 처리 이득의 크기에 영향을 미치도록 사용자 설정값이 처리 레벨 조절기 모듈(901)로 적용될 수 있다.
상기 디스플레이 모듈(906)은 입력 신호(X), 출력 신호(Y)의 품질뿐 아니라, 신호 인핸서 모듈(110)의 성능 및/또는 동작의 서로 다른 양태의 시작적 표현을 제공할 수 있다. 도 9에 도시된 바와 같이, 디스플레이 모듈(906)은 신호 처리(ST1, ST2, ST3, ST4, ST5, ST6, 및 ST7)(310) 중 하나 이상의 수신하고 디스플레이할 수 있다. 예를 들어, 디스플레이 모듈(906)은 대역폭 연장 모듈(301)로 인한 신호 처리(ST1)를 디스플레이할 수 있다. 이 경우, 디스플레이 모듈(906)은 대역폭 연장 모듈(301)에 의해 생성된 차단 주파수(Fx)보다 높은 새 신호 성분의 스펙트럼 표현의 시각적 디스플레이를 생성할 수 있다. 대안적으로 또는 추가적으로, 디스플레이 모듈(906)은 적용되는 신호 처리(310) 모두를 포함하는 출력 신호(Y)의 스펙트럼 또는 시간 영역 표현을 디스플레이할 수 있다. 대안적으로 또는 추가적으로, 디스플레이 모듈(906)은 신호 품질 분석기(902)로부터 하나 이상의 신호 품질 지시자를 수신할 수 있다. 그 후 상기 디스플레이 모듈(906)은 입력 신호(X)의 품질의 시각적 표현을 생성할 수 있다. 상기 디스플레이 모듈(906)은 또한 입력 신호(X)에 적용되는 신호 처리(310)의 전체 레벨의 시각적 표현을 생성할 수 있다. 또한 디스플레이 모듈(906)은 출력 신호(Y)의 품질의 시각적 표현을 생성할 수 있다. 따라서 디스플레이를 보는 사용자에게 입력 신호(X)의 품질과, 또한 처리 신호가 적용되는 범위 또는 레벨의 시각적 지시가 제공될 수 있다.
도 10은 대역폭 증강의 신호 처리가 지시되는 출력 신호(Y)의 예시적 디스플레이이다. 도 10에서, 약 12㎑의 차단 주파수 초과에서, 입력 신호(X)의 일부분(1002)이 -120 내지 -150dB의 범위에 있음으로써 지시되는 바와 같이, 입력 신호(X)의 일부분(1002)이 이전 인코딩 동안 폐기됐었다. 대역폭 연장 모듈(301)은 오디오 신호의 부분이 소실 또는 손실되어 있다고 식별할 수 있으며 일부 주파수 범위에 걸친 신호 처리(1004)를 제공할 수 있다. 상기 신호 처리(1004)는 입력 신호(X)의 처리되지 않은 부분(1002)에 적용될 수 있다. 따라서 사용자는 디스플레이를 보고 처리되지 않은 출력 신호가 보이는 형상의 품질의 지시뿐 아니라, 신호 인핸서 시스템(110)에 의해 제공되는 처리의 레벨 및 범위에 대한 지시까지 제공 받을 수 있다. 또 다른 예에서, 또 다른 형태의 디스플레이가 적용되는 하나 이상의 처리 중 임의의 것을 지시하도록 생성될 수 있다.
도 11a 및 11b는 대역폭 연장 모듈(301)의 동작의 예시적 결과를 도시한다. 도 11a는 지각 오디오 코덱에 의해 압축되기 전 및 후의 오디오 신호의 짧은 블록의 스펙트럼 뷰(주파수-영역)를 나타낸다. 원본 신호의 곡선이 도시되며, 여기서 상당한 신호 에너지가 나이퀴스트 주파수(Nyquist frequency)까지 계속되는 것이 나타날 수 있다. 압축된 오디오 신호 곡선이 지각 오디오 코덱에 의해 압축된 후의 동일한 신호를 나타낸다. 도 11a에서, 특정 차단 주파수(Fx) 초과에서, 신호 성분이 폐기되었고 단순히 낮은 레벨의 잡음만 남아 있음을 볼 수 있다.
도 11b는 대역폭 연장 모듈(301)에 의해 프로세싱되기 전 및 후의 압축된 오디오 신호의 짧은 블록의 하나의 예시의 스펙트럼 뷰를 도시한다. 여기서 차단 주파수(Fx) 초과의 신호 성분이 폐기되는 압축된 오디오 신호가 도시된다. 대역폭 연장 모듈(301)에 의해 프로세싱된 동일한 압축된 오디오 신호의 곡선이 도 11b에 포함된다. 차단 주파수(Fx) 초과의 새 신호 성분이 생성되었음이 나타날 수 있다. 이들 새 신호 성분은 차단 주파수(Fx) 미만의 신호 성분들 중 적어도 일부를 기초로, 및/또는 이들을 이용해 생성되었다.
도 12a 및 12b는 과도 상태 증강 모듈(303)의 예시적 동작을 도시한다. 도 12a는 과도 신호 성분의 시간-영역 뷰를 도시한다. 도 12a의 상부 패널은 원본 신호를 보여준다. 시작 신호가 거의 묵음이며, 시간에 따라 감쇠하는 급격한 과도 신호가 뒤 따름을 알 수 있다. 도 12a의 하부 패널은 지각 오디오 코덱에 의해 압축된 후의 유사한 과도 신호 성분을 보여준다. 과도부분이 더 이상 급격하게 형성되어 있지 않음을 알 수 있다. 덧붙여, 압축된 오디오 신호는 현재 실제 과도 부분 전에 도달하는 에너지를 가진다. 이는 이른바 앞서 기술됐던 "프리-에코"의 예시이다.
도 12b는 과도부분 증강 모듈(303)에 의해 프로세싱되기 전 및 후의 예시적 과도 신호 성분의 시간-영역 뷰를 도시한다. 도 12b의 상부 패널은 시간에 따라 많은 과도부분을 갖는 압축된 오디오 신호를 보여준다. 과도부분은 신호에서 그리 두드러지지 않음을 알 수 있다. 도 12b의 하부 패널은 과도부분 증강 모듈(303)에 의해 프로세싱된 후의 동일한 과도 신호를 보여주며, 여기서 이제 개별 과도부분들의 개시가 급격하도록 형성되며 용이하게 보일 수 있다.
도 13은 예시적 컴퓨팅 시스템(1300)이다. 컴퓨터 시스템(1300)은 컴퓨터 시스템(1300)으로 하여금 기재된 방법 또는 컴퓨터 기반 기능 중 임의의 하나 이상을 수행하게 하도록 실행될 수 있는 명령의 세트를 포함할 수 있다. 상기 컴퓨터 시스템(1300)은 자립형 장치로서 동작하거나, 또 다른 장치의 일부이거나, 가령 네트워크를 이용해 다른 컴퓨터 시스템 또는 주변 장치로 연결될 수 있다.
네트워킹된 배치에서, 상기 컴퓨터 시스템(1300)은 서버 능력을 갖고 동작하거나 서버-클라이언트 사용자 네트워크 환경에서 클라이언트 사용자 컴퓨터로서 동작하거나, 피어-투-피어(또는 분산) 네트워크 환경에서 피어 컴퓨터 시스템으로서 동작하거나, 그 밖의 다른 다양한 방식으로 동작할 수 있다. 또한 상기 컴퓨터 시스템(1300)은 다양한 장치, 가령, 차량 내 텔레마틱 시스템으로서 구현되거나, 이의 구성요소가 될 수 있다. 또 다른 예를 들면, 기계에 의해 취해질 동작들을 특정하는 명령들의 세트를 (순차적으로 또는 그 밖의 다른 방식으로) 실행할 수 있는 그 밖의 다른 임의의 기계가 사용될 수 있다. 컴퓨터 시스템(1300)은 음성, 오디오, 비디오 또는 데이터 통신을 제공하는 전자 장치를 이용해 구현될 수 있다. 단일 컴퓨터 시스템(1300)이 도시되었지만, "시스템"이라는 용어는 개별적으로 또는 공동으로 명령의 하나 또는 복수의 세트를 실행하여 하나 이상의 컴퓨터 기능을 수행하는 시스템 또는 서브-시스템들의 임의의 모음을 포함할 수 있다.
컴퓨터 시스템(1300)은 프로세서(1302), 가령, 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 디지털 신호 프로세서(DSP), 또는 서로 다른 또는 동일한 프로세서의 일부 조합을 포함할 수 있다. 상기 프로세서(1302)는 다양한 시스템에서의 하나의 구성요소일 수 있다. 예를 들어, 프로세서(1302)는 차량 내 헤드 유닛 또는 증폭기의 일부일 수 있다. 상기 프로세서(1302)는 하나 이상의 범용 프로세서, 디지털 신호 프로세서, 주문형 집적 회로, 필드 프로그램 가능한 게이트 어레이, 디지털 회로, 아날로그 회로, 이들의 조합, 또는 데이터를 분석 및 프로세싱하기 위한 그 밖의 다른 현재 알려져 있거나 차후에 개발될 장치일 수 있다. 상기 프로세서(1302)는 소프트웨어 프로그램, 가령, 수동으로 생성되거나 프로그램된 코드를 구현할 수 있다.
상기 프로세서(1302)는 시스템의 적어도 일부분을 동작 및 제어할 수 있다. "모듈"이라는 용어는 하나 이상의 실행 가능한 모듈을 포함하도록 정의될 수 있다. 상기 모듈은 프로세서, 가령, 프로세서(1302)에 의해 실행될 수 있는 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 임의의 조합을 포함할 수 있다. 소프트웨어 모듈은 메모리, 가령, 메모리(1304) 또는 프로세서(1302) 또는 그 밖의 다른 프로세서에 의해 실행될 수 있는 또 다른 메모리 장치에 저장된 명령을 포함할 수 있다. 하드웨어 모듈은 프로세서(1302)에 의한 수행을 위해 실행 가능, 지시, 또는 제어되는 다양한 장치, 구성요소, 회로, 게이트, 회로 기판 등을 포함할 수 있다.
상기 컴퓨터 시스템(1300)은 메모리(1304), 가령, 버스(1308)를 통해 통신할 수 있는 메모리(1304)를 포함할 수 있다. 상기 메모리(1304)는 메인 메모리, 정적 메모리, 또는 동적 메모리일 수 있다. 상기 메모리(1304)는 비제한적 예를 들면, 컴퓨터 판독 가능한 저장 매체, 가령, 다양한 유형의 휘발성 및 비휘발성 저장 매체, 비제한적 예를 들면, 랜덤 액세스 메모리, 리드-온리 메모리, 프로그램 가능한 리드-온리 메모리, 전기적으로 프로그램 가능한 리드-온리 메모리, 전기적으로 소거 가능한 리드-온리 메모리, 플래시 메모리, 자기 테이프 또는 디스크, 광학 매체 등을 포함할 수 있다. 하나의 예를 들면, 메모리(1304)는 프로세서(1302)를 위한 캐시 또는 랜덤 액세스 메모리를 포함한다. 또 다른 예를 들면, 메모리(1304)는 프로세서(1302)와 별개의 것, 가령, 프로세서의 캐시 메모리, 시스템 메모리 또는 그 밖의 다른 메모리일 수 있다. 상기 메모리(1304)는 데이터를 저장하기 위한 외부 저장 장치 또는 데이터베이스를 포함할 수 있다. 예를 들면, 하드 드라이브, 컴팩트 디스크("CD"), 디지털 비디오 디스크("DVD"), 메모리 카드, 메모리 스틱, 플로피 디스크, 전역 직렬 버스("USB") 메모리 장치, 또는 데이터를 저장하도록 동작하는 그 밖의 다른 임의의 장치가 있다.
컴퓨터 시스템(1300)은 디스플레이 유닛(1310), 가령, 액정 디스플레이(LCD), 유기 발광 다이오드(OLED), 평면 패널 디스플레이, 솔리드 상태 디스플레이, 캐소드 레이 튜브(CRT), 프로젝터, 또는 결정된 정보를 출력하기 위한 그 밖의 다른 현재 알려져 있거나 차후 개발될 디스플레이 장치를 더 포함할 수도 있고 포함하지 않을 수도 있다. 디스플레이(1310)는 사용자가 프로세서(1302)의 기능을 제어하기 위한 인터페이스로서 또는 특정하게 메모리(1304)에 저장된 소프트웨어와의 인터페이스로서 동작할 수 있다.
컴퓨터 시스템(1300)은 사용자가 컴퓨터 시스템의 구성요소들 중 임의의 것과 대화할 수 있게 하도록 구성된 입력 장치(1312)를 포함할 수 있다. 상기 입력 장치(1312)는 음성 명령어를 수신하기 위한 마이크로폰, 키패드, 키보드, 또는 커서 제어 장치, 가령, 마우스, 또는 조이스틱, 터치 스크린 디스플레이, 원격 제어기 또는 컴퓨터 시스템(1300)과 대화하도록 동작하는 그 밖의 다른 임의의 장치일 수 있다. 시스템의 사용자는, 예를 들어, 시스템 및/또는 텔레마틱 시스템에 의해 고려될 기준 또는 조건을 입력할 수 있다.
컴퓨터 시스템(1300)은 전파된 신호에 응답하여 네트워크(1326)에 연결된 장치가 네트워크(1326)를 통해 음성, 비디오, 오디오, 이미지, 또는 그 밖의 다른 임의의 데이터를 통신할 수 있도록 하는 명령을 포함하거나 명령을 수신 및 실행하는 컴퓨터 판독 가능한 매체를 포함할 수 있다. 명령은 통신 포트 또는 인터페이스(1320)를 통해 네트워크(1326)를 통해, 또는 버스(1308)를 이용해 전송 또는 수신될 수 있다. 상기 통신 포트 또는 인터페이스(1320)는 프로세서(1302)의 일부분이거나 별개의 구성요소일 수 있다. 상기 통신 포트(1320)는 소프트웨어로 형성되거나 하드웨어로 된 물리적 연결일 수 있다. 상기 통신 포트(1320)는 네트워크(1326), 외부 매체, 디스플레이(1310), 또는 컴퓨터 시스템(1300) 내 그 밖의 다른 임의의 구성요소, 또는 이들의 조합과 연결되도록 구성될 수 있다. 상기 네트워크(1326)와의 연결은 물리적 연결, 가령, 유선 이더넷 연결이거나 무선으로 확립될 수 있다. 컴퓨터 시스템(1300)의 그 밖의 다른 구성요소와의 추가 연결은 물리적 연결이거나 무선으로 확립될 수 있다. 대안적으로, 상기 네트워크(1326)는 버스(1308)로 직접 연결될 수 있다.
네트워크(1326)는 유선 네트워크, 무선 네트워크, 이더넷 AVB 네트워크, 또는 이들의 조합을 포함할 수 있다. 상기 무선 네트워크는 셀룰러 전화망, 802.11, 802.16, 802.20, 802.1Q 또는 WiMax 네트워크일 수 있다. 덧붙여, 네트워크(1326)는 공개망, 가령, 인터넷, 또는 사설망, 가령, 인트라넷, 또는 이들의 조합일 수 있으며 현재 이용 가능하거나 차후에 개발될 다양한 네트워킹 프로토콜, 비제한적 예를 들면, TCP/IP 기반 네트워킹 프로토콜을 이용할 수 있다. 시스템의 하나 이상의 구성요소들은 네트워크(1326)에 의해 또는 이를 통해 서로 통신할 수 있다.
본 발명의 다양한 실시예들이 기재되었지만, 해당 분야의 통상의 기술자라면 더 많은 실시예 및 구현예가 본 발명의 범위 내에서 가능함을 알 것이다. 따라서 본 발명은 이하의 특허청구범위 및 이의 균등물에 고려할 때는 제외하고 제한되지 않을 것이다.

Claims (23)

  1. 압축된 오디오 신호의 보수(repair)를 위한 시스템으로서,
    프로세서,
    오디오 신호를 일련의 순차적인 샘플로 분할하기 위해 상기 프로세서에 의해 실행 가능한 샘플러 모듈,
    오디오 신호의 하나 이상의 샘플 성분을 순차적으로 수신하고 분석하여 순차적 샘플 각각의 하나 이상의 샘플 성분에서 오디오 신호의 손실 부분(lost part)을 식별하기 위해 상기 프로세서에 의해 실행 가능한 신호 인핸서(signal enhancer) 모듈
    을 포함하며, 상기 신호 인핸서 모듈은 대응하는 식별된 손실 부분을 갖는 순차적 샘플 각각의 하나 이상의 샘플 성분 각각에 대해 대응하는 신호 처리(signal treatment)를 생성하기 위해 상기 프로세서에 의해 더 실행 가능한, 압축된 오디오 신호의 보수를 위한 시스템.
  2. 제1항에 있어서, 상기 샘플 성분은 주파수 성분이며 상기 대응하는 신호 처리는 차단 주파수 임계치보다 높은 소실 주파수 성분을 갖는 샘플 성분에 적용되는 주파수 성분인, 압축된 오디오 신호의 보수를 위한 시스템.
  3. 제1항에 있어서, 상기 샘플 성분은 과도 성분(transient component)이며 대응하는 신호 처리는 오디오 신호에 존재하는 기존 과도부분의 시작(onset)을 증강하기 위해 소실 과도부분을 갖는 샘플 성분에 적용되는 과도 성분인, 압축된 오디오 신호의 보수를 위한 시스템.
  4. 제1항에 있어서, 상기 샘플 성분은 잔향 성분이며 대응하는 신호 처리는 오디오 신호의 감쇠 속도(decay rate)를 감소시키기 위해 소실 잔향을 갖는 샘플 성분에 적용되는, 압축된 오디오 신호의 보수를 위한 시스템.
  5. 제1항에 있어서, 상기 신호 인핸서 모듈은 오디오 신호와 함께 수신되는 사이드 체인 데이터를 기초로 하나 이상의 샘플 성분을 분석하도록 구성되는, 압축된 오디오 신호의 보수를 위한 시스템.
  6. 제1항에 있어서, 상기 대응하는 신호 처리는 대역폭 연장 처리, 과도부분 증강 처리 및 잔향 채움 처리를 포함하는 복수의 신호 처리인, 압축된 오디오 신호의 보수를 위한 시스템.
  7. 제1항에 있어서, 상기 신호 인핸서 모듈은 복수의 신호 인핸서 모듈이며, 신호 인핸서 모듈 각각은 적어도 하나의 신호 처리를 추가하기 위해 청자 지각 사운드 스테이지의 공간 슬라이스(spatial slice) 상에서 독립적으로 동작하고, 상기 청자 지각 사운드 스테이지는 오디오 신호의 재생 동안 청자에 의해 지각되는, 압축된 오디오 신호의 보수를 위한 시스템.
  8. 제1항에 있어서, 상기 신호 인핸서 모듈은 복수의 대응하는 신호 처리를 생성하도록 구성되며, 상기 대응하는 신호 처리는 오디오 신호에 추가되는, 압축된 오디오 신호의 보수를 위한 시스템.
  9. 압축된 오디오 신호를 보수하기 위해 프로세서에 의해 실행 가능한 컴퓨터 판독 가능한 명령을 저장하는 컴퓨터 판독 가능한 저장 매체로서, 상기 컴퓨터 판독 가능한 매체는
    오디오 신호의 샘플 시퀀스를 생성하기 위해 상기 프로세서에 의해 실행 가능한 명령,
    상기 시퀀스의 샘플 각각을 오디오 신호의 서로 다른 특성과 관련된 샘플 성분으로 분할하기 위해 상기 프로세서에 의해 실행 가능한 명령,
    상기 샘플 시퀀스의 일련의 샘플 성분 내에 포함되는 샘플 성분에서 오디오 신호의 소실 부분을 식별하기 위해 상기 프로세서에 의해 실행 가능한 명령, 및
    샘플 성분에서 오디오 신호의 소실 부분의 식별에 응답하여 상기 일련의 샘플 성분 내에 포함되는 샘플 성분에 대해 신호 처리를 생성하여 상기 오디오 신호에 적용하기 위해 상기 프로세서에 의해 실행 가능한 명령
    을 포함하는 컴퓨터 판독 가능한 저장 매체.
  10. 제9항에 있어서, 상기 샘플 성분은 제 1 샘플 성분이고 상기 컴퓨터 판독 가능한 저장 매체는 일련의 샘플 성분 내에 포함되는 제 2 샘플 성분에서 오디오 신호의 소실 부분의 식별이 없음에 응답하여 상기 제 2 샘플 성분에 신호 처리를 적용하지 않기 위해 상기 프로세서에 의해 실행 가능한 명령을 더 포함하는, 컴퓨터 판독 가능한 저장 매체.
  11. 제9항에 있어서, 상기 오디오 신호와 관련된 파라미터를 기초로 상기 오디오 신호의 품질을 결정하기 위해 상기 프로세서에 의해 실행 가능한 명령, 및 상기 오디오 신호의 결정된 품질에 따라 신호 처리의 이득을 조절하기 위한 명령을 더 포함하는, 컴퓨터 판독 가능한 저장 매체.
  12. 제9항에 있어서, 상기 오디오 신호의 서로 다른 특성은 주파수 범위 특성, 과도 특성, 및 잔향 특성을 포함하는, 컴퓨터 판독 가능한 저장 매체.
  13. 제9항에 있어서, 상기 오디오 신호의 샘플 시퀀스 내 샘플 각각은 시간 주기 동안 잇달아(in succession) 수신되고, 상기 샘플 성분은 순차적 샘플 각각에 포함되는, 컴퓨터 판독 가능한 저장 매체.
  14. 제9항에 있어서, 샘플 성분에서 상기 오디오 신호의 소실 부분을 식별하기 위해 상기 프로세서에 의해 실행 가능한 상기 명령은 차단 주파수보다 높은 소실 주파수 성분을 식별하기 위한 명령을 포함하고, 신호 처리를 생성하여 오디오 신호에 적용하기 위해 상기 프로세서에 의해 실행 가능한 상기 명령은 상기 차단 주파수보다 높은 주파수 성분을 생성하기 위한 명령 및 상기 주파수 성분을 오디오 신호에 적용하기 위한 명령을 포함하는, 컴퓨터 판독 가능한 저장 매체.
  15. 제9항에 있어서, 샘플 성분에서 상기 오디오 신호의 소실 부분을 식별하기 위해 상기 프로세서에 의해 실행 가능한 상기 명령은 상기 샘플 성분에서 소실 과도 성분을 식별하기 위한 명령을 포함하고, 신호 처리를 생성하여 상기 오디오 신호에 적용하기 위해 상기 프로세서에 의해 실행 가능한 상기 명령은 과도 성분을 생성하기 위한 명령, 및 상기 과도 성분을 오디오 신호에 적용하기 위한 명령을 포함하는, 컴퓨터 판독 가능한 저장 매체.
  16. 제9항에 있어서, 샘플 성분에서 상기 오디오 신호의 소실 부분을 식별하기 위해 상기 프로세서에 의해 실행 가능한 상기 명령은 상기 오디오 신호의 최대 감쇠 속도를 기초로 소실 잔향 성분을 식별하기 위한 명령을 포함하고, 신호 처리를 생성하여 상기 오디오 신호에 적용하기 위해 상기 프로세서에 의해 실행 가능한 상기 명령은 잔향 성분을 생성하기 위한 명령, 및 상기 잔향 성분을 오디오 신호에 적용하기 위한 명령을 포함하는, 컴퓨터 판독 가능한 저장 매체.
  17. 제9항에 있어서, 일련의 샘플 성분 중 오디오 신호의 소실 부분을 갖는 샘플 성분에만 신호 처리를 적용하기 위해 상기 프로세서에 의해 실행 가능한 명령을 더 포함하는, 컴퓨터 판독 가능한 저장 매체.
  18. 제9항에 있어서, 디스플레이 상에 오디오 신호의 품질의 지시자, 및 적용되는 신호 처리의 레벨의 지시자를 출력하기 위해 컴퓨터에 의해 실행 가능한 명령을 더 포함하는, 컴퓨터 판독 가능한 저장 매체.
  19. 압축된 오디오 신호를 보수하기 위한 방법으로서,
    프로세서를 이용해 오디오 신호를 샘플로 분리하는 단계,
    상기 프로세서에 의해 샘플 각각을 샘플 성분으로 분할하는 단계 - 상기 샘플 성분은 오디오 신호의 특성을 나타냄 - ,
    오디오 신호의 손실 부분을 갖는 샘플 성분을 식별하기 위해 상기 프로세서에 의해 오디오 신호의 특성의 일련의 샘플 성분을 순차적으로 분석하는 단계, 및
    상기 프로세서가 일련의 샘플 성분 중 상기 오디오 신호의 손실 부분을 갖는 것으로 식별되는 샘플 성분에만 신호 처리를 적용하는 단계
    를 포함하는, 압축된 오디오 신호를 보수하기 위한 방법.
  20. 제19항에 있어서, 상기 프로세서가 신호 처리에 의해 오디오 신호의 손실 부분에 에너지를 채우는 단계를 더 포함하는, 압축된 오디오 신호를 보수하기 위한 방법.
  21. 제19항에 있어서, 상기 프로세서가 일련의 샘플 성분 중 오디오 신호의 손실 부분을 갖지 않는 것으로 식별되는 샘플 성분에는 신호 처리를 적용하지 않는, 압축된 오디오 신호를 보수하기 위한 방법.
  22. 제19항에 있어서, 상기 프로세서에 의해 오디오 신호의 품질을 결정하는 단계, 및 상기 프로세서가 결정된 품질을 기초로 신호 처리의 레벨을 변경하는 단계를 더 포함하는, 압축된 오디오 신호를 보수하기 위한 방법.
  23. 제22항에 있어서, 오디오 신호의 품질의 지시자 및 신호 처리의 레벨의 지시자를 디스플레이에 출력하는 단계를 더 포함하는, 압축된 오디오 신호를 보수하기 위한 방법.
KR1020157013233A 2012-11-26 2013-11-01 압축된 오디오 신호의 보수를 위한 시스템, 컴퓨터-판독 가능한 저장 매체 및 방법 KR101825507B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261730053P 2012-11-26 2012-11-26
US61/730,053 2012-11-26
US13/842,479 2013-03-15
US13/842,479 US9135920B2 (en) 2012-11-26 2013-03-15 System for perceived enhancement and restoration of compressed audio signals
PCT/US2013/067981 WO2014081548A1 (en) 2012-11-26 2013-11-01 System, computer-readable storage medium and method for repair of compressed audio signals

Publications (2)

Publication Number Publication Date
KR20150088253A true KR20150088253A (ko) 2015-07-31
KR101825507B1 KR101825507B1 (ko) 2018-02-05

Family

ID=50774017

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157013233A KR101825507B1 (ko) 2012-11-26 2013-11-01 압축된 오디오 신호의 보수를 위한 시스템, 컴퓨터-판독 가능한 저장 매체 및 방법

Country Status (7)

Country Link
US (3) US9135920B2 (ko)
EP (1) EP2923355B1 (ko)
JP (1) JP6212567B2 (ko)
KR (1) KR101825507B1 (ko)
CN (1) CN104823237B (ko)
BR (1) BR112015011820B1 (ko)
WO (1) WO2014081548A1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135920B2 (en) * 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
EP3092640B1 (en) * 2014-01-07 2018-06-27 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
US9782672B2 (en) 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
US10057705B2 (en) 2015-01-13 2018-08-21 Harman International Industries, Incorporated System and method for transitioning between audio system modes
CN108604454B (zh) 2016-03-16 2020-12-15 华为技术有限公司 音频信号处理装置和输入音频信号处理方法
US10741196B2 (en) * 2016-03-24 2020-08-11 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
US10861481B2 (en) 2016-07-04 2020-12-08 Harman Becker Automotive Systems Gmbh Automatic correction of loudness level in audio signals containing speech signals
DE102017204181A1 (de) 2017-03-14 2018-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sender zum Emittieren von Signalen und Empfänger zum Empfangen von Signalen
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
CN107452398B (zh) * 2017-08-09 2021-03-16 深圳创维数字技术有限公司 回声获取方法、电子设备及计算机可读存储介质
EP3667663A4 (en) 2017-10-24 2020-09-02 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR AUDIO RECONSTRUCTION USING AUTOMATIC LEARNING
WO2019083130A1 (ko) 2017-10-25 2019-05-02 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110033781B (zh) * 2018-01-10 2021-06-01 盛微先进科技股份有限公司 音频处理方法、装置及非暂时性电脑可读媒体
CN109767760A (zh) * 2019-02-23 2019-05-17 天津大学 基于振幅和相位信息的多目标学习的远场语音识别方法
US11264017B2 (en) * 2020-06-12 2022-03-01 Synaptics Incorporated Robust speaker localization in presence of strong noise interference systems and methods
CN112735454A (zh) * 2020-12-30 2021-04-30 北京大米科技有限公司 音频处理方法、装置、电子设备和可读存储介质
CN112565124B (zh) * 2021-03-01 2021-04-23 中国人民解放军国防科技大学 基于重叠加窗的无失真信号处理方法、存储介质和系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1428206B1 (en) 2001-08-17 2007-09-12 Broadcom Corporation Bit error concealment methods for speech coding
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
US8180067B2 (en) 2006-04-28 2012-05-15 Harman International Industries, Incorporated System for selectively extracting components of an audio input signal
CN101518100B (zh) * 2006-09-14 2011-12-07 Lg电子株式会社 对话增强技术
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
JP2008158302A (ja) * 2006-12-25 2008-07-10 Sony Corp 信号処理装置、信号処理方法、再生装置、再生方法、電子機器
EP1947642B1 (en) * 2007-01-16 2018-06-13 Apple Inc. Active noise control system
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
PL2232700T3 (pl) * 2007-12-21 2015-01-30 Dts Llc System regulacji odczuwanej głośności sygnałów audio
JP4940158B2 (ja) * 2008-01-24 2012-05-30 株式会社東芝 音補正装置
MY159890A (en) * 2008-04-18 2017-02-15 Dolby Laboratories Licensing Corp Method and apparatus for maintaining speech audibiliy in multi-channel audio with minimal impact on surround experience
EP2226794B1 (en) * 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Background noise estimation
US9299362B2 (en) * 2009-06-29 2016-03-29 Mitsubishi Electric Corporation Audio signal processing device
US9372251B2 (en) * 2009-10-05 2016-06-21 Harman International Industries, Incorporated System for spatial extraction of audio signals
US20110317841A1 (en) 2010-06-25 2011-12-29 Lloyd Trammell Method and device for optimizing audio quality
US9135920B2 (en) * 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals

Also Published As

Publication number Publication date
US9576584B2 (en) 2017-02-21
JP6212567B2 (ja) 2017-10-11
US20170162208A1 (en) 2017-06-08
CN104823237B (zh) 2019-06-11
BR112015011820A2 (pt) 2017-07-11
KR101825507B1 (ko) 2018-02-05
US10311880B2 (en) 2019-06-04
US9135920B2 (en) 2015-09-15
EP2923355B1 (en) 2018-07-04
EP2923355A1 (en) 2015-09-30
WO2014081548A1 (en) 2014-05-30
JP2016502139A (ja) 2016-01-21
US20150379999A1 (en) 2015-12-31
US20140149126A1 (en) 2014-05-29
BR112015011820B1 (pt) 2021-11-09
CN104823237A (zh) 2015-08-05

Similar Documents

Publication Publication Date Title
KR101825507B1 (ko) 압축된 오디오 신호의 보수를 위한 시스템, 컴퓨터-판독 가능한 저장 매체 및 방법
CN105900170B (zh) 压缩音频信号的以信号质量为基础的增强和补偿
JP6838105B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
CN110379434B (zh) 用于参数化多声道编码的方法
JP5174027B2 (ja) ミックス信号処理装置及びミックス信号処理方法
EP3602552B1 (en) Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
CA3018039C (en) Signal quality-based enhancement and compensation of compressed audio signals

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal