KR20160106586A - 신호 품질-기반 압축 오디오 신호 향상 및 보상 - Google Patents
신호 품질-기반 압축 오디오 신호 향상 및 보상 Download PDFInfo
- Publication number
- KR20160106586A KR20160106586A KR1020167017953A KR20167017953A KR20160106586A KR 20160106586 A KR20160106586 A KR 20160106586A KR 1020167017953 A KR1020167017953 A KR 1020167017953A KR 20167017953 A KR20167017953 A KR 20167017953A KR 20160106586 A KR20160106586 A KR 20160106586A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- frequency
- audio signal
- treatment
- sequential
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 186
- 238000011282 treatment Methods 0.000 claims abstract description 150
- 239000011449 brick Substances 0.000 claims abstract description 54
- 239000003623 enhancer Substances 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims description 72
- 238000000034 method Methods 0.000 claims description 60
- 230000001052 transient effect Effects 0.000 claims description 50
- 230000004044 response Effects 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 230000003595 spectral effect Effects 0.000 claims description 10
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 6
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 4
- 230000001427 coherent effect Effects 0.000 claims 10
- 238000011156 evaluation Methods 0.000 claims 3
- 238000012790 confirmation Methods 0.000 claims 1
- 238000007906 compression Methods 0.000 description 21
- 230000006835 compression Effects 0.000 description 18
- 230000000873 masking effect Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000008447 perception Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000000630 rising effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013144 data compression Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000935974 Paralichthys dentatus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
샘플러 모듈은 오디오 신호를 일련의 순차적 샘플들로 나눌 수 있다. 신호 품질 검출기 모듈은 오디오 신호의 시작시, 복수의 순차적 샘플들에 걸친 오디오 신호의 일관된 브릭월 주파수(brick wall frequency)를 식별할 수 있고, 브릭월 주파수에 비례하는 신호 처치 표시를 결정할 수 있다. 신호 인핸서 모듈은 오디오 신호의 하나 이상의 샘플 성분을 순차적으로 수신 및 분석하여, 각자의 순차적 샘플들 중 하나 이상의 샘플 성분 내 오디오 신호의 잃어버린 부분들을 식별할 수 있고, 신호 품질 표시에 따라, 대응하는 식별된 잃어버린 부분을 가진 각자의 순차적 샘플의 하나 이상의 샘플 성분 각각에 대해 대응하는 신호 처치를 발생시킬 수 있다.
Description
관련 출원의 상호 참조
본 출원은 2014년 1월 7일 출원된 미국특허가출원 제61/924,641호의 우선권을 주장하며, 그 내용 전체는 본 발명에 포함된다.
기술 분야
발명의 형태는 오디오 신호 처리에 관한 것이고, 특히, 오디오 신호 향상 및 복원에 관한 것이다.
압축 오디오 신호는 지각 오디오 코덱(perceptual audio codec)에 의해 소정 형태의 데이터 압축을 거친 신호다. 지각 오디오 코덱은 잘 청감되지 않는 부분이거나 지각적으로 덜 중요하다고 인식되는 오디오 신호 성분을 버림으로써 오디오 신호를 저장, 전달, 또는 송신하는데 사용되는 데이터의 양을 감소시킨다. 데이터 압축 프로세스는 원본(비압축) 오디오 신호와 압축 오디오 신호 간에 바람직하지 않은 청감상 차이를 종종 삽입한다. 서로 다른 지각 오디오 코덱은 원본 오디오 신호의 부분들을 폐기하기 위해 서로 다른 전략을 이용할 수 있으나, 이러한 청감상 차이의 지각되는 특성은 통상적으로 유사하다.
샘플러 모듈(sampler module)은 오디오 신호를 일련의 순차적 샘플들로 나눌 수 있다. 신호 품질 검출기 모듈은 오디오 신호의 시작시, 복수의 순차적 샘플들에 걸친 오디오 신호의 일관된 브릭월 주파수(brick wall frequency)를 식별할 수 있고, 브릭월 주파수에 비례하는 신호 처치 표시(signal treatment indication)를 결정할 수 있다. 신호 인핸서 모듈(signal enhancer module)은 오디오 신호의 하나 이상의 샘플 성분을 순차적으로 수신 및 분석하여, 각자의 순차적 샘플들 중 하나 이상의 샘플 성분 내 오디오 신호의 잃어버린 부분들을 식별할 수 있고, 신호 품질 표시에 따라, 대응하는 식별된 잃어버린 부분을 가진 각자의 순차적 샘플의 하나 이상의 샘플 성분 각각에 대해 대응하는 신호 처치를 발생시킬 수 있다.
시스템은 다음의 도면 및 설명을 참조할 때 더 잘 이해될 수 있다. 도면의 구성요소들은 꼭 배율에 맞는 것이 아니며, 대신에, 발명의 원리를 설명함에 있어서 강조점을 두었다. 더욱이, 도면에서, 유사한 도면 부호는 서로 다른 도면 전체에 걸쳐 대응 부분을 표시한다.
도 1은 지각 오디오 인코더 및 디코더와 연계하여 사용되는 일례의 신호 인핸서(signal enhancer) 시스템을 포함하는 블록도다.
도 2는 신호 인핸서 시스템에 통합된 지각 오디오 디코더의 한 예를 포함하는 블록도다.
도 3은 신호 인핸서 시스템의 한 예의 블록도다.
도 4는 스테레오 신호의 미드-사이드 부분에서 작동하는 일례의 신호 인핸서 시스템의 블록도다.
도 5는 오디오 신호의 개별 공간 슬라이스에 대해 작동하는 개별 신호 인핸서 모듈들의 한 예의 블록도다.
도 6은 블록-기반 분해의 표현과 함께 일례의 임펄스 응답의 구성요소들을 도시한다.
도 7은 도 3에 도시되는 리버브 필 모듈(Reverb Fill module)의 예시적 블록도다.
도 8은 주어진 주파수에서 샘플들의 입력 잔향 시리즈(input reverberation series)의 샘플 구성요소들의 일례의 추정치다.
도 9a는 신호 품질 분석기, 처치 레벨 조정기, 및 디스플레이 모듈의 예시적 블록도다.
도 9b는 스트림 당 또는 트랙 당 처치 이득의 양을 자동적으로 재조정하는 압축 검출 및 처치 알고리즘의 프로세스의 예시적 블록도다.
도 10은 대역폭 향상 신호 처치를 가진 출력 신호의 예시적 디스플레이다.
도 11a 및 11b는 신호 인핸서 시스템에 의한 압축을 나타내기 위한 예시 스펙트럼 뷰(주파수-도메인)을 도시한다.
도 12a 및 12b는 신호 인핸서 시스템에 의한 일시적 향상을 나타내기 위한 예시적 스펙트럼 뷰를 도시한다.
도 13은 예시적 컴퓨팅 시스템이다.
도 1은 지각 오디오 인코더 및 디코더와 연계하여 사용되는 일례의 신호 인핸서(signal enhancer) 시스템을 포함하는 블록도다.
도 2는 신호 인핸서 시스템에 통합된 지각 오디오 디코더의 한 예를 포함하는 블록도다.
도 3은 신호 인핸서 시스템의 한 예의 블록도다.
도 4는 스테레오 신호의 미드-사이드 부분에서 작동하는 일례의 신호 인핸서 시스템의 블록도다.
도 5는 오디오 신호의 개별 공간 슬라이스에 대해 작동하는 개별 신호 인핸서 모듈들의 한 예의 블록도다.
도 6은 블록-기반 분해의 표현과 함께 일례의 임펄스 응답의 구성요소들을 도시한다.
도 7은 도 3에 도시되는 리버브 필 모듈(Reverb Fill module)의 예시적 블록도다.
도 8은 주어진 주파수에서 샘플들의 입력 잔향 시리즈(input reverberation series)의 샘플 구성요소들의 일례의 추정치다.
도 9a는 신호 품질 분석기, 처치 레벨 조정기, 및 디스플레이 모듈의 예시적 블록도다.
도 9b는 스트림 당 또는 트랙 당 처치 이득의 양을 자동적으로 재조정하는 압축 검출 및 처치 알고리즘의 프로세스의 예시적 블록도다.
도 10은 대역폭 향상 신호 처치를 가진 출력 신호의 예시적 디스플레이다.
도 11a 및 11b는 신호 인핸서 시스템에 의한 압축을 나타내기 위한 예시 스펙트럼 뷰(주파수-도메인)을 도시한다.
도 12a 및 12b는 신호 인핸서 시스템에 의한 일시적 향상을 나타내기 위한 예시적 스펙트럼 뷰를 도시한다.
도 13은 예시적 컴퓨팅 시스템이다.
요청에 따라, 본 발명의 상세한 실시예가 여기서 개시되지만, 개시되는 실시예는 다양한 그리고 대안의 형태로 실시될 수 있는 발명의 예시에 불과함을 이해하여야 한다. 도면은 꼭 배율 대로 그려진 것이 아니며, 일부 특징들은 특정 구성요소의 세부사항을 보여주기 위해 과장 또는 최소화될 수 있다. 따라서, 여기서 개시되는 구체적인 구조적 및 기능적 세부사항은 제한적인 것으로 해석되어서는 안되며, 본 발명을 다양하게 이용하기 위해 당 업자를 안내하기 위한 대표 기반으로 해석되어야 한다.
압축 오디오 신호는 지각 오디오 코덱과 같은 소정 형태의 데이터 압축을 거친, 오디오 콘텐트를 지닌 신호다. 공통 유형의 지각 오디오 코덱은 MP3, AAC, 돌비 디지털, 및 DTS를 포함한다. 이러한 지각 오디오 코덱은 오디오 신호의 상당 부분을 폐기함으로써 오디오 신호의 크기를 감소시킨다. 지각 오디오 코덱을 이용하여 오디오 신호 저장에 필요한 공간(메모리)의 양을 감소시킬 수 있고, 또는, 오디오 신호 송신 또는 전달에 필요한 대역폭의 크기를 감소시킬 수 있다. 오디오 신호를 90% 또는 그 이상 압축시키는 것이 대단한 것이 아니다. 지각 오디오 코덱은 사람의 청각계가 소리를 지각하는 방식의 모델을 이용할 수 있다. 이러한 방식으로, 지각 오디오 코덱은 듣는 이의 소리 지각에 가장 관련없는 또는 청감되지 않는다고 간주되는 오디오 신호의 해당 부분들을 폐기할 수 있다. 그 결과, 지각 오디오 코덱은 오디오 신호의 크기를 감소시키면서도, 나머지 신호로 비교적 우수한 지각 오디오 품질을 여전히 유지할 수 있다. 일반적으로, 압축 오디오 신호의 지각 품질은 압축 신호의 비트레이트(bitrate)에 좌우될 수 있다. 비트레이트가 낮다는 것은, 원본 오디오 신호의 더 많은 부분이 폐기되었고, 따라서, 일반적으로, 압축 오디오 신호의 지각 품질이 더 떨어질 수 있음을 표시할 수 있다.
수많은 유형의 지각 오디오 코덱이 존재하며, 각 유형은 원본 오디오 신호의 어느 부분이 압축 프로세스에서 폐기될 것인지를 결정함에 있어서 서로 다른 기준 세트를 이용할 수 있다. 지각 오디오 코덱은 인코딩 및 디코딩 프로세스를 포함할 수 있다. 인코더는 원본 오디오 신호를 수신하고, 이 신호의 어느 부분이 폐기될 것인지를 결정할 수 있다. 인코더는 그 후, 압축 저장 및/또는 전송에 적합한 포맷으로 나머지 신호를 배치한다. 디코더는 압축 오디오 신호를 수신할 수 있고, 이를 디코딩하여, 그 후, 디코딩된 오디오 신호를 오디오 재생에 적합한 포맷으로 변환할 수 있다. 대부분의 지각 오디오 코덱에서, 지각 모델 이용을 포함할 수 있는, 인코딩 프로세스는 압축 오디오 신호의 결과적 품질을 결정할 수 있다. 이러한 경우에, 디코더는 신호를 압축 포맷(통상적으로 소정 형태의 주파수-도메인 표현)으로부터 오디오 재생에 적합한 포맷으로 변환하는 포맷 컨버터로 기능할 수 있다.
신호 인핸서 시스템은, 압축 프로세스에서 버려진 또는 변경된 신호 성분 및 특성을 지각하여 처리 출력 신호에서 복원시킬 수 있도록, 지각 오디오 코덱에 의해 처리된 압축 오디오 신호를 변형할 수 있다. 여기서 사용되는, 오디오 신호라는 용어는, 달리 설명하지 않을 경우, 가청음, 또는, 오디오 콘텐트를 나타내는 전기 신호를 의미할 수 있다.
오디오 신호가 지각 오디오 코덱을 이용하여 압축될 때, 폐기된 신호 성분을 불러오는 것이 불가능하다. 그러나, 신호 인핸서 시스템은 압축 오디오 신호 내 나머지 신호 성분들을 분석하여, 폐기된 성분들 지각적으로 대체할 새 신호 성분들을 발생시킬 수 있다.
일부 경우에, 압축 오디오 신호의 소스의 품질이 오디오 소스에 의해 명백하게 명시될 수 있고, 또는, 오디오 소스에 기초하여 추정될 수 있다. 한 예로서, 특정 품질 및 속도로 인코딩되는 위성 라디오 콘텐트를 알 수 있다. 다른 예에서, 오디오 소스에 대한 코덱 정보 및 현재의 비트레이트와 같은 메타데이터가, 디코딩되는 오디오 파일의 헤더 정보를 통해 또는 버스 메시지를 통해 명시될 수 있다. 이러한 경우에, 신호 인핸서는 오디오 소스에 의해 명시된 품질에 기초하여 처치 레벨(treatment level)을 적용하도록 구성될 수 있다. 다른 경우에, 소스 품질을 알 수 없거나, 쉽게 예측할 수 없다. 이러한 오디오 소스의 일부 예는 아이팟(iPod), USB 드라이브, 블루투스(Bluetooth) 연결을 통해 수신한 오디오, 보조 연결을 통해 수신한 오디오, 또는 알려지지 않은 음악 스트리밍 애플리케이션으로부터 스트리밍되는 오디오를 포함할 수 있다. 이러한 경우에, 신호 인핸서는 들어오는 오디오 자체의 콘텐트 특성에 기초하여 오디오 소스에 적합한 처치 레벨을 자동적으로 검출하도록 구성될 수 있다.
자동 검출은 입력 신호의 처음의 측정 품질에 기초하여 비례 양의 처치(treatment)를 적용하도록 구성될 수 있다. 예를 들어, 브릭월 기울기가 검출될 경우(가령, 12kHz보다 높은 주파수의 하드 컷오프), 그 후 오디오 소스는 압축될 것으로 간주될 수 있고, 처치가 적용될 수 있다. 어떤 브릭월 기울기도 검출되지 않을 경우, 그 후 오디오 소스는 압축되지 않을 것으로 간주될 수 있고, 처치가 불필요하다고 판단되어 적용되지 않는다. 적용될 특정 양의 처치는 브릭월의 주파수 컷오프 점에 기초할 수 있다. 예를 들어, 상대적으로 낮은 컷오프 주파수는 더 많은 양의 처치를 요하는 상대적으로 더 압축된 오디오 스트림을 표시할 수 있고, 상대적으로 높은 컷오프 주파수는 더 적은 양의 처치를 요하는 상대적으로 덜 압축된 오디오 스트림을 표시할 수 있다. 일부 경우에, 컷오프 주파수가 최소 임계치 미만일 경우, 신호 인핸서는 오디오 소스의 품질이 너무 낮아 처리할 수 없음을 결정할 수 있고 어떤 처치도 적용되지 않을 수 있다. 다른 가능성으로서, 컷오프 주파수가 최대 임계치보다 클 경우, 신호 인핸서는 오디오 소스가 처치를 요하지 않을 만큼 충분한 품질을 가짐을 결정할 수 있다.
오디오 트랙에 고주파수 콘텐트가 충분하지 않을 경우, 신호 인핸서는, 낮은 오디오 품질 또는 낮은 오디오 비트레이트에도 불구하고, 어떤 처치도 적용되지 않음을 결정할 수 있다. 한 예에서, 피아노의 오디오 트랙은 브릭월이 쉽게 검출될 수 없도록 고주파수 콘텐트가 결여될 수 있다. 또는, 트랙이 레코딩된 레벨에서 너무 낮을 경우, 신호 인핸서는 어떤 처치도 적용되지 않음을 또한 결정할 수 있다.
초기화될 때, 또는, 갭(가령, 뮤트(mute) 또는 트랙 변경)이 검출될 때, 신호 인핸서는 래치를 리셋할 수 있고, 검출되는 처치 레벨을 0으로 설정할 수 있다. 오디오가 개시되거나 재개될 때, 자동 검출 메커니즘은 (가령, 브릭월 컷오프 주파수 검출을 수행함으로써) 압축을 찾을 수 있다. 트랙이 압축됨으로 식별될 때, 처치 레벨은, 처치 레벨이 다음 트랙까지 좁은 범위 내에서 유지될 수 있도록 설정(즉, 래치)될 수 있다. 이러한 래칭(latching)은 따라서, 펌핑, 가변음, 또는 처치 레이트를 변화시키는 그외 다른 청감 부작용을 방지할 수 있다.
추가적으로 또는 대안으로서, 갭 검출 후, 타이머가 카운팅을 시작할 수 있다. 지정된 시간 주기(가령, 5초) 또는 샘플 수 내에 어떤 압축도 검출되지 않을 경우, 신호 인핸서는 다음 갭이 검출될 때까지 처치를 적용을 않을 것을 선택할 수 있다. 이는 고주파수의 급작스런 등장으로 인한 트랙 중간에서의 예기치 않은 스펙트럼 변화와, 이어지는 처치 레벨 조정을 피할 수 있다.
도 1은 신호 인핸서 시스템(110)의 한 예를 포함하는 블록도다. 신호 인핸서 시스템(110)은 주파수 도메인 또는 시간 도메인에서 작동할 수 있다. 신호 인핸서 시스템(110)은 샘플러 모듈(112)을 포함할 수 있다. 샘플러 모듈(112)은 입력 신호(X)를 실시간으로 수신할 수 있고, 입력 신호(X)를 샘플로 나눌 수 있다. 주파수 도메인에서 작동 중, 샘플러 모듈(112)은 순차적 시간-도메인 샘플들을 수집할 수 있고, (루트-한 윈도(root-Hann window)와 같은) 적절한 윈도잉 함수가 적용되며, 윈도잉된 샘플이 가령, FFT(고속 퓨리에 변환)을 이용하여, 주파수 도메인에서 순차적 빈으로 변환된다. 한 예에서, 샘플러 모듈(112)은 1024-포인트 FFT 및 44.1kHz 샘플링 레이트를 이용할 수 있다. 마찬가지로, 신호 인핸서 시스템(110)의 최종 단계로서, 향상된 주파수-도메인 빈이 샘플러 모듈(112)에 의해 인버스-FFT(인버스 고속 퓨리에 변환)를 이용하여 시간 도메인으로 변환될 수 있으며, (루트-한 윈도와 같은) 적절한 상보 윈도가 적용되어 향상된 시간-도메인 샘플의 블록을 생성할 수 있다. 적어도 50%와 같은, 지정된 양의 오버랩을 이용하여, 주파수 도메인으로 변환하기 전에 시간-도메인 샘플들을 추가 및 윈도잉할 수 있다. 신호 인핸서 시스템(110)의 출력 라인(105) 상의 출력에서, 적어도 50%와 같은, 유사한 지정 오버랩이, 주파수-도메인으로부터 시간-도메인으로 변환에 이어 향상된 시간-도메인 샘플을 구축할 때, 사용될 수 있다. 대안으로서, 신호 인핸서 시스템(110)은 시간 도메인 샘플들의 순차적 블록들을 이용하여 시간 도메인에서 작동할 수 있고, 컨버터가 샘플러 모듈(112)로부터 제거될 수 있다. 논의 및 그림을 단순화하기 위해, 샘플러 모듈(112)과, 시간-주파수 및 주파수-시간 변환에 대한 추가적 논의 및 예시가 생략된다. 따라서, 여기서 설명되는 바와 같이, 순차적 샘플들, 또는 샘플들의 시퀀스는, 샘플러 모듈(112)에 의해 샘플링된 입력 신호(X)의 시간 시리즈 수신에 대응하는 주파수 도메인 빈의 시간 시리즈 시퀀스 또는 시간 도메인 샘플들의 시간 시리즈 시퀀스를, 상호교환가능하게, 나타낼 수 있다.
도 1에서, 신호 인핸서(110)는 지각 오디오 인코더(101) 및 지각 오디오 디코더(103)와 연계하여 사용되는 것으로 예시된다. 원본 오디오 신호(Z)가 오디오 신호 입력 라인(100) 상에서 지각 오디오 인코더(101)에 제공될 수 있다. 지각 오디오 인코더(101)는 오디오 신호 성분을 폐기하여, 압축 비트스트림 라인(102) 상에서 압축 오디오 비트스트림(Q)을 생성할 수 있다. 지각 오디오 디코더(103)는 압축 오디오 비트스트림(Q)을 디코딩하여, (가끔 입력 신호(X)(104)로 불리는) 입력 신호 라인(104) 상에 입력 신호(X)를 생성할 수 있다. 입력 신호(X)는 오디오 재생에 적합한 포맷의 오디오 신호일 수 있다. 신호 인핸서 시스템(110)은 출력 신호 라인(105) 상에 출력 신호(Y)를 생성하도록 입력 신호(X)를 향상시키기 위해, 입력 신호(X)를 샘플들의 시퀀스로 분할하도록 작동할 수 있다. 사이드-체인 데이터는 오디오 코덱의 유형, 코덱 제조사, 비트레이트, 스테레오 대 조인트-스테레오 인코딩, 샘플링 레이트, 고유 입력 채널 수, 코딩 블록 크기, 및 노래/트랙 식별자의 표시사항과 같은, 입력 신호(X)의 처리에 관련된 정보를 지닐 수 있다. 다른 예에서, 오디오 신호(X) 또는 인코딩/디코딩 프로세스에 관련된 다른 정보가 사이드 체인 데이터의 일부분으로 포함될 수 있다. 사이드 체인 데이터는 사이드 체인 데이터 라인(side chain data line)(106) 상에서 지각 오디오 디코더(103)로부터 신호 인핸서 시스템(110)에 제공될 수 있다. 대안으로서 또는 추가적으로, 사이드 체인 데이터는 입력 신호(X)의 일부분으로 포함될 수 있다.
도 2는 지각 오디오 인코더 및 디코더와 연계하여 사용되는 신호 인핸서 시스템(110)의 한 예의 블록도다. 이러한 경우에 지각 오디오 디코더(103)가 신호 인핸서 시스템(110)의 일부분으로 통합될 수 있다. 그 결과, 신호 인핸서 시스템(110)은 압축 비트스트림 라인(102) 상에서 수신되는 압축 오디오 비트스트림(Q)에 대해 직접 작동할 수 있다. 대안으로서, 다른 예에서, 신호 인핸서 시스템(110)이 지각 오디오 디코더(103)에 포함될 수 있다. 이러한 구조에서, 신호 인핸서 시스템(110)은 압축 오디오 비트스트림(Q)(102)의 세부사항에 액세스할 수 있다.
도 3은 신호 인핸서 시스템(110)의 한 예의 블록도다. 도 3에서, 신호 인핸서 시스템(110)은 입력 신호 라인(104) 상에서 입력 신호(X)를 수신할 수 있는 신호 처치 모듈(Signal Treatment Module)(300)을 포함한다. 신호 처치 모듈(300)은 대응하는 신호 처치 라인(310) 상에서 다수의 개별적인 그리고 고유한 신호 처치(ST1, ST2, ST3, ST4, ST5, ST6, ST7)를 생성할 수 있다. 7개의 신호 처치가 예시되지만, 더 적거나 더 많은 수(n)의 신호 처치가 다른 예에서 가능하다. 신호 처치(STn) 각각의 상대적 에너지 레벨은 총 신호 처치(STT)(323) 생성을 위해 제 1 합산 블록(321)에서 함께 가산되기 전에 처치 이득(g1, g2, g3, g4, g5, g6, g7)(315)에 의해 개별적으로 조정될 수 있다. 총 신호 처치(STT)(323) 레벨은 제 2 합산 블록(322)에서 입력 신호(X)(104)에 가산되기 전에 총 처치 이득(gT)(320)에 의해 조정될 수 있다.
신호 처치 모듈(300)은, 각자의 구성요소 각각에 대해 샘플 단위 원칙으로 순차적으로 신호 처치(310)를 생성하기 위해, 입력 신호(X)의 순차적 샘플들의 개별 샘플 성분들에 대해 작동하는, 하나 이상의 처치 모듈(301, 302, 303, 304, 305, 306, 307)을 포함할 수 있다. 순차적 샘플들의 개별 샘플 성분은 오디오 신호의 서로 다른 특성에 관련될 수 있다. 대안으로서 또는 추가적으로, 신호 처치 모듈(300)은 더 많거나 더 적은 수의 처치 모듈(300)을 포함할 수 있다. 예시되는 모듈들은 독립적일 수 있고, 또는, 모듈 생성을 위한 다양한 임의의 조합에서 형성되는 서브 모듈일 수도 있다.
도 4는 가령, 미드-사이드 성분 모듈(400)에 의해 추출되는, 입력 신호(X)의 미드-사이드 성분에 대해 작동하는 신호 인핸서 시스템(110)의 한 예다. 용어 "미드-사이드"(mid-side)는 스테레오 오디오 신호의 오디오 정보를 의미하며, 좌측 및 우측 스테레오 채널 모두에 공통인 오디오 정보가 오디오 정보의 "미드" 신호 성분으로 간주되고, 오디오 정보의 "사이드" 신호 성분은 좌측 및 우측 스테레오 채널 간에 서로 다른 오디오 정보다. 지각 오디오 코덱은 지각 오디오 코덱의 성능 개선을 위해 오디오 신호의 미드-사이드 성분들에 대해 작동할 수 있다. 이러한 상황에서, 인코더는 사이드 신호 성분을 더 많이 폐기할 수 있고, 그러면서 미드 신호 성분을 더 많이 보유할 수 있다. 이와 같이, 이러한 상황에서, 신호 인핸서 시스템(110)이 스테레오 신호의 좌측 및 우측 채널에 직접적으로보다, 스테레오 입력 신호(X)의 미드-사이드 신호 성분에 대해 작동할 경우, 신호 인핸서 시스템(110)의 작동의 최적화가 개선될 수 있다.
도 4에서, 스테레오 - 미드-사이드 모듈(stereo to Mid-Side module)(400)은 스테레오 입력 신호(X)를 미드-사이드 신호 구조(Xms)로 변환할 수 있고, 이는 다시 미드-사이드 신호 라인(401) 상에서의 처리를 위해 신호 인핸서 시스템(110)에 제공될 수 있다. 신호 인핸서 시스템(110)은 향상된 미드-사이드 신호(Yms) 생성을 위해 미드-사이드 신호(Xms)에 대해 작동할 수 있다. 향상된 미드-사이드 신호(Yms)는 향상된 미드-사이드 신호 라인(402) 상에서 미드-사이드 - 스테레오 모듈(Mid-Side to Stereo module)(403)에 공급될 수 있다. 미드-사이드 - 스테레오 모듈(403)은 향상된 미드-사이드 신호(Yms)를, 출력 라인(105) 상에 공급되는 스테레오(좌측 및 우측 채널) 출력 신호(Y)로 변환할 수 있다.
도 5는 공간 슬라이스 분해 모듈(500)로부터 도출될 수 있는 공간 슬라이스 스트림 라인(501) 상의 한 세트 "n"개의 공간 슬라이스 스트림(XSS1, XSS2, XSS3,...,XSSn)에 대해 작동하는 한 세트 "n"개의 신호 인핸서 시스템(110)의 한 예다. 공간 슬라이스 분해 모듈(500)은 입력 신호 라인(104) 상에서 스테레오 또는 멀티-채널 오디오 입력 신호(X)를 수신할 수 있고, 한 세트의 공간 슬라이스 스트림을 생성할 수 있다. 공간 슬라이스 스트림은 지각되는 스테레오 또는 멀티-채널 사운드스테이지 내의 오디오 신호 소스의 공간적 위치에 기초하여 입력 신호를 분해하는 공간 필터뱅크의 출력을 지닐 수 있다. 공간 슬라이스 스트림(501) 생성을 위해 입력 신호를 공간 슬라이스로 분해하기 위한 한가지 가능한 방법이, 미국특허출원 제12/897,709호(발명의 명칭: "SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS")에 설명되고 있고, 그 내용 전체는 본 발명에 포함된다.
도 5에서, "n"개의 신호 인핸서(110) 각각은 향상된 출력 스트림 라인(502) 상에서 향상된 출력 스트림(YSS1, YSS2, YSS3,...,YSSn)을 생성한다. "n"개의 출력 스트림은 합산 모듈(503)에서 조합되어, 출력 라인(105) 상에 출력 신호(Y)를 생성한다. 시스템의 개선된 성능은, 각각의 신호 인핸서 시스템(110)이 오디오 입력 신호(104)의 더 분리된 샘플 성분들에 대해 작동될 수 있기 때문에, 개별 공간 슬라이스 스트림 상에서 개별 신호 인핸서 시스템(110)에 작동할 때 획득할 수 있고, 따라서, 각각의 공간 슬라이스 스트림(XSSSn)에 적합한 신호(ST1, ST2, ST3, ST4, ST5, ST6, ST7)를 더 잘 도출할 수 있다. 임의의 개수의 서로 다른 신호 처치(ST1, ST2, ST3, ST4, ST5, ST6, ST7)가, 각자의 공간 슬라이스 스트림(XSSn) 각각의 샘플에 포함된 서로 다른 샘플 성분들에 대해 독립적으로 도출될 수 있다.
도 3에서, 신호 처치 모듈(300)은 오디오 신호, 또는, 오디오 신호로부터 생성된 공간 슬라이스 스트림의 각자의 순차적 샘플의 개별 샘플 성분들에 대한 신호 처치(ST1, ST2, ST3, ST4, ST5, ST6, ST7)를 도출하기 위해 하나 이상의 처치 모듈(301, 302, 303, 304, 305, 306, 307)을 포함할 수 있다. 각각의 처치 모듈(301, 302, 303, 304, 305, 306, 307)은 오디오 신호 또는 공간 스트림에 관련된 서로 다른 특성에 대해 신호 처치(ST1, ST2, ST3, ST4, ST5, ST6, ST7)를 도출할 수 있다. 예시적인 오디오 신호 특성은 대역폭, 고조파, 트랜션트(transient), 확장(expansion), 잔향, 마스킹, 및 고조파 위상 정렬(harmonic phase alignment)을 포함한다. 다른 예에서, 신호 처치는 오디오 신호에 관한 더 많은 또는 더 적은 특성에 대해 도출될 수 있다. 신호 처치는 각자의 처치 모듈의 특성에 대응하는 오디오 신호의 빠진 부분들에 대해 도출될 수 있다. 따라서, 신호 처치는 일련의 샘플 내 개별 샘플 성분들로부터 빠진 것으로 식별되는 오디오 신호의 다양한 서로 다른 특성의 대체 부분을 효과적으로 공급할 수 있다. 따라서, 각자의 특성의 잃어버린 부분들이 식별되는 시리즈 내 샘플 성분들 중 일부는 신호 처치를 적용받을 수 있고, 각자의 특성의 어떤 빠진 부분도 식별되지 않는 시퀀스 내 다른 샘플 성분들에는 신호 처치가 적용되지 않을 수 있다.
오디오 신호의 빠진 부분인 대역폭 특성과 관련하여, 상대적으로 낮은 비트레이스에서 작동하는 것을 포함한, 일부 지각 오디오 코덱은, 지정된 소정의 임계치보다 높은 신호 성분들을 폐기함으로써 압축 신호의 대역폭을 제한할 수 있다는 것이다. 예를 들어, 지각 오디오 코덱은, 가령, 12kHz보다 높은, 기결정된 주파수보다 높은, 모든 주파수 성분을 청감상 덜 중요하다고 간주하여, 이를 폐시할 수 있다. 대역폭 확장 모듈(301)은, 이러한 기결정된 컷오프 주파수(Fx)보다 높은, 신호 성분 또는 신호 처치(ST1)를 발생시키기 위해 입력 신호(X)에 대해 작동할 수 있다. 대역폭 확장 모듈(301)은 입력 신호(X)를 분석하여, 입력 신호가 존재할 경우, 입력 신호의 컷오프 주파수(Fx)를 결정할 수 있다. 컷오프 주파수(Fx)를 알 경우, 이를 이용하여, 오디오 신호의 대응하는 샘플 성분들 내 이러한 특성의 부재를 보상하기 위해, 기결정된 컷오프 주파수(Fx)보다 높은 새 신호 성분을 가진 신호 처치 스트림(ST1)의 발생을 안내할 수 있다.
대안으로서, 또는 추가적으로, 사이드-체인 정보(106)가 도 1에 도시되는 바와 같이 지각 오디오 디코더(103)로부터 가용하는 경우에, 컷오프 주파수(Fx)는 대역폭 확장 모듈(301)에 제공될 수 있다. 다른 경우에, 지각 오디오 디코더(103) 및 신호 인핸서 시스템(110)이 도 2의 예에서와 같이 통합된 경우에, 컷오프 주파수(Fx)는 지각 오디오 디코더(103)에 의해 대역폭 확장 모듈(301)에 직접 제공될 수 있다.
오디오 신호의 빠진(missing) 또는 잃어버린(lost) 부분인 고조파의 특성과 관련하여, 상대적으로 낮은 비트레이트에서 작동하는 것을 포함한, 일부 지각 오디오 코덱은, 신호 내의 주어진 시점에서 압축 신호 내의 소정의 "중간 고조파"를 폐기할 수 있다. 예를 들어, 소정의 시점에서, 지각 오디오 코덱은 여러개의 상대적으로 낮은 차수 고조파와 함께 특정 음원의 기본 주파수 성분을 보유할 수 있다. 지각 오디오 코덱은 신호의 최고 차수 고조파의 전부 또는 일부를 또한 보존할 수 있고, 그러면서 음원의 중간 고조파들 중 하나 이상을 폐기할 수 있다. 인밴드 고조파 필 모듈(Inband Harmonic Fill module)(302)은, 지각 오디오 코덱이 오디오 신호의 하나 이상의 중간 고조파 특성을 폐기한 이벤트를 검색하기 위해, 입력 신호(X)(104)를 분석할 수 있다. 인밴드 고조파 필 모듈(302)은 오디오 신호의 샘플 성분으로부터 빠진 이러한 특성에 응답하여 오디오 신호에 적용할 새 중간 고조파를 가진 신호 처치 스트림(ST2)을 발생시키도록 작동할 수 있다.
오디오 신호의 빠진 부분인 트랜션트의 특성과 관련하여, 상대적으로 낮은 비트레이트로 작동하는 것을 포함한, 일부 지각 오디오 코덱은, 트랜션트 신호의 "스미어링"(smearing)을 야기할 수 있다. 이러한 유형의 코딩 부작용은 "프리-에코"(pre-echo)로 설명될 수 있고, 트랜션트 신호가 날카로운 어택(attack)을 갖고 트랜션트 이벤트 시간에 다른 신호 성분에 비해 상대적으로 클 때(loud) 가장 쉽게 들릴 수 있다. 프리-에코는 트랜션트 신호 성분의 지각 덜링(dulling)을 야기하는 경향이 있다. 트랜션트 향상 모듈(303)은 오디오 신호의 성분 샘플로부터 빠진 것으로 이러한 특성을 식별하려 시도할 수 있고, 트랜션트 신호 성분의 지각되는 날카로운 어택을 복원하도록 신호 처치를 도출할 수 있다. 트랜션트 향상 모듈(303)은 입력 신호(X)를 분석하여, 빠진 특성의 식별을 위해 트랜션트 이벤트 및 트랜션트 신호 성분을 식별할 수 있다. 트랜션트 향상 모듈(303)은 기존 트랜션트 신호 성분의 시작의 인지를 향상시키기 위해, 오디오 신호에 적용하기 위한 새 트랜션트 신호 성분을 지닌 신호 처치 스트림(ST3)을 발생시키도록 작동할 수 있다.
오디오 신호에서 트랜션트를 검출하기 위한 예시적 방법은 다음의 활동을 포함할 수 있다. 시간-도메인 입력 신호 샘플의 현 블록에 대한 FFT 빈의 크기가 컴퓨팅되어, 히스토리 버퍼에 저장된다. FFT 빈의 현 세트의 크기는 빈 단위로 FFT 빈의 과거 세트의 크기에 비교되고, 현 세트 및 과거 세트는 샘플의 각자의 시리즈의 샘플 성분들의 시리즈를 나타낸다. FFT 빈의 과거 세트의 크기는 히스토리 버퍼에 미리 저장된 바 있고, 이러한 비교를 위해 불러들여진다. 현 FFT 빈의 크기가, 크기 임계치와 같은, 기결정된 임계치만큼 과거 FFT 빈의 크기를 넘어서는 경우의 빈의 수치가 카운팅된다. 카운트가 결정된 카운트 임계치를 넘어설 경우, 시간-도메인 샘플의 현 블록이 트랜션트 이벤트를 포함함이 결정된다. 20dB과 같은 기결정된 값이, 트랜션트 검출을 위한 크기 임계치용으로 적합할 수 있다. 과거 FFT 빈은 샘플의 현 블록보다 하나 또는 2개의 블록 뒤로부터 얻을 수 있다. 즉, 히스토리 버퍼는 샘플의 샘플 성분의 순차적 처리로 하나 또는 2개의 처리 블록의 지연을 나타낼 수 있다.
오디오 신호의 빠진 또는 잃어버린 부분인 확장 특성과 관련하여, 상대적으로 낮은 비트레이트에서 작동하는 것을 포함한, 일부 지각 오디오 코덱은, 오디오 신호가 가청음으로 생성될 때 듣는 이에 의해 지각되는 스테레오 사운드스테이지의 지각 협소화(perceived narrowing)를 야기할 수 있다. 즉, 원본 비압축 오디오 신호에서 극좌 또는 극우에 위치하는 것으로 지각되는 소리는 압축 과정 중 다른 소리에 비해 감쇠될 수 있다. 그 결과, 결과적인 오디오 신호는 "모노포닉"(monophonic) 경향이 크고 "스테레오포닉"(stereophonic) 경향이 작은 것으로 지각될 수 있다. 사운드스테이지 향상 모듈(304)은 일련의 샘플 성분 내 이러한 특성에 관련된 오디오 신호의 빠진 또는 잃어버린 부분을 식별할 수 있고, 발생되는 신호 처치로 입력 신호(X)의 극좌 또는 극우에 위치하는 것으로 지각되는 신호 성분을 증폭시킬 수 있다. 예를 들어, 사운드스테이지 향상 모듈(304)은 극좌 또는 극우 신호 성분을 추출하도록 작동할 수 있고, 이러한 신호 성분들의 증폭 버전을 지닌 신호 처치 스트림(ST4)을 발생시킬 수 있다. 기존 극좌 또는 극우 신호 성분의 추출을 위한 한가지 가능한 방법은 미국특허출원 제12/897,709호(발명의 명칭: "SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS")에 설명되어 있고, 그 내용 전체는 본 발명에 포함된다.
오디오 신호의 빠진 또는 잃어버린 부분인 잔향 특성과 관련하여, 상대적으로 낮은 비트레이트에서 작동하는 것을 포함한, 소정의 지각 오디오 코덱은, 오디오 신호의 "앰비언스"(ambience) 또는 "잔향" 특성의 지각 감소를 야기할 수 있다. 이러한 잔향 특성 감소는 오디오 신호의 잃어버린 부분으로 인한 소리의 세부사항의 지각 손실과, 전체 소리의 지각 "덜링"(dulling)으로 나타날 수 있다. 잔향 감소는 전체 음장의 폭 및 지각 크기를 또한 감소시킬 수 있다. 리버브 필 모듈(Reverb Fill module)(305)은 입력 신호(X)를 드라이(dry) 잔향 신호 성분으로 분해하도록 작동할 수 있다. 리버브 필 모듈(305)은 그 후, 대응하는 샘플 성분 내 오디오 신호의 빠진 부분을 식별하도록 작동할 수 있고, 샘플 성분 내 잔향의 지각 레벨을 증가시킬 수 있으며, 새 잔향 신호 성분을 지닐 수 있는, 그리고, 오디오 신호의 일부분이 빠졌다고 결정되는 샘플의 시퀀스의 샘플 성분들에게만 적용하기 위한 증폭된 잔향 신호 성분들을 지닐 수 있는, 신호 처치 스트림(ST5)을 발생시킬 수 있다.
입력 신호(X)를 드라이 잔향 신호 성분으로 분해하기 위한 가능한 방법이 미국특허 제8,180,067호(발명의 명칭: "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL") 및 미국특허 제8,036,767호(발명의 명칭: "SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL")에 설명되어 있고, 그 내용 전체는 본 발명에 포함된다.
오디오 신호의 빠진 또는 잃어버린 부분이 마스크 신호 특성인 경우에, 상대적으로 낮은 비트레이스로 작동하는 것을 포함한, 소정의 지각 오디오 코덱은, 신호 내 로우-레벨 세부사항 및 선명도의 지각 감소를 야기할 수 있다. 이는 예를 들어, 지각 모델에 따르면, 대부분의 듣는 이에게 가청불가능하다고 판단되는, 신호 성분들을 버린 지각 오디오 코덱에 의해 야기될 수 있다. 통상적으로, 지각 모델은 제 1 신호 성분을 마스킹할 수 있는 다른 지배적 신호 성분이 존재할 경우 소정의 제 1 신호 성분을 가청불가한 것으로 식별할 것이다. 즉, 사람의 청감계의 마스킹 성질로 인해, 지배적 신호 성분이 제 1 신호 성분을 가청불가하게 렌더링(마스킹)할 수 있다. 그러나, 각자의 듣는 이의 마스킹 성질은 약간씩 다르며, 지각 오디오 코덱의 지각 모델은 한명의 듣는 이의 마스킹 성질에 근사할 수 있을 뿐이다. 그 결과, 지각 오디오 코덱은 일부 듣는 이에게 청감되는 소정의 신호 성분들을 폐기할 수 있다.
마스킹된 신호 필 모듈(Masked Signal Fill module)(306)은 오디오 신호의 대응하는 샘플 성분의 빠진 부분들을 식별하도록 작동할 수 있고, 마스킹되고 있는 임계치에 딱 놓이도록 로우-레벨 신호 성분을 증폭시키도록 작동할 수 있다. 마스킹된 신호 필 모듈(306)은 입력 신호(X)를 수신하여, 각각의 주파수에 대해 "동시적 마스킹 임계치"를 결정하기 위해 지각 모델을 적용할 수 있다. 동시적 마스킹 임계치는 소정의 주파수에서 신호 성분이 다른 주파수에서의 신호 성분에 의해 마스킹됨을 지각 모델이 결정할 때의 레벨을 표시한다. 예를 들어, 1100Hz에서의 신호 성분이, 1000Hz에서 충분히 큰(loud) 신호 성분이 존재할 경우, 가청불가일 수 있다. 본 예에서, 동시적 마스킹 임계치는 (1100Hz와 같은) 다른 주파수에서의 신호 성분이 1000Hz에서의 신호 성분에 의해 마스킹될 때의 레벨을 표시한다. 따라서, 1100Hz에서의 신호 성분의 레벨이 동시적 마스킹 임계치 미만으로 떨어질 경우, 지각 모델은 이 신호 성분이 마스킹(가청불가)될 것임을 결정한다.
본 예를 계속하자면, 마스킹된 신호 필 모듈(306)이 1100Hz에서의 신호 성분이 동시적 마스킹 임계치 아래로 떨어짐을 결정하여 오디오 신호의 대응하는 샘플 성분의 잃어버린 부분을 식별할 경우, 마스킹된 신호 필 모듈(306)은, 1100Hz에서의 신호 성분이 동시적 마스킹 임계치에 도달하도록, 1100Hz에서의 신호 성분의 증폭 버전을 지닐 수 있는 신호 처치 스트림(ST6)을 발생시킬 수 있다. 마찬가지로, 마스킹된 신호 필 모듈(306)은 대응하는 샘플 성분들을 식별하도록 모든 주파수에서 신호 성분들에 대해 이러한 작동을 수행할 수 있어서, 다양한 주파수에서 증폭된 신호 성분들 지닌 신호 처치 스트림(ST6)을 발생시킬 수 있고, 따라서, 모든 주파수에서 신호 성분들이 동시적 마스킹 임계치에 도달할 수 있게 된다.
동시적 마스킹 임계치를 결정하기 위한 지각 모델의 한 예가 미국특허 제8,180,067호(발명의 명칭: "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL") 및 미국특허 제8,036,767호(발명의 명칭: "SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL")에 설명되어 있고, 그 내용 전체는 본 발명에 포함된다. 일반적으로, 지각 모델은 (일련의 샘플들에 대한 성분 샘플의 다수의 스냅샷에 걸쳐서와 같이) 시간에 따른 성분 샘플들의 발생 중 시간-기반 청각 마스킹 추정치와, 주파수-기반 청각 마스킹 추정치 중 적어도 하나에 기초하여 평활화(smoothing)를 수행할 수 있다.
고조파-풍부 신호의 기본 및 고조파 성분의 위상은 시간에 걸쳐 서로를 추적(tracking)하는 경향을 가질 수 있다. 즉, 고조파-풍부 신호의 기본 및 고조파 성분들이 소정의 방식으로 정렬되는 경향을 가질 수 있다. 고조파 위상 정렬 특성이 오디오 신호의 빠진 또는 잃어버린 부분인 경우와 관련하여, 상대적으로 낮은 비트레이트에서 작동하는 것을 포함한, 일부 지각 오디오 코덱은, 주어진 음원의 고조파의 위상이 위상 관련 정렬성을 잃게 할 수 있다. 샘플 성분의 빠진 부분으로 위상 정렬의 이러한 손실은 신호의 적어도 고차수 고조파에서 발생할 수 있다. 이러한 위상 정렬 손실은 다른 방식으로 듣는 이에 의해 지각될 수 있다. 위상 정렬 손실의 한가지 공통된 결과는 상대적으로 높은 주파수에서 통상적으로 청감되는 "쌩하는"(swooshing) 소리다. 고조파 위상 정렬 모듈(307)은 시간에 걸쳐 고조파 관련 신호 성분들을 위상-정렬시키도록 작동할 수 있다. 고조파 위상 정렬 모듈(307)은 입력 신호(X)를 분석하여 (트랜션트 또는 잡음-형 신호 성분에 반해) 토널 신호 성분을 찾을 수 있고, 토널 성분이 고조파에 관련되는지를 결정할 수 있다. 추가적으로, 고조파 위상 정렬 모듈(307)은 고조파 관련 토널 성분의 위상이 시간에 걸쳐 정렬되는지 여부를 결정할 수 있다. 대응하는 샘플 성분들 내 특성들이 오디오 신호의 빠진 부분으로 식별되는 경우에, 정렬되지 않은 고조파의 위상들이 조정될 수 있다. 고조파 위상 정렬 모듈(307)은 이러한 정렬되지 않은 토널 성분의 위상-정렬 버전을 지닐 수 있는 신호 처치 스트림(ST7)을 발생시킬 수 있다. 대안으로서, 또는 추가적으로, 고조파 위상 정렬 모듈(307)은 토널 성분의 일부 다른 형태의 정렬을 제공할 수 있다.
입력 신호(X)(104)가 스테레오 또는 멀티채널일 경우, 이는 도 5를 참조하여 설명되는 바와 같이 신호 인핸서(110)에 의해 처리되기 전에 공간 슬라이스(501)로 분해될 수 있다. 신호를 공간 슬라이스로 분해하기 위한 시스템 및 방법은 미국특허출원 제12/897,709호(발명의 명칭: "SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS")에 설명되고 있고, 그 내용 전체는 본 발명에 포함된다. 입력 신호를 공간 슬라이스로 분해함으로써, 공간 슬라이스(XSS1, XSS2, XSS3,..,XSSn)(501) 각각 내에 수용되는 신호 성분에 다양한 처치(301, 302, 303, 304, 304, 305, 306, 307)를 더 정밀하게 적용할 수 있다. 예를 들어, 트랜션트 신호가 주어진 공간 슬라이스 내에 위치할 경우, 트랜션트 향상 처치(303)가 상기 공간 슬라이스 내에만 적용될 수 있고, 다른 공간 슬라이스 내 논-트랜션트 신호 성분에는 영향을 미치지 않을 수 있다.
적절한 처치가 공간 슬라이스 각각에 적용되면, 각각의 공간 슬라이스로부터 향상된 출력 스트림(YSS1, YSS2, YSS3,..YSSn)(502)이 합산 모듈(503)에서 조합되어, 출력 라인(105) 상에 복합 출력 신호(Y)를 생성할 수 있다.
주어진 공간 슬라이스 내 신호 성분에 적용되는 다양한 처치는 입력 신호(X)의 콘텐트가 변화하기 때문에 시간에 걸쳐 변화할 수 있다. 위 예를 이용하여, 트랜션트 향상 처치(303)는 트랜션트 신호 성분이 해당 공간 슬라이스에서 검출되었을 때의 시간 동안 주어진 공간 슬라이스 내 샘플 구성요소들 중 일부에만 적용될 수 있다.
음악 또는 연설과 같은 오디오 신호는 소정 양의 잔향을 통상적으로 지닌다. 이러한 잔향은 오디오 신호가 녹음된 룸(가령, 콘서트 홀)에 기인할 수 있고, 또는, 전자적으로 추가될 수 있다. 잔향 소스는 잔향 시스템으로 불린다. 잔향 특성은 잔향 시스템의 임펄스 응답에 의해 결정된다. 잔향 시스템의 임펄스 응답은 한 세트의 블록으로 나누어질 수 있다. 임펄스 응답 추정기(Impulse Response Estimator)(910)는 입력 신호에 대해 작용하여, 임펄스 응답의 주파수 도메인 표현의 지각적으로 관련된 추정치를 생성할 수 있다. 일반적으로, 임펄스 응답 추정기는 임펄스 응답의 블록-기반 추정치를 생성하기 위해 입력 신호에 대해 작용할 수 있다. 임펄스 응답의 블록-기반 추정치는 임펄스 응답의 주파수 도메인 추정치에 대응하는 복수의 블록 추정치로 구성된다.
도 6은 임펄스 응답의 한 예다. 제 1 수직선은 직접음 성분(602)을 나타내고, 나머지 선들을 반사를 나타낸다. 각 라인의 높이는 진폭을 표시하고, 시간축(t) 상의 위치는 마이크로폰과 같은, 소리 측정 장치에서의 도달 시간을 표시한다. 시간이 흘러감에 따라, 반사 횟수는 더이상 개별 반사를 식별할 수 없는 지점까지 증가한다. 궁극적으로, 반사는 확산 지수 붕괴 시스템(diffuse exponentially decaying system)으로 진화한다. 이는 흔히 임펄스 응답의 잔향 테일(604)로 불린다.
소위 조기 반사(606)는 직접음 성분(602) 후 곧 도달하며, 잔향 테일과는 다른 지각 효과를 가진다. 이러한 조기 반사는 마이크로폰과 오디오 신호의 소스 간의 거리와 음향 공간의 크기에 관한 지각 큐(perceptual cues)를 제공한다. 조기 반사(606)는 개선된 선명도 및 양해도(intelligibility) 소리에 제공할 수 있다는 점에서 또한 중요하다. 잔향 테일은 음향 공간에 관한 지각 큐를 또한 제공한다.
임펄스 응답은 퓨리에 변환(또는 그외 다른 변환)을 연산함으로써 주파수 도메인에서 또한 보일 수 있고, 따라서, 잔향 시스템은 주파수 도메인 표현 H(ω)으로 설명될 수 있다. 변수 ω는 주파수를 표시한다. 임펄스 응답은 퓨리에 표현은 크기 응답 및 위상 응답을 모두 제공한다. 일반적으로 말해서, 크기 응답은 임펄스 응답 내 서로 다른 주파수 성분들의 상대적 레벨에 관한 정보를 제공하고, 위상 응답은 주파수 성분의 시간적 형태에 관한 정보를 제공한다.
리버브 필 모듈(Reverb Fill Module)(305)은 입력 신호의 잔향 에너지 크기의 추정치의 주파수 도메인 추정치를 생성할 수 있다. 잔향 에너지의 크기의 이러한 추정치를 입력 신호로부터 빼서, 입력 신호의 드라이 오디오 신호 성분의 크기 추정치를 제공할 수 있다. 잔향 입력 신호의 위상은 원본 드라이 신호의 위상에 근사하는데 사용된다. 여기서 사용되는 "드라이 신호"(dry signal), "드라이 신호 성분", "드라이 오디오 신호 성분", 또는 "직접적 신호 성분"은 오디오 신호 내 존재하는 잔향 에너지를 거의 갖지 않는 오디오 신호 또는 오디오 신호의 일부분을 나타낸다. 따라서, 원본 드라이 신호는 거의 전적으로 직접적 소리 임펄스(602)로 이루어지기 때문에 잔향 에너지를 거의 갖지 않을 수 있다. 여기서 사용되는 "잔향 에너지", "잔향 입력 신호", "잔향 성분"("reverberant component"), "잔향 신호 성분"("reverberant signal component"), "잔향 성분"("reverberation component"), 또는, "잔향 신호 성분"("reverberation signal component")은 조기 반사와, 잔향 신호의 잔향 테일을 의미한다. 추가적으로, 오디오 신호와 관련하여, 여기서 사용되는 "성분" 또는 "성분들"은 하나 이상의 성분을 나타낸다.
잔향 입력 신호의 위상이, 전체적으로 전체 임펄스 응답을 이용하여 원본 드라이 신호의 위상에 근사하는데 사용될 경우, 심각한 시간-도메인 부작용이 처리 신호에서 청감될 가능성이 높다. 따라서, 리버브 필 모듈(305)은 전체 임펄스 응답의 추정치를 블록(608)으로 나눌 수 있고, 블록-기반 방식으로 처리가 수행될 수 있다. 블록(608)의 기-결정된 길이는 처리되는 출력 신호의 위상 내 에러로 인해 시간-도메인 부작용이 사람의 귀에 의해 지각될 수 없을 만큼 충분히 짧을 수 있다.
2개의 요인이 조합하여, 잔향 입력 신호가 주어진 주파수에서 붕괴하는 속도를 결정할 수 있다. 제 1 요인은 드라이(즉, 비-잔향) 음원의 붕괴 속도이고, 제 2 요인은 잔향 시스템의 붕괴 속도다. 주어진 주파수에서 잔향 시스템의 붕괴 속도가 시간에 따라 비교적 일정하지만, 드라이 음원의 붕괴 속도는 연속적으로 변화한다. 드라이 음원이 주어진 주파수에서 중지될 때 입력 신호(X)에 대해 가능한 가장 빠른 붕괴 속도가 나타나고, 신호 붕괴는 전적으로 잔향 시스템의 붕괴에 기인한다. 도 6의 예에서, 드라이 음원은, 예를 들어, 조기 반사(606)의 시간에서 중지될 수 있다. 주어진 주파수에서 잔향 시스템의 붕괴 속도는 해당 주파수에서 잔향 시스템의 임펄스 응답에 의해 직접 결정될 수 있다. 따라서, 입력 신호(X)는 잔향 시스템의 임펄스 응답에 의해 지시되는 속도보다 빠른 속도로 붕괴되어서는 안된다.
도 7은 리버브 필 모듈(305)의 더 상세한 모습을 도시한다. 리버브 필 모듈(305)은 입력 신호(X)(104)를 수신하고, 신호 처치(310)(ST5)를 출력으로 제공할 수 있다. 임펄스 응답 추정기(Impulse Response Estimator)(710), 리버브 드롭-아웃 검출기 모듈(Reverb Drop-out Detector Module)(711) 및 리버브 드롭-아웃 필 모듈(Reverb Drop-out Fill Module)(712), 및 분해 프로세서 모듈(Decompose Processor module)(713)이 리버브 필 모듈(305)에 포함될 수 있다. 다른 예에서, 더 적거나 더 많은 수의 모듈들이 논의되는 기능 실현을 위해 설명될 수 있다.
임펄스 응답 추정기(710)는 입력 신호(X)의 잔향 시스템의 임펄스 응답의 추정치를 도출하는데 사용될 수 있다. 입력 신호(X)의 잔향 시스템의 임펄스 응답을 추정하기 위한 한가지 가능한 방법이 미국특허 제8,180,067호(발명의 명칭: "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL") 및 미국특허 제8,036,767호(발명의 명칭: "SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL")에 설명되어 있고, 그 내용 전체는 본 발명에 포함된다.
도 8은 리버브 필 모듈(305)에 의해 추정될 수 있는 오디오 신호의 잔향 성분의 추정치의 한 예다. 분해 프로세서 모듈(713)은 입력 신호의 앞서 논의된 샘플 성분들 중 하나인 입력 리버브 성분(802)의 도출을 위해 입력 신호(X)에 대해 작동할 수 있다. 입력 리버브 성분(802)은 입력 신호의 특성 또는 잔향 성분(잔향)의 추정치로 구성될 수 있다. 입력 신호(X)의 입력 리버브 성분(802)을 도출하기 위한 한가지 가능한 방법이 미국특허 제8,180,067호(발명의 명칭: "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL") 및 미국특허 제8,036,767호(발명의 명칭: "SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL")에 설명되어 있고, 그 내용 전체는 본 발명에 포함된다. 예상 붕괴 속도(806)가, 분해 프로세서 모듈(713)에 의해 임펄스 응답으로부터 각각의 순차적 샘플에 대해 직접 결정될 수 있다. 도 8에서, 입력 리버브 성분(802)이, 주어진 주파수에서 소정의 시간 주기(t) 동안 샘플 성분들의 시퀀스로 예시된다. 입력 리버브 성분(802)은 소정의 시점에서 성장(증가)하고, 다른 시점에서 붕괴됨을 알 수 있다.
도 7 및 8을 참조하면, 리버브 드롭-아웃 검출기(711)는 서로 다른 시점에서 입력 리버브 성분(802)의 붕괴 속도를 예상 붕괴 속도(806)에 비교할 수 있다. 리버브 드롭-아웃 검출기(711)는 개별 샘플 성분에서, 하나 이상의 리버브 드롭-아웃(804)을 오디오 신호의 빠진 또는 잃어버린 부분으로 식별할 수 있고, 이 경우 입력 리버브 성분(802)은 예상 붕괴 속도(806) 미만으로 떨어진다. 리버브 드롭-아웃 필 모듈(712)은 리버브 드롭-아웃(804)으로 인해 잃어버린 에너지 보상을 위한 신호 처치로, 리버브 필 처치를 생성하도록 작동할 수 있다. 도 8에 도시되는 바와 같이, 신호 처치는 오디오 신호의 일부분이 빠진, 해당 샘플 성분들에만 적용된다. 따라서, 샘플 성분들의 시퀀스가 순차적으로 처리됨에 따라, 신호 처치는 입력 신호의 빠진 또는 잃어버린 부분을 가진 것으로 식별되는 샘플 성분들에만 선택적으로 적용될 수 있다.
도 9a는 향상 컨트롤러 모듈(900)과 연결된 신호 인핸서 모듈(110)의 블록도 예시다. 향상 컨트롤러 모듈(900)은 처치 레벨 조정기 모듈(901), 신호 품질 분석기 모듈(902), 및 디스플레이 모듈(906)을 포함할 수 있다. 작동 중, 신호 처치 모듈(300)은 신호 품질 분석기(902)에 처치 요건 인디케이터를 제공할 수 있다. 처치 요건 인디케이터는 입력 신호(X)의 식별된 빠진 부분으로 인해 요구되는 신호 처치의 양에 관하여 다양한 처치 모듈(301, 302, 303, 304, 305, 306, 307)로부터 관련 정보를 제공할 수 있다.
가능한 처치 요건 인디케이터의 한 예로서, 대역폭 확장 모듈(301)(도 3)은 입력 신호(X)의 컷오프 주파수(Fx)의 추정치를 제공할 수 있다. 컷오프 주파수는 주파수 스펙트럼 그래프에서의 모습으로 인해 종종 브릭월 또는 브릭월 주파수로 불릴 수 있다. 브릭월(brickwall)은 통상적으로 10-19kHz 영역에서, 압축에 의해 나타나는 가파른 하드 컷오프 주파수를 표시할 수 있다. 컷오프 주파수 지점 위에는 입력 신호(X)에 실질적으로 정보가 없다. 사용되는 압축 유형에 따라, 또는 사용되는 압축의 차이에 따라, 브릭월의 주파수가 트랙마다 바뀔 수 있고, 또는 심지어 트랙 중에 일시적으로 사라질 수 있다. 낮은 값의 컷오프 주파수는, 지각 오디오 인코더(101)이 원본 오디오 신호(Z)(100(도 1)에 대해 더 공격적으로 작용하여, 따라서, 입력 신호(X)가 신호의 고주파수 부분의 상당부를 빠뜨릴 수 있음을 제안할 수 있고, 그 결과, 오디오 신호가 재생될 경우 듣는 이가 지각하는 품질이 변변치 못하다. 대안으로서, 또는 추가적으로, 대역폭 확장 처치 모듈(301)은 지각 오디오 인코더(101)에 의해 폐기된 컷오프 주파수를 넘는 신호의 빠진 에너지 대 보유된 신호의 에너지의 비의 추정치를 제공할 수 있다. 이러한 비율의 높은 값은 원본 오디오 신호(Z)(100)의 더 많은 상당부가 빠뜨려져 있고(폐기되어 있고), 따라서, 입력 신호(X)는 오디오 신호가 재생될 경우 듣는 이가 지각하는 품질이 변변치 못할 수 있다.
다른 예로서, 인밴드 고조파 필 모듈(302)(도 3)은 중간(인밴드) 고조파가 오디오 신호로부터 얼마나 자주 폐기되어 빠뜨려져 있는지의 표시사항을 제공할 수 있다. 대안으로서 또는 추가적으로, 인밴드 고조파 필 모듈(302)은 폐기된 고조파의 에너지 추정치를 제공할 수 있다. 더 큰 레벨의 빠뜨린(폐기된) 인밴드 고조파 에너지는 오디오 신호가 재생될 경우 입력 신호(X)가 듣는 이에 의해 불량한 지각 품질을 가짐을 표시할 수 있다.
다른 예로서, 리버브 필 모듈(305)은 입력 신호(X) 내 잔향 에너지의 측정치와, 지각 오디오 인코더(101)에 의해 폐기된, 잃어버린 잔향 에너지의 추정치를 제공할 수 있다. 더 큰 레벨의 빠트린 잔향 에너지는, 오디오 신호가 재생될 경우 입력 신호(X)가 듣는 이에 의해 더 불량한 지각 품질을 가짐을 표시할 수 있다.
또 다른 예로서, 사운드스테이지 확장 모듈(304)(도 3)은 지각 오디오 인코더(101)에 의해 폐기된 중간(좌측 더하기 우측) 에너지와 빠뜨린 또는 잃어버린 사이드(좌측 빼기 우측)의 양의 추정치를 제공할 수 있다. 대안으로서 또는 추가적으로, 사운드스테이지 확장 모듈(304)은 입력 신호(X)의 총 에너지 대비 극좌 또는 극우 신호 성분의 에너지의 측정치를 제공할 수 있다. 낮은 레벨의 좌측 또는 우측 신호 에너지는 입력 신호(104)로부터 이 부분이 빠뜨려져 있음을 표시할 수 있고, 따라서, 오디오 신호가 재생될 경우 듣는 이가 지각하는 품질이 변변치 못할 수 있다.
다른 예로서, 트랜션트 향상 모듈(303)은 입력 신호(X)(104)에서 얼마나 자주 트랜션트가 발생하는지를 표시함으로써 오디오 신호의 빠뜨린 부분의 표시사항을 제공할 수 있다. 다른 예로서, 마스킹된 신호 필(306) 모듈은 입력 신호(X)를 검사하여, 동시적 마스킹 임계치 미만인 신호 성분들이 얼마나 자주 폐기되었는지 그리고 따라서 오디오 신호로부터 빠뜨려져 있는지의 표시사항을 제공할 수 있다. 신호 성분이 자주 빠질(폐기될) 경우, 이는 오디오 신호가 재생될 경우 입력 신호(X)가 듣는 이에 의한 불량한 지각 품질을 가질 수 있음을 표시할 수 있다.
다른 예로서, 고조파 위상 정렬 모듈(307)(도 3)은 입력 신호(X)를 검사하여, 고조파 관련 신호 성분들이 얼마나 자주 위상-정렬되지 않는지의 표시사항을 제공할 수 있다. 대안으로서 또는 추가적으로, 고조파 위상 정렬 모듈(307)은 위상 정렬되지 않은 고조파 성분들의 에너지의 측정치를 제공할 수 있다. 위상 정렬되지 않은 높은 레벨의 고조파 성분은 입력 신호(X)(104)의 부분들을 잃었음을 암시할 수 있고, 이 경우 오디오 신호가 재생될 경우 듣는 이에 의한 지각 품질이 변변치 못할 수 있다.
신호 품질 분석기(902)는 처치 요건 인디케이터를 수신할 수 있고, 신호 품질 인디케이터를 도출할 수 있다. 대안으로서 또는 추가적으로, 신호 품질 분석기(902)는 메타-데이터 버퍼(905)로부터 메타-데이터를 수신할 수 있다. 메타-데이터는 입력 신호(X)의 지각 품질의 직접적 표시사항을 제공할 수 있다. 메타-데이터 버퍼(905)에 포함된 메타-데이터는 지각 오디오 디코더(103), 오디오 신호, 또는 그외 다른 소스에 의해 제공될 수 있다. 대안으로서, 메타-데이터는 신호 품질 분석기(902)에 직접 제공될 수 있고, 메타-데이터 버퍼(905)가 생략될 수 있다. 메타-데이터는 컷오프 주파수(Fx), 지각 오디오 인코더(101)에 의해 사용되는 현 처리 블록의 길이, 입력 신호(X)의 비트레이트, 및/또는 입력 신호(X)의 샘플링 레이트를 포함하는, 그러나 이에 제한되지 않는, 입력 신호의 특성 및 원본에 관한 정보를 제공할 수 있다.
수신되는 처리 요건 인디케이터 및/또는 메타-데이터 중 하나 이상을 이용하여, 신호 품질 분석기(902)는 입력 신호(X)의 지각 전체 품질의 추정치를 도출할 수 있다. 대안으로서 또는 추가적으로, 신호 품질 분석기(902)는 개별 신호 처치와 관련하여 입력 신호의 지각 품질의 추정치를 도출할 수 있다.
신호 인핸서 모듈(110)이 입력 신호(X)에 적용하는 신호 처치(310)의 상대적 에너지 레벨은, 입력 신호의 상대적 품질 및/또는 입력 신호의 샘플 성분에 따라 바뀔 수 있다. 예를 들어, 입력 신호(X)의 품질이 상대적으로 양호한 상황에서, 신호 처치(310)의 상대적 에너지 레벨이 감소될 수 있다. 마찬가지로, 입력 신호(X)의 품질이 상대적으로 불량한 상황에서, 신호 처치(310)의 상대적 에너지 레벨은 이에 대응하여 증가할 수 있다. 처치 레벨 조정기(901)는 처치 이득(g1, g2, g3, g4, g5, g6, g7)(315) 중 하나 이상을 증가 또는 감소시킴으로써 신호 처치(310)의 상대적 에너지 레벨을 독립적으로 변경시킬 수 있다. 대안으로서 또는 추가적으로, 처치 레벨 조정기(901)는 총 처치 이득(gT)(320)을 증가 또는 감소시킴으로써 신호 처치(310)의 총 상대적 에너지 레벨을 변경시킬 수 있다.
처치 레벨 조정기(901)는 신호 품질 분석기(902)로부터 하나 이상의 신호 품질 인디케이터를 파라미터로 수신할 수 있다. 처치 레벨 조정기(901)는 가용한 신호 품질 인디케이터(903) 중 하나 이상을 이용하여, 개별 처치 이득(g1, g2, g3, g4, g5, g6, g7)(315) 각각에 대해 적합한 값과, 총 처치 이득(gT)(320)에 적합한 값을 독립적으로 결정할 수 있다. 대안으로서 또는 추가적으로, 신호 품질 분석기(1002)는 입력 신호(X)의 지각 품질의 직접적 표시를 제공할 수 있는 메타-데이터를 이용하여, 개별 처치 이득(g1, g2, g3, g4, g5, g6, g7)(315) 각각에 대한 적합한 값과, 총 처치 이득(gT)(320)에 적합한 값을 결정할 수 있다. 이러한 방식으로, 다양한 신호 처치(310)의 레벨들을 자동적으로 조정하여 입력 신호(X)의 요건에 매칭시킬 수 있다.
일부 경우에, 입력 신호(X)에 관한 메타-데이터가 가용하지 않을 수 있다. 따라서, 신호 품질 분석기(902)는 스트림 당 또는 트랙 당 처리 레벨을 자동적으로 재조정하는 압축 검출 및 처치 알고리즘을 이용할 수 있다. 처치 알고리즘은 갭 검출기(907), 래치(Latch)(908), 및 자동 타이머(909)를 포함할 수 있다. 갭 검출기(907)는 새 트랙 또는 오디오 신호의 시작과, 트랙들 간의 침묵 갭(gaps of silence)을 식별하도록 구성될 수 있다. 래치(908)는 소정의 조건에 부합할 때 개별 처치 이득(g1, g2, g3, g4, g5, g6, g7)(315) 및 총 처치 이득(gT)(320)을 선택적으로 잠그도록 구성될 수 있다. 트랙이 "압축됨"으로 식별될 때, 다양한 신호 처치(310)의 레벨이 설정되고(즉, 래치됨), 다음 트랙까지 좁은 범위 내에서 유지된다. 이는 펌핑 또는 가변 음을 방지한다. 갭 검출기(907)가 갭(가령, 뮤트 또는 트랙 변화)을 검출하면, 신호 품질 분석기(902)는 래치(908)를 재설정하고, 다양한 신호 처치(310)의 레벨을 논(none)으로 설정한다. 오디오가 입력 신호(X) 내에서 재개될 때, 압축 검출 메커니즘은 다시 압축(브릭월)을 찾을 것이다.
자동 타이머(909)는 새 스트림 또는 트랙이 갭 검출기(907)에 의해 검출될 때 재설정되도록, 그리고, 처치 이득을 조정할 수 있는 오디오 시작 시기에 기결정된 크기의 시간을 카운트 다운하도록 구성될 수 있다. 따라서, 자동 타이머(909)는 오디오 스트림 또는 트랙의 중간에 적용되는 처리 레벨의 청감 변화를 방지하도록 구성될 수 있다. 일부 예에서, 기결정된 크기의 시간(가령, 5초) 내에 어떤 압축도 검출되지 않을 경우, 다음 갭이 검출될 때까지 다양한 신호 처치(310)의 레벨들이 논(none)으로 유지될 수 있다. 이는 급작스런 고주파수 등장으로 인한 트랙 중간의 예기치못한 스펙트럼 변화를 방지한다.
처치 레벨 조정기 모듈(901)은 개별 처치 이득 및 총 처치 이득을 결정할 때 다른 파라미터를 또한 고려할 수 있다. 따라서, 예를 들어, 파라미터에 기초하여 처치 레벨 조정기 모듈(901)에 의해 소정의 개별 처치 이득이 감소할 수 있고, 소정의 다른 개별 처치 이득이 증가할 수 있다. 이러한 파라미터는, 예를 들어, 록 음악 장르의 경우, 트랜션트 처치 레벨 이득이 드럼을 강조하도록 증가할 수 있고, 고전 음악 장르의 경우, 잔향 처리 레벨 이득이 뮤직홀 효과 강조를 위해 증가될 수 있도록, 생성되는 오디오 신호의 장르와 같은, 입력 신호의 메타데이터를 포함할 수 있다. 다른 예에서, 처치 이득은 입력 신호가 말하기 대 음악일 때 조정될 수 있다. 다른 예에서, 임의의 개수의 처치 레벨 이득 및 파라미터가 사용될 수 있다. 임의의 개수의 처치 레벨 이득 및 파라미터가 다른 예에서 사용될 수 있다. 처치 레벨 조정기 모듈(901)에 의한 이득 조정은, 가령, 기결정된 임계치보다 높은 잔향 특성의 처치가 존재할 때와 같이, 또한 규정 본위일 수 있고, 트랜션트 향상의 특성에 대한 이득은 예를 들어, 비율에 기초하여 대응하여 감소할 수 있다. 사용자 설정은 소정의 작동 모드 또는 작동 조건 하에 선택적으로 적용되는 처치 이득의 크기에 영향을 미치도록 처치 레벨 조정기 모듈(901)에 또한 적용될 수 있다.
도 9b는 스트림 당 또는 트랙 당 처치 이득의 크기를 자동적으로 재조정하는 압축 검출 및 처치 알고리즘의 프로세스(950)의 예시적 블록도다. 프로세스(950)는, 예를 들어, 향상 컨트롤러 모듈(900)의 신호 인핸서 모듈(110)의 신호 품질 분석기(902)에 의해, 수행될 수 있다. 프로세스(950)를 이용하여, 입력 신호(X)의 품질에 관한 메타데이터 정보가 전혀 가용하지 않음에도 불구하고, 신호 품질 분석기(902)가 개별 처치 이득(g1, g2, g3, g4, g5, g6, g7)(315) 및 총 처치 이득(gT)(320)을 입력 신호(X)의 압축 레벨에 적합한 레벨로 자동적으로 설정할 수 있다. 한 예에서, 압축 검출 수행을 위해, 신호 품질 분석기(902)는 512- 또는 1024-포인트 FFT 후 주파수 빈에 대해 작동할 수 있다. 아래의 예들은 1024-포인트 FFT 및 44.1kHz 샘플링 레이트를 가정하지만, 다른 포인트 레벨 FFT 및 샘플링 레이트도 역시 사용될 수 있음에 주목하여야 한다.
일반적으로, 프로세스(950)는 모니터링되는 정보가 빠르고 최신값이도록, 직접적인 FFT 입력으로부터 임의적 빈의 폭넓은 집합을 샘플링할 수 있고, 이 정보를 일정 갭 임계치에 비교할 수 있다. 평균 에너지가 기결정된 임계치 미만일 경우, 프로세스(950)는 입력 신호(X)를 뮤트 또는 트랙 변화로 결정할 수 있다. 그렇지 않을 경우, 프로세스(950)는 후보 주파수에서 에너지의 현저한 상승이 존재하는지를 알아보기 위해 빈 에너지에서 나이퀴스트 주파수로부터 후방 찾아보기를 진행한다. 프로세스(950)는 상승 정상점을 핀포인팅하려 시도할 수 있고, 여러개의 측정을 위해 이 지점을 이용할 수 있다. 이 지점 위에 잡음 플로어(noise floor)가 고려되고 아래에는 신호 플로어(signal floor)가 고려된다. 프로세스(950)는 충분히 브릭월을 닮았는지, 그 위에 나타나는 중요 정보가 없는지, 그리고, 이것이 단지 고주파수에서 랜덤 플루크 고조파(random fluke harmonic) 또는 스파이크가 아닌지를 확인하기 위해 후보 컷오프 주파수에 대한 여러 회의 점검을 수행할 수 있다. 후보 컷오프 주파수가 모든 검사에 견딜 경우, 한 라인 내 적어도 지정된 개수의 프레임(가령, 한 예에서 20개의 연속 프레임)동안 검사를 통과하여야 한다. 이 시점에서, 입력 신호(X)의 처치가 상승(ramping up)을 시작할 수 있다. 처치는 컷오프 주파수에 비례할 수 있고, 따라서, 낮은 컷오프는 입력 신호(x)에 더 많은 처치가 적용됨을 의미한다. 처치 레벨은 트랙이 종료될 때까지(또는 뮤트될 때까지) 지속될 수 있다. 새로운 컷오프 주파수는, 새 컷오프 주파수가 더 큰 브릭월 높이로 기결정된 다른(가령, 적어도 5% 다른) 퍼센티지보다 크다고 결정되는 경우와 같이, 다양한 조건 하에 앞서 결정된 컷오프 주파수를 대체할 수 있다. 따라서, 이러한 조건들은 바람직하지 않은 부작용들이 처리 레벨을 계속적으로 변화시키는 것을 막을 수 있다.
더 구체적으로, 작동(952)에서, 신호 품질 분석기(902)는 압축 검출 및 처치 알고리즘을 초기화한다. 예를 들어, 신호 품질 분석기(902)는 래치(908)를 재설정할 수 있고, 개별 처치 이득(315) 및 총 처치 이득(320)을 이득 없음으로 설정할 수 있으며, 자동 타이머(909)를 또한 재설정할 수 있다. 신호 품질 분석기(902)는 유효한 오디오의 프레임을 더 기다릴 수 있다. 이러한 모니터링은 예를 들어, 입력 신호(X)의 200Hz - 4kHz 영역 내 한 세트의 임의적 빈의 순간 값을 살핌으로써, 수행될 수 있다. 신호 품질 분석기(902)는, 새 트랙 또는 스트림이 시작되었음을 결정하기 위해, 이러한 빈들의 평활화된 합계가 에너지의 기결정된 일정 에너지 레벨을 넘어섬을 확인할 수 있다. 오디오가 시작되었다면, 제어는 작동(954)로 넘어간다.
작동(954)에서, 신호 품질 분석기(902)는 자동 타이머(909)를 증분시킨다. 한 예에서, 자동 타이머(909)는, 처치 이득(315, 320)에 대한 자동 조정이 수행될 수 있는, 트랙 또는 오디오의 시작시 시간의 크기를 명시할 수 있다. 오디오 타이머(909)가 만료될 때, 다음 갭이 검출될 때까지 어떤 추가적인 자동 조정도 수행되지 않는다. 신호 품질 분석기(902)는 갭 검출 이후 유효한 오디오의 각각의 프레임 동안 작동(954)에서 자동 타이머(909)를(가동될 경우) 증분시킬 수 있다.
작동(956)에서, 신호 품질 분석기(902)는 입력 신호(X)에 대한 후보 컷오프 주파수를 검출한다. 한 예에서, 신호 품질 분석기(902)는 신호 에너지의 현저한 상승(가령, 1FFT 주파수 빈의 공간에서 에너지의 적어도 4x 상승)을 위치파악하기 위해 19kHz로부터 8kHz까지 하향으로 주파수 빈을 스캔한다. 신호 에너지의 상승이 발견되면, 신호 품질 분석기(902)는 에너지가 상승을 멈출 때의 빈의 위치를 더 파악할 수 있다(가령, 에너지가 빈 당 10%보다 큰 속도로 상승을 중지할 때). 에너지가 상승을 중단할 때의 이러한 빈은 후보 BinX 또는 컷오프 주파수로 불릴 수 있다.
작동(958)에서, 신호 품질 분석기(902)는 컷오프 주파수보다 높은 입력 신호(X)의 주파수가 컷오프임을 확인해주는지 여부를 결정한다. 1024 포인트 FFT를 이용하는 예에서, 신호 품질 분석기(902)는 잡음 플로어가 임의의 정보를 보지하는지 여부를 결정하기 위해 19kHz까지 BinX 컷오프 주파수 위 11개의 빈에서 시작되는 주파수 빈을 스캔한다. 잡음 플로어가 정보를 보지할 경우, 이는 컷오프가 진실한 압축-유도 브릭월이 아님을 표시할 수 있다. 더 구체적인 예로서, 잡음 플로어가 2개의 일련의 빈 내에서 5%보다 더 많이 상승할 경우, BinX 컷오프 주파수 후보는 탈락한다. 후보가 통과할 경우, 제어는 작동(968)로 넘어가서, 후보 브릭월 주파수를 계속해서 평가할 수 있다. 후보가 탈락할 경우, 제어는 작동(960)으로 넘어간다.
작동(960)에서, 신호 품질 분석기(902)는 후보 컷오프 주파수를 논(none)에 매칭시키면서 개수 프레임을 재설정한다. 작동(962)에서, 신호 품질 분석기(902)는 자동 타이머(909)가 만료되어 더이상의 자동 조정이 수행될 수 없는지를 결정한다. 자동 타이머(909)가 만료되지 않은 경우, 제어는 작동(964)으로 진행되어, 입력 신호(X)의 다음 프레임을 처리할 수 있다. 작동(964) 후, 제어는 작동(954)으로 진행되어 오디오 처리를 계속할 수 있다. 오디오 타이머(909)가 만료되면, 제어는 작동(966)으로 넘어가, 다음 오디오 트랙 또는 소리를 식별하는 갭을 기다릴 수 있다. 갭 검출은 작동(952)과 관련하여 앞서 설명된 자동 검출과 유사하게 수행될 수 있어서, 소정의 빈이 기결정된 일정 레벨의 에너지를 더이상 넘지 못할 때 신호 품질 분석기(902)가 갭을 식별할 수 있게 된다. 갭이 검출될 때, 제어는 작동(966)으로부터 작동(952)으로 넘어가서, 자동 처치 레벨 결정 프로세스를 재개할 수 있다.
작동(968)에서, 신호 품질 분석기(902)는 컷오프 주파수 미만의 입력 신호(X)의 주파수가 컷오프를 확인해주는지 여부를 결정한다. 1024 포인트 FFT를 이용하는 예에서, 신호 품질 분석기(902)는 BinX-1로부터 시작되어 아래로 BinX-100까지 주파수 빈을 스캔하여, 5회를 넘는 에너지 강하의 위치를 파악할 수 있다. 이러한 에너지 강하가 발견될 경우, 후보 BinX는 단지 좁은 고조파 스파이크일 가능성이 있고, 진실한 브릭월이 아니며, 후보는 탈락한다. 후보가 후보 주파수 미만의 에너지 강하 검출없이 통과될 경우, 제어는 작동(970)으로 넘어간다. 후보가 탈락하면, 제어는 작동(960)으로 넘어간다.
작동(970)에서, 신호 품질 분석기(902)는 입력 신호(X)가 유효한 오디오를 지님을 결정한다. 이는 예를 들어, 브릭월 검출에 의미를 부여하기에 충분할 만큼 전체 신호 에너지가 기결정된 임계치보다 높음을 보장하기 위해 수행될 수 있다. 많은 예에서, 충분한 에너지의 검출은 검출되는 갭의 종료를 표시하는 입력 신호(X) 내 오디오를 식별하기 위해 작동(952)에서 수행되는 결정과 유사 또는 동일할 수 있다. 입력 신호(X)가 유효성 검사를 통과한 경우, 제어는 작동(972)으로 넘어간다. 그렇지 않을 경우, 제어는 작동(960)으로 넘어간다.
작동(972)에서, 신호 품질 분석기(902)는 후보 브릭월의 높이 및 기울기(가파른 정도: steepness)가 기결정된 임계치보다 큰지 여부를 결정한다. 한 예에서, 신호 품질 분석기(902)는 후보 브릭월이 다음 빈보다 적어도 2.5배 많은 에너지를 가짐을 보장함으로써 기울기를 확인해줄 수 있다. 신호 품질 분석기(902)는 현 후보 브릭월이 동일 오디오 트랙에 대하여 앞서 확인된 후보 브릭월과 적어도 같은 높이임을 보장함으로써 높이를 확인해줄 수 있다. 후보가 통과하면, 제어는 작동(974)으로 넘어간다. 후보가 탈락하면, 제어는 작동(960)으로 넘어간다.
작동(974)에서, 신호 품질 분석기(902)는 매칭되는 프레임 카운트를 증분시킨다. 따라서, 매칭되는 프레임 카운트는 BinX에서 현 후보 브릭월에 대한 모든 기준을 성공적으로 충족시킨 프레임의 수를 표시할 수 있다.
작동(976)에서, 신호 품질 분석기(902)는 매칭되는 프레임 카운트가 기결정된 임계 카운트에 도달하였는지 여부를 결정한다. 한 예에서, 기결정된 임계 카운트는 20개의 연속 프레임일 수 있다. 매칭되는 프레임 카운트가 기결정된 임계 카운트에 도달한 경우, 후보는 정확하다고 간주될 수 있고, 제어는 작동(978)으로 넘어갈 수 있다. 그렇지 않을 경우, 제어는 작동(962)으로 넘어간다.
작동(978)에서, 신호 품질 분석기(902)는 래치(908)가 설정되었는지 여부를 결정한다. 래치(908)는 예를 들어, 앞선 후보 브릭월의 먼저 성공적 결정에 의해 미리 설정되었을 수 있다. 래치(908)가 설정되지 않은 경우, 제어는 작동(980)으로 넘어간다. 래치(908)가 이미 설정된 경우, 제어는 작동(984)으로 넘어간다.
작동(980)에서, 신호 품질 분석기(902)는 래치(908)를 설정하고, 작동(982)에서, 신호 품질 분석기(902)는 브릭월의 주파수 BinX에 따라 처치 이득(315) 및 총 처치 이득(320)을 설정한다. 한 예에서, 처치 레벨은 브릭월 주파수에 기초한 퍼센티지다(즉, 낮은 컷오프 주파수는 높은 레벨의 처치를 제공한다). 처치 이득(315)은 처치가 이러한 퍼센티지와 동일한 강도로 원본 오디오 스트림과 혼합될 수 있도록 설정될 수 있고, 조합된 출력의 총 처치 이득(320)은 처치 레벨에 대해 스케일링(scaling)될 수 있다 - 즉, 높은 처치 값은 낮은 처치 값에 비해 더 큰 스케일링을 수용하고, 압축되지 않은 오디오는 스케일링되지 않는다. 따라서, 래치(908)가 설정될 때, 처치 이득(315, 320)는 브릭월 주파수에 따라 결정된 레벨에 고정된다. 작동(982) 후, 제어는 작동(960)으로 넘어가서, 오디오에 대한 브릭월 검출을 계속한다.
작동(984)에서, 신호 품질 분석기(902)는 후보 브릭월이 트랙에 대한 앞서 구축된 컷오프 주파수보다 큰 높이를 가지는지 여부, 또는, 후보 브릭월이 앞서 구축된 컷오프 주파수의 기결정된 임계 주파수 내에 있는지 여부를 결정한다. 한 예에서, 프로세스(950)는 자동 타이머(909)가 만료되지 않는 한 계속되어, 자동 타이머(909)가 만료되기 전에 더 양호한 브릭월이 검출될 경우, 더 양호한 브릭월이 대신 처치 이득(315, 320)의 래칭에 사용될 수 있게 된다. 한 예에서, 더 양호한 브릭월은 이전 컷오프 주파수보다 높은 브릭월 높이를 가질 것을 요구받을 수 있고, 이전 컷오프 주파수를 대신하기 위해 5% 이상 다른 주파수를 가질 것을 요구받을 수 있다.
디스플레이 모듈(906)은 입력 신호(X), 출력 신호(Y), 그리고, 신호 인핸서 모듈(110)의 성능 및/또는 작동의 서로 다른 형태의 시각적 표현을 제공할 수 있다. 도 9에 도시되는 바와 같이, 디스플레이 모듈(906)은 신호 처치(ST1, ST2, ST3, ST4, ST5, ST6, ST7)(310) 중 하나 이상을 수신 및 디스플레이할 수 있다. 예를 들어, 디스플레이 모듈(906)은 대역폭 확장 모듈(301)로 인해 신호 처치(ST1)를 디스플레이할 수 있다. 이러한 경우에, 디스플레이 모듈(906)은 대역폭 확장 모듈(301)에 의해 발생된 컷오프 주파수(Fx)보다 높은 새 신호 성분들의 스펙트럼 표현의 시각적 디스플레이를 생성할 수 있다. 대안으로서 또는 추가적으로, 디스플레이 모듈(906)은 적용된 신호 처치(310) 모두를 포함하는 출력 신호(Y)의 스펙트럼 또는 시간 도메인 표현을 디스플레이할 수 있다. 대안으로서 또는 추가적으로, 디스플레이 모듈(906)은 신호 품질 분석기(902)로부터 하나 이상의 신호 품질 인디케이터를 수신할 수 있다. 디스플레이 모듈(906)은 또한 입력 신호(X)의 품질의 시각적 표현을 생성할 수 있다. 디스플레이 모듈(906)은 입력 신호(X)에 적용되는 신호 처치(310)의 전체 레벨의 시각적 표현을 또한 생성할 수 있다. 디스플레이 모듈(906)은 출력 신호(Y)의 품질의 시각적 표현을 또한 생성할 수 있다. 따라서, 디스플레이를 보는 사용자는 입력 신호(X)의 품질의 시각적 표시를 제공받을 수 있고, 처치 신호가 적용되고 있는 레벨 또는 정도를 또한 제공받을 수 있다.
도 10은 대역폭 향상의 신호 처치가 표시되는, 출력 신호(Y)의 예시적 디스플레이다. 도 10에서, 약 12kHz의 컷오프 주파수 위에서, -120 내지 -150 dB의 범위에 있는 입력 신호(X)(1002)의 일부분에 의해 표시되는 바와 같이, 입력 신호(X)(1002)의 일부분이 이전 인코딩 중 폐기되었다. 대역폭 확장 모듈(301)은 빠진 또는 잃어버린 오디오 신호의 일부분을 식별할 수 있고, 동일 범위의 주파수에 대하여 신호 처치(1004)를 제공할 수 있다. 신호 처치(1004)는 입력 신호(X)(1002)의 처치되지 않은 부분에 적용될 수 있다. 따라서, 사용자는 디스플레이를 볼 수 있고, 처치되지 않은 출력 신호가 보일 때의 품질뿐 아니라, 신호 인핸서 시스템(110)에 의해 제공되는 처치의 레벨 및 정도의 표시사항을 제공받을 수 있다. 다른 예에서, 다른 형태의 디스플레이가 생성되어, 적용되고 있는 하나 이상의 처치 중 임의의 처치를 표시할 수 있다.
도 11a 및 11b는 대역폭 확장 모듈(301)의 작동의 예시적 결과를 도시한다. 도 11a는 지각 오디오 코덱에 의해 압축되기 전과 후에 오디오 신호의 짧은 블록의 스펙트럼 뷰(주파수-도메인)를 도시한다. 원본 신호의 곡선이 도시되고, 상당분의 신호 에너지가 나이퀴스트 주파수까지 계속됨을 확인할 수 있다. 압축 오디오 신호 곡선은 지각 오디오 코덱에 의해 압축된 후 이와 동일한 신호를 보여준다. 도 11a에서, 소정의 컷오프 주파수(Fx) 위에서, 신호 성분이 폐기되었고, 남은 것은 단순히 로우-레벨 잡음임을 확인할 수 있다.
도 11b는 대역폭 확장 모듈(301)에 의해 처리되기 전 및 후에 압축 오디오 신호의 짧은 블록의 한 예의 스펙트럼도를 도시한다. 여기서 압축 오디오 신호는 폐기된 컷오프 주파수(Fx) 위의 신호 성분들과 함께 도시된다. 대역폭 확장 모듈(301)에 의해 처리된 후 동일한 압축 오디오 신호의 곡선이 도 11b에 포함된다. 새 신호 성분이 컷오프 주파수(Fx) 위에서 생성되었음을 알 수 있다. 이러한 새 신호 성분은 컷오프(Fx) 아래의 신호 성분들 중 적어도 일부에 기초하여, 및/또는 이를 이용하여, 발생되었다.
도 12a 및 12b는 트랜션트 향상 모듈(303)의 예시적 작동을 도시한다. 도 12a는 트랜션트 신호 성분의 시간-도메인 뷰를 도시한다. 도 12a의 상측 패널은 원본 신호를 보여준다. 시작 신호가 거의 묵음 상태이고, 그 다음에 날카로운 트랜션트 신호가 나타났다가 시간에 걸쳐 붕괴된다. 도 12a의 하측 패널은 지각 오디오 코덱에 의해 압축된 후 유사한 트랜션트 신호 성분을 도시한다. 트랜션트가 더이상 날카롭게 형성되지 않음을 확인할 수 있다. 더욱이, 압축 오디오 신호는 이제 실제 트랜션트에 앞서 도달하는 에너지를 가진다. 이는 앞서 설명한 소위 "프리-에코"(pree-echo)의 한 예다.
도 12b는 트랜션트 향상 모듈(303)에 의해 처리되기 전과 후의 일례의 트랜션트 신호 성분의 시간-도메인 뷰를 도시한다. 도 12b의 상측 패널은 시간에 걸쳐 수많은 트랜션트를 가진 압축 오디오 신호를 보여준다. 트랜션트가 신호에서 그다지 확연하지 않음을 확인할 수 있다. 도 12b의 하측 패널은 트랜션트 향상 모듈(303)에 의해 처리된 후 동일한 트랜션트 신호를 보여주며, 개별 트랜션트의 시작은 이제 날카롭게 형성되고 쉽게 눈에 보인다.
도 13은 일례의 컴퓨팅 시스템(1300)이다. 컴퓨터 시스템(1300)은 설명되는 방법들 또는 컴퓨터-기반 기능들 중 하나 이상을 컴퓨터 시스템(1300)으로 하여금 수행하게 하도록 실행될 수 있는 한 세트의 명령어를 포함할 수 있다. 컴퓨터 시스템(1300)은 독립형 장치로 작동할 수 있고, 다른 장치의 일부분일 수 있으며, 또는, 가령, 네트워크를 이용하여, 다른 컴퓨터 시스템 또는 주변 장치에 연결될 수 있다.
네트워크형 배치에서, 컴퓨터 시스템(1300)은 서버-클라이언트 사용자 네트워크 환경에서 서버 기능으로 또는 클라이언트 사용자 컴퓨터로, 피어-투-피어(peer-to-peer)(또는 분산형) 네트워크 환경에서 피어 컴퓨터 시스템으로, 또는 다른 다양한 방식으로, 작동할 수 있다. 컴퓨터 시스템(1300)은 또한, 예를 들어, 차량 내의 텔레매틱스 시스템(telematics system)과 같은, 다양한 장치로 구현되거나 그 안에 포함될 수 있다. 다른 예에서, 해당 기계에 의해 취해질 수 있는 작용을 명시하는 한 세트의 명령어(순차적 또는 그렇지 않을 경우)를 실행할 수 있는 그외 다른 기계가 사용될 수 있다. 컴퓨터 시스템(1300)은 음성, 오디오, 비디오, 또는 데이터 통신을 제공하는 전자 장치를 이용하여 구현될 수 있다. 단일 컴퓨터 시스템(1300)이 도시되지만, 용어 "시스템"은 하나 이상의 컴퓨터 기능을 수행하기 위해 한 세트 또는 복수 세트의 명령어를 개별적으로 또는 협력하여 실행하는 시스템들 또는 서브시스템들의 집합을 포함할 수 있다.
컴퓨터 시스템(1300)은 중앙 프로세싱 유닛(CPU), 그래픽 프로세싱 유닛(GPU), 디지털 신호 프로세서(DSP), 또는 서로 다른 또는 동일한 프로세서들의 소정의 조합과 같은, 프로세서(1302)를 포함할 수 있다. 프로세서(1302)는 다양한 시스템들의 일 구성요소일 수 있다. 예를 들어, 프로세서(1302)는 차량 내 헤드 유닛 또는 증폭기의 일부분일 수 있다. 프로세서(1302)는 하나 이상의 범용 프로세서, 디지털 신호 프로세서, 애플리케이션 전용 집적 회로, 필드 프로그래머블 게이트 어레이, 디지털 회로, 아날로그 회로, 이들의 조합, 또는, 데이터 분석 및 처리를 위한 그외 다른 현재 알려진 또는 후에 개발될 장치일 수 있다. 프로세서(1302)는 수작업으로 생성되거나 프로그래밍된 코드와 같은, 소프트웨어 프로그램을 구현할 수 있다.
프로세서(1302)는 시스템의 적어도 일부분을 작동 및 제어할 수 있다. 용어 "모듈"은 하나 이상의 실행가능 모듈을 포함하는 것으로 규정될 수 있다. 모듈은 소프트웨어, 하드웨어, 펌웨어, 또는 프로세서(1302)와 같은 프로세서에 의해 실행가능한 소정의 조합을 포함할 수 있다. 소프트웨어 모듈은 프로세서(1302) 또는 다른 프로세서에 의해 실행가능할 수 있는 메모리(1304) 또는 다른 메모리 디바이스와 같은, 메모리에 저장되는 명령어를 포함할 수 있다. 하드웨어 모듈은 프로세서(1302)에 의한 수행을 위해, 실행가능하거나, 지시되거나, 제어되는, 다양한 장치, 구성요소, 회로, 게이트, 회로 보드, 등을 포함할 수 있다.
컴퓨터 시스템(1300)은 버스(1308)를 통해 통신할 수 있는 메모리(1304)와 같은, 메모리(1304)를 포함할 수 있다. 메모리(1304)는 메인 메모리, 정적 메모리, 또는 동적 메모리일 수 있다. 메모리(1304)는 랜덤 액세스 메모리, 읽기-전용 메모리, 프로그래머블 읽기-전용 메모리, 전기적 프로그래머블 읽기-전용 메모리, 전기적 소거가능 읽기-전용 메모리, 플래시 메모리, 자기 테이프 또는 디스크, 광학 매체, 등을 포함하는, 그러나 이에 제한되지 않는, 다양한 유형의 휘발성 및 비휘발성 저장 매체와 같은 컴퓨터 판독가능 저장 매체를 포함할 수 있으나, 이에 제한되지 않는다. 한 예에서, 메모리(1304)는 프로세서(1302)를 위한 캐시 또는 랜덤 액세스 메모리를 포함한다. 대안의 예에서, 메모리(1304)는 프로세서의 캐시 메모리, 시스템 메모리, 또는 다른 메모리와 같이, 프로세서(1302)로부터 분리될 수 있다. 메모리(1304)는 데이터를 저장하기 위한 외부 저장 장치 또는 데이터베이스를 포함할 수 있다. 예시는 하드 드라이브, 컴팩트 디스크("CD"), 디지털 비디오 디스크("DVD"), 메모리 카드, 메모리 스틱, 플라피 디스크, 범용 시리얼 버스("USB") 메모리 디바이스, 또는 데이터를 저장하도록 작동하는 그외 다른 장치를 포함한다.
컴퓨터 시스템(1300)은 액정 디스플레이(LCD), 유기 발광 다이오드(OLED), 플랫 패널 디스플레이, 솔리드 스테이트 메모리, 음극관(CRT), 프로젝터, 또는 결정된 정보의 출력을 위한, 다른 현재 알려진 또는 차후 개발될 디스플레이 장치와 같은, 디스플레이 유닛(1310)을 더 포함할 수 있고, 포함하지 않을 수도 있다. 디스플레이(1310)는 프로세서(1302)의 기능을 사용자가 제어하기 위한 인터페이스로 작용할 수 있고, 또는, 구체적으로, 메모리(1304)에 저장된 소프트웨어와의 인터페이스로 작용할 수 있다.
컴퓨터 시스템(1300)은 사용자가 컴퓨터 시스템의 임의의 구성요소와 상호작용할 수 있도록 구성된 입력 장치(1312)를 포함할 수 있다. 입력 장치(1312)는 음성 명령 수신을 위한 마이크로폰, 키패드, 키보드, 또는 커서 제어 장치, 가령, 마우스, 또는 조이스틱, 터치 스크린 디스플레이, 원격 제어 장치, 또는 컴퓨터 시스템(1300)과 상호작용하도록 작동하는 그외 다른 장치일 수 있다. 시스템의 사용자는, 예를 들어, 시스템 및/또는 텔레매틱스 시스템에 의해 고려될 기준 또는 조건을 입력할 수 있다.
컴퓨터 시스템(1300)은 네트워크(1326)에 연결된 장치가 음성, 비디오, 오디오, 이미지, 또는 그외 다른 데이터를 네트워크(1326)를 통해 통신할 수 있도록, 전파되는 신호에 응답하여 명령어를 수신 및 실행하는, 또는 명령어를 포함하는, 컴퓨터 판독가능 매체를 포함할 수 있다. 명령어는 버스(1308)를 이용하여, 또는, 통신 포트 또는 인터페이스(1320)를 통해 네트워크(1326)를 이용해 송신 또는 수신될 수 있다. 통신 포트 또는 인터페이스(1320)는 프로세서(1302)의 일부분일 수 있고, 별도의 구성요소일 수도 있다. 통신 포트(1320)는 소프트웨어적으로 생성될 수 있고, 또는 하드웨어적인 물리적 연결일 수 있다. 통신 포트(1320)는 네트워크(1326), 외부 매체, 디스플레이(1310), 또는 컴퓨터 시스템(1300) 내 그외 다른 구성요소, 또는 이들의 조합과 연결되도록 구성될 수 있다. 네트워크(1326)와의 연결은 유선 이더넷 연결과 같은 물리적 연결일 수 있고, 또는, 무선으로 구축될 수 있다. 컴퓨터 시스템(1300)의 다른 구성요소들과의 추가적인 연결은 물리적 연결일 수 있고, 또는 무선으로 구축될 수 있다. 네트워크(1326)는 대안으로서 버스(1308)에 직접 연결될 수 있다.
네트워크(1326)는 유선 네트워크, 무선 네트워크, 이더넷 AVB 네트워크, 또는 이들의 조합을 포함할 수 있다. 무선 네트워크는 셀룰러 전화망, 802.11, 802.16, 802.20, 802.1Q 또는 와이맥스(WiMax) 네트워크일 수 있다. 더욱이, 네트워크(1326)는 인터넷과 같은 공공 네트워크, 인트라넷과 같은 사설 네트워크, 또는 이들의 조합일 수 있고, TCP/IP 기반 네트워킹 프로토콜을 포함하는, 그러나 이에 제한되지 않는, 현재 가용한 또는 후에 개발될 다양한 네트워킹 프로토콜을 이용할 수 있다. 시스템의 하나 이상의 구성요소는 네트워크(1326)를 통해/에 의해 서로 통신할 수 있다.
예시적 실시예들이 앞서 설명되었으나, 이러한 실시예들이 발명의 모든 가능한 형태를 설명하는 것은 아니다. 대신에, 명세서에 사용되는 용어들은 제한적이기보다 설명을 위한 용어이고, 발명의 사상 및 범위로부터 벗어나지 않으면서 다양한 변화가 이루어질 수 있다. 추가적으로, 다양한 구현 실시예들의 특징들을 조합하여 발명의 추가적인 실시예를 형성할 수 있다.
Claims (31)
- 프로세서와,
오디오 신호를 일련의 순차적 샘플로 분할하도록 상기 프로세서에 의해 실행가능한 샘플러 모듈(sampler module)과,
상기 오디오 신호의 시작시 복수의 순차적 샘플들에 걸친 오디오 신호의 일관된 브릭월 주파수(brick wall frequency)를 식별하도록, 그리고, 브릭월 주파수에 비례하는 신호 처치 표시(signal treatment indication)를 결정하도록, 상기 프로세서에 의해 실행가능한 신호 품질 검출기 모듈(signal quality detector module)과,
상기 오디오 신호의 하나 이상의 샘플 성분을 순차적으로 수신 및 분석하여, 각각의 순차적 샘플의 하나 이상의 샘플 성분 내 오디오 신호의 잃어버린 부분을 식별하도록, 그리고,
대응하는 식별된 잃어버린 부분을 가진 각각의 순차적 샘플들의 하나 이상의 샘플 성분 각각에 대해 대응하는 신호 처치를, 신호 품질 표시에 따라 소정 레벨에서, 상기 오디오 신호에 적용하도록,
프로세서에 의해 실행가능한 신호 인핸서 모듈(signal enhancer module)을 포함하는
압축 오디오 신호 처치 시스템. - 제 1 항에 있어서,
상기 일련의 순차적 샘플들은 고속 퓨리에 변환을 이용하여 결정되는 주파수 도메인 내의 순차적 빈(sequential bins)을 포함하고, 상기 신호 품질 검출기 모듈은 브릭월 주파수를 포함하는 후보 빈(candidate bin)으로서 순차적 빈들 중 하나의 식별에 의해 상기 일관된 브릭월 주파수를 식별하도록 또한 실행가능한
압축 오디오 신호 처치 시스템. - 제 2 항에 있어서,
상기 일관된 브릭월 주파수의 식별은,
스펙트럼 에너지가 브릭월 주파수 아래에 존재하는지의 확인과,
다음 높은 주파수의 순차적 빈의 높이를 넘는 기결정된 임계치보다 높은 브릭월 주파수의 높이의 확인과,
다음 높은 주파수의 순차적 빈의 높이를 넘는 기결정된 임계치보다 높은 브릭 월 주파수의 컷오프의 기울기(steepness)의 확인
중 적어도 하나를 더 포함하는
압축 오디오 신호 처치 시스템. - 제 1 항에 있어서,
상기 신호 처치 표시는
(i) 브릭월 주파수가 최소 주파수 임계치를 넘지 않을 때 신호 처치 없음과,
(ii) 브릭월 주파수가 최대 주파수 임계치를 넘을 때 신호 처치 없음과,
(iii) 브릭월 주파수가 최소 주파수 임계치와 최대 주파수 임계치 사이에 놓일 때 브릭월 주파수가 증가함에 따라 감소하는 신호 처치 레벨
중 하나로 설정되는
압축 오디오 신호 처치 시스템. - 제 1 항에 있어서,
상기 신호 품질 검출기 모듈은,
상기 오디오 신호의 일관된 브릭월 주파수의 검출 전에 신호 처치 없음을 적용하기 위한 신호 처치 표시를 설정하도록 또한 실행가능하고,
상기 오디오 신호의 일관된 브릭월 주파수를 나타내는 기규정된 연속 개수의 샘플의 식별시, 상기 오디오 신호에 처치를 적용하기 위한 신호 처치 표시를 래칭하도록 또한 실행가능한
압축 오디오 신호 처치 시스템. - 제 5 항에 있어서,
상기 기규정된 연속 개수의 샘플이 20개인
압축 오디오 신호 처치 시스템. - 제 5 항에 있어서,
상기 기규정된 연속 개수의 샘플이 대략 오디오 신호의 1/10 초 내지 1/2 초 사이의 시간 주기를 나타내는
압축 오디오 신호 처치 시스템. - 제 1 항에 있어서,
상기 신호 품질 검출기 모듈은,
상기 오디오 신호의 시작 검출에 응답하여 자동 타이머를 재설정하도록 추가로 실행가능하고,
상기 자동 타이머가 만료될 때까지 상기 오디오 신호의 일관된 브릭월 주파수를 식별하기 위해 복수의 순차적 샘플들을 평가하도록 추가로 실행가능하며,
상기 자동 타이머가 만료되면 상기 복수의 순차적 샘플들의 평가를 중단하도록 추가로 실행가능한
압축 오디오 신호 처치 시스템. - 제 1 항에 있어서,
상기 신호 품질 검출기 모듈은 기결정된 시간 주기 동안 기결정된 임계치 아래의 오디오 신호 세기의 주기의 식별시, 품질 표시를 재설정하도록 추가로 실행가능한
압축 오디오 신호 처치 시스템. - 제 1 항에 있어서,
상기 샘플 성분은 주파수 성분이고, 상기 대응하는 신호 처치는 컷오프 주파수 임계치보다 높은 빠진 주파수 성분을 가진 샘플 성분에 적용되는 주파수 성분인 경우와,
상기 샘플 성분은 트랜션트 성분(transient components)이고, 상기 대응하는 신호 처치는 오디오 신호에 존재하는 기존 트랜션트의 시작을 개선시키도록 빠진 트랜션트를 가진 샘플 성분에 적용되는 트랜션트 성분인 경우와,
상기 샘플 성분은 잔향 성분이고, 상기 대응하는 신호 처치는 오디오 신호의 붕괴 속도를 감소시키기 위해 빠진 잔향을 가진 샘플 성분에 적용되는 경우 중
한가지 이상에 해당되는
압축 오디오 신호 처치 시스템. - 제 1 항에 있어서,
상기 대응하는 신호 처치는 대역폭 확장 처치, 트랜션트 향상 처치, 및 잔향 필 처치(reverberation fill treatment)를 포함하는 복수의 신호 처치인
압축 오디오 신호 처치 시스템. - 제 1 항에 있어서,
상기 신호 인핸서 모듈은 복수의 신호 인핸서 모듈을 포함하고, 각각의 신호 인핸서 모듈은 적어도 하나의 신호 처치를 추가하기 위해 청취자에 의해 지각되는 사운드 스테이지의 공간 슬라이스에 대해 독립적으로 작동하도록 프로세서에 의해 실행되며, 상기 청취자에 의해 지각되는 사운드 스테이지는 오디오 신호 재생 중 청취자에 의해 지각되는 것인
압축 오디오 신호 처치 시스템. - 제 1 항에 있어서,
상기 신호 인핸서 모듈은 복수의 대응하는 신호 처치를 발생시키도록 구성되고, 상기 대응하는 신호 처치는 상기 오디오 신호에 추가되는
압축 오디오 신호 처치 시스템. - 압축 오디오 신호를 처리하도록 프로세서에 의해 실행가능한 컴퓨터 판독가능 명령어를 저장한 컴퓨터 판독가능 저장 매체로서,
오디오 신호의 순차적 샘플들의 시퀀스를 생성하도록 프로세서에 의해 실행가능한 명령어와,
상기 오디오 신호의 시작시 복수의 순차적 샘플들에 걸친 오디오 신호의 일관된 브릭월 주파수를 식별하도록, 그리고, 브릭월 주파수에 비례하는 신호 처치 표시를 결정하도록, 프로세서에 의해 실행가능한 명령어와,
상기 오디오 신호의 하나 이상의 샘플 성분을 순차적으로 수신 및 분석하여, 각각의 순차적 샘플의 하나 이상의 샘플 성분 내 오디오 신호의 잃어버린 부분을 식별하도록, 프로세서에 의해 실행가능한 명령어와,
대응하는 식별된 잃어버린 부분을 가진 각각의 순차적 샘플들의 하나 이상의 샘플 성분 각각에 대해 대응하는 신호 처치를, 신호 품질 표시에 따라 소정 레벨에서, 오디오 신호에 적용하도록, 프로세서에 의해 실행가능한 명령어를 포함하는
컴퓨터 판독형 저장 매체. - 제 14 항에 있어서,
상기 일련의 순차적 샘플들은 고속 퓨리에 변환을 이용하여 결정되는 주파수 도메인 내의 순차적 빈을 포함하고, 상기 프로세서에 의해 실행가능한 명령어는, 브릭월 주파수를 포함하는 후보 빈으로서 순차적 빈들 중 하나의 식별에 의해 상기 일관된 브릭월 주파수를 식별하기 위한 명령어를 더 포함하는
컴퓨터 판독형 저장 매체. - 제 14 항에 있어서, 상기 일관된 브릭월 주파수를 식별하도록, 프로세서에 의해 실행가능한 명령어는,
스펙트럼 에너지가 브릭월 주파수 아래에 존재하는지를 확인하도록 프로세서에 의해 실행가능한 명령어와,
다음 높은 주파수의 순차적 빈의 높이를 넘는 기결정된 임계치보다 높은 브릭월 주파수의 높이를 확인하도록 프로세서에 의해 실행가능한 명령어와,
다음 높은 주파수의 순차적 빈의 높이를 넘는 기결정된 임계치보다 높은 브릭 월 주파수의 컷오프의 기울기(steepness)를 확인하도록 프로세서에 의해 실행가능한 명령어
중 하나 이상을 더 포함하는
컴퓨터 판독형 저장 매체. - 제 14 항에 있어서,
신호 처치 표시는,
(i) 브릭월 주파수가 최소 주파수 임계치를 넘지 않을 때 신호 처치 없음과,
(ii) 브릭월 주파수가 최대 주파수 임계치를 넘을 때 신호 처치 없음과,
(iii) 브릭월 주파수가 최소 주파수 임계치와 최대 주파수 임계치 사이에 놓일 때 브릭월 주파수가 증가함에 따라 감소하는 신호 처치 레벨
중 하나로 설정되는
컴퓨터 판독형 저장 매체. - 제 14 항에 있어서,
프로세서에 의해 실행가능한 명령어는,
오디오 신호의 일관된 브릭월 주파수의 검출 전에 신호 처치 없음을 적용하기 위한 신호 처치 표시를 설정하도록, 프로세서에 의해 실행가능한 명령어와,
오디오 신호의 일관된 브릭월 주파수를 표시하는 기규정된 연속 개수의 샘플의 식별시, 오디오 신호에 처치를 적용하기 위한 신호 처치 표시를 래칭하도록, 프로세서에 의해 실행가능한 명령어를 더 포함하는
컴퓨터 판독형 저장 매체. - 제 18 항에 있어서,
상기 기규정된 연속 개수의 샘플은 (i) 20개의 연속 샘플과, (ii) 대략 오디오 신호의 1/10 초 내지 1/2 초 사이의 시간 주기를 나타내는 다수의 연속 샘플들 중 하나 이상인
컴퓨터 판독형 저장 매체. - 제 14 항에 있어서,
프로세서에 의해 실행가능한 명령어는,
상기 오디오 신호의 시작 검출에 응답하여 자동 타이머를 재설정하도록, 프로세서에 의해 실행가능한 명령어와,
상기 자동 타이머가 만료될 때까지 상기 오디오 신호의 일관된 브릭월 주파수를 식별하기 위해 복수의 순차적 샘플들을 평가하도록, 프로세서에 의해 실행가능한 명령어와,
상기 자동 타이머가 만료되면 상기 복수의 순차적 샘플들의 평가를 중단하도록, 프로세서에 의해 실행가능한 명령어를 더 포함하는
컴퓨터 판독형 저장 매체. - 제 14 항에 있어서,
프로세서에 의해 실행가능한 명령어는, 기결정된 시간 주기 동안 기결정된 임계치 아래의 오디오 신호 세기의 주기의 식별시, 품질 표시를 재설정하기 위한 명령어를 더 포함하는
컴퓨터 판독형 저장 매체. - 제 14 항에 있어서,
상기 샘플 성분은 주파수 성분이고, 상기 대응하는 신호 처치는 컷오프 주파수 임계치보다 높은 빠진 주파수 성분을 가진 샘플 성분에 적용되는 주파수 성분인 경우와,
상기 샘플 성분은 트랜션트 성분(transient components)이고, 상기 대응하는 신호 처치는 오디오 신호에 존재하는 기존 트랜션트의 시작을 개선시키도록 빠진 트랜션트를 가진 샘플 성분에 적용되는 트랜션트 성분인 경우와,
상기 샘플 성분은 잔향 성분이고, 상기 대응하는 신호 처치는 오디오 신호의 붕괴 속도를 감소시키기 위해 빠진 잔향을 가진 샘플 성분에 적용되는 경우 중
한가지 이상에 해당되는
컴퓨터 판독형 저장 매체. - 프로세서를 이용하여 오디오 신호를 순차적 샘플들로 분리시키는 단계와,
상기 프로세서를 이용하여, 오디오 신호의 시작시 복수의 순차적 샘플들에 걸친 오디오 신호의 일관된 브릭월 주파수를 식별하고, 상기 브릭월 주파수에 비례하는 신호 처치 표시를 결정하는 단계와,
상기 프로세서를 이용하여 상기 오디오 신호의 하나 이상의 샘플 성분을 순차적으로 분석하여 각각의 순차적 샘플의 하나 이상의 샘플 성분 내 오디오 신호의 잃어버린 부분을 식별하는 단계와,
대응하는 식별된 잃어버린 부분을 가진 각자의 순차적 샘플들의 하나 이상의 샘플 성분 각각에 대해 대응하는 신호 처치를, 신호 품질 표시에 따라 소정 레벨에서, 상기 프로세서를 이용하여, 상기 오디오 신호에 적용하는 단계를 포함하는
압축 오디오 신호 처치 방법. - 제 23 항에 있어서,
상기 순차적 샘플들은 고속 퓨리에 변환을 이용하여 결정되는 주파수 도메인 내의 순차적 빈을 포함하고, 상기 일관된 브릭월 주파수의 식별은, 브릭월 주파수를 포함하는 후보 빈으로서 순차적 빈들 중 하나의 식별을 포함하는
압축 오디오 신호 처치 방법. - 제 23 항에 있어서,
스펙트럼 에너지가 브릭월 주파수 아래에 존재하는지를 확인하는 단계와,
다음 높은 주파수의 순차적 빈의 높이를 넘는 기결정된 임계치보다 높은 브릭월 주파수의 높이를 확인하는 단계와,
다음 높은 주파수의 순차적 빈의 높이를 넘는 기결정된 임계치보다 높은 브릭 월 주파수의 컷오프의 기울기(steepness)를 확인하는 단계
중 하나 이상을 더 포함하는
압축 오디오 신호 처치 방법. - 제 23 항에 있어서,
신호 처치 표시는,
(i) 브릭월 주파수가 최소 주파수 임계치를 넘지 않을 때 신호 처치 없음과,
(ii) 브릭월 주파수가 최대 주파수 임계치를 넘을 때 신호 처치 없음과,
(iii) 브릭월 주파수가 최소 주파수 임계치와 최대 주파수 임계치 사이에 놓일 때 브릭월 주파수가 증가함에 따라 감소하는 신호 처치 레벨
중 하나로 설정되는
압축 오디오 신호 처치 방법. - 제 23 항에 있어서,
오디오 신호의 일관된 브릭월 주파수의 검출 전에 신호 처치 없음을 적용하기 위한 신호 처치 표시를 설정하는 단계와,
오디오 신호의 일관된 브릭월 주파수를 표시하는 기규정된 연속 개수의 샘플의 식별시, 오디오 신호에 처치를 적용하기 위한 신호 처치 표시를 래칭하는 단계를 더 포함하는
압축 오디오 신호 처치 방법. - 제 27 항에 있어서,
상기 기규정된 연속 개수의 샘플은 (i) 20개의 연속 샘플과, (ii) 대략 오디오 신호의 1/10 초 내지 1/2 초 사이의 시간 주기를 나타내는 다수의 연속 샘플들 중 하나 이상인
압축 오디오 신호 처치 방법. - 제 23 항에 있어서,
상기 오디오 신호의 시작 검출에 응답하여 자동 타이머를 재설정하는 단계와,
상기 자동 타이머가 만료될 때까지 상기 오디오 신호의 일관된 브릭월 주파수를 식별하도록 복수의 순차적 샘플들을 평가하는 단계와,
상기 자동 타이머가 만료되면 상기 복수의 순차적 샘플들의 평가를 중단하는 단계를 더 포함하는
압축 오디오 신호 처치 방법. - 제 23 항에 있어서,
기결정된 시간 주기 동안 기결정된 임계치 아래의 오디오 신호 세기의 주기의 식별시, 품질 표시를 재설정하는 단계를 더 포함하는
압축 오디오 신호 처치 방법. - 제 23 항에 있어서,
상기 샘플 성분은 주파수 성분이고, 상기 대응하는 신호 처치는 컷오프 주파수 임계치보다 높은 빠진 주파수 성분을 가진 샘플 성분에 적용되는 주파수 성분인 경우와,
상기 샘플 성분은 트랜션트 성분(transient components)이고, 상기 대응하는 신호 처치는 오디오 신호에 존재하는 기존 트랜션트의 시작을 개선시키도록 빠진 트랜션트를 가진 샘플 성분에 적용되는 트랜션트 성분인 경우와,
상기 샘플 성분은 잔향 성분이고, 상기 대응하는 신호 처치는 오디오 신호의 붕괴 속도를 감소시키기 위해 빠진 잔향을 가진 샘플 성분에 적용되는 경우 중
한가지 이상에 해당되는
압축 오디오 신호 처치 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461924641P | 2014-01-07 | 2014-01-07 | |
US61/924,641 | 2014-01-07 | ||
PCT/US2015/010266 WO2015105775A1 (en) | 2014-01-07 | 2015-01-06 | Signal quality-based enhancement and compensation of compressed audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160106586A true KR20160106586A (ko) | 2016-09-12 |
KR102340151B1 KR102340151B1 (ko) | 2021-12-17 |
Family
ID=53524279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167017953A KR102340151B1 (ko) | 2014-01-07 | 2015-01-06 | 신호 품질-기반 압축 오디오 신호 향상 및 보상 |
Country Status (7)
Country | Link |
---|---|
US (1) | US10192564B2 (ko) |
EP (1) | EP3092640B1 (ko) |
JP (1) | JP6576934B2 (ko) |
KR (1) | KR102340151B1 (ko) |
CN (1) | CN105900170B (ko) |
BR (1) | BR112016015695B1 (ko) |
WO (1) | WO2015105775A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190134708A (ko) * | 2017-03-31 | 2019-12-04 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9736588B2 (en) * | 2015-07-23 | 2017-08-15 | Automotive Data Solutions, Inc. | Digital signal router for vehicle replacement sound system |
EP3182406B1 (en) * | 2015-12-16 | 2020-04-01 | Harman Becker Automotive Systems GmbH | Sound reproduction with active noise control in a helmet |
CN108604454B (zh) * | 2016-03-16 | 2020-12-15 | 华为技术有限公司 | 音频信号处理装置和输入音频信号处理方法 |
CA3018039C (en) * | 2016-03-24 | 2023-08-29 | Harman International Industries, Incorporated | Signal quality-based enhancement and compensation of compressed audio signals |
CN107644649B (zh) * | 2017-09-13 | 2022-06-03 | 黄河科技学院 | 一种信号处理方法 |
CN107863095A (zh) | 2017-11-21 | 2018-03-30 | 广州酷狗计算机科技有限公司 | 音频信号处理方法、装置和存储介质 |
CN108156575B (zh) | 2017-12-26 | 2019-09-27 | 广州酷狗计算机科技有限公司 | 音频信号的处理方法、装置及终端 |
CN108156561B (zh) | 2017-12-26 | 2020-08-04 | 广州酷狗计算机科技有限公司 | 音频信号的处理方法、装置及终端 |
CN109036457B (zh) * | 2018-09-10 | 2021-10-08 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
US11935552B2 (en) | 2019-01-23 | 2024-03-19 | Sony Group Corporation | Electronic device, method and computer program |
US11133017B2 (en) * | 2019-06-07 | 2021-09-28 | Harman Becker Automotive Systems Gmbh | Enhancing artificial reverberation in a noisy environment via noise-dependent compression |
CN110211610A (zh) * | 2019-06-20 | 2019-09-06 | 平安科技(深圳)有限公司 | 评估音频信号损失的方法、装置及存储介质 |
WO2021200260A1 (ja) * | 2020-04-01 | 2021-10-07 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
US11264017B2 (en) * | 2020-06-12 | 2022-03-01 | Synaptics Incorporated | Robust speaker localization in presence of strong noise interference systems and methods |
CN115184016A (zh) * | 2022-09-06 | 2022-10-14 | 江苏东控自动化科技有限公司 | 一种升降机轴承故障检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014081548A1 (en) * | 2012-11-26 | 2014-05-30 | Harman International Industries, Incorporated | System, computer-readable storage medium and method for repair of compressed audio signals |
US20140169542A1 (en) * | 2012-12-18 | 2014-06-19 | Marcello Caramma | Audio Bandwidth Extension for Conferencing |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
US6889187B2 (en) * | 2000-12-28 | 2005-05-03 | Nortel Networks Limited | Method and apparatus for improved voice activity detection in a packet voice network |
DE10225146A1 (de) * | 2002-06-06 | 2003-12-18 | Bosch Gmbh Robert | Verfahren zum Einstellen von Filterparametern und zugeordnetes Wiedergabesystem |
KR101164937B1 (ko) * | 2003-05-28 | 2012-07-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램 |
JP4311541B2 (ja) * | 2003-10-06 | 2009-08-12 | アルパイン株式会社 | オーディオ信号圧縮装置 |
WO2006006809A1 (en) | 2004-07-09 | 2006-01-19 | Electronics And Telecommunications Research Institute | Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information |
US7813931B2 (en) * | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
JP4882383B2 (ja) * | 2006-01-18 | 2012-02-22 | ヤマハ株式会社 | オーディオ信号の帯域拡張装置 |
JP4175376B2 (ja) * | 2006-03-30 | 2008-11-05 | ヤマハ株式会社 | オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム |
US9014377B2 (en) * | 2006-05-17 | 2015-04-21 | Creative Technology Ltd | Multichannel surround format conversion and generalized upmix |
US8036767B2 (en) | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
US8554349B2 (en) * | 2007-10-23 | 2013-10-08 | Clarion Co., Ltd. | High-frequency interpolation device and high-frequency interpolation method |
US8655663B2 (en) * | 2007-10-26 | 2014-02-18 | D&M Holdings, Inc. | Audio signal interpolation device and audio signal interpolation method |
DE102008015702B4 (de) * | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
JP5197278B2 (ja) * | 2008-10-02 | 2013-05-15 | クラリオン株式会社 | 高域補完装置 |
EP2359366B1 (en) * | 2008-12-15 | 2016-11-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and bandwidth extension decoder |
WO2011044064A1 (en) | 2009-10-05 | 2011-04-14 | Harman International Industries, Incorporated | System for spatial extraction of audio signals |
JP2011186187A (ja) * | 2010-03-09 | 2011-09-22 | Jvc Kenwood Holdings Inc | 音声処理装置、音声処理方法および音声処理プログラム |
WO2012094827A1 (en) * | 2011-01-14 | 2012-07-19 | Huawei Technologies Co., Ltd. | A method and an apparatus for voice quality enhancement |
US9589576B2 (en) * | 2011-11-03 | 2017-03-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Bandwidth extension of audio signals |
RU2725416C1 (ru) * | 2012-03-29 | 2020-07-02 | Телефонактиеболагет Лм Эрикссон (Пабл) | Расширение полосы частот гармонического аудиосигнала |
WO2013189030A1 (zh) * | 2012-06-19 | 2013-12-27 | 深圳广晟信源技术有限公司 | 对单声道或立体声进行编码的方法 |
CN103107863B (zh) * | 2013-01-22 | 2016-01-20 | 深圳广晟信源技术有限公司 | 一种分段平均码率的数字音频信源编码方法及装置 |
PT3011560T (pt) * | 2013-06-21 | 2018-11-09 | Fraunhofer Ges Forschung | Descodificador de áudio contendo um módulo de extensão de largura de banda com um módulo de ajustamento de energia |
-
2015
- 2015-01-06 WO PCT/US2015/010266 patent/WO2015105775A1/en active Application Filing
- 2015-01-06 BR BR112016015695-1A patent/BR112016015695B1/pt active IP Right Grant
- 2015-01-06 JP JP2016544538A patent/JP6576934B2/ja active Active
- 2015-01-06 US US15/108,740 patent/US10192564B2/en active Active
- 2015-01-06 KR KR1020167017953A patent/KR102340151B1/ko active IP Right Grant
- 2015-01-06 CN CN201580003948.5A patent/CN105900170B/zh active Active
- 2015-01-06 EP EP15734920.0A patent/EP3092640B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014081548A1 (en) * | 2012-11-26 | 2014-05-30 | Harman International Industries, Incorporated | System, computer-readable storage medium and method for repair of compressed audio signals |
US20140169542A1 (en) * | 2012-12-18 | 2014-06-19 | Marcello Caramma | Audio Bandwidth Extension for Conferencing |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190134708A (ko) * | 2017-03-31 | 2019-12-04 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법 |
KR20190134707A (ko) * | 2017-03-31 | 2019-12-04 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호를 처리하기 위한 장치 및 방법 |
US12067995B2 (en) | 2017-03-31 | 2024-08-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal |
Also Published As
Publication number | Publication date |
---|---|
WO2015105775A1 (en) | 2015-07-16 |
EP3092640A1 (en) | 2016-11-16 |
CN105900170A (zh) | 2016-08-24 |
US20160329061A1 (en) | 2016-11-10 |
US10192564B2 (en) | 2019-01-29 |
EP3092640B1 (en) | 2018-06-27 |
EP3092640A4 (en) | 2017-07-05 |
JP2017507348A (ja) | 2017-03-16 |
JP6576934B2 (ja) | 2019-09-18 |
BR112016015695B1 (pt) | 2022-11-16 |
CN105900170B (zh) | 2020-03-10 |
KR102340151B1 (ko) | 2021-12-17 |
BR112016015695A2 (ko) | 2017-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102340151B1 (ko) | 신호 품질-기반 압축 오디오 신호 향상 및 보상 | |
US10311880B2 (en) | System for perceived enhancement and restoration of compressed audio signals | |
JP7543386B2 (ja) | 多様な再生環境のためのダイナミックレンジ制御 | |
JP7383067B2 (ja) | 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法 | |
TWI524330B (zh) | 用於新媒體設備上之具有及不具有嵌入式響度元資料之媒體之標準化音訊播放的方法及裝置 | |
CN108432130B (zh) | 基于对象的音频信号平衡 | |
CN107731238B (zh) | 多声道信号的编码方法和编码器 | |
JP2019097219A (ja) | ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整 | |
EP2820647B1 (en) | Phase coherence control for harmonic signals in perceptual audio codecs | |
JP2011232754A (ja) | オーディオ透かしデコーディングを遂行する方法、装置及び製造物品 | |
US10741196B2 (en) | Signal quality-based enhancement and compensation of compressed audio signals | |
GB2375937A (en) | Method for analysing a compressed signal for the presence or absence of information content | |
EP4387271A1 (en) | Systems and methods for assessing hearing health based on perceptual processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |