KR101120913B1 - 멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법 - Google Patents

멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR101120913B1
KR101120913B1 KR1020107006423A KR20107006423A KR101120913B1 KR 101120913 B1 KR101120913 B1 KR 101120913B1 KR 1020107006423 A KR1020107006423 A KR 1020107006423A KR 20107006423 A KR20107006423 A KR 20107006423A KR 101120913 B1 KR101120913 B1 KR 101120913B1
Authority
KR
South Korea
Prior art keywords
audio signal
signal
time
correlation
delay
Prior art date
Application number
KR1020107006423A
Other languages
English (en)
Other versions
KR20100057666A (ko
Inventor
조나단 앨라스테어 깁스
Original Assignee
모토로라 모빌리티, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티, 인크. filed Critical 모토로라 모빌리티, 인크.
Publication of KR20100057666A publication Critical patent/KR20100057666A/ko
Application granted granted Critical
Publication of KR101120913B1 publication Critical patent/KR101120913B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M3/00Conversion of analogue values to or from differential modulation
    • H03M3/30Delta-sigma modulation
    • H03M3/458Analogue/digital converters using delta-sigma modulation as an intermediate step
    • H03M3/466Multiplexed conversion systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

인코딩 장치는 적어도 제1 마이크로폰(101)으로부터의 제1 오디오 신호 및 제2 마이크로폰(103)으로부터의 제2 오디오 신호를 포함하는 멀티 채널 오디오 신호를 수신하는 프레임 프로세서(105)를 포함한다. 그 다음 ITD 프로세서(107)는 제1 오디오 신호와 제2 오디오 신호 사이의 시간 격차를 결정하며 일련의 지연부(109, 111)는 시간 격차 신호에 응답하여 제1 및 제2 오디오 신호 중 적어도 하나를 지연시킴으로써 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호를 생성한다. 그 후, 결합기(113)는 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 모노 신호를 생성하며 모노 신호 인코더(115)는 모노 신호를 인코드한다. 시간 격차는 특히 제1 및 제2 오디오 신호 간의 상호상관을 결정하는 것을 기반으로 하는 알고리즘에 의해 결정될 수 있다.

Description

멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법{APPARATUS AND METHOD FOR ENCODING A MULTI CHANNEL AUDIO SIGNAL}
본 발명은 멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법에 관한 것으로, 특히, 배타적인 것은 아니지만 스테레오 음성 신호를, 인코딩을 위해 코드 여기 선형 예측 인코더(Code Excited Linear Prediction encoder)와 같은 모노 인코더(mono encoder)를 이용하여 모노 신호로 다운-믹스(down-mix)하는 것에 관한 것이다.
오디오 신호의 효율적인 인코딩은 응용예와 시스템의 수를 증가시키는데 중요하다. 예를 들어, 이동 통신은 효율적인 음성 인코더를 이용하여 무선 인터페이스(air interface)를 통해 전송해야 하는 데이터의 양을 줄인다.
예를 들어, 국제전기통신연합(International Telecommunication Union: ITU)은 데이터율이 8 내지 64 kbps 범위로 하는 음성 신호를 고품질로 인코딩할 수 있는 임베디드 가변 비트율 코덱(Embedded Variable Bit Rate Codec: EV-VBR)으로 알려진 음성 인코더를 표준화하고 있다. 이러한 인코더뿐만 아니라 다른 많은 효율적인 음성 인코더는 코드 여기 선형 예측(Code Excited Linear Prediction: CELP) 기술을 이용하여 저비트율의 동작에서 인코딩 프로세스의 고압축율을 성취한다.
소정 응용예에서, 둘 이상의 오디오 신호가 캡쳐될 수 있으며 특히 스테레오 신호는 두 개의 마이크로폰을 이용하여 오디오 시스템에 기록될 수 있다. 예를 들어, 스테레오 기록은 전형적으로 오디오 및 비디오 회의뿐만 아니라 방송 응용에서 사용될 수 있다.
많은 멀티 채널 인코딩 시스템에서, 그리고 특히 많은 멀티 채널 음성 인코딩 시스템에서, 낮은 레벨의 인코딩은 단일 채널을 인코딩하는데서 비롯된다. 그러한 시스템에서, 멀티 채널 신호는 낮은 계층의 코더에서 인코딩하기 위해 모노 신호로 변환될 수 있다. 이러한 모노 신호의 생성을 다운-믹싱(down-mixing)이라 지칭한다. 그러한 다운-믹싱은 모노 신호에 대한 스테레오 신호의 국면을 기술하는 파라미터와 연관될 수 있다. 상세히 말해서, 다운 믹싱은 좌측 채널과 우측 채널 간의 타이밍 차이(timing difference)를 특징짓는 채널간 시간차(inter-channel time difference: ITD) 정보를 발생할 수 있다. 예를 들어, 만일 두 개의 마이크로폰이 서로 이격배치되어 있는 경우, 한 마이크로폰에 다른 마이크로폰보다 가까이 배치된 스피커로부터의 신호는 상기 가까운 마이크로폰에 비해 지연되어 다른 마이크로폰에 도달할 것이다. 이러한 ITD는 결정될 수 있으며 이 ITD는 디코더에서 모노 신호로부터 스테레오 신호를 재현하는데 사용될 수 있다. 대략 1 kHz 미만의 주파수인 경우에 ITD는 지각력에 의한 영향이 스테레오 위치에 가장 지배적으로 미치는 것으로 판명되었기 때문에 ITD는 재현된 스테레오 관점의 품질을 상당히 개선할 수 있다. 그러므로, ITD를 또한 추정하는 것이 중요하다.
통상적으로, 모노 신호는 스테레오 신호들을 서로 합침으로써 생성된다. 그 후, 모노 신호는 인코드되어 ITD와 함께 디코더에 전송된다.
예를 들어, 유럽 전기통신 표준 기구(European Telecommunication Standards Institute)는 기술 사양 ETSI TS126290 "Extended Adaptive Multi-Rate - Wideband(AMR-WB+) Codec; Transcoding Functions"에서 스테레오 신호 다운-믹싱을 규정하였는데, 여기서 모노 신호는 다음과 같이 좌측 채널과 우측 채널의 평균으로서 간단하게 결정된다.
Figure 112010018587824-pct00001
여기서 xML(n)는 모노 신호의 n번째 샘플을 나타내고, xLL(n)는 좌측 채널 신호의 n번째 샘플을 나타내며, xRL(n)는 우측 채널 신호의 n번째 샘플을 나타낸다.
다운믹스의 또 다른 예는 2004년 10월 5-8일, 이탈리아 나폴리, Proceedings 7th International Conference on Digital Audio Effects (DAFx'04)에서, 에이치 펀헤이건(H. Purnhagen)의 "Low Complexity Parametric Stereo Coding in MPEG-4"의 163-168 페이지에서 제공된다. 이 문서에서, 채널간 세기차(inter-channel intensity difference: IID)에 대해 구한 정보를 이용하여 대역별(band-by-band) 주파수에 기반한 인입 채널들(incoming channels)의 가중 합(weighted sum)으로서 출력 모노 신호를 구하는 다운-믹싱 방법이 기술되어 있다. 보다 상세하게,
Figure 112010018587824-pct00002
여기서 M[k,i]는 모노 신호의 k번째 주파수 빈(frequency bin)의 i번째 샘플을 나타내고, L[k,i]는 좌측 채널 신호의 k번째 주파수 빈의 i번째 샘플을 나타내며, R[k,i]는 우측 채널 신호의 k번째 주파수 빈의 i번째 샘플을 나타내며, gl은 좌측 채널 가중치이며 gr는 우측 채널 가중치이다.
이러한 접근법들의 특징은 어느 접근법이나 모노 신호가 높은 반향음 시간(reverberation time)을 갖거나 그렇지 않다면 높은 복잡도 및/또는 지연을 갖는 결과를 가져온다는 것이다. 예를 들어, 다운-믹싱의 AMR-WB+ 방법은 반향음 시간이 대략 방안(room)의 반향음 시간에 두 마이크로폰들 사이의 비행시간을 합한 시간이라는 출력을 제공한다. 펀헤이건(Purnhagen)의 문서에서 제공된 다운믹스는 복잡도가 높으며 주파수 분석 및 재구성으로 인한 지연이 부과된다.
그러나, 많은 모노 인코더는 신호가 낮은 반향음 시간을 갖게 하는 최선의 결과를 제공한다. 예를 들어, 저비트율 CELP 음성 코더, 및 펄스-기반 여기(pulse-based excitation)를 이용하여 음성 및 오디오 신호를 나타내는 다른 인코더는 신호가 짧은 반향음 시간을 가질 때 가장 잘 동작한다. 따라서, 인코더의 성능과 인코드된 결과 신호의 품질은 차선책이 되기 쉽다.
그러므로, 개선된 시스템이 유익할 것이며 특히 유연성이 증가하고, 구현이 용이하고, 인코딩 품질이 향상되고, 인코딩 효율이 개선되고, 지연이 줄며 및/또는 성능이 개선되는 시스템이 유익할 것이다.
따라서, 본 발명은 바람직하게 전술한 한가지 이상의 단점을 한 개씩 또는 몇 개씩 완화하고, 경감하고 또는 제거하고자 한다.
본 발명의 양태에 따르면, 멀티 채널 오디오 신호를 인코딩하기 위한 장치가 제공되며, 상기 장치는, 적어도 제1 마이크로폰으로부터의 제1 오디오 신호 및 제2 마이크로폰으로부터의 제2 오디오 신호를 포함하는 상기 멀티 채널 오디오 신호를 수신하는 수신기; 상기 제1 오디오 신호와 상기 제2 오디오 신호의 시간 격차를 결정하는 시간 차 유닛; 상기 시간 격차 신호에 응답하여 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중의 적어도 하나를 지연시킴으로써 상기 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호를 생성하는 지연 유닛; 상기 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 모노 신호를 생성하는 모노 유닛; 및 상기 모노 신호를 인코딩하는 모노 신호 인코더를 포함한다.
본 발명은 멀티 채널 오디오 신호의 개선된 인코딩을 제공할 수 있다. 특히, 많은 실시예에서 주어진 데이터율의 개선된 품질이 성취될 수 있다. 본 발명은 모노 다운-믹스 신호의 반향음 시간을 줄임으로써 스테레오 신호로부터 모노 다운-믹스 신호의 모노 인코딩을 개선할 수 있다. 지연 유닛은 어떤 마이크로폰이 (메인) 오디오 소스에 가장 가까이 있는지에 따라서 제1 오디오 신호 또는 제2 오디오 신호를 지연시킬 수 있다. 시간 격차는 동일 오디오 소스로부터 발생하는 제1 및 제2 오디오 신호의 대응하는 오디오 컴포넌트들 사이의 시간 차를 나타낼 수 있다. 모노 신호를 생성하는 유닛은 제1 및 제2 오디오 신호에 대응하는 결합된 멀티 채널 오디오 신호의 두 채널들을 합치도록 배열될 수 있다. 소정 실시예에서, 합산은 가중 합산일 수 있다.
본 발명의 선택적인 특징에 따르면, 시간 차 유닛은 복수의 시간 옵셋을 위해 제1 오디오 신호와 제2 오디오 신호 사이의 상호상관을 결정하고, 그리고 상호상관에 응답하여 시간 격차를 결정하도록 배열된다.
이 특징은 시간 격차의 결정을 개선되게 할 수 있다. 이 특징은 인코드된 오디오 신호의 품질을 개선시킬 수 있으며 및/또는 구현을 용이하게할 수 있으며 및/또는 복잡성을 줄일 수 있다. 특히, 이 특징은 모노 신호 및 시간 격차로부터 랜더링된 스테레오 신호의 스테레오 지각력을 개선시켜 줄 수 있다. 상호상관은 개개의 상호상관의 시간 옵셋과 같아지는 시간 격차의 확률을 나타낼 수 있다.
본 발명의 다른 양태에 따르면, 멀티 채널 오디오 신호를 인코딩하기 위한 방법이 제공되며, 상기 방법은, 적어도 제1 마이크로폰으로부터의 제1 오디오 신호 및 제2 마이크로폰으로부터의 제2 오디오 신호를 포함하는 상기 멀티 채널 오디오 신호를 수신하는 단계; 상기 제1 오디오 신호와 상기 제2 오디오 신호의 시간 격차를 결정하는 단계; 상기 시간 격차 신호에 응답하여 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중 적어도 하나를 지연시킴으로써 상기 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호를 생성하는 단계; 상기 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 모노 신호를 생성하는 단계; 및 상기 모노 신호를 모노 신호 인코더에서 인코딩하는 단계를 포함한다.
본 발명의 이러한 양태와 다른 양태, 특징과 장점은 아래에서 기술된 실시예(들)로부터 자명해질 것이며 그 실시예를 참조하여 설명될 것이다.
본 발명의 실시예는 도면을 참조하여 단지 예로서만 설명될 것이다.
도 1은 본 발명의 소정 실시예에 따라서 멀티 채널 오디오 신호를 인코딩하기 위한 장치의 예를 예시한다.
도 2는 본 발명의 소정 실시예에 따라서 시간 격차(inter time difference)를 추정하는 프로세싱 유닛의 예를 예시한다.
도 3은 본 발명의 소정 실시예에 따라서 화이트닝 프로세서(whitening processor)의 예를 예시한다.
도 4는 본 발명의 소정 실시예에 따라서 트렐리스 상태 머신의 상태 갱신의 예를 예시한다.
도 5는 본 발명의 소정 실시예에 따라서 멀티 채널 오디오 신호를 인코딩하기 위한 방법의 예를 예시한다.
다음은 모노 인코더를 이용한 멀티 채널 오디오 신호의 인코딩, 특히 모노 CELP 인코더를 이용한 스테레오 음성 신호의 인코딩에 적용할 수 있는 본 발명의 실시예에 대해 중점적으로 설명한다.
도 1은 본 발명의 소정 실시예에 따라서 멀티 채널 오디오 신호를 인코딩하기 위한 장치를 예시한다. 특정한 예에서, 스테레오 음성 신호는 모노 인코더를 이용하여 모노 신호로 다운-믹스되고 인코드된다.
본 장치는 두 개의 마이크로폰(101, 103)을 포함하며, 이들 마이크로폰은 두 마이크로폰이 배치된 오디오 환경으로부터 오디오 신호를 캡처한다. 이 예에서, 두 마이크로폰은 실내에서 음성 신호를 기록하는데 사용되며 3 미터까지의 내부 거리를 두고 배치된다. 특정 응용에서, 마이크로폰(101, 103)은, 예를 들어, 실내에 있는 다수의 사람들로부터의 음성 신호를 기록할 수 있으며 두 개의 마이크로폰을 사용함으로써 실내의 오디오 커버리지가 더 좋아질 수 있다.
마이크로폰(101, 103)은 제1 및 제2 마이크로폰(101, 103)으로부터 각기 제1 및 제2 신호를 수신하는 프레임 프로세서(105)에 연결된다. 프레임 프로세서는 이 신호들을 순차적인 프레임으로 분할한다. 특정 예에서, 샘플 주파수는 16 ksamples/sec 이며 프레임 지속기간은 20 msec로서 결과적으로 각 프레임은 320 샘플을 포함한다. 프레임 처리는 이 프레임이 음성 인코딩에 사용된 것과 같은 프레임일 수 있기 때문에 또는 프레임 처리가, 예를 들어, 과거의 음성 샘플에 대해 수행될 수 있기 때문에 음성 경로에 부가적인 지연을 줄 필요가 없음을 알아야 한다.
프레임 프로세서(105)는 제1 오디오 신호와 제2 오디오 신호 간의 시간 격차(inter time difference)를 측정하도록 배열된 ITD 프로세서(107)에 결합된다. 시간 격차는 하나의 채널에서의 신호가 다른 채널에서의 신호에 비해 지연된 것을 나타낸다. 이 예에서, 시간 격차는 채널들 중 어느 채널이 다른 채널에 비해 지연되는가에 따라서 양의 값 또는 음의 값일 수 있다. 지연은 전형적으로 우세한 음성원(즉, 현재 동작 중인 스피커)과 마이크로폰(101, 103) 사이의 지연의 차로 인해 발생할 것이다.
ITD 프로세서(107)는 또한 두 지연부(109, 111)에 연결된다. 제1 지연부(109)는 제1 오디오 채널에 지연을 도입하도록 배열되며 제2 지연부(111)는 제2 오디오 채널에 지연을 도입하도록 배열된다. 도입된 지연의 양은 추정된 시간 격차에 따라 좌우된다. 또한, 특정 예에서, 지연들 중 단지 한 지연만이 어떤 주어진 시간에 사용된다. 그래서, 추정된 시간 격차의 부호에 따라서, 지연이 제1 또는 제2 오디오 신호에 도입된다. 지연 양은 구체적으로 말하자면 가능한 추정된 시간 격차에 가깝게 설정된다. 그 결과, 지연부(109, 111)의 출력에서의 오디오 신호는 밀집한 시간 간격으로 조정되며 구체적으로 말해서 전형적으로 제로에 가까워질 시간 격차를 갖게 될 것이다.
지연부(109, 111)는 결합기(113)에 연결되며, 이 결합기는 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 구체적으로는 지연부(109, 111)의 두 출력 신호들을 결합함으로써 모노 신호를 발생한다. 이 예에서, 결합기(113)는 두 신호를 서로 합하는 간단한 합산 유닛이다. 또한, 신호들은 결합되기 전에 모노 신호의 진폭을 개개의 신호들의 진폭과 유사하게 유지하기 위하여 0.5라는 팩터로 스케일된다.
그러므로, 결합기(113)의 출력은 갭처된 두 신호가 다운 믹스된 모노 신호이다. 또한, 지연 때문에 그리고 시간 격차가 줄어듦으로 인해, 생성된 모노 신호는 반향음이 상당히 줄어든다.
결합기(113)는 모노 인코더(115)에 연결되며, 이 모노 인코더는 모노 신호에 대해 모노 인코딩을 수행하여 인코드된 데이터를 발생한다. 특정한 예에서, 모노 인코더는 국제 전기통신 연합(ITU)에서 표준화될 임베디드 가변 비트율 코덱(Embedded Variable Bit Rate Codec: EV-VBR)에 따른 코드 여기 선형 예측(Code Excited Linear Prediction: CELP) 인코더이다.
CELP 코더는 매우 효율적인 인코딩을 제공하는 것으로 알려져 있으며 구체적으로는 낮은 데이터율에도 불구하고 양호한 음성 품질을 제공하는 것으로 알려져 있다. 그러나, CELP 코더는 반향음 시간이 높은 신호에 대하여는 그와 같이 동작하지 못하는 경향이 있으며 그러므로 통상적으로 생성된 다운 믹스 모노 신호의 인코딩에는 적합하지 않았다. 그러나, 지연이 보상되고 결과적으로 반향음이 줄어듦으로 인해, CELP 모노 인코더는 도 1의 장치에서 이용되어 다운-믹스된 모노 음성 신호를 매우 효율적으로 인코딩할 수 있다. 이러한 장점은 제한하는 것은 아니지만 CELP 모노 인코더에 특히 적합하며 다른 많은 인코더에 적용될 수 있음을 인식할 것이다.
모노 인코더(115)는 출력 멀티플렉서(117)에 연결되며, 이 출력 멀티플렉서는 또한 ITD 프로세서(107)에 연결된다. 이 예에서, 출력 멀티플렉서(117)는 모노 인코더(115)로부터의 인코딩 데이터와 ITD 프로세서(107)로부터의 시간 격차를 나타내는 데이터를 단일 출력 비트스트림으로 멀티플렉스한다. 비트스트림에 시간 격차가 포함됨으로써 디코더는 인코딩 데이터로부터 디코드된 모노 신호에서 스테레오 신호를 재현하는데 도움을 줄 수 있다.
그러므로, 기술된 시스템은 개선된 성능을 제공하며 특히 소정 데이터율에 대해 개선된 오디오 품질을 제공할 수 있다. 특히, CELP 인코더와 같은 모노 인코더가 개선되어 사용됨으로써 결과적으로 상당히 개선된 품질을 가져올 수 있다. 더욱이, 기술된 기능은 구현하기가 간단하며 자원 요건이 비교적 낮다.
아래에서는 ITD 프로세서(107)에 의해 수행된 시간 격차 추정에 대해 도 2를 참조하여 설명할 것이다.
ITD 프로세서(107)에 의해 사용된 알고리즘은 채널들 간의 다른 가능한 시간 옵셋을 위해 제1 및 제2 오디오 신호 간의 상호상관(cross-correlations)의 연속 관측치를 결합함으로써 시간 격차 추정치를 결정한다. 상관은 상관을 더욱 잘 규정하고, 구현을 용이하게 하며 계산 요구를 줄이기 위하여 데시메이티드 LPC 잔여 영역(decimated LPC residual domain)에서 수행된다. 예를 들어, 상호상관은 -12 ms와 +12 ms (± ~4 미터) 사이의 각각의 잠재적 지연과 연관된 확률을 유도하기 위해 처리되며 그 확률은 변형 비터비형 알고리즘을 이용하여 누적된다. 결과는 고유 히스테리시스를 갖는 시간 격차의 추정치이다.
ITD 프로세서(107)는 프레임 프로세서(105)로부터 두 채널의 샘플들의 프레임을 수신하는 데시메이션 프로세서(201)를 포함한다. 데시메이션 프로세서(201)는 먼저 로우패스 필터링을 수행한 다음 데시메이션을 수행한다. 특정한 예에서, 로우 패스 필터는 약 2 kHz의 대역폭을 가지며, 16 ksamples/sec 신호에 대해 4라는 데시메이션 팩터가 사용되어 결과적으로 4 ksamples/sec의 데시메이팅된 샘플 주파수를 생성한다. 필터링과 데시메이션의 효과는 처리된 샘플들의 개수를 부분적으로 줄이는 것이며 그럼으로써 계산 요구가 줄어든다. 그러나, 또한, 이 접근법은 시간 격차를 지각하는 것이 가장 중요한 낮은 주파수에 시간 격차 추정치가 집중되게 한다. 그러므로, 필터링 및 데시메이션은 계산적인 부담을 줄일 뿐만 아니라 시간 격차 추정치가 가장 민감한 주파수와 관련 있음을 보장하는 상승 효과를 제공한다.
데시메이션 프로세서(201)는 화이트닝 프로세서(203)에 연결되며, 화이트닝 프로세서는 상관 전에 스펙트럼 화이트닝 알고리즘(spectral whitening algorithm)을 제1 및 제2 오디오 신호에 적용하도록 배열된다. 스펙트럼 화이트닝은 발성 음 또는 색조 음(voiced or tonal speech)인 경우에, 두 신호들의 시간 영역 신호들이 일련의 임펄스에 매우 유사하게 해줌으로써, 후속하는 상관이 상호상관 값이 더욱 잘 규정되게 해주는 결과를 가져오며 구체적으로 말해서 상관 피크치가 더 좁아지는 결과를 가져온다(임펄스의 주파수 응답이 플랫(flat) 또는 화이트 스펙트럼에 해당하며 그 반대로 화이트 스펙트럼의 시간 영역 표시가 임펄스이다).
특정한 예에서, 스펙트럼 화이트닝은 제1 및 제2 오디오 신호의 선형 예측 계수를 계산하고 그 선형 예측 계수에 응답하여 제1 및 제2 오디오 신호를 필터하는 것을 포함한다.
화이트닝 프로세서(203)의 구성요소들은 도 3에 도시된다. 더 상세히 말하면, 데시메이션 프로세서(201)로부터의 신호는 두 신호에 대해 선형 예측 필터의 선형 예측 계수(Linear Predictive Coefficients: LPCs)를 결정하는 LPC 프로세서(301, 303)에 제공된다. 숙련자들은 LPC를 결정하는 다른 알고리즘을 알 것이며 어떠한 적합한 알고리즘도 본 발명의 가치를 떨어뜨리지 않고 사용될 수 있음을 인식할 것이다.
이 예에서, 두 오디오 신호는 LPC 프로세서(301, 303)에 연결된 두 필터(305, 307)에 제공된다. 두 필터는 LPC 프로세서(301, 303)에 의해 결정된 선형 예측 필터의 역필터(inverse filters) 이도록 결정된다. 상세히 말해서, LPC 프로세서(301, 303)는 선형 예측 필터의 역필터의 계수를 결정하며 두 필터의 계수는 이들 값으로 설정된다.
두 역필터(305, 307)의 출력은 발성 음의 경우에 일련의 임펄스 트레인과 유사하며 그럼으로써 음성 영역에서 가능한 것보다 상당히 더 정확한 상호상관이 수행되게 해준다.
화이트닝 프로세서(203)는 상관기(205)에 연결되며 이 상관기는 복수의 시간 옵셋을 위한 두 필터(305, 307)의 출력 신호들 사이의 상호상관을 결정하도록 배열된다.
특히, 상관기는 하기 값을 결정할 수 있다.
Figure 112010018587824-pct00003
여기서 t는 시간 옵셋이고, x 및 y는 두 신호들의 샘플들이며 N은 특정 프레임의 샘플들을 나타낸다.
상관은 일련의 가능한 시간 옵셋에 대해 수행된다. 특정한 예에서, 상관은 ±12 msec의 최대 시간 옵셋에 대응하는 총 97 시간 옵셋에 대해 수행된다. 그러나, 다른 실시예에서는 다른 일련의 시간 옵셋들이 사용될 수 있음이 인식될 것이다.
그러므로, 상관기는 97개의 상호상관 값을 생성하며, 각각의 상호상관 값은 두 채널 사이의 특정한 시간 옵셋에 대응하며, 그래서 가능한 시간 격차에 대응한다. 상호상관의 값은 특정 시간 옵셋에 대해 두 신호가 얼마나 가깝게 일치(match)하는지의 표시에 해당한다. 그래서, 상호상관 값이 높은 경우, 신호들은 더욱 가깝게 일치하며 그에 따라서 시간 옵셋이 정확한 시간 격차 추정치가 되는 확률이 높다. 반대로, 상호상관 값이 낮은 경우, 신호들은 가깝게 일치하지 않으며 그에 따라서 시간 옵셋이 정확한 시간 격차 추정치가 되는 확률은 낮다. 그래서, 매 프레임마다, 상관기(205)는 97개의 상호상관 값을 생성하며 이 각각의 상호상관 값은 대응하는 시간 옵셋이 정확한 시간 격차라는 확률을 표시한다.
이 예에서, 상관기(205)는 상호상관 전에 제1 및 제2 오디오 신호에 대해 윈도윙을 수행하도록 배열된다. 더 상세히 말해서, 두 신호의 각 프레임 샘플 블록은 14 ms의 중앙 사각 부분 및 각 단부에서 3 ms의 두 곳의 Hann 부분을 포함하는 20 ms 윈도우를 이용하여 윈도윙(windowing)된다. 이러한 윈도윙은 정확성을 개선하고 상관 윈도우의 에지에서 경계 효과의 영향을 줄여줄 수 있다.
또한, 이 예에서, 상호상관은 정규화된다. 정규화는 특히 (즉, 두 신호가 같을 때) 성취될 수 있는 최대 상호상관 값이 단일 값을 갖도록 보장하는 것이다. 정규화는 입력 신호의 신호 레벨 및 시험받은 상관 시간 옵셋에 상대적으로 무관한 상호상관 값을 제공하며 그럼으로써 더욱 정확한 확률 표시를 제공하게 된다. 특히, 정규화는 프레임의 시퀀스의 비교와 처리를 개선해준다.
간단한 실시예에서, 상관기(205)의 출력은 바로 평가될 수 있으며 현재 프레임의 시간 격차는 상호상관 값에 의해 표시된 것처럼 최고의 확률을 갖는 값으로 설정될 수 있다. 그러나, 그러한 방법은 음성 신호가 발성되기도 하고 묵음으로 발성되지 않고를 반복할 때 신뢰성이 떨어지는 출력을 제공하는 경향이 있으며, 기술된 예에서, 상관기는 상태 프로세서(207)에 연결되며, 이 상태 프로세서는 상관값을 복수의 상태에 대해 처리하여 더욱 정확한 시간 격차 추정치를 제공한다.
이 예에서, 상관값은 업데이트 단계로서 상태 프로세서(207)에서 구현된 비터비 알고리즘 메트릭 누산기에서 사용된다.
그래서, 상세히 말해서 상태 프로세서(207)는 시간 옵셋에 대응하는 복수의 상태를 갖는 메트릭 누산기를 구현한다. 그래서 각 상태는 하나의 시간 옵셋을 나타내며 연관된 메트릭 누산값을 갖는다.
따라서, 메트릭 누산기 형태의 비터비 기반 트렐리스 상태 머신은 각각의 시간 옵셋마다 상관값이 계산된(즉, 특정 예에서 97개의 상태/시간 옵셋) 메트릭 값을 저장한다. 상세히 말하자면, 각 상태/시간 옵셋은 시간 격차가 그 상태의 시간 옵셋에 대응하는 확률을 나타내는 확률 메트릭과 연관된다.
현재 프레임에 대해 결정된 상관값을 고려하기 위하여 모든 시간 옵셋의 확률 메트릭이 매 프레임마다 다시 계산된다. 상세하게는, 상호상관에 따라서 상태/시간 옵셋의 경로 메트릭이 계산된다. 특정한 예에서, 상호상관은 공식 로그(0.5 + pi)을 적용함으로써 대수 영역으로 변환되며, 여기서 pi는 i번째 상관값이다(이 값은 정규화 프로세스로 인해 0과 1 사이의 값이며 연관된 시간 옵셋에 시간 격차가 대응하는 확률에 대응한다).
이 예에서, 주어진 확률 메트릭의 기여 정도는 그 시간 옵셋의 이전 확률 메트릭 및 현재 프레임에 대해 계산된 옵셋의 상관값으로부터 결정된다. 또한, 기여 정도는 시간 격차가 한 값에서 다른 값으로 변하는 (즉, 가장 가능성 있는 상태가 한 시간 옵셋의 상관값으로부터 다른 시간 옵셋의 상관값으로 변하도록 하는) 상황에 대응하여 이웃 시간 옵셋과 연관된 상관값으로부터 이루어진다.
인접한 시간 격차 값에 대응하는 이웃 상태로부터의 경로의 경로 메트릭은 동일한 상태로부터의 경로의 경로 메트릭보다 실질적으로 낮게 가중된다. 더 상세히 말해서, 동일한 상태인 경우의 상호상관보다 이웃 상관값이 적어도 다섯 배 높게 가중되는 특정한 유리한 성능이 발견되었음이 실험을 통해 밝혀졌다. 특정한 예에서, 인접한 상태 경로 메트릭은 0.009의 팩터로 가중되며 동일한 상태 경로 메트릭은 0.982의 팩터로 가중된다.
도 4는 트렐리스 상태 머신에서 프레임 t에 대해 메트릭 갱신의 예를 예시한다. 특정 예에서, 시간 t에서 상태 sn에 대한 상태 확률 메트릭은 시간 t-1에서 상태 sn 및 시간 t-1에서 인접한 상태들 sn -1 및 sn +1을 포함하는 이전 상태들의 부분집합으로부터의 경로의 경로 메트릭으로부터 계산된다. 특히, 상태 sn에 대한 상태 확률 메트릭은 아래와 같이 주어진다.
Figure 112010018587824-pct00004
여기서
Figure 112010018587824-pct00005
는 프레임 t에서 상태 x로부터 상태 n까지 계산된 가중 경로 메트릭이다.
이 예에서, 확률 메트릭은 매 프레임마다 최저 상태 확률 메트릭을 모든 상태 확률 메트릭에서 감산함으로써 변경된다. 이로써 연속하여 증가하는 상태 확률 메트릭으로부터의 오버플로우 문제가 완화된다.
이 예에서, 옵셋 자체와 인접 옵셋을 포함하는 부분집합의 옵셋들의 경우 소정의 시간 옵셋 메트릭에의 기여 정도만이 포함될 뿐이다. 그러나, 다른 실시예에서 다른 부분집합의 시간 옵셋들이 고려될 수 있음이 인식될 것이다.
이 예에서, 트렐리스 상태 머신의 상태 메트릭은 매 프레임마다 갱신된다. 그러나, 통상의 비터비 알고리즘과 다르게, 상태 프로세서(207)는 각 상태마다 바람직한 경로를 선택하지 않고 소정 상태의 상태 확률 메트릭을 그 상태에 들어가는 모든 경로들로부터의 기여 정도를 조합한 것으로서 계산한다. 또한, 상태 프로세서(207)는 생존 경로를 결정하기 위하여 트렐리스를 통해 거슬러 올라가지 않는다. 그보다는, 이 예에서, 현재의 시간 격차 추정치는 현재 최고의 상태 확률 메트릭을 갖는 상태에 대응하는 시간 옵셋으로서 간단히 선택될 수 있다. 그래서, 상태 머신에서는 어떠한 지연도 발생하지 않는다. 또한, 확률 상태 메트릭이 이전의 값(및 다른 상태)에 따라 종속하므로, 본래 히스테리시스가 성취된다.
더 상세히 말해서, 상태 프로세서(207)는 최고의 상태 확률 메트릭을 갖는 상태와 연관된 시간 옵셋으로부터 시간 격차를 결정하는 ITD 프로세서(209)에 연결된다. 특히, 시간 격차는 최고의 상태 확률 메트릭을 갖는 상태의 시간 옵셋과 동일하게 바로 설정될 수 있다.
ITD 프로세서(209)는 지연부(109, 111)에 적용될 지연을 결정하는 지연 프로세서(211)에 연결된다. 우선, 지연 프로세서(211)는 데시메이션 프로세서(201)에서 적용된 데시메이션 팩터에 의해 시간 격차를 보상한다. 간단한 실시예에서, 추정된 시간 격차는 (예를 들어 250 ㎲ 해상도에 대응하는 4 kHz에서) 다수의 데시메이트된 샘플로서 주어질 수 있으며 이것은 데시메이션 팩터를 곱셈함으로써 다수의 데시메이트되지 않은 샘플(예를 들어, 4라는 팩터로 곱셈함으로써 16 kHz의 샘플)로 변환될 수 있다.
이 예에서, 지연 프로세서(211)는 두 지연부(109, 111)의 값을 설정한다. 상세히 말하자면, 시간 격차의 부호에 따라서, 지연부들 중 한 지연부는 제로로 설정되며 다른 지연부는 데시메이트되지 않은 계산된 샘플의 개수로 설정된다.
시간 격차를 계산하는 기술된 접근법은 인코드된 신호의 품질을 개선해주며 특히 인코딩 전에 모노 신호의 반향음을 줄여주며, 그럼으로써 CELP 모노 인코더(115)의 동작과 성능이 개선된다.
상이한 구성에서 회의실에서 세 가지 스테레오 테스트 신호를 한 쌍의 마이크로폰을 이용하여 기록하는 특별한 시험을 수행하였다. 첫 번째 구성에서, 이들 마이크로폰을 1m 떨어져 배치하였고 두 명의 여성 화자가 두 마이크로폰을 각기 벗어난 축 상의 위치에 앉았으며 시험적인 대화 내용을 기록하였다. 두 번째 구성에서, 두 마이크로폰을 3m 떨어져 배치하고 여성 화자가 마찬가지로 두 마이크로폰의 각각을 벗어난 축 상의 위치에 앉았다. 마지막 구성에서, 마이크로폰을 2m 떨어져 배치하였고 두 명의 화자가 마이크로폰의 축의 옆으로 돌아가되 각각의 두 마이크로폰의 마주하는 축의 반대편에 앉았다. 이러한 모든 시나리오들에서, 알고리즘은 지연의 흔적을 잘 찾아냈으며 결과적인 모노 신호를 ITU-T EV-VBR 코덱용 베이스라인 알고리즘을 이용하여 인코드할 때, 각 시나리오에서 SEGSNR 및 WSEGSNR에서 대략 0.3 dB의 이득이 관측되었다.
소정 실시예에서, 한 지연에서 다른 지연으로의 전이는 적절한 신호가 지연부(109, 111)에 의해 지연되는 샘플들의 개수를 변경함으로써 간단하게 성취된다. 그러나, 소정 실시예에서, 하나의 지연에서 다른 지연으로의 부드러운 전이를 수행하는 기능이 포함될 수 있다.
상세히 말해서, 본 장치는 전이하기 전에 지연부에 의해 지연된 제1 신호 및 전이한 다음에 지연부에 의해 지연된 제2 신호를 발생함으로써 제1 지연에서 제2 지연으로 전이하도록 배열될 수 있다. 그 다음 제1 및 제2 신호는 결합되어 전이하기 전의 신호와 전이한 다음의 신호로부터 기여된 결합된 신호를 발생한다. 두 신호로부터의 기여 정도는 그 기여 정도가 처음에는 제1 신호로부터 두드러지게 또는 전적으로 나타나게 하고 전이의 끝무렵에서는 제2 신호로부터의 기여 정도가 두드러지게 또는 전적으로 나타나도록 점차 변한다.
그래서, 본 장치는 지연 전이 동안 초기 지연과 마지막 지연에 대응하는 두 신호를 합성할 수 있다. 두 신호는 다음과 같이 가중된 합으로 결합될 수 있다.
Figure 112010018587824-pct00006
여기서 s1및 s2는 제1 및 제2 신호를 나타내며 a 및 b는 전이 구간(transition interval)(특히 단일의 프레임과 같을 수 있음) 동안 변경된 가중치이다. 특히, 초기에 이 값들은 a=1 및 b=0로 설정될 수 있으며 마지막 값들은 a=0 및 b=1로 설정될 수 있다. 이들 값들 간의 전이는 어떤 적합한 함수에 따라서 수행될 수 있으며 특히 전이 동안 a+b=1 이라는 관계를 유지할 수 있다.
그래서, 그러한 실시예에서, 두 지연부들의 신호들을 합성하고 시간 영역에서 한 지연에서 다른 지연으로 점차 전이함으로써 다른 지연들 간의 부드러운 전이 이 성취된다.
특정한 예에서, 20 ms 하프-한 오버랩-애드 윈도우(half-Hann overlap-add window)가 적용되어 한 지연에서 다음 지연으로의 전이가 가능한 지각할 수 없게 보장한다.
도 5는 본 발명의 소정 실시예에 따라서 멀티 채널 오디오 신호를 인코딩하는 방법을 예시한다.
본 방법은 적어도 제1 마이크로폰으로부터의 제1 오디오 신호 및 제2 마이크로폰으로부터의 제2 오디오 신호를 포함하는 멀티 채널 오디오 신호를 수신하는 단계(501)에서 시작한다.
단계(501) 다음의 단계(503)에서는 제1 오디오 신호와 제2 오디오 신호 사이의 시간 격차가 결정된다.
단계(503) 다음의 단계(505)에서는 시간 격차 신호에 응답하여 제1 및 제2 스테레오 신호들 중 적어도 하나를 지연시킴으로써 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호가 생성된다.
단계(505) 다음의 단계(507)에서는 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 모노 신호가 생성된다.
단계(507) 다음의 단계(509)에서는 모노 신호 인코더에 의해 모노 신호가 인코드된다.
명료성을 위한 전술한 설명은 상이한 기능적인 유닛과 프로세서를 참조하여 본 발명의 실시예를 기술하였음이 인식될 것이다. 그러나, 본 발명을 손상하지 않고도 상이한 기능적 유닛들 또는 프로세서들 사이에서 기능의 어떠한 적합한 분배라도 이용될 수 있음은 자명할 것이다. 예를 들어, 별개의 프로세서 또는 컨트롤러에 의해 수행되는 것으로 예시된 기능은 동일한 프로세서 또는 컨트롤러에 의해서 수행될 수 있다. 그러므로, 특정한 기능적인 유닛을 참조하는 것은 엄격한 논리적 또는 물리적 구조 또는 조직을 나타내기보다는 기술된 기능을 제공하기에 적합한 수단을 참조하는 것으로 간주 될 뿐이다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 어떠한 조합을 포함하는 어떤 적합한 형태로도 구현될 수 있다. 본 발명은 선택적으로 적어도 부분적으로 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서에서 실행하는 컴퓨터 소프트웨어로서 구현될 수 있다. 본 발명의 실시예의 구성요소 및 컴포넌트는 물리적으로, 기능적으로 그리고 논리적으로 어떤 적합한 방식으로도 구현될 수 있다. 정말로, 그러한 기능은 단일 유닛으로, 다수의 유닛으로 또는 다른 기능적인 유닛들의 부분으로서 구현될 수 있다. 그와 같이, 본 발명은 단일 유닛으로 구현될 수 있거나 또는 상이한 유닛들과 프로세서들 사이에서 물리적으로 및 기능적으로 분배될 수 있다.
비록 본 발명이 소정 실시예와 관련하여 기술되었을지라도, 본 발명은 본 명세서에 기술된 특정한 형태로 국한하려는 것은 아니다. 그보다는, 본 발명의 범주는 첨부의 청구범위만으로 국한된다. 부가적으로, 비록 특정한 실시예와 관련하여 특징이 기술되는 것으로 보일 수 있지만, 본 기술 분야의 숙련자는 기술된 실시예들의 여러 특징들이 본 발명에 따라서 조합될 수 있음을 인식할 것이다. 청구범위에서, '포함하는'이라는 용어는 다른 구성요소 또는 단계의 존재를 배제하지 않는다.
더욱이, 비록 개별적으로 열거되었을지라도, 다수의 유닛들, 수단들, 구성요소들 또는 방법 단계들이, 예를 들어, 단일 유닛 또는 프로세서에 의해 구현될 수 있다. 부가적으로, 비록 개별적인 특징들이 상이한 청구범위에 포함될 수 있을지라도, 이들 특징들은 아마도 유리하게 조합될 수 있으며, 다른 청구범위에 포함된 것은 특징들의 조합이 실행가능한 및/또는 유익하지 않다는 것을 의미하지는 않는다. 또한, 한가지 특징이 청구범위들의 한가지 카테고리에 포함된 것은 이 카테고리로 국한하려는 것이 아니며, 그보다는 이 특징이 다른 청구범위의 카테고리에도 동등하게 적용가능함이 타당하다는 것을 나타낸다. 더욱이, 청구범위에서 특징들의 순서는 특징들이 동작하여야 하는 어떤 특정한 순서를 의미하지 않으며, 특히 방법 청구항에서 개별 단계의 순서는 그 단계가 그 순서대로 수행되어야 함을 의미하지 않는다. 그보다는, 단계들은 어떠한 적합한 순서로도 수행될 수 있다.

Claims (10)

  1. 멀티 채널 오디오 신호를 인코딩하기 위한 장치로서,
    적어도 제1 마이크로폰으로부터의 제1 오디오 신호 및 제2 마이크로폰으로부터의 제2 오디오 신호를 포함하는 상기 멀티 채널 오디오 신호를 수신하는 수신기;
    상기 제1 오디오 신호와 상기 제2 오디오 신호 간의 상호상관들의 연속 관측치들을 조합함으로써 상기 제1 오디오 신호와 상기 제2 오디오 신호 간의 시간 격차(inter time difference)를 결정하는 시간 차 유닛 - 상기 상호상관들은 비터비형 알고리즘을 이용하여 누산된 확률들을 도출하도록 처리됨 - ;
    상기 시간 격차 신호에 응답하여 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중 적어도 하나를 지연시킴으로써 상기 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호를 생성하는 지연 유닛;
    상기 보상된 멀티 채널 오디오 신호의 채널들을 조합함으로써 모노 신호를 생성하는 모노 유닛; 및
    상기 모노 신호를 인코딩하는 모노 신호 인코더
    를 포함하는 멀티 채널 오디오 신호 인코딩 장치.
  2. 제1항에 있어서, 상기 시간 차 유닛은 복수의 시간 옵셋(time offsets)에 대해 상기 제1 오디오 신호와 상기 제2 오디오 신호 사이의 상호상관들을 결정하고, 또한 상기 상호상관들에 응답하여 상기 시간 격차를 결정하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
  3. 제2항에 있어서, 상기 시간 차 유닛은 상기 상호상관 전에 상기 제1 오디오 신호와 상기 제2 오디오 신호를 로우 패스 필터(low pass filter)하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
  4. 제2항에 있어서, 상기 시간 차 유닛은 상기 상호상관 전에 상기 제1 오디오 신호와 상기 제2 오디오 신호를 데시메이트(decimate)하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
  5. 제4항에 있어서, 상기 지연 유닛은, 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중 적어도 하나의 지연을 결정하도록 상기 제1 오디오 신호 및 상기 제2 오디오 신호를 데시메이트하기 위한 데시메이션 팩터에 의해 상기 시간 격차를 보상하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
  6. 제2항에 있어서, 상기 시간 차 유닛은, 상기 상관 전에 상기 제1 오디오 신호 및 상기 제2 오디오 신호에 스펙트럼 화이트닝(spectral whitening)을 적용하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
  7. 제2항에 있어서, 상기 시간 차 유닛은, 상기 상호상관 전에 상기 제1 오디오 신호와 상기 제2 오디오 신호의 윈도윙(windowing)을 수행하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
  8. 제2항에 있어서, 상기 시간 차 유닛은,
    복수의 상태를 갖는 트렐리스 상태 머신(trellis state machine) - 상기 복수의 상태 각각은 상기 복수의 시간 옵셋 중 하나의 시간 옵셋에 대응함 - ;
    상기 상호상관들에 응답하여 상기 트렐리스 상태 머신의 상태들에 대한 경로 메트릭들을 결정하는 경로 유닛;
    이전 상태들로부터 현재 상태들로의 경로들과 연관된 경로 메트릭들에 응답하여 상태들의 상태 메트릭들을 결정하는 계산 유닛; 및
    상기 상태 메트릭들에 응답하여 상기 시간 격차를 결정하는 유닛을 포함하는 멀티 채널 오디오 신호 인코딩 장치.
  9. 제1항에 있어서, 상기 지연 유닛은, 제1 지연에 응답하여 제1 보상된 멀티 채널 오디오 신호를 생성하고 제2 지연에 응답하여 제2 보상된 멀티 채널 오디오 신호를 생성함으로써 상기 제1 지연으로부터 상기 제2 지연으로 전이(transition)하고, 또한 상기 제1 보상된 멀티 채널 오디오 신호 및 상기 제2 보상된 멀티 채널 오디오 신호를 조합하여 상기 보상된 멀티 채널 오디오 신호를 생성하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
  10. 삭제
KR1020107006423A 2007-09-25 2008-09-09 멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법 KR101120913B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0718682.8A GB2453117B (en) 2007-09-25 2007-09-25 Apparatus and method for encoding a multi channel audio signal
GB0718682.8 2007-09-25
PCT/US2008/075703 WO2009042386A1 (en) 2007-09-25 2008-09-09 Apparatus and method for encoding a multi channel audio signal

Publications (2)

Publication Number Publication Date
KR20100057666A KR20100057666A (ko) 2010-05-31
KR101120913B1 true KR101120913B1 (ko) 2012-02-27

Family

ID=38670458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107006423A KR101120913B1 (ko) 2007-09-25 2008-09-09 멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법

Country Status (13)

Country Link
US (3) US8577045B2 (ko)
EP (1) EP2206110B1 (ko)
JP (1) JP5277508B2 (ko)
KR (1) KR101120913B1 (ko)
CN (1) CN101809655B (ko)
BR (1) BRPI0817982B1 (ko)
CA (1) CA2698600C (ko)
GB (1) GB2453117B (ko)
MX (1) MX2010002846A (ko)
MY (1) MY169423A (ko)
RU (1) RU2450369C2 (ko)
WO (1) WO2009042386A1 (ko)
ZA (1) ZA201001672B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11670317B2 (en) 2021-02-23 2023-06-06 Kyndryl, Inc. Dynamic audio quality enhancement

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2237267A4 (en) * 2007-12-21 2012-01-18 Panasonic Corp STEREOSIGNALUMSETZER, STEREOSIGNALWANDLER AND METHOD THEREFOR
MX2011008605A (es) * 2009-02-27 2011-09-09 Panasonic Corp Dispositivo de determinacion de tono y metodo de determinacion de tono.
CN102157152B (zh) 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
US8463414B2 (en) 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
US8923997B2 (en) 2010-10-13 2014-12-30 Sonos, Inc Method and apparatus for adjusting a speaker system
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
AU2011357816B2 (en) * 2011-02-03 2016-06-16 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
US8938312B2 (en) 2011-04-18 2015-01-20 Sonos, Inc. Smart line-in processing
US9042556B2 (en) 2011-07-19 2015-05-26 Sonos, Inc Shaping sound responsive to speaker orientation
WO2013029225A1 (en) * 2011-08-29 2013-03-07 Huawei Technologies Co., Ltd. Parametric multichannel encoder and decoder
WO2013088208A1 (en) * 2011-12-15 2013-06-20 Nokia Corporation An audio scene alignment apparatus
US8811630B2 (en) 2011-12-21 2014-08-19 Sonos, Inc. Systems, methods, and apparatus to filter audio
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US9524098B2 (en) 2012-05-08 2016-12-20 Sonos, Inc. Methods and systems for subwoofer calibration
USD721352S1 (en) 2012-06-19 2015-01-20 Sonos, Inc. Playback device
US9668049B2 (en) 2012-06-28 2017-05-30 Sonos, Inc. Playback device calibration user interfaces
US9690539B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration user interface
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9690271B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US8930005B2 (en) 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
US8965033B2 (en) 2012-08-31 2015-02-24 Sonos, Inc. Acoustic optimization
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
US8976959B2 (en) * 2012-11-21 2015-03-10 Clinkle Corporation Echo delay encoding
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
USD721061S1 (en) 2013-02-25 2015-01-13 Sonos, Inc. Playback device
PL3008726T3 (pl) 2013-06-10 2018-01-31 Fraunhofer Ges Forschung Urządzenie i sposób kodowania obwiedni sygnału audio, przetwarzania i dekodowania przez modelowanie reprezentacji sumy skumulowanej z zastosowaniem kwantyzacji i kodowania rozkładu
CN104681029B (zh) 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
CN103856869A (zh) * 2014-03-12 2014-06-11 深圳市中兴移动通信有限公司 音效处理方法和摄像装置
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
US9367283B2 (en) 2014-07-22 2016-06-14 Sonos, Inc. Audio settings
USD883956S1 (en) 2014-08-13 2020-05-12 Sonos, Inc. Playback device
US9910634B2 (en) 2014-09-09 2018-03-06 Sonos, Inc. Microphone calibration
US9891881B2 (en) 2014-09-09 2018-02-13 Sonos, Inc. Audio processing algorithm database
US10127006B2 (en) 2014-09-09 2018-11-13 Sonos, Inc. Facilitating calibration of an audio playback device
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9973851B2 (en) 2014-12-01 2018-05-15 Sonos, Inc. Multi-channel playback of audio content
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
WO2016172593A1 (en) 2015-04-24 2016-10-27 Sonos, Inc. Playback device calibration user interfaces
US10664224B2 (en) 2015-04-24 2020-05-26 Sonos, Inc. Speaker calibration user interface
USD906278S1 (en) 2015-04-25 2020-12-29 Sonos, Inc. Media player device
USD920278S1 (en) 2017-03-13 2021-05-25 Sonos, Inc. Media playback device with lights
USD886765S1 (en) 2017-03-13 2020-06-09 Sonos, Inc. Media playback device
US20170085972A1 (en) 2015-09-17 2017-03-23 Sonos, Inc. Media Player and Media Player Design
USD768602S1 (en) 2015-04-25 2016-10-11 Sonos, Inc. Playback device
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
US9460727B1 (en) * 2015-07-01 2016-10-04 Gopro, Inc. Audio encoder for wind and microphone noise reduction in a microphone array system
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
US9729118B2 (en) 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
US9877134B2 (en) * 2015-07-28 2018-01-23 Harman International Industries, Incorporated Techniques for optimizing the fidelity of a remote recording
US9538305B2 (en) 2015-07-28 2017-01-03 Sonos, Inc. Calibration error conditions
US9712912B2 (en) 2015-08-21 2017-07-18 Sonos, Inc. Manipulation of playback device response using an acoustic filter
US9736610B2 (en) 2015-08-21 2017-08-15 Sonos, Inc. Manipulation of playback device response using signal processing
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
EP3351015B1 (en) 2015-09-17 2019-04-17 Sonos, Inc. Facilitating calibration of an audio playback device
ES2955962T3 (es) 2015-09-25 2023-12-11 Voiceage Corp Método y sistema que utiliza una diferencia de correlación a largo plazo entre los canales izquierdo y derecho para mezcla descendente en el dominio del tiempo de una señal de sonido estéreo en canales primarios y secundarios
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
US10074373B2 (en) * 2015-12-21 2018-09-11 Qualcomm Incorporated Channel adjustment for inter-frame temporal shift variations
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
CA3011915C (en) 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
CN105897738B (zh) * 2016-05-20 2017-02-22 电子科技大学 一种用于多信道环境的实时流编码方法
US9860670B1 (en) 2016-07-15 2018-01-02 Sonos, Inc. Spectral correction using spatial calibration
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
GB201615538D0 (en) 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
USD827671S1 (en) 2016-09-30 2018-09-04 Sonos, Inc. Media playback device
US10412473B2 (en) 2016-09-30 2019-09-10 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
USD851057S1 (en) 2016-09-30 2019-06-11 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
CN106647103B (zh) * 2017-03-09 2019-12-06 电子科技大学 一种用于孤子自频移全光模数转换的编码装置及方法
CN108877815B (zh) 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
US10872611B2 (en) * 2017-09-12 2020-12-22 Qualcomm Incorporated Selecting channel adjustment method for inter-frame temporal shift variations
US11741114B2 (en) * 2017-12-19 2023-08-29 ExxonMobil Technology and Engineering Company Data analysis platform
PT3776541T (pt) * 2018-04-05 2022-03-21 Fraunhofer Ges Forschung Aparelho, método ou programa de computador para estimar uma diferença de tempo entre canais
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
JPS58152542A (ja) * 1982-03-05 1983-09-10 株式会社東芝 X線診断装置
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
DE4320990B4 (de) * 1993-06-05 2004-04-29 Robert Bosch Gmbh Verfahren zur Redundanzreduktion
JP2762957B2 (ja) 1995-05-22 1998-06-11 日本電気株式会社 災害用電話システム、及び交換機、電話機
US5844947A (en) * 1995-12-28 1998-12-01 Lucent Technologies Inc. Viterbi decoder with reduced metric computation
KR100189906B1 (ko) * 1996-04-17 1999-06-01 윤종용 비터비 복호화방법 및 그 회로
US6236731B1 (en) * 1997-04-16 2001-05-22 Dspfactory Ltd. Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids
US6253172B1 (en) * 1997-10-16 2001-06-26 Texas Instruments Incorporated Spectral transformation of acoustic signals
US6452985B1 (en) * 1998-03-18 2002-09-17 Sony Corporation Viterbi decoding apparatus and Viterbi decoding method
JP2000004495A (ja) * 1998-06-16 2000-01-07 Oki Electric Ind Co Ltd 複数マイク自由配置による複数話者位置推定方法
JP2000044995A (ja) 1998-07-29 2000-02-15 Toppan Printing Co Ltd インキローラー洗浄剤
US6973184B1 (en) 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP4714416B2 (ja) 2002-04-22 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 空間的オーディオのパラメータ表示
DE60311794C5 (de) * 2002-04-22 2022-11-10 Koninklijke Philips N.V. Signalsynthese
KR20050021484A (ko) * 2002-07-16 2005-03-07 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
ES2273216T3 (es) * 2003-02-11 2007-05-01 Koninklijke Philips Electronics N.V. Codificacion de audio.
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
KR101200776B1 (ko) * 2003-04-17 2012-11-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
ES2282860T3 (es) * 2003-04-17 2007-10-16 Koninklijke Philips Electronics N.V. Generacion de señal de audio.
KR20060090984A (ko) * 2003-09-29 2006-08-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호들을 엔코딩하는 방법 및 장치
US7313720B1 (en) * 2004-02-12 2007-12-25 Network Appliance, Inc. Technique for increasing the number of persistent consistency point images in a file system
KR20070001139A (ko) * 2004-02-17 2007-01-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 분배 시스템, 오디오 인코더, 오디오 디코더 및이들의 동작 방법들
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
US7653155B1 (en) * 2004-11-04 2010-01-26 Sandia Corporation Using convolutional decoding to improve time delay and phase estimation in digital communications
EP2138999A1 (en) * 2004-12-28 2009-12-30 Panasonic Corporation Audio encoding device and audio encoding method
JP4806638B2 (ja) * 2005-01-13 2011-11-02 富士通株式会社 受音装置
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7583808B2 (en) * 2005-03-28 2009-09-01 Mitsubishi Electric Research Laboratories, Inc. Locating and tracking acoustic sources with microphone arrays
DE602006015461D1 (de) 2005-05-31 2010-08-26 Panasonic Corp Einrichtung und verfahren zur skalierbaren codierung
US7742913B2 (en) * 2005-10-24 2010-06-22 Lg Electronics Inc. Removing time delays in signal paths
US8112286B2 (en) * 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
CN1809105B (zh) * 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
CN101406074B (zh) * 2006-03-24 2012-07-18 杜比国际公司 解码器及相应方法、双耳解码器、包括该解码器的接收机或音频播放器及相应方法
US7599441B2 (en) * 2006-06-20 2009-10-06 Newport Media, Inc. Low complexity soft-input Viterbi decoding for digital communication systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Lindblom, J. et al. "Flexible sum-difference stereo coding based on time-aligned signal components" In : 2005 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, Oct.16, 2005.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11670317B2 (en) 2021-02-23 2023-06-06 Kyndryl, Inc. Dynamic audio quality enhancement

Also Published As

Publication number Publication date
BRPI0817982B1 (pt) 2020-05-05
JP5277508B2 (ja) 2013-08-28
EP2206110A1 (en) 2010-07-14
JP2010541007A (ja) 2010-12-24
CA2698600A1 (en) 2009-04-02
ZA201001672B (en) 2016-02-24
US20170116997A1 (en) 2017-04-27
MY169423A (en) 2019-04-03
GB2453117A (en) 2009-04-01
CA2698600C (en) 2015-01-20
WO2009042386A1 (en) 2009-04-02
US8577045B2 (en) 2013-11-05
KR20100057666A (ko) 2010-05-31
RU2450369C2 (ru) 2012-05-10
EP2206110B1 (en) 2017-01-11
MX2010002846A (es) 2010-04-01
BRPI0817982A2 (pt) 2015-04-07
RU2010116295A (ru) 2011-11-10
GB2453117B (en) 2012-05-23
GB0718682D0 (en) 2007-10-31
CN101809655B (zh) 2012-07-25
US9570080B2 (en) 2017-02-14
US20130282384A1 (en) 2013-10-24
EP2206110A4 (en) 2015-12-09
WO2009042386A4 (en) 2009-06-25
CN101809655A (zh) 2010-08-18
US20110085671A1 (en) 2011-04-14

Similar Documents

Publication Publication Date Title
KR101120913B1 (ko) 멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법
US11410664B2 (en) Apparatus and method for estimating an inter-channel time difference
RU2764287C1 (ru) Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета
RU2305870C2 (ru) Оптимизированное по точности кодирование с переменной длиной кадра
KR102550424B1 (ko) 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램
US10089990B2 (en) Audio object separation from mixture signal using object-specific time/frequency resolutions
KR101798117B1 (ko) 후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법
JP2015514234A (ja) マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
EP4179530B1 (en) Comfort noise generation for multi-mode spatial audio coding

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150109

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160113

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170123

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180111

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200114

Year of fee payment: 9