KR102636424B1 - 스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 방법 및 시스템 - Google Patents

스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 방법 및 시스템 Download PDF

Info

Publication number
KR102636424B1
KR102636424B1 KR1020187008429A KR20187008429A KR102636424B1 KR 102636424 B1 KR102636424 B1 KR 102636424B1 KR 1020187008429 A KR1020187008429 A KR 1020187008429A KR 20187008429 A KR20187008429 A KR 20187008429A KR 102636424 B1 KR102636424 B1 KR 102636424B1
Authority
KR
South Korea
Prior art keywords
channel
stereo sound
primary
primary channel
factor
Prior art date
Application number
KR1020187008429A
Other languages
English (en)
Other versions
KR20180059781A (ko
Inventor
타미 베일런콧
밀란 제리넥
Original Assignee
보이세지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 보이세지 코포레이션 filed Critical 보이세지 코포레이션
Publication of KR20180059781A publication Critical patent/KR20180059781A/ko
Application granted granted Critical
Publication of KR102636424B1 publication Critical patent/KR102636424B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Abstract

스테레오 사운드 디코딩 방법 및 시스템은 1차 채널의 인코딩 파라메타와, 2차 채널의 인코딩 파라메타 및 인자 β를 구비한 수신된 인코딩 파라메타들을 이용하여 스테레오 사운드 신호의 좌측 및 우측 채널을 디코딩한다. 1차 채널 인코딩 파라메타는 1차 채널의 LP 필터 계수를 구비한다. 1차 채널은 1차 채널 인코딩 파라메타에 응답하여 디코딩된다. 2차 채널은 다수의 코딩 모델들 중 하나를 이용하여 디코딩되며, 코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 1차 채널 LP 필터 계수들을 이용한다. 디코딩된 1차 및 2차 채널은 인자 β를 이용하여 시간 영역 업-믹싱됨으로써, 스테레오 사운드 신호의 디코딩된 좌측 및 우측 채널이 생성되며, 인자 β는 좌측 및 우측 채널의 생성시에 1차 채널과 2차 채널의 각각의 기여를 결정한다.

Description

스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 방법 및 시스템
본 개시는, 낮은 비트-레이트(bit-rate) 및 저 지연(low delay)의 복합 오디오 장면(complex audio scene)에 있어서 양호한 스테레오 품질(good stereo quality)을 생성할 수 있는, 스테레오 사운드 인코딩(stereo sound encoding), 특히, 전적인 것은 아니지만 스테레오 스피치 및/또는 오디오 인코딩에 관한 것이다.
역사적으로, 대화형 전화는 단지 사용자 귀들 중 하나에만 사운드를 출력하기 위해 단지 하나의 트랜스듀서(transducer)를 가진 핸드셋(handset)으로 구현되었다. 지난 10년에 있어서, 사용자는 주로 음악을 듣기 위해, 그리고 가끔 스피치를 듣기 위해, 그들의 2개의 귀를 통해 사운드를 수신하도록 헤드폰과 함께, 그들의 휴대형 핸드셋을 이용하기 시작하였다. 그럼에도, 대화 스피치를 송수신하는데 휴대형 핸드셋을 이용할 경우, 그 콘텐츠는 헤드폰이 이용될 때 사용자의 2개의 귀에 제공되지만 여전히 모노포닉(monophonic)하다.
전체 콘텐츠가 본 명세서에서 참조로서 수록되는, 참조 [1]에서 설명된 최신 3GPP 스피치 코딩 표준의 경우, 예를 들어, 휴대형 핸드셋을 통해 송수신될 스피치 및/또는 오디오와 같은 코딩된 사운드의 품질이 크게 개선되었다. 다음의 자연스런 단계는, 수신기가 통신 링크의 다른 종단에서 포획되는 현실 오디오 장면과 가능한 근접하게 수신하도록 스테레오 정보를 전송하는 것이다.
예를 들어, 전체 콘텐츠가 본 명세서에서 참조로서 수록된 참조 [2]에 설명된 오디오 코덱(audio codec)에서는, 스테레오 정보의 전송이 통상적으로 이용된다.
대화 스피치 코덱들의 경우, 모노포닉 신호가 표준이다. 스테레오포닉(stereophonic) 신호가 전송되면, 비트-레이트가 2배로 될 필요가 있는데, 이는 좌측 및 우측 채널들이 모토포닉 코덱을 이용하여 코딩되기 때문이다. 이것은 대부분의 시나리오에서 잘 작용하지만, 비트-레이트를 2배로 하고 2 채널들(좌측 및 우측 채널)들간의 임의 잠재적인 용장성(redundancy)을 활용하지 못한다는 단점을 나타낸다. 또한, 전 비트-레이트를 적정한 레벨로 유지하기 위해, 각 채널마다 매우 낮은 비트-레이트가 이용되어 전체 사운드 품질에 영향을 준다.
가능한 대안은 전체 콘텐츠가 본 명세서에서 참조로서 수록된 참조 [5]에 설명된 소위 파라메트릭 스테레오(parametric stereo)를 이용하는 것이다. 파라메트틱 스테레오는, 예를 들어, ITD(Inter-aural Time Difference) 또는 IID(Inter-aural Intensity Difference)와 같은 정보를 전송한다. 후자의 정보는 주파수 대역마다 전송되며, 낮은 비트-레이트에서는, 스테레오 전송에 연관된 비트 예산(bit burget)이 이들 파라메타들이 효율적으로 작용할 수 있게 할 정도로 충분히 높지 않다.
패닝 인자(panning factor)를 전송하는 것은 낮은 비트-레이트로 기본 스테레오 효과(basic stereo effect)를 생성하는데 도움을 줄 수 있었지만, 그러한 기술이 주변 환경을 보존해주지는 못하며 고유의 한계를 나타낸다. 패닝 인자의 적응(adaptation)이 너무 빠르면 청취자에게 방해가 되는 반면, 패닝 인자의 적응이 너무 느리면, 스피커(speaker)의 실제 위치를 반영하지 못해서, 배경 잡음의 변동이 중요할 때 또는 간섭 화자(interfering talker)의 경우에 양호한 품질의 획득을 어렵게 한다. 현재, 모든 가능한 오디오 장면에 대해 양질로 대화 스테레오 스피치를 인코딩하는 것은 WB(WideBand) 신호들에 대해 약 24kb/s의 최소 비트-레이트를 필요로 하며, 그 비트-레이트 아래에서는 스피치 품질이 악화되기 시작한다.
전 세계에 걸쳐 작업 팀들의 분화 및 늘어가기만 하는 노동력의 글로벌화에 따라, 통신의 개선이 필요하다. 예를 들어, 화상 회의에 대한 참가자들은 서로 다른 원거리 위치에 있을 수 있다. 일부 참가자들은 그들의 차량내에 있을 수 있으며, 다른 참가자들은 대형 무반향실(anechoic room)에 있을 수 있거나 심지어는 그들의 거실에 있을 수 있다. 사실상, 모든 참가자들은 그들이 마주보고 토론하는 것과 같은 것을 느끼고 싶어한다. 스테레오 스피치, 보다 일반적으로는 휴대형 디바이스의 스테레오 사운드를 구현하는 것은 이 방면에 있어서 커다란 일대 진보이다.
제 1 측면에 따르면, 본 개시는 스테레오 사운드 신호의 좌측 및 우측 채널을 디코딩하는 스테레오 사운드 디코딩 방법에 관한 것으로, 그 방법은 1차 채널의 인코딩 파라메타 - 1차 채널의 인코딩 파라메타는 1차 채널의 LP 필터 계수를 구비함 - 와, 2차 채널의 인코딩 파라메타 및 인자 β를 구비한 인코딩 파라메타들을 수신하고; 1차 채널 인코딩 파라메타에 응답하여 1차 채널을 디코딩하고; 다수의 코딩 모델들 - 코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 1차 채널 LP 필터 계수들을 이용함 - 중 하나를 이용하여 2차 채널을 디코딩하고; 인자 β를 이용하여 디코딩된 1차 채널과 2차 채널을 시간 영역 업-믹싱함으로써 스테레오 사운드 신호의 디코딩된 좌측 및 우측 채널을 생성하는 것을 구비하되, 인자 β는 좌측 및 우측 채널의 생성시에 1차 채널과 2차 채널의 각각의 기여를 결정한다.
제 2 측면에 따르면, 스테레오 사운드 신호의 좌측 및 우측 채널을 디코딩하는 스테레오 사운드 디코딩 시스템이 제공되는데, 그 시스템은 1차 채널의 인코딩 파라메타 - 1차 채널의 인코딩 파라메타는 1차 채널의 LP 필터 계수를 구비함 - 와, 2차 채널의 인코딩 파라메타 및 인자 β를 구비한 인코딩 파라메타들을 수신하는 수단; 1차 채널 인코딩 파라메타에 응답하는 1차 채널의 디코더; 다수의 코딩 모델들 - 코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 1차 채널 LP 필터 계수들을 이용함 - 중 하나를 이용하는 2차 채널의 디코더; 스테레오 사운드 신호의 디코딩된 좌측 및 우측 채널을 생성하기 위한, 인자 β를 이용하는 디코딩된 1차 채널과 2차 채널의 시간 영역 업-믹서를 구비하되, 인자 β는 좌측 및 우측 채널의 생성시에 1차 채널과 2차 채널의 각각의 기여를 결정한다.
제 3 측면에 따르면, 스테레오 사운드 신호의 좌측 및 우측 채널을 디코딩하는 스테레오 사운드 디코딩 시스템이 제공되는데, 그 시스템은 적어도 하나의 프로세서; 및 프로세서에 결합되고, 비-일시적 명령어들을 구비한 메모리를 구비하되, 비-일시적 명령어는, 실행 시에, 프로세서가, 1차 채널의 인코딩 파라메타 - 1차 채널의 인코딩 파라메타는 1차 채널의 LP 필터 계수를 구비함 - 와, 2차 채널의 인코딩 파라메타 및 인자 β를 구비한 인코딩 파라메타들을 수신하는 수단; 1차 채널 인코딩 파라메타에 응답하는 1차 채널의 디코더; 다수의 코딩 모델들 - 코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 1차 채널 LP 필터 계수들을 이용함 - 중 하나를 이용하는 2차 채널의 디코더; 스테레오 사운드 신호의 디코딩된 좌측 및 우측 채널을 생성하기 위한, 인자 β를 이용하는 디코딩된 1차 채널과 2차 채널의 시간 영역 업-믹서를 구현하게 하고, 인자 β는 좌측 및 우측 채널의 생성시에 1차 채널과 2차 채널의 각각의 기여를 결정한다.
추가적인 측면은 스테레오 사운드 신호의 좌측 및 우측 채널을 디코딩하는 스테레오 사운드 디코딩 시스템에 관한 것으로, 그 시스템은, 적어도 하나의 프로세서; 및 프로세서에 결합되고, 비-일시적 명령어들을 구비한 메모리를 구비하되, 비-일시적 명령어는, 실행 시에, 프로세서가, 1차 채널의 인코딩 파라메타 - 1차 채널의 인코딩 파라메타는 1차 채널의 LP 필터 계수를 구비함 - 와, 2차 채널의 인코딩 파라메타 및 인자 β를 구비한 인코딩 파라메타들을 수신하게 하고; 1차 채널 인코딩 파라메타에 응답하여 1차 채널을 디코딩하게 하고; 다수의 코딩 모델들 - 코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 1차 채널 LP 필터 계수들을 이용함 - 중 하나를 이용하여 2차 채널을 디코딩하게 하고; 인자 β를 이용하여 디코딩된 1차 채널과 2차 채널을 시간 영역 업-믹싱함으로써 스테레오 사운드 신호의 디코딩된 좌측 및 우측 채널을 생성하게 하는 것을 구비하되, 인자 β는 좌측 및 우측 채널의 생성시에 1차 채널과 2차 채널의 각각의 기여를 결정한다.
본 개시는 비-일시적 명령어들을 구비한 프로세서-판독 가능 메모리에 관한 것으로, 비-일시적 명령어들은, 실행시에, 프로세서가 상술한 방법들의 동작들을 구현하게 한다.
스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 스테레오 사운드 신호 영역 디코딩 방법 및 시스템의 상술한 측면 및 다른 측면과, 장점 및 특징들은 첨부된 도면을 참조하여 예시로서 주어진, 예시적인 실시 예의 이하의 비 제한적 설명을 읽으면 보다 명확해질 것이다.
첨부 도면에 있어서,
도 1은 이하의 설명에 개시된 스테레오 사운드 인코딩 방법 및 시스템 구현의 가능한 콘텍스트를 도시한 스테레오 사운드 프로세싱 및 통신 시스템의 개략적 블럭도;
도 2는 통합형 스테레오 고안으로서 안출된, 제 1 모델에 따른 스테레오 사운드 인코딩 방법 및 시스템을 함께 도시한 블럭도;
도 3은 내장형 모델로서 안출된, 제 2 모델에 따른 스테레오 사운드 인코딩 방법 및 시스템을 함께 도시한 블럭도;
도 4는 도 2 및 도 3의 스테레오 사운드 인코딩 시스템의 채널 믹서의 모듈들과 도 2 및 도 3의 스테레오 사운드 인코딩 방법의 시간 영역 다운 믹싱 동작의 서브-동작을 함께 도시한 블럭도;
도 5는 선형화된 장기 상관 차이(linearized long-term correlation differernce)가 인자 β와 에너지 정규화 인자 ε에 매핑되는 방식을 보여주는 그래프;
도 6은 전체 프레임에 걸쳐 pca / klt 스킴을 이용하는 것과 "코사인" 매핑 함수를 이용하는 것간의 차이를 보여주는 멀티-곡선 그래프(multiple-curve graph);
도 7은 배경에 오피스 잡음(office noise)을 가진 양이 마이크로폰 셋업(binaural microphones setup)을 이용하여 소형 반향실(echoic room)에서 기록되었던 스테레오 샘플에 시간 영역 다운 믹싱을 적용함으로써 유발되는 1차 채널과 2차 채널의 스펙트럼들과, 1차 채널 및 2차 채널을 보여주는 멀티-곡선 그래프;
도 8은 스테레오 사운드 신호의 1차(Y) 및 2차(X) 채널들의 인코딩의 최적화가 구현 가능한 스테레오 사운드 인코딩 방법 및 시스템을 함께 도시한 블럭도;
도 9는 도 8의 스테레오 사운드 인코딩 방법 및 시스템의 LP 필터 코히어런스 분석 동작 및 대응하는 LP 필터 코히어런스 분석기를 도시한 블럭도;
도 10은 스테레오 사운드 디코딩 방법 및 스테레오 사운드 디코딩 시스템을 함께 도시한 블럭도;
도 11은 도 10의 스테레오 사운드 디코딩 방법 및 시스템의 추가적인 특징들을 도시한 블럭도;
도 12는 본 개시의 스테레오 사운드 인코딩 시스템과 스테레오 사운드 디코더를 형성하는 하드웨어 부품들의 예시적인 구성의 간단한 블럭도;
도 13은 스테레오 이미지 안정성을 개선하기 위해 전-적응 인자(pre-adaptation factor)를 이용하는, 도 2 및 도 3의 스테레오 사운드 인코딩 시스템의 채널 믹서의 모듈들 및 도 2 및 도 3의 스테레오 사운드 인코딩 방법의 시간 영역 다운 믹싱 동작의 서브 동작의 다른 실시 예들을 함께 도시한 블럭도;
도 14는 시간 지연 상관의 동작들과 시간 지연 상관기의 모듈들을 함께 도시한 블럭도;
도 15는 대안적인 스테레오 사운드 인코딩 방법 및 시스템을 함께 도시한 블럭도;
도 16은 피치 코히어런스 분석(pitch coherence analysis)의 서브 동작과 피치 코히어런스 분석기의 모듈들을 함께 도시한 블럭도;
도 17은 시간 영역 및 주파수 영역에서 동작하는 기능을 가진 시간-영역 다운 믹싱을 이용하는 스테레오 인코딩 방법 및 시스템을 함께 도시한 블럭도; 및
도 18은 시간 영역 및 주파수 영역에서 동작하는 기능을 가진 시간-영역 다운 믹싱을 이용하는 다른 스테레오 인코딩 방법 및 시스템을 함께 도시한 블럭도이다.
본 개시는, 전적인 것은 아니지만 특히 복합 오디오 장면으로부터의 스피치 및/또는 오디오 콘텐츠와 같은 스테레오 사운드 콘텐츠의 실감나는 표현을, 낮은 비트-레이트 및 저 지연으로, 생성 및 전송하는 것에 관한 것이다. 복합 오디오 장면은, (a) 마이크로폰들에 의해 기록된 사운드 신호들간의 상관이 낮고, (b) 배경의 중요한 변동이 있으며/있거나, (c) 간섭 화자가 존재하는 상황을 포함한다. 예를 들어, 복합 오디오 장면은 A/B 마이크로폰 구성을 가진 대형 무반향실, 양이 마이크로폰을 가진 소형 반향실 및 모노/사이드 마이크로폰 셋-업(mono/side microphones set-up)을 가진 소형 반향실을 구비한다. 이들 모든 룸 구성(room configuration)은 변동하는 배경 잡음 및/또는 간섭 화자를 포함한다.
전체 콘텐츠가 본 명세서에서 참조로서 수록되는 참조 [7]에 설명된 3GPP AMR-WB+와 같은 알려진 스테레오 사운드 코덱들은 특히 낮은 비트-레이트의 모노포닉 모델에 근접하지 않은 코딩 사운드에 비효율적이다. 특정 경우들은 기존의 스테레오 기술들을 이용하여 인코딩하는 것이 특히 어렵다. 그러한 경우들은,
- LAAB(Large anechoic room with A/B microphones set-up);
- SEBI(Small echoic room with binaural microphones set-up); 및
- SEMS(Small echoic room with Mono/Side microphones setup)
을 포함한다.
변동하는 배경 잡음 및/또는 간섭 화자의 추가는, 파라메트릭 스테레오와 같은 스테레오 전용 기술을 이용하여 낮은 비트 레이트로 이들 사운드 신호들을 인코딩하는 것을 어렵게 한다. 그러한 신호들을 인코딩하기 위한 대비책은 2개의 모노포닉 채널들을 이용하여, 이용중인 비트-레이트 및 네트워크 대역폭을 2배로 하는 것이다.
최근의 3GPP EVS 대화 스피치 표준은 광대역(WB) 동작의 경우 7.2kb/s 내지 96kb/s의 비트-레이트 범위와 초광대역(SWB) 동작의 경우 9.6kb/s 내지 96kb/s의 비트-레이트 범위를 제공한다. 이것이 의미하는 것은, EVS를 이용하는 3개의 최저 이중 모노 비트-레이트(lowest dual mono bit-rate)가 WB 동작의 경우 14.4, 16.0 및 19.2kb/s이고, 초광대역(SWB) 동작의 경우 19.2, 26.3 및 32.8kb/s이다는 것이다. 전체 콘텐츠가 본 명세서에 참조로서 수록된 참조 [3]에 설명된 전개 3GPP AMR-WB의 스피치 품질이 그의 구형 코덱을 개선하지만, 잡음 환경에 있어서 7.2kb/s의 코딩된 스피치의 품질은 투명(tranparent)한 것과는 거리가 멀며, 그러므로, 14.4kb/s의 이중 모노의 스피치 품질이 제한될 것으로 예상될 수 있다. 그러한 낮은 비트-레이트에서는, 최선의 스피치 품질이 가능하면 빈번하게 획득되도록 비트-레이트 이용이 최대화된다. 이하의 설명에서 개시된 스테레오 사운드 인코딩 방법 및 시스템에 있어서, 대화 스테레오 스피치 콘텐츠에 대한 최소한의 전체 비트-레이트는, 복합 오디오 장면들의 경우에도, WB에 대해서는 약 13kb/s이고 SWB에 대해서는 약 15.0kb/s이어야 한다. 이중 모노 방식에 이용된 비트-레이트보다 낮은 비트-레이트에서는, 복합 오디오 장면에 대해 스테레오 스피치의 품질 및 명료도가 크게 개선된다.
도 1에는 이하의 설명에 개시된 스테레오 사운드 인코딩 방법 및 시스템 구현의 가능한 콘텍스트를 도시한 스테레오 사운드 프로세싱 및 통신 시스템(100)의 개략적인 블럭도가 도시된다.
도 1의 스테레오 사운드 프로세싱 및 통신 시스템(100)은 통신 링크(101)를 통해 스테레오 사운드 신호의 전송을 지원한다. 통신 링크(101)는, 예를 들어, 유선 또는 광섬유 링크를 구비할 수 있다. 대안적으로, 통신 링크(101)는 적어도 부분적으로 무선 주파수 링크를 구비할 수 있다. 무선 주파수 링크는 셀룰러 전화로 발견될 수 있는 것과 같은 공유 대역폭 리소스들을 필요로 하는 다수의 동시 통신들을 지원한다. 도시되어 있지 않지만, 통신 링크(101)는 추후 재생(playback)을 위해 인코딩된 스테레오 사운드 신호를 기록 및 저장하는 프로세싱 및 통신 시스템(100)의 단일 디바이스 구현시의 저장 디바이스로 대체될 수 있다.
도 1을 참조하면, 예를 들어, 마이크로폰들(102 및 122)의 페어는, 예를 들어, 복합 오디오 장면에서 검출된 원시 아날로그 스테레오 사운드 신호(original analog stereo sound signal)의 좌측(103) 및 우측(123) 채널들을 생성한다. 상술한 설명에서 지적한 바와 같이, 사운드 신호는 특히 스피치 및/또는 오디오를 구비하지만 전적인 것은 아니다. 마이크로폰(102 및 122)은 A/B, 양이(binaural) 또는 모노/사이드 셋-업(set-up)에 따라 배열될 수 있다.
원시 아날로그 사운드 신호의 좌측(103) 및 우측(123) 채널들은 그들을 원시 디지털 스테레오 사운드 신호의 좌측(105) 및 우측 채널(125)로 변환하는 A/D(analog-to-digital) 변환기(104)로 공급된다. 원시 디지털 스테레오 사운드 신호의 좌측(105) 및 우측(125) 채널들은, 또한, 저장 디바이스(도시되지 않음)로부터 기록되고 공급될 수 있다.
스테레오 사운드 인코더(106)는 디지털 스테레오 사운드 신호의 좌측(105) 및 우측(125) 채널을 인코딩하며, 그에 의해 선택적 오류-정정 인코더(108)에 전달되는 비트스트림(107) 형태하에 다중화되는 인코딩 파라메타들의 세트를 생성한다. 선택적 오류 정정 인코더(108)는, 존재할 경우, 비트스트림(107)내의 인코딩 파라메타들의 이진 표시에 용장성을 추가한 후, 통신 링크(101)를 통해 결과하는 비트스트림(111)을 전송한다.
수신기 측상에서, 선택적 오류 정정 디코더(109)는 수신 디지털 비트스트림(111)내의 상술한 용장성 정보를 이용하여, 통신 링크(101)를 통한 전송동안에 발생되었을 수 있는 오류를 검출 및 정정함으로써, 수신된 인코딩 파라메타들을 가진 비트스트림(112)을 생성한다. 스테레오 사운드 디코더(110)는 비트스트림(112)내의 수신 인코딩 파라메타들을 변환하여 디지털 스테레오 사운드 신호의 합성 좌측(113) 및 우측(133) 채널들을 생성한다. 스테레오 사운드 디코더(110)에서 재구성된 디지털 스테레오 사운드 신호의 좌측(113) 및 우측(133) 채널들은 디지털-아날로그(D/A) 변환기(115)에서 아날로그 스테레오 사운드 신호의 합성 좌측(114) 및 우측(134) 채널들로 변환된다.
아날로그 스테레오 사운드 신호들의 합성 좌측(114) 및 우측(134) 채널들은 한쌍의 확성기 유닛(116 및 136)에서 각각 재생된다. 대안적으로, 스테레오 사운드 디코더(110)로부터의 디지털 스테레오 사운드 신호의 좌측(113) 및 우측(133) 채널들은, 또한, 저장 디바이스(도시되지 않음)에 공급되어 기록될 수 있다.
도 1의 원시 디지털 스테레오 사운드 신호의 좌측(105) 및 우측(125) 채널들은 도 2, 3, 4, 8, 9, 13, 14, 15, 17 및 18의 좌측(L) 및 우측(R) 채널들에 대응한다. 또한, 도 1의 스테레오 사운드 인코더(106)는 도 2, 3, 8, 15, 17 및 18의 스테레오 사운드 인코딩 시스템에 대응한다.
본 개시에 따른 스테레오 사운드 인코딩 방법 및 시스템은 이중적인 것으로, 제 1 및 제 2 모델이 제공된다.
도 2에는, EVS 코어에 기반한 통합형 스테레오 고안으로서 안출된, 제 1 모델에 따른 스테레오 사운드 인코딩 방법 및 시스템을 함께 도시한 블럭도가 도시된다.
도 2를 참조하면, 제 1 모델에 따른 스테레오 사운드 인코딩 방법은 시간 영역 다운 믹싱 동작(201), 1차 채널 인코딩 동작(202), 2차 채널 인코딩 동작(203) 및 다중화 동작(204)을 구비한다.
시간 영역 다운 믹싱 동작(201)을 수행하기 위하여, 채널 믹서(251)는 2개의 입력 스테레오 채널들(우측 채널(R)과 좌측 채널(L))을 믹싱하여, 1차 채널(Y)과 2차 채널(X)을 생성한다.
2차 채널 인코딩 동작(203)을 실행하기 위하여, 2차 채널 인코더(253)는 최소 개수의 비트들(최소 비트-레이트)을 선택 및 이용함으로써, 이하의 설명에서 정의된 인코딩 모드들 중 하나를 이용하여 2차 채널(X)을 인코딩하고, 대응하는 2차 채널 인코딩 비트스트림(206)을 생성한다. 관련 비트 예산은 프레임 콘텐츠에 의거하여 모든 프레임을 변경할 수 있다.
1차 채널 인코딩 동작(202)을 구현하기 위하여, 1차 채널 인코더(252)가 이용된다. 2차 채널 인코더(253)는 현재 프레임에 이용된 비트들(208)의 개수를 1차 채널 인코더(252)에 신호 전송하여, 2차 채널(X)을 인코딩한다. 1차 채널 인코더(252)로서 임의 적당한 유형의 인코더가 이용될 수 있다. 비 제한적 예시로서, 1차 채널 인코더(252)는 CELP 형 인코더일 수 있다. 본 예시적인 실시 예에 있어서, 1차 채널 CELP형 인코더는 수정된 버전의 레거시(legacy) EVS 인코더이고, EVS 인코더는 1차 채널과 2차 채널간에 가요성 비트 레이트 할당을 허용하기 위하여 보다 큰 비트레이트 확장성을 나타내도록 수정된다. 이러한 방식에서는, 수정된 EVS 인코더가 2차 채널(X)을 인코딩하는데 이용되지 않는 모든 비트 레이트를 이용하여, 1차 채널(Y)을 대응하는 비트-레이트로 인코딩할 수 있을 것이며, 대응하는 1차 채널 인코딩된 비트스트림(205)을 생성할 수 있을 것이다.
다중화기(254)는 1차 채널 비트스트림(205)과 2차 채널 비트스트림(206)을 연결시켜 다중화된 비트스트림(207)을 형성함으로써 다중화 동작(204)을 완성한다.
제 1 모델에 있어서, 2차 채널(X)을 인코딩하는데 이용되는 (비트스트림(206)에 있어서의) 비트들의 개수 및 대응하는 비트-레이트는 1차 채널(Y)을 인코딩하는데 이용된 (비트스트림(205)에 있어서의) 비트들의 개수 및 대응하는 비트-레이트보다 더 작다. 이것은 2개의 가변 가능 비트-레이트 채널들로서 보여질 수 있으며, 2개 채널들(X 및 Y)의 비트 레이트들의 합은 상수의 총 비트-레이트를 나타낸다. 이 방식은 1차 채널(Y)에 보다 강한 엠파시스(emphasis) 또는 보다 약한 엠파시스가 부여된 서로 다른 특색(flavor)들을 나타낼 수 있다. 제 1 예시에 따르면, 1차 채널(Y)에 최대 엠파시스가 부여되면, 2차 채널(X)의 비트 예산은 적극적으로 최소로 된다. 제 2 예시에 따르면, 1차 채널(Y)에 보다 약한 엠파시스가 부여되면, 2차 채널(X)에 대한 비트 예산은 보다 일정하게 될 수 있으며, 이것은 2차 채널(X)의 평균 비트-레이트가 제 1 예시에 비해 약간 더 높다는 것을 의미한다.
입력 디지털 사운드 신호들의 우측(R)과 좌측(L) 채널들은 EVS 프로세싱에 이용된 프레임들의 기간(duration)에 대응할 수 있는 주어진 기간의 연속하는 프레임들에 의해 프로세싱됨을 알아야 한다. 각 프레임은 이용되는 샘플링 레이트(sampling rate)와 프레임의 주어진 기간에 의거한 우측(R) 및 좌측(L) 채널들의 다수의 샘플들을 구비한다.
도 3에는 내장형 모델로서 안출된, 제 2 모델에 따른 스테레오 사운드 인코딩 방법 및 시스템을 함께 도시한 블럭도가 도시된다.
도 3을 참조하면, 제 2 모델에 따른 스테레오 사운드 인코딩 방법은 시간 영역 다운 믹싱 동작(301), 1차 채널 인코딩 동작(302), 2차 채널 인코딩 동작(303) 및 다중화 동작(304)을 구비한다.
시간 영역 다운 믹싱 동작(301)을 완료하기 위하여, 채널 믹서(351)는 2개의 입력 우측(R) 및 좌측(L) 채널들을 믹싱하여, 1차 채널(Y)과 2차 채널(X)을 형성한다.
1차 채널 인코딩 동작(302)에 있어서, 1차 채널 인코더(352)는 1차 채널(Y)을 인코딩하여, 1차 채널 인코딩된 비트스트림(305)을 생성한다. 다시, 임의 적당한 유형의 인코더가 1차 채널 인코더(352)로서 이용될 수 있다. 비 제한적 예시로서, 1차 채널 인코더(352)는 CELP형 인코더일 수 있다. 이러한 예시적인 실시 예에 있어서, 1차 채널 인코더(352)는, 레거시 EVS 모노 인코딩 모드 또는 AMR-WB-IO 인코딩 모드와 같은 스피치 코딩 표준을 이용하는데, 이것은, 비트-레이트가 그러한 디코더와 호환 가능할 경우, 비트스트림(305)의 모노포닉 부분이 레거시 EVS, AMR-WB-IO 또는 레거시 AMR-WB 디코더와 상호 운용 가능함을 의미한다. 선택되는 인코딩 모드에 의거하여, 1차 채널 인코더(352)를 통한 프로세싱을 위해 1차 채널(Y)의 일부 조정이 요구될 수 있다.
2차 채널 인코딩 동작(303)에 있어서, 2차 채널 인코더(353)는 이하의 설명에서 정의된 인코딩 모드들 중 하나를 이용하여 보다 낮은 비트-레이트로 2차 채널(X)을 인코딩한다. 2차 채널 인코더(353)는 2차 채널 인코딩된 비트스트림(306)을 생성한다.
다중화 동작(304)을 수행하기 위하여, 다중화기(354)는 1차 채널 인코딩된 비트스트림(305)을 2차 채널 인코딩된 비트스트림(306)에 연결함으로써, 다중화된 비트스트림(307)을 형성한다. 이것은 내장형 모델이라 지칭하는데, 그 이유는 스테레오와 연관된 2차 채널 인코딩된 비트스트림(306)이 상호 운용 가능 비트스트림(305)의 상부에 추가되기 때문이다. 2차 채널 비트스트림(306)은 언제라도 다중화된 스테레오 비트스트림(307)(연결된 비트스트림들(305 및 306))으로부터 떨어져 나갈 수 있으며, 그에 따라 상기에서 설명한 레거시 코덱에 의해 디코딩 가능한 비트스트림으로 되는 반면, 코덱의 최신 버전의 이용자는 완전한 스테레오 디코딩을 향유할 수 있다.
상술한 제 1 및 제 2 모델들은 사실상 서로 유사하다. 2 모델들간의 주요한 차이는 제 1 모델에서는 2개의 채널들(Y 및 X)간에 동적 비트 할당이 이용될 수 있는 반면, 제 2 모델에서는 상호 운용성의 고려에 기인하여 비트 할당이 보다 제한된다는 것이다.
상술한 제 1 및 제 2 모델들을 달성하는데 이용되는 구현 및 방식들의 예시들을 이하에서 설명하겠다.
1) 시간 영역 다운 믹싱
상기에서 설명한 바와 같이, 낮은 비트-레이트로 동작하는 알려진 스테레오 모델들은 모노포닉 모델과 유사하지 않는 코딩 스피치와는 어려움이 있다. 통상적인 방식들은, 전체 콘텐츠가 본 명세서에 참조로서 수록된, 참조 [4] 및 [5]에 설명된 바와 같이, 2개의 벡터들을 획득하기 위해, 예를 들어, 카루넨 루베 변환(Karhunen-Loeve Transform)(klt)를 이용하는 주 성분 분석(Principal Component Analysis: pca)과 연관된 주파수 대역당 상관(correlation per frequency band)을 이용하여, 주파수 대역마다 주파수 영역에서 다운 믹싱을 수행한다. 이들 2개의 벡터들 중 하나는 높게 상관된 콘텐츠 모두를 포함하지만, 다른 벡터는 별로 상관되지 않은 모든 콘텐츠를 정의한다. 낮은 비트 레이트로 스피치를 인코딩하기 위한 가장 잘 알려진 방법은 CELP(Code-Excited Linear Prediction) 코텍과 같은 시간 도메인 코덱을 이용하는 것인데, 거기에서는 알려진 주파수 영역 해법들이 바로 적용될 수 있는 것은 아니다. 이러한 이유 때문에, 주파수 대역당 pca / klt의 기본 개념이 흥미롭긴 하지만, 콘텐츠가 스피치인 경우, 1차 채널(Y)은 시간 영역으로 되변환될 필요가 있으며, 그러한 변환 후, CELP와 같은 스피치-특정 모델을 이용하는 상술한 구성의 경우, 특히, 그의 콘텐츠는 더이상 통상적인 스피치와 유사하지 않게 된다. 이것은, 스피치 코덱의 성능을 줄이는 효과를 가진다. 또한, 낮은 비트-레이트에서, 스피치 코덱의 입력은 가능한 코덱의 내부 모델 예상과 유사해야 한다.
낮은 비트-레이트 스피치 코덱의 입력이 예상된 스피치 신호에 가능한 근접해야 한다는 발상에서 시작하여, 제 1 기술이 개발되었다. 제 1 기술은 통상적인 pca / klt 스킴의 진화(evolution)에 기반한다. 통상적인 스킴은 주파수 대역당 pca/klt를 계산하지만, 제 1 기술은 시간 영역에서 직접 전체 프레임에 걸쳐 그것을 계산한다. 이것은 배경 잡음 또는 간섭 화자가 없으면, 활성 스피치 세그먼트동안에 적당하게 작동된다. pca / klt 스킴은 어느 채널(좌측(L) 또는 우측(R) 채널)이 가장 유용한 정보를 포함하는지 결정하는데, 이 채널이 1차 채널 인코더에 전송된다. 불행하게도, 프레임에 기반한 pca / klt 스킴은, 2 이상의 사람들이 서로 대화중이거나 배경 잡음이 존재하면 신뢰할 수 없다. pca / klt 스킴의 원리는 하나의 입력 채널(R 또는 L) 또는 다른 채널을 선택하는 것을 수반하는데, 이것은 종종 인코딩될 1차 채널의 콘텐츠에 있어서 극적인 변경을 이끈다. 적어도 상술한 이유때문에, 제 1 기술은 충분히 신뢰할 만하지는 않으며, 따라서, 본 명세서에서는 제 1 기술의 모순을 극복하고 입력 채널들간에 보다 스무드한 천이(smoother transition)가 이루어지게 하는 제 2 기술이 안출된다. 이러한 제 2 기술은 도 4 내지 도 9를 참조하여 이하에서 설명될 것이다.
도 4를 참조하면, 시간 영역 다운 믹싱(201/301)(도 2 및 도 3)의 동작은 이하의 서브-동작들, 즉, 에너지 분석 서브 동작(401), 에너지 트렌드 분석 서브 동작(402), L 및 R 채널 정규화 상관 분석 서브 동작(403), 장기(LT) 상관 차이 계산 서브 동작(404), 장기 상관 차이(long-term correlation difference)-인자 β변환 및 양자화 서브 동작(405) 및 시간 영역 다운 믹싱 서브 동작(406)을 구비한다.
(스피치 및/또는 오디오와 같은) 낮은 비트-레이트 사운드 코덱의 입력이 가능한 동종(homogeneous)이어야 한다는 발상을 염두에 두고, 수학식 (1)을 이용하여각 입력 채널 R 및 L의 rms(Root Mean Square) 에너지를 프레임마다 결정하기 위해 에너지 분석기(451)에 의해 채널 믹서(252/351)에서 에너지 분석 서브 동작(401)이 실행된다.
(1)
아래첨자 L 및 R은 좌측 및 우측 채널을 각각 나타내고, L(i)는 채널 L의 샘플 i를 나타내며, R(i)는 채널 R의 샘플 i를 나타내며, N은 프레임 당 샘플들의 개수에 대응하고, t는 현재 프레임을 나타낸다.
그 다음, 에너지 분석기(451)는 수학식 (1)의 rms값을 이용하고, 수학식 (2)를 이용하여 각 채널에 대한 장기 rms값 를 결정한다.
(2)
여기에서, t는 현재 프레임을 나타내고, t-1은 이전 프레임을 나타낸다.
에너지 트렌드 분석 서브 동작(402)을 실행하기 위하여, 채널 믹서(251/351)의 에너지 트렌드 분석기(452)는 장기 rms 값들 을 이용하고, 수학식 (3)을 이용하여 각각의 채널 L 및 R 에 있어서의 에너지의 트렌드를 결정한다.
(3)
장기 rms 값들의 트렌드는, 마이크로폰에 의해 포착된 시간 이벤트들이 페이딩-아웃(fading out)중인지 또는 그들이 채널들을 변경하고 있는 중인지를 보여주는 정보로서 이용된다. 장기 rms 값들과 그들의 트렌드는, 이하에서 설명하겠지만, 장기 상관 차이의 수렴(α) 속도를 결정하는데 이용된다.
채널 L 및 R 정규화 상관 분석 서브 동작(403)을 실행하기 위하여, L 및 R 정규화 상관 분석기(453)는 수학식(4)를 이용하여 프레임(t)에 있어서 스피치 및/또는 오디오와 같은 사운드의 모노포닉 신호 버전 m(i)에 대해 정규화된 좌측 L 및 우측 R 채널의 각각마다 상관 을 계산한다.
(4)
여기에서, N은 상술한 바와 같이 프레임에 있어서의 샘플들의 개수에 대응하고, t는 현재 프레임을 나타낸다. 본 실시 예에 있어서, 수학식 1 내지 4에 의해 결정된 모든 정규화된 상관들 및 rms 값들은 전체 프레임에 대해, 시간 영역에서 계산된다. 다른 가능한 구성에 있어서, 이 값들은 주파수 영역에서 계산될 수 있다. 예를 들어, 스피치 특성을 가진 사운드 신호들에 적합한 본 명세서에서 설명한 기술들은 본 개시에서 설명한 방법과 주파수 영역 제너릭 스테레오 오디오 코딩 방법(frequency domain generic stereo audio coding method)간에 절환될 수 있는 보다 큰 프레임워크(framework)의 일부일 수 있다. 이 경우 주파수 영역에서 정규화된 상관 및 rms 값들을 계산하면 복잡도 또는 코드 재사용의 견지에서 일부 장점을 나타낸다.
서브 동작(404)에 있어서, 장기(LT) 상관 차이를 계산하기 위하여, 계산기(454)는 수학식(5)를 이용하여 현재 프레임에 있어서의 각 채널 L 및 R마다, 스무드화되고 정규화된 상관을 계산한다.
(5)
여기에서, α는 상술한 수렴 속도이다. 최종적으로, 계산기(454)는 수학식 (6)을 이용하여, 장기(LT) 상관 차이 를 결정한다.
(6)
한가지 예시적인 실시 예에 있어서, 수렴 속도(α)는 수학식 (2)에서 계산된 장기 에너지들과 수학식 (3)에서 계산된 장기 에너지의 트렌드에 의거하여 0.8 또는 0.5의 값을 가질 수 있다. 예를 들어, 수렴 속도(α)는, 좌측 L 및 우측 R 채널들의 장기 에너지들이 동일 방향으로 전개되면, 0.8의 값을 가질 수 있으며, 프레임(t)에서의 장기 상관 차이 와 프레임(t-1)에서의 장기 상관 차이 간의 차이는 낮으며(본 예시적인 실시 예에서는 0.31 미만), 좌측 L 및 우측 R 채널들의 장기 rms 값들 중 적어도 하나는 특정 임계치(본 예시적인 실시 예에서는 2000)보다 높다. 그 경우들은, 두 채널 L 및 R이 스무드하게 전개중이고, 채널간에 에너지의 고속 변경이 없으며, 적어도 하나의 채널이 의미있는 레벨의 에너지를 포함함을 의미한다. 그렇지 않고, 우측 R 및 좌측 L 채널들의 장기 에너지들이 다른 방향으로 전개될 경우, 장기 상관 차이들간의 차이가 높을 경우, 또는 우측 R 및 좌측 L 채널들이 낮은 에너지를 가질 경우, α는 0.5로 설정되어, 장기 상관 차이 의 적응 속도를 증가시킨다.
변환 및 양자화 서브 동작(405)을 실행하기 위하여, 계산기(454)에서 장기 상관 차이 가 적당하게 추정되었으면, 변환기 및 양자화기(455)는 이러한 차이를 양자화된 인자 β로 변환하는데, 인자 β는 도 1의 101과 같은 통신 링크를 통해 다중화된 비트스트림(207/307)내의 디코더로의 전송을 위해, (a) 1차 채널 인코더(252)(도 2), (b) 2차 채널 인코더(253/353)(도 2 및 도 3) 및 (c) 다중화기(254/354)(도 2 및 도 3)로 공급된다.
인자 β는 하나의 파라메타로 조합된 스테레오 입력의 2개의 측면들을 나타낸다. 먼저, 인자 β는 1차 채널(Y)를 생성하기 위해 함께 조합되는 우측 R 및 좌측 L 채널의 각각의 비율 또는 기여(contribution)를 나타내고, 그 다음, 그것은 에너지 영역에서, 사운드의 모노포닉 신호 버전에 근접한 1차 채널을 획득하기 위해 1차 채널(Y)에 적용하기 위한 에너지 스케일링 인자(energy scaling factor)를 나타낼 수 있다. 따라서, 내장형 구조의 경우, 1차 채널(Y)은 스테레오 파라메타를 운반하는 2차 비트스트림(306)을 수신할 필요없이 단독으로 디코딩될 수 있게 된다. 이러한 에너지 파라메타는, 2차 채널(X)의 글로벌 에너지가 2차 채널 인코더의 최적 에너지 범위에 보다 근접하도록, 인코딩전에 2차 채널(X)의 에너지를 재 스케일링(rescaling)하는데 이용될 수 있다. 도 2상에 도시된 바와 같이, 인자 β에 본질적으로 존재하는 에너지 정보는 1차 채널과 2차 채널간의 비트 할당을 개선하는데 이용될 수 있다.
양자화된 인자 β는 인덱스(index)를 이용하여 디코더에 전송될 수 있다. 인자 β가 (a) 1차 채널에 대한 좌측 및 우측 채널 각각의 기여와, (b) 1차 채널(Y)과 2차 채널(X)간에 비트들을 보다 효율적으로 할당하는데 도움을 주는 상관/에너지 정보 또는 사운드의 모노포닉 신호 버전을 획득하기 위해 1차 채널에 적용하기 위한 에너지 스케일링 인자를 나타낼 수 있기 때문에, 디코더에 전송된 인덱스는 동일 개수의 비트들을 가진 2개의 개별적인 정보 요소들을 운반한다.
본 예시적인 실시 예에 있어서, 장기 상관 차이 와 인자 β간의 매핑(mapping)을 획득하기 위하여, 변환기 및 양자화기(455)는 장기 양자 차이 를 -1.5와 1.5 사이로 제한하며, 이러한 장기 상관 차이를 0 과 2 사이로 선형화하여, 수학식 (7)에 나타난 바와 같이 시간 선형화 장기 상관 차이(temporary linearized long-term correlation difference) 를 획득한다.
(7)
대안적인 구현에 있어서, 선형화된 장기 상관 차이 의 값을 예를 들어 0.4와 0.6 사이로 제한함에 의해 선형화된 장기 상관 차이 로 충진된 공간의 일부만을 이용하도록 결정될 수 있다. 이러한 추가적인 제한은 스테레오 이미지 로컬라이제이션(stereo image localization)을 줄이는 효과를 가지지만, 얼마간의 양자화 비트들을 절약하는 효과를 가지기도 한다. 디자인 선택에 따라, 이러한 선택 사항이 고려될 수 있다.
선형화 후, 변환기 및 양자화기(455)는 수학식(8)을 이용하여 "코사인" 영역으로의 선형화된 장기 상관 차이 의 매핑을 실행한다.
(8)
시간 영역 다운 믹싱 서브 동작(406)을 실행하기 위하여, 시간 영역 다운 믹서(456)는 수학식 (9) 및 (10)을 이용하여, 1차 채널(Y)과 2차 채널(X)을 우측(R) 및 좌측(L) 채널들의 혼합으로서 생성한다.
(9)
(10)
여기에서, i = 0, ..., N-1는 프레임내의 샘플 인덱스이고, t는 프레임 인덱스이다.
도 13은 스테레오 이미지 안정성을 개선하기 위해 전-적응 인자(pre-adaptation factor)를 이용하는, 도 2 및 도 3의 스테레오 사운드 인코딩 시스템의 채널 믹서(251/351)의 모듈들 및 도 2 및 도 3의 스테레오 사운드 인코딩 방법의 시간 영역 다운 믹싱 동작(201/301)의 서브 동작의 다른 실시 예들을 함께 도시한 블럭도이다.
도 13에 도시된 대안적인 구현에 있어서, 시간 영역 다운 믹싱 동작(201/301)은 이하의 서브 동작, 즉, 에너지 분석 서브 동작(1301)과, 에너지 트렌드 분석 서브 동작(1302)과, L 및 R 채널 정규화 상관 분석 서브 동작(1303)과, 전-적응 계수 계산 서브 동작(1304)과, 정규화된 상관에 전-적응 인자(pre-adaption factor)를 적용하는 동작(1305)과, 장기(LT) 상관 차이 계산 서브 동작(1306)과, 이득-인자 β 변환 및 양자화 서브 동작(1307) 및 시간 영역 다운 믹싱 서브 동작(1308)을 구비한다.
서브 동작들(1301, 1302 및 1303)은 실질적으로 도 4의 서브 동작(401, 402 및 403)과 분석기(451, 452 및 453)와 관련하여 상기에서 설명한 것과 동일한 방식으로 에너지 분석기(1351), 에너지 트렌드 분석기(1352) 및 L 및 R 정규화 상관 분석기(1353)에 의해 실행된다.
서브 동작(1305)을 실행하기 위하여, 채널 믹서(251/351)는 수학식 (4)로부터의 상관 ()에 전-적응 인자 를 바로 적용하여, 그들의 전개가 양 채널들의 특성들 및 에너지에 따라 스무드하게 되도록 하는 계산기(1355)를 구비한다. 신호의 에너지가 낮거나 그것이 얼마간의 무성음 특성(unvoiced characteristic)를 가지면, 상관 이득의 전개가 보다 느려질 수 있다.
전-적응 인자 계산 서브 동작(1304)을 실행하기 위하여, 채널 믹서(251/351)는 (a) 에너지 분석기(1351)로부터의 수학식 (2)의 장기 좌측 및 우측 채널 에너지 값들과, (b) 이전 프레임들의 프레임 분류, 및 (c) 이전 프레임들의 유성음 활성 정보를 공급받는 전-적응 인자 계산기(1354)를 구비한다. 전-적응 인자 계산기(1354)는 수학식 (6a)를 이용하여, 분석기(1351)로부터의 좌측 및 우측 채널들의 최소 장기 rms 값들 에 따라 0.1과 1 사이에서 선형화될 수 있는, 전-적응 인자 를 계산한다.
(11a)
실시 예에 있어서, 계수 는 0.0009의 값을 가질 수 있으며, 계수 는 0.16의 값을 가질 수 있다. 변형으로서, 예를 들어, 2개의 채널(R 및 L)의 이전 분류가 무성음 특성 및 활성 신호를 나타내면, 전-적응 인자 는 0.15로 된다. 유성음 활성 검출(Voice Activity Detection: VAD) 행오버 플래그(hangover flag)는, 프레임의 콘텐츠의 이전 부분이 활성 세그먼트였음을 판정하는데 이용될 수 있다.
좌측(L) 및 우측(R) 채널의 정규화 상관 (수학식 (4)로부터의 )에 전-적응 인자 를 적용하는 동작(1305)은 도 4의 동작(404)과 별개이다. 정규화 상관 ()에 인자 (1-α)(α는 상기에서 정의된 수렴 속도(수학식 (5))를 적용함에 의해 스무드화된 장기 정규화 상관을 계산하는 대신에, 계산기(1355)는 수학식(11b)을 이용하여 좌측(L) 및 우측(R) 채널의 정규화 상관 ()에 바로 전-적응 인자 를 적용한다.
(11b)
계산기(1355)는 장기(LT) 상관 차이(1356)에 제공되는 적응화된 상관 이득 을 출력한다. 시간 영역 다운 믹싱(201/301)의 동작(도 2 및 도 3)은, 도 13의 구현에 있어서, 도 4의, 서브 동작들(404, 405 및 406)과 각각 유사한, 장기(LT) 상관 차이 계산 서브 동작(1306), 장기 상관 차이-계수 β 변환 및 양자화 서브 동작(1307) 및 시간 영역 다운 믹싱 서브 동작(1358)을 구비한다.
시간 영역 다운 믹싱(201/301)의 동작(도 2 및 도 3)은, 도 13의 구현에 있어서, 도 4의 서브 동작들(404, 405 및 406)과 각각 유사한, 장기(LT) 상관 차이 계산 서브 동작(1306), 장기 상관 차이-인자 β 변환 및 양자화 서브 동작(1307) 및 시간 영역 다운 믹싱 서브-동작(1358)을 구비한다.
서브 동작들(1306, 1307 및 1308)은, 실질적으로, 서브 동작들(404, 405 및 406)과, 계산기(454), 변환기 및 양자화기(455) 및 시간 영역 다운 믹서(456)와 관련하여 상기에서 설명한 것과 동일한 방식으로, 계산기(1356), 변환기 및 양자화기(1357) 및 시간 영역 다운 믹서(1358)에 의해 각각 실행된다.
도 5는 선형화된 장기 상관 차이(linearized long-term correlation differernce)가 인자 β와 에너지 스케일링에 매핑되는 방식을 보여준다. 우측(R) 및 좌측(L) 채널 에너지들/상관이 거의 동일함을 의미하는 1.0의 선형화된 장기 상관 차이 의 경우, 인자 β는 0.5와 동일하고, 에너지 정규화(재 스케일링(rescaling)) 인자 ε는 1.0임을 알 수 있을 것이다. 이러한 상황에서, 1차 채널(Y)의 콘텐츠는, 기본적으로, 모노 혼합(mono mixture)이고, 2차 채널(Y)은 사이드 채널(side channel)을 형성한다. 에너지 정규화(재 스케일링) 인자 ε의 계산은 이하에서 설명될 것이다.
다른 한편, 선형화된 장기 상관 차이 가 2이어서, 에너지의 대부분이 좌측 채널(L)에 있음을 의미하면, 인자 β는 1이고, 에너지 정규화(재 스케일링) 인자는 0.5로서, 1차 채널(Y)이 기본적으로 내장형 고안 구현(embedded design implementation)에서는 좌측 채널(L)의 다운스케일된 표시(downscaled representation)를 포함하거나 통합형 고안 구현(integrated design implementation)에서는 좌측 채널(L)을 포함함을 나타낸다. 이 경우, 2차 채널(X)은 우측 채널(R)을 포함한다. 예시적인 구현에 있어서, 변환기 및 양자화기(455 또는 1357)는 31개의 가능한 양자화 엔트리(entry)들을 이용하여 인자 β를 양자화한다. 인자 β의 양자화된 버전은 5비트 인덱스를 이용하여 표시되며, 상기에서 설명한 바와 같이, 다중화된 비트스트림(207/307)로의 통합을 위해 다중화기로 공급되고, 통신 링크를 통해 디코더로 전송된다.
실시 예에 있어서, 인자 β는, 비트-레이트 할당을 결정하기 위해, 1차 채널 인코더(252/352)와 2차 채널 인코더(253/353)에 대한 표시자로서 이용된다. 예를 들어, β 인자가 0.5에 근접하여, 모노에 대한 2개의 입력 채널 에너지들/상관들이 서로 근접함을 의미하면, 2차 채널(X)에 추가적인 비트들이 할당되고, 1차 채널(Y)에는 보다 적은 비트들이 할당되지만, 2 채널의 콘텐츠가 아주 유사하여, 2차 채널의 콘텐츠가 실제로 낮은 에너지이며 또한 불활성으로서 고려될 가능성이 있고 그에 따라 매우 소수의 비트들만이 그것을 코딩하는데 허용되는 경우에는 그러하지 아니하다. 다른 한편, 인자 β가 0 또는 1에 근접하면, 비트-레이트 할당은 1차 채널(Y)에 편중(favor)될 것이다.
도 6은 인자 β를 계산하기 위하여 전체 프레임에 걸쳐 pca / klt 스킴을 이용하는 것(도 6의 2개의 상부 곡선들)과 수학식(6)에 전개된 "코사인" 함수를 이용하는 것(도 6의 하부 곡선)간의 차이를 보여준다. 본래, pca / klt 스킴은 최소 또는 최대를 검색하는 경향이 있다. 이것은 도 6의 중간 곡선에 나타난 활성 스피치의 경우에는 잘 작용하지만, 도 6의 중간 곡선에 나타난 바와 같이 0에서 1로 계속적으로 절환하는 경향이 있기 때문에, 배경 잡음을 가진 스피치에 대해서는 이것이 잘 작용하지 않는다. 극단들 0 및 1로의 너무 빈번한 절환은, 낮은 비트-레이트를 코딩할 때 많은 아티팩트(artefact)들을 유발한다. 잠재적 해법은 pca / klt 스킴의 결정을 개선하는 것이었지만, 이것은 스피치 버스트(speech burst) 및 그들의 정확한 위치의 검출에 부정적인 영향을 미치며, 이러한 측면에서는 수학식 (8)의 "코사인" 함수가 보다 효율적이다.
도 7은 배경에 오피스 잡음(office noise)을 가진 양이 마이크로폰 셋업(binaural microphones setup)을 이용하여 소형 반향실(echoic room)에서 기록되었던 스테레오 샘플에 시간 영역 다운 믹싱을 적용함에 의해 유발되는 1차 채널과 2차 채널의 스펙트럼들과, 1차 채널 및 2차 채널을 도시한다. 시간 영역 다운 믹싱 동작 이후, 두 채널들은 여전히 유사한 스펙트럼 형상을 가지며, 2차 채널(X)은 여전히 스피치형 시간 콘텐츠(speech like temporal content)를 가지고 있어서, 스피치 기반 모델을 사용하여 2차 채널(X)의 인코딩이 가능하게 됨을 알 수 있을 것이다.
이전 설명에서 제시된 시간 영역 다운 믹싱은 동위상(in phase)으로 반전되는 우측(R) 및 좌측(L) 채널들의 특정 경우에 일부 문제들을 보여준다. 모노포닉 신호를 획득하기 위하여 우측(R)과 좌측(L) 채널들을 합산하면, 우측(R) 및 좌측(L) 채널들이 서로를 소거하게 된다. 이러한 문제를 해결하기 위하여, 실시 예에 있어서, 채널 믹서(251/351)는 우측(R) 및 좌측(L) 채널들의 에너지와 모노포닉 신호의 에너지를 비교한다. 모노포닉 신호의 에너지는 적어도 우측(R) 및 좌측(L) 채널들 중 하나의 에너지보다 더 커야 한다. 이와 달리, 본 실시 예에서는, 시간 영역 다운 믹싱 모델이 반전 위상의 특정 경우로 돌입한다. 이러한 특정 경우시에, 인자 β는 1로 되고, 2차 채널(X)은 제너릭 모드 또는 무성음 모드를 이용하여 인코딩되며, 그에 따라 불활성 코딩 모드를 방지하고, 2차 채널(X)의 적정한 인코딩을 보장한다. 적용되는 에너지 재 스케일링이 없는, 이러한 특정 경우는 인자 β의 전송을 위해 이용될 수 있는 최종 비트들의 조합(인덱스 값)을 이용함에 의해 디코더로 신호 전송된다(기본적으로, β가 5비트들을 이용하여 양자화되고, 31 엔트리들(양자화 레벨)이 상술한 바와 같이 양자화를 위해 이용되기 때문에, 이러한 특정 경우를 신호 전송하기 위해 32번째의 가능한 비트 조합(엔트리 또는 인덱스 값)이 이용된다).
대안적인 구현에 있어서, 예를 들어, 역위상 신호(out-of-phase signal) 또는 근사 역위상 신호(near out-of-phase signal)의 경우에, 상술한 다운 믹싱 및 코딩 기법에 대해 차선인 신호의 검출에 보다 강한 엠파시스가 부여될 수 있다. 일단 이 신호들이 검출되면, 필요한 경우 기본 코딩 기술이 조정될 수 있다.
전형적으로, 본 명세서에서 설명한 시간 영역 다운 믹싱의 경우, 입력 스테레오 신호의 좌측(L) 및 우측(R) 채널들이 역위상이면, 다운 믹싱 프로세스동안에 얼마간의 소거나 발생할 수 있으며, 그에 따라 차선의 품질이 획득될 수 있다. 상술한 예시에서, 이들 신호들의 검출은 단순하며, 코딩 전략은 2개의 채널을 개별적으로 인코딩하는 것을 구비한다. 그러나, 때때로, 역위상의 특정 신호들의 경우, 모노/사이드(β = 0.5)와 유사한 다운 믹싱을 실행하는 것이 보다 효율적일 수 있으며, 여기에서, 보다 큰 엠파시스가 사이드 채널에 부여될 수 있다. 이들 신호들의 일부 특정 처리가 바람직할 경우, 그러한 신호들의 검출이 주의깊게 실행될 필요가 있다. 또한, 상기에서 설명한 일반적인 시간 영역 다운 믹싱 모델과 이들 특정 신호들을 다루는 시간 영역 다운 믹싱 모델로부터의 천이는 매우 낮은 에너지 영역 또는 2 채널들의 피치(pitch)가 불안정한 영역들에서 트리거될 수 있으며, 그에 따라 2 모델들간의 절환은 최소한의 주관적 효과만을 가지게 된다.
L 및 R 채널들간의 시간 지연 정정(TDC)(도 17 및 도 18에서 시간 지연 정정기(1750) 참조) 또는 전체 콘텐츠가 본 명세서에서 참조로서 수록되는 참조 [8]에 설명된 것과 유사한 기술이 다운 믹싱 모듈(201/301, 251/351)로의 진입전에 실행될 수 있다. 그러한 실시 예에 있어서, 인자 β는 결국 상기에서 설명한 것과는 다른 의미를 가지게 된다. 이러한 유형의 구현의 경우, 시간 지연 정정이 예상한대로 동작하는 조건에서는, 인자 β가 0.5에 가깝게 되는데, 이것이 의미하는 것은 시간 영역 다운 믹싱의 구성이 모노/사이드 구성과 유사하다는 것이다. 시간 지연 정정(TDC)의 적당한 동작과 함께, 사이드는 보다 적은 양의 중요 정보를 포함하는 신호를 포함할 수 있다. 그 경우, 2차 채널(X)의 비트레이트는, 인자 β가 0.5에 근접하면, 최소로 될 수 있다. 다른 한편, 인자 β가 0 또는 1에 근접할 경우, 이것은, 시간 지연 정정(TDC)이 지연 오정렬 상황을 적절하게 극복하지 못할 수 있고, 2차 채널(X)의 콘텐츠가 보다 복잡해져서, 보다 높은 비트레이트를 필요로 하게 됨을 의미한다. 2가지 유형의 구현의 경우, 인자 β 및 그와 연계된 에너지 정규화(재 스케일링) 인자 ε는 1차 채널(Y)과 2차 채널(X)간의 비트 할당을 개선하는데 이용될 수 있다.
도 14는 다운 믹싱 동작(201/301)과 채널 믹서(251/351)의 일부를 형성하여, 역위상 신호 검출 동작 및 역위상 신호 검출기(1450)의 모듈들을 함께 도시한 블럭도이다. 역위상 신호 검출 동작들은, 도 14에 도시된 바와 같이, 역위상 신호 검출 동작(1401), 절환 위치 검출 동작(1402), 및 시간 영역 다운 믹싱 동작(201/301)과 역위상 특정 시간 영역 다운 믹싱 동작(1404) 중에서 선택하기 위한 채널 믹서 선택 동작(1403)을 포함한다. 이러한 동작들은 각각 역위상 신호 검출기(1451), 절환 위치 검출기(1452), 채널 믹서 선택기(1453), 이전 설명한 시간 영역 다운 채널 믹서(251/351) 및 역위상 특정 시간 영역 다운 채널 믹서(1454)에 의해 실행된다.
역위상 신호 검출(1401)은 이전 프레임들에 있어서의 1차 채널과 2차 채널간의 개방 루프 상관에 기반한다. 이를 위하여, 검출기(1451)는 수학식 (12a) 및 (12b)를 이용하여 이전 프레임에 있어서의 사이드 신호 s(i)와 모노 신호 m(i)간의 에너지 차이 를 계산한다.
(12a)
(12b)
그 다음, 검출기(1451)는 수학식 (12c)를 이용하여 장기 사이드-모노 에너지 차이(long term side to mono energy difference) 를 계산한다.
(12c)
여기에서, t는 현재 프레임을 나타내고, 은 이전 프레임을 나타내며, 불활성 콘텐츠는 VAD(Voice Activity Detector) 행오버 플래그 또는 VAD 행오버 카운터로부터 도출될 수 있다.
장기 사이드-모노 에너지 차이 에 추가하여, 현재 모델이 차선으로서 고려될 때를 결정하기 위해 최종 피치 개방 루프 최대 상관 이 고려된다. 는 이전 프레임에 있어서 1차 채널(Y)의 피치 개방 루프 최대 상관을 나타내고, 는 이전 프레임에 있어서 2차 채널(X)의 개방 피치 루프 최대 상관을 나타낸다. 차선 플래그 Fsub는 이하의 기준에 따라 절환 위치 검출기(1452)에 의해 계산된다.
장기 사이드-모노 에너지 차이 가 특정 임계치보다 높고, 예를 들어, 이고, 피치 개방 루프 최대 상관 가 0.85와 0.92 사이로서, 그 신호들이 양호한 상관을 가지되, 유성음 신호의 그대로 상관되는 것은 아님을 의미하면, 차선 플래그 Fsub는 1로 설정되어, 좌측(L) 채널과 우측(R) 채널간의 역위상 상태를 나타낸다.
그렇지 않으면, 차선 플래그 Fsub는 0으로 설정되어, 좌측(L) 채널과 우측(R) 채널간의 역위상 상태가 아님을 나타낸다.
차선 플래그 결정에서 얼마간의 안정성을 추가하기 위하여, 절환 위치 검출기(1452)는 각 채널 Y 및 X의 피치 윤곽선(pitch contour)에 관한 기준을 구현한다. 절환 위치 검출기(1452)는, 예를 들어, 차선 플래그 Fsub의 적어도 3개의 연속하는 인스턴스(instance)들이 1로 설정되고, 1차 채널 중 하나의 최종 프레임의 피치 안정성 또는 2차 채널 중 하나의 최종 프레임의 피치 안정성 이 64보다 더 크면, 채널 믹서(1454)가 차선 신호들을 코딩하는데 이용될 것이라고 판정한다. 피치 안정성은 수학식 (12d)를 이용하여 절환 위치 검출기(1452)에 의해 계산되는, 참조 [1]의 5.1.10에 정의된, 3개의 개방 루프 피치들 의 절대 차이의 합에 있다.
(12d)
절환 위치 검출기(1452)는 채널 믹서 선택기(1453)에 결정을 제공하며, 그 다음 채널 믹서 선택기(1453)는 채널 믹서(251/351) 또는 채널 믹서(1454)를 선택한다. 채널 믹서(1454)가 선택되면, 예를 들어, 20개의 프레임들과 같은 다수의 연속하는 프레임들이 최적인 것으로 고려되고, 1차 채널 중 하나의 최종 프레임의 피치 안정성 또는 2차 채널 중 하나의 최종 프레임의 피치 안정성 이, 예를 들어, 64와 같은 사전 결정된 수보다 더 크며, 장기 사이드-모노 에너지 차이 가 0 이하라는 조건이 충족될 때 까지, 이 결정이 유지되도록, 채널 믹서 선택기(1453)는 히스테리시스(hysteresis)를 구현한다.
2) 1차 채널과 2차 채널간의 동적 인코딩
도 8은 스피치 또는 오디오와 같은 스테레오 사운드 신호의 1차(Y) 및 2차(X) 채널들 모두의 인코딩의 최적화가 구현 가능한 스테레오 사운드 인코딩 방법 및 시스템을 함께 도시한 블럭도이다.
도 8을 참조하면, 스테레오 사운드 인코딩 방법은 낮은 복잡도 전처리기(851)에 의해 구현되는 낮은 복잡도 전처리 동작(801), 신호 분류기(852)에 의해 구현되는 신호 분류 동작(802), 결정 모듈(853)에 의해 구현되는 결정 동작(803), 4 서브프레임 모델 제너릭 전용 인코딩 모듈(four subframe model generic only encoding module, 854)에 의해 구현되는 4 서브 프레임 모델 제너릭 전용 인코딩 동작(804), 2 서브프레임 모델 인코딩 모듈(855)에 의해 구현되는 2 서브프레임 모델 인코딩 동작(805), LP 필터 코히어런스 분석기(856)에 의해 구현되는 LP 필터 코히어런스 분석 동작(806)을 구비한다.
시간 영역 다운 믹싱(301)이 채널 믹서(351)에 의해 실행된 후, 내장형 모델의 경우, 1차 채널(Y)은 (a) 1차 채널 인코더(352)로서 레거시 EVS 인코더 또는 임의 다른 적당한 레거시 사운드 인코더와 같은 레거시 인코더를 이용하여(상술한 바와 같이, 임의 적당한 유형의 인코더는 1차 채널 인코더(352)로서 이용될 수 있음을 알아야 한다) 인코딩된다(1차 채널 인코딩 동작(302)). 통합 구조의 경우, 전용 스피치 코덱이 1차 채널 인코더(252)로서 이용된다. 전용 스피치 인코더(252)는, 프레임 레벨에 기반하여 가변 비트레이트의 처리가 가능한 보다 큰 비트레이트 확장성을 갖도록 수정되었던, 레거시 EVS 인코더의 수정 버전과 같은 가변 비트 레이트(VBR) 기반 인코더일 수 있다(다시, 상술한 바와 같이, 임의 적당한 유형의 인코더가 1차 채널 인코더(252)로서 이용될 수 있음을 알아야 한다). 이에 따라, 2차 채널을 인코딩하는데 이용된 소량의 비트들이 각 프레임에서 가변될 수 있게 되고 인코딩될 사운드 신호의 특성들에 맞게 조정될 수 있게 된다. 결국, 2차 채널(X)의 시그니처(signature)는 그만큼 동종으로 될 것이다.
2차 채널(X)의 인코딩, 즉, 모노 입력에 대한 보다 낮은 에너지/상관은, 비록 전적인 것은 아니지만, 특히 스피치형 콘텐츠에 대해 최소 비트 레이트를 이용하는데 있어서 최적화된다. 이를 위해, 2차 채널 인코딩은, 예를 들어, LP 필터 계수(LPC) 및/또는 피치 레그(807)와 같이, 1차 채널(Y)에서 이미 인코딩된 파라메타들을 이용할 수 있다. 특히, 이하에서 설명하겠지만, 1차 채널 인코딩 동안에 계산된 파라메타들이 2차 채널 인코딩 동안에 재사용될 수 있을 정도로 2차 채널 인코딩 동안에 계산된 대응하는 파라메타들에 충분히 근접한지를 결정할 것이다.
먼저, 낮은 복잡도 전처리 동작(801)은 낮은 복잡도 전처리기(851)를 이용하여 2차 채널(X)에 적용되는데, LP 필터, VAD 및 개방 루프 피치는 2차 채널(X)에 응답하여 계산된다. 후자의 계산은, 예를 들어, 상술한 바와 같이 전체 콘텐츠가 본 명세서에서 참조로서 수록된, 참조 [1]의 5.1.9, 5.1.12 및 5.1.10 절에 각각 설명되고 EVS 레거시 인코더에서 실행되는 것들에 의해 구현될 수 있다. 상술한 바와 같이, 임의 적절한 유형의 인코더가 1차 채널 인코더(252/352)로서 이용될 수 있기 때문에, 상술한 계산은 그러한 1차 채널 인코더에서 실행되는 것들에 의해 구현될 수 있다.
그 다음, 2차 채널(X) 신호의 특성들은 신호 분류기(852)에 의해 분석되어, 동일한 참조 [1]의 5.1.13절에 설명된 EVS 신호 분류 기능의 기술들과 유사한 기술들을 이용하여 무성음, 제너릭 또는 불활성으로서 2차 채널(X)이 분류된다. 이러한 동작들은 본 기술 분야의 숙련자에게 알려진 것으로, 단순화를 위해 표준 3GPP TS 26.445, v.12.0.0으로부터 추출될 수 있지만, 대안적인 구현이 또한 이용될 수 있다.
a. 1차 채널 LP 필터 계수의 재 사용
비트-레이트 소모의 중요한 부분은 LP 필터 계수(LPC)의 양자화에 있다. 낮은 비트-레이트에서, LP 필터 계수의 전체 양자화는 비트 예산의 대략 25%까지 취해질 수 있다. 2차 채널(X)이 주파수 콘텐츠에 있어서 가장 낮은 에너지 레벨을 가진 채 1차 채널(Y)에 빈번하게 근접한다고 한다면, 1차 채널(Y)의 LP 필터 계수를 재사용할 가능성이 있는지를 증명할 가치가 있다. 그렇게 하기 위하여, 도 8에 도시된 바와 같이, LP 필터 코히어런스 분석기(856)에 의해 구현되는 LP 필터 코히어런스 분석 동작(806)이 전개되었으며, 거기에서는 아주 소수의 파라메타들만이 계산되고 비교되어, 1차 채널(Y)의 LP 필터 계수(LPC)(807)를 재사용할지 재사용하지 않을지를 확인한다.
도 9는 도 8의 스테레오 사운드 인코딩 방법 및 시스템의 LP 필터 코히어런스 분석 동작(806) 및 대응하는 LP 필터 코히어런스 분석기(856)를 도시한 블럭도이다.
도 8의 스테레오 사운드 인코딩 방법 및 시스템의 LP 필터 코히어런스 분석 동작(806) 및 대응하는 LP 필터 코히어런스 분석기(856)는 도 9에 도시된 바와 같이, LP 필터 분석기(953)에 의해 구현되는 1차 채널 LP(Linear Prediction) 필터 분석 서브-동작(903), 가중 필터(954)에 의해 구현되는 가중 서브-동작(904), LP 필터 분석기(962)에 의해 구현되는 2차 채널 LP 필터 분석 서브-동작(912), 가중 필터(951)에 의해 구현되는 가중 서브-동작(901), 유클리드 거리 분석기(952)에 의해 구현되는 유클리드 거리 분석 서브-동작(902), 잔차 필터(963)에 의해 구현되는 잔차 필터링 서브-동작(913), 잔차 에너지의 계산기(964)에 의해 구현되는 잔차 에너지 계산 서브-동작(914), 공제기(965)에 의해 구현되는 공제 서브-동작(915), 에너지의 계산기(960)에 의해 구현되는 사운드(예를 들어, 스피치 및/또는 오디오) 에너지 계산 서브-동작(910), 2차 채널 잔차 필터(956)에 의해 구현되는 2차 채널 잔차 필터링 동작(906), 잔차 에너지의 계산기(957)에 의해 구현되는 잔차 에너지 계산 서브-동작(907), 공제기(958)에 의해 구현되는 공제 서브-동작(908), 이득 비율의 계산기에 의해 구현되는 이득 비율 계산 서브-동작(911), 비교기(966)에 의해 구현되는 비교 서브-동작(916), 비교기(967)에 의해 구현되는 비교 서브-동작(917), 결정 모듈(968)에 의해 구현되는 2차 채널 LP 필터 이용 결정 서브-동작(918) 및 결정 모듈(969)에 의해 구현되는 1차 채널 LP 필터 재사용 결정 서브-동작(919)을 구비한다.
도 9를 참조하면, LP 필터 분석기(953)는 1차 채널(Y)에 대해 LP 필터 분석을 실행하고, LP 필터 분석기(962)는 2차 채널(X)에 대해 LP 필터 분석을 실행한다. 1차 채널(Y) 및 2차 채널(X) 각각에 대해 실행되는 LP 필터 분석은 참조 [1]의 5.1.9 절에 설명된 분석과 유사하다.
그 다음, LP 필터 분석기(953)로부터 LP 필터 계수 Ay는 2차 채널(X)의 제 1 잔차 필터링 을 위한 잔차 필터(956)에 공급된다. 동일한 방식으로, 최적 LP 필터 계수 는 2차 채널(X)의 제 2 잔차 필터링 을 위한 잔차 필터(963)에 공급된다. 필터 계수 Ay 또는 를 가진 잔차 필터링은 수학식 (11)을 이용하여 실행된다.
(13)
본 예시에서, 는 2차 채널을 나타내고, LP 필터 차수는 16이며, N은 12.8kHz의 샘플링 레이트의 20ms 프레임 기간에 대응하는 일반적으로 256인 프레임에 있어서의 샘플들의 개수(프레임 크기)이다.
계산기(910)는 수학식 (14)를 이용하여 2차 채널(X)에 있어서의 사운드 신호의 에너지 를 계산한다.
(14)
또한, 계산기(957)는 수학식 (15)를 이용하여 잔차 필터(956)로부터 잔차의 에너지 를 계산한다.
(15)
공제기(958)는 계산기(957)로부터의 잔차 에너지를 계산기(960)로부터의 사운드 에너지로부터 공제하여, 예측 이득 을 생성한다.
동일한 방식으로, 계산기(964)는 수학식(16)을 이용하여 잔차 필터(963)로부터 잔차의 에너지 를 계산한다.
(16)
또한 공제기(965)는 계산기(960)로부터의 사운드 에너지로부터 잔차 에너지를 공제하여 예측 이득 을 생성한다.
계산기(961)는 이득 비율 을 계산한다. 비교기(966)는 이득 비율 을, 본 예시적인 실시 예에서 0.92인 임계치 τ와 비교한다. 비율 이 임계치 τ보다 작으면, 비교 결과는 2차 채널(X)을 인코딩하기 위해 2차 채널 LP 필터 계수를 이용하게 하는 결정 모듈(968)에 전송된다.
유클리드 거리 분석기(952)는 1차 채널(Y)에 응답하여 LP 필터 분석기(953)에 의해 계산된 라인 스펙트럼 페어 와 2차 채널(X)에 응답하여 LP 필터 분석기(962)에 의해 계산된 라인 스펙트럼 페어 간의 유클리드 거리와 같은 LP 필터 유사성 측정을 실행한다. 본 기술 분야의 숙련자에게 알려진 바와 같이, 라인 스펙트럼 페어 는 양자화 영역에서의 LP 필터 계수들을 나타낸다. 분석기(952)는 유클리드 거리 를 결정하기 위해 수학식 (17)을 이용한다.
(17)
M은 필터 차수를 나타내고, 는 각각 1차 채널(Y)과 2차 채널(X)에 대해 계산된 라인 스펙트럼을 나타낸다.
분석기(952)에서 유클리드 거리를 계산하기 전에, 스펙트럼의 특정 부분들에 보다 강하거나 보다 약한 엠퍼시스가 가해지도록 각 가중 인자들을 통해 라인 스펙트럼 페어들의 세트인 에 가중치를 부여할 수 있다. 다른 LP 필터 표시는 LP 필터 유사성 측정을 계산하는데 이용될 수 있다.
유클리드 거리 를 알면, 그것은 비교기(967)에서 임계치 σ와 비교된다. 예시적인 실시 예에 있어서, 임계치 σ는 0.08의 값을 가진다. 비율 이 임계치 τ 이상임을 비교기(966)가 판정하고, 유클리드 거리 가 임계치 σ 이상임을 비교기(967)가 판정하면, 비교 결과들은 2차 채널(X)을 인코딩하기 위해 2차 채널 LP 필터 계수를 이용하게 하는 결정 모듈(968)에 전송된다. 비율 이 임계치 τ 이상임을 비교기(966)가 판정하고, 유클리드 거리 가 임계치 σ보다 작음을 비교기(967)가 판정하면, 이 비교 결과들은 2차 채널(X)을 인코딩하기 위해 1차 채널 LP 필터 계수를 재사용하게 하는 결정 모듈(969)에 전송된다. 후자의 경우, 1차 채널 LP 필터 계수들은 2차 채널 인코딩의 일부로서 재사용된다.
예를 들어, 무성음 코딩 모드의 경우와 같은 특정 경우에 2차 채널(X)을 인코딩하기 위해 1차 채널 LP 필터 계수의 재사용을 제한하도록 일부 추가적인 테스트가 실행될 수 있는데, 거기에서는, LP 필터 계수를 또한 인코딩하는데 이용할 수 있는 비트 레이트가 여전히 존재하는 신호를 충분히 쉽게 인코딩한다. 또한, 매우 낮은 잔차 이득이 2차 채널 LP 필터 계수로 이미 획득되거나, 2차 채널(X)이 매우 낮은 에너지 레벨을 가질 경우 1차 채널 LP 필터 계수를 재사용하게 할 수 있다. 마지막으로, 변수 τ와 σ, 잔차 이득 레벨 또는 LP 필터 계수가 재사용될 수 있게 하는 매우 낮은 에너지 레벨은 모두 콘텐츠 유형의 함수로서 및/또는 이용 가능한 비트 예산의 함수로서 조정될 수 있다. 예를 들어, 2차 채널의 콘텐츠가 불활성으로서 고려되면, 에너지가 높다 하더라도, 그것은 1차 채널 LP 필터 계수를 재사용하도록 결정할 수 있다.
b. 2차 채널의 낮은 비트-레이트 인코딩
1차 채널(Y)과 2차 채널(X)은 우측(R)과 좌측(L) 입력 채널의 믹싱(mixing)이기 때문에, 이것은, 2차 채널(X)의 에너지 콘텐츠가 1차 채널(Y)의 에너지 콘텐츠에 비해 낮다 하더라도, 일단 채널들의 믹싱이 실행되면 코딩 아티팩트가 인지될 수 있다. 그러한 가능한 아티팩트를 제한하기 위해, 2차 채널(X)의 코딩 시그니처는 가능한 일정하게 유지되어 임의의 의도치 않는 에너지 변동을 제한한다. 도 7에 도시된 바와 같이, 2차 채널(X)의 콘텐츠는 1차 채널(Y)의 콘텐츠와 유사한 특성들을 가지며, 이러한 이유 때문에, 매우 낮은 비트-레이트 스피치형 코딩 모델(very low bit-rate speech like coding model)이 전개되었다.
도 8을 참조하면, LP 필터 코히어런스 분석기(856)는 결정 모듈(969)로부터의 1차 채널 LP 필터 계수를 재사용하도록 하는 결정 또는 결정 모듈(968)로부터의 2차 채널 LP 필터 계수들을 이용하도록 하는 결정을 결정 모듈(853)에 전송한다. 그 다음, 결정 모듈(803)은, 1차 채널 LP 필터 계수가 재사용되면 2차 채널 LP 필터 계수를 양자화하지 않도록 결정하고, 그 결정이 2차 채널 LP 필터 계수를 사용하는 것일 경우에는 2차 채널 LP 필터 계수들을 양자화하지 않도록 결정한다. 후자의 경우, 양자화된 2차 채널 LP 필터 계수들은 다중화된 비트스트림(207/307)에 포함시키기 위해 다중화기(254/354)에 전송된다.
4 서브프레임 모델 제너릭 전용 인코딩 동작(804)과 대응하는 4 서브프레임 모델 제너릭 전용 인코딩 모듈(854)에 있어서, 가능한 낮은 비트-레이트를 유지하기 위하여, 1차 채널(Y)로부터의 LP 필터 계수들이 재사용될 수 있을 때, 2차 채널(X)이 신호 분류기(852)에 의해 제너릭으로 분류될 때, 및 입력 우측(R) 및 좌측(L) 채널들의 에너지가 중앙에 가까이 있어서, 우측(R) 및 좌측(L) 채널들의 에너지가 서로 근접함을 의미할 때에만, 참조 [1]의 5.2.3.1 절에 설명된 ACELP 탐색이 이용된다. 4 서브프레임 모델 제너릭 전용 인코딩 모듈(854)에 있어서의 ACELP 탐색 동안 발견된 코딩 파라메타들은, 2차 채널 비트스트림(206/306)을 구축하고 다중화된 비트스트림(207/307)에 포함시키기 위해 다중화기(254/354)에 전송하는데 이용된다.
이와 달리, 2 서브프레임 모델 인코딩 동작(805) 및 그에 대응하는 2 서브프레임 모델 인코딩 모듈(855)에서는, 1차 채널(Y)로부터의 LP 필터 계수들이 재사용될 수 없을 경우에, 제너릭 콘텐츠로 2차 채널(X)을 인코딩하는데 하프-밴드 모델(half-band model)이 이용된다. 불활성 및 무성음 콘텐츠의 경우, 단지 스펙트럼 형상만이 코딩된다.
인코딩 모듈(855)에 있어서, 불활성 콘텐츠 인코딩은 참조 [1]의 (a) 5.2.3.5.7절 및 5.2.3.5.11절과 (b) 5.2.1.1절에 각각 설명된 바와 같이, 필요에 따라, (a) 주파수 영역 스펙트럼 대역 이득 코딩 잡음 충진(frequency domain spectral band gain coding plus noise filling)과 (b) 2차 채널 LP 필터 계수의 코딩을 구비한다. 불활성 콘텐츠는 1.5kb/s만큼 낮은 비트-레이트로 인코딩될 수 있다.
인코딩 모듈(855)에 있어서, 2차 채널(X) 무성음 인코딩은, 무성음 인코딩이 무성음 2차 채널에 대해 인코딩되는 2차 채널 LP 필터 계수의 양자화를 위해 추가적인 개수의 비트들을 이용한다는 점을 제외하고는, 2차 채널(X) 불활성 인코딩과 유사하다.
하프-밴드 제너릭 코딩 모델은 참조 [1]의 5.2.3.1에 설명된 ACELP와 유사하게 구성되지만, 그것은 프레임당 단지 2개의 서브프레임들에서 이용된다. 따라서, 그렇게 하기 위하여, 참조 [1]의 5.2.3.1.1 절에서 설명한 바와 같은 잔차, 참조 [1]의 5.2.3.1.4절에서 설명한 바와 같은 적응적 코드북의 메모리 및 입력 2차 메모리가 인자 2에 의해 먼저 다운 샘플링된다. LP 필터 계수는 참조 [1]의 5.4.4.2절에서 설명된 기술을 이용하는, 12.8kHz 샘플링 주파수 대신에 다운 샘플링된 영역을 나타내도록 수정된다.
ACELP 탐색 후, 여기(excitation)의 주파수 영역에서 대역폭 확장(bandwidth extension)이 실행된다. 대역폭 확장은, 우선, 보다 낮은 스펙트럼 대역 에너지를 보다 높은 대역내로 복제한다. 스펙트럼 대역 에너지를 복제하기 위하여, 첫번째 9개의 스펙트럼 대역의 에너지 는 참조 [1]의 5.2.3.5.7 절에 설명된 바와 같이 발견되며, 최종 대역들은 수학식 (18)에 나타난 대로 충진된다.
(18)
그 다음, 참조 [1]의 5.2.3.5.9 절에 설명된 바와 같이 주파수 영역 에 나타난 여기 벡터의 고주파 콘텐츠는 수학식(19)를 이용하여 보다 낮은 대역 주파수 콘텐츠를 이용함에 의해 채워진다.
(19)
여기에서, 피치 오프셋 는 참조 [1]의 5.2.3.1.4.1에서 설명된 바와 같이 피치 정보의 배수에 기반하며, 수학식 (20)에 나타난 바와 같이 주파수 빈(frequency bins)의 오프셋으로 전환된다.
(20)
여기에서, 는 서브프레임당 디코딩된 피치 정보의 평균을 나타내고, 는 내부 샘플링 주파수, 본 예시적인 실시 예에서는 12.8kHz를 나타내고, 은 주파수 분해능을 나타낸다.
2 서브 프레임 모델 인코딩 모듈(855)에서 실행되는 낮은 비트-레이트 불활성 인코딩, 낮은 비트 레이트 무성음 인코딩 또는 하프-밴드 제너릭 인코딩 동안에 코딩 파라메타들은 다중화된 비트스트림(207/307)에 포함시키기 위해 다중화기(254/354)로 전송되는 2차 채널 비트스트림(206/306)을 구축하는데 이용된다.
c. 2차 채널 낮은 비트-레이트 인코딩의 대안적인 구현
2차 채널(X)의 인코딩은, 최선의 품질 달성 및 일정한 시그니처를 유지하면서 최소수의 비트들을 이용한다는 동일한 목적을 갖되, 다르게 달성될 수 있다. 2차 채널(X)의 인코딩은 부분적으로 LP 필터 계수 및 피치 정보의 잠재적인 재사용과 무관하게, 이용 가능한 비트 예산에 의해 부분적으로 구동될 수 있다. 또한, 2 서브 프레임 모델 인코딩(동작 805)은 하프-밴드 또는 풀-밴드(full band)일 수 있다. 2차 채널 낮은 비트 레이트 인코딩의 이러한 대안적인 구현에 있어서, 1차 채널의 LP 필터 계수 및/또는 피치 정보는 재사용될 수 있으며, 2 서브프레임 모델 인코딩은 2차 채널(X)을 인코딩하는데 이용될 수 있는 비트 예산에 기초하여 선택될 수 있다. 또한, 아래의 2 서브프레임 모델 인코딩은 입력/출력 파라메타들을 다운-샘플링/업-샘플링(down-sampling/up-sampling)하는 대신에 서브프레임 길이를 2배로 함에 의해 생성되었다.
도 15는 대안적인 스테레오 사운드 인코딩 방법 및 대안적인 스테레오 사운드 인코딩 시스템을 함께 도시한 블럭도이다. 도 15의 스테레오 사운드 인코딩 방법 및 시스템은, 동일 참조 번호를 이용하여 식별되는, 도 8의 방법 및 시스템의 동작들 및 모듈들 중 여러개를 포함하며, 그의 설명은 간략화를 위해 여기에서는 반복하지 않겠다. 또한, 도 15의 스테레오 사운드 인코딩 방법은, 동작(202/303)에서의 인코딩 전에 1차 채널(Y)에 적용되는 전처리 동작(1501), 피치 코히어런스 분석 동작(1502), 무성음/불활성 결정 동작(1504), 무성음/불활성 코딩 결정 동작(1505) 및 2/4 서브프레임 모델 결정 동작(1506)을 구비한다.
서브-동작들(1501, 1502, 1503, 1504, 1505 및 1506)은, 낮은 복잡도 전처리기(851)와 유사한 전처리기(1551), 피치 코히어런스 분석기(1552), 비트 할당 추정기(1553), 무성음/불활성 결정 모듈(1554), 무성음/불활성 인코딩 결정 모듈(1555) 및 2/4 서브프레임 모델 결정 모듈(1556)에 의해 각각 실행된다.
피치 코히어런스 분석 동작(1502)을 실행하기 위하여, 피치 코히어런스 분석기(1552)는, 각각 전처리기(851 및 1551)에 의해 1차 채널(Y) 및 2차 채널(X)의 개방 루프 피치들 을 공급받는다. 도 15의 피치 코히어런스 분석기(1552)는 도 16에 보다 세밀하게 도시되는데, 도 16은 피치 코히어런스 분석 동작(1502)과 피치 코히어런스 분석기(1552)의 모듈들을 함께 도시한 블럭도이다.
피치 코히어런스 분석 동작(1502)은 1차 채널(Y)과 2차 채널(X)간의 개방 루프 피치들의 유사성의 평가를 실행하여, 2차 채널(X)을 코딩하는데 있어서 1차 개방 루프 피치가 재사용될 수 있는 환경이 무엇인지를 결정한다. 이를 위해, 피치 코히어런스 분석 동작(1502)은 1차 채널 개방 루프 피치 합산기(1651)에 의해 실행되는 1차 채널 개방 루프 피치 합산 서브-동작(1601)과, 2차 채널 개방 루프 피치 합산기(1652)에 의해 실행되는 2차 채널 개방 루프 피치 합산 서브-동작(1602)을 구비한다. 공제기(1653)를 이용하여, 합산기(1652)로부터의 합산은 합산기(1651)로부터의 합산으로부터 공제된다(서브-동작(1603)). 서브-동작(1603)으로부터의 공제 결과는 스테레오 피치 코히어런스를 제공한다. 비 제한적 예시로서, 서브-동작(1601 및 1602)에서의 합산은 각각의 채널 Y 및 X에 대해 이용할 수 있는, 3개의 이전의 연속하는 개방 루프 피치들에 기반한다. 개방 루프 피치들은, 예를 들어, 참조 [1]의 5.1.10절에서 정의된 대로 계산될 수 있다. 스테레오 피치 코히어런스 는 수학식 (21)을 이용하여 서브-동작들(1601, 1602 및 1603)에서 계산된다.
(21)
여기에서, 는 1차 채널(Y)과 2차 채널(X)의 개방 루프 피치를 나타내고, i는 개방 루프 피치의 위치를 나타낸다.
스테레오 피치 코히어런스가 사전 결정된 임계치 △ 미만이면, 2차 채널(X)를 인코딩하기 위해 이용 가능한 비트 예산에 의거하여 1차 채널(Y)로부터의 피치 정보의 재사용이 허용될 수 있다. 또한, 이용 가능한 비트 예산에 의거하여, 1차 채널(Y)과 2차 채널(X)에 대한 유성음 특성들을 가진 신호들에 대해 피치 정보의 재사용을 제한할 수 있다.
이를 위해, 피치 코히어런스 분석 동작(1502)은 (예를 들어, 1차 및 2차 채널 코딩 모드에 의해 표시된) 사운드 신호의 특성들 및 이용 가능한 비트 예산을 고려하는 결정 모듈(1654)에 의해 실행되는 결정 서브-동작(1604)를 구비한다. 이용 가능 비트 예산이 충분함을 또는 1차(Y) 및 2차(X) 채널에 대한 사운드 신호들이 유성음 특성들을 가지고 있지 않음을 결정 모듈(1654)이 검출하면, 2차 채널(X)과 관련된 피치 정보를 인코딩하도록 결정된다(1605).
결정 모듈(1654)이, 2차 채널(X)의 피치 정보를 인코딩할 목적으로 이용 가능한 비트 예산이 낮음을 검출하거나, 또는 1차 채널(Y)과 2차 채널(X)에 대한 사운드 신호가 유성음 특성들을 가지고 있음을 검출하면, 결정 모듈은 스테레오 피치 코히어런스 를 임계치 △와 비교한다. 비트 예산이 낮으면, 임계치 △는, 비트 예산이 보다 중요한 경우(2차 채널(X)의 피치 정보를 인코딩하기에 충분한 경우)에 비해 보다 큰 값으로 설정된다. 스테레오 피치 코히어런스 의 절대값이 임계치 △ 이하인 경우, 모듈(1654)은 2차 채널(X)을 인코딩하기 위해 1차 채널(Y)로부터의 피치 정보를 재사용하도록 결정한다(1607). 스테레오 피치 코히어런스 의 값이 임계치 △보다 크면, 모듈(1654)은 2차 채널(X)의 피치 정보를 인코딩하도록 결정한다(1605).
채널들이 유성음 특성을 갖는 것을 보장하면 스무드한 피치 전개의 우도(likelihood)가 증가되어, 1차 채널의 피치를 재사용함에 의한 추가적인 아티팩트의 위험이 줄어든다. 비-제한적 예시로서, 스테레오 비트 예산이 14kb/s 미만이고 스테레오 피치 코히어런스 가 6(△ = 6) 이하이면, 2차 채널(X)을 인코딩하는데 1차 피치 정보가 재사용될 수 있다. 또 다른 비 제한적 예시에 따르면, 스테레오 비트 예산이 14kb/s 초과이고, 26kb/s 미만이면 1차 채널(Y)과 2차 채널(X)은 유성음으로서 고려되고, 스테레오 피치 코히어런스 는, 22kb/s의 비트-레이트의 1차 채널(Y)의 피치 정보의 보다 작은 재사용율을 이끄는 보다 낮은 임계값 △ = 3과 비교된다.
도 15를 참조하면, 비트 할당 추정기(1553)는 채널 믹서(251/351)로부터 인자 β를 공급받으며, LP 필터 코히어런스 분석기(856)로부터의 2차 채널 LP 필터를 이용 및 인코딩하거나 1차 채널 LP 필터 계수를 재사용하도록 하는 결정이 이루어지며, 피치 정보는 피치 코히어런스 분석기(1552)에 의해 결정된다. 1차 및 2차 채널 인코딩 요건들에 의거하여, 비트 할당 추정기(1553)는 1차 채널(Y)을 인코딩하기 위한 비트 예산을 1차 채널 인코더(252/352)에 제공하고, 2차 채널(X)을 인코딩하기 위한 비트 예산을 결정 모듈(1556)에 제공한다. 한가지 가능한 구현에 있어서, 불활성(INACTIVE)이 아닌 모든 콘텐츠에 대해, 전체 비트-레이트보다 낮은 비트 레이트(a fraction of the total bit-rate)가 2차 채널에 할당된다. 그 다음, 2차 채널 비트 레이트는 아래와 같이 이전에 설명된 에너지 정규화(재 스케일링) 인자 ε와 관련된 량만큼 증가될 것이다.
(21a)
여기에서, 는 2차 채널(X)에 할당된 비트-레이트를 나타내고, 는 이용 가능한 전체 스테레오 비트-레이트를 나타내며, 은 2차 채널에 할당되고 통상적으로 전체 스테레오 비트레이트의 대략 20%인 최소 비트-레이트를 나타낸다. 마지막으로, ε는 상술한 에너지 정규화 인자를 나타낸다. 따라서, 1차 채널에 할당된 비트-레이트는 전체 스테레오 비트-레이트와 2차 채널 스테레오 비트-레이트간의 차이에 대응한다. 대안적인 구현에 있어서, 2차 채널 비트-레이트 할당은 아래와 같이 나타낼 수 있다.
(21b)
다시, 는 2차 채널(X)에 할당된 비트-레이트를 나타내고, 는 이용 가능한 전체 스테레오 비트-레이트를 나타내며, 은 2차 채널에 할당된 최소 비트-레이트를 나타낸다. 마지막으로, 는 에너지 정규화 인자의 전송된 인덱스를 나타낸다. 따라서, 1차 채널에 할당된 비트-레이트는 전체 스테레오 비트-레이트와 2차 채널 스테레오 비트-레이트간의 차이에 대응한다. 모든 경우에, INACTIVE 콘텐츠에 대해, 2차 채널 비트-레이트는, 통상적으로 2kb/s에 가까운 비트레이트를 제공하는 2차 채널의 스펙트럼 형상을 인코딩하는데 필요한 최소 비트-레이트로 설정된다.
한편, 신호 분류기(852)는 결정 모듈(1554)에 2차 채널(X)의 신호 분류를 제공한다. 사운드 신호가 불활성이거나 무성음인 것으로 결정 모듈(1554)이 판정하면, 무성음/불활성 인코딩 모듈(1555)은 2차 채널(X)의 스펙트럼 형상을 다중화기(254/354)에 제공한다. 대안적으로, 결정 모듈(1554)은 사운드 신호가 불활성도 아니고 무성음도 아닌 때를 결정 모듈(1556)에게 알린다. 그러한 사운드 신호의 경우, 2차 채널(X)을 인코딩하기 위한 비트 예산을 이용함으로써, 결정 모듈(1556)은 4 서브프레임 모델 제너릭 전용 인코딩 모듈(854)를 이용하여 2차 채널(X)을 인코딩하는데 충분한 개수의 이용 가능한 비트들이 존재하는지를 판정하고, 그렇지 않을 경우, 결정 모듈(1556)은 2 서브프레임 모델 인코딩 모듈(855)을 이용하여 2차 채널(X)을 인코딩하도록 선택한다. 4 서브프레임 모델 제너릭 전용 인코딩 모듈을 선택하기 위하여, 2차 채널에 대해 이용할 수 있는 비트 예산은 대수 코드북(algebraic codebook)에 적어도 40비트를 할당할 정도로 충분히 높아야 하는데, 이것은 LP 계수 및 피치 정보와 이득을 포함하는 나머지 모두가 양자화되거나 재사용된 경우에 그러하다.
상기로부터 알겠지만, 4 서브프레임 모델 제너릭 전용 인코딩 동작(804) 및 그에 대응하는 4 서브프레임 모델 제너릭 전용 인코딩 모듈(864)에 있어서, 비트-레이트를 가능한 낮게 유지하기 위하여, 참조 [1]의 5.2.3.1절에 설명된 ACELP가 이용된다. 4 서브프레임 모델 제너릭 전용 인코딩에 있어서, 피치 정보는 1차 채널로부터 재사용될 수 있거나 그렇지 않을 수 있다. 4 서브프레임 모델 제너릭 전용 인코딩 모듈(854)에서의 ACELP 탐색 동안 발견된 코딩 파라메타들은 2차 채널 비트스트림(206/306)을 구축하는데 이용되고, 다중화된 비트스트림(207/307)에 포함시키기 위해 다중화기(254/354)에 전송된다.
대안적인 2 서브프레임 모델 인코딩 동작(805) 및 그에 대응하는 대안적인 2 서브프레임 모델 인코딩 모듈(855)에 있어서, 제너릭 코딩 모델은 참조 [1]의 5.2.3.1 절에 설명된 ACELP과 유사하게 구축되지만, 그것은 프레임당 단지 2개의 서브프레임들에서 이용된다. 따라서, 그렇게 하기 위하여, 서브프레임의 길이는 64 샘플에서 128 샘플로 증가되지만, 여전히 내부 샘플링 레이트를 12.8kHz로 유지시킨다. 피치 코히러어런스 분석기(1552)가 2차 채널(X)을 인코딩하기 위해 1차 채널(Y)로부터의 피치 정보를 재사용하도록 결정했으면, 1차 채널(Y)의 첫번째 2개의 서브프레임들의 피치들의 평균이 계산되어, 2차 채널(X)의 첫번째 하프 프레임(first half frame)에 대한 피치 추정으로서 이용된다. 유사하게, 1차 채널(Y)의 최종 2개의 서브프레임의 피치들의 평균이 계산되어 2차 채널(X)의 두번째 하프 프레임에 대해 이용된다. 1차 채널(Y)로부터 재사용될 경우, LP 필터 계수는 보간되고, 참조 [1]의 5.2.2.1에서 설명된 LP 필터 계수의 보간은 제 1 및 제 3 보간 인자를 제 2 및 제 4 보간 인자로 대체함에 의해 2 서브프레임 스킴에 맞게 수정된다.
도 15의 실시 예에 있어서, 4 서브프레임 인코딩 스킴과 2 서브프레임 인코딩 스킴 중에서 결정하기 위한 프로세스는 2차 채널(X)을 인코딩하는데 이용할 수 있는 비트 예산에 의해 구동된다. 상술한 바와 같이, 2차 채널(X)의 비트 예산은 이용 가능한 전체 비트 예산, 인자 β 또는 에너지 정규화 인자 ε, TDC(Temporal Delay Correction) 모듈의 존재 여부, LP 필터 계수의 재사용 가능성 여부 및/또는 1차 채널(Y)로부터의 피치 정보와 같은 서로 다른 요소들로부터 도출된다.
LP 필터 계수 및 피치 정보가 1차 채널(Y)로부터 재사용될 때 2차 채널(X)의 2 서브프레임 인코딩 모델에 의해 사용되는 절대 최소 비트 레이트(absolute minimum bit rate)는 제너릭 신호의 경우에는 약 2kb/s이지만 4 서브프레임 인코딩 스킴의 경우에는 3.6kb/s이다. ACELP형 코더의 경우, 2 또는 4 서브프레임 인코딩 모델을 이용하면, 품질의 상당 부분은 참조 [1]의 5.2.3.1.5절에 정의된 ACB(Algebraic Codebook) 탐색에 할당될 수 있는 비트 수로부터 비롯하게 된다.
그 다음, 품질을 최대화하기 위한 발상은 4 서브프레임 ACB 탐색과 2 서브프레임 ACB 탐색을 위해 이용할 수 있는 비트 예산을 비교하는 것이며, 그 후 코딩될 모든 것들이 고려된다. 예를 들어, 특정 프레임에 대해, 2차 채널(X)을 코딩하는데 4kb/s(20ms 프레임당 80비트)가 이용 가능하고, LP 필터 계수가 재사용될 수 있는 반면 피치 정보가 전송될 필요가 있다. 그 다음 대수 코드북을 인코딩하는데 이용할 수 있는 비트 예산을 얻기 위해, 2 서브프레임 및 4 서브 프레임에 대해 대수 코드북, 이득들, 2차 채널 피치 정보 및 2차 채널 시그널링(secondary channel signaling)을 인코딩하기 위한 최소량의 비트들이 80 비트들로부터 제거된다. 예를 들어, 4 서브프레임 대수 코드북을 인코딩하는데 적어도 40비트들이 이용 가능하면 4 서브프레임 인코딩 모델이 선택되지만, 그렇지 않으면, 2 서브프레임 스킴이 이용된다.
3) 부분 비트스트림으로부터 모노 신호로의 근사화(approximating the mono signal from the partial bitstream)
상술한 바와 같이, 시간 영역 다운-믹싱은 모노 친화적인데, 이것은, 1차 채널(Y)이 레거시 코덱으로 인코딩되고(상술한 바와 같이, 임의 적당한 유형의 인코더가 1차 채널 인코더(252/352)로서 이용될 수 있음을 알아야 함) 스테레오 비트들이 1차 채널 비트스트림에 첨부되는 내장형 구조의 경우에, 스테레오 비트들이 떨어져 나갈 수 있고 레거시 디코더가 주관적으로 가상 모노 합성(hypothetical mono synthesis)에 가까운 합성을 생성할 수 있음을 의미한다. 그렇게 하기 위하여, 1차 채널(Y)을 인코딩하기 전에, 인코더 측상에서 간단한 에너지 정규화가 요구된다. 사운드의 모노포닉 신호 버전의 에너지에 충분히 가까운 값으로 1차 채널(Y)의 에너지를 재 스케일링함에 의해 레거시 디코더에 의한 1차 채널(Y)의 디코딩은 사운드의 모노포닉 신호 버전의 레거시 디코더에 의한 디코딩과 유사할 수 있다. 에너지 정규화의 기능은 수학식 (7)을 이용하여 계산된 선형화된 장기 상관 차이 에 직접 링크되며, 수학식 (22)를 이용하여 계산된다.
(22)
정규화 레벨은 도 5에 도시된다. 실제에 있어서, 수학식 (22)를 이용하는 대신에, 인자 β의 각각의 가능한 값(본 예시적인 실시 예에서는 31개의 값들)에 정규화 값들 ε을 연관시키는 룩-업 테이블이 이용된다. 예를 들어, 스피치 및/또는 오디오와 같은 스테레오 사운드 신호를 인코딩할 때는 이러한 가외적인 단계가 요구되지는 않더라도, 통합 모델의 경우, 스테레오 비트들의 디코딩없이 단지 모노 신호만을 디코딩할 때에는 이것이 도움이 될 수 있다.
4) 스테레오 디코딩 및 업-믹싱(up-mixing)
도 10은 스테레오 사운드 디코딩 방법 및 스테레오 사운드 디코딩 시스템을 함께 도시한 블럭도이다. 도 11은 도 10의 스테레오 사운드 디코딩 방법 및 시스템의 추가적인 특징들을 도시한 블럭도이다.
도 10 및 도 11의 스테레오 사운드 디코딩 방법은 역다중화기(1057)에 의해 구현되는 역다중화 동작(1007), 1차 채널 디코더(1054)에 의해 구현되는 1차 채널 디코딩 동작(1004), 2차 채널 디코더(1055)에 의해 구현되는 2차 채널 디코딩 동작(1005) 및 시간 영역 채널 업-믹서(1056)에 의해 구현되는 시간 영역 업-믹싱 동작(1006)을 구비한다. 2차 채널 디코딩 동작(1005)은, 도 11에 도시된 바와 같이, 결정 모듈(1151)에 의해 구현되는 결정 동작(1101), 4 서브프레임 제너릭 디코더(1152)에 의해 구현되는 4 서브프레임 제너릭 디코딩 동작(1102) 및 2 서브프레임 제너릭/무성음/불활성 디코더(1153)에 의해 구현되는 2 서브프레임 제너릭/무성음/불활성 디코딩 동작(1103)을 구비한다.
스테레오 사운드 디코딩 시스템에서, 인코더로부터 비트스트림(1001)이 수신된다. 역다중화기(1057)는 비트스트림(1001)을 수신하고, 거기로부터 1차 채널(Y)의 인코딩 파라메타들(비트스트림(1002)), 2차 채널(X)의 인코딩 파라메타들(비트스트림(1003)) 및 1차 채널 디코더(1054)와 2차 채널 디코더(1055) 및 채널 업-믹서(1056)에 공급되는 인자 β를 추출한다. 상술한 바와 같이, 인자 β는 비트-레이트 할당을 결정하기 위해 1차 채널 인코더(252/352) 및 2차 채널 인코더(253/353)의 표시자로서 이용되고, 그에 따라 1차 채널 디코더(1054)와 2차 채널 디코더(1055) 모두는 비트스트림을 적절하게 디코딩하기 위해 인자 β를 재사용한다.
1차 채널 인코딩 파라메타들은 수신된 비트-레이트에서의 ACELP 코딩 모델에 대응하며, 레거시 또는 수정된 EVS 코더와 연관될 수 있다(상술한 바와 같이, 임의 적당한 유형의 인코더가 1차 채널 인코더(252)로서 이용될 수 있음을 알아야 한다). 1차 채널 디코더(1054)는 비트스트림(1002)을 공급받아, 참조 [1]과 유사한 방법을 이용하여 1차 채널 인코딩 파라메타(도 11에 도시된 바와 같이, 코덱 모드1, β, LPC, 피치1, 고정된 코드북 인덱스들1 및 이득들1)를 디코딩함으로써 디코딩된 1차 채널 을 생성한다.
2차 채널 디코더(1055)에 의해 이용되는 2차 채널 인코딩 파라메타들은 2차 채널(X)을 인코딩하는데 이용되는 모델에 대응하며 아래와 같은 것들을 구비한다.
(a) 1차 채널(Y)로부터의 LP 필터 계수들() 및/또는 다른 인코딩 파라메타들(예를 들어, 피치 레그(피치1))을 재사용하는 제너릭 코딩 모델. 2차 채널 디코더(1055)의 4 서브프레임 제너릭 디코더(1152)(도 11)는 디코더(1054)로부터 1차 채널(Y)로부터의 LP 필터 계수들() 및/또는 다른 인코딩 파라메타들(예를 들어, 피치 레그(피치1))과, 비트스트림(1003)(도 11에 도시된 바와 같이, β, 피치2, 고정된 코드북 인덱스들2 및 이득들2)을 공급받으며, 인코딩 모듈(854)(도 8)과 반대되는 방법을 이용하여 디코딩된 2차 채널 을 생성한다.
(b) 하프-밴드 제너릭 코딩 모델, 낮은 레이트 무성음 코딩 모델 및 낮은 레이트 불활성 코딩 모델을 포함하는 다른 코딩 모델들은 1차 채널(Y)로부터의 LP 필터 계수들() 및/또는 다른 인코딩 파라메타들(예를 들어, 피치 레그(피치1))을 재사용하거나 재사용하지 않을 수 있다. 예를 들어, 불활성 코딩 모델은 1차 채널 LP 필터 계수들 을 재사용할 수 있다. 2차 채널 디코더(1055)의 2 서브프레임 제너릭/무성음/불활성 디코더(1153)(도 11)는 1차 채널(Y)로부터 LP 필터 계수들() 및/또는 다른 인코딩 파라메타들(예를 들어, 피치 레그(피치1))을 공급받고/받거나, 비트스트림(1003)(도 11에 도시된 바와 같이, 코덱 모드2, β, 피치2, 고정된 코드북 인덱스들2 및 이득들2)으로부터 2차 채널 인코딩 파라메타들을 공급받으며, 인코딩 모듈(855)(도 8)과는 반대의 방법을 이용하여 디코딩된 2차 채널 을 생성한다.
2차 채널(X)에 대응하는 수신된 인코딩 파라메타들(비트스트림(1003))은 이용되는 코딩 모델과 연관된 정보(코덱 모드2)를 포함한다. 결정 모듈(1151)은 이 정보(코덱 모드2)를 이용하여 4 서브프레임 제너릭 디코더(1152)와 2 서브프레임 제너릭/무성음/불활성 디코더(1153) 중 어느 코딩 모델이 이용될 것인지를 결정하여, 4 서브프레임 제너릭 디코더(1152)와 2 서브프레임 제너릭/무성음/불활성 디코더(1153)에 알려준다.
내장형 구조의 경우, 디코더 측상의 룩-업 테이블(도시되지 않음)에 저장되고 시간 영역 업-믹싱 동작(1006)의 실행전에 1차 채널 을 재스케일링하는데 이용되는 에너지 스케일링 인덱스를 검색하기 위해 인자 β가 이용된다. 마지막으로, 인자 β는 채널 업-믹서(1056)에 전송되어 디코딩된 1차 채널 과 2차 채널 을 업-믹싱하는데 이용된다. 시간 영역 업-믹싱 동작(1006)은 다운-믹싱 동작(9) 및 (10)의 역으로 실행되고, 수학식 (23) 및 (24)를 이용하여, 디코딩된 우측 채널 및 좌측 채널 을 획득한다.
(23)
(24)
여기에서, n = 0,...,N-1은 프레임에 있어서의 샘플의 인덱스이고, t는 프레임 인덱스이다.
5) 시간 영역 및 주파수 영역 인코딩의 통합
주파수 영역 코딩 모드가 이용되는 본 기술의 애플리케이션의 경우, 얼마간의 복잡성을 줄이거나 데이터 흐름을 단순화하기 위하여 주파수 영역에서 시간 다운-믹싱을 실행하는 것이 고려된다. 그 경우, 동일한 믹싱 인자가 모든 스펙트럼 계수에 적용되어 시간 영역 다운 믹싱의 장점을 유지시킨다. 대부분의 주파수 영역 다운-믹싱 애플리케이션의 경우에서 처럼, 이것은 주파수 대역마다 스펙트럼 계수를 적용하는 것에서 벗어난 것임을 알 수 있을 것이다. 다운 믹서(456)는 수학식 (25.1) 및 (25.2)를 계산한다.
(25.1)
(25.2)
여기에서, 는 우측 채널(R)의 주파수 계수 k를 나타내고, 유사하게, 는 좌측 채널(L)의 주파수 계수 k를 나타낸다. 1차(Y) 및 2차(X) 채널들은 다운 믹싱된 신호들의 시간 표현을 획득하기 위해 역 주파수 변환을 적용함으로써 계산된다.
도 17 및 도 18에는 1차(Y) 및 2차(X) 채널의 시간 영역 및 주파수 영역 코딩간에 절환될 수 있는 주파수 영역 다운 믹싱을 이용한 시간 영역 스테레오 인코딩 방법과 시스템의 가능한 구현이 도시된다.
그러한 방법 및 시스템의 첫번째 변형이 도 17에 도시되는데, 도 17은 시간 영역 및 주파수 영역에서 동작하는 기능을 가진 시간-영역 다운 절환을 이용하는 스테레오 인코딩 방법 및 시스템을 함께 도시한 블럭도이다.
도 17에 있어서, 스테레오 인코딩 방법 및 시스템은, 동일 참조 번호에 의해 식별되고 이전 도면을 참조하여 설명된, 많은 이전의 동작들 및 모듈들을 포함한다. 결정 모듈(1751)(결정 동작(1701))은, 시간 지연 상관기(1750)로부터의 좌측 및 우측 채널이 시간 영역에서 인코딩되어야 하는지 주파수 영역에서 인코딩되어야 하는지를 판정한다. 시간 영역 코딩이 선택되면, 도 17의 스테레오 인코딩 방법 및 시스템은, 도 15의 실시 예에서 처럼 제한없이, 예를들어, 이전 도면의 스테레오 인코딩 방법 및 시스템과 실질적으로 동일한 방식으로 작동한다.
결정 모듈(1751)이 주파수 코딩을 선택하면, 시간-주파수 변환기(1752)(시간-주파수 변환 동작(1702))는 좌측 및 우측 채널을 주파수 영역으로 변환한다. 주파수 영역 다운 믹서(1753)(주파수 영역 다운 믹싱 동작(1703))는 1차(Y) 및 2차(X) 주파수 영역 채널들을 출력한다. 주파수 영역 1차 채널은 주파수-시간 변환기(1754)(주파수-시간 변환 동작(1704))에 의해 시간 영역으로 되변환되며, 그 결과하는 시간 영역 1차 채널(Y)은 1차 채널 인코더(252/352)에 적용된다. 주파수 영역 다운 믹서(1753)로부터의 주파수 영역 2차 채널(X)은 통상적인 파라메트릭 및/또는 잔차 인코더(1755)(파라메트릭 및/또는 잔차 인코딩 동작(1705))를 통해 프로세싱된다.
도 18은 시간 영역 및 주파수 영역에서 동작하는 기능을 가진 주파수-영역 다운 믹싱을 이용하는 다른 스테레오 인코딩 방법 및 시스템을 함께 도시한 블럭도이다. 도 18에 있어서, 스테레오 인코딩 방법 및 시스템은 도 17의 스테레오 인코딩 방법 및 시스템과 유사하고, 단지 새로운 동작 및 모듈들이 설명될 것이다.
시간 영역 분석기(1851)(시간 영역 분석 동작(1801))는 상술한 시간 영역 채널 믹서(251/351)(시간 영역 다운 믹싱 동작(201/301))를 대신한다. 시간 영역 분석기(1851)는 시간 영역 다운 믹서(456)을 제외하고, 도 4의 모듈들의 대부분을 포함한다. 그의 역할은 상당 부분이 인자 β의 계산을 제공하는 것이다. 이러한 인자β는 전처리기(851)와, 시간 영역 인코딩을 위한 주파수 영역 다운 믹서(1753)로부터 수신된 주파수 영역 2차(X) 및 1차(Y) 채널을 시간 영역으로 각각 변환하는 주파수-시간 영역 변환기(1852 및 1853)(주파수-시간 영역 변환 동작(1802 및 1803))에 공급된다. 따라서, 변환기(1852)의 출력은 시간 영역 2차 채널(X)로서, 이것은 전처리기(851)로 제공되며, 변환기(1852)의 출력은 시간 영역 1차 채널(Y)로서, 이것은 전처리기(1551)와 인코더(252/352)로 제공된다.
6) 예시적인 하드웨어 구성
도 12는 상술한 스테레오 사운드 인코딩 시스템과 스테레오 사운드 디코딩 시스템의 각각을 형성하는 하드웨어 부품들의 예시적인 구성의 간단한 블럭도이다.
스테레오 사운드 인코딩 시스템 및 스테레오 사운드 디코딩 시스템들의 각각은 이동 단말의 일부, 휴대형 매체 재생기의 일부로서 구현되거나, 또는 임의 유사한 디바이스에 구현될 수 있다. (도 12에서 1200으로 식별되는) 스테레오 사운드 인코딩 시스템과 스테레오 사운드 디코딩 시스템의 각각은 입력(1202), 출력(1204), 프로세서(1206) 및 메모리(1208)를 구비한다.
입력(1202)은 스테레오 사운드 인코딩 시스템의 경우에는 디지털 또는 아날로그 형태의 입력 스테레오 사운드 신호의 좌측(L) 및 우측(R) 채널을 수신하고, 스테레오 사운드 디코딩 시스템의 경우에는 비트스트림(1001)을 수신하도록 구성된다. 출력(1204)은 스테레오 사운드 인코딩 시스템의 경우에는 다중화된 비트스트림(207/307)을 공급하거나 스테레오 사운드 디코딩 시스템의 경우에는 디코딩된 좌측 채널 및 우측 채널 을 공급하도록 구성된다. 입력(1202)과 출력(1204)은 공통 모듈, 예를 들어, 직렬 입력/출력 디바이스로 구현될 수 있다.
프로세서(1206)는 입력(1202)과, 출력(1204) 및 메모리(1208)에 동작 가능하게 접속된다. 프로세서(1206)는 도 2,3,4,8,9,13,14,15,16,17 및 18에 도시된 스테레오 사운드 인코딩 시스템과 도 10 및 11에 도시된 스테레오 사운드 디코딩 시스템의 각각의 다양한 모듈의 기능들을 지원하여 코드 명령을 실행하는 하나 이상의 프로세서들로서 실현된다.
메모리(1208)는, 프로세서(1206)에 의해 실행될 수 있는 코드 명령어들을 저장하는 비일시적 메모리, 특히, 실행시에 프로세서가 본 개시에 설명된 스테레오 사운드 인코딩 방법 및 시스템과 스테레오 사운드 디코딩 방법 및 시스템의 동작들과 모듈들을 구현하게 하는 비일시적 명령들을 구비한 프로세서-판독 가능 메모리를 구비할 수 있다. 메모리(1208)는 프로세서(1206)에 의해 실행되는 여러 기능들로 부터 중간 프로세싱 데이터를 저장하기 위해 랜덤 액세스 메모리(random access memory) 또는 버퍼를 구비할 수 있다.
본 기술 분야의 숙련자라면, 스테레오 사운드 인코딩 방법 및 시스템과 스테레오 사운드 디코딩 방법 및 시스템의 설명이 단지 예시적인 것이고 임의 방식으로 제한하려고 하는 것은 아님을 알 것이다. 본 개시의 혜택을 가진 본 기술 분야의 숙련자에게는 다른 실시 예들이 쉽게 제안될 수 있을 것이다. 또한, 개시된 스테레오 사운드 인코딩 방법 및 시스템과 스테레오 사운드 디코딩 방법 및 시스템은 인코딩 및 디코딩 스테레오 사운드 문제 및 기존의 필요성에 대한 가치있는 해법을 제공하도록 맞춤화될 수 있다.
명확성을 위하여, 스테레오 사운드 인코딩 방법 및 시스템과 스테레오 사운드 디코딩 방법 및 시스템의 구현의 일상적인 특징들 모두가 도시되고 설명된 것은 아니다. 물론, 스테레오 사운드 인코딩 방법 및 시스템과 스테레오 사운드 디코딩 방법 및 시스템의 그러한 실질적인 구현의 개발에 있어서, 예를 들어, 애플리케이션 관련 제약, 시스템 관련 제약, 네트워크 관련 제약 및 사업 관련 제약의 준수와 같은, 개발자의 특정 목표를 달성하기 위하여 수많은 구현 지정적 결정들이 이루어질 필요가 있고, 이들 특정 목표들은 구현마다 및 개발자마다 변경될 것임을 알 것이다. 또한, 개발 노력은 복잡하며 시간 소모적이지만, 그럼에도 본 개시의 혜택을 가진 사운드 프로세싱 분야의 숙련자에게는 일상적인 엔지니어링 작업에 불과함을 알 것이다.
본 개시에 따르면, 본 명세서에 설명된 모듈들, 프로세싱 동작들 및/또는 데이터 구조는 여러 유형의 동작 시스템들, 컴퓨팅 플랫폼, 네트워크 디바이스들, 컴퓨터 프로그램들 및/또는 범용 머신을 이용하여 구현될 수 있다. 또한, 본 기술 분야의 숙련자라면, 하드와이어형(hardwired) 디바이스들, FPGA(Field Programmable Gate Array)들, ASIC(Application Specific Integrated Circuit)들 등과 같은 보다 덜 범용적인 디바이스가 이용될 수도 있음을 알 것이다. 일련의 동작들 및 서브-동작들을 구비하는 방법은 프로세서, 컴퓨터 또는 머신에 의해 구현되며, 이들 동작 및 서브 동작들은 프로세서, 컴퓨터 또는 머신에 의해 독출 가능한 일련의 비 일시적 코드 명령어로서 저장될 수 있지만, 그들은 유형의 및/또는 비일시적 매체상에 저장될 수도 있다.
본 명세서에서 설명된 스테레오 사운드 인코딩 방법 및 시스템과 스테레오 사운드 디코딩 방법 및 시스템의 모듈들은, 소프트웨어, 펌웨어, 하드웨어 또는 본 명세서에서 설명한 목적에 적합한 소프트웨어, 펌웨어 또는 하드웨어의 임의 조합을 구비할 수 있다.
본 명세서에서 설명한 스테레오 사운드 인코딩 방법 및 스테레오 사운드 디코딩 방법에 있어서, 여러 동작들 및 서브-동작들이 다양한 순서로 실행될 수 있으며, 이들 동작들 및 서브-동작들의 일부는 선택적일 수 있다.
비록 본 개시가 비 제한적이고 예시적인 실시 예의 방식으로 상기에서 설명되었지만, 이들 실시 예들은 본 개시의 사상 및 본질을 벗어나지 않고서 첨부된 청구범위의 범위내에서 임의로 수정될 수 있을 것이다.
참조
이하의 참조는 본 명세서에서 참조되며, 그의 전체 콘텐츠는 본 명세서에 참조로서 수록된다.

Claims (16)

  1. 스테레오 사운드 신호의 좌측 및 우측 채널을 디코딩하는 스테레오 사운드 디코딩 방법으로서,
    1차 채널의 인코딩 파라메타 - 1차 채널의 인코딩 파라메타는 1차 채널의 LP 필터 계수를 구비함 - 와, 2차 채널의 인코딩 파라메타 및 인자 β를 구비한 인코딩 파라메타들을 수신하고;
    1차 채널 인코딩 파라메타에 응답하여 1차 채널을 디코딩하고;
    다수의 코딩 모델들 - 코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 1차 채널 LP 필터 계수들을 이용함 - 중 하나를 이용하여 2차 채널을 디코딩하고;
    인자 β를 이용하여 디코딩된 1차 채널과 2차 채널을 시간 영역 업-믹싱함으로써 스테레오 사운드 신호의 디코딩된 좌측 및 우측 채널을 생성하는 것을 구비하되,
    인자 β는 좌측 및 우측 채널의 생성시에 1차 채널과 2차 채널의 각각의 기여를 결정하는
    스테레오 사운드 디코딩 방법.
  2. 제 1 항에 있어서,
    코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 LP 필터 계수와는 다른 1차 채널 인코딩 파라메타들을 이용하는
    스테레오 사운드 디코딩 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    코딩 모델은 제너릭 코딩 모델, 무성음 코딩 모델 및 불활성 코딩 모델을 구비하는
    스테레오 사운드 디코딩 방법.
  4. 제 1 항 또는 제 2 항에 있어서,
    2차 채널 인코딩 파라메타들은 2차 채널을 디코딩할 때 이용될 코딩 모델들 중 하나를 식별하는 정보를 구비하는
    스테레오 사운드 디코딩 방법.
  5. 제 1 항 또는 제 2 항에 있어서,
    디코딩된 1차 채널 및 2차 채널의 시간 영역 업-믹싱을 수행하기 전에 디코딩된 1차 채널을 재 스케일링하기 위하여 인자 β를 이용하여 에너지 스케일링 인덱스를 검색하는 것을 구비하는
    스테레오 사운드 디코딩 방법.
  6. 제 1 항 또는 제 2 항에 있어서,
    디코딩된 1차 및 2차 채널의 시간 영역 업-믹싱은 디코딩된 좌측 및 우측 채널을 획득하기 위하여 아래의 수학식을 이용하고,


    인자 는 인자 β를 나타내고, 는 디코딩된 1차 채널을 나타내며, 는 디코딩된 2차 채널을 나타내고, n = 0,...,N-1은 프레임에 있어서의 샘플 인덱스이고, t는 프레임 인덱스인
    스테레오 사운드 디코딩 방법.
  7. 스테레오 사운드 신호의 좌측 및 우측 채널을 디코딩하는 스테레오 사운드 디코딩 시스템으로서,
    1차 채널의 인코딩 파라메타 - 1차 채널의 인코딩 파라메타는 1차 채널의 LP 필터 계수를 구비함 - 와, 2차 채널의 인코딩 파라메타 및 인자 β를 구비한 인코딩 파라메타들을 수신하는 수단;
    1차 채널 인코딩 파라메타에 응답하는 1차 채널의 디코더;
    다수의 코딩 모델들 - 코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 1차 채널 LP 필터 계수들을 이용함 - 중 하나를 이용하는 2차 채널의 디코더; 및
    스테레오 사운드 신호의 디코딩된 좌측 및 우측 채널을 생성하기 위한, 인자 β를 이용하는 디코딩된 1차 채널과 2차 채널의 시간 영역 업-믹서를 구비하되,
    인자 β는 좌측 및 우측 채널의 생성시에 1차 채널과 2차 채널의 각각의 기여를 결정하는 스테레오 사운드 디코딩 시스템.
  8. 제 7 항에 있어서,
    코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 LP 필터 계수와는 다른 1차 채널 인코딩 파라메타들을 이용하는
    스테레오 사운드 디코딩 시스템.
  9. 제 7 항 또는 제 8 항에 있어서,
    2차 채널 디코더는 제너릭 코딩 모델을 이용하는 제 1 디코더와, 제너릭 코딩 모델, 무성음 코딩 모델 및 불활성 코딩 모델 중 하나를 이용하는 제 2 디코더를 구비하는
    스테레오 사운드 디코딩 시스템.
  10. 제 7 항 또는 제 8 항에 있어서,
    2차 채널 인코딩 파라메타들은 2차 채널을 디코딩할 때 이용될 코딩 모델들 중 하나를 식별하는 정보를 구비하고,
    스테레오 사운드 신호 디코딩 시스템은 2차 채널을 디코딩할 때 이용될 코딩 모델을 제 1 디코더와 제 2 디코더에 나타내는 결정 모듈을 구비하는
    스테레오 사운드 디코딩 시스템.
  11. 제 7 항 또는 제 8 항에 있어서,
    디코딩된 1차 채널 및 2차 채널의 시간 영역 업-믹싱을 수행하기 전에 디코딩된 1차 채널을 재 스케일링하기 위하여 인자 β를 이용하여 에너지 스케일링 인덱스를 검색하는 룩-업 테이블(look-up table)을 구비하는
    스테레오 사운드 디코딩 시스템.
  12. 제 7 항 또는 제 8 항에 있어서,
    디코딩된 1차 및 2차 채널의 시간 영역 업-믹서는 디코딩된 좌측 및 우측 채널을 획득하기 위하여 아래의 수학식을 이용하고,



    인자 는 인자 β를 나타내고, 는 디코딩된 1차 채널을 나타내며, 는 디코딩된 2차 채널을 나타내고, n = 0,...,N-1은 프레임에 있어서의 샘플 인덱스이고, t는 프레임 인덱스인
    스테레오 사운드 디코딩 시스템.
  13. 제 7 항 또는 제 8 항에 있어서,
    인코딩 파라메타들을 수신하는 수단은 인코더로부터 비트스트림을 수신하고, 비트스트림으로부터, 1차 채널 인코딩 파라메타들, 2차 채널 인코딩 파라메타를, 인자 β를 추출하는 역다중화기를 구비하는
    스테레오 사운드 디코딩 시스템.
  14. 스테레오 사운드 신호의 좌측 및 우측 채널을 디코딩하는 스테레오 사운드 디코딩 시스템으로서,
    적어도 하나의 프로세서; 및
    프로세서에 결합되고, 비-일시적 명령어들을 구비한 메모리를 구비하되,
    비-일시적 명령어는, 실행 시에, 프로세서가,
    1차 채널의 인코딩 파라메타 - 1차 채널의 인코딩 파라메타는 1차 채널의 LP 필터 계수를 구비함 - 와, 2차 채널의 인코딩 파라메타 및 인자 β를 구비한 인코딩 파라메타들을 수신하는 수단;
    1차 채널 인코딩 파라메타에 응답하는 1차 채널의 디코더;
    다수의 코딩 모델들 - 코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 1차 채널 LP 필터 계수들을 이용함 - 중 하나를 이용하는 2차 채널의 디코더;
    스테레오 사운드 신호의 디코딩된 좌측 및 우측 채널을 생성하기 위한, 인자 β를 이용하는 디코딩된 1차 채널과 2차 채널의 시간 영역 업-믹서를 구현하게 하고,
    인자 β는 좌측 및 우측 채널의 생성시에 1차 채널과 2차 채널의 각각의 기여를 결정하는
    스테레오 사운드 디코딩 시스템.
  15. 스테레오 사운드 신호의 좌측 및 우측 채널을 디코딩하는 스테레오 사운드 디코딩 시스템으로서,
    적어도 하나의 프로세서; 및
    프로세서에 결합되고, 비-일시적 명령어들을 구비한 메모리를 구비하되,
    비-일시적 명령어는, 실행 시에, 프로세서가,
    1차 채널의 인코딩 파라메타 - 1차 채널의 인코딩 파라메타는 1차 채널의 LP 필터 계수를 구비함 - 와, 2차 채널의 인코딩 파라메타 및 인자 β를 구비한 인코딩 파라메타들을 수신하게 하고;
    1차 채널 인코딩 파라메타에 응답하여 1차 채널을 디코딩하게 하고;
    다수의 코딩 모델들 - 코딩 모델들 중 적어도 하나는 2차 채널을 디코딩하기 위하여 1차 채널 LP 필터 계수들을 이용함 - 중 하나를 이용하여 2차 채널을 디코딩하게 하고;
    인자 β를 이용하여 디코딩된 1차 채널과 2차 채널을 시간 영역 업-믹싱함으로써 스테레오 사운드 신호의 디코딩된 좌측 및 우측 채널을 생성하게 하는 것을 구비하되,
    인자 β는 좌측 및 우측 채널의 생성시에 1차 채널과 2차 채널의 각각의 기여를 결정하는
    스테레오 사운드 디코딩 시스템.
  16. 실행시에, 프로세서가 청구항 제 1 항 또는 제 2 항의 방법의 동작들을 구현하게 하는, 비-일시적 명령어들을 구비한 프로세서-판독 가능 메모리.
KR1020187008429A 2015-09-25 2016-09-22 스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 방법 및 시스템 KR102636424B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562232589P 2015-09-25 2015-09-25
US62/232,589 2015-09-25
US201662362360P 2016-07-14 2016-07-14
US62/362,360 2016-07-14
PCT/CA2016/051108 WO2017049399A1 (en) 2015-09-25 2016-09-22 Method and system for decoding left and right channels of a stereo sound signal

Publications (2)

Publication Number Publication Date
KR20180059781A KR20180059781A (ko) 2018-06-05
KR102636424B1 true KR102636424B1 (ko) 2024-02-15

Family

ID=58385516

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020187008427A KR102636396B1 (ko) 2015-09-25 2016-09-22 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템
KR1020187008428A KR20180056662A (ko) 2015-09-25 2016-09-22 2차 채널을 인코딩하기 위하여 1차 채널의 코딩 파라메타들을 이용하여 스테레오 사운드 신호를 인코딩하는 방법 및 시스템
KR1020187008429A KR102636424B1 (ko) 2015-09-25 2016-09-22 스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 방법 및 시스템

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020187008427A KR102636396B1 (ko) 2015-09-25 2016-09-22 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템
KR1020187008428A KR20180056662A (ko) 2015-09-25 2016-09-22 2차 채널을 인코딩하기 위하여 1차 채널의 코딩 파라메타들을 이용하여 스테레오 사운드 신호를 인코딩하는 방법 및 시스템

Country Status (17)

Country Link
US (8) US10319385B2 (ko)
EP (8) EP3961623A1 (ko)
JP (6) JP6887995B2 (ko)
KR (3) KR102636396B1 (ko)
CN (4) CN108352162B (ko)
AU (1) AU2016325879B2 (ko)
CA (5) CA2997296C (ko)
DK (1) DK3353779T3 (ko)
ES (4) ES2955962T3 (ko)
HK (4) HK1253570A1 (ko)
MX (4) MX2018003703A (ko)
MY (2) MY188370A (ko)
PL (1) PL3353779T3 (ko)
PT (1) PT3353779T (ko)
RU (6) RU2763374C2 (ko)
WO (5) WO2017049398A1 (ko)
ZA (2) ZA201801675B (ko)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102636396B1 (ko) 2015-09-25 2024-02-15 보이세지 코포레이션 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
CN108140393B (zh) * 2016-09-28 2023-10-20 华为技术有限公司 一种处理多声道音频信号的方法、装置和系统
BR112019009424A2 (pt) 2016-11-08 2019-07-30 Fraunhofer Ges Forschung mixador de redução, método para mixagem de redução de pelo menos dois canais, codificador multicanal, método para codificar um sinal multicanal, sistema e método de processamento de áudio
CN108269577B (zh) * 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
WO2018189414A1 (en) * 2017-04-10 2018-10-18 Nokia Technologies Oy Audio coding
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
US10224045B2 (en) 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
CN109300480B (zh) 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN114898761A (zh) * 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
CN113782039A (zh) * 2017-08-10 2021-12-10 华为技术有限公司 时域立体声编解码方法和相关产品
CN109389984B (zh) * 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN117133297A (zh) * 2017-08-10 2023-11-28 华为技术有限公司 时域立体声参数的编码方法和相关产品
CN109427338B (zh) 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
CN109427337B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
WO2019056108A1 (en) * 2017-09-20 2019-03-28 Voiceage Corporation METHOD AND DEVICE FOR EFFICIENT DISTRIBUTION OF A BINARY BUDGET IN A CELP CODEC
CN109859766B (zh) * 2017-11-30 2021-08-20 华为技术有限公司 音频编解码方法和相关产品
CN110556118B (zh) 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置
CN114708874A (zh) 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置
CN110556119B (zh) * 2018-05-31 2022-02-18 华为技术有限公司 一种下混信号的计算方法及装置
CN110728986B (zh) * 2018-06-29 2022-10-18 华为技术有限公司 立体声信号的编码方法、解码方法、编码装置和解码装置
CN115132214A (zh) * 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
US11031024B2 (en) * 2019-03-14 2021-06-08 Boomcloud 360, Inc. Spatially aware multiband compression system with priority
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
CN111988726A (zh) * 2019-05-06 2020-11-24 深圳市三诺数字科技有限公司 一种立体声合成单声道的方法和系统
CN112233682A (zh) * 2019-06-29 2021-01-15 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
CN112151045A (zh) * 2019-06-29 2020-12-29 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
AU2020320270A1 (en) * 2019-08-01 2022-03-24 Dolby Laboratories Licensing Corporation Encoding and decoding IVAS bitstreams
CN110534120B (zh) * 2019-08-31 2021-10-01 深圳市友恺通信技术有限公司 一种移动网络环境下的环绕声误码修复方法
CN110809225B (zh) * 2019-09-30 2021-11-23 歌尔股份有限公司 一种应用于立体声系统的自动校准喇叭的方法
US10856082B1 (en) * 2019-10-09 2020-12-01 Echowell Electronic Co., Ltd. Audio system with sound-field-type nature sound effect
WO2021181473A1 (ja) * 2020-03-09 2021-09-16 日本電信電話株式会社 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体
WO2021181746A1 (ja) * 2020-03-09 2021-09-16 日本電信電話株式会社 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
EP4120250A4 (en) 2020-03-09 2024-03-27 Nippon Telegraph & Telephone SOUND SIGNAL REDUCING MIXING METHOD, SOUND SIGNAL CODING METHOD, SOUND SIGNAL REDUCING MIXING DEVICE, SOUND SIGNAL CODING DEVICE, PROGRAM AND RECORDING MEDIUM
CN115244619A (zh) 2020-03-09 2022-10-25 日本电信电话株式会社 声音信号编码方法、声音信号解码方法、声音信号编码装置、声音信号解码装置、程序以及记录介质
CN113571073A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 一种线性预测编码参数的编码方法和编码装置
CN111599381A (zh) * 2020-05-29 2020-08-28 广州繁星互娱信息科技有限公司 音频数据处理方法、装置、设备及计算机存储介质
EP4243015A4 (en) * 2021-01-27 2024-04-17 Samsung Electronics Co Ltd AUDIO PROCESSING APPARATUS AND METHOD

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002023528A1 (en) * 2000-09-15 2002-03-21 Telefonaktiebolaget Lm Ericsson Multi-channel signal encoding and decoding
WO2007096808A1 (en) 2006-02-21 2007-08-30 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US20130262130A1 (en) 2010-10-22 2013-10-03 France Telecom Stereo parametric coding/decoding for channels in phase opposition

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01231523A (ja) * 1988-03-11 1989-09-14 Fujitsu Ltd ステレオ信号符号化装置
JPH02124597A (ja) * 1988-11-02 1990-05-11 Yamaha Corp 複数チャンネルの信号圧縮方法
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
EP1054575A3 (en) * 1999-05-17 2002-09-18 Bose Corporation Directional decoding
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
CN100508026C (zh) * 2002-04-10 2009-07-01 皇家飞利浦电子股份有限公司 立体声信号编码
JP2004325633A (ja) * 2003-04-23 2004-11-18 Matsushita Electric Ind Co Ltd 信号符号化方法、信号符号化プログラム及びその記録媒体
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
JP2005202248A (ja) * 2004-01-16 2005-07-28 Fujitsu Ltd オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路
DE102004009954B4 (de) * 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
CN101027718A (zh) * 2004-09-28 2007-08-29 松下电器产业株式会社 可扩展性编码装置以及可扩展性编码方法
BRPI0516658A (pt) * 2004-11-30 2008-09-16 Matsushita Electric Ind Co Ltd aparelho de codificação de estéreo, aparelho de decodificação de estéreo e seus métodos
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
ATE521143T1 (de) * 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
RU2007143418A (ru) * 2005-05-25 2009-05-27 Конинклейке Филипс Электроникс Н.В. (Nl) Кодирование с предсказанием многоканального сигнала
US8227369B2 (en) 2005-05-25 2012-07-24 Celanese International Corp. Layered composition and processes for preparing and using the composition
KR100841332B1 (ko) * 2005-07-29 2008-06-25 엘지전자 주식회사 분할 정보를 시그널링 하는 방법
WO2007026763A1 (ja) * 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US20080255859A1 (en) * 2005-10-20 2008-10-16 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
JP2007183528A (ja) * 2005-12-06 2007-07-19 Fujitsu Ltd 符号化装置、符号化方法、および符号化プログラム
WO2007111568A2 (en) * 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
MY145497A (en) 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
JPWO2008132826A1 (ja) * 2007-04-20 2010-07-22 パナソニック株式会社 ステレオ音声符号化装置およびステレオ音声符号化方法
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
GB2453117B (en) 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
BRPI0816557B1 (pt) * 2007-10-17 2020-02-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Codificação de áudio usando upmix
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
US8103005B2 (en) * 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
WO2009122757A1 (ja) 2008-04-04 2009-10-08 パナソニック株式会社 ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
BRPI0914056B1 (pt) 2008-10-08 2019-07-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificação/decodificação de áudio comutado multi-resolução
EP2381439B1 (en) * 2009-01-22 2017-11-08 III Holdings 12, LLC Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
EP2395504B1 (en) * 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
WO2010097748A1 (en) 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
CN101826326B (zh) * 2009-03-04 2012-04-04 华为技术有限公司 一种立体声编码方法、装置和编码器
MX2011009660A (es) * 2009-03-17 2011-09-30 Dolby Int Ab Codificacion estereo avanzada basada en una combinacion de codificacion izquierda/derecha o media/lateral seleccionable de manera adaptable y de codificacion estereo parametrica.
US8666752B2 (en) 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
CN102884574B (zh) * 2009-10-20 2015-10-14 弗兰霍菲尔运输应用研究公司 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
CN102884570B (zh) * 2010-04-09 2015-06-17 杜比国际公司 基于mdct的复数预测立体声编码
US8463414B2 (en) * 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
MX351750B (es) * 2010-10-25 2017-09-29 Voiceage Corp Codificación de señales de audio genéricas a baja tasa de bits y a retardo bajo.
EP2633520B1 (en) * 2010-11-03 2015-09-02 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal
KR101621287B1 (ko) * 2012-04-05 2016-05-16 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법
JP5977434B2 (ja) 2012-04-05 2016-08-24 ホアウェイ・テクノロジーズ・カンパニー・リミテッド パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
JP6046274B2 (ja) * 2013-02-14 2016-12-14 ドルビー ラボラトリーズ ライセンシング コーポレイション 上方混合されたオーディオ信号のチャネル間コヒーレンスの制御方法
TWI634547B (zh) * 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品
TWI557724B (zh) * 2013-09-27 2016-11-11 杜比實驗室特許公司 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器
KR101627661B1 (ko) * 2013-12-23 2016-06-07 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법, 이를 위한 파라메터화 장치 및 오디오 신호 처리 장치
CN106463125B (zh) * 2014-04-25 2020-09-15 杜比实验室特许公司 基于空间元数据的音频分割
KR102636396B1 (ko) 2015-09-25 2024-02-15 보이세지 코포레이션 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002023528A1 (en) * 2000-09-15 2002-03-21 Telefonaktiebolaget Lm Ericsson Multi-channel signal encoding and decoding
WO2007096808A1 (en) 2006-02-21 2007-08-30 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US20130262130A1 (en) 2010-10-22 2013-10-03 France Telecom Stereo parametric coding/decoding for channels in phase opposition

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ATSC Standard: Digital Audio Compression (AC-3). Advanced Television Systems Committee. Doc.A/52:2012. 2012.12.17.
Bertrand Fatus. Parametric Coding for Spatial Audio. Master’s Thesis, KTH, Stockholm, Sweden. 2015.12.
Christof Faller. Parametric coding of spatial audio. PhD Thesis. ECOLE POLYTECHNIQUE FEDERALE DE LAUSANNE. 2004.
Marina Bosi, et al. ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 1997.
이태진, et al., MPEG 오디오 최신 표준: USAC 기술, 방송공학회 논문지, 2011.08.08.*

Also Published As

Publication number Publication date
RU2020125468A3 (ko) 2021-11-26
DK3353779T3 (da) 2020-08-10
MY186661A (en) 2021-08-04
JP2021047431A (ja) 2021-03-25
EP3353778A1 (en) 2018-08-01
EP3353777A1 (en) 2018-08-01
RU2018114901A3 (ko) 2020-03-10
CA2997334A1 (en) 2017-03-30
CN108352164B (zh) 2022-12-06
RU2018114898A3 (ko) 2020-02-11
US10325606B2 (en) 2019-06-18
CN108352164A (zh) 2018-07-31
US20190237087A1 (en) 2019-08-01
EP3353779A4 (en) 2019-08-07
CN108352163A (zh) 2018-07-31
EP3353784A1 (en) 2018-08-01
JP6887995B2 (ja) 2021-06-16
US10319385B2 (en) 2019-06-11
RU2728535C2 (ru) 2020-07-30
EP3353784A4 (en) 2019-05-22
ZA202003500B (en) 2022-06-29
JP7244609B2 (ja) 2023-03-22
CA2997296A1 (en) 2017-03-30
MX2021005090A (es) 2023-01-04
JP7140817B2 (ja) 2022-09-21
KR20180056661A (ko) 2018-05-29
HK1257684A1 (zh) 2019-10-25
WO2017049398A1 (en) 2017-03-30
US10573327B2 (en) 2020-02-25
EP3353778B1 (en) 2023-07-05
KR102636396B1 (ko) 2024-02-15
RU2018114898A (ru) 2019-10-25
RU2020124137A (ru) 2020-09-04
US10339940B2 (en) 2019-07-02
US20190228784A1 (en) 2019-07-25
RU2729603C2 (ru) 2020-08-11
MX2018003703A (es) 2018-04-30
EP3353780B1 (en) 2021-12-01
US20180261231A1 (en) 2018-09-13
EP3353780A4 (en) 2019-05-22
US11056121B2 (en) 2021-07-06
HK1253570A1 (zh) 2019-06-21
MY188370A (en) 2021-12-06
EP3353777B8 (en) 2023-08-23
MX2018003242A (es) 2018-09-26
EP4235659A2 (en) 2023-08-30
EP3353779B1 (en) 2020-06-24
JP7124170B2 (ja) 2022-08-23
RU2018114901A (ru) 2019-10-28
CN108352163B (zh) 2023-02-21
JP2021131569A (ja) 2021-09-09
CN108352162B (zh) 2023-05-09
EP3353777B1 (en) 2023-06-21
US10522157B2 (en) 2019-12-31
CA2997331C (en) 2023-12-05
ZA201801675B (en) 2020-09-30
RU2018114899A3 (ko) 2020-02-25
CN108352162A (zh) 2018-07-31
JP2022028765A (ja) 2022-02-16
US20190228785A1 (en) 2019-07-25
EP3353777A4 (en) 2019-05-15
US20180268826A1 (en) 2018-09-20
US20180277126A1 (en) 2018-09-27
US10984806B2 (en) 2021-04-20
EP4235659A3 (en) 2023-09-06
RU2763374C2 (ru) 2021-12-28
ES2809677T3 (es) 2021-03-05
JP2018533056A (ja) 2018-11-08
HK1253569A1 (zh) 2019-06-21
JP2018533057A (ja) 2018-11-08
WO2017049400A1 (en) 2017-03-30
EP3699909A1 (en) 2020-08-26
KR20180059781A (ko) 2018-06-05
KR20180056662A (ko) 2018-05-29
JP6804528B2 (ja) 2020-12-23
EP3353779A1 (en) 2018-08-01
CN116343802A (zh) 2023-06-27
PT3353779T (pt) 2020-07-31
HK1259477A1 (zh) 2019-11-29
CA2997513A1 (en) 2017-03-30
CA2997296C (en) 2023-12-05
EP3961623A1 (en) 2022-03-02
PL3353779T3 (pl) 2020-11-16
US10839813B2 (en) 2020-11-17
ES2955962T3 (es) 2023-12-11
MX2021006677A (es) 2023-03-01
JP6976934B2 (ja) 2021-12-08
CA2997331A1 (en) 2017-03-30
CA2997332A1 (en) 2017-03-30
RU2764287C1 (ru) 2022-01-17
US20180286415A1 (en) 2018-10-04
ES2904275T3 (es) 2022-04-04
ES2949991T3 (es) 2023-10-04
RU2020124137A3 (ko) 2021-11-12
WO2017049396A1 (en) 2017-03-30
US20180233154A1 (en) 2018-08-16
EP3353780A1 (en) 2018-08-01
RU2730548C2 (ru) 2020-08-24
WO2017049397A1 (en) 2017-03-30
EP3353778A4 (en) 2019-05-08
RU2020125468A (ru) 2020-09-24
RU2765565C2 (ru) 2022-02-01
JP2018533058A (ja) 2018-11-08
WO2017049399A1 (en) 2017-03-30
RU2018114899A (ru) 2019-10-25
AU2016325879A1 (en) 2018-04-05
AU2016325879B2 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
KR102636424B1 (ko) 스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 방법 및 시스템
US20210027794A1 (en) Method and system for decoding left and right channels of a stereo sound signal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right