KR102288111B1 - 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치 - Google Patents

스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치 Download PDF

Info

Publication number
KR102288111B1
KR102288111B1 KR1020207004835A KR20207004835A KR102288111B1 KR 102288111 B1 KR102288111 B1 KR 102288111B1 KR 1020207004835 A KR1020207004835 A KR 1020207004835A KR 20207004835 A KR20207004835 A KR 20207004835A KR 102288111 B1 KR102288111 B1 KR 102288111B1
Authority
KR
South Korea
Prior art keywords
current frame
channel
encoding
inter
time difference
Prior art date
Application number
KR1020207004835A
Other languages
English (en)
Other versions
KR20200027008A (ko
Inventor
이얄 슬로못
하이팅 리
빈 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20200027008A publication Critical patent/KR20200027008A/ko
Application granted granted Critical
Publication of KR102288111B1 publication Critical patent/KR102288111B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

본 출원은 스테레오 신호의 인코딩 방법, 디코딩 방법, 인코딩 장치 및 디코딩 장치를 제공한다. 스테레오 신호의 인코딩 방법은, 현재 프레임에서의 채널 간 시간차를 결정하는 단계; 상기 현재 프레임에서의 채널 간 시간차 및 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하는 단계; 상기 현재 프레임에서의 채널 간 시간차에 기초하여 상기 현재 프레임에서의 스테레오 신호에 대해 지연 정렬을 수행하여, 상기 현재 프레임에서의 상기 지연 정렬 후의 스테레오 신호를 획득하는 단계; 상기 현재 프레임에서의 상기 지연 정렬 후의 스테레오 신호에 대해 시간 영역 다운믹싱 처리를 수행하여, 상기 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 획득하는 단계; 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 양자화하고, 양자화된 채널 간 시간차를 비트스트림에 기록하는 단계; 및 상기 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 양자화하고, 양자화된 주 채널 신호 및 양자화된 부 채널 신호를 상기 비트스트림에 기록하는 단계를 포함한다. 본 출원에 따르면, 최종적으로 디코딩에 의해 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호에서의 채널 간 시간차 사이의 편차가 감소될 수 있다.

Description

스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치
본 출원은 "스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치(ENCODING AND DECODING METHODS, AND ENCODING AND DECODING APPARATUSES FOR STEREO SIGNAL)"라는 명칭으로 2017년 7월 25일에 중국 특허청에 출원된 중국 특허출원 제201710614326.7호를 우선권으로 주장하며, 그 내용 전부는 인용에 의해 본 출원에 포함된다.
본 출원은 오디오 신호 인코딩 및 디코딩 기술에 관한 것으로, 보다 구체적으로, 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치에 관한 것이다.
스테레오 신호를 인코딩하기 위해, 파라메트릭(parametric) 스테레오 인코딩 및 디코딩 기술, 시간 영역(time-domain) 스테레오 인코딩 및 디코딩 기술 등이 사용될 수 있다. 시간 영역 스테레오 인코딩 및 디코딩 기술을 사용하여 스테레오 신호를 인코딩 및 디코딩하는 것은 일반적으로 다음 프로세스를 포함한다:
인코딩 프로세스는,
상기 스테레오 신호의 채널 간 시간차(inter-channel time difference)를 추정하는 단계;
상기 채널 간 시간차에 기초하여 상기 스테레오 신호에 대해 지연 정렬(delay alignment)을 수행하는 단계;
시간 영역 다운믹싱 처리 파라미터(time-domain downmixing processing parameter)에 기초하여, 지연 정렬 후에 획득된 신호에 대해 시간 영역 다운믹싱 처리를 수행하여, 주 채널 신호 및 부 채널 신호를 획득하는 단계; 및
채널 간 시간차, 시간 영역 다운믹싱 처리 파라미터, 주 채널 신호(a primary-channel signal) 및 부 채널 신호(secondary-channel signal)를 인코딩하여, 인코딩된 비트스트림을 획득하는 단계를 포함한다.
디코딩 프로세스는,
비트스트림을 디코딩하여 주 채널 신호, 부 채널 신호, 시간 영역 다운믹싱 처리 파라미터 및 채널 간 시간차를 획득하는 단계;
시간 영역 다운믹싱 처리 파라미터에 기초하여 주 채널 신호 및 부 채널 신호에 대해 시간 영역 업믹싱 처리(time-domain upmixing processing)를 수행하여, 시간 영역 업믹싱 처리 후에 획득된 좌측 채널 재구성 신호(left-channel reconstructed signal) 및 우측 채널 재구성 신호(right-channel reconstructed signal)를 획득하는 단계; 및
채널 간 시간차에 기초하여, 시간 영역 업믹싱 처리 후에 획득된 좌측 채널 재구성 신호 및 우측 채널 재구성 신호의 지연을 조정하여, 디코딩된 스테레오 신호를 획득하는 단계를 포함한다.
시간 영역 스테레오 인코딩 기술을 사용하여 스테레오 신호를 인코딩 및 디코딩하는 프로세스에서, 채널 간 시간차가 고려되지만, 주 채널 신호 및 부 채널 신호를 인코딩 및 디코딩 프로세스에는 인코딩 및 디코딩 지연이 있기 때문에, 디코딩단(decoding end)로부터 최종적으로 출력되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호(original stereo signal)의 채널 간 시간차 사이에 편차(deviation)가 있으며, 이는 디코딩에 의해 출력되는 스테레오 신호의 스테레오 사운드 이미지(stereo sound image)에 영향을 미친다.
본 출원은 디코딩에 의해 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시키기 위해, 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치를 제공한다.
제1 측면에 따르면, 스테레오 신호의 인코딩 방법이 제공된다. 상기 스테레오 신호의 인코딩 방법은, 현재 프레임에서의 채널 간 시간차를 결정하는 단계; 상기 현재 프레임에서의 채널 간 시간차 및 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 획득하는 단계; 상기 현재 프레임에서의 채널 간 시간차에 기초하여 상기 현재 프레임에서의 스테레오 신호에 대해 지연 정렬을 수행하여, 상기 현재 프레임에서의 상기 지연 정렬 후의 스테레오 신호를 획득하는 단계; 상기 현재 프레임에서의 상기 지연 정렬 후의 스테레오 신호에 대해 시간 영역 다운믹싱 처리를 수행하여, 상기 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 획득하는 단계; 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 양자화하고, 양자화된 채널 간 시간차를 비트스트림에 기록하는 단계; 및 상기 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 양자화하고, 양자화된 주 채널 신호 및 양자화된 부 채널 신호를 상기 비트스트림에 기록하는 단계를 포함한다.
현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 보간 처리를 수행하고, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 인코딩한 다음 비트스트림에 기록함으로써, 디코딩단에 의한, 디코딩에 의해 획득되는 현재 프레임에서의 채널간 시간차는 현재 프레임에서의 주 채널 신호 및 보조 채널 신호를 포함하는 비트스트림과 매칭될 수 있어, 디코딩단이 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 포함하는 비트스트림과 매칭되는 현재 프레임에서의 채널 간 시간차에 기초하여 디코딩을 수행할 수 있도록 한다. 이는 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시킬 수 있다. 따라서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 스테레오 사운드 이미지의 정확도가 향상된다.
구체적으로, 인코딩단(encoding end)이 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩할 때, 및 디코딩단이 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득할 때, 인코딩 및 디코딩 지연이 있다. 그러나 인코딩단이 채널 간 시간차를 인코딩할 때, 및 디코딩단이 비트스트림을 디코딩하여 채널 간 시간차를 획득할 때, 동일한 인코딩 및 디코딩 지연이 존재하지 않으며, 오디오 코덱은 프레임에 기초한 처리를 수행한다. 따라서, 디코딩단에 의한, 현재 프레임에서의 비트스트림을 디코딩함으로써 획득되는 현재 프레임에서의 주 채널 신호 및 부 채널 신호와, 현재 프레임에서의 비트스트림을 디코딩함으로써 획득되는 현재 프레임에서의 채널 간 시간차 사이에 지연이 존재한다. 이 경우, 디코딩단이 여전히 현재 프레임에서의 채널 간 시간차를 사용하여, 비트스트림을 디코딩함으로써 획득되는 현재 프레임에서의 주 채널 신호 및 부 채널 신호에 대해 후속하는 업믹싱 처리가 수행된 후에 획득되는 현재 프레임에서의 좌측 채널 재구성 신호 및 우측 채널 재구성 신호의 지연을 조정하면, 최종적으로 획득된 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이에는 비교적 큰 편차가 존재한다. 그러나 인코딩단은 보간 처리를 수행하여 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차를 조정하여 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 획득하고, 보간 처리 후의 채널 간 시간차를 인코딩하고, 현재 프레임을 인코딩하여 획득되는 주 채널 신호 및 부 채널 신호를 포함하는 비트스트림과 함께, 인코딩된 채널 간 시간차를 디코딩단에 전송하여, 디코딩단에 의한, 디코딩에 의해 획득되는 현재 프레임에서의 채널 간 시간차가, 디코딩단에 의해 획득되는 현재 프레임에서의 좌측 채널 재구성 신호 및 우측 채널 재구성 신호와 매칭될 수 있도록 한다. 따라서, 최종적으로 획득된 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차는 지연 조정(delay adjustment)을 수행함으로써 감소된다.
제1 측면을 참조하여, 제1 측면의 일부 구현예에서, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
Figure 112020017833491-pct00111
에 따라 계산되며, 여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1이다.
채널 간 시간차는 상기 식을 사용하여 조정될 수 있어, 현재 프레임에서의 보간 처리 후에 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간차 사이에 있고, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 현재 디코딩함으로써 획득되는 채널 간 시간차와 가능한 한 매칭된다.
제1 측면을 참조하면, 제1 측면의 일부 구현예에서, 상기 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 상기 현재 프레임의 프레임 길이에 정비례하며, 상기 인코딩 및 디코딩 지연은 상기 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
제1 측면을 참조하면, 제1 측면의 일부 구현예에서, 상기 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이이다.
제1 측면을 참조하면, 제1 측면의 일부 구현예에서, 상기 제1 보간 계수 α는 미리 저장된다.
제1 보간 계수 α를 미리 저장하는 것은 인코딩 프로세스의 계산 복잡도를 감소시키고 인코딩 효율을 향상시킬 수 있다.
제1 측면을 참조하면, 제1 측면의 일부 구현예에서, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
Figure 112020017833491-pct00112
에 따라 계산되며, 여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1이다.
채널 간 시간차는 상기 식을 사용하여 조정될 수 있어, 현재 프레임에서의 보간 처리 후에 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간차 사이에 있고, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 현재 디코딩함으로써 획득되는 채널 간 시간차와 가능한 한 매칭된다.
제1 측면을 참조하면, 제1 측면의 일부 구현예에서, 상기 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 상기 현재 프레임의 프레임 길이에 반비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
제1 측면을 참조하면, 제1 측면의 일부 구현예에서, 상기 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이이다.
제1 측면을 참조하면, 제1 측면의 일부 구현예에서, 상기 제2 보간 계수는 미리 저장된다.
제2 보간 계수 β를 미리 저장하는 것은 인코딩 프로세스의 계산 복잡도를 감소시키고 인코딩 효율을 향상시킬 수 있다.
제2 측면에 따르면, 멀티채널의 디코딩 방법이 제공된다. 상기 멀티채널의 디코딩 방법은, 비트스트림을 디코딩하여 현재 프레임에서의 주 채널 신호 및 부 채널 신호, 그리고 상기 현재 프레임에서의 채널 간 시간차를 획득하는 단계; 상기 현재 영역에서의 주 채널 신호 및 부 채널 신호에 대해 시간 영역 업믹싱 처리를 수행하여, 상기 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호를 획득하는 단계; 상기 현재 프레임에서의 채널 간 시간차 및 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 획득하는 단계; 및 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차에 기초하여 상기 좌측 채널 재구성 신호 및 상기 우측 채널 재구성 신호의 지연을 조정하는 단계를 포함한다.
현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 보간 처리를 수행함으로써, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 디코딩에 의해 회득되는 현재 프레임에서의 주 채널 신호 및 보조 채널 신호와 매칭될 수 있다. 이는 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시킬 수 있다. 따라서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 스테레오 사운드 이미지의 정확도가 향상된다.
제2 측면을 참조하여, 제2 측면의 일부 구현예에서, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
Figure 112020017833491-pct00113
에 따라 계산되며, 여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1이다.
채널 간 시간차는 상기 식을 사용하여 조정될 수 있어, 현재 프레임에서의 보간 처리 후에 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간차 사이에 있고, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 현재 디코딩함으로써 획득되는 채널 간 시간차와 가능한 한 매칭된다.
제2 측면을 참조하면, 제2 측면의 일부 구현예에서, 상기 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 상기 현재 프레임의 프레임 길이에 정비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
제2 측면을 참조하면, 제2 측면의 일부 구현예에서, 상기 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이이다.
제2 측면을 참조하면, 제2 측면의 일부 구현예에서, 상기 제1 보간 계수 α는 미리 저장된다.
제1 보간 계수 α를 미리 저장하는 것은 디코딩 프로세스의 계산 복잡도를 감소시키고 디코딩 효율을 향상시킬 수 있다.
제2 측면을 참조하면, 제2 측면의 일부 구현예에서, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
Figure 112020017833491-pct00114
에 따라 계산되며, 여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1이다.
채널 간 시간차는 상기 식을 사용하여 조정될 수 있어, 현재 프레임에서의 보간 처리 후에 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간차 사이에 있고, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 현재 디코딩함으로써 획득되는 채널 간 시간차와 가능한 한 매칭된다.
제2 측면을 참조하면, 제2 측면의 일부 구현예에서, 상기 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 상기 현재 프레임의 프레임 길이에 반비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
제2 측면을 참조하면, 제2 측면의 일부 구현예에서, 상기 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이이다.
제2 측면을 참조하면, 제2 측면의 일부 구현예에서, 상기 제2 보간 계수는 미리 저장된다.
제2 보간 계수 β를 미리 저장하는 것은 디코딩 프로세스의 계산 복잡도를 감소시키고 디코딩 효율을 향상시킬 수 있다.
제3 측면에 따르면, 인코딩 장치가 제공된다. 상기 인코딩 장치는 제1 측면 또는 제1 측면의 다양한 구현예를 수행하도록 구성된 모듈을 포함한다.
제4 측면에 따르면, 디코딩 장치가 제공된다. 상기 디코딩 장치는 제2 측면 또는 제2 측면의 다양한 구현예를 수행하도록 구성된 모듈을 포함한다.
제5 측면에 따르면, 인코딩 장치가 제공된다. 상기 인코딩 장치는 저장 매체 및 중앙 처리 유닛을 포함하며, 상기 저장 매체는 비휘발성 저장 매체일 수 있고 컴퓨터로 실행 가능한 프로그램을 저장하며, 상기 중앙 처리 유닛은 상기 비휘발성 저장 매체에 연결되고 상기 컴퓨터로 실행 가능한 프로그램을 실행하여 제1 측면 또는 제1 측면의 다양한 구현예에서의 방법을 구현한다.
제6 측면에 따르면, 디코딩 장치가 제공된다. 상기 디코딩 장치는 저장 매체 및 중앙 처리 유닛을 포함하며, 상기 저장 매체는 비휘발성 저장 매체일 수 있고 컴퓨터로 실행 가능한 프로그램을 저장하며, 상기 중앙 처리 유닛은 상기 비휘발성 저장 매체에 연결되고 상기 컴퓨터로 실행 가능한 프로그램을 실행하여 제2 측면 또는 제2 측면의 다양한 구현예에서의 방법을 구현한다.
제7 측면에 따르면, 컴퓨터로 판독 가능한 저장 매체가 제공된다. 상기 컴퓨터로 판독 가능한 저장 매체는 기기에 의해 실행될 프로그램 코드를 저장하고, 상기 프로그램 코드는 제1 측면 또는 제1 측면의 다양한 구현예에서의 방법을 실행하는 데 사용되는 명령어를 포함한다.
제8 측면에 따르면, 컴퓨터로 판독 가능한 저장 매체가 제공된다. 상기 컴퓨터로 판독 가능한 저장 매체는 기기에 의해 실행될 프로그램 코드를 저장하고, 상기 프로그램 코드는 제2 측면 또는 제2 측면의 다양한 구현예에서의 방법을 실행하는 데 사용되는 명령어를 포함한다.
도 1은 기존의 시간 영역 스테레오 인코딩 방법의 개략 흐름도이다.
도 2는 기존의 시간 영역 스테레오 디코딩 방법의 개략 흐름도이다.
도 3은 기존의 시간 영역 스테레오 인코딩 및 디코딩 기술을 사용하여 디코딩함으로써 획득되는 스테레오 신호와 원시 스테레오 신호 사이의 지연 편차의 개략도이다.
도 4는 본 출원의 일 실시예에 따른 스테레오 신호의 인코딩 방법의 개략 흐름도이다.
도 5는 본 출원의 일 실시예에 따른 스테레오 신호의 인코딩 방법을 사용하여 획득되는 비트스트림을 디코딩함으로써 획득되는 스테레오 신호와 원시 스테레오 신호 사이의 지연 편차의 개략도이다.
도 6은 본 출원의 일 실시예에 따른 스테레오 신호의 인코딩 방법의 개략 흐름도이다.
도 7은 본 출원의 일 실시예에 따른 스테레오 신호의 디코딩 방법의 개략 흐름도이다.
도 8은 본 출원의 일 실시예에 따른 스테레오 신호의 디코딩 방법의 개략 흐름도이다.
도 9는 본 출원의 일 실시예에 따른 인코딩 장치의 개략 블록도이다.
도 10은 본 출원의 일 실시예에 따른 디코딩 장치의 개략 블록도이다.
도 11은 본 출원의 일 실시예에 따른 인코딩 장치의 개략 블록도이다.
도 12는 본 출원의 일 실시예에 따른 디코딩 장치의 개략 블록도이다.
도 13은 본 출원의 일 실시예에 따른 단말 기기의 개략도이다.
도 14는 본 출원의 일 실시예에 따른 네트워크 기기의 개략도이다.
도 15는 본 출원의 일 실시예에 따른 네트워크 기기의 개략도이다.
도 16은 본 출원의 일 실시예에 따른 단말 기기의 개략도이다.
도 17은 본 출원의 일 실시예에 따른 네트워크 기기의 개략도이다.
도 18은 본 출원의 일 실시예에 따른 네트워크 기기의 개략도이다.
이하에서는 첨부 도면을 참조하여 본 출원의 기술적 방안을 설명한다.
본 출원의 실시예에서의 인코딩 및 디코딩 방법을 더 잘 이해하도록, 이하에서는 도 1 및 도 2를 참조하여 기존의 시간 영역 스테레오 인코딩 및 디코딩 방법의 프로세스를 상세히 설명한다.
도 1은 기존의 시간 영역 스테레오 인코딩 방법의 개략 흐름도이다. 이 인코딩 방법(100)은 구체적으로 다음 단계를 포함한다.
110. 인코딩단이 스테레오 신호의 채널 간 시간차를 추정하여, 스테레오 신호의 채널 간 시간차를 획득한다.
스테레오 신호는 좌측 채널 신호 및 우측 채널 신호를 포함한다. 스테레오 신호의 채널 간 시간차는 왼쪽 채널 신호와 오른쪽 채널 신호 사이의 시간차이다.
120. 추정된 채널 간 시간차에 기초하여 좌측 채널 신호 및 우측 채널 신호에 대해 지연 정렬을 수행한다.
130. 스테레오 신호의 채널 간 시간차를 인코딩하여, 채널 간 시간차의 인코딩 색인을 획득하고, 인코딩 색인을 스테레오 인코딩된 비트스트림에 기록한다.
140. 채널 조합 스케일 인자(channel combination scale factor)를 결정하고, 채널 조합 스케일 인자를 인코딩하여 채널 조합 스케일 인자의 인코딩 색인을 획득하고, 인코딩 색인을 스테레오 인코딩된 비트스트림에 기록한다.
150. 채널 조합 스케일 인자에 기초하여, 지연 정렬 후에 획득되는 좌측 채널 신호 및 우측 채널 신호에 대해 시간 영역 다운믹싱 처리를 수행한다.
160. 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 개별적으로 인코딩하여, 주 채널 신호 및 부 채널 신호의 비트스트림을 획득하고, 비트스트림을 스테레오 인코딩된 비트스트림에 기록한다.
도 2는 기존의 시간 영역 스테레오 디코딩 방법의 개략 흐름도이다. 이 디코딩 방법(200)은 구체적으로 다음 단계를 포함한다.
210. 수신된 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득한다.
단계 210은 주 채널 신호 및 부 채널 신호를 획득하기 위해 주 채널 신호 디코딩 및 부 채널 신호 디코딩을 개별적으로 수행하는 것과 동등하다.
220. 수신된 비트스트림을 디코딩하여 채널 조합 스케일 인자를 획득한다.
230. 채널 조합 스케일 인자에 기초하여 주 채널 신호 및 부 채널 신호에 대해 시간 영역 업믹싱 처리를 수행하여, 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호를 획득한다.
240. 수신된 비트스트림을 디코딩하여 채널 간 시간차를 획득한다.
250. 채널 간 시간차에 기초하여, 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호의 지연을 조정하여, 디코딩된 스테레오 신호를 획득한다.
기존의 시간 영역 스테레오 인코딩 및 디코딩 방법에서, 추가 인코딩 지연(이 지연은 구체적으로 주 채널 신호 및 부 채널 신호의 인코딩에 필요한 시간일 수 있음) 및 추가 디코딩 지연(이 지연은 구체적으로 주 채널 신호 및 부 채널 신호의 디코딩에 필요한 시간일 수 있음)이 주 채널 신호 및 부 채널 신호의 인코딩(단계 160에 구체적으로 도시됨) 및 디코딩(단계 210에 구체적으로 도시됨)에 도입된다. 그러나 채널 간 시간차를 인코딩 및 디코딩하는 프로세스에서 동일한 인코딩 지연 및 동일한 디코딩 지연은 없다. 따라서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이에 편차가 있고, 그러면 디코딩에 의해 획득되는 스테레오 신호 내의 신호와 원시 스테레오 신호 내의 동일한 신호 사이에 지연이 있으며, 이는 디코딩에 의해 획득되는 스테레오 신호의 스테레오 사운드 이미지의 정확도에 영향을 준다.
구체적으로, 채널 간 시간차를 인코딩 및 디코딩하는 프로세스에서, 주 채널 신호 및 부 채널을 인코딩 및 디코딩하는 프로세스에서와 동일한 인코딩 지연 및 디코딩 지연은 없다. 따라서, 디코딩단에 의한 현재 디코딩에 의해 획득되는 주 채널 신호 및 부 채널 신호는 현재 디코딩에 의해 획득되는 채널 간 시간차와 매칭되지 않는다.
도 3은 기존의 시간 영역 스테레오 인코딩 및 디코딩 기술을 사용하여 디코딩함으로써 획득되는 스테레오 신호의 신호와 원시 스테레오 신호의 동일한 신호 사이의 지연을 도시한다. 도 3에 도시된 바와 같이, 상이한 프레임에서의 스테레오 신호 사이의 채널 간 시간차의 값이 크게 변할 때(도 3에서 직사각형 프레임 내의 영역에 의해 도시된 바와 같이), 디코딩단에 의한 디코딩에 의해 최종적으로 획득되는 스테레오 신호 내의 신호와 원시 스테레오 신호 내의 동일한 신호 사이에 명백한 지연이 발생한다(디코딩에 의해 최종적으로 획득되는 스테레오 신호 내의 신호는 원시 스테레오 신호의 동일한 신호보다 명백히 뒤떨어짐). 그러나 상이한 프레임 내의 스테레오 신호 사이의 채널 간 시간차의 값이 명백하게 변하지 않을 때(도 3에서 직사각형 프레임 외부의 영역에 의해 도시된 바와 같이), 디코딩단에 의한 디코딩에 의해 최종적으로 획득되는 스테레오 신호 내의 신호와 원시 스테레오 신호 내의 동일한 신호 사이의 지연은 명백하지 않다.
따라서, 본 출원은 스테레오 채널 신호의 새로운 인코딩 방법을 제공한다. 이 인코딩 방법에 따르면, 보간 처리는 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 수행되어, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 획득하고, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 인코딩된 다음 디코딩단에 송신된다. 그러나 지연 정렬은 여전히 현재 프레임에서의 채널 간 시간차를 사용하여 수행된다. 종래 기술과 비교하여, 본 출원에서 획득된 현재 프레임에서의 채널 간 시간차는 인코딩 및 디코딩 후에 획득되는 주 채널 신호 및 부 채널 신호와 더 잘 매칭되고, 대응하는 스테레오 신호와의 매칭은 비교적 높은 정도를 갖는다. 이는 디코딩단에 의한 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시킨다. 따라서, 디코딩단에 의한 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 효과가 향상될 수 있다.
본 출원에서 스테레오 신호는 원시 스테레오 신호, 멀티채널 신호에 포함되는 두 개의 신호를 포함하는 스테레오 신호, 또는 멀티채널 신호에 포함된 복수의 신호에 의해 연합 생성되는 두 개의 신호를 포함하는 스테레오 신호일 수 있음을 이해해야 한다. 스테레오 신호의 인코딩 방법은 또한 멀티채널 인코딩 방법에서 사용되는 스테레오 신호의 인코딩 방법일 수 있다. 스테레오 신호의 디코딩 방법은 또한 멀티채널 디코딩 방법에서 사용되는 스테레오 신호의 디코딩 방법일 수 있다.
도 4는 본 출원의 실시예에 따른 스테레오 신호의 인코딩 방법의 개략 흐름도이다. 방법(400)은 인코딩단에 의해 실행될 수 있고, 인코딩단은 스테레오 신호를 인코딩하는 기능을 갖는 인코더 또는 기기일 수 있다. 방법(400)은 구체적으로 다음 단계를 포함한다.
410. 현재 프레임에서의 채널 간 시간차를 결정한다.
여기서 처리되는 스테레오 신호는 좌측 채널 신호 및 우측 채널 신호를 포함할 수 있고, 현재 프레임에서의 채널 간 시간차는 좌측 채널와 우측 채널 신호의 지연을 추정함으로써 획득될 수 있음을 이해해야 한다. 현재 프레임의 이전 프레임에서의 채널 간 시간차는 이전 프레임 내의 스테레오 신호를 인코딩하는 프로세스에서 좌측 채널 신호 및 우측 채널 신호의 지연을 추정함으로써 획득될 수 있다. 예를 들어, 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 기초하여 좌측 채널 및 우측 채널의 상호 상관 계수(cross-correlation coefficient)이 계산되고, 그 후, 상호 상관 계수의 최대치에 대응하는 색인 값이 현재 프레임에서의 채널 간 시간차로서 사용된다.
구체적으로, 예 1 내지 예 3에서 설명되는 방식으로 지연 추정을 수행하여, 현재 프레임에서의 채널 간 시간차를 획득할 수 있다.
예 1:
현재 샘플링 레이트에서, 채널 간 시간차의 최대치 및 최소치는 각각 Tmax 및 Tmin이며, 여기서 Tmax 및 Tmin은 미리 설정된 실수이고, Tmax>Tmin이다. 이 경우, 색인 값이 채널 간 시간차의 최대치와 최소치 사이에 있는 좌측 채널과 우측 채널의 상호 상관 계수의 최대치는 검색될 수 있다. 마지막으로, 좌측 채널 및 우측 채널의 상호 상관 계수의 검색된 최대치에 대응하는 색인 값이 현재 프레임에서의 채널 간 시간차로서 결정된다. 구체적으로, Tmax 및 Tmin의 값은 각각 40 및 -40일 수 있다. 이러한 방식으로, 좌측 채널과 우측 채널의 상호 상관 계수의 최대치는 -40≤i≤40의 범위에서 검색될 수 있고, 그 후 상호 상관 계수의 최대치에 대응하는 색인 값이 현재 프레임에서의 채널 간 시간차로서 사용된다.
예 2:
현재 샘플링 레이트에서, 채널 간 시간차의 최대치 및 최소치는 각각 Tmax 및 Tmin이며, 여기서 Tmax 및 Tmin은 미리 설정된 실수이고, Tmax>Tmin이다. 좌측 채널과 우측 채널의 상호 상관 함수는 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 기초하여 계산된다. 또한, 이전의 L개 프레임(L은 1 이상의 정수임)에서의 좌측 채널과 우측 채널의 상호 상관 함수에 기초하여 현재 프레임에서의 좌측 채널 및 우측 채널의 계산된 상호 상관 함수에 대해 평활화 처리를 수행하여, 좌측 채널 및 우측 채널의 평활화된 상호 상관 함수를 획득한다. 그 후, 평활화 처리 후의 좌측 채널과 우측 채널의 상호 상관 계수의 최대치를 Tmin≤i≤Tmax의 범위 내에서 검색하고, 최대치에 대응하는 색인 값 i를 현재 프레임에서의 채널 간 시간차로서 사용한다.
예 3:
예 1 또는 예 2의 방법에 따라 현재 프레임에서의 채널 간 시간차를 추정한 후, 현재 프레임의 이전의 M개 프레임(M은 1 이상의 정수임)의 채널 간 시간차 및 현재 프레임에서의 추정된 채널 간 시간차에 대해 프레임 간 평활화 처리를 수행하고, 평활화 처리 후에 획득된 채널 간 시간차를 현재 프레임에서의 채널 간 시간차로서 사용한다.
좌측 채널 신호 및 우측 채널 신호(여기서 좌측 채널 신호 및 우측 채널 신호는 시간 영역 신호임)의 지연을 추정하여 현재 프레임에서의 채널 간 시간차를 획득하기 전에, 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 대해 시간 영역 전처리가 추가로 수행될 수 있음을 이해해야 한다. 구체적으로, 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 대해 고역 통과 필터링 처리를 수행하여, 현재 프레임에서의 전처리된 좌측 채널 신호 및 전처리된 우측 채널 신호를 획득할 수 있다. 또한, 여기서 시간 영역 전처리는 대안적으로 고역 통과 필터링 처리 외에 다른 처리일 수 있다. 예를 들어, 프리엠퍼시스 처리(pre-emphasis processing)가 수행된다.
420. 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간 차에 기초하여 보간 처리를 수행하여, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 획득한다.
현재 프레임에서의 채널 간 시간차는 현재 프레임에서의 좌측 채널 신호와 현재 프레임에서의 우측 채널 신호 사이의 시간차일 수 있고, 현재 프레임의 이전 채널에서의 채널 간 시간차는 현재 프레임의 이전 프레임에서의 좌측 채널 신호와 현재 프레임의 이전 프레임에서의 우측 채널 신호 사이의 시간차일 수 있음을 이해해야 한다.
현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하는 것은 현재 프레임에서의 채널 간 시간 차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 가중 평균 처리를 수행하는 것과 동등하다는 것을 이해해야 한다. 이러한 방식으로, 현재 프레임에서의 보간 처리 후 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간차 사이에 있다.
현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하는 구체적인 방식은 복수 있을 수 있다. 예를 들어, 보간 처리는 다음 방식 1 및 방식 2로 수행될 수 있다.
방식 1:
현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식 (1)에 따라 계산된다.
Figure 112020017674506-pct00001
(1)
식 (1)에서, A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며,
Figure 112020017674506-pct00002
Figure 112020017674506-pct00003
를 충족시키는 실수이다.
채널 간 시간차는 식
Figure 112020017674506-pct00004
를 사용하여 조정될 수 있어, 현재 프레임에서의 보간 처리 후에 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간 차 사이에 있으며, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 가능한 한, 인코딩 및 디코딩되지 않은 원시 스테레오 신호의 채널 간 시간차와 매칭된다.
구체적으로, 현재 프레임이 제i 프레임이라고 가정하면, 현재 프레임의 이전 프레임은 제(i-1) 프레임이다. 이 경우, 제i 프레임의 채널 간 시간차는 식 (2)에 따라 결정될 수 있다.
Figure 112020017674506-pct00005
(2)
식 (2)에서,
Figure 112020017674506-pct00006
는 제i 프레임에서의 보간 처리 후의 채널 간 시간차이고,
Figure 112020017674506-pct00007
는 현재 프레임에서의 채널 간 시간차이고,
Figure 112020017674506-pct00008
는 제(i-1) 프레임에서의 채널 간 시간차이고,
Figure 112020017674506-pct00009
는 식 (1)에서의
Figure 112020017674506-pct00010
와 동일한 의미를 가지며, 또한 제1 보간 계수이다.
제1 보간 계수는 기술 담당자에 의해 직접 설정될 수 있다. 예를 들어, 제1 보간 계수는 0.4 또는 0.6으로 직접 설정될 수 있다.
또한, 제1 보간 계수
Figure 112020017674506-pct00011
는 현재 프레임의 프레임 길이와, 인코딩 및 디코딩 지연에 기초하여 결정될 수도 있다. 여기서의 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함할 수 있다. 또한, 여기서의 인코딩 및 디코딩 지연은 인코딩 지연과 디코딩 지연의 합일 수 있다. 인코딩 및 디코딩 지연은 코덱에 의해 사용되는 인코딩 및 디코딩 알고리즘이 결정된 후에 결정될 수 있다. 따라서, 인코딩 및 디코딩 지연은 인코더 또는 디코더의 기지의 파라미터(known parameter)이다.
선택적으로, 제1 보간 계수
Figure 112020017674506-pct00012
는 구체적으로 인코딩 및 디코딩 지연에 반비례할 수 있고, 현재 프레임의 프레임 길이에 정비례한다. 다시 말해, 제1 보간 계수
Figure 112020017674506-pct00013
는 인코딩 및 디코딩 지연이 증가함에 따라 감소하고, 현재 프레임의 프레임 길이가 증가함에 따라 증가한다.
선택적으로, 제1 보간 계수
Figure 112020017674506-pct00014
는 식 (3)에 따라 결정될 수 있다.
Figure 112020017674506-pct00015
(3)
식 (3)에서, N은 현재 프레임의 프레임 길이이고, S는 인코딩 및 디코딩 지연이다.
N=320 및 S=192인 경우, 식 (3)에 따라 다음을 획득할 수 있다.
Figure 112020017674506-pct00016
(4)
최종적으로, 제1 보간 계수
Figure 112020017674506-pct00017
가 0.4임을 알 수 있다.
대안적으로, 제1 보간 계수는 미리 저장된다. 인코딩 및 디코딩 지연과, 프레임 길이는 미리 알려질 수 있기 때문에, 대응하는 제1 보간 계수
Figure 112020017674506-pct00018
는 또한 인코딩 및 디코딩 지연과, 프레임 길이에 기초하여 미리 결정되어 저장될 수도 있다. 구체적으로, 제1 보간 계수
Figure 112020017674506-pct00019
는 인코딩단에 미리 저장될 수 있다. 이러한 방식으로, 보간 처리를 수행할 때, 인코딩단은 제1 보간 계수
Figure 112020017674506-pct00020
의 값을 계산하지 않고 미리 저장된 제1 보간 계수
Figure 112020017674506-pct00021
에 기초하여 바로 보간 처리를 수행할 수 있다. 이는 인코딩 프로세스의 계산 복잡도를 줄이고 인코딩 효율을 향상시킬 수 있다.
방식 2:
현재 프레임에서의 채널 간 시간차는 식 (5)에 따라 결정된다.
Figure 112020017674506-pct00022
(5)
식 (5)에서, A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며,
Figure 112020017833491-pct00115
를 충족시키는 실수이다.
채널 간 시간차는 식
Figure 112020017674506-pct00024
를 사용하여 조정될 수 있어, 현재 프레임에서의 보간 처리 후에 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간차 사이에 있고, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 가능한 한, 인코딩 및 디코딩되지 않은 원시 스테레오 신호의 채널 간 시간차와 매칭된다.
구체적으로, 현재 프레임이 제i 프레임이라고 가정하면, 현재 프레임의 이전 프레임은 제(i-1) 프레임이다. 이 경우, 제i 프레임에서의 채널 간 시간차는 식 (6)에 따라 결정될 수 있다.
Figure 112020017674506-pct00025
(6)
식 (6)에서,
Figure 112020017833491-pct00026
는 제i 프레임에서의 채널 간 시간차이고,
Figure 112020017833491-pct00027
는 현재 프레임에서의 채널 간 시간차이고,
Figure 112020017833491-pct00028
는 제(i-1) 프레임에서의 채널 간 시간차이고, β는 식 (5)에서의 β와 동일한 의미를 가지며, 또한 제2 보간 계수이다.
전술한 보간 계수는 기술 담당자에 의해 직접 설정될 수 있다. 예를 들어, 제2 보간 계수 β는 0.6 또는 0.4로 직접 설정될 수 있다.
또한, 제2 보간 계수 β는 현재 프레임의 프레임 길이와, 인코딩 및 디코딩 지연에 기초하여 결정될 수도 있다. 여기서의 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다. 또한, 여기서의 인코딩 및 디코딩 지연은 인코딩 지연과 디코딩 지연의 합일 수 있다.
선택적으로, 제2 보간 계수 β는 구체적으로 인코딩 및 디코딩 지연에 정비례할 수 있다. 또한, 제2 보간 계수 β는 구체적으로 현재 프레임의 프레임 길이에 반비례할 수 있다.
선택적으로, 제2 보간 계수 β는 식 (7)에 따라 결정될 수 있다.
Figure 112020017674506-pct00029
(7)
식 (7)에서, N은 현재 프레임의 프레임 길이이고, S는 인코딩 및 디코딩 지연이다.
N=320 및 S=192일 때, 식 (7)에 따라 다음을 획득할 수 있다.
Figure 112020017674506-pct00030
(8)
최종적으로, 제2 보간 계수 β가 0.6임을 알 수 있다.
대안적으로, 제2 보간 계수 β는 미리 저장된다. 인코딩 및 디코딩 지연과, 프레임 길이가 미리 알려질 수 있기 때문에, 대응하는 제2 보간 계수 β는 인코딩 및 디코딩 지연과, 프레임 길이에 기초하여 미리 결정되어 저장될 수 있다. 구체적으로, 제2 보간 계수 β는 인코딩단에 미리 저장될 수 있다. 이러한 방식으로, 보간 처리를 수행할 때, 인코딩단은 제2 보간 계수 β의 값을 계산하지 않고 미리 저장된 제2 보간 계수 β에 기초하여 보간 처리를 직접 수행할 수 있다. 이는 인코딩 프로세스의 계산 복잡도를 줄이고 인코딩 효율을 향상시킬 수 있다.
430. 현재 프레임에서의 채널 간 시간차에 기초하여 현재 프레임에서의 스테레오 신호에 대해 지연 정렬을 수행하여, 현재 프레임에서의 지연 정렬 후의 스테레오 신호를 획득한다.
현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 대해 지연 정렬이 수행되는 경우, 좌측 채널 신호 및 우측 채널 신호 중 하나 또는 둘은 현재 프레임에서의 채널 간 시간차에 기초하여 압축 또는 확장될 수 있어, 지연 정렬 후의 좌측 채널 신호와 우측 채널 신호 사이에 채널 간 시간차가 존재하지 않는다. 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 대해 지연 정렬이 수행된 후에 획득되는, 현재 프레임에서의 지연 정렬 후의 좌측 채널 신호 및 오른쪽 채널 신호는 현재 프레임에서의 지연 정렬 후의 스테레오 신호이다.
440. 현재 프레임에서의 지연 정렬 후에 스테레오 신호에 대해 시간 영역 다운믹싱 처리를 수행하여, 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 획득한다.
지연 정렬 후에 좌측 채널 신호 및 우측 채널 신호에 대해 시간 영역 다운믹싱 처리가 수행되는 경우, 좌측 채널 신호 및 우측 채널 신호는 중앙 채널(Mid channel) 신호 및 측 채널(Side channel) 신호에 다운믹싱될 수 있다. 중앙 채널 신호는 왼쪽 채널과 오른쪽 채널 사이의 관련 정보를 나타낼 수 있고, 측 채널 신호는 왼쪽 채널과 오른쪽 채널 사이의 차이 정보를 나타낼 수 있다.
L은 좌측 채널 신호를 나타내고 R은 우측 채널 신호를 나타내는 것으로 가정하면, 중앙 채널 신호는 0.5 x(L+R)이고 측 채널 신호는 0.5 x(L-R)이다.
또한, 지연 정렬 후에 좌측 채널 신호 및 우측 채널 신호에 대해 시간 영역 다운믹싱 처리가 수행되어, 다운믹싱 처리에서 좌측 채널 신호 및 우측 채널 신호의 비율을 제어하는 경우, 채널 조합 스케일 인자는 계산될 수 있으며, 그 후 좌측 채널 신호 및 우측 채널 신호에 대해 시간 영역 다운믹싱 처리가 수행되어, 주 채널 신호 및 부 채널 신호를 획득한다.
채널 조합 스케일 인자를 계산하기 위한 복수의 방법이 있다. 예를 들어, 현재 프레임에서의 채널 조합 스케일 인자는 좌측 채널 및 우측 채널의 프레임 에너지에 기초하여 계산될 수 있다. 구체적인 프로세스는 다음과 같다.
(1). 현재 프레임에서 지연 정렬 후의 좌측 채널 신호 및 우측 채널 신호에 기초하여 좌측 채널 신호 및 우측 채널 신호의 프레임 에너지를 계산한다.
현재 프레임에서의 좌측 채널의 프레임 에너지
Figure 112020017674506-pct00031
는 다음을 충족시킨다:
Figure 112020017674506-pct00032
(9)
현재 프레임에서의 우측 채널의 프레임 에너지
Figure 112020017674506-pct00033
는 다음을 충족시킨다:
Figure 112020017674506-pct00034
(10)
Figure 112020017674506-pct00035
는 현재 프레임에서의 지연 정렬 후 좌측 채널 신호이고,
Figure 112020017674506-pct00036
는 현재 프레임에서의 지연 정렬 후의 우측 채널 신호이고, n은 샘플링 포인트 수이며, n = 0, 1, …, N-1이다.
(2). 좌측 채널 및 우측 채널의 프레임 에너지에 기초하여 현재 프레임에서의 채널 조합 스케일 인자를 계산한다.
현재 프레임에서의 채널 조합 스케일 인자
Figure 112020017674506-pct00037
는 다음을 충족시킨다:
Figure 112020017674506-pct00038
(11)
따라서, 채널 조합 스케일 인자는 좌측 채널 신호 및 우측 채널 신호의 프레임 에너지에 기초하여 계산된다.
채널 조합 스케일 인자
Figure 112020017674506-pct00039
가 획득된 후, 시간 영역 다운믹싱 처리는 채널 조합 스케일 인자
Figure 112020017674506-pct00040
에 기초하여 수행될 수 있다. 예를 들어, 시간 영역 다운믹싱 처리 후의 주 채널 신호 및 부 채널 신호는 식 (12)에 따라 결정될 수 있다.
Figure 112020017674506-pct00041
(12)
Y(n)은 현재 프레임에서의 주 채널 신호이고, X(n)은 현재 프레임에서의 부 채널 신호이며,
Figure 112020017674506-pct00042
는 현재 프레임에서의 지연 정렬 후 좌측 채널 신호이고,
Figure 112020017674506-pct00043
는 현재 프레임에서의 지연 정렬 후의 우측 채널 신호이고, n은 샘플링 포인트 수이고, n = 0, 1, …, N-1이고, N은 프레임 길이이며, ratio는 채널 조합 스케일 인자이다.
(3). 채널 조합 스케일 인자를 양자화하고, 양자화된 채널 조합 스케일 인자를 비트스트림에 기록한다.
450. 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 양자화하고, 양자화된 채널 간 시간차를 비트스트림에 기록한다.
구체적으로, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 양자화하는 프로세스에서, 양자화 색인을 획득하기 위해, 종래 기술의 임의의 양자화 알고리즘이 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 양자화하는 데 사용될 수 있다. 그 후, 양자화 색인을 인코딩되어 비트스트림에 기록된다.
460. 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 양자화하고, 양자화된 주 채널 신호 및 양자화된 부 채널을 비트스트림에 기록한다.
선택적으로, 모노포닉 신호(monophonic signal) 인코딩 및 디코딩 방법이 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 데 사용될 수 있다. 구체적으로, 주 채널 및 부 채널을 인코딩하는 비트는 이전 프레임에서의 주 채널 신호 및/또는 이전 프레임에서의 부 채널 신호를 인코딩하는 프로세스에서 획득된 파라미터 정보와, 주 채널 신호 및 부 채널 신호를 인코딩하는 비트의 총수에 기초하여 할당될 수 있다. 그러면, 주 채널 신호와 부 채널 신호는 비트 할당 결과에 기초하여 개별적으로 인코딩되어, 주 채널을 인코딩하는 인코딩 색인과 부 채널을 인코딩하는 인코딩 색인을 획득한다.
단계 460 이후에 획득되는 비트스트림은, 현재 프레임에서의 보간 처리 후의 채널 간 시간차가 양자화된 후에 획득되는 비트스트림 및 주 채널 신호 및 부 채널 신호가 양자화된 후에 획득되는 비트스트림을 포함한다는 것을 이해해야 한다.
선택적으로, 상기 방법(400)에서, 단계 440에서 시간 영역 다운믹싱 처리가 수행될 때 사용되는 채널 조합 스케일 인자는 대응하는 비트스트림을 획득하기 위해, 양자화될 수 있다.
따라서, 상기 방법(400)에서 최종적으로 획득된 비트스트림은, 현재 프레임에서의 보간 처리 후의 채널 간 시간차가 양자화된 후에 획득되는 비트스트림, 현재프레임에서의 주 채널 신호 및 부 채널 신호가 양자화된 후에 획득되는 비트스트림, 및 채널 조합 스케일 인자가 획득된 후에 획득되는 비트스트림을 포함할 수 있다.
본 출원에서는, 현재 프레임에서의 채널 간 시간차는 주 채널 신호 및 부 채널 신호를 획득하기 위해, 인코딩단에서 지연 정렬을 수행하는 데 사용된다. 그러나 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 보간 처리가 수행되어, 보간 처리 후에 획득되는 현재 프레임에서의 채널 간 시간차가 인코딩 및 디코딩에 의해 획득되는 주 채널 신호 및 부 채널 신호와 매칭될 수 있도록 한다. 보간 처리 후의 채널 간 시간 차는 인코딩된 다음 디코딩단에 송신되어, 디코딩단이 디코딩에 의해 획득되는 주 채널 신호 및 부 패널 신호와 매칭되는 현재 프레임에서의 채널 간 시간 차에 기초하여 디코딩을 수행할 수 있도록 한다. 이는 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시킬 수 있다. 따라서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 스테레오 사운드 이미지의 정확도가 향상된다.
방법(400)에서 최종적으로 획득된 비트스트림은 디코딩단에 전송될 수 있고, 디코딩단은 수신된 비트스트림을 디코딩하여 현재 프레임에서의 주 채널 신호 및 부 채널 신호와, 현재 프레임에서의 채널 간 시간차를 획득하고, 현재 프레임에서의 채널 간 시간차에 기초하여, 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호의 지연을 조정하여, 디코딩된 스테레오 신호를 획득할 수 있다는 것을 이해해야 한다. 디코딩단에 의해 실행되는 구체적인 프로세스는 도 2에 도시된 종래 기술의 시간 영역 스테레오 디코딩 방법의 프로세스와 동일할 수 있다.
디코딩단은 방법(400)에서 생성된 비트스트림을 디코딩하며, 최종적으로 획득된 스테레오 신호 내의 신호와 원시 스테레오 신호 내의 동일한 신호 사이의 차이는 도 5에 도시된 것일 수 있다. 도 5와 도 3을 비교함으로써, 도 3에 비해, 도 5에서,디코딩에 의해 최종적으로 획득되는 스테레오 신호 내의 신호와 원시 스테레오 신호 내의 동일한 신호 사이의 지연은 매우 작아졌다. 특히, 채널 간 시간차의 값이 크게 변화할 때(도 5에서 직사각형 프레임의 영역으로 도시된 바와 같이), 디코딩단에 의해 최종적으로 획득되는 채널 신호 내의 신호와 원시 채널 신호 내의 동일한 신호 사이의 지연도 또한 매우 작다. 다시 말해, 본 출원의 본 실시예에서의 스테레오 신호의 인코딩 방법에 따르면, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와, 원시 스테레오에서의 채널 간 시간차 사이의 편차를 줄일 수 있다.
주 채널 신호 및 부 채널 신호를 획득하기 위해, 여기서 다운믹싱 처리가 다른 방식으로 추가로 구현될 수 있음을 이해해야 한다.
본 출원의 실시예에서의 스테레오 신호의 인코딩 방법의 상세한 프로세스는 도 6을 참조하여 이하에 설명한다.
도 6은 본 출원의 일 실시예에 따른 스테레오 신호의 인코딩 방법의 개략 흐름도이다. 방법(600)은 인코딩단에 의해 실행될 수 있고, 인코딩단은 채널 신호를 인코딩하는 기능을 갖는 인코더 또는 기기일 수 있다. 방법(600)은 구체적으로 다음 단계를 포함한다.
610. 스테레오 신호에 대해 시간 영역 전처리를 수행하여, 좌측 채널 신호 및 우측 채널 신호를 획득한다.
구체적으로, 스테레오 신호에 대한 시간 영역 전처리는 고역 통과 필터링, 프리 엠퍼시스 처리 등을 사용하여 구현될 수 있다.
620. 현재 프레임에서의 전처리 후의 좌측 채널 신호 및 우측 채널 신호에 기초하여 지연 추정을 수행하여, 현재 프레임에서의 추정된 채널 간 시간차를 획득한다.
현재 프레임에서의 추정된 채널 간 시간차는 방법(400)에서 현재 프레임에서의 채널 간 시간차와 동등하다.
630. 현재 프레임에서의 추정된 채널 간 시간차에 기초하여 좌측 채널 신호 및 우측 채널 신호에 대해 지연 정렬을 수행하여, 지연 정렬 후의 스테레오 신호를 획득한다.
640. 추정된 채널 간 시간차에 대해 보간 처리를 수행한다.
보간 처리 후의 채널 간 시간차는 전술한 설명에 있어 현재 프레임에서의 보간 처리 후의 채널 간 시간차와 동등하다.
650. 보간 처리 후의 채널 간 시간차를 양자화한다.
660. 지연 정렬 후의 스테레오 신호에 기초하여 채널 조합 스케일 인자를 결정하고, 채널 조합 스케일 인자를 양자화한다.
670. 채널 조합 스케일 인자에 기초하여, 지연 정렬 후에 획득되는 좌측 채널 신호 및 우측 채널 신호에 대한 시간 영역 다운믹싱 처리를 수행하여, 주 채널 신호 및 부 채널 신호를 획득한다.
680. 모노포닉 신호 인코딩 및 디코딩 방법을 사용하여, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩한다.
이상은 도 4 내지 도 6을 참조하여 본 출원의 실시예에서의 스테레오 신호의 인코딩 방법을 상세히 설명하였다. 도 4 내지 도 6을 참조하여 설명한 실시예에서의 스테레오 신호의 인코딩 방법에 대응하는 디코딩 방법은 스테레오 신호의 기존 디코딩 방법일 수 있다. 구체적으로, 본 출원에서 도 4 및 도 6을 참조하여 설명한 실시에에서의 스테레오 신호의 인코딩 방법에 대응하는 디코딩 방법은 도 2에 도시된 디코딩 방법(200)일 수 있다.
이하에서는 도 7 및 도 8을 참조하여 본 출원의 실시예에서의 스테레오 신호의 디코딩 방법을 상세히 설명한다. 도 7 및 도 8을 참조하여 설명하는 실시예에서의 스테레오 신호의 디코딩 방법에 대응하는 인코딩 방법은 기존의 스테레오 신호의 인코딩 방법일 수 있지만, 본 출원에서의 도 4 및 도 6을 참조하여 설명한 실시예에서의 스테레오 신호의 인코딩 방법일 수 없다.
도 7은 본 출원의 일 실시예에 따른 스테레오 신호의 디코딩 방법의 개략 흐름도이다. 방법(700)은 디코딩단에 의해 실행될 수 있고, 디코딩단은 디코더 또는 스테레오 신호를 디코딩하는 기능을 갖는 기기일 수 있다. 방법(700)은 구체적으로 다음 단계를 포함한다.
710. 비트스트림을 디코딩하여 현재 프레임에서의 주 채널 신호 및 부 채널 신호 및 현재 프레임에서의 채널 간 시간차를 획득한다.
단계 710에서, 주 채널 신호를 디코딩하는 방법은 인코딩단에 의한 주 채널 신호를 인코딩하는 방법에 대응할 필요가 있음을 이해해야 한다. 유사하게, 부 채널을 디코딩하는 방법은 또한 인코딩단에 의한 부 채널 신호를 인코딩하는 방법에 대응할 필요가 있다.
선택적으로, 단계 710에서의 비트스트림은 디코딩단에 의해 수신되는 비트스트림일 수 있다.
여기서 처리된 스테레오 신호는 좌측 채널 신호 및 우측 채널 신호를 포함할 수 있고, 현재 프레임에서의 채널 간 시간차는 인코딩단에 의해, 좌측 채널 신호 및 우측 채널 신호의 지연을 추정함으로써 획득될 수 있고, 그 후 현재 프레임에서의 채널 간 시간차는 디코딩단에 전송되기 전에 양자화된다는 것을 이해해야 한다(현재 프레임에서의 채널 간 시간차는 구체적으로, 디코딩단이 수신된 비트스트림을 디코딩한 후에 결정될 수 있음). 예를 들어, 인코딩단은 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 기초하여 좌측 채널 및 우측 채널의 상호 상관 함수(cross-correlation function)를 계산한 다음, 상호 상관 함수의 최대치에 대응하는 색인 값을 현재 프레임에서의 채널 간 시간차로서 사용하고, 현재 프레임에서의 채널 간 시간차를 양자화 및 인코딩하고, 양자화된 채널 간 시간차를 디코딩단에 송신한다. 디코딩단은 수신된 비트스트림을 디코딩하여 현재 프레임에서의 채널 간 시간차를 결정한다. 인코딩단이 좌측 채널 신호 및 우측 채널 신호의 지연을 추정하는 구체적인 방식은 전술한 설명에서 예 1 내지 예 3에 나타낸 바와 같을 수 있다.
720. 현재 프레임에서의 주 채널 신호 및 부 채널 신호에 대해 시간 영역 업믹싱 처리를 수행하여, 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호를 획득한다.
구체적으로, 시간 영역 업믹싱 처리는, 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호(시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 신호 및 우측 채널 신호라고도 지칭될 수 있음)를 획득하기 위해, 채널 조합 스케일 인자에 기초하여, 디코딩에 의해 획득되는 현재 프레임에서의 주 채널 신호 및 부 채널 신호에 대해 수행될 수 있다..
인코딩단 및 디코딩단은 시간 영역 다운믹싱 처리 및 시간 영역 업믹싱 처리를 각각 수행하기 위해 여러 가지 방법을 사용할 수 있음을 이해해야 한다. 그러나 디코딩단에 의해 시간 영역 업믹싱 처리를 수행하는 방법은 인코딩단에 의해 시간 영역 다운믹싱 처리를 수행하는 방법에 대응할 필요가 있다. 예를 들어, 인코딩단이 식 (12)에 따라 주 채널 신호 및 부 채널 신호를 획득하는 경우, 디코딩단은 먼저, 수신된 비트스트림을 디코딩하여 채널 조합 스케일 인자를 획득한 다음, 식 (13)에 따른 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 신호 및 우측 채널 신호를 획득할 수 있다.
Figure 112020017674506-pct00044
(13)
식 (13)에서,
Figure 112020017674506-pct00045
는 현재 프레임에서의 시간 영역 업믹싱 처리 후의 좌측 채널 신호이고,
Figure 112020017674506-pct00046
는 현재 프레임에서의 시간 영역 업믹싱 처리 후의 우측 채널 신호이고, Y(n)은 디코딩에 의해 획득되는 현재 프레임에서의 주 채널 신호이고, X(n)은 디코딩에 의해 획득되는 현재 프레임의 부 채널 신호이고, n은 샘플링 포인트 수이고, n = 0, 1,…, N-1이고, N은 프레임 길이이며, ratio는 디코딩에 의해 획득되는 채널 조합 스케일 인자이다.
730. 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 획득한다.
단계 730에서, 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하는 것은 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 가중 평균 처리를 수행하는 것과 동등하다. 이러한 방식으로, 현재 프레임에서의 보간 처리 후에 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차 사이에 있다.
단계 730에서, 보간 처리가 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 수행되는 경우에 다음의 방식 3 및 방식 4가 사용될 수 있다.
방식 3:
현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식 (14)에 따라 계산된다.
Figure 112020017674506-pct00047
(14)
식 (14)에서, A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며,
Figure 112020017674506-pct00048
Figure 112020017674506-pct00049
를 충족시키는 실수이다.
채널 간 시간차는 식
Figure 112020017674506-pct00050
를 사용하여 조정될 수 있어, 현재 프레임에서의 보간 처리 후에 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간 차 사이에 있으며, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 가능한 한, 인코딩 및 디코딩되지 않은 원시 스테레오 신호의 채널 간 시간차와 매칭된다.
현재 프레임이 제i 프레임이라고 가정하면, 현재 프레임의 이전 프레임은 제(i-1) 프레임이다. 이 경우, 식 (14)는 식 (15)로 변환될 수 있다.
Figure 112020017674506-pct00051
(15)
식 (15)에서,
Figure 112020017674506-pct00052
는 제i 프레임에서의 보간 처리 후의 채널 간 시간차이고,
Figure 112020017674506-pct00053
는 현재 프레임에서의 채널 간 시간차이고,
Figure 112020017674506-pct00054
는 제(i-1) 프레임에서의 채널 간 시간차이다.
식 (14) 및 식 (15)에서 제1 보간 계수
Figure 112020017674506-pct00055
는 기술 담당자에 의해 직접 설정될 수 있다(경험에 따라 직접 설정될 수 있다). 예를 들어, 제1 보간 계수
Figure 112020017674506-pct00056
는 0.4 또는 0.6으로 직접 설정될 수 있다.
선택적으로, 제1 보간 계수
Figure 112020017674506-pct00057
는 현재 프레임의 프레임 길이와, 인코딩 및 디코딩 지연에 기초하여 결정될 수도 있다. 여기서의 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함할 수 있다. 또한, 여기서의 인코딩 및 디코딩 지연은 인코딩단에서의 인코딩 지연과 디코딩단에서의 디코딩 지연의 합일 수 있다.
선택적으로, 제1 보간 계수
Figure 112020017674506-pct00058
는 구체적으로 인코딩 및 디코딩 지연에 반비례할 수 있고, 현재 프레임의 프레임 길이에 정비례한다. 다시 말해, 제1 보간 계수
Figure 112020017674506-pct00059
는 인코딩 및 디코딩 지연이 증가함에 따라 감소하고, 현재 프레임의 프레임 길이가 증가함에 따라 증가한다.
선택적으로, 제1 보간 계수
Figure 112020017674506-pct00060
는 식 (16)에 따라 결정될 수 있다.
Figure 112020017674506-pct00061
(16)
식 (16)에서, N은 현재 프레임의 프레임 길이이고, S는 인코딩 및 디코딩 지연이다.
현재 프레임의 프레임 길이가 320이고, 인코딩 및 디코딩 지연이 192, 다시 말해, N=320 및 S=192라고 가정한다. 이 경우, N 및 S를 식 (16)에 대입하여 다음을 획득할 수 있다:
Figure 112020017674506-pct00062
(17)
최종적으로, 제1 보간 계수
Figure 112020017674506-pct00063
는 0.4인 것을 알 수 있다.
대안적으로, 제1 보간 계수는 미리 저장된다. 구체적으로, 제1 보간 계수
Figure 112020017674506-pct00064
는 디코딩단에 미리 저장될 수 있다. 이러한 방식으로, 보간 처리를 수행할 때, 디코딩단은 제1 보간 계수
Figure 112020017674506-pct00065
의 값을 계산하지 않고 미리 저장된 제1 보간 계수
Figure 112020017674506-pct00066
에 기초하여 직접 보간 처리를 수행할 수 있다. 이는 디코딩 프로세스의 계산 복잡도를 줄이고 디코딩 효율을 향상시킬 수 있다.
방식 4:
현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식 (18)에 따라 계산된다.
Figure 112020017674506-pct00067
(18)
식 (18)에서, A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1를 충족시키는 실수이다.
채널 간 시간차는 식
Figure 112020017674506-pct00069
를 사용하여 조정될 수 있어, 현재 프레임에서의 보간 처리 후에 최종적으로 획득된 채널 간 시간차는 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간차 사이에 있고, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 가능한 한, 인코딩 및 디코딩되지 않은 원시 스테레오 신호의 채널 간 시간차와 매칭될 수 있도록 한다.
현재 프레임이 제i 프레임이라고 가정하면, 현재 프레임의 이전 프레임은 제(i-1) 프레임이다. 이 경우, 식 (18)은 다음 식으로 변환될 수 있다:
Figure 112020017674506-pct00070
(19)
식 (19)에서,
Figure 112020017833491-pct00071
는 제i 프레임에서의 보간 처리 후의 채널 간 시간차이고,
Figure 112020017833491-pct00072
는 현재 프레임에서의 채널 간 시간차이고,
Figure 112020017833491-pct00073
는 제(i-1) 프레임에서의 채널 간 시간차이다.
제1 보간 계수
Figure 112020017674506-pct00074
를 설정하는 방식과 유사하게, 제2 보간 계수 β는 또한 기술 담당자에 의해 직접 설정될 수 있다(경험에 따라 직접 설정될 수 있다). 예를 들어, 제2 보간 계수 β는 0.6 또는 0.4로 직접 설정될 수 있다.
선택적으로, 제2 보간 계수 β는 현재 프레임의 프레임 길이와, 인코딩 및 디코딩 지연에 기초하여 결정될 수도 있다. 여기서의 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다. 또한, 여기서의 인코딩 및 디코딩 지연은 인코딩단에서의 인코딩 지연과 디코딩단에서의 디코딩 지연의 합일 수 있다.
선택적으로, 제2 보간 계수 β는 구체적으로 인코딩 및 디코딩 지연에 정비례할 수 있고, 현재 프레임의 프레임 길이에 반비례할 수 있다. 다시 말해, 제2 보간 계수 β는 인코딩 및 디코딩 지연이 증가함에 따라 증가하고, 현재 프레임의 프레임 길이가 증가함에 따라 감소한다.
선택적으로, 제2 보간 계수 β는 식 (20)에 따라 결정될 수 있다.
Figure 112020017674506-pct00075
(20)
식 (20)에서, N은 현재 프레임의 프레임 길이이고, S는 인코딩 및 디코딩 지연이다.
N=320 및 S=192이라고 가정한다. 이 경우, N=320 및 S=192은 식 (20)에 대입되어 다음을 획득한다:
Figure 112020017674506-pct00076
(21)
최종적으로, 제2 보간 계수 β가 0.6임을 알 수 있다.
대안적으로, 제2 보간 계수 β는 미리 저장된다. 구체적으로, 제2 보간 계수 β는 디코딩단에 미리 저장될 수 있다. 이러한 방식으로, 보간 처리를 수행할 때, 디코딩단은 제2 보간 계수 β의 값을 계산하지 않고 미리 저장된 제2 보간 계수 β에 기초하여 보간 처리를 직접 수행할 수 있다. 이는 디코딩 프로세스의 계산 복잡도를 줄이고 디코딩 효율을 향상시킬 수 있다.
740. 현재 프레임에서의 채널 간 시간차에 기초하여 좌측 채널 재구성 신호 및 우측 채널 재구성 신호의 지연을 조정한다.
선택적으로, 지연 조정 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호는 디코딩된 스테레오 신호인 것으로 이해해야 한다.
선택적으로, 단계 740 후에, 상기 방법은, 지연 조정 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호에 기초하여 디코딩된 스테레오 신호를 획득하는 단계를 더 포함할 수 있다. 예를 들어, 디코딩된 스테레오 신호를 획득하기 위해, 지연 조정 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호에 대해 디엠퍼시스 처리(de-emphasis processing)가 수행된다. 다른 예를 들어, 디코딩된 스테레오 신호를 획득하기 위해, 지연 조정 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호에 대해 후처리(post-processing)가 수행된다.
본 출원에서, 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 보간 처리를 수행함으로써, 현재 프레임에서의 보간 처리 후의 채널 간 시간차가 현재 디코딩에 의해 획득되는 주 채널 신호 및 부 채널 신호와 매칭될 수 있다. 이는 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시킬 수 있다. 따라서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 스테레오 사운드 이미지의 정확도가 향상된다.
구체적으로, 방법(700)에서 최종적으로 획득된 스테레오 신호 내의 신호와 원시 스테레오 신호 내의 동일한 신호 사이의 차이는 도 5에 도시된 것일 수 있다. 도 5와 도 3을 비교함으로써, 도 5에서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호 내의 신호와 원시 스테레오 신호 내의 동일한 신호 사이의 지연은 매우 작아졌다. 특히, 채널 간 시간차의 값이 크게 변화할 때(도 5에서 직사각형 프레임의 영역으로 도시됨), 디코딩단에 의해 최종적으로 획득되는 채널 신호와 원시 채널 신호 사이의 지연도 또한 매우 작다. 다시 말해, 본 출원의 본 실시예에서의 스테레오 신호의 디코딩 방법에 따르면, 디코딩에 의해 최종적으로 획득되는 스테레오 신호 내의 신호와 원시 스테레오 내의 동일한 신호 사이의 지연 편차를 줄일 수 있다.
방법(700)에 대응하는 인코딩단의 인코딩 방법은 기존의 시간 영역 스테레오 인코딩 방법일 수 있음을 이해해야 한다. 예를 들어, 방법(700)에 대응하는 시간 영역 스테레오 인코딩 방법은 도 1에 도시된 방법(100)일 수 있다.
본 출원의 실시예에서의 스테레오 신호의 디코딩 방법의 상세한 프로세스는 도 8을 참조하여 이하에 설명한다.
도 8은 본 출원의 실시예에 따른 스테레오 신호의 디코딩 방법의 개략 흐름도이다. 방법(800)은 디코딩단에 의해 실행될 수 있고, 디코딩단은 디코더 또는 채널 신호를 디코딩하는 기능을 갖는 기기일 수 있다. 방법(800)은 구체적으로 다음 단계들을 포함한다.
810. 수신된 비트스트림에 기초하여 주 채널 신호 및 부 채널 신호를 각각 디코딩한다.
구체적으로, 디코딩단에 의해 주 채널 신호를 디코딩하는 디코딩 방법은 인코딩단에 의해 주 채널 신호를 인코딩하는 인코딩 방법에 대응한다. 디코딩단에 의해 부 채널 신호를 디코딩하는 디코딩 방법은 인코딩단에 의해 부 채널 신호를 인코딩하는 인코딩 방법에 대응한다.
820. 수신된 비트스트림을 디코딩하여 채널 조합 스케일 인자를 획득한다.
구체적으로, 수신된 비트스트림을 디코딩하여 채널 조합 스케일 인자의 인코딩 색인을 획득하고, 그 후 채널 조합 스케일 인자의 획득된 인코딩 색인에 기초하여 디코딩함으로써 채널 조합 스케일 인자가 획득된다.
830. 채널 조합 스케일 인자에 기초하여 주 채널 신호 및 부 채널 신호에 대해 시간 영역 업믹싱 처리를 수행하여, 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호를 획득한다.
840. 수신된 비트스트림을 디코딩하여 현재 프레임에서의 채널 간 시간차를 획득한다.
850. 디코딩에 의해 획득되는 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 획득한다.
860. 보간 처리 후의 채널 간 시간차에 기초하여, 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호의 지연을 조정하여, 디코딩된 스테레오 신호를 획득한다.
본 출원에서, 현재 프레임에서의 채널 간 시간차 및 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하는 프로세스는 인코딩단 또는 디코딩단에서 수행될 수 있음을 이해해야 한다. 현재 프레임에서의 채널 간 시간차 및 이전 프레임에서의 채널 간 시간차에 기초하여 인코딩단에서 보간 처리가 수행된 후, 보간 처리는 디코딩단에서 수행될 필요가 없고, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 비트스트림에 기초하여 직접 획득될 수 있고, 후속하는 지연 조정은 현재 프레임에서의 보간 처리 후의 채널 간 시간차에 기초하여 수행된다. 그러나 인코딩단에서 보간 처리가 수행되지 않는 경우, 디코딩단은 현재 프레임의 채널 간 시간차 및 이전 프레임의 채널 간 시간차에 기초하여 보간 처리를 수행한 다음, 보간 처리를 통해 획득되는 현재 프레임에서의 보간 처리 후의 채널 간 시간차에 기초하여 후속하는 지연 조정을 수행할 필요가 있다.
이상에서는 도 1 내지 도 8을 참조하여 본 출원의 실시예에서의 스테레오 신호의 인코딩 및 디코딩 방법을 상세하게 설명하였다. 이하에서는 도 9 내지 도 12를 참조하여 본 출원의 실시예에서의 스테레오 신호의 인코딩 및 디코딩 장치를 설명한다. 도 9 내지 도 12의 인코딩 장치는 본 출원의 실시예에서의 스테레오 신호의 인코딩 방법에 대응하며, 이 인코딩 장치는 본 출원의 실시예에서의 스테레오 신호의 인코딩 방법을 수행할 수 있다. 도 9 내지 도 12의 디코딩 장치는 본 출원의 실시예에서의 스테레오 신호의 디코딩 방법에 대응하며, 이 디코딩 장치는 본 출원의 실시예에서의 스테레오 신호의 디코딩 방법을 수행할 수 있다. 간결하도록, 이하에서 반복되는 설명은 적절하게 생략된다.
도 9는 본 출원의 실시예에 따른 인코딩 장치의 개략 블록도이다. 도 9에 도시된 인코딩 장치(900)는,
현재 프레임에서의 채널 간 시간차를 결정하도록 구성된 결정 모듈(910);
현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 획득하도록 구성된 보간 모듈(920);
현재 프레임에서의 채널 간 시간차에 기초하여 현재 프레임에서의 스테레오 신호에 대해 지연 정렬을 수행하여, 현재 프레임에서의 지연 정렬 후의 스테레오 신호를 획득하도록 구성된 지연 정렬 모듈(930);
현재 프레임에서의 지연 정렬 후의 스테레오 신호에 대해 시간 영역 다운믹싱 처리를 수행하여, 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 획득하도록 구성된 다운믹싱 모듈(940); 및
현재 프레임에서의 보간 처리 후의 채널 간 시간차를 양자화하고, 양자화된 채널 간 시간차를 비트스트림에 기록하도록 구성된 인코딩 모듈(950)을 포함한다.
인코딩 모듈(950)은 추가로, 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 양자화하고, 양자화된 주 채널 신호 및 양자화된 부 채널 신호를 비트스트림에 기록하도록 구성된다.
본 출원에서, 현재 프레임에서의 채널 간 시간차가 주 채널 신호 및 부 채널 신호를 획득하기 위해, 인코딩 장치에서 지연 정렬을 수행하는 데 사용된다. 그러나 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 보간 처리가 수행되어, 보간 처리 후에 획득되는 현재 프레임에서의 채널 간 시간차가 인코딩 및 디코딩에 의해 획득되는 주 채널 신호 및 부 채널 신호와 매칭될 수 있도록 한다. 보간 처리 후의 채널 간 시간 차는 인코딩된 다음 디코딩단에 송신되어, 디코딩단이 디코딩에 의해 획득되는 주 채널 신호 및 부 패널 신호와 매칭되는 현재 프레임에서의 채널 간 시간 차에 기초하여 디코딩을 수행할 수 있도록 한다. 이는 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시킬 수 있다. 따라서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 스테레오 사운드 이미지의 정확도가 향상된다.
선택적으로, 일 실시예에서, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식
Figure 112020017674506-pct00077
에 따라 계산되며, 여기서 A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1이다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 현재 프레임의 프레임 길이에 정비례하며, 여기서 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 인코딩 및 디코딩 지연이고, N은 현재 프레임의 프레임 길이이다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는 미리 저장된다.
선택적으로, 일 실시예에서, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식
Figure 112020017674506-pct00078
에 따라 계산된다.
위 식에서, A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1이다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 현재 프레임의 프레임 길이에 반비례하며, 여기서 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 인코딩 및 디코딩 지연이고, N은 현재 프레임의 프레임 길이이다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는 미리 저장된다.
도 10은 본 출원의 일 실시예에 따른 디코딩 장치의 개략 블록도이다. 도 10에 도시된 디코딩 장치(1000)는,
비트스트림을 디코딩하여 현재 프레임에서의 주 채널 신호 및 부 채널 신호, 그리고 현재 프레임에서의 채널 간 시간차를 획득하도록 구성된 디코딩 모듈(1010);
현재 영역에서의 주 채널 신호 및 부 채널 신호에 대해 시간 영역 업믹싱 처리를 수행하여, 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호를 획득하도록 구성된 업믹싱 모듈(1020);
현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 획득하도록 구성된 보간 모듈(1030); 및
현재 프레임에서의 보간 처리 후의 채널 간 시간차에 기초하여, 시간 영역 업믹싱 처리 후에 회득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호의 지연을 조정하도록 구성된 지연 조정 모듈(1040)을 포함한다.
본 출원에서, 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 보간 처리를 수행함으로써, 현재 프레임에서의 보간 처리 후의 채널 간 시간차가 현재 디코딩에 의해 획득되는 주 채널 신호 및 부 채널 신호와 매칭될 수 있다. 이는 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시킬 수 있다. 따라서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 스테레오 사운드 이미지의 정확도가 향상된다.
선택적으로, 일 실시예에서, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식
Figure 112020017674506-pct00079
에 따라 계산되며, 여기서 A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1이다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 현재 프레임의 프레임 길이에 정비례하며, 여기서 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 인코딩 및 디코딩 지연이고, N은 현재 프레임의 프레임 길이이다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는 미리 저장된다.
선택적으로, 일 실시예에서, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식
Figure 112020017674506-pct00080
에 따라 계산되며, 여기서 A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1이다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 현재 프레임의 프레임 길이에 반비례하며, 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 인코딩 및 디코딩 지연이고, N은 현재 프레임의 프레임 길이이다.
도 11은 본 출원의 실시예에 따른 인코딩 장치의 개략 블록도이다. 도 11에 도시된 인코딩 장치(1100)는,
프로그램을 저장하도록 구성된 메모리(1110); 및
메모리(1100)에 저장된 프로그램을 실행하도록 구성된 프로세서(1120)를 포함하며, 메모리(1100) 내의 프로그램이 실행될 때, 프로세서(1120)는 구체적으로, 현재 프레임에서의 채널 간 시간차를 결정하고; 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 획득하고; 현재 프레임에서의 채널 간 시간차에 기초하여 현재 프레임에서의 스테레오 신호에 대해 지연 정렬을 수행하여, 현재 프레임에서의 지연 정렬 후의 스테레오 신호를 획득하고; 현재 프레임에서의 지연 정렬 후의 스테레오 신호에 대해 시간 영역 다운믹싱 처리를 수행하여, 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 획득하고; 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 양자화하고, 양자화된 채널 간 시간차를 비트스트림에 기록하고; 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 양자화하고, 양자화된 주 채널 신호 및 양자화된 부 채널 신호를 비트스트림에 기록하도록 구성된다.
본 출원에서, 현재 프레임에서의 채널 간 시간차가 주 채널 신호 및 부 채널 신호를 획득하기 위해, 인코딩 장치에서 지연 정렬을 수행하는 데 사용된다. 그러나 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 보간 처리가 수행되어, 보간 처리 후에 획득되는 현재 프레임에서의 채널 간 시간차가 인코딩 및 디코딩에 의해 획득되는 주 채널 신호 및 부 채널 신호와 매칭될 수 있도록 한다. 보간 처리 후의 채널 간 시간 차는 인코딩된 다음 디코딩단에 송신되어, 디코딩단이 디코딩에 의해 획득되는 주 채널 신호 및 부 패널 신호와 매칭되는 현재 프레임에서의 채널 간 시간 차에 기초하여 디코딩을 수행할 수 있도록 한다. 이는 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시킬 수 있다. 따라서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 스테레오 사운드 이미지의 정확도가 향상된다.
선택적으로, 일 실시예에서, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식
Figure 112020017674506-pct00081
에 따라 계산되며, 여기서 A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1이다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 현재 프레임의 프레임 길이에 정비례하며, 여기서 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 인코딩 및 디코딩 지연이고, N은 현재 프레임의 프레임 길이이다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는 미리 저장된다.
제1 보간 계수 α는 메모리(1110)에 저장될 수 있다.
선택적으로, 일 실시예에서, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식
Figure 112020017674506-pct00082
에 따라 계산된다.
위 식에서, A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1이다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 현재 프레임의 프레임 길이에 반비례하며, 여기서 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 인코딩 및 디코딩 지연이고, N은 현재 프레임의 프레임 길이이다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는 미리 저장된다.
제2 보간 계수 β는 메모리(1110)에 저장될 수 있다.
도 12은 본 출원의 실시예에 따른 인코딩 장치의 개략 블록도이다. 도 12에 도시된 인코딩 장치(1200)는,
프로그램을 저장하도록 구성된 메모리(1210); 및
메모리(1200)에 저장된 프로그램을 실행하도록 구성된 프로세서(1220)를 포함하며, 메모리(1200) 내의 프로그램이 실행될 때, 프로세서(1220)는 구체적으로, 비트스트림을 디코딩하여 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 획득하고; 현재 영역에서의 주 채널 신호 및 부 채널 신호에 대해 시간 영역 업믹싱 처리를 수행하여, 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호를 획득하고; 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 현재 프레임에서의 보간 처리 후의 채널 간 시간차를 획득하고; 현재 프레임에서의 보간 처리 후의 채널 간 시간차에 기초하여, 시간 영역 업믹싱 처리 후에 회득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호의 지연을 조정하도록 구성된다.
본 출원에서, 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 대해 보간 처리를 수행함으로써, 현재 프레임에서의 보간 처리 후의 채널 간 시간차가 현재 디코딩에 의해 획득되는 주 채널 신호 및 부 채널 신호와 매칭될 수 있다. 이는 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 채널 간 시간차와 원시 스테레오 신호의 채널 간 시간차 사이의 편차를 감소시킬 수 있다. 따라서, 디코딩에 의해 최종적으로 획득되는 스테레오 신호의 스테레오 사운드 이미지의 정확도가 향상된다.
선택적으로, 일 실시예에서, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식
Figure 112020017674506-pct00083
에 따라 계산되며, 여기서 A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1이다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 현재 프레임의 프레임 길이에 정비례하며, 여기서 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 인코딩 및 디코딩 지연이고, N은 현재 프레임의 프레임 길이이다.
선택적으로, 일 실시예에서, 제1 보간 계수 α는 미리 저장된다.
제1 보간 계수 α는 메모리(1210)에 저장될 수 있다.
선택적으로, 일 실시예에서, 현재 프레임에서의 보간 처리 후의 채널 간 시간차는 식
Figure 112020017674506-pct00084
에 따라 계산되며, 여기서 A는 현재 프레임에서의 보간 처리 후의 채널 간 시간차이고, B는 현재 프레임에서의 채널 간 시간차이고, C는 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1이다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 현재 프레임의 프레임 길이에 반비례하며, 인코딩 및 디코딩 지연은 인코딩단에 의한, 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함한다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 인코딩 및 디코딩 지연이고, N은 현재 프레임의 프레임 길이이다.
선택적으로, 일 실시예에서, 제2 보간 계수 β는 미리 저장된다.
제2 보간 계수 β는 메모리(1210)에 저장될 수 있다.
본 출원의 실시예에서의 스테레오 신호의 인코딩 및 디코딩 방법은 도 13 내지 도 15의 단말 기기 또는 네트워크 기기에 의해 수행될 수 있음을 이해해야 한다. 또한, 본 출원의 실시예에서의 인코딩 및 디코딩 장치는 도 13 내지 도 15의 단말 기기 또는 네트워크 기기에 추가로 배치될 수 있다. 구체적으로, 본 출원의 실시예에서의 인코딩 장치는 도 13 내지 도 15의 단말 기기 또는 네트워크 기기의 스테레오 인코더일 수 있고, 본 출원의 실시예에서의 디코딩 장치는 도 13 내지 도 15의 단말 기기 또는 네트워크 기기의 스테레오 디코더일 수 있다.
도 13에 도시된 바와 같이, 오디오 통신에서, 제1 단말 기기의 스테레오 인코더는 수집된 스테레오 신호에 대해 스테레오 인코딩을 수행하고, 제1 단말 기기의 채널 인코더는 스테레오 인코더에 의해 획득되는 비트스트림에 대해 채널 인코딩을 수행할 수 있다. 다음으로, 채널 인코딩 후에 제1 단말 기기에 의해 획득된 데이터는 제1 네트워크 기기 및 제2 네트워크 기기를 사용하여 제2 단말 기기에 송신된다. 제2 단말 기기가 제2 네트워크 기기로부터 데이터를 수신한 후, 제2 단말 기기의 채널 디코더는 채널 디코딩을 수행하여, 스테레오 신호 인코딩 비트스트림을 획득한다. 제2 단말 기기의 스테레오 디코더는 디코딩에 의해 스테레오 신호를 복원하고, 단말 기기는 스테레오 신호를 재생한다. 이러한 방식으로, 서로 다른 단말 기기 사이에서 오디오 통신이 완료된다.
도 13에서, 제2 단말 기기는 또한 수집된 스테레오 신호를 인코딩할 수 있고, 최종적으로 제2 네트워크 기기 및 제1 네트워크 기기를 사용하여, 인코딩에 의해 최종적으로 획득되는 데이터를 제1 단말 기기에 송신한다는 것을 이해해야 한다. 제1 단말 기기는 데이터에 대해 채널 디코딩 및 스테레오 디코딩을 수행하여 스테레오 신호를 획득한다.
도 13에서, 제1 네트워크 기기 및 제2 네트워크 기기는 무선 네트워크 통신 장치 또는 유선 네트워크 통신 장치일 수 있다. 제1 네트워크 기기와 제2 네트워크 기기는 디지털 채널을 사용하여 서로 통신할 수 있다.
도 13의 제1 단말 기기 또는 제2 단말 기기는 본 출원의 실시예에서의 스테레오 신호의 인코딩 및 디코딩 방법을 수행할 수 있다. 본 출원의 실시예에서의 인코딩 및 디코딩 장치는 각각 제1 단말 기기 또는 제2 단말 기기에서의 스테레오 인코더 및 스테레오 디코더일 수 있다.
오디오 통신에서, 네트워크 기기는 오디오 신호의 인코딩 및 디코딩 포맷의 트랜스코딩(transcoding)을 구현할 수 있다. 도 14에 도시된 바와 같이, 네트워크 기기에 의해 수신되는 신호의 인코딩 및 디코딩 포맷이 기타 스테레오 디코더에 대응하는 인코딩 및 디코딩 포맷이면, 네트워크 기기의 채널 디코더는 수신된 신호에 대해 채널 디코딩을 수행하여, 기타 스테레오 디코더에 대응하는 인코딩된 비트스트림을 획득한다. 기타 스테레오 디코더는 인코딩된 비트스트림을 디코딩하여 스테레오 신호를 획득한다. 스테레오 인코더는 스테레오 신호를 인코딩하여 스테레오 신호의 인코딩된 비트스트림을 획득한다. 최종적으로, 채널 인코더는 스테레오 신호의 인코딩된 비트스트림에 대해 채널 인코딩을 수행하여 최종 신호를 획득한다(신호는 단말 기기 또는 다른 네트워크 기기에 전송될 수 있음). 도 14의 스테레오 인코더에 대응하는 인코딩 및 디코딩 포맷은 기타 스테레오 디코더에 대응하는 인코딩 및 디코딩 포맷과 상이하다는 것을 이해해야 한다. 기타 스테레오 디코더에 대응하는 인코딩 및 디코딩 포맷은 제1 인코딩 및 디코딩 포맷이고, 스테레오 인코더에 대응하는 인코딩 및 디코딩 포맷은 제2 인코딩 및 디코딩 포맷이라고 가정한다. 도 14에서, 네트워크 기기는 오디오 신호를 제1 인코딩 및 디코딩 포맷에서 제2 인코딩 및 디코딩 포맷으로 변환한다.
유사하게, 도 15에 도시된 바와 같이, 네트워크 기기에 의해 수신되는 신호의 인코딩 및 디코딩 포맷이 스테레오 디코더에 대응하는 인코딩 및 디코딩 포맷과 동일하면, 네트워크 기기의 채널 디코더는 채널 디코딩을 수행하여 스테레오의 인코딩된 비트스트림을 획득한 후, 스테레오 디코더는 스테레오 신호의 인코딩된 비트스트림을 디코딩하여 스테레오 신호를 획득할 수 있다. 다음으로, 기타 스테레오 인코더는 다른 인코딩 및 디코딩 포맷에 기초하여 스테레오 신호를 인코딩하여, 기타 스테레오 인코더에 대응하는 인코딩된 비트스트림을 획득한다. 마지막으로, 채널 인코더는 기타 스테레오 인코더에 대응하는 인코딩된 비트스트림에 대해 채널 인코딩을 수행하여, 최종 신호를 획득한다(신호는 단말 기기 또는 다른 네트워크 기기에 송신될 수 있음). 도 14의 경우와 동일하게, 도 15의 스테레오 디코더에 대응하는 인코딩 및 디코딩 포맷은 또한 기타 스테레오 인코더에 대응하는 인코딩 및 디코딩 포맷과 상이하다. 기타 스테레오 인코더에 대응하는 인코딩 및 디코딩 포맷이 제1 인코딩 및 디코딩 포맷이고, 스테레오 디코더에 대응하는 인코딩 및 디코딩 포맷이 제2 인코딩 및 디코딩 포맷이면, 도 15에서, 네트워크 기기는 오디오 신호를 제2 인코딩 및 디코딩 포맷에서 제1 인코딩 및 디코딩 포맷으로 변환한다.
도 14 및 도 15에서, 기타 스테레오 인코더 및 디코더와, 스테레오 인코더 및 디코더는 각각 상이한 인코딩 및 디코딩 포맷에 대응한다. 따라서, 스테레오 신호의 인코딩 및 디코딩 포맷의 트랜스코딩은 기타 스테레오 인코더 및 디코더와, 스테레오 인코더 및 디코더의 처리 후에 구현된다.
도 14의 스테레오 인코더는 본 출원의 실시예에서의 스테레오 신호의 인코딩 방법을 구현할 수 있고, 도 15의 스테레오 디코더는 본 출원의 실시예에서의 스테레오 신호의 디코딩 방법을 구현할 수 있다는 것을 또한 이해해야 한다. 본 출원의 실시예에서의 인코딩 장치는 도 14의 네트워크 기기에서의 스테레오 인코더일 수 있고, 본 출원의 실시예에서의 디코딩 장치는 도 15의 네트워크 기기에서의 스테레오 디코더일 수 있다. 또한, 도 14 및 도 15의 네트워크 기기는 구체적으로, 무선 네트워크 통신 기기 또는 유선 네트워크 통신 기기일 수 있다.
본 출원의 실시예에서의 스테레오 신호의 인코딩 및 디코딩 방법은 또한 도 16 내지 도 18의 단말 기기 또는 네트워크 기기에 의해 수행될 수 있음을 이해해야 한다. 또한, 본 출원의 실시예에서의 인코딩 및 디코딩 장치는 도 16 내지 도 18의 단말 기기 또는 네트워크 기기에 추가로 배치될 수 있다. 구체적으로, 본 출원의 실시예에서의 인코딩 장치는 도 16 내지 도 18의 단말 기기 또는 단말 기기에서의 멀티채널 인코더에서의 스테레오 인코더일 수 있고, 본 출원의 실시예에서의 디코딩 장치는 도 16 내지 도 18의 단말 기기 또는 단말 기기의 멀티채널 디코더에서의 스테레오 디코더일 수 있다.
도 16에 도시된 바와 같이, 오디오 통신에서, 제1 단말 기기의 멀티채널 인코더 내의 스테레오 인코더는 수집된 멀티채널 신호로부터 생성된 스테레오 신호에 대해 스테레오 인코딩을 수행한다. 멀티채널 인코더에 의해 획득되는 비트스트림은 스테레오 인코더에 의해 획득되는 비트스트림을 포함한다. 제1 단말 기기의 채널 인코더는 멀티채널 인코더에 의해 획득되는 비트스트림에 대해 채널 인코딩을 추가로 수행할 수 있다. 다음으로, 채널 인코딩 후에 제1 단말 기기에 의해 획득되는 데이터는 제1 네트워크 기기 및 제2 네트워크 기기를 사용하여 제2 단말 기기에 송신된다. 제2 단말 기기가 제2 네트워크 기기로부터 데이터를 수신한 후, 제2 단말 기기의 채널 디코더는 멀티채널 신호의 인코딩된 비트스트림을 획득하기 위해 채널 디코딩을 수행하며, 여기서 멀티채널 신호의 인코딩된 비트스트림은 스테레오 신호의 인코딩된 비트스트림을 포함한다. 제2 단말 기기의 멀티채널 디코더 내의 스테레오 디코더는 디코딩에 의해 스테레오 신호를 복원한다. 멀티채널 디코더는 복원된 스테레오 신호를 디코딩하여 멀티채널 신호를 획득한다. 제2 단말 기기는 멀티채널 신호를 재생한다. 이러한 방식으로, 서로 다른 단말 기기 사이에서 오디오 통신이 완료된다.
도 16에서, 제2 단말 기기는 또한 수집된 멀티채널 신호를 인코딩할 수 있고(구체적으로, 제2 단말 기기의 멀티채널 인코더 내의 스테레오 인코더는 수집된 멀티채널 신호로부터 생성된 스테레오 신호에 대해 스테레오 인코딩을 수행하고, 그 후, 제2 단말 기기의 인코더는 멀티채널 인코더에 의해 획득되는 비트스트림에 대해 채널 인코딩을 수행함), 최종적으로, 획득된 데이터는 제2 네트워크 기기 및 제1 네트워크 기기를 사용하여 제1 단말 기기에 송신된다는 것을 이해해야 한다. 제1 단말 기기는 채널 디코딩 및 멀티채널 디코딩에 의해 멀티채널 신호를 획득한다.
도 16에서, 제1 네트워크 기기 및 제2 네트워크 기기는 무선 네트워크 통신 기기 또는 유선 네트워크 통신 기기일 수 있다. 제1 네트워크 기기와 제2 네트워크 기기는 디지털 채널을 사용하여 서로 통신할 수 있다.
도 16의 제1 단말 기기 또는 제2 단말 기기는 본 출원의 실시예에서의 스테레오 신호의 인코딩 및 디코딩 방법을 수행할 수 있다. 또한, 본 출원의 실시예에서의 인코딩 장치는 제1 단말 기기 또는 제2 단말 기기의 스테레오 인코더일 수 있고, 본 출원의 실시예에서의 디코딩 장치는 제1 단말 기기 또는 제2 단말 기기의 스테레오 디코더일 수 있다.
오디오 통신에서, 네트워크 기기는 오디오 신호의 인코딩 및 디코딩 포맷의 트랜스코딩을 구현할 수 있다. 도 17에 도시된 바와 같이, 네트워크 기기에 의해 수신되는 신호의 인코딩 및 디코딩 포맷이 다른 멀티채널 디코더에 대응하는 인코딩 및 디코딩 포맷이면, 네트워크 기기의 채널 디코더는 수신된 신호에 대해 채널 디코딩을 수행하여 다른 멀티채널 디코더에 대응하는 인코딩된 비트스트림을 획득한다. 다른 멀티채널 디코더는 인코딩된 비트스트림을 디코딩하여 멀티채널 신호를 획득한다. 멀티채널 인코더는 멀티채널 신호를 인코딩하여, 멀티채널 신호의 인코딩된 비트스트림을 획득한다. 멀티채널 인코더 내의 스테레오 인코더는 멀티채널 신호로부터 생성된 스테레오 신호에 대해 스테레오 인코딩을 수행하여, 스테레오 신호의 인코딩된 비트스트림을 획득한다. 멀티채널 신호의 인코딩된 비트스트림은 스테레오 신호의 인코딩된 비트스트림을 포함한다. 최종적으로, 채널 인코더는 인코딩된 비트스트림에 대해 채널 인코딩을 수행하여, 최종 신호를 획득한다(신호는 단말 기기 또는 다른 네트워크 기기에 송신될 수 있음).
유사하게, 도 18에 도시된 바와 같이, 네트워크 기기에 의해 수신되는 신호의 인코딩 및 디코딩 포맷이 멀티채널 디코더에 대응하는 인코딩 및 디코딩 포맷과 동일하면, 네트워크 기기의 채널 디코더가 채널 디코딩을 수행하여 멀티채널 신호의 인코딩된 비트스트림 획득한 후, 멀티채널 디코더는 멀티채널 신호의 인코딩된 비트스트림을 디코딩하여 멀티채널 신호를 획득할 수 있으며, 여기서 멀티채널 디코더의 스테레오 디코더는 멀티채널 신호의 인코딩된 비트스트림 내의 스테레오 신호의 인코딩된 비트스트림에 대해 스테레오 디코딩을 수행한다. 다음으로, 다른 멀티채널 인코더는 다른 인코딩 및 디코딩 포맷에 기초하여 멀티채널 신호를 인코딩하여 다른 멀티채널 인코더에 대응하는 멀티채널 신호의 인코딩된 비트스트림을 획득한다. 최종적으로, 채널 인코더는 다른 멀티채널 인코더에 대응하는 인코딩된 비트스트림에 대해 채널 인코딩을 수행하여 최종 신호를 획득한다(신호는 단말 기기 또는 다른 네트워크 기기에 송신될 수 있음).
도 17 및 도 18에서, 다른 멀티채널 인코더 및 디코더와, 멀티채널 인코더 및 디코더는 각각 상이한 인코딩 및 디코딩 포맷에 대응한다는 것을 이해해야 한다. 예를 들어, 도 17에서, 기타 스테레오 디코더에 대응하는 인코딩 및 디코딩 포맷은 제1 인코딩 및 디코딩 포맷이고, 멀티채널 인코더에 대응하는 인코딩 및 디코딩 포맷은 제2 인코딩 및 디코딩 포맷이다. 이 경우, 도 17에서, 네트워크 기기는 오디오 신호를 제1 인코딩 및 디코딩 포맷에서 제2 인코딩 및 디코딩 포맷으로 변환한다. 유사하게, 도 18에서, 멀티채널 인코더에 대응하는 인코딩 및 디코딩 포맷은 제2 인코딩 및 디코딩 포맷이고, 기타 스테레오 디코더에 대응하는 인코딩 및 디코딩 포맷은 제1 인코딩 및 디코딩 포맷인 것으로 가정한다. 이 경우, 도 18에서, 네트워크 기기는 제2 인코딩 및 디코딩 포맷으로부터 제1 인코딩 및 디코딩 포맷으로 오디오 신호를 변환한다. 따라서, 오디오 신호의 인코딩 및 디코딩 포맷의 트랜스코딩은 다른 멀티채널 인코더 및 디코더와, 멀티채널 인코더 및 디코더의 처리 후에 구현된다.
도 17의 스테레오 인코더는 본 출원에서의 스테레오 신호의 인코딩 방법을 구현할 수 있고, 도 18의 스테레오 디코더는 본 출원에서의 스테레오 신호의 디코딩 방법을 구현할 수 있다는 것을 또한 이해해야 한다. 본 출원의 실시예에서의 인코딩 장치는 도 17의 네트워크 기기에서의 스테레오 인코더일 수 있고, 본 출원의 실시예에서의 디코딩 장치는 도 18의 네트워크 기기에서의 스테레오 디코더일 수 있다. 또한, 도 17 및 도 18의 네트워크 기기는 구체적으로, 무선 네트워크 통신 기기 또는 유선 네트워크 통신 기기일 수 있다.
당업자라면, 본 명세서에 개시된 실시예에 기술된 예와 결합하여, 유닛 및 알고리즘 단계를 전자적인 하드웨어 또는 컴퓨터 소프트웨어와 전자적인 하드웨어의 조합으로 구현할 수 있음을 알 수 있을 것이다. 기능이 하드웨어에 의해 수행되는지 또는 소프트웨어에 의해 수행되는지는 기술적 방안의 구체적인 애플리케이션 및 설계 제약조건에 따라 달라진다. 당업자라면 각각의 구체적인 애플리케이션에 대해 기술된 기능을 구현하기 위해 상이한 방법을 사용할 수 있지만, 그러한 구현이 본 출원의 범위를 벗어나는 것으로 생각해서는 안 된다.
당업자라면, 편의 및 간략한 설명을 위해, 전술한 시스템, 장치 및 유닛의 자세한 작동 프로세스에 대해서는 전술한 방법 실시예에서의 대응하는 프로세스를 참조할 수 있다는 것을 명백히 이해할 수 있을 것이므로, 상세한 설명을 여기서 다시 하지 않는다.
본 출원에 제공된 여러 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로도 구현될 수 있음을 이해해야 한다. 예를 들어, 기술된 장치 실시예는 예에 불과하다. 예를 들어, 유닛의 분할은 논리 기능 분할일 뿐이고, 실제 구현 시에는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성요소는 결합되거나 다른 시스템에 통합될 수 있거나, 또는 일부 특징(feature)은 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일부의 인터페이스를 통해 구현될 수 있다. 장치 간 또는 유닛 간의 간접 결합 또는 통신 연결은 전자적 형태, 기계적 형태 또는 기타 형태로 구현될 수 있다.
별개의 부분(separate part)으로서 기술된 유닛은, 물리적으로 분리될 수도, 분리될 수 없을 수도 있으며, 유닛으로 표시된 부분은 물리적인 유닛일 수도, 물리적인 유닛이 아닐 수도 있으며, 한 장소에 위치할 수 있거나, 또는 복수의 네트워크 유닛에 분산될 수 있다. 유닛의 일부 또는 전부는 실시예의 방안의 목적을 달성하기 위한 실제 필요에 따라 선택될 수 있다.
또한, 본 출원의 실시예에서의 기능 유닛들은 하나의 처리 유닛으로 통합될 수 있거나, 또는 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 또는 둘 이상의 유닛이 하나의 유닛으로 통합된다.
기능이 소프트웨어 기능 유닛의 형태로 구현되고 독립된 제품으로 판매되거나 사용되는 경우, 그 기능은 컴퓨터로 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본질적으로 본 출원의 기술적 해결방안, 또는 종래기술에 기여하는 부분, 또는 기술적 방안의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은, 저장 매체에 저장되고, 컴퓨터 기기(개인용 컴퓨터, 서버, 또는 네트워크 기기일 수 있음)에 본 출원의 실시예에서 설명한 방법의 단계들 중 일부 또는 전부를 수행하도록 명령하기 위한 여러 명령어를 포함한다. 전술한 저장 매체로는, USB 플래시 드라이브, 탈착 가능한 하드 디스크, 판독 전용 메모리(read-only memory, ROM), 임의 접근 메모리(random access memory, RAM), 자기 디스크, 또는 광디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
이상의 설명은 본 출원의 구체적인 구현에 불과하며, 본 출원의 보호 범위를 한정하기 위한 것은 아니다. 본 출원에 개시된 기술적 범위 내에서 당업자가 쉽게 알아낼 수 있는 임의의 변형 또는 대체는 본 출원의 보호 범위에 속한다. 따라서, 본 출원의 보호 범위는 청구항의 보호 범위에 따라야 한다.

Claims (40)

  1. 현재 프레임에서의 채널 간 시간차(inter-channel time difference)를 결정하는 단계;
    상기 현재 프레임에서의 채널 간 시간차 및 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 획득하는 단계;
    상기 현재 프레임에서의 채널 간 시간차에 기초하여 상기 현재 프레임에서의 스테레오 신호에 대해 지연 정렬(delay alignment)을 수행하여, 상기 현재 프레임에서의 상기 지연 정렬 후의 스테레오 신호를 획득하는 단계;
    상기 현재 프레임에서의 상기 지연 정렬 후의 스테레오 신호에 대해 시간 영역 다운믹싱 처리(time-domain downmixing processing)를 수행하여, 상기 현재 프레임에서의 주 채널 신호(primary-channel signal) 및 부 채널 신호(secondary-channel signal)를 획득하는 단계;
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 양자화하고, 양자화된 채널 간 시간차를 비트스트림에 기록하는 단계; 및
    상기 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 양자화하고, 양자화된 주 채널 신호 및 양자화된 부 채널 신호를 상기 비트스트림에 기록하는 단계
    를 포함하는 스테레오 신호의 인코딩 방법
  2. 제1항에 있어서,
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
    Figure 112020017674506-pct00085
    에 따라 계산되며,
    여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1인, 스테레오 신호의 인코딩 방법.
  3. 제2항에 있어서,
    상기 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 상기 현재 프레임의 프레임 길이에 정비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단(encoding end)에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단(decoding end)에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함하는, 스테레오 신호의 인코딩 방법.
  4. 제3항에 있어서,
    상기 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이인, 스테레오 신호의 인코딩 방법.
  5. 제2항에 있어서,
    상기 제1 보간 계수 α는 미리 저장되는, 스테레오 신호의 인코딩 방법.
  6. 제1항에 있어서,
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
    Figure 112020017674506-pct00086
    에 따라 계산되며,
    여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1인, 스테레오 신호의 인코딩 방법.
  7. 제6항에 있어서,
    상기 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 상기 현재 프레임의 프레임 길이에 반비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함하는, 스테레오 신호의 인코딩 방법.
  8. 제7항에 있어서,
    상기 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이인, 스테레오 신호의 인코딩 방법.
  9. 제6항에 있어서,
    상기 제2 보간 계수 β는 미리 저장되는, 스테레오 신호의 인코딩 방법.
  10. 비트스트림을 디코딩하여 현재 프레임에서의 주 채널 신호 및 부 채널 신호, 그리고 상기 현재 프레임에서의 채널 간 시간차를 획득하는 단계;
    상기 현재 프레임에서의 주 채널 신호 및 부 채널 신호에 대해 시간 영역 업믹싱 처리를 수행하여, 상기 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호(left-channel reconstructed signal) 및 우측 채널 재구성 신호(right-channel reconstructed signal)를 획득하는 단계;
    상기 현재 프레임에서의 채널 간 시간차 및 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 획득하는 단계; 및
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차에 기초하여 상기 좌측 채널 재구성 신호 및 상기 우측 채널 재구성 신호의 지연을 조정하는 단계
    를 포함하는 스테레오 신호의 디코딩 방법.
  11. 제10항에 있어서,
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
    Figure 112020017674506-pct00087
    에 따라 계산되며,
    여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1인, 스테레오 신호의 디코딩 방법.
  12. 제11항에 있어서,
    상기 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 상기 현재 프레임의 프레임 길이에 정비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함하는, 스테레오 신호의 디코딩 방법.
  13. 제12항에 있어서,
    상기 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이인, 스테레오 신호의 디코딩 방법.
  14. 제11항에 있어서,
    상기 제1 보간 계수 α는 미리 저장되는, 스테레오 신호의 디코딩 방법.
  15. 제10항에 있어서,
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
    Figure 112020017674506-pct00088
    에 따라 계산되며,
    여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1인, 스테레오 신호의 디코딩 방법.
  16. 제15항에 있어서,
    상기 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 상기 현재 프레임의 프레임 길이에 반비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함하는, 스테레오 신호의 디코딩 방법.
  17. 제16항에 있어서,
    상기 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이인, 스테레오 신호의 디코딩 방법.
  18. 제15항에 있어서,
    상기 제2 보간 계수 β는 미리 저장되는, 스테레오 신호의 디코딩 방법.
  19. 현재 프레임에서의 채널 간 시간차를 결정하도록 구성된 결정 모듈;
    상기 현재 프레임에서의 채널 간 시간차 및 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 획득하도록 구성된 보간 모듈;
    상기 현재 프레임에서의 채널 간 시간차에 기초하여 상기 현재 프레임에서의 스테레오 신호에 대해 지연 정렬을 수행하여, 상기 현재 프레임에서의 상기 지연 정렬 후의 스테레오 신호를 획득하도록 구성된 지연 정렬 모듈;
    상기 현재 프레임에서의 상기 지연 정렬 후의 스테레오 신호에 대해 시간 영역 다운믹싱 처리를 수행하여, 상기 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 획득하도록 구성된 다운믹싱 모듈; 및
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 양자화하고, 양자화된 채널 간 시간차를 비트스트림에 기록하도록 구성된 인코딩 모듈을 포함하고,
    상기 인코딩 모듈은 추가로, 상기 현재 프레임에서의 주 채널 신호 및 부 채널 신호를 양자화하고, 양자화된 주 채널 신호 및 양자화된 부 채널 신호를 상기 비트스트림에 기록하도록 구성되는,
    인코딩 장치.
  20. 제19항에 있어서,
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
    Figure 112020017674506-pct00089
    에 따라 계산되며,
    여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1인, 인코딩 장치.
  21. 제20항에 있어서,
    상기 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 상기 현재 프레임의 프레임 길이에 정비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함하는, 인코딩 장치.
  22. 제21항에 있어서,
    상기 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이인, 인코딩 장치.
  23. 제20항에 있어서,
    상기 제1 보간 계수 α는 미리 저장되는, 인코딩 장치.
  24. 제19항에 있어서,
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
    Figure 112020017674506-pct00090
    에 따라 계산되며,
    여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1인, 인코딩 장치.
  25. 제24항에 있어서,
    상기 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 상기 현재 프레임의 프레임 길이에 반비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함하는, 인코딩 장치.
  26. 제25항에 있어서,
    상기 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이인, 인코딩 장치.
  27. 제24항에 있어서,
    상기 제2 보간 계수 β는 미리 저장되는, 인코딩 장치.
  28. 비트스트림을 디코딩하여 현재 프레임에서의 주 채널 신호 및 부 채널 신호, 그리고 상기 현재 프레임에서의 채널 간 시간차를 획득하도록 구성된 디코딩 모듈;
    상기 현재 프레임에서의 주 채널 신호 및 부 채널 신호에 대해 시간 영역 업믹싱 처리를 수행하여, 상기 시간 영역 업믹싱 처리 후에 획득되는 좌측 채널 재구성 신호 및 우측 채널 재구성 신호를 획득하도록 구성된 업믹싱 모듈;
    상기 현재 프레임에서의 채널 간 시간차 및 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 보간 처리를 수행하여, 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차를 획득하도록 구성된 보간 모듈; 및
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차에 기초하여 상기 좌측 채널 재구성 신호 및 상기 우측 채널 재구성 신호의 지연을 조정하도록 구성된 지연 조정 모듈
    을 포함하는 디코딩 장치.
  29. 제28항에 있어서,
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
    Figure 112020017674506-pct00091
    에 따라 계산되며,
    여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, α는 제1 보간 계수이며, 0<α<1인, 디코딩 장치.
  30. 제29항에 있어서,
    상기 제1 보간 계수 α는, 인코딩 및 디코딩 지연에 반비례하고, 상기 현재 프레임의 프레임 길이에 정비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함하는, 디코딩 장치.
  31. 제30항에 있어서,
    상기 제1 보간 계수 α는 식 α=(N-S)/N을 충족시키고, 여기서 S는 상기 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이인, 디코딩 장치.
  32. 제29항에 있어서,
    상기 제1 보간 계수 α는 미리 저장되는, 디코딩 장치.
  33. 제28항에 있어서,
    상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차는 식
    Figure 112020017833491-pct00092
    에 따라 계산되며,
    여기서 A는 상기 현재 프레임에서의 상기 보간 처리 후의 채널 간 시간차이고, B는 상기 현재 프레임에서의 채널 간 시간차이고, C는 상기 현재 프레임의 이전 프레임에서의 채널 간 시간차이고, β는 제2 보간 계수이며, 0<β<1인, 디코딩 장치.
  34. 제33항에 있어서,
    상기 제2 보간 계수 β는, 인코딩 및 디코딩 지연에 정비례하고, 상기 현재 프레임의 프레임 길이에 반비례하며, 상기 인코딩 및 디코딩 지연은 인코딩단에 의한, 상기 시간 영역 다운믹싱 처리 후에 획득되는 주 채널 신호 및 부 채널 신호를 인코딩하는 프로세스에서의 인코딩 지연, 및 디코딩단에 의한, 상기 비트스트림을 디코딩하여 주 채널 신호 및 부 채널 신호를 획득하는 프로세스에서의 디코딩 지연을 포함하는, 디코딩 장치.
  35. 제33항에 있어서,
    상기 제2 보간 계수 β는 식 β=S/N을 충족시키고, 여기서 S는 인코딩 및 디코딩 지연이고, N은 상기 현재 프레임의 프레임 길이인, 디코딩 장치.
  36. 제33항에 있어서,
    상기 제2 보간 계수 β는 미리 저장되는, 디코딩 장치.
  37. 프로그램이 기록된, 컴퓨터로 판독 가능한 저장 매체로서,
    상기 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제18항 중 어느 한 항의 방법을 실행하게 하는,
    컴퓨터로 판독 가능한 저장 매체.
  38. 컴퓨터로 하여금 제1항 내지 제18항 중 어느 한 항의 방법을 실행하게 하도록 구성된, 컴퓨터로 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.
  39. 프로그램을 저장하도록 구성된 메모리; 및
    상기 메모리에 저장된 프로그램을 실행하도록 구성된 프로세서를 포함하고,
    상기 메모리 내의 프로그램이 실행될 때, 상기 프로세서는 제1항 내지 제9항 중 어느 한 항의 방법을 수행하도록 구성되는,
    인코딩 장치.
  40. 프로그램을 저장하도록 구성된 메모리; 및
    상기 메모리에 저장된 프로그램을 실행하도록 구성된 프로세서를 포함하고,
    상기 메모리 내의 프로그램이 실행될 때, 상기 프로세서는 제10항 내지 제18항 중 어느 한 항의 방법을 수행하도록 구성되는,
    디코딩 장치.
KR1020207004835A 2017-07-25 2018-07-25 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치 KR102288111B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710614326.7A CN109300480B (zh) 2017-07-25 2017-07-25 立体声信号的编解码方法和编解码装置
CN201710614326.7 2017-07-25
PCT/CN2018/096973 WO2019020045A1 (zh) 2017-07-25 2018-07-25 立体声信号的编解码方法和编解码装置

Publications (2)

Publication Number Publication Date
KR20200027008A KR20200027008A (ko) 2020-03-11
KR102288111B1 true KR102288111B1 (ko) 2021-08-09

Family

ID=65039996

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207004835A KR102288111B1 (ko) 2017-07-25 2018-07-25 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치

Country Status (7)

Country Link
US (3) US11238875B2 (ko)
EP (2) EP4258697A3 (ko)
KR (1) KR102288111B1 (ko)
CN (1) CN109300480B (ko)
BR (1) BR112020001633A2 (ko)
ES (1) ES2945723T3 (ko)
WO (1) WO2019020045A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151045B (zh) 2019-06-29 2024-06-04 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
CN115346537A (zh) * 2021-05-14 2022-11-15 华为技术有限公司 一种音频编码、解码方法及装置
CN115497485B (zh) * 2021-06-18 2024-10-18 华为技术有限公司 三维音频信号编码方法、装置、编码器和系统
CN115881138A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 解码方法、装置、设备、存储介质及计算机程序产品
CN114258568A (zh) * 2021-11-26 2022-03-29 北京小米移动软件有限公司 一种立体声音频信号处理方法、装置、编码设备、解码设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269948A1 (en) 2009-03-17 2015-09-24 Dolby International Ab Advanced Stereo Coding Based on a Combination of Adaptively Selectable Left/Right or Mid/Side Stereo Coding and of Parametric Stereo Coding
WO2017049398A1 (en) 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
CN101188878B (zh) * 2007-12-05 2010-06-02 武汉大学 立体声音频信号的空间参数量化及熵编码方法和所用系统
CN101582259B (zh) * 2008-05-13 2012-05-09 华为技术有限公司 立体声信号编解码方法、装置及编解码系统
CN102292767B (zh) * 2009-01-22 2013-05-08 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
PL2671222T3 (pl) * 2011-02-02 2016-08-31 Ericsson Telefon Ab L M Określanie międzykanałowej różnicy czasu wielokanałowego sygnału audio
EP2834814B1 (en) 2012-04-05 2016-03-02 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
CN104681029B (zh) 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269948A1 (en) 2009-03-17 2015-09-24 Dolby International Ab Advanced Stereo Coding Based on a Combination of Adaptively Selectable Left/Right or Mid/Side Stereo Coding and of Parametric Stereo Coding
WO2017049398A1 (en) 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jonas Lindblom, et al. Flexible sum-difference stereo coding based on time-aligned signal components. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2005.10.16.*

Also Published As

Publication number Publication date
EP3648101B1 (en) 2023-04-26
EP3648101A4 (en) 2020-07-15
CN109300480B (zh) 2020-10-16
EP4258697A3 (en) 2023-10-25
ES2945723T3 (es) 2023-07-06
US11741974B2 (en) 2023-08-29
KR20200027008A (ko) 2020-03-11
US20220108710A1 (en) 2022-04-07
US11238875B2 (en) 2022-02-01
EP4258697A2 (en) 2023-10-11
WO2019020045A1 (zh) 2019-01-31
CN109300480A (zh) 2019-02-01
EP3648101A1 (en) 2020-05-06
BR112020001633A2 (pt) 2020-07-21
US20230352034A1 (en) 2023-11-02
US20200160872A1 (en) 2020-05-21

Similar Documents

Publication Publication Date Title
KR102288111B1 (ko) 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치
TWI708241B (zh) 使用不同時間/頻率解析度編碼或解碼方向性音訊寫碼參數之設備及方法
KR101139880B1 (ko) 주파수 영역 위너 필터링을 사용한 공간 오디오 코딩을 위한 시간적 엔벨로프 정형화
KR20070001139A (ko) 오디오 분배 시스템, 오디오 인코더, 오디오 디코더 및이들의 동작 방법들
KR20070003593A (ko) 멀티채널 오디오 신호의 인코딩 및 디코딩 방법
JP2024059683A (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
KR102380642B1 (ko) 스테레오 신호 인코딩 방법 및 인코딩 장치
KR102353050B1 (ko) 스테레오 신호 인코딩에서의 신호 재구성 방법 및 디바이스
US11922958B2 (en) Method and apparatus for determining weighting factor during stereo signal encoding
KR20200035306A (ko) 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품
WO2021136344A1 (zh) 音频信号的编解码方法和编解码装置
KR20100054749A (ko) 신호의 처리 방법 및 이의 장치
KR20070108314A (ko) 오디오 신호의 인코딩/디코딩 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant