KR101833409B1 - 음성/오디오 비트스트림 디코딩 방법 및 장치 - Google Patents

음성/오디오 비트스트림 디코딩 방법 및 장치 Download PDF

Info

Publication number
KR101833409B1
KR101833409B1 KR1020167018932A KR20167018932A KR101833409B1 KR 101833409 B1 KR101833409 B1 KR 101833409B1 KR 1020167018932 A KR1020167018932 A KR 1020167018932A KR 20167018932 A KR20167018932 A KR 20167018932A KR 101833409 B1 KR101833409 B1 KR 101833409B1
Authority
KR
South Korea
Prior art keywords
frame
current frame
current
decoded
previous
Prior art date
Application number
KR1020167018932A
Other languages
English (en)
Other versions
KR20160096191A (ko
Inventor
제신 리우
싱타오 장
레이 미아오
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20160096191A publication Critical patent/KR20160096191A/ko
Application granted granted Critical
Publication of KR101833409B1 publication Critical patent/KR101833409B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Abstract

음성/오디오 비트스트림 디코딩 방법 및 장치를 개시하며, 상기 음성/오디오 비트스트림 디코딩 방법은, 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하는 단계; 상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하는 단계; 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여, 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하는 단계; 및 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하는 단계를 포함한다.

Description

음성/오디오 비트스트림 디코딩 방법 및 장치
삭제
본 발명의 오디오 디코딩 기술에 관한 것으로, 특히 음성/오디오 비트스트림 디코딩 방법 및 장치에 관한 것이다.
이동 통신 서비스에서는, 네트워크상에서의 패킷 손실 및 지연 변동으로 인해 프레임 손실이 발생하는 것은 불가피하므로, 일부 음성/오디오 신호는 디코딩된 파라미터를 사용하여 복원될 수 없고 오직 프레임 손실 은닉(frame erasure concealment, FEC) 기술을 사용하여 복원될 수 있을 뿐인 결과를 초래한다. 그러나 패킷 손실률이 높은 경우에, 디코더 측에서만 FET 기술이 사용되면, 출력되는 음성/오디오 신호는 품질이 비교적 나빠서 고품질 통신의 요구를 충족시킬 수 없다.
음성/오디오 프레임 손실에 의해 유발되는 품질 저하 문제를 더 잘 해결하기 위해, 여분의 인코딩 알고리즘(redundancy encoding algorithm)이 생성된다: 인코더 측에서는, 특정 비트율이 현재 프레임에 관한 정보를 인코딩하는 데 사용되는 것에 더해, 더 낮은 비트율이 현재 프레임 외의 다른 프레임에 관한 정보를 인코딩하는데 사용되고, 더 낮은 비트율의 비트스트림이 여분의 비트스트림 정보로 사용되어 현재 프레임에 관한 정보의 비트스트림과 함께 디코더 측에 송신된다. 디코더 측에서는, 현재 프레임이 손실되는 경우, 지터 버퍼(jitter buffer) 또는 수신된 비트스트림이 현재 프레임을 포함하는 여분의 비트스트림 정보를 저장하고 있으면, 현재 프레임은 여분의 비트스트림 정보에 따라 복원될 수 있으므로, 복원된 음성/오디오 신호의 품질을 향상시킬 수 있다. 현재 프레임은 현재 프레임의 여분의 비트스트림 정보가 존재하지 않을 경우에만 FEC 기술에 기초하여 복원된다.
이상으로부터, 기존의 여분의 인코딩 알고리즘에서는, 여분의 비트스트림 정보가 너 낮은 비트율을 사용한 인코딩에 의해 취득되므로, 신호 불안정(signal instability)이 야기될 수 있으므로, 출력되는 음성/오디오 신호의 품질이 높지 않은 결과를 초래한다는 것이다.
본 발명의 실시예는 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있는, 음성/오디오 비트스트림을 위한 여분 디코딩 방법 및 장치를 제공한다.
제1 측면에 따르면, 음성/오디오 비트스트림 디코딩 방법이 제공되며, 상기 음성/오디오 비트스트림 디코딩 방법은,
현재 프레임이 정상의 디코딩 프레임(normal decoding frame)인지 여분의 디코딩 프레임인(redundancy decoding frame)지를 판정하는 단계;
상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하는 단계;
상기 현재 프레임의 디코딩된 파라미터에 대해 후처리(post-processing)를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하는 단계; 및
상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하는 단계를 포함한다.
제1 측면을 참조하여, 제1 측면의 제1 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터(spectral pair parameter)를 포함하고, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하는 것을 포함한다.
제1 측면의 제1 구현 방식을 참조하여, 제1 측면의 제2 구현 방식에서, 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:
Figure 112016067948274-pct00001
을 사용하여 계산을 통해 취득되며,
위 식에서,
Figure 112016067948274-pct00002
는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00003
는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00004
는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수(order)이고,
Figure 112016067948274-pct00005
는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00006
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00007
,
Figure 112016067948274-pct00008
, 및
Figure 112016067948274-pct00009
이다.
제1 측면의 제1 구현 방식을 참조하여, 제1 측면의 제3 구현 방식에서, 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:
Figure 112016067948274-pct00010
을 사용하여 계산을 통해 취득되며,
위 식에서,
Figure 112016067948274-pct00011
는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00012
는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00013
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,
Figure 112016067948274-pct00014
는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
Figure 112016067948274-pct00015
는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00016
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,
Figure 112016067948274-pct00017
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00018
,
Figure 112016067948274-pct00019
,
Figure 112016067948274-pct00020
, 및
Figure 112016067948274-pct00021
이다.
제1 측면의 제3 구현 방식을 참조하여, 제1 측면의 제4 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음(unvoiced)이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자(spectral tilt factor)가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00022
의 값은 0이거나 미리 설정된 임계치보다 작다.
제1 측면의 제2 내지 제4 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제5 구현 방식에서, 상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,
Figure 112016067948274-pct00023
의 값은 0이거나 미리 설정된 임계치보다 작다.
제1 측면의 제2 내지 제5 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제6 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00024
의 값은 0이거나 미리 설정된 임계치보다 작다.
제1 측면의 제4 또는 제6 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제7 구현 방식에서, 상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
제1 측면 또는 제1 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제8 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득(adaptive codebook gain)을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북(algebraic codebook)이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배(quantity of times)이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하는 것을 포함한다.
제1 측면 또는 제1 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제9 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득을 포함하고;
상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 보통음(generic)이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함한다.
제1 측면 또는 제1 측면의 제1 내지 제9 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제10 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
랜덤 노이즈(random noise) 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함한다.
제1 측면 또는 제1 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제11 구현 방식에서, 상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선(bandwidth extension envelope)을 포함하며;
상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하는 것을 포함한다.
제1 측면의 제11 구현 방식을 참조하여, 제1 측면의 제12 구현 방식에서, 상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례한다.
제1 측면 또는 제1 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제13 구현 방식에서, 상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선을 포함하며;
상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하는 것을 포함한다.
제2 측면에 따르면, 음성/오디오 비트스트림을 디코딩하는 디코더가 제공되며, 상기 디코더는,
현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하도록 구성된 판정 유닛;
상기 판정 유닛이, 상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임인 것으로 판정한 경우, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하도록 구성된 파싱 유닛;
상기 파싱 유닛에 의해 취득된 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하도록 구성된 후처리 유닛; 및
상기 후처리 유닛에 의해 취득된 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성된 복원 유닛을 포함한다.
제2 측면을 참조하여, 제2 측면의 제1 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하는 경우, 상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성된다.
제2 측면의 제1 구현 방식을 참조하여, 제2 측면의 제2 구현 방식에서, 상기 후처리 유닛은 구체적으로, 아래 식:
Figure 112016067948274-pct00025
을 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하도록 구성되고,
위 식에서,
Figure 112016067948274-pct00026
는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00027
는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00028
는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
Figure 112016067948274-pct00029
는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00030
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00031
,
Figure 112016067948274-pct00032
, 및
Figure 112016067948274-pct00033
이다.
제2 측면의 제1 구현 방식을 참조하여, 제2 측면의 제3 구현 방식에서, 상기 후처리 유닛은 구체적으로, 아래 식:
Figure 112016067948274-pct00034
을 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하도록 구성되고,
위 식에서,
Figure 112016067948274-pct00035
는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00036
는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00037
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,
Figure 112016067948274-pct00038
는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
Figure 112016067948274-pct00039
는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00040
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,
Figure 112016067948274-pct00041
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00042
,
Figure 112016067948274-pct00043
,
Figure 112016067948274-pct00044
, 및
Figure 112016067948274-pct00045
이다.
제2 측면의 제3 구현 방식을 참조하여, 제2 측면의 제4 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00046
의 값은 0이거나 미리 설정된 임계치보다 작다.
제2 측면의 제2 내지 제4 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제5 구현 방식에서, 상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,
Figure 112016067948274-pct00047
의 값은 0이거나 미리 설정된 임계치보다 작다.
제2 측면의 제2 내지 제5 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제6 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00048
의 값은 0이거나 미리 설정된 임계치보다 작다.
제2 측면의 제4 또는 제6 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제7 구현 방식에서, 상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
제2 측면 또는 제2 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제8 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고 상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하도록 구성된다.
제2 측면 또는 제2 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제9 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고, 상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다른 경우, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하도록 구성된다.
제2 측면 또는 제2 측면의 제1 내지 제9 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제10 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 대수 코드북을 포함하고, 상기 현재 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0인 경우, 랜덤 노이즈 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하도록 구성된다.
제2 측면 또는 제2 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제11 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작은 경우, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라, 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하도록 구성된다.
제2 측면의 제11 구현 방식을 참조하여, 제2 측면의 제12 구현 방식에서, 상기 후처리 유닛이 상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례한다.
제2 측면 또는 제2 측면의 제2 또는 제10 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제13 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임이 여분의 디코딩 프레임이고, 상기 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드인 경우, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하도록 구성된다.
제3 측면에 따르면, 음성/오디오 비트스트림을 디코딩하는 디코더가 제공되며, 상기 디코더는 프로세서와 메모리를 포함하고, 상기 프로세서는, 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하고; 상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임인 것으로 판정한 경우, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성된다.
제3 측면을 참조하여, 제3 측면의 제1 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 상기 프로세서는, 상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성된다.
제3 측면의 제1 구현 방식을 참조하여, 제3 측면의 제2 구현 방식에서, 상기 프로세서는 구체적으로, 아래 식:
Figure 112016067948274-pct00049
을 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하도록 구성되고,
위 식에서,
Figure 112016067948274-pct00050
는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00051
는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00052
는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
Figure 112016067948274-pct00053
는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00054
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00055
,
Figure 112016067948274-pct00056
, 및
Figure 112016067948274-pct00057
이다.
제3 측면의 제1 구현 방식을 참조하여, 제3 측면의 제3 구현 방식에서, 상기 프로세서는 구체적으로, 아래 식:
Figure 112016067948274-pct00058
을 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하도록 구성되고,
위 식에서,
Figure 112016067948274-pct00059
는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00060
는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00061
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,
Figure 112016067948274-pct00062
는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
Figure 112016067948274-pct00063
는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00064
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,
Figure 112016067948274-pct00065
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이며,
Figure 112016067948274-pct00066
,
Figure 112016067948274-pct00067
,
Figure 112016067948274-pct00068
, 및
Figure 112016067948274-pct00069
이다.
제3 측면의 제3 구현 방식을 참조하여, 제3 측면의 제4 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00070
의 값은 0이거나 미리 설정된 임계치보다 작다.
제3 측면의 제2 내지 제4 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제5 구현 방식에서, 상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,
Figure 112016067948274-pct00071
의 값은 0이거나 미리 설정된 임계치보다 작다.
제3 측면의 제2 내지 제5 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제6 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00072
의 값은 0이거나 미리 설정된 임계치보다 작다.
제3 측면의 제4 또는 제6 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제7 구현 방식에서, 상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
제3 측면 또는 제3 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제8 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고, 상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 상기 프로세서는 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하도록 구성된다.
제3 측면 또는 제3 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제9 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고;
상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면,
상기 프로세서는, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하도록 구성된다.
제3 측면 또는 제3 측면의 제1 내지 제9 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제10 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 대수 코드북을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 상기 프로세서는, 랜덤 노이즈 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하도록 구성된다.
제3 측면 또는 제3 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제11 구현 방식에서, 상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선을 포함하며;
상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
상기 프로세서는, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라, 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하도록 구성된다.
제3 측면의 제11 구현 방식을 참조하여, 제3 측면의 제12 구현 방식에서, 상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례한다.
제3 측면 또는 제3 측면의 제1 내지 제10 구현 방식을 참조하여, 제3 측면의 제13 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고, 상기 디코딩된 파라미터가 대역폭 확장 포락선을 포함하며;
상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드이면, 상기 프로세서는, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하도록 구성된다.
본 발명의 일부 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이(transition)하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.
본 발명의 실시예에서의 기술적 방안을 더욱 명확하게 설명하기 위해, 이하에 본 발명의 실시예의 설명에 필요한 첨부도면을 간단하게 소개한다. 명백히, 이하의 설명에서의 첨부도면은 단지 본 발명의 일부 실시예를 보여줄 뿐이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진자(이하, 당업자라고 함)라면 창의적인 노력 없이 이들 첨부도면으로부터라 다른 도면을 도출할 수 있을 것이다.
도 1은 본 발명의 실시예예에 따른 음성/오디오 비트스트림 디코딩 방법의 개략 흐름도이다.
도 2는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 개략 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 개략 구성도이다.
도 4는 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 개략 구성도이다.
당업자가 본 발명의 기술적 방안을 더 잘 이해할 수 있도록, 이하에 본 발명의 실시예에서의 첨부도면을 참조하여 본 발명의 실시예에서의 기술적 방안을 명확하고 완전하게 설명한다. 명백히, 설명되는 실시예는 본 발명의 실시예의 전부가 아니라 일부일 뿐이다. 당업자가 창의적인 노력 없이 본 발명의 실시예에 기초하여 얻은 모든 다른 실시예는 본 발명의 보호 범위에 속한다.
이하에 상세하게 각각의 설명을 제공한다.
본 발명의 명세서, 청구범위, 및 첨부도면에서, 용어 "제1" 및 "제2"는 유사한 대상 간의 구별을 위한 것이지, 반드시 특정 순서 또는 시퀀스를 의미하지는 않는다. 이해해야 할 것은, 이런 식으로 불리는 데이터는 적절한 상황에서 교체 사용이 가능하므로 본원에 기재된 본 발명의 실시예는, 예를 들어, 본원에 도시되거나 기재된 순서 이외의 순서로 구현될 수 있다는 것이다. 또한, 용어 "포함한다(include, contain)" 및 임의의 다른 변형은 비배타적인 포함(non-exclusive inclusion)을 커버하는 것을 의미하며, 예를 들어, 단계의 리스트 또는 유닛들을 포함하는 프로세스, 방법, 시스템, 제품 또는 기기는 반드시 그러한 단계 또는 유닛으로 한정되는 것이 아니라, 그러한 프로세스, 방법, 시스템, 제품 또는 기기를 명시적으로 나열하거나 내재하지 않은 다른 단계 또는 유닛을 포함할 수 있다.
먼저, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법을 소개한다. 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 디코더에 의해 실행된다. 디코더는 예를 들어, 이동 전화, 노트북 컴퓨터, 태블릿 컴퓨터, 또는 퍼스널 컴퓨터 등, 음성을 출력할 필요가 있는 임의의 장치일 수 있다.
도 1은 본 발명의 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 절차를 설명한다. 본 실시예는 다음 단계를 포함한다:
101: 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정한다.
정상의 디코딩 프레임은, 현재 프레임에 관한 정보를 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득할 수 있다는 것을 의미한다. 여분의 디코딩 프레임은, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 없지만, 현재 프레임의 여분의 비트스트림 정보는 다른 프레임의 비트스트림으로부터 취득될 수 있다는 것을 의미한다.
본 발명의 실시예에서, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우에만 실행된다. 현재 프레임의 이전 프레임 및 현재 프레임은 두 개의 바로 이웃하는 프레임이다. 본 발명의 다른 실시예에서는, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임 이전의 특정 수량의 프레임 중에 여분의 디코딩 프레임이 존재하는 경우에만 실행된다. 특정 수량은 필요에 따라 설정될 수 있으며, 예를 들어, 2, 3, 4, 또는 10으로 설정될 수 있다.
102: 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한다.
현재 프레임의 디코딩된 파라미터가 스펙트럼 쌍 파라미터, 적응적 코드북 이득(gain_pit), 대수 코드북, 및 대역폭 확장 포락선 중 적어도 하나를 포함할 수 있으며, 스펙트럼 쌍 파라미터는 선형 스펙트럼 쌍(linear spectral pairs, LSP) 파라미터와 이미턴스 스펙트럼 쌍(immittance spectral pairs, ISP) 파라미터 중 적어도 하나일 수 있다. 본 발명의 본 실시예에서, 디코딩된 어느 하나의 파라미터에 대해서만 후처리가 수행될 수 있거나 모든 디코딩된 파라미터에 대해 후처리가 수행될 수 있다는 것을 알 수 있다. 구체적으로는, 후처리를 위해 얼마나 많은 파라미터가 선택되고 어느 파라미터가 선택되는지는 애플리케이션 시나리오 및 환경에 따라 선택될 수 있으며, 본 발명의 본 실시예는 이에 한정되지 않는다.
현재 프레임이 정상의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터를 취득하기 위해, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터는 파싱에 의해 다른 프레임의 비트스트림 내의 현재 프레임의 여분의 비트스트림 정보에 따라 취득될 수 있다.
103: 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득한다.
상이한 디코딩된 파라미터에 대해서는, 상이한 후처리가 수행될 수 있다. 예를 들어, 스펙트럼 쌍 파라미터에 대해 수행된 후처리는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하기 위해 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 적응적 가중치 부여(adaptive weighting)를 사용하는 것일 수 있다. 적응적 코드북 이득에 대해 수행되는 후처리는, 적응적 코드북 이득에 대해, 예를 들어, 감쇄와 같은, 조정을 수행하는 것일 수 있다.
본 발명의 본 실시예는 구체적인 후처리를 한정하지 않는다. 구체적으로, 어떤 유형의 후처리가 수행되는지는 필요에 따라 또는 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다.
104: 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원한다.
이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있으므로, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.
본 발명의 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하는 것을 포함한다. 구체적으로, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터에 대해 적응적 가중치 부여를 수행하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터을 취득한다. 구체적으로, 본 발명의 실시예에서는, 아래 식:
Figure 112016067948274-pct00073
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득할 수 있으며,
위 식에서,
Figure 112016067948274-pct00074
는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00075
는 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00076
는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수(order)이고,
Figure 112016067948274-pct00077
는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00078
는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00079
,
Figure 112016067948274-pct00080
, 및
Figure 112016067948274-pct00081
이다.
본 발명의 다른 실시예에서는, 아래 식:
Figure 112016067948274-pct00082
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득할 수 있으며,
위 식에서,
Figure 112016068006427-pct00083
는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016068006427-pct00084
는 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016068006427-pct00085
는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,
Figure 112016068006427-pct00086
는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
Figure 112016068006427-pct00087
는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016068006427-pct00088
는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,
Figure 112016068006427-pct00089
는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016068006427-pct00090
,
Figure 112016068006427-pct00091
,
Figure 112016068006427-pct00092
, 및
Figure 112016068006427-pct00093
이다.
전술한 식에서
Figure 112016067948274-pct00094
,
Figure 112016067948274-pct00095
, 및
Figure 112016067948274-pct00096
의 값은 상이한 애플리케이션 환경 및 시나리오에 따라 달라질 수 있다. 예를 들어, 현재 프레임의 신호 클래스가 무음성이고, 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,
Figure 112016067948274-pct00097
의 값은 0이거나 미리 설정된 임계치(
Figure 112016067948274-pct00098
)보다 작으며,
Figure 112016067948274-pct00099
의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00100
의 값은 0이거나 미리 설정된 임계치(
Figure 112016067948274-pct00101
)보다 작으며,
Figure 112016067948274-pct00102
의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00103
의 값은 0이거나 미리 설정된 임계치(
Figure 112016067948274-pct00104
)보다 작으며,
Figure 112016067948274-pct00105
은 0에 근접할 수 있다.
스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 프레임의 스펙트럼 경사 인자가 작을수록, 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
현재 프레임의 신호 클래스는 무성음(unvoiced), 유성음(voiced), 보통음(generic), 천이음(transition), 침묵음(inactive), 등일 수 있다.
따라서, 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다. 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 적응적 코드북 이득을 포함할 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 현재 프레임의 다다음 프레임이 무성음 프레임이고 현재 프레임의 현재 서브프레임의 대수 코드북이 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하는 것을 포함할 수 있다. 현재 프레임 또는 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 신호 클래스가 보통음이고 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 현재 프레임의 신호 클래스가 유성음이고, 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 현재 프레임의 이전 프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함할 수 있다.
제1 수량 및 제2 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 이들 값은 정수일 수 있거나 비정수일 수 있다. 예를 들어, 제1 수량의 값은 2, 2.5, 3, 3.4, 또는 4일 수 있고, 제2 수량의 값은 2, 2.6, 3, 3.5, 또는 4일 수 있다.
현재 프레임의 현재 서브프레임의 적응적 코드북 이득이 감쇄되는 경우에 사용되는 감쇄 인자에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대수 코드북을 포함한다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 랜덤 노이즈 또는 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함한다. 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 또는 시나리오에 따라 상이한 값이 설정될 수 있으며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하는 것을 포함할 수 있다. 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 현재 프레임의 대역폭 확장 포락선에 대한 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례하며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159일 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 현재 프레임이 여분의 디코딩의 예측 모드이면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하는 것을 포함한다. 여분의 디코딩의 예측 모드는, 여분의 비트스트림 정보가 인코딩되는 경우, 적응적 코드북 이득 부분을 인코딩하는 데 더 많은 비트가 사용되고 대수 코드북 부분을 인코딩하는 데 더 적은 비트가 사용되거나 심지어 대수 코드북 부분이 인코딩되지 않을 수 있다는 것을 나타낸다.
이상으로부터 알 수 있는 것은, 본 발명의 실시예에서, 무성음 프레임과 유성음 프레임 사이에 천이 시에(현재 프레임이 무성음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이거나, 또는 현재 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 여분의 디코딩 프레임인 경우), 무성음 프레임과 비무성음 프레임 사이의 프레임 간 천이 시의 클릭(click) 현상을 없앨 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다. 본 발명의 다른 실시예에서, 보통음 프레임과 유성음 프레임 사이의 천이 시(현재 프레임이 보통음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 유성음 프레임 및 정상의 디코딩 프레임이거나, 현재 프레임이 유성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 보통음 프레임 및 여분의 디코딩 프레임인 경우), 보통음 프레임과 유성음 프레임 사이의 천이 시의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에서의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 본 발명의 다른 실시예에서, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에 있어 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.
도 2는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 절차를 설명한다. 본 실시예는 다음 단계를 포함한다:
201: 현재 프레임이 정상의 디코딩 프레임인지를 판정하고; 정상의 디코딩 프레임이면 단계 204를 수행하고, 그렇지 않으면 단계 202를 수행한다.
구체적으로, 현재 프레임이 정상의 디코딩 프레임인지는 지터 버퍼 관리(jitter buffer management, JBM) 알고리즘에 기초하여 결정될 수 있다.
202: 현재 프레임의 여분의 정보가 존재하는지를 판정하고; 존재하면 단계 204를 수행하고, 그렇지 않으면 단계 203을 수행한다.
현재 프레임의 여분의 비트스트림 정보가 존재하면, 현재 프레임은 여분의 디코딩 프레임이다. 구체적으로, 현재 프레임의 여분의 비트스트림 정보는 지터 버퍼 또는 수신된 비트스트림으로부터 결정될 수 있다.
203: FEC 기술에 기초하여 현재 프레임의 음성/오디오 신호를 복원하고 절차를 종료한다.
204: 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한다.
현재 프레임이 정상의 디코딩 프레임인 경우, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 있으므로, 현재 프레임의 디코딩된 파라미터를 취득할 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터는 파싱에 의해 현재 프레임의 여분의 비트스크림 정보에 따라 취득될 수 있다.
205: 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득한다.
206: 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원한다.
이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.
본 발명의 본 실시예에서, 디코더가 파싱에 의해 취득한 현재 프레임의 디코딩된 파라미터는 현재 프레임의 스펙트럼 쌍 파라미터, 현재 프레임의 적응적 코드북 이득, 현재 프레임의 대수 코드북, 및 현재 프레임의 대역폭 확장 포락선 중 적어도 하나를 포함할 수 있다. 이해할 수 있는 것은, 디코더가 파싱에 의해 디코딩된 파라미터 중 적어도 두 개를 취득하더라도, 디코더는 여전히 적어도 두개의 디코딩 파라미터 중 하나에 대해서만 후처리를 수행할 수 있다는 것이다. 따라서, 얼마나 많은 디코딩된 파라미터 및 어느 디코딩된 파라미터에 대해 디코더가 후처리를 수행하는 것은 구체적으로 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다.
이하에 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더를 설명한다. 디코더는 예를 들어, 이동 전화, 노트북 컴퓨터, 태블릿 컴퓨터, 또는 퍼스널 컴퓨터 등, 음성을 출력할 필요가 있는 임의의 장치일 수 있다.
도 3은 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 구성을 설명한다. 디코더는 판정 유닛(301), 파싱 유닛(302), 후처리 유닛(303), 및 복원 유닛(304)을 포함한다.
판정 유닛(301)은 현재 프레임이 정상의 디코딩 프레임인지를 판정하도록 구성된다.
정상의 디코딩 프레임은, 현재 프레임에 관한 정보를 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득할 수 있다는 것을 의미한다. 여분의 디코딩 프레임은, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 없지만, 현재 프레임의 여분의 비트스트림 정보는 다른 프레임의 비트스트림으로부터 취득될 수 있다는 것을 의미한다.
본 발명의 실시예에서, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우에만 실행된다. 현재 프레임의 이전 프레임 및 현재 프레임은 두 개의 바로 인접하는 프레임이다. 본 발명의 다른 실시예에서는, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임 이전의 특정 수량의 프레임 중에 여분의 디코딩 프레임이 존재하는 경우에만 실행된다. 특정 수량은 필요에 따라 설정될 수 있으며, 예를 들어, 2, 3, 4, 또는 10으로 설정될 수 있다.
파싱 유닛(302)은, 판정 유닛(301)이, 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임인 것으로 판정한 경우, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득하도록 구성된다.
현재 프레임의 디코딩된 파라미터는 스펙트럼 쌍 파라미터, 적응적 코드북 이득(gain_pit), 대수 코드북, 및 대역폭 확장 포락선 중 적어도 하나를 포함할 수 있으며, 스펙트럼 쌍 파라미터는 LSP 파라미터와 ISP 파라미터 중 적어도 하나일 수 있다. 본 발명의 본 실시예에서, 디코딩 파라미터 중 어느 하나의 파라미터에 대해서만 후처리가 수행될 수 있거나 모든 디코딩된 파라미터에 대해 후처리가 수행될 수 있다는 것을 알 수 있을 것이다. 구체적으로는, 후처리를 위해 얼마나 많은 파라미터가 선택되고 어느 파라미터가 선택되는지는 애플리케이션 시나리오 및 환경에 따라 선택될 수 있으며, 본 발명의 본 실시예에서는 이를 한정하지 않는다.
현재 프레임이 정상의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터를 취득하기 위해, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터는 파싱에 의해 다른 프레임의 비트스트림 내의 현재 프레임의 여분의 비트스트림 정보에 따라 취득될 수 있다.
후처리 유닛(303)은 파싱 유닛(302)에 의해 취득된 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하도록 구성된다.
상이한 디코딩된 파라미터에 대해서는, 상이한 후처리가 수행될 수 있다. 예를 들어, 스펙트럼 쌍 파라미터에 대해 수행된 후처리는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하기 위해 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 적응적 가중치 부여를 사용하는 것일 수 있다. 적응적 코드북 이득에 대해 수행되는 후처리는, 적응적 코드북 이득에 대해, 예를 들어, 감쇄와 같은, 조정을 수행하는 것일 수 있다.
본 발명의 본 실시예는 구체적인 후처리를 한정하지 않는다. 구체적으로, 어떤 유형의 후처리가 수행되는지는 필요에 따라 또는 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다.
복원 유닛(304)은 후처리 유닛(303)에 의해 취득된 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성된다.
이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.
본 발명의 다른 실시예에서, 디코딩된 파라미터는 스펙트럼 쌍 파라미터를 포함하고 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 스펙트럼 쌍 파라미터를 포함하는 경우, 현재 프레임의 스펙트럼 쌍 파라미터와 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 사용하여, 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성될 수 있다. 구체적으로, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터에 대해 적응적 가중치 부여를 실행하여, 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득한다. 구체적으로, 본 발명의 본 실시예에서, 후처리 유닛(303)은 아래 식:
Figure 112016067948274-pct00106
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득할 수 있으며,
위 식에서,
Figure 112016067948274-pct00107
는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00108
는 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00109
는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
Figure 112016067948274-pct00110
는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00111
는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00112
,
Figure 112016067948274-pct00113
이다.
본 발명의 실시예에서, 후처리 유닛(303)은 아래 식:
Figure 112016067948274-pct00114
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득할 수 있으며,
위 식에서,
Figure 112016068006427-pct00115
는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016068006427-pct00116
는 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016068006427-pct00117
는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,
Figure 112016068006427-pct00118
는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파리미터의 차수이고,
Figure 112016068006427-pct00119
는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016068006427-pct00120
는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,
Figure 112016068006427-pct00121
는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016068006427-pct00122
,
Figure 112016068006427-pct00123
,
Figure 112016068006427-pct00124
이다.
전술한 식에서
Figure 112016067948274-pct00125
,
Figure 112016067948274-pct00126
, 및
Figure 112016067948274-pct00127
의 값은 상이한 애플리케이션 환경 및 시나리오에 따라 달라질 수 있다. 예를 들어, 현재 프레임의 신호 클래스가 무음성이고, 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,
Figure 112016067948274-pct00128
의 값은 0이거나 미리 설정된 임계치(
Figure 112016067948274-pct00129
)보다 작으며,
Figure 112016067948274-pct00130
의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00131
의 값은 0이거나 미리 설정된 임계치(
Figure 112016067948274-pct00132
)보다 작으며,
Figure 112016067948274-pct00133
의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00134
의 값은 0이거나 미리 설정된 임계치(
Figure 112016067948274-pct00135
)보다 작으며,
Figure 112016067948274-pct00136
은 0에 근접할 수 있다.
스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 프레임의 스펙트럼 경사 인자가 작을수록, 그 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
현재 프레임의 신호 클래스는 무성음, 유성음, 보통음, 천이음, 침묵음, 등일 수 있다.
따라서, 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다. 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임이 무성음 프레임이거나, 현재 프레임의 다다음 프레임이 무성음 프레임이고 현재 프레임의 현재 서브프레임의 대수 코드북이 현재 서브프레임의 이전 서브프레임의 대수 코드북의 제1 수량 배이면, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하도록 구성된다. 현재 프레임의 현재 서브프레임의 적응적 코드북 이득이 감쇄되는 경우에 사용되는 감쇄 인자에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다.
제1 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 그 값은 정수일 수 있거나 비정수일 수 있다. 예를 들어, 제1 수량의 값은 2, 2.5, 3, 3.4, 또는 4일 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 적응적 코드북 이득을 포함하고, 현재 프레임 또는 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 보통음이고 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 현재 프레임의 신호 클래스가 유성음이고, 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 그 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다른 경우, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 현재 프레임의 이전 프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하도록 구성된다.
제2 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 그 값은 정수일 수 있거나 비정수일 수 있다. 예를 들어, 제2 수량의 값은 2, 2.6, 3, 3.5, 또는 4일 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 대수 코드북을 포함하고, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0인 경우, 랜덤 노이즈 또는 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌 대수 코드북을 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하도록 구성된다.
스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임이 여분의 디코딩 프레임이고, 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 현재 프레임이 무성음 프레임이 아니고 현재 프레임의 다음 프레임이 무성음 프레임이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작은 경우, 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라, 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하도록 구성된다. 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임이 여분의 디코딩 프레임이고, 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 현재 프레임이 여분의 디코딩의 예측 모드인 경우, 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하도록 구성된다.
이상으로부터 알 수 있는 것은, 본 발명의 실시예에서, 무성음 프레임과 유성음 프레임 사이의 천이 시에(현재 프레임이 무성음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이거나, 또는 현재 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 여분의 디코딩 프레임인 경우), 무성음 프레임과 비무성음 프레임 사이의 프레임 간 천이 시의 클릭 현상을 없앨 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리가 수행될 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다. 본 발명의 다른 실시예에서, 보통음 프레임과 유성음 프레임 사이의 천이 시(현재 프레임이 보통음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 유성음 프레임 및 정상의 디코딩 프레임이거나, 현재 프레임이 유성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 보통음 프레임 및 여분의 디코딩 프레임인 경우), 보통음 프레임과 유성음 프레임 사이의 천이 시의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리가 수행될 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 본 발명의 다른 실시예에서, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에서의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.
도 4는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 구성을 설명한다. 디코더는 하나 이상의 버스(401), 버스(401)에 연결된 하나 이상의 프로세서(402), 및 버스(401)에 연결된 하나 이상의 메모리(403)를 포함한다.
프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하고; 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득하고; 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하고; 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원한다.
이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.
본 발명의 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득한다. 구체적으로, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터에 대해 적응적 가중치 부여를 실행하여, 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득한다. 구체적으로, 본 발명의 실시예에서는, 아래 식:
Figure 112016067948274-pct00137
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하며,
위 식에서,
Figure 112016067948274-pct00138
는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016067948274-pct00139
는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
Figure 112016067948274-pct00140
는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00141
는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016067948274-pct00142
Figure 112016067948274-pct00143
이다.
본 발명의 다른 실시예에서는, 아래 식:
Figure 112016067948274-pct00144
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하하며,
위 식에서,
Figure 112016068006427-pct00145
는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
Figure 112016068006427-pct00146
는 이전 프레임의 스펙트럼 쌍 파라미터이고,
Figure 112016068006427-pct00147
는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,
Figure 112016068006427-pct00148
는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
Figure 112016068006427-pct00149
는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
Figure 112016068006427-pct00150
는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,
Figure 112016068006427-pct00151
는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이며,
Figure 112016068006427-pct00152
,
Figure 112016068006427-pct00153
, 및
Figure 112016068006427-pct00154
이다.
전술한 식에서의
Figure 112016067948274-pct00155
,
Figure 112016067948274-pct00156
, 및
Figure 112016067948274-pct00157
는 상이한 애플리케이션 환경 및 시나리오에 따라 달라질 수 있다. 예를 들어, 현재 프레임의 신호 클래스가 무음성이고, 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,
Figure 112016067948274-pct00158
의 값은 0이거나 미리 설정된 임계치(
Figure 112016067948274-pct00159
)보다 작으며,
Figure 112016067948274-pct00160
의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00161
의 값은 0이거나 미리 설정된 임계치(
Figure 112016067948274-pct00162
)보다 작으며,
Figure 112016067948274-pct00163
의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
Figure 112016067948274-pct00164
의 값은 0이거나 미리 설정된 임계치(
Figure 112016067948274-pct00165
)보다 작으며,
Figure 112016067948274-pct00166
은 0에 근접할 수 있다.
스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 프레임의 스펙트럼 경사 인자가 작을수록, 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
현재 프레임의 신호 클래스는 무성음, 유성음, 보통음, 천이음, 침묵음, 등일 수 있다.
따라서, 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있으며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 적응적 코드북 이득을 포함할 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 현재 프레임의 다다음 프레임이 무성음 프레임이고 현재 프레임의 현재 서브프레임의 대수 코드북이 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄한다. 현재 프레임 또는 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 신호 클래스가 보통음이고 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 현재 프레임의 신호 클래스가 유성음이고, 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 그 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 현재 프레임의 이전 프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함할 수 있다.
제1 수량 및 제2 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 이들 값은 정수 또는 비정수일 수 있다. 예를 들어, 제1 수량의 값은 2, 2.5, 3, 3.4, 또는 4일 수 있고, 제2 수량의 값은 2, 2.6, 3, 3.5, 또는 4일 수 있다.
현재 프레임의 현재 서브프레임의 적응적 코드북 이득이 감쇄되는 경우에 사용되는 감쇄 인자에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대수 코드북을 포함한다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 랜덤 노이즈 또는 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌 대수 코드북을 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함한다. 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 또는 시나리오에 따라 상이한 값이 설정될 수 있으며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행한다. 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 현재 프레임의 대역폭 확장 포락선에 대한 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례하며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159일 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 현재 프레임이 여분의 디코딩의 예측 모드이면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행한다.
이상으로부터 알 수 있는 것은, 본 발명의 실시예에서, 무성음 프레임과 유성음 프레임 사이의 천이 시에(현재 프레임이 무성음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이거나, 또는 현재 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 여분의 디코딩 프레임인 경우), 무성음 프레임과 비무성음 프레임 사이의 프레임 간 천이 시의 클릭(click) 현상을 없앨 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다. 본 발명의 다른 실시예에서, 보통음 프레임과 유성음 프레임 사이의 천이 시(현재 프레임이 보통음 프레임 및 여분의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 유성음 프레임 및 정상의 디코딩 프레임이거나, 현재 프레임이 유성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 보통음 프레임 및 여분의 디코딩 프레임인 경우), 보통음 프레임과 유성음 프레임 사이의 천이 시의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 본 발명의 다른 실시예에서, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에서의 에너지 불안정 현상을 수정하도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.
본 발명의 다른 실시예는 컴퓨터 저장 매체를 더 제공한다. 컴퓨터 저장 매체는 프로그램을 저장할 수 있으며 상기 프로그램은 전술한 방법 실시예에서 설명한 음성/오디오 비트스트림 디코딩 방법의 단계 중 일부 또는 전부를 수행한다.
유의해야 할 것은, 간략한 설명을 위해, 전술한 방법 실시예는 일련의 동작으로 표현되어 있다는 것이다. 그러나 본 발명에 따르면, 일부 단계는 다른 순서로 또는 동시에 수행될 수 있기 때문에, 당업자라면 동작들의 기재 순서에 한정되지 않는다는 것을 알아야 한다. 또, 당업자라면, 본 명세서에 기술된 모든 실시예는 예시적인 실시예이며, 관련 동작 및 모듈은 반드시 본 발명에 필수적인 것은 아니라는 것을 이해해야 한다.
전술한 실시예에서, 각각의 실시예에 대한 설명은 각자의 주안점이 있다. 일 실시예에서 상세하게 설명하지 않은 부분에 대해서는, 다른 실시예에서의 관련 부분을 참조할 수 있다.
본 출원에 제공된 여러 실시예에서, 개시된 장치는 다른 방식으로도 구현될 수 있음을 알아야 한다. 예를 들어, 기재된 장치 실시예는 예시일 뿐이다. 예를 들어, 유닛 분할은 논리 기능 분할일 뿐이고, 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성요소는 다른 시스템에 결합 또는 통합될 수 있거나, 또는 일부 특징(feature)은 무시되거나 수행되지 않을 수 있다. 또, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 몇몇 인터페이스를 통해 구현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 연결은 전자적으로, 기계적으로, 또는 기타 다른 형태로 구현될 수 있다.
별개의 부분(separate part)으로 설명된 유닛은 물리적으로 분리할 수도 분리할 수 없을 수도 있으며, 유닛으로 표시된 부분은 물리적인 유닛일 수도 물리적인 유닛이 아닐 수도 있으며, 한 장소에 위치할 수 있거나, 또는 복수의 네트워크 유닛에 분산될 수 있다. 유닛들 중 일부 또는 전부는 실시예의 방안의 목적을 달성하기 위한 실제 필요에 따라 선택될 수 있다.
또, 본 발명의 실시예에서의 기능 유닛은 하나의 처리 유닛으로 통합될 수 있거나, 또는 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 둘 이상의 유닛이 하나의 유닛으로 통합되어 있다. 통합 유닛은 하드웨어의 형태로 구현될 수 있거나, 소프트웨어 기능 유닛어의 형태로 구현될 수 있다.
전술한 통합 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립된 제품의 형태로 판매 또는 사용되는 경우, 그 통합 유닛은 컴퓨터로 판독할 수 있는 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 발명의 기술적 방안의 본질상, 또는 종래기술에 기여하는 부분, 또는 기술적 해결방안의 일부 또는 전부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, (퍼스널 컴퓨터, 서버, 네트워크 기기, 또는 메모리에 연결된 프로세서일 수 있는) 컴퓨터 기기에 본 발명의 전술한 실시예에서 기재된 방법의 단계들 중 일부 또는 전부를 수행하도록 명령하기 위한 여러 명령어를 포함한다. 전술한 저장 매체로는, USB 플래시 드라이브, 읽기 전용 메모리(read-only memory, ROM), 임의 접근 메모리(random access memory, RAM), 휴대형 하드 디스크, 자기 디스크, 또는 광 디스크 등의, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 실시예는 본 발명의 기술적 방안을 설명하기 위한 것일 뿐이며, 본 발명을 한정하려는 것은 아니다. 전술한 실시예를 참조하여 본 발명의 실시예를 상세하게 설명하였지만, 당업자라면 여전히, 본 발명의 실시예의 기술적 방안의 범위를 벗어나지 않으면서, 전술한 실시예에서 설명한 기술적 해결방안에 수정을 가하거나 그 기술적 특징의 일부를 동등물로 대체할 수 있음을 알아야 한다.

Claims (43)

  1. 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하는 단계; 및
    상기 현재 프레임이 여분의 디코딩 프레임인 경우, 또는 상기 현재 프레임이 정상의 디코딩 프레임이고 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우,
    비트스트림을 파싱하여 상기 현재 프레임의 디코딩된 파라미터를 취득하는 단계,
    상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하는 단계, 및
    상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하는 단계
    를 수행하는 단계
    를 포함하고,
    상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
    상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
  2. 제1항에 있어서,
    상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:
    Figure 112017074170258-pct00167

    을 사용하여 계산을 통해 취득되며,
    위 식에서,
    Figure 112017074170258-pct00168
    는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
    Figure 112017074170258-pct00169
    는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
    Figure 112017074170258-pct00170
    는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수(order)이고,
    Figure 112017074170258-pct00171
    는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
    Figure 112017074170258-pct00172
    는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
    Figure 112017074170258-pct00173
    ,
    Figure 112017074170258-pct00174
    , 및
    Figure 112017074170258-pct00175
    인, 음성/오디오 비트스트림 디코딩 방법.
  3. 제1항에 있어서,
    상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:
    Figure 112017074170258-pct00176

    을 사용하여 계산을 통해 취득되며,
    위 식에서,
    Figure 112017074170258-pct00177
    는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
    Figure 112017074170258-pct00178
    는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
    Figure 112017074170258-pct00179
    는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,
    Figure 112017074170258-pct00180
    는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
    Figure 112017074170258-pct00181
    는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
    Figure 112017074170258-pct00182
    는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,
    Figure 112017074170258-pct00183
    는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
    Figure 112017074170258-pct00184
    ,
    Figure 112017074170258-pct00185
    ,
    Figure 112017074170258-pct00186
    , 및
    Figure 112017074170258-pct00187
    인, 음성/오디오 비트스트림 디코딩 방법.
  4. 제3항에 있어서,
    상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음(unvoiced)이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
    Figure 112017074170258-pct00188
    의 값은 0이거나 미리 설정된 임계치보다 작은, 음성/오디오 비트스트림 디코딩 방법.
  5. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,
    Figure 112017074170258-pct00189
    의 값은 0이거나 미리 설정된 임계치보다 작은, 음성/오디오 비트스트림 디코딩 방법.
  6. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
    Figure 112017074170258-pct00243
    의 값은 0이거나 미리 설정된 임계치보다 작은, 음성/오디오 비트스트림 디코딩 방법.
  7. 제4항에 있어서,
    상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타내는, 음성/오디오 비트스트림 디코딩 방법.
  8. 제1항에 있어서,
    상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득(adaptive codebook gain)을 포함하고;
    상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북(algebraic codebook)이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
    상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
  9. 제1항에 있어서,
    상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득을 포함하고;
    상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 보통음(generic)이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음(voiced)이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
    상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라,
    상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
  10. 제1항에 있어서,
    상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 대수 코드북을 포함하고;
    상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
    랜덤 노이즈(random noise) 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
  11. 제1항에 있어서,
    상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선(bandwidth extension envelope)을 포함하며;
    상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
    상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
  12. 제11항에 있어서,
    상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례하는, 음성/오디오 비트스트림 디코딩 방법.
  13. 제1항에 있어서,
    상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선을 포함하며;
    상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
    상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
  14. 음성/오디오 비트스트림을 디코딩하는 디코더로서.
    프로세서와 메모리를 포함하고,
    상기 프로세서는,
    현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하고;
    상기 현재 프레임이 여분의 디코딩 프레임인 경우, 또는 상기 현재 프레임이 정상의 디코딩 프레임이고 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 비트스트림을 파싱하여 상기 현재 프레임의 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성되며,
    상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 상기 프로세서는, 상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성되는,
    디코더.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
KR1020167018932A 2013-12-31 2014-07-04 음성/오디오 비트스트림 디코딩 방법 및 장치 KR101833409B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310751997.XA CN104751849B (zh) 2013-12-31 2013-12-31 语音频码流的解码方法及装置
CN201310751997.X 2013-12-31
PCT/CN2014/081635 WO2015100999A1 (zh) 2013-12-31 2014-07-04 语音频码流的解码方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020187005229A Division KR101941619B1 (ko) 2013-12-31 2014-07-04 음성/오디오 비트스트림 디코딩 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20160096191A KR20160096191A (ko) 2016-08-12
KR101833409B1 true KR101833409B1 (ko) 2018-02-28

Family

ID=53493122

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167018932A KR101833409B1 (ko) 2013-12-31 2014-07-04 음성/오디오 비트스트림 디코딩 방법 및 장치
KR1020187005229A KR101941619B1 (ko) 2013-12-31 2014-07-04 음성/오디오 비트스트림 디코딩 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020187005229A KR101941619B1 (ko) 2013-12-31 2014-07-04 음성/오디오 비트스트림 디코딩 방법 및 장치

Country Status (7)

Country Link
US (2) US9734836B2 (ko)
EP (2) EP3624115A1 (ko)
JP (1) JP6475250B2 (ko)
KR (2) KR101833409B1 (ko)
CN (1) CN104751849B (ko)
ES (1) ES2756023T3 (ko)
WO (1) WO2015100999A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180023044A (ko) * 2013-12-31 2018-03-06 후아웨이 테크놀러지 컴퍼니 리미티드 음성/오디오 비트스트림 디코딩 방법 및 장치
US10269357B2 (en) 2014-03-21 2019-04-23 Huawei Technologies Co., Ltd. Speech/audio bitstream decoding method and apparatus

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY183444A (en) * 2013-01-29 2021-02-18 Fraunhofer Ges Forschung Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program
CN106816158B (zh) * 2015-11-30 2020-08-07 华为技术有限公司 一种语音质量评估方法、装置及设备
KR102551359B1 (ko) 2017-10-24 2023-07-04 삼성전자주식회사 기계학습을 이용한 오디오 복원 방법 및 장치

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US5717824A (en) * 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
US6952668B1 (en) * 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
DE60029715T2 (de) 1999-04-19 2007-08-02 At & T Corp. Verfahren und anordnung zur verschleierung von rahmenausfall
US6973425B1 (en) * 1999-04-19 2005-12-06 At&T Corp. Method and apparatus for performing packet loss or Frame Erasure Concealment
US6597961B1 (en) * 1999-04-27 2003-07-22 Realnetworks, Inc. System and method for concealing errors in an audio transmission
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7069208B2 (en) 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7047187B2 (en) * 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
US20040002856A1 (en) 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US20040083110A1 (en) 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
US7486719B2 (en) 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
JP4438280B2 (ja) * 2002-10-31 2010-03-24 日本電気株式会社 トランスコーダ及び符号変換方法
US6985856B2 (en) 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20060088093A1 (en) * 2004-10-26 2006-04-27 Nokia Corporation Packet loss compensation
US7519535B2 (en) * 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
CN100561576C (zh) * 2005-10-25 2009-11-18 芯晟(北京)科技有限公司 一种基于量化信号域的立体声及多声道编解码方法与系统
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US20090248404A1 (en) 2006-07-12 2009-10-01 Panasonic Corporation Lost frame compensating method, audio encoding apparatus and audio decoding apparatus
CN101466662B (zh) 2006-07-13 2012-06-06 三菱瓦斯化学株式会社 氟代胺的制备方法
EP2538406B1 (en) 2006-11-10 2015-03-11 Panasonic Intellectual Property Corporation of America Method and apparatus for decoding parameters of a CELP encoded speech signal
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
CN101256774B (zh) 2007-03-02 2011-04-13 北京工业大学 用于嵌入式语音编码的帧擦除隐藏方法及系统
JP5596341B2 (ja) * 2007-03-02 2014-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置および音声符号化方法
US20100195490A1 (en) 2007-07-09 2010-08-05 Tatsuya Nakazawa Audio packet receiver, audio packet receiving method and program
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101261836B (zh) * 2008-04-25 2011-03-30 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
EP2301015B1 (en) * 2008-06-13 2019-09-04 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
MX2011000375A (es) 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
ES2558229T3 (es) 2008-07-11 2016-02-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas
MY159110A (en) 2008-07-11 2016-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
CN101777963B (zh) * 2009-12-29 2013-12-11 电子科技大学 一种基于反馈模式的帧级别编码与译码方法
CN101894558A (zh) 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
CN103688306B (zh) * 2011-05-16 2017-05-17 谷歌公司 对被编码为连续帧序列的音频信号进行解码的方法和装置
WO2012106926A1 (zh) 2011-07-25 2012-08-16 华为技术有限公司 一种参数域回声控制装置和方法
CN102438152B (zh) * 2011-12-29 2013-06-19 中国科学技术大学 可伸缩视频编码容错传输方法、编码器、装置和系统
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
CN103366749B (zh) * 2012-03-28 2016-01-27 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN102760440A (zh) 2012-05-02 2012-10-31 中兴通讯股份有限公司 语音信号的发送、接收装置及方法
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN107369455B (zh) 2014-03-21 2020-12-15 华为技术有限公司 语音频码流的解码方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITU-T Recommendation. G.718. Frame error robust narrow-band and wideband embedded variable bit-rate coding of speechand audio from 8-32 kbit/s. ITU-T, 2008.06.
Milan Jelinek, et al. G. 718: A new embedded speech and audio coding standard with high resilience to error-prone transmission channels. IEEE Communications Magazine, 2009.10., Vol.47,No.10, pp.117-12

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180023044A (ko) * 2013-12-31 2018-03-06 후아웨이 테크놀러지 컴퍼니 리미티드 음성/오디오 비트스트림 디코딩 방법 및 장치
US10121484B2 (en) 2013-12-31 2018-11-06 Huawei Technologies Co., Ltd. Method and apparatus for decoding speech/audio bitstream
KR101941619B1 (ko) * 2013-12-31 2019-01-23 후아웨이 테크놀러지 컴퍼니 리미티드 음성/오디오 비트스트림 디코딩 방법 및 장치
US10269357B2 (en) 2014-03-21 2019-04-23 Huawei Technologies Co., Ltd. Speech/audio bitstream decoding method and apparatus
US11031020B2 (en) 2014-03-21 2021-06-08 Huawei Technologies Co., Ltd. Speech/audio bitstream decoding method and apparatus

Also Published As

Publication number Publication date
JP6475250B2 (ja) 2019-02-27
KR20180023044A (ko) 2018-03-06
EP3076390B1 (en) 2019-09-11
EP3076390A4 (en) 2016-12-21
EP3624115A1 (en) 2020-03-18
ES2756023T3 (es) 2020-04-24
CN104751849B (zh) 2017-04-19
KR20160096191A (ko) 2016-08-12
CN104751849A (zh) 2015-07-01
JP2017504832A (ja) 2017-02-09
EP3076390A1 (en) 2016-10-05
WO2015100999A1 (zh) 2015-07-09
US10121484B2 (en) 2018-11-06
US20170301361A1 (en) 2017-10-19
US9734836B2 (en) 2017-08-15
KR101941619B1 (ko) 2019-01-23
US20160343382A1 (en) 2016-11-24

Similar Documents

Publication Publication Date Title
KR101290425B1 (ko) 소거된 스피치 프레임을 복원하는 시스템 및 방법
ES2837924T3 (es) Corrección selectiva adelantada de errores para códecs de audio espaciales
KR101833409B1 (ko) 음성/오디오 비트스트림 디코딩 방법 및 장치
US8498861B2 (en) Apparatus and method for concealing frame erasure and voice decoding apparatus and method using the same
US11031020B2 (en) Speech/audio bitstream decoding method and apparatus
US10504525B2 (en) Adaptive forward error correction redundant payload generation
ES2707888T3 (es) Sistemas y procedimientos para mitigar la inestabilidad potencial de tramas
US9076439B2 (en) Bit error management and mitigation for sub-band coding
TW201207839A (en) Concealing lost packets in a Sub-Band Coding decoder
JP6616470B2 (ja) 符号化方法、復号化方法、符号化装置及び復号化装置
JP6517300B2 (ja) 信号処理方法及び装置
JP2005091749A (ja) 音源信号符号化装置、及び音源信号符号化方法
ES2726193T3 (es) Cuantificación de parámetros de audio

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant