KR101833409B1 - 음성/오디오 비트스트림 디코딩 방법 및 장치 - Google Patents
음성/오디오 비트스트림 디코딩 방법 및 장치 Download PDFInfo
- Publication number
- KR101833409B1 KR101833409B1 KR1020167018932A KR20167018932A KR101833409B1 KR 101833409 B1 KR101833409 B1 KR 101833409B1 KR 1020167018932 A KR1020167018932 A KR 1020167018932A KR 20167018932 A KR20167018932 A KR 20167018932A KR 101833409 B1 KR101833409 B1 KR 101833409B1
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- current frame
- current
- decoded
- previous
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
Abstract
음성/오디오 비트스트림 디코딩 방법 및 장치를 개시하며, 상기 음성/오디오 비트스트림 디코딩 방법은, 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하는 단계; 상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하는 단계; 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여, 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하는 단계; 및 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하는 단계를 포함한다.
Description
삭제
본 발명의 오디오 디코딩 기술에 관한 것으로, 특히 음성/오디오 비트스트림 디코딩 방법 및 장치에 관한 것이다.
이동 통신 서비스에서는, 네트워크상에서의 패킷 손실 및 지연 변동으로 인해 프레임 손실이 발생하는 것은 불가피하므로, 일부 음성/오디오 신호는 디코딩된 파라미터를 사용하여 복원될 수 없고 오직 프레임 손실 은닉(frame erasure concealment, FEC) 기술을 사용하여 복원될 수 있을 뿐인 결과를 초래한다. 그러나 패킷 손실률이 높은 경우에, 디코더 측에서만 FET 기술이 사용되면, 출력되는 음성/오디오 신호는 품질이 비교적 나빠서 고품질 통신의 요구를 충족시킬 수 없다.
음성/오디오 프레임 손실에 의해 유발되는 품질 저하 문제를 더 잘 해결하기 위해, 여분의 인코딩 알고리즘(redundancy encoding algorithm)이 생성된다: 인코더 측에서는, 특정 비트율이 현재 프레임에 관한 정보를 인코딩하는 데 사용되는 것에 더해, 더 낮은 비트율이 현재 프레임 외의 다른 프레임에 관한 정보를 인코딩하는데 사용되고, 더 낮은 비트율의 비트스트림이 여분의 비트스트림 정보로 사용되어 현재 프레임에 관한 정보의 비트스트림과 함께 디코더 측에 송신된다. 디코더 측에서는, 현재 프레임이 손실되는 경우, 지터 버퍼(jitter buffer) 또는 수신된 비트스트림이 현재 프레임을 포함하는 여분의 비트스트림 정보를 저장하고 있으면, 현재 프레임은 여분의 비트스트림 정보에 따라 복원될 수 있으므로, 복원된 음성/오디오 신호의 품질을 향상시킬 수 있다. 현재 프레임은 현재 프레임의 여분의 비트스트림 정보가 존재하지 않을 경우에만 FEC 기술에 기초하여 복원된다.
이상으로부터, 기존의 여분의 인코딩 알고리즘에서는, 여분의 비트스트림 정보가 너 낮은 비트율을 사용한 인코딩에 의해 취득되므로, 신호 불안정(signal instability)이 야기될 수 있으므로, 출력되는 음성/오디오 신호의 품질이 높지 않은 결과를 초래한다는 것이다.
본 발명의 실시예는 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있는, 음성/오디오 비트스트림을 위한 여분 디코딩 방법 및 장치를 제공한다.
제1 측면에 따르면, 음성/오디오 비트스트림 디코딩 방법이 제공되며, 상기 음성/오디오 비트스트림 디코딩 방법은,
현재 프레임이 정상의 디코딩 프레임(normal decoding frame)인지 여분의 디코딩 프레임인(redundancy decoding frame)지를 판정하는 단계;
상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하는 단계;
상기 현재 프레임의 디코딩된 파라미터에 대해 후처리(post-processing)를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하는 단계; 및
상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하는 단계를 포함한다.
제1 측면을 참조하여, 제1 측면의 제1 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터(spectral pair parameter)를 포함하고, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하는 것을 포함한다.
제1 측면의 제1 구현 방식을 참조하여, 제1 측면의 제2 구현 방식에서, 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:
을 사용하여 계산을 통해 취득되며,
위 식에서, 는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수(order)이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , , 및 이다.
제1 측면의 제1 구현 방식을 참조하여, 제1 측면의 제3 구현 방식에서, 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:
을 사용하여 계산을 통해 취득되며,
위 식에서, 는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , , , 및 이다.
제1 측면의 제3 구현 방식을 참조하여, 제1 측면의 제4 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음(unvoiced)이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자(spectral tilt factor)가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치보다 작다.
제1 측면의 제2 내지 제4 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제5 구현 방식에서, 상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우, 의 값은 0이거나 미리 설정된 임계치보다 작다.
제1 측면의 제2 내지 제5 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제6 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치보다 작다.
제1 측면의 제4 또는 제6 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제7 구현 방식에서, 상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
제1 측면 또는 제1 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제8 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득(adaptive codebook gain)을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북(algebraic codebook)이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배(quantity of times)이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하는 것을 포함한다.
제1 측면 또는 제1 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제9 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득을 포함하고;
상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 보통음(generic)이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함한다.
제1 측면 또는 제1 측면의 제1 내지 제9 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제10 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
랜덤 노이즈(random noise) 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함한다.
제1 측면 또는 제1 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제11 구현 방식에서, 상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선(bandwidth extension envelope)을 포함하며;
상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하는 것을 포함한다.
제1 측면의 제11 구현 방식을 참조하여, 제1 측면의 제12 구현 방식에서, 상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례한다.
제1 측면 또는 제1 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제13 구현 방식에서, 상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선을 포함하며;
상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하는 것을 포함한다.
제2 측면에 따르면, 음성/오디오 비트스트림을 디코딩하는 디코더가 제공되며, 상기 디코더는,
현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하도록 구성된 판정 유닛;
상기 판정 유닛이, 상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임인 것으로 판정한 경우, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하도록 구성된 파싱 유닛;
상기 파싱 유닛에 의해 취득된 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하도록 구성된 후처리 유닛; 및
상기 후처리 유닛에 의해 취득된 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성된 복원 유닛을 포함한다.
제2 측면을 참조하여, 제2 측면의 제1 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하는 경우, 상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성된다.
제2 측면의 제1 구현 방식을 참조하여, 제2 측면의 제2 구현 방식에서, 상기 후처리 유닛은 구체적으로, 아래 식:
을 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하도록 구성되고,
위 식에서, 는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , , 및 이다.
제2 측면의 제1 구현 방식을 참조하여, 제2 측면의 제3 구현 방식에서, 상기 후처리 유닛은 구체적으로, 아래 식:
을 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하도록 구성되고,
위 식에서, 는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , , , 및 이다.
제2 측면의 제3 구현 방식을 참조하여, 제2 측면의 제4 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치보다 작다.
제2 측면의 제2 내지 제4 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제5 구현 방식에서, 상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우, 의 값은 0이거나 미리 설정된 임계치보다 작다.
제2 측면의 제2 내지 제5 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제6 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치보다 작다.
제2 측면의 제4 또는 제6 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제7 구현 방식에서, 상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
제2 측면 또는 제2 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제8 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고 상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하도록 구성된다.
제2 측면 또는 제2 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제9 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고, 상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다른 경우, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하도록 구성된다.
제2 측면 또는 제2 측면의 제1 내지 제9 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제10 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 대수 코드북을 포함하고, 상기 현재 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0인 경우, 랜덤 노이즈 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하도록 구성된다.
제2 측면 또는 제2 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제11 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작은 경우, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라, 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하도록 구성된다.
제2 측면의 제11 구현 방식을 참조하여, 제2 측면의 제12 구현 방식에서, 상기 후처리 유닛이 상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례한다.
제2 측면 또는 제2 측면의 제2 또는 제10 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제13 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임이 여분의 디코딩 프레임이고, 상기 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드인 경우, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하도록 구성된다.
제3 측면에 따르면, 음성/오디오 비트스트림을 디코딩하는 디코더가 제공되며, 상기 디코더는 프로세서와 메모리를 포함하고, 상기 프로세서는, 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하고; 상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임인 것으로 판정한 경우, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성된다.
제3 측면을 참조하여, 제3 측면의 제1 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 상기 프로세서는, 상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성된다.
제3 측면의 제1 구현 방식을 참조하여, 제3 측면의 제2 구현 방식에서, 상기 프로세서는 구체적으로, 아래 식:
을 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하도록 구성되고,
위 식에서, 는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , , 및 이다.
제3 측면의 제1 구현 방식을 참조하여, 제3 측면의 제3 구현 방식에서, 상기 프로세서는 구체적으로, 아래 식:
을 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하도록 구성되고,
위 식에서, 는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이며, , , , 및 이다.
제3 측면의 제3 구현 방식을 참조하여, 제3 측면의 제4 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치보다 작다.
제3 측면의 제2 내지 제4 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제5 구현 방식에서, 상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우, 의 값은 0이거나 미리 설정된 임계치보다 작다.
제3 측면의 제2 내지 제5 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제6 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치보다 작다.
제3 측면의 제4 또는 제6 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제7 구현 방식에서, 상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
제3 측면 또는 제3 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제8 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고, 상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 상기 프로세서는 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하도록 구성된다.
제3 측면 또는 제3 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제9 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고;
상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면,
상기 프로세서는, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하도록 구성된다.
제3 측면 또는 제3 측면의 제1 내지 제9 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제10 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 대수 코드북을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 상기 프로세서는, 랜덤 노이즈 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하도록 구성된다.
제3 측면 또는 제3 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제11 구현 방식에서, 상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선을 포함하며;
상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
상기 프로세서는, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라, 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하도록 구성된다.
제3 측면의 제11 구현 방식을 참조하여, 제3 측면의 제12 구현 방식에서, 상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례한다.
제3 측면 또는 제3 측면의 제1 내지 제10 구현 방식을 참조하여, 제3 측면의 제13 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고, 상기 디코딩된 파라미터가 대역폭 확장 포락선을 포함하며;
상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드이면, 상기 프로세서는, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하도록 구성된다.
본 발명의 일부 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이(transition)하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.
본 발명의 실시예에서의 기술적 방안을 더욱 명확하게 설명하기 위해, 이하에 본 발명의 실시예의 설명에 필요한 첨부도면을 간단하게 소개한다. 명백히, 이하의 설명에서의 첨부도면은 단지 본 발명의 일부 실시예를 보여줄 뿐이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진자(이하, 당업자라고 함)라면 창의적인 노력 없이 이들 첨부도면으로부터라 다른 도면을 도출할 수 있을 것이다.
도 1은 본 발명의 실시예예에 따른 음성/오디오 비트스트림 디코딩 방법의 개략 흐름도이다.
도 2는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 개략 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 개략 구성도이다.
도 4는 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 개략 구성도이다.
도 1은 본 발명의 실시예예에 따른 음성/오디오 비트스트림 디코딩 방법의 개략 흐름도이다.
도 2는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 개략 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 개략 구성도이다.
도 4는 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 개략 구성도이다.
당업자가 본 발명의 기술적 방안을 더 잘 이해할 수 있도록, 이하에 본 발명의 실시예에서의 첨부도면을 참조하여 본 발명의 실시예에서의 기술적 방안을 명확하고 완전하게 설명한다. 명백히, 설명되는 실시예는 본 발명의 실시예의 전부가 아니라 일부일 뿐이다. 당업자가 창의적인 노력 없이 본 발명의 실시예에 기초하여 얻은 모든 다른 실시예는 본 발명의 보호 범위에 속한다.
이하에 상세하게 각각의 설명을 제공한다.
본 발명의 명세서, 청구범위, 및 첨부도면에서, 용어 "제1" 및 "제2"는 유사한 대상 간의 구별을 위한 것이지, 반드시 특정 순서 또는 시퀀스를 의미하지는 않는다. 이해해야 할 것은, 이런 식으로 불리는 데이터는 적절한 상황에서 교체 사용이 가능하므로 본원에 기재된 본 발명의 실시예는, 예를 들어, 본원에 도시되거나 기재된 순서 이외의 순서로 구현될 수 있다는 것이다. 또한, 용어 "포함한다(include, contain)" 및 임의의 다른 변형은 비배타적인 포함(non-exclusive inclusion)을 커버하는 것을 의미하며, 예를 들어, 단계의 리스트 또는 유닛들을 포함하는 프로세스, 방법, 시스템, 제품 또는 기기는 반드시 그러한 단계 또는 유닛으로 한정되는 것이 아니라, 그러한 프로세스, 방법, 시스템, 제품 또는 기기를 명시적으로 나열하거나 내재하지 않은 다른 단계 또는 유닛을 포함할 수 있다.
먼저, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법을 소개한다. 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 디코더에 의해 실행된다. 디코더는 예를 들어, 이동 전화, 노트북 컴퓨터, 태블릿 컴퓨터, 또는 퍼스널 컴퓨터 등, 음성을 출력할 필요가 있는 임의의 장치일 수 있다.
도 1은 본 발명의 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 절차를 설명한다. 본 실시예는 다음 단계를 포함한다:
101: 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정한다.
정상의 디코딩 프레임은, 현재 프레임에 관한 정보를 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득할 수 있다는 것을 의미한다. 여분의 디코딩 프레임은, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 없지만, 현재 프레임의 여분의 비트스트림 정보는 다른 프레임의 비트스트림으로부터 취득될 수 있다는 것을 의미한다.
본 발명의 실시예에서, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우에만 실행된다. 현재 프레임의 이전 프레임 및 현재 프레임은 두 개의 바로 이웃하는 프레임이다. 본 발명의 다른 실시예에서는, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임 이전의 특정 수량의 프레임 중에 여분의 디코딩 프레임이 존재하는 경우에만 실행된다. 특정 수량은 필요에 따라 설정될 수 있으며, 예를 들어, 2, 3, 4, 또는 10으로 설정될 수 있다.
102: 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한다.
현재 프레임의 디코딩된 파라미터가 스펙트럼 쌍 파라미터, 적응적 코드북 이득(gain_pit), 대수 코드북, 및 대역폭 확장 포락선 중 적어도 하나를 포함할 수 있으며, 스펙트럼 쌍 파라미터는 선형 스펙트럼 쌍(linear spectral pairs, LSP) 파라미터와 이미턴스 스펙트럼 쌍(immittance spectral pairs, ISP) 파라미터 중 적어도 하나일 수 있다. 본 발명의 본 실시예에서, 디코딩된 어느 하나의 파라미터에 대해서만 후처리가 수행될 수 있거나 모든 디코딩된 파라미터에 대해 후처리가 수행될 수 있다는 것을 알 수 있다. 구체적으로는, 후처리를 위해 얼마나 많은 파라미터가 선택되고 어느 파라미터가 선택되는지는 애플리케이션 시나리오 및 환경에 따라 선택될 수 있으며, 본 발명의 본 실시예는 이에 한정되지 않는다.
현재 프레임이 정상의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터를 취득하기 위해, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터는 파싱에 의해 다른 프레임의 비트스트림 내의 현재 프레임의 여분의 비트스트림 정보에 따라 취득될 수 있다.
103: 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득한다.
상이한 디코딩된 파라미터에 대해서는, 상이한 후처리가 수행될 수 있다. 예를 들어, 스펙트럼 쌍 파라미터에 대해 수행된 후처리는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하기 위해 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 적응적 가중치 부여(adaptive weighting)를 사용하는 것일 수 있다. 적응적 코드북 이득에 대해 수행되는 후처리는, 적응적 코드북 이득에 대해, 예를 들어, 감쇄와 같은, 조정을 수행하는 것일 수 있다.
본 발명의 본 실시예는 구체적인 후처리를 한정하지 않는다. 구체적으로, 어떤 유형의 후처리가 수행되는지는 필요에 따라 또는 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다.
104: 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원한다.
이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있으므로, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.
본 발명의 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하는 것을 포함한다. 구체적으로, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터에 대해 적응적 가중치 부여를 수행하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터을 취득한다. 구체적으로, 본 발명의 실시예에서는, 아래 식:
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득할 수 있으며,
위 식에서, 는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수(order)이고, 는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , , 및 이다.
본 발명의 다른 실시예에서는, 아래 식:
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득할 수 있으며,
위 식에서, 는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고, 는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , , , 및 이다.
전술한 식에서 ,, 및 의 값은 상이한 애플리케이션 환경 및 시나리오에 따라 달라질 수 있다. 예를 들어, 현재 프레임의 신호 클래스가 무음성이고, 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우, 의 값은 0이거나 미리 설정된 임계치()보다 작으며, 의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치()보다 작으며, 의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치()보다 작으며, 은 0에 근접할 수 있다.
스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 프레임의 스펙트럼 경사 인자가 작을수록, 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
현재 프레임의 신호 클래스는 무성음(unvoiced), 유성음(voiced), 보통음(generic), 천이음(transition), 침묵음(inactive), 등일 수 있다.
따라서, 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다. 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 적응적 코드북 이득을 포함할 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 현재 프레임의 다다음 프레임이 무성음 프레임이고 현재 프레임의 현재 서브프레임의 대수 코드북이 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하는 것을 포함할 수 있다. 현재 프레임 또는 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 신호 클래스가 보통음이고 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 현재 프레임의 신호 클래스가 유성음이고, 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 현재 프레임의 이전 프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함할 수 있다.
제1 수량 및 제2 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 이들 값은 정수일 수 있거나 비정수일 수 있다. 예를 들어, 제1 수량의 값은 2, 2.5, 3, 3.4, 또는 4일 수 있고, 제2 수량의 값은 2, 2.6, 3, 3.5, 또는 4일 수 있다.
현재 프레임의 현재 서브프레임의 적응적 코드북 이득이 감쇄되는 경우에 사용되는 감쇄 인자에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대수 코드북을 포함한다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 랜덤 노이즈 또는 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함한다. 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 또는 시나리오에 따라 상이한 값이 설정될 수 있으며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하는 것을 포함할 수 있다. 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 현재 프레임의 대역폭 확장 포락선에 대한 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례하며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159일 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 현재 프레임이 여분의 디코딩의 예측 모드이면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하는 것을 포함한다. 여분의 디코딩의 예측 모드는, 여분의 비트스트림 정보가 인코딩되는 경우, 적응적 코드북 이득 부분을 인코딩하는 데 더 많은 비트가 사용되고 대수 코드북 부분을 인코딩하는 데 더 적은 비트가 사용되거나 심지어 대수 코드북 부분이 인코딩되지 않을 수 있다는 것을 나타낸다.
이상으로부터 알 수 있는 것은, 본 발명의 실시예에서, 무성음 프레임과 유성음 프레임 사이에 천이 시에(현재 프레임이 무성음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이거나, 또는 현재 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 여분의 디코딩 프레임인 경우), 무성음 프레임과 비무성음 프레임 사이의 프레임 간 천이 시의 클릭(click) 현상을 없앨 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다. 본 발명의 다른 실시예에서, 보통음 프레임과 유성음 프레임 사이의 천이 시(현재 프레임이 보통음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 유성음 프레임 및 정상의 디코딩 프레임이거나, 현재 프레임이 유성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 보통음 프레임 및 여분의 디코딩 프레임인 경우), 보통음 프레임과 유성음 프레임 사이의 천이 시의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에서의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 본 발명의 다른 실시예에서, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에 있어 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.
도 2는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 절차를 설명한다. 본 실시예는 다음 단계를 포함한다:
201: 현재 프레임이 정상의 디코딩 프레임인지를 판정하고; 정상의 디코딩 프레임이면 단계 204를 수행하고, 그렇지 않으면 단계 202를 수행한다.
구체적으로, 현재 프레임이 정상의 디코딩 프레임인지는 지터 버퍼 관리(jitter buffer management, JBM) 알고리즘에 기초하여 결정될 수 있다.
202: 현재 프레임의 여분의 정보가 존재하는지를 판정하고; 존재하면 단계 204를 수행하고, 그렇지 않으면 단계 203을 수행한다.
현재 프레임의 여분의 비트스트림 정보가 존재하면, 현재 프레임은 여분의 디코딩 프레임이다. 구체적으로, 현재 프레임의 여분의 비트스트림 정보는 지터 버퍼 또는 수신된 비트스트림으로부터 결정될 수 있다.
203: FEC 기술에 기초하여 현재 프레임의 음성/오디오 신호를 복원하고 절차를 종료한다.
204: 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한다.
현재 프레임이 정상의 디코딩 프레임인 경우, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 있으므로, 현재 프레임의 디코딩된 파라미터를 취득할 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터는 파싱에 의해 현재 프레임의 여분의 비트스크림 정보에 따라 취득될 수 있다.
205: 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득한다.
206: 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원한다.
이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.
본 발명의 본 실시예에서, 디코더가 파싱에 의해 취득한 현재 프레임의 디코딩된 파라미터는 현재 프레임의 스펙트럼 쌍 파라미터, 현재 프레임의 적응적 코드북 이득, 현재 프레임의 대수 코드북, 및 현재 프레임의 대역폭 확장 포락선 중 적어도 하나를 포함할 수 있다. 이해할 수 있는 것은, 디코더가 파싱에 의해 디코딩된 파라미터 중 적어도 두 개를 취득하더라도, 디코더는 여전히 적어도 두개의 디코딩 파라미터 중 하나에 대해서만 후처리를 수행할 수 있다는 것이다. 따라서, 얼마나 많은 디코딩된 파라미터 및 어느 디코딩된 파라미터에 대해 디코더가 후처리를 수행하는 것은 구체적으로 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다.
이하에 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더를 설명한다. 디코더는 예를 들어, 이동 전화, 노트북 컴퓨터, 태블릿 컴퓨터, 또는 퍼스널 컴퓨터 등, 음성을 출력할 필요가 있는 임의의 장치일 수 있다.
도 3은 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 구성을 설명한다. 디코더는 판정 유닛(301), 파싱 유닛(302), 후처리 유닛(303), 및 복원 유닛(304)을 포함한다.
판정 유닛(301)은 현재 프레임이 정상의 디코딩 프레임인지를 판정하도록 구성된다.
정상의 디코딩 프레임은, 현재 프레임에 관한 정보를 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득할 수 있다는 것을 의미한다. 여분의 디코딩 프레임은, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 없지만, 현재 프레임의 여분의 비트스트림 정보는 다른 프레임의 비트스트림으로부터 취득될 수 있다는 것을 의미한다.
본 발명의 실시예에서, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우에만 실행된다. 현재 프레임의 이전 프레임 및 현재 프레임은 두 개의 바로 인접하는 프레임이다. 본 발명의 다른 실시예에서는, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임 이전의 특정 수량의 프레임 중에 여분의 디코딩 프레임이 존재하는 경우에만 실행된다. 특정 수량은 필요에 따라 설정될 수 있으며, 예를 들어, 2, 3, 4, 또는 10으로 설정될 수 있다.
파싱 유닛(302)은, 판정 유닛(301)이, 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임인 것으로 판정한 경우, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득하도록 구성된다.
현재 프레임의 디코딩된 파라미터는 스펙트럼 쌍 파라미터, 적응적 코드북 이득(gain_pit), 대수 코드북, 및 대역폭 확장 포락선 중 적어도 하나를 포함할 수 있으며, 스펙트럼 쌍 파라미터는 LSP 파라미터와 ISP 파라미터 중 적어도 하나일 수 있다. 본 발명의 본 실시예에서, 디코딩 파라미터 중 어느 하나의 파라미터에 대해서만 후처리가 수행될 수 있거나 모든 디코딩된 파라미터에 대해 후처리가 수행될 수 있다는 것을 알 수 있을 것이다. 구체적으로는, 후처리를 위해 얼마나 많은 파라미터가 선택되고 어느 파라미터가 선택되는지는 애플리케이션 시나리오 및 환경에 따라 선택될 수 있으며, 본 발명의 본 실시예에서는 이를 한정하지 않는다.
현재 프레임이 정상의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터를 취득하기 위해, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터는 파싱에 의해 다른 프레임의 비트스트림 내의 현재 프레임의 여분의 비트스트림 정보에 따라 취득될 수 있다.
후처리 유닛(303)은 파싱 유닛(302)에 의해 취득된 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하도록 구성된다.
상이한 디코딩된 파라미터에 대해서는, 상이한 후처리가 수행될 수 있다. 예를 들어, 스펙트럼 쌍 파라미터에 대해 수행된 후처리는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하기 위해 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 적응적 가중치 부여를 사용하는 것일 수 있다. 적응적 코드북 이득에 대해 수행되는 후처리는, 적응적 코드북 이득에 대해, 예를 들어, 감쇄와 같은, 조정을 수행하는 것일 수 있다.
본 발명의 본 실시예는 구체적인 후처리를 한정하지 않는다. 구체적으로, 어떤 유형의 후처리가 수행되는지는 필요에 따라 또는 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다.
복원 유닛(304)은 후처리 유닛(303)에 의해 취득된 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성된다.
이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.
본 발명의 다른 실시예에서, 디코딩된 파라미터는 스펙트럼 쌍 파라미터를 포함하고 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 스펙트럼 쌍 파라미터를 포함하는 경우, 현재 프레임의 스펙트럼 쌍 파라미터와 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 사용하여, 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성될 수 있다. 구체적으로, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터에 대해 적응적 가중치 부여를 실행하여, 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득한다. 구체적으로, 본 발명의 본 실시예에서, 후처리 유닛(303)은 아래 식:
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득할 수 있으며,
위 식에서, 는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , 이다.
본 발명의 실시예에서, 후처리 유닛(303)은 아래 식:
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득할 수 있으며,
위 식에서, 는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고, 는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파리미터의 차수이고, 는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , , 이다.
전술한 식에서 ,, 및 의 값은 상이한 애플리케이션 환경 및 시나리오에 따라 달라질 수 있다. 예를 들어, 현재 프레임의 신호 클래스가 무음성이고, 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우, 의 값은 0이거나 미리 설정된 임계치()보다 작으며, 의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치()보다 작으며, 의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치()보다 작으며, 은 0에 근접할 수 있다.
스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 프레임의 스펙트럼 경사 인자가 작을수록, 그 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
현재 프레임의 신호 클래스는 무성음, 유성음, 보통음, 천이음, 침묵음, 등일 수 있다.
따라서, 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다. 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임이 무성음 프레임이거나, 현재 프레임의 다다음 프레임이 무성음 프레임이고 현재 프레임의 현재 서브프레임의 대수 코드북이 현재 서브프레임의 이전 서브프레임의 대수 코드북의 제1 수량 배이면, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하도록 구성된다. 현재 프레임의 현재 서브프레임의 적응적 코드북 이득이 감쇄되는 경우에 사용되는 감쇄 인자에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다.
제1 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 그 값은 정수일 수 있거나 비정수일 수 있다. 예를 들어, 제1 수량의 값은 2, 2.5, 3, 3.4, 또는 4일 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 적응적 코드북 이득을 포함하고, 현재 프레임 또는 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 보통음이고 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 현재 프레임의 신호 클래스가 유성음이고, 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 그 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다른 경우, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 현재 프레임의 이전 프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하도록 구성된다.
제2 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 그 값은 정수일 수 있거나 비정수일 수 있다. 예를 들어, 제2 수량의 값은 2, 2.6, 3, 3.5, 또는 4일 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 대수 코드북을 포함하고, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0인 경우, 랜덤 노이즈 또는 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌 대수 코드북을 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하도록 구성된다.
스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임이 여분의 디코딩 프레임이고, 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 현재 프레임이 무성음 프레임이 아니고 현재 프레임의 다음 프레임이 무성음 프레임이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작은 경우, 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라, 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하도록 구성된다. 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임이 여분의 디코딩 프레임이고, 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 현재 프레임이 여분의 디코딩의 예측 모드인 경우, 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하도록 구성된다.
이상으로부터 알 수 있는 것은, 본 발명의 실시예에서, 무성음 프레임과 유성음 프레임 사이의 천이 시에(현재 프레임이 무성음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이거나, 또는 현재 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 여분의 디코딩 프레임인 경우), 무성음 프레임과 비무성음 프레임 사이의 프레임 간 천이 시의 클릭 현상을 없앨 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리가 수행될 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다. 본 발명의 다른 실시예에서, 보통음 프레임과 유성음 프레임 사이의 천이 시(현재 프레임이 보통음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 유성음 프레임 및 정상의 디코딩 프레임이거나, 현재 프레임이 유성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 보통음 프레임 및 여분의 디코딩 프레임인 경우), 보통음 프레임과 유성음 프레임 사이의 천이 시의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리가 수행될 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 본 발명의 다른 실시예에서, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에서의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.
도 4는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 구성을 설명한다. 디코더는 하나 이상의 버스(401), 버스(401)에 연결된 하나 이상의 프로세서(402), 및 버스(401)에 연결된 하나 이상의 메모리(403)를 포함한다.
프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하고; 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득하고; 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하고; 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원한다.
이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.
본 발명의 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득한다. 구체적으로, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터에 대해 적응적 가중치 부여를 실행하여, 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득한다. 구체적으로, 본 발명의 실시예에서는, 아래 식:
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하며,
위 식에서, 는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 및 이다.
본 발명의 다른 실시예에서는, 아래 식:
을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하하며,
위 식에서, 는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고, 는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고, 는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이며, , , 및 이다.
전술한 식에서의 , , 및 는 상이한 애플리케이션 환경 및 시나리오에 따라 달라질 수 있다. 예를 들어, 현재 프레임의 신호 클래스가 무음성이고, 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우, 의 값은 0이거나 미리 설정된 임계치()보다 작으며, 의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치()보다 작으며, 의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치()보다 작으며, 은 0에 근접할 수 있다.
스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 프레임의 스펙트럼 경사 인자가 작을수록, 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.
현재 프레임의 신호 클래스는 무성음, 유성음, 보통음, 천이음, 침묵음, 등일 수 있다.
따라서, 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있으며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 적응적 코드북 이득을 포함할 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 현재 프레임의 다다음 프레임이 무성음 프레임이고 현재 프레임의 현재 서브프레임의 대수 코드북이 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄한다. 현재 프레임 또는 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 신호 클래스가 보통음이고 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 현재 프레임의 신호 클래스가 유성음이고, 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 그 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 현재 프레임의 이전 프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함할 수 있다.
제1 수량 및 제2 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 이들 값은 정수 또는 비정수일 수 있다. 예를 들어, 제1 수량의 값은 2, 2.5, 3, 3.4, 또는 4일 수 있고, 제2 수량의 값은 2, 2.6, 3, 3.5, 또는 4일 수 있다.
현재 프레임의 현재 서브프레임의 적응적 코드북 이득이 감쇄되는 경우에 사용되는 감쇄 인자에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대수 코드북을 포함한다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 랜덤 노이즈 또는 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌 대수 코드북을 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함한다. 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 또는 시나리오에 따라 상이한 값이 설정될 수 있으며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행한다. 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 현재 프레임의 대역폭 확장 포락선에 대한 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례하며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159일 수 있다.
본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 현재 프레임이 여분의 디코딩의 예측 모드이면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행한다.
이상으로부터 알 수 있는 것은, 본 발명의 실시예에서, 무성음 프레임과 유성음 프레임 사이의 천이 시에(현재 프레임이 무성음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이거나, 또는 현재 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 여분의 디코딩 프레임인 경우), 무성음 프레임과 비무성음 프레임 사이의 프레임 간 천이 시의 클릭(click) 현상을 없앨 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다. 본 발명의 다른 실시예에서, 보통음 프레임과 유성음 프레임 사이의 천이 시(현재 프레임이 보통음 프레임 및 여분의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 유성음 프레임 및 정상의 디코딩 프레임이거나, 현재 프레임이 유성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 보통음 프레임 및 여분의 디코딩 프레임인 경우), 보통음 프레임과 유성음 프레임 사이의 천이 시의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 본 발명의 다른 실시예에서, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에서의 에너지 불안정 현상을 수정하도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.
본 발명의 다른 실시예는 컴퓨터 저장 매체를 더 제공한다. 컴퓨터 저장 매체는 프로그램을 저장할 수 있으며 상기 프로그램은 전술한 방법 실시예에서 설명한 음성/오디오 비트스트림 디코딩 방법의 단계 중 일부 또는 전부를 수행한다.
유의해야 할 것은, 간략한 설명을 위해, 전술한 방법 실시예는 일련의 동작으로 표현되어 있다는 것이다. 그러나 본 발명에 따르면, 일부 단계는 다른 순서로 또는 동시에 수행될 수 있기 때문에, 당업자라면 동작들의 기재 순서에 한정되지 않는다는 것을 알아야 한다. 또, 당업자라면, 본 명세서에 기술된 모든 실시예는 예시적인 실시예이며, 관련 동작 및 모듈은 반드시 본 발명에 필수적인 것은 아니라는 것을 이해해야 한다.
전술한 실시예에서, 각각의 실시예에 대한 설명은 각자의 주안점이 있다. 일 실시예에서 상세하게 설명하지 않은 부분에 대해서는, 다른 실시예에서의 관련 부분을 참조할 수 있다.
본 출원에 제공된 여러 실시예에서, 개시된 장치는 다른 방식으로도 구현될 수 있음을 알아야 한다. 예를 들어, 기재된 장치 실시예는 예시일 뿐이다. 예를 들어, 유닛 분할은 논리 기능 분할일 뿐이고, 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성요소는 다른 시스템에 결합 또는 통합될 수 있거나, 또는 일부 특징(feature)은 무시되거나 수행되지 않을 수 있다. 또, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 몇몇 인터페이스를 통해 구현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 연결은 전자적으로, 기계적으로, 또는 기타 다른 형태로 구현될 수 있다.
별개의 부분(separate part)으로 설명된 유닛은 물리적으로 분리할 수도 분리할 수 없을 수도 있으며, 유닛으로 표시된 부분은 물리적인 유닛일 수도 물리적인 유닛이 아닐 수도 있으며, 한 장소에 위치할 수 있거나, 또는 복수의 네트워크 유닛에 분산될 수 있다. 유닛들 중 일부 또는 전부는 실시예의 방안의 목적을 달성하기 위한 실제 필요에 따라 선택될 수 있다.
또, 본 발명의 실시예에서의 기능 유닛은 하나의 처리 유닛으로 통합될 수 있거나, 또는 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 둘 이상의 유닛이 하나의 유닛으로 통합되어 있다. 통합 유닛은 하드웨어의 형태로 구현될 수 있거나, 소프트웨어 기능 유닛어의 형태로 구현될 수 있다.
전술한 통합 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립된 제품의 형태로 판매 또는 사용되는 경우, 그 통합 유닛은 컴퓨터로 판독할 수 있는 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 발명의 기술적 방안의 본질상, 또는 종래기술에 기여하는 부분, 또는 기술적 해결방안의 일부 또는 전부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, (퍼스널 컴퓨터, 서버, 네트워크 기기, 또는 메모리에 연결된 프로세서일 수 있는) 컴퓨터 기기에 본 발명의 전술한 실시예에서 기재된 방법의 단계들 중 일부 또는 전부를 수행하도록 명령하기 위한 여러 명령어를 포함한다. 전술한 저장 매체로는, USB 플래시 드라이브, 읽기 전용 메모리(read-only memory, ROM), 임의 접근 메모리(random access memory, RAM), 휴대형 하드 디스크, 자기 디스크, 또는 광 디스크 등의, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 실시예는 본 발명의 기술적 방안을 설명하기 위한 것일 뿐이며, 본 발명을 한정하려는 것은 아니다. 전술한 실시예를 참조하여 본 발명의 실시예를 상세하게 설명하였지만, 당업자라면 여전히, 본 발명의 실시예의 기술적 방안의 범위를 벗어나지 않으면서, 전술한 실시예에서 설명한 기술적 해결방안에 수정을 가하거나 그 기술적 특징의 일부를 동등물로 대체할 수 있음을 알아야 한다.
Claims (43)
- 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하는 단계; 및
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 또는 상기 현재 프레임이 정상의 디코딩 프레임이고 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우,
비트스트림을 파싱하여 상기 현재 프레임의 디코딩된 파라미터를 취득하는 단계,
상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하는 단계, 및
상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하는 단계
를 수행하는 단계
를 포함하고,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법. - 제1항에 있어서,
상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:
을 사용하여 계산을 통해 취득되며,
위 식에서, 는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고, 는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고, 는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고, , , , 및 인, 음성/오디오 비트스트림 디코딩 방법. - 제3항에 있어서,
상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음(unvoiced)이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치보다 작은, 음성/오디오 비트스트림 디코딩 방법. - 제2항 내지 제4항 중 어느 한 항에 있어서,
상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 의 값은 0이거나 미리 설정된 임계치보다 작은, 음성/오디오 비트스트림 디코딩 방법. - 제4항에 있어서,
상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타내는, 음성/오디오 비트스트림 디코딩 방법. - 제1항에 있어서,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득(adaptive codebook gain)을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북(algebraic codebook)이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법. - 제1항에 있어서,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득을 포함하고;
상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 보통음(generic)이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음(voiced)이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라,
상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법. - 제1항에 있어서,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 대수 코드북을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
랜덤 노이즈(random noise) 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법. - 제1항에 있어서,
상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선(bandwidth extension envelope)을 포함하며;
상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법. - 제11항에 있어서,
상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례하는, 음성/오디오 비트스트림 디코딩 방법. - 제1항에 있어서,
상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선을 포함하며;
상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법. - 음성/오디오 비트스트림을 디코딩하는 디코더로서.
프로세서와 메모리를 포함하고,
상기 프로세서는,
현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 또는 상기 현재 프레임이 정상의 디코딩 프레임이고 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 비트스트림을 파싱하여 상기 현재 프레임의 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성되며,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 상기 프로세서는, 상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성되는,
디코더. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310751997.XA CN104751849B (zh) | 2013-12-31 | 2013-12-31 | 语音频码流的解码方法及装置 |
CN201310751997.X | 2013-12-31 | ||
PCT/CN2014/081635 WO2015100999A1 (zh) | 2013-12-31 | 2014-07-04 | 语音频码流的解码方法及装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187005229A Division KR101941619B1 (ko) | 2013-12-31 | 2014-07-04 | 음성/오디오 비트스트림 디코딩 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160096191A KR20160096191A (ko) | 2016-08-12 |
KR101833409B1 true KR101833409B1 (ko) | 2018-02-28 |
Family
ID=53493122
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167018932A KR101833409B1 (ko) | 2013-12-31 | 2014-07-04 | 음성/오디오 비트스트림 디코딩 방법 및 장치 |
KR1020187005229A KR101941619B1 (ko) | 2013-12-31 | 2014-07-04 | 음성/오디오 비트스트림 디코딩 방법 및 장치 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187005229A KR101941619B1 (ko) | 2013-12-31 | 2014-07-04 | 음성/오디오 비트스트림 디코딩 방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (2) | US9734836B2 (ko) |
EP (2) | EP3624115A1 (ko) |
JP (1) | JP6475250B2 (ko) |
KR (2) | KR101833409B1 (ko) |
CN (1) | CN104751849B (ko) |
ES (1) | ES2756023T3 (ko) |
WO (1) | WO2015100999A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180023044A (ko) * | 2013-12-31 | 2018-03-06 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 음성/오디오 비트스트림 디코딩 방법 및 장치 |
US10269357B2 (en) | 2014-03-21 | 2019-04-23 | Huawei Technologies Co., Ltd. | Speech/audio bitstream decoding method and apparatus |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY183444A (en) * | 2013-01-29 | 2021-02-18 | Fraunhofer Ges Forschung | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program |
CN106816158B (zh) * | 2015-11-30 | 2020-08-07 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
KR102551359B1 (ko) | 2017-10-24 | 2023-07-04 | 삼성전자주식회사 | 기계학습을 이용한 오디오 복원 방법 및 장치 |
Family Cites Families (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
US5717824A (en) * | 1992-08-07 | 1998-02-10 | Pacific Communication Sciences, Inc. | Adaptive speech coder having code excited linear predictor with multiple codebook searches |
US5615298A (en) * | 1994-03-14 | 1997-03-25 | Lucent Technologies Inc. | Excitation signal synthesis during frame erasure or packet loss |
US5699478A (en) * | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
US5907822A (en) * | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
US6385576B2 (en) * | 1997-12-24 | 2002-05-07 | Kabushiki Kaisha Toshiba | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch |
US6952668B1 (en) * | 1999-04-19 | 2005-10-04 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
DE60029715T2 (de) | 1999-04-19 | 2007-08-02 | At & T Corp. | Verfahren und anordnung zur verschleierung von rahmenausfall |
US6973425B1 (en) * | 1999-04-19 | 2005-12-06 | At&T Corp. | Method and apparatus for performing packet loss or Frame Erasure Concealment |
US6597961B1 (en) * | 1999-04-27 | 2003-07-22 | Realnetworks, Inc. | System and method for concealing errors in an audio transmission |
US6757654B1 (en) | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
EP1199709A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Error Concealment in relation to decoding of encoded acoustic signals |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
US7069208B2 (en) | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
JP3582589B2 (ja) * | 2001-03-07 | 2004-10-27 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
US7590525B2 (en) * | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7047187B2 (en) * | 2002-02-27 | 2006-05-16 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio error concealment using data hiding |
US20040002856A1 (en) | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
CA2388439A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US20040083110A1 (en) | 2002-10-23 | 2004-04-29 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
US7486719B2 (en) | 2002-10-31 | 2009-02-03 | Nec Corporation | Transcoder and code conversion method |
JP4438280B2 (ja) * | 2002-10-31 | 2010-03-24 | 日本電気株式会社 | トランスコーダ及び符号変換方法 |
US6985856B2 (en) | 2002-12-31 | 2006-01-10 | Nokia Corporation | Method and device for compressed-domain packet loss concealment |
CA2457988A1 (en) | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US20060088093A1 (en) * | 2004-10-26 | 2006-04-27 | Nokia Corporation | Packet loss compensation |
US7519535B2 (en) * | 2005-01-31 | 2009-04-14 | Qualcomm Incorporated | Frame erasure concealment in voice communications |
US7177804B2 (en) | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
CN100561576C (zh) * | 2005-10-25 | 2009-11-18 | 芯晟(北京)科技有限公司 | 一种基于量化信号域的立体声及多声道编解码方法与系统 |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US8798172B2 (en) * | 2006-05-16 | 2014-08-05 | Samsung Electronics Co., Ltd. | Method and apparatus to conceal error in decoded audio signal |
US20090248404A1 (en) | 2006-07-12 | 2009-10-01 | Panasonic Corporation | Lost frame compensating method, audio encoding apparatus and audio decoding apparatus |
CN101466662B (zh) | 2006-07-13 | 2012-06-06 | 三菱瓦斯化学株式会社 | 氟代胺的制备方法 |
EP2538406B1 (en) | 2006-11-10 | 2015-03-11 | Panasonic Intellectual Property Corporation of America | Method and apparatus for decoding parameters of a CELP encoded speech signal |
KR20080075050A (ko) * | 2007-02-10 | 2008-08-14 | 삼성전자주식회사 | 오류 프레임의 파라미터 갱신 방법 및 장치 |
CN101256774B (zh) | 2007-03-02 | 2011-04-13 | 北京工业大学 | 用于嵌入式语音编码的帧擦除隐藏方法及系统 |
JP5596341B2 (ja) * | 2007-03-02 | 2014-09-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声符号化装置および音声符号化方法 |
US20100195490A1 (en) | 2007-07-09 | 2010-08-05 | Tatsuya Nakazawa | Audio packet receiver, audio packet receiving method and program |
CN100524462C (zh) | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
US8527265B2 (en) | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
US8515767B2 (en) | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CN101261836B (zh) * | 2008-04-25 | 2011-03-30 | 清华大学 | 基于过渡帧判决及处理的激励信号自然度提高方法 |
EP2301015B1 (en) * | 2008-06-13 | 2019-09-04 | Nokia Technologies Oy | Method and apparatus for error concealment of encoded audio data |
MX2011000375A (es) | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
ES2558229T3 (es) | 2008-07-11 | 2016-02-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas |
MY159110A (en) | 2008-07-11 | 2016-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
US8428938B2 (en) | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
CN101777963B (zh) * | 2009-12-29 | 2013-12-11 | 电子科技大学 | 一种基于反馈模式的帧级别编码与译码方法 |
CN101894558A (zh) | 2010-08-04 | 2010-11-24 | 华为技术有限公司 | 丢帧恢复方法、设备以及语音增强方法、设备和系统 |
US9026434B2 (en) | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
CN103688306B (zh) * | 2011-05-16 | 2017-05-17 | 谷歌公司 | 对被编码为连续帧序列的音频信号进行解码的方法和装置 |
WO2012106926A1 (zh) | 2011-07-25 | 2012-08-16 | 华为技术有限公司 | 一种参数域回声控制装置和方法 |
CN102438152B (zh) * | 2011-12-29 | 2013-06-19 | 中国科学技术大学 | 可伸缩视频编码容错传输方法、编码器、装置和系统 |
US9275644B2 (en) * | 2012-01-20 | 2016-03-01 | Qualcomm Incorporated | Devices for redundant frame coding and decoding |
CN103366749B (zh) * | 2012-03-28 | 2016-01-27 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN102760440A (zh) | 2012-05-02 | 2012-10-31 | 中兴通讯股份有限公司 | 语音信号的发送、接收装置及方法 |
CN104751849B (zh) | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN107369455B (zh) | 2014-03-21 | 2020-12-15 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
-
2013
- 2013-12-31 CN CN201310751997.XA patent/CN104751849B/zh active Active
-
2014
- 2014-07-04 EP EP19172920.1A patent/EP3624115A1/en active Pending
- 2014-07-04 WO PCT/CN2014/081635 patent/WO2015100999A1/zh active Application Filing
- 2014-07-04 KR KR1020167018932A patent/KR101833409B1/ko active IP Right Grant
- 2014-07-04 JP JP2016543574A patent/JP6475250B2/ja active Active
- 2014-07-04 KR KR1020187005229A patent/KR101941619B1/ko active IP Right Grant
- 2014-07-04 EP EP14876788.2A patent/EP3076390B1/en active Active
- 2014-07-04 ES ES14876788T patent/ES2756023T3/es active Active
-
2016
- 2016-06-29 US US15/197,364 patent/US9734836B2/en active Active
-
2017
- 2017-06-28 US US15/635,690 patent/US10121484B2/en active Active
Non-Patent Citations (2)
Title |
---|
ITU-T Recommendation. G.718. Frame error robust narrow-band and wideband embedded variable bit-rate coding of speechand audio from 8-32 kbit/s. ITU-T, 2008.06. |
Milan Jelinek, et al. G. 718: A new embedded speech and audio coding standard with high resilience to error-prone transmission channels. IEEE Communications Magazine, 2009.10., Vol.47,No.10, pp.117-12 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180023044A (ko) * | 2013-12-31 | 2018-03-06 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 음성/오디오 비트스트림 디코딩 방법 및 장치 |
US10121484B2 (en) | 2013-12-31 | 2018-11-06 | Huawei Technologies Co., Ltd. | Method and apparatus for decoding speech/audio bitstream |
KR101941619B1 (ko) * | 2013-12-31 | 2019-01-23 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 음성/오디오 비트스트림 디코딩 방법 및 장치 |
US10269357B2 (en) | 2014-03-21 | 2019-04-23 | Huawei Technologies Co., Ltd. | Speech/audio bitstream decoding method and apparatus |
US11031020B2 (en) | 2014-03-21 | 2021-06-08 | Huawei Technologies Co., Ltd. | Speech/audio bitstream decoding method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP6475250B2 (ja) | 2019-02-27 |
KR20180023044A (ko) | 2018-03-06 |
EP3076390B1 (en) | 2019-09-11 |
EP3076390A4 (en) | 2016-12-21 |
EP3624115A1 (en) | 2020-03-18 |
ES2756023T3 (es) | 2020-04-24 |
CN104751849B (zh) | 2017-04-19 |
KR20160096191A (ko) | 2016-08-12 |
CN104751849A (zh) | 2015-07-01 |
JP2017504832A (ja) | 2017-02-09 |
EP3076390A1 (en) | 2016-10-05 |
WO2015100999A1 (zh) | 2015-07-09 |
US10121484B2 (en) | 2018-11-06 |
US20170301361A1 (en) | 2017-10-19 |
US9734836B2 (en) | 2017-08-15 |
KR101941619B1 (ko) | 2019-01-23 |
US20160343382A1 (en) | 2016-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101290425B1 (ko) | 소거된 스피치 프레임을 복원하는 시스템 및 방법 | |
ES2837924T3 (es) | Corrección selectiva adelantada de errores para códecs de audio espaciales | |
KR101833409B1 (ko) | 음성/오디오 비트스트림 디코딩 방법 및 장치 | |
US8498861B2 (en) | Apparatus and method for concealing frame erasure and voice decoding apparatus and method using the same | |
US11031020B2 (en) | Speech/audio bitstream decoding method and apparatus | |
US10504525B2 (en) | Adaptive forward error correction redundant payload generation | |
ES2707888T3 (es) | Sistemas y procedimientos para mitigar la inestabilidad potencial de tramas | |
US9076439B2 (en) | Bit error management and mitigation for sub-band coding | |
TW201207839A (en) | Concealing lost packets in a Sub-Band Coding decoder | |
JP6616470B2 (ja) | 符号化方法、復号化方法、符号化装置及び復号化装置 | |
JP6517300B2 (ja) | 信号処理方法及び装置 | |
JP2005091749A (ja) | 音源信号符号化装置、及び音源信号符号化方法 | |
ES2726193T3 (es) | Cuantificación de parámetros de audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |