KR101833409B1

KR101833409B1 - 음성/오디오 비트스트림 디코딩 방법 및 장치

Info

Publication number: KR101833409B1
Application number: KR1020167018932A
Authority: KR
Inventors: 제신 리우; 싱타오 장; 레이 미아오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2013-12-31
Filing date: 2014-07-04
Publication date: 2018-02-28
Also published as: JP6475250B2; KR20180023044A; EP3076390B1; EP3076390A4; EP3624115A1; ES2756023T3; CN104751849B; KR20160096191A; CN104751849A; JP2017504832A; EP3076390A1; WO2015100999A1; US10121484B2; US20170301361A1; US9734836B2; KR101941619B1; US20160343382A1

Abstract

음성/오디오 비트스트림 디코딩 방법 및 장치를 개시하며, 상기 음성/오디오 비트스트림 디코딩 방법은, 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하는 단계; 상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하는 단계; 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여, 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하는 단계; 및 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하는 단계를 포함한다.

Description

음성/오디오 비트스트림 디코딩 방법 및 장치

삭제

본 발명의 오디오 디코딩 기술에 관한 것으로, 특히 음성/오디오 비트스트림 디코딩 방법 및 장치에 관한 것이다.

이동 통신 서비스에서는, 네트워크상에서의 패킷 손실 및 지연 변동으로 인해 프레임 손실이 발생하는 것은 불가피하므로, 일부 음성/오디오 신호는 디코딩된 파라미터를 사용하여 복원될 수 없고 오직 프레임 손실 은닉(frame erasure concealment, FEC) 기술을 사용하여 복원될 수 있을 뿐인 결과를 초래한다. 그러나 패킷 손실률이 높은 경우에, 디코더 측에서만 FET 기술이 사용되면, 출력되는 음성/오디오 신호는 품질이 비교적 나빠서 고품질 통신의 요구를 충족시킬 수 없다.

음성/오디오 프레임 손실에 의해 유발되는 품질 저하 문제를 더 잘 해결하기 위해, 여분의 인코딩 알고리즘(redundancy encoding algorithm)이 생성된다: 인코더 측에서는, 특정 비트율이 현재 프레임에 관한 정보를 인코딩하는 데 사용되는 것에 더해, 더 낮은 비트율이 현재 프레임 외의 다른 프레임에 관한 정보를 인코딩하는데 사용되고, 더 낮은 비트율의 비트스트림이 여분의 비트스트림 정보로 사용되어 현재 프레임에 관한 정보의 비트스트림과 함께 디코더 측에 송신된다. 디코더 측에서는, 현재 프레임이 손실되는 경우, 지터 버퍼(jitter buffer) 또는 수신된 비트스트림이 현재 프레임을 포함하는 여분의 비트스트림 정보를 저장하고 있으면, 현재 프레임은 여분의 비트스트림 정보에 따라 복원될 수 있으므로, 복원된 음성/오디오 신호의 품질을 향상시킬 수 있다. 현재 프레임은 현재 프레임의 여분의 비트스트림 정보가 존재하지 않을 경우에만 FEC 기술에 기초하여 복원된다.

이상으로부터, 기존의 여분의 인코딩 알고리즘에서는, 여분의 비트스트림 정보가 너 낮은 비트율을 사용한 인코딩에 의해 취득되므로, 신호 불안정(signal instability)이 야기될 수 있으므로, 출력되는 음성/오디오 신호의 품질이 높지 않은 결과를 초래한다는 것이다.

본 발명의 실시예는 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있는, 음성/오디오 비트스트림을 위한 여분 디코딩 방법 및 장치를 제공한다.

제1 측면에 따르면, 음성/오디오 비트스트림 디코딩 방법이 제공되며, 상기 음성/오디오 비트스트림 디코딩 방법은,

현재 프레임이 정상의 디코딩 프레임(normal decoding frame)인지 여분의 디코딩 프레임인(redundancy decoding frame)지를 판정하는 단계;

상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하는 단계;

상기 현재 프레임의 디코딩된 파라미터에 대해 후처리(post-processing)를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하는 단계; 및

상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하는 단계를 포함한다.

제1 측면을 참조하여, 제1 측면의 제1 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터(spectral pair parameter)를 포함하고, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,

상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하는 것을 포함한다.

제1 측면의 제1 구현 방식을 참조하여, 제1 측면의 제2 구현 방식에서, 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:

을 사용하여 계산을 통해 취득되며,

위 식에서,

는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,

는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,

는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수(order)이고,

는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

,

, 및

이다.

제1 측면의 제1 구현 방식을 참조하여, 제1 측면의 제3 구현 방식에서, 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:

을 사용하여 계산을 통해 취득되며,

위 식에서,

는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,

는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,

는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,

는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,

,

, 및

이다.

제1 측면의 제3 구현 방식을 참조하여, 제1 측면의 제4 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음(unvoiced)이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자(spectral tilt factor)가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,

의 값은 0이거나 미리 설정된 임계치보다 작다.

제1 측면의 제2 내지 제4 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제5 구현 방식에서, 상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,

의 값은 0이거나 미리 설정된 임계치보다 작다.

제1 측면의 제2 내지 제5 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제6 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,

의 값은 0이거나 미리 설정된 임계치보다 작다.

제1 측면의 제4 또는 제6 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제7 구현 방식에서, 상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.

제1 측면 또는 제1 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제8 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득(adaptive codebook gain)을 포함하고;

상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북(algebraic codebook)이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배(quantity of times)이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,

상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하는 것을 포함한다.

제1 측면 또는 제1 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제9 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득을 포함하고;

상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 보통음(generic)이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,

상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함한다.

제1 측면 또는 제1 측면의 제1 내지 제9 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제10 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득을 포함하고;

상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,

랜덤 노이즈(random noise) 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함한다.

제1 측면 또는 제1 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제11 구현 방식에서, 상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선(bandwidth extension envelope)을 포함하며;

상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,

상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하는 것을 포함한다.

제1 측면의 제11 구현 방식을 참조하여, 제1 측면의 제12 구현 방식에서, 상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례한다.

제1 측면 또는 제1 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제1 측면의 제13 구현 방식에서, 상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선을 포함하며;

상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,

상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하는 것을 포함한다.

제2 측면에 따르면, 음성/오디오 비트스트림을 디코딩하는 디코더가 제공되며, 상기 디코더는,

현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하도록 구성된 판정 유닛;

상기 판정 유닛이, 상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임인 것으로 판정한 경우, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하도록 구성된 파싱 유닛;

상기 파싱 유닛에 의해 취득된 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하도록 구성된 후처리 유닛; 및

상기 후처리 유닛에 의해 취득된 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성된 복원 유닛을 포함한다.

제2 측면을 참조하여, 제2 측면의 제1 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하는 경우, 상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성된다.

제2 측면의 제1 구현 방식을 참조하여, 제2 측면의 제2 구현 방식에서, 상기 후처리 유닛은 구체적으로, 아래 식:

을 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하도록 구성되고,

위 식에서,

는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,

,

, 및

이다.

제2 측면의 제1 구현 방식을 참조하여, 제2 측면의 제3 구현 방식에서, 상기 후처리 유닛은 구체적으로, 아래 식:

위 식에서,

는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,

,

, 및

이다.

제2 측면의 제3 구현 방식을 참조하여, 제2 측면의 제4 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,

의 값은 0이거나 미리 설정된 임계치보다 작다.

제2 측면의 제2 내지 제4 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제5 구현 방식에서, 상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,

의 값은 0이거나 미리 설정된 임계치보다 작다.

제2 측면의 제2 내지 제5 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제6 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,

의 값은 0이거나 미리 설정된 임계치보다 작다.

제2 측면의 제4 또는 제6 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제7 구현 방식에서, 상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.

제2 측면 또는 제2 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제8 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고 상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하도록 구성된다.

제2 측면 또는 제2 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제9 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고, 상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다른 경우, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하도록 구성된다.

제2 측면 또는 제2 측면의 제1 내지 제9 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제10 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 대수 코드북을 포함하고, 상기 현재 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0인 경우, 랜덤 노이즈 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하도록 구성된다.

제2 측면 또는 제2 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제11 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작은 경우, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라, 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하도록 구성된다.

제2 측면의 제11 구현 방식을 참조하여, 제2 측면의 제12 구현 방식에서, 상기 후처리 유닛이 상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례한다.

제2 측면 또는 제2 측면의 제2 또는 제10 구현 방식 중 어느 하나를 참조하여, 제2 측면의 제13 구현 방식에서, 상기 후처리 유닛은 구체적으로, 상기 현재 프레임이 여분의 디코딩 프레임이고, 상기 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드인 경우, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하도록 구성된다.

제3 측면에 따르면, 음성/오디오 비트스트림을 디코딩하는 디코더가 제공되며, 상기 디코더는 프로세서와 메모리를 포함하고, 상기 프로세서는, 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하고; 상기 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임인 것으로 판정한 경우, 파싱에 의해 상기 현재 프레임의 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성된다.

제3 측면을 참조하여, 제3 측면의 제1 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 상기 프로세서는, 상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성된다.

제3 측면의 제1 구현 방식을 참조하여, 제3 측면의 제2 구현 방식에서, 상기 프로세서는 구체적으로, 아래 식:

위 식에서,

는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,

,

, 및

이다.

제3 측면의 제1 구현 방식을 참조하여, 제3 측면의 제3 구현 방식에서, 상기 프로세서는 구체적으로, 아래 식:

위 식에서,

는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,

는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이며,

,

, 및

이다.

제3 측면의 제3 구현 방식을 참조하여, 제3 측면의 제4 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,

의 값은 0이거나 미리 설정된 임계치보다 작다.

제3 측면의 제2 내지 제4 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제5 구현 방식에서, 상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,

의 값은 0이거나 미리 설정된 임계치보다 작다.

제3 측면의 제2 내지 제5 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제6 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,

의 값은 0이거나 미리 설정된 임계치보다 작다.

제3 측면의 제4 또는 제6 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제7 구현 방식에서, 상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.

제3 측면 또는 제3 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제8 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고, 상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 상기 프로세서는 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하도록 구성된다.

제3 측면 또는 제3 측면의 제1 내지 제7 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제9 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터가 상기 현재 프레임의 적응적 코드북 이득을 포함하고;

상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면,

상기 프로세서는, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하도록 구성된다.

제3 측면 또는 제3 측면의 제1 내지 제9 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제10 구현 방식에서, 상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 대수 코드북을 포함하고;

상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 상기 프로세서는, 랜덤 노이즈 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하도록 구성된다.

제3 측면 또는 제3 측면의 제1 내지 제10 구현 방식 중 어느 하나를 참조하여, 제3 측면의 제11 구현 방식에서, 상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선을 포함하며;

상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 상기 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,

상기 프로세서는, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라, 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하도록 구성된다.

제3 측면의 제11 구현 방식을 참조하여, 제3 측면의 제12 구현 방식에서, 상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례한다.

제3 측면 또는 제3 측면의 제1 내지 제10 구현 방식을 참조하여, 제3 측면의 제13 구현 방식에서, 상기 현재 프레임이 여분의 디코딩 프레임이고, 상기 디코딩된 파라미터가 대역폭 확장 포락선을 포함하며;

상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드이면, 상기 프로세서는, 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하도록 구성된다.

본 발명의 일부 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이(transition)하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.

본 발명의 실시예에서의 기술적 방안을 더욱 명확하게 설명하기 위해, 이하에 본 발명의 실시예의 설명에 필요한 첨부도면을 간단하게 소개한다. 명백히, 이하의 설명에서의 첨부도면은 단지 본 발명의 일부 실시예를 보여줄 뿐이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진자(이하, 당업자라고 함)라면 창의적인 노력 없이 이들 첨부도면으로부터라 다른 도면을 도출할 수 있을 것이다.
도 1은 본 발명의 실시예예에 따른 음성/오디오 비트스트림 디코딩 방법의 개략 흐름도이다.
도 2는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 개략 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 개략 구성도이다.
도 4는 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 개략 구성도이다.

당업자가 본 발명의 기술적 방안을 더 잘 이해할 수 있도록, 이하에 본 발명의 실시예에서의 첨부도면을 참조하여 본 발명의 실시예에서의 기술적 방안을 명확하고 완전하게 설명한다. 명백히, 설명되는 실시예는 본 발명의 실시예의 전부가 아니라 일부일 뿐이다. 당업자가 창의적인 노력 없이 본 발명의 실시예에 기초하여 얻은 모든 다른 실시예는 본 발명의 보호 범위에 속한다.

이하에 상세하게 각각의 설명을 제공한다.

본 발명의 명세서, 청구범위, 및 첨부도면에서, 용어 "제1" 및 "제2"는 유사한 대상 간의 구별을 위한 것이지, 반드시 특정 순서 또는 시퀀스를 의미하지는 않는다. 이해해야 할 것은, 이런 식으로 불리는 데이터는 적절한 상황에서 교체 사용이 가능하므로 본원에 기재된 본 발명의 실시예는, 예를 들어, 본원에 도시되거나 기재된 순서 이외의 순서로 구현될 수 있다는 것이다. 또한, 용어 "포함한다(include, contain)" 및 임의의 다른 변형은 비배타적인 포함(non-exclusive inclusion)을 커버하는 것을 의미하며, 예를 들어, 단계의 리스트 또는 유닛들을 포함하는 프로세스, 방법, 시스템, 제품 또는 기기는 반드시 그러한 단계 또는 유닛으로 한정되는 것이 아니라, 그러한 프로세스, 방법, 시스템, 제품 또는 기기를 명시적으로 나열하거나 내재하지 않은 다른 단계 또는 유닛을 포함할 수 있다.

먼저, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법을 소개한다. 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 디코더에 의해 실행된다. 디코더는 예를 들어, 이동 전화, 노트북 컴퓨터, 태블릿 컴퓨터, 또는 퍼스널 컴퓨터 등, 음성을 출력할 필요가 있는 임의의 장치일 수 있다.

도 1은 본 발명의 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 절차를 설명한다. 본 실시예는 다음 단계를 포함한다:

101: 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정한다.

정상의 디코딩 프레임은, 현재 프레임에 관한 정보를 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득할 수 있다는 것을 의미한다. 여분의 디코딩 프레임은, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 없지만, 현재 프레임의 여분의 비트스트림 정보는 다른 프레임의 비트스트림으로부터 취득될 수 있다는 것을 의미한다.

본 발명의 실시예에서, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우에만 실행된다. 현재 프레임의 이전 프레임 및 현재 프레임은 두 개의 바로 이웃하는 프레임이다. 본 발명의 다른 실시예에서는, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임 이전의 특정 수량의 프레임 중에 여분의 디코딩 프레임이 존재하는 경우에만 실행된다. 특정 수량은 필요에 따라 설정될 수 있으며, 예를 들어, 2, 3, 4, 또는 10으로 설정될 수 있다.

102: 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한다.

현재 프레임의 디코딩된 파라미터가 스펙트럼 쌍 파라미터, 적응적 코드북 이득(gain_pit), 대수 코드북, 및 대역폭 확장 포락선 중 적어도 하나를 포함할 수 있으며, 스펙트럼 쌍 파라미터는 선형 스펙트럼 쌍(linear spectral pairs, LSP) 파라미터와 이미턴스 스펙트럼 쌍(immittance spectral pairs, ISP) 파라미터 중 적어도 하나일 수 있다. 본 발명의 본 실시예에서, 디코딩된 어느 하나의 파라미터에 대해서만 후처리가 수행될 수 있거나 모든 디코딩된 파라미터에 대해 후처리가 수행될 수 있다는 것을 알 수 있다. 구체적으로는, 후처리를 위해 얼마나 많은 파라미터가 선택되고 어느 파라미터가 선택되는지는 애플리케이션 시나리오 및 환경에 따라 선택될 수 있으며, 본 발명의 본 실시예는 이에 한정되지 않는다.

현재 프레임이 정상의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터를 취득하기 위해, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터는 파싱에 의해 다른 프레임의 비트스트림 내의 현재 프레임의 여분의 비트스트림 정보에 따라 취득될 수 있다.

103: 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득한다.

상이한 디코딩된 파라미터에 대해서는, 상이한 후처리가 수행될 수 있다. 예를 들어, 스펙트럼 쌍 파라미터에 대해 수행된 후처리는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하기 위해 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 적응적 가중치 부여(adaptive weighting)를 사용하는 것일 수 있다. 적응적 코드북 이득에 대해 수행되는 후처리는, 적응적 코드북 이득에 대해, 예를 들어, 감쇄와 같은, 조정을 수행하는 것일 수 있다.

본 발명의 본 실시예는 구체적인 후처리를 한정하지 않는다. 구체적으로, 어떤 유형의 후처리가 수행되는지는 필요에 따라 또는 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다.

104: 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원한다.

이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있으므로, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.

본 발명의 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하는 것을 포함한다. 구체적으로, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터에 대해 적응적 가중치 부여를 수행하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터을 취득한다. 구체적으로, 본 발명의 실시예에서는, 아래 식:

을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득할 수 있으며,

위 식에서,

는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,

는 이전 프레임의 스펙트럼 쌍 파라미터이고,

는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수(order)이고,

는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

,

, 및

이다.

본 발명의 다른 실시예에서는, 아래 식:

위 식에서,

는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,

는 이전 프레임의 스펙트럼 쌍 파라미터이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,

는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,

는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

,

, 및

이다.

전술한 식에서

,

, 및

의 값은 상이한 애플리케이션 환경 및 시나리오에 따라 달라질 수 있다. 예를 들어, 현재 프레임의 신호 클래스가 무음성이고, 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,

의 값은 0이거나 미리 설정된 임계치(

)보다 작으며,

의 값은 0에 근접할 수 있다. 현재 프레임이 여분의 디코딩 프레임이고 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,

의 값은 0이거나 미리 설정된 임계치(

)보다 작으며,

의 값은 0이거나 미리 설정된 임계치(

)보다 작으며,

은 0에 근접할 수 있다.

스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 프레임의 스펙트럼 경사 인자가 작을수록, 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.

현재 프레임의 신호 클래스는 무성음(unvoiced), 유성음(voiced), 보통음(generic), 천이음(transition), 침묵음(inactive), 등일 수 있다.

따라서, 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다. 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.

본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 적응적 코드북 이득을 포함할 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 현재 프레임의 다다음 프레임이 무성음 프레임이고 현재 프레임의 현재 서브프레임의 대수 코드북이 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하는 것을 포함할 수 있다. 현재 프레임 또는 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 신호 클래스가 보통음이고 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 현재 프레임의 신호 클래스가 유성음이고, 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 현재 프레임의 이전 프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함할 수 있다.

제1 수량 및 제2 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 이들 값은 정수일 수 있거나 비정수일 수 있다. 예를 들어, 제1 수량의 값은 2, 2.5, 3, 3.4, 또는 4일 수 있고, 제2 수량의 값은 2, 2.6, 3, 3.5, 또는 4일 수 있다.

현재 프레임의 현재 서브프레임의 적응적 코드북 이득이 감쇄되는 경우에 사용되는 감쇄 인자에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다.

본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대수 코드북을 포함한다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 랜덤 노이즈 또는 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함한다. 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 또는 시나리오에 따라 상이한 값이 설정될 수 있으며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.

본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하는 것을 포함할 수 있다. 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 현재 프레임의 대역폭 확장 포락선에 대한 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례하며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159일 수 있다.

본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 현재 프레임이 여분의 디코딩의 예측 모드이면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하는 것을 포함한다. 여분의 디코딩의 예측 모드는, 여분의 비트스트림 정보가 인코딩되는 경우, 적응적 코드북 이득 부분을 인코딩하는 데 더 많은 비트가 사용되고 대수 코드북 부분을 인코딩하는 데 더 적은 비트가 사용되거나 심지어 대수 코드북 부분이 인코딩되지 않을 수 있다는 것을 나타낸다.

이상으로부터 알 수 있는 것은, 본 발명의 실시예에서, 무성음 프레임과 유성음 프레임 사이에 천이 시에(현재 프레임이 무성음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이거나, 또는 현재 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 여분의 디코딩 프레임인 경우), 무성음 프레임과 비무성음 프레임 사이의 프레임 간 천이 시의 클릭(click) 현상을 없앨 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다. 본 발명의 다른 실시예에서, 보통음 프레임과 유성음 프레임 사이의 천이 시(현재 프레임이 보통음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 유성음 프레임 및 정상의 디코딩 프레임이거나, 현재 프레임이 유성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 보통음 프레임 및 여분의 디코딩 프레임인 경우), 보통음 프레임과 유성음 프레임 사이의 천이 시의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에서의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 본 발명의 다른 실시예에서, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에 있어 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.

도 2는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림 디코딩 방법의 절차를 설명한다. 본 실시예는 다음 단계를 포함한다:

201: 현재 프레임이 정상의 디코딩 프레임인지를 판정하고; 정상의 디코딩 프레임이면 단계 204를 수행하고, 그렇지 않으면 단계 202를 수행한다.

구체적으로, 현재 프레임이 정상의 디코딩 프레임인지는 지터 버퍼 관리(jitter buffer management, JBM) 알고리즘에 기초하여 결정될 수 있다.

202: 현재 프레임의 여분의 정보가 존재하는지를 판정하고; 존재하면 단계 204를 수행하고, 그렇지 않으면 단계 203을 수행한다.

현재 프레임의 여분의 비트스트림 정보가 존재하면, 현재 프레임은 여분의 디코딩 프레임이다. 구체적으로, 현재 프레임의 여분의 비트스트림 정보는 지터 버퍼 또는 수신된 비트스트림으로부터 결정될 수 있다.

203: FEC 기술에 기초하여 현재 프레임의 음성/오디오 신호를 복원하고 절차를 종료한다.

204: 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한다.

현재 프레임이 정상의 디코딩 프레임인 경우, 현재 프레임에 관한 정보는 디코딩에 의해 현재 프레임의 비트스트림으로부터 직접 취득될 수 있으므로, 현재 프레임의 디코딩된 파라미터를 취득할 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 디코딩된 파라미터는 파싱에 의해 현재 프레임의 여분의 비트스크림 정보에 따라 취득될 수 있다.

205: 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득한다.

206: 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원한다.

이상으로부터 알 수 있는 것은, 본 실시예에서, 디코더 측은, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득한 후, 디코딩된 신호가 여분의 디코딩 프레임과 정상의 디코딩 프레임 사이에 천이하는 경우에 안정된 품질을 취득할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하고 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다.

본 발명의 본 실시예에서, 디코더가 파싱에 의해 취득한 현재 프레임의 디코딩된 파라미터는 현재 프레임의 스펙트럼 쌍 파라미터, 현재 프레임의 적응적 코드북 이득, 현재 프레임의 대수 코드북, 및 현재 프레임의 대역폭 확장 포락선 중 적어도 하나를 포함할 수 있다. 이해할 수 있는 것은, 디코더가 파싱에 의해 디코딩된 파라미터 중 적어도 두 개를 취득하더라도, 디코더는 여전히 적어도 두개의 디코딩 파라미터 중 하나에 대해서만 후처리를 수행할 수 있다는 것이다. 따라서, 얼마나 많은 디코딩된 파라미터 및 어느 디코딩된 파라미터에 대해 디코더가 후처리를 수행하는 것은 구체적으로 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다.

이하에 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더를 설명한다. 디코더는 예를 들어, 이동 전화, 노트북 컴퓨터, 태블릿 컴퓨터, 또는 퍼스널 컴퓨터 등, 음성을 출력할 필요가 있는 임의의 장치일 수 있다.

도 3은 본 발명의 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 구성을 설명한다. 디코더는 판정 유닛(301), 파싱 유닛(302), 후처리 유닛(303), 및 복원 유닛(304)을 포함한다.

판정 유닛(301)은 현재 프레임이 정상의 디코딩 프레임인지를 판정하도록 구성된다.

본 발명의 실시예에서, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우에만 실행된다. 현재 프레임의 이전 프레임 및 현재 프레임은 두 개의 바로 인접하는 프레임이다. 본 발명의 다른 실시예에서는, 현재 프레임이 정상의 디코딩 프레임인 경우, 본 발명의 본 실시예에서 제공되는 음성/오디오 비트스트림 디코딩 방법은 현재 프레임 이전의 특정 수량의 프레임 중에 여분의 디코딩 프레임이 존재하는 경우에만 실행된다. 특정 수량은 필요에 따라 설정될 수 있으며, 예를 들어, 2, 3, 4, 또는 10으로 설정될 수 있다.

파싱 유닛(302)은, 판정 유닛(301)이, 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임인 것으로 판정한 경우, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득하도록 구성된다.

현재 프레임의 디코딩된 파라미터는 스펙트럼 쌍 파라미터, 적응적 코드북 이득(gain_pit), 대수 코드북, 및 대역폭 확장 포락선 중 적어도 하나를 포함할 수 있으며, 스펙트럼 쌍 파라미터는 LSP 파라미터와 ISP 파라미터 중 적어도 하나일 수 있다. 본 발명의 본 실시예에서, 디코딩 파라미터 중 어느 하나의 파라미터에 대해서만 후처리가 수행될 수 있거나 모든 디코딩된 파라미터에 대해 후처리가 수행될 수 있다는 것을 알 수 있을 것이다. 구체적으로는, 후처리를 위해 얼마나 많은 파라미터가 선택되고 어느 파라미터가 선택되는지는 애플리케이션 시나리오 및 환경에 따라 선택될 수 있으며, 본 발명의 본 실시예에서는 이를 한정하지 않는다.

후처리 유닛(303)은 파싱 유닛(302)에 의해 취득된 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하도록 구성된다.

상이한 디코딩된 파라미터에 대해서는, 상이한 후처리가 수행될 수 있다. 예를 들어, 스펙트럼 쌍 파라미터에 대해 수행된 후처리는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하기 위해 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 적응적 가중치 부여를 사용하는 것일 수 있다. 적응적 코드북 이득에 대해 수행되는 후처리는, 적응적 코드북 이득에 대해, 예를 들어, 감쇄와 같은, 조정을 수행하는 것일 수 있다.

복원 유닛(304)은 후처리 유닛(303)에 의해 취득된 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성된다.

본 발명의 다른 실시예에서, 디코딩된 파라미터는 스펙트럼 쌍 파라미터를 포함하고 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 스펙트럼 쌍 파라미터를 포함하는 경우, 현재 프레임의 스펙트럼 쌍 파라미터와 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 사용하여, 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성될 수 있다. 구체적으로, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터에 대해 적응적 가중치 부여를 실행하여, 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득한다. 구체적으로, 본 발명의 본 실시예에서, 후처리 유닛(303)은 아래 식:

위 식에서,

는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,

는 이전 프레임의 스펙트럼 쌍 파라미터이고,

는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

,

이다.

본 발명의 실시예에서, 후처리 유닛(303)은 아래 식:

위 식에서,

는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,

는 이전 프레임의 스펙트럼 쌍 파라미터이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,

는 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파리미터의 차수이고,

는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

,

이다.

전술한 식에서

,

, 및

의 값은 0이거나 미리 설정된 임계치(

)보다 작으며,

의 값은 0이거나 미리 설정된 임계치(

)보다 작으며,

의 값은 0이거나 미리 설정된 임계치(

)보다 작으며,

은 0에 근접할 수 있다.

스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 프레임의 스펙트럼 경사 인자가 작을수록, 그 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타낸다.

현재 프레임의 신호 클래스는 무성음, 유성음, 보통음, 천이음, 침묵음, 등일 수 있다.

본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임이 무성음 프레임이거나, 현재 프레임의 다다음 프레임이 무성음 프레임이고 현재 프레임의 현재 서브프레임의 대수 코드북이 현재 서브프레임의 이전 서브프레임의 대수 코드북의 제1 수량 배이면, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하도록 구성된다. 현재 프레임의 현재 서브프레임의 적응적 코드북 이득이 감쇄되는 경우에 사용되는 감쇄 인자에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다.

제1 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 그 값은 정수일 수 있거나 비정수일 수 있다. 예를 들어, 제1 수량의 값은 2, 2.5, 3, 3.4, 또는 4일 수 있다.

본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 적응적 코드북 이득을 포함하고, 현재 프레임 또는 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 보통음이고 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 현재 프레임의 신호 클래스가 유성음이고, 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 그 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다른 경우, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 현재 프레임의 이전 프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하도록 구성된다.

제2 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 그 값은 정수일 수 있거나 비정수일 수 있다. 예를 들어, 제2 수량의 값은 2, 2.6, 3, 3.5, 또는 4일 수 있다.

본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임의 디코딩된 파라미터가 현재 프레임의 대수 코드북을 포함하고, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0인 경우, 랜덤 노이즈 또는 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌 대수 코드북을 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하도록 구성된다.

스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.

본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임이 여분의 디코딩 프레임이고, 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 현재 프레임이 무성음 프레임이 아니고 현재 프레임의 다음 프레임이 무성음 프레임이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작은 경우, 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라, 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하도록 구성된다. 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있다, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.

본 발명의 다른 실시예에서, 후처리 유닛(303)은 구체적으로, 현재 프레임이 여분의 디코딩 프레임이고, 디코딩된 파라미터가 대역폭 확장 포락선을 포함하고, 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 현재 프레임이 여분의 디코딩의 예측 모드인 경우, 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하도록 구성된다.

이상으로부터 알 수 있는 것은, 본 발명의 실시예에서, 무성음 프레임과 유성음 프레임 사이의 천이 시에(현재 프레임이 무성음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이거나, 또는 현재 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 여분의 디코딩 프레임인 경우), 무성음 프레임과 비무성음 프레임 사이의 프레임 간 천이 시의 클릭 현상을 없앨 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리가 수행될 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다. 본 발명의 다른 실시예에서, 보통음 프레임과 유성음 프레임 사이의 천이 시(현재 프레임이 보통음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 유성음 프레임 및 정상의 디코딩 프레임이거나, 현재 프레임이 유성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 보통음 프레임 및 여분의 디코딩 프레임인 경우), 보통음 프레임과 유성음 프레임 사이의 천이 시의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리가 수행될 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 본 발명의 다른 실시예에서, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에서의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.

도 4는 본 발명의 다른 실시예에 따른 음성/오디오 비트스트림을 디코딩하는 디코더의 구성을 설명한다. 디코더는 하나 이상의 버스(401), 버스(401)에 연결된 하나 이상의 프로세서(402), 및 버스(401)에 연결된 하나 이상의 메모리(403)를 포함한다.

프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하고; 현재 프레임이 정상의 디코딩 프레임 또는 여분의 디코딩 프레임이면, 파싱에 의해 현재 프레임의 디코딩된 파라미터를 취득하고; 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하고; 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원한다.

본 발명의 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득한다. 구체적으로, 현재 프레임의 스펙트럼 쌍 파라미터 및 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터에 대해 적응적 가중치 부여를 실행하여, 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득한다. 구체적으로, 본 발명의 실시예에서는, 아래 식:

을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하며,

위 식에서,

는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,

는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

및

이다.

본 발명의 다른 실시예에서는, 아래 식:

을 사용하여 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 계산을 통해 취득하하며,

위 식에서,

는 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,

는 이전 프레임의 스펙트럼 쌍 파라미터이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,

는 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,

는 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이며,

,

, 및

이다.

전술한 식에서의

,

, 및

는 상이한 애플리케이션 환경 및 시나리오에 따라 달라질 수 있다. 예를 들어, 현재 프레임의 신호 클래스가 무음성이고, 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,

의 값은 0이거나 미리 설정된 임계치(

)보다 작으며,

의 값은 0이거나 미리 설정된 임계치(

)보다 작으며,

의 값은 0이거나 미리 설정된 임계치(

)보다 작으며,

은 0에 근접할 수 있다.

따라서, 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 및 시나리오에 따라 상이한 값이 설정될 수 있으며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.

본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 적응적 코드북 이득을 포함할 수 있다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 현재 프레임의 다다음 프레임이 무성음 프레임이고 현재 프레임의 현재 서브프레임의 대수 코드북이 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄한다. 현재 프레임 또는 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 신호 클래스가 보통음이고 현재 프레임의 다음 프레임의 신호 클래스가 유성음이거나 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 현재 프레임의 신호 클래스가 유성음이고, 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 그 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 현재 프레임의 이전 프레임의 대수 코드북에 대한 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라, 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함할 수 있다.

제1 수량 및 제2 수량의 값은 구체적인 애플리케이션 환경 및 시나리오에 따라 설정될 수 있다. 이들 값은 정수 또는 비정수일 수 있다. 예를 들어, 제1 수량의 값은 2, 2.5, 3, 3.4, 또는 4일 수 있고, 제2 수량의 값은 2, 2.6, 3, 3.5, 또는 4일 수 있다.

본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대수 코드북을 포함한다. 현재 프레임이 여분의 디코딩 프레임인 경우, 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 랜덤 노이즈 또는 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌 대수 코드북을 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함한다. 스펙트럼 경사 인자 임계치에 대해서는, 상이한 애플리케이션 환경 또는 시나리오에 따라 상이한 값이 설정될 수 있으며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159가 설정될 수 있다.

본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행한다. 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 현재 프레임의 대역폭 확장 포락선에 대한 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례하며, 예를 들어, 0.16, 0.15, 0.165, 0.1, 0.161, 또는 0.159일 수 있다.

본 발명의 다른 실시예에서, 현재 프레임의 디코딩된 파라미터는 현재 프레임의 대역폭 확장 포락선을 포함한다. 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임이 정상의 디코딩 프레임이고, 현재 프레임의 신호 클래스가 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 현재 프레임이 여분의 디코딩의 예측 모드이면, 프로세서(402)는 버스(401)를 사용하여 메모리(403)에 저장된 코드를 호출하여, 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행한다.

이상으로부터 알 수 있는 것은, 본 발명의 실시예에서, 무성음 프레임과 유성음 프레임 사이의 천이 시에(현재 프레임이 무성음 프레임 및 여분의 디코딩 프레임이고, 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이거나, 또는 현재 프레임이 비무성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 비무성음 프레임 및 여분의 디코딩 프레임인 경우), 무성음 프레임과 비무성음 프레임 사이의 프레임 간 천이 시의 클릭(click) 현상을 없앨 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다는 것이다. 본 발명의 다른 실시예에서, 보통음 프레임과 유성음 프레임 사이의 천이 시(현재 프레임이 보통음 프레임 및 여분의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 유성음 프레임 및 정상의 디코딩 프레임이거나, 현재 프레임이 유성음 프레임 및 정상의 디코딩 프레임이고 현재 프레임의 이전 프레임 또는 다음 프레임이 보통음 프레임 및 여분의 디코딩 프레임인 경우), 보통음 프레임과 유성음 프레임 사이의 천이 시의 에너지 불안정 현상을 수정할 수 있도록, 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다. 본 발명의 다른 실시예에서, 현재 프레임이 여분의 디코딩 프레임이고, 현재 프레임이 무성음 프레임이 아니고, 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 시간 도메인 대역폭 확장에서의 에너지 불안정 현상을 수정하도록, 현재 프레임의 대역폭 확장 포락선에 대해 조정을 수행할 수 있어, 출력되는 음성/오디오 신호의 품질을 향상시킬 수 있다.

본 발명의 다른 실시예는 컴퓨터 저장 매체를 더 제공한다. 컴퓨터 저장 매체는 프로그램을 저장할 수 있으며 상기 프로그램은 전술한 방법 실시예에서 설명한 음성/오디오 비트스트림 디코딩 방법의 단계 중 일부 또는 전부를 수행한다.

유의해야 할 것은, 간략한 설명을 위해, 전술한 방법 실시예는 일련의 동작으로 표현되어 있다는 것이다. 그러나 본 발명에 따르면, 일부 단계는 다른 순서로 또는 동시에 수행될 수 있기 때문에, 당업자라면 동작들의 기재 순서에 한정되지 않는다는 것을 알아야 한다. 또, 당업자라면, 본 명세서에 기술된 모든 실시예는 예시적인 실시예이며, 관련 동작 및 모듈은 반드시 본 발명에 필수적인 것은 아니라는 것을 이해해야 한다.

전술한 실시예에서, 각각의 실시예에 대한 설명은 각자의 주안점이 있다. 일 실시예에서 상세하게 설명하지 않은 부분에 대해서는, 다른 실시예에서의 관련 부분을 참조할 수 있다.

본 출원에 제공된 여러 실시예에서, 개시된 장치는 다른 방식으로도 구현될 수 있음을 알아야 한다. 예를 들어, 기재된 장치 실시예는 예시일 뿐이다. 예를 들어, 유닛 분할은 논리 기능 분할일 뿐이고, 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성요소는 다른 시스템에 결합 또는 통합될 수 있거나, 또는 일부 특징(feature)은 무시되거나 수행되지 않을 수 있다. 또, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 몇몇 인터페이스를 통해 구현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 연결은 전자적으로, 기계적으로, 또는 기타 다른 형태로 구현될 수 있다.

별개의 부분(separate part)으로 설명된 유닛은 물리적으로 분리할 수도 분리할 수 없을 수도 있으며, 유닛으로 표시된 부분은 물리적인 유닛일 수도 물리적인 유닛이 아닐 수도 있으며, 한 장소에 위치할 수 있거나, 또는 복수의 네트워크 유닛에 분산될 수 있다. 유닛들 중 일부 또는 전부는 실시예의 방안의 목적을 달성하기 위한 실제 필요에 따라 선택될 수 있다.

또, 본 발명의 실시예에서의 기능 유닛은 하나의 처리 유닛으로 통합될 수 있거나, 또는 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 둘 이상의 유닛이 하나의 유닛으로 통합되어 있다. 통합 유닛은 하드웨어의 형태로 구현될 수 있거나, 소프트웨어 기능 유닛어의 형태로 구현될 수 있다.

전술한 통합 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립된 제품의 형태로 판매 또는 사용되는 경우, 그 통합 유닛은 컴퓨터로 판독할 수 있는 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 발명의 기술적 방안의 본질상, 또는 종래기술에 기여하는 부분, 또는 기술적 해결방안의 일부 또는 전부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, (퍼스널 컴퓨터, 서버, 네트워크 기기, 또는 메모리에 연결된 프로세서일 수 있는) 컴퓨터 기기에 본 발명의 전술한 실시예에서 기재된 방법의 단계들 중 일부 또는 전부를 수행하도록 명령하기 위한 여러 명령어를 포함한다. 전술한 저장 매체로는, USB 플래시 드라이브, 읽기 전용 메모리(read-only memory, ROM), 임의 접근 메모리(random access memory, RAM), 휴대형 하드 디스크, 자기 디스크, 또는 광 디스크 등의, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.

전술한 실시예는 본 발명의 기술적 방안을 설명하기 위한 것일 뿐이며, 본 발명을 한정하려는 것은 아니다. 전술한 실시예를 참조하여 본 발명의 실시예를 상세하게 설명하였지만, 당업자라면 여전히, 본 발명의 실시예의 기술적 방안의 범위를 벗어나지 않으면서, 전술한 실시예에서 설명한 기술적 해결방안에 수정을 가하거나 그 기술적 특징의 일부를 동등물로 대체할 수 있음을 알아야 한다.

Claims

현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하는 단계; 및
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 또는 상기 현재 프레임이 정상의 디코딩 프레임이고 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우,
비트스트림을 파싱하여 상기 현재 프레임의 디코딩된 파라미터를 취득하는 단계,
상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하는 단계, 및
상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하는 단계
를 수행하는 단계
를 포함하고,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
제1항에 있어서,
상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:

을 사용하여 계산을 통해 취득되며,
위 식에서,
는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수(order)이고,
는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
,
, 및
인, 음성/오디오 비트스트림 디코딩 방법.
제1항에 있어서,
상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터는 구체적으로 아래 식:

을 사용하여 계산을 통해 취득되며,
위 식에서,
는 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터이고,
는 상기 이전 프레임의 스펙트럼 쌍 파라미터이고,
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값이고,
는 상기 현재 프레임의 스펙트럼 쌍 파라미터이고, M은 스펙트럼 쌍 파라미터의 차수이고,
는 상기 이전 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 중간 값의 가중치이고,
는 상기 현재 프레임의 스펙트럼 쌍 파라미터의 가중치이고,
,
,
, 및
인, 음성/오디오 비트스트림 디코딩 방법.
제3항에 있어서,
상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음(unvoiced)이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
의 값은 0이거나 미리 설정된 임계치보다 작은, 음성/오디오 비트스트림 디코딩 방법.
제2항 내지 제4항 중 어느 한 항에 있어서,
상기 현재 프레임의 신호 클래스가 무음성이고, 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임이고, 상기 현재 프레임의 이전 프레임의 신호 클래스가 무성음이 아닌 경우,
의 값은 0이거나 미리 설정된 임계치보다 작은, 음성/오디오 비트스트림 디코딩 방법.
제2항 내지 제4항 중 어느 한 항에 있어서,
상기 현재 프레임이 여분의 디코딩 프레임이고 상기 현재 프레임의 신호 클래스가 무성음이 아닌 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이거나, 또는 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작거나, 또는 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면,
의 값은 0이거나 미리 설정된 임계치보다 작은, 음성/오디오 비트스트림 디코딩 방법.
제4항에 있어서,
상기 스펙트럼 경사 인자는 양의 값이거나 음의 값일 수 있고, 상기 스펙트럼 경사 인자가 작을수록, 상기 스펙트럼 경사 인자에 대응하는 프레임의 신호 클래스가 무성음에 더 가깝다는 것을 나타내는, 음성/오디오 비트스트림 디코딩 방법.
제1항에 있어서,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득(adaptive codebook gain)을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임이 무성음 프레임이거나, 또는 상기 현재 프레임의 다다음 프레임이 무성음 프레임이고 상기 현재 프레임의 현재 서브프레임의 대수 코드북(algebraic codebook)이 상기 현재 서브프레임의 이전 서브프레임의 대수 코드북 또는 상기 현재 프레임의 이전 프레임의 대수 코드북의 제1 수량 배이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 감쇄하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
제1항에 있어서,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 적응적 코드북 이득을 포함하고;
상기 현재 프레임 또는 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 보통음(generic)이고 상기 현재 프레임의 다음 프레임의 신호 클래스가 유성음(voiced)이거나 상기 현재 프레임의 이전 프레임의 신호 클래스가 보통음이고 상기 현재 프레임의 신호 클래스가 유성음이고, 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 하나의 서브프레임의 이전 서브프레임의 대수 코드북과 제2 수량 배만큼 다르거나 상기 현재 프레임 내의 하나의 서브프레임의 대수 코드북이 상기 현재 프레임의 이전 프레임의 대수 코드북과 제2 수량 배만큼 다르면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비, 상기 현재 프레임의 현재 서브프레임의 이웃 서브프레임의 적응적 코드북 이득에 대한 상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득의 비, 및 상기 현재 프레임의 이전 프레임의 대수 코드북에 대한 상기 현재 프레임의 현재 서브프레임의 대수 코드북의 비 중 적어도 하나에 따라,
상기 현재 프레임의 현재 서브프레임의 적응적 코드북 이득을 조정하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
제1항에 있어서,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 대수 코드북을 포함하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 상기 현재 프레임의 다음 프레임의 신호 클래스가 무성음이고, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작고, 상기 현재 프레임의 하나 이상의 서브프레임의 대수 코드북이 0이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
랜덤 노이즈(random noise) 또는 상기 현재 프레임의 현재 서브프레임의 이전 서브프레임의 0이 아닌(non-zero) 대수 코드북을 상기 현재 프레임의 모두 0인 서브프레임의 대수 코드북으로 사용하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
제1항에 있어서,
상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선(bandwidth extension envelope)을 포함하며;
상기 현재 프레임이 무성음 프레임이 아니고 상기 현재 프레임의 다음 프레임이 무성음 프레임인 경우, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자가 미리 설정된 스펙트럼 경사 인자 임계치보다 작으면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선과 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자 중 적어도 하나에 따라 상기 현재 프레임의 대역폭 확장 포락선에 대한 수정을 수행하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
제11항에 있어서,
상기 현재 프레임의 대역폭 확장 포락선에 대해 수정을 수행하는 경우에 사용되는 수정 인자는, 상기 현재 프레임의 이전 프레임의 스펙트럼 경사 인자에 반비례하고 상기 현재 프레임의 대역폭 확장 포락선에 대한 상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선의 비에 정비례하는, 음성/오디오 비트스트림 디코딩 방법.
제1항에 있어서,
상기 현재 프레임은 여분의 디코딩 프레임이고 상기 디코딩된 파라미터는 대역폭 확장 포락선을 포함하며;
상기 현재 프레임의 이전 프레임이 정상의 디코딩 프레임인 경우, 상기 현재 프레임의 신호 클래스가 상기 현재 프레임의 이전 프레임의 신호 클래스와 동일하거나 상기 현재 프레임이 여분의 디코딩의 예측 모드이면, 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하는 것은,
상기 현재 프레임의 이전 프레임의 대역폭 확장 포락선을 사용하여 상기 현재 프레임의 대역폭 확장 포락선에 대한 조정을 수행하는 것을 포함하는, 음성/오디오 비트스트림 디코딩 방법.
음성/오디오 비트스트림을 디코딩하는 디코더로서.
프로세서와 메모리를 포함하고,
상기 프로세서는,
현재 프레임이 정상의 디코딩 프레임인지 여분의 디코딩 프레임인지를 판정하고;
상기 현재 프레임이 여분의 디코딩 프레임인 경우, 또는 상기 현재 프레임이 정상의 디코딩 프레임이고 상기 현재 프레임의 이전 프레임이 여분의 디코딩 프레임인 경우, 상기 비트스트림을 파싱하여 상기 현재 프레임의 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 디코딩된 파라미터에 대해 후처리를 수행하여 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 취득하고; 상기 현재 프레임의 후처리된, 디코딩된 파라미터를 사용하여 음성/오디오 신호를 복원하도록 구성되며,
상기 현재 프레임의 디코딩된 파라미터는 상기 현재 프레임의 스펙트럼 쌍 파라미터를 포함하고, 상기 프로세서는, 상기 현재 프레임의 스펙트럼 쌍 파라미터 및 상기 현재 프레임의 이전 프레임의 스펙트럼 쌍 파라미터를 사용하여 상기 현재 프레임의 후처리된 스펙트럼 쌍 파라미터를 취득하도록 구성되는,
디코더.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제