KR20030048067A - 음성 복호기에서 프레임 오류 은폐를 위한 개선된스펙트럼 매개변수 대체 - Google Patents

음성 복호기에서 프레임 오류 은폐를 위한 개선된스펙트럼 매개변수 대체 Download PDF

Info

Publication number
KR20030048067A
KR20030048067A KR10-2003-7005602A KR20037005602A KR20030048067A KR 20030048067 A KR20030048067 A KR 20030048067A KR 20037005602 A KR20037005602 A KR 20037005602A KR 20030048067 A KR20030048067 A KR 20030048067A
Authority
KR
South Korea
Prior art keywords
lsf
frame
mean
bad
frames
Prior art date
Application number
KR10-2003-7005602A
Other languages
English (en)
Other versions
KR100581413B1 (ko
Inventor
자리 메키넨
한누 제이. 믹콜라
잔느 바이니오
자니 로톨라-푸킬라
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22915004&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20030048067(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20030048067A publication Critical patent/KR20030048067A/ko
Application granted granted Critical
Publication of KR100581413B1 publication Critical patent/KR100581413B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

음성 복호기에 의해 통신 채널 상에서 수신되는 불량 프레임들의 영향들이 최근 수신된 우량 프레임들의 적어도 부분적 적응 평균에 기초하는 값들을 가지고 불량 프레임들(불량 프레임은 손상된 프레임 또는 손실된 프레임이다)의 스펙트럼 매개변수들의 값들을 대체함으로써 은폐되고, (손실된 프레임에 반대되는 것으로서) 손상된 프레임의 경우에 있어서, 불량 프레임이 소정의 기준을 충족하는 경우 불량 프레임 자신을 사용하여 은폐된다. 은폐의 목적은 합성 음성의 주관적인 품질을 가능한 한 높게 하기 위하여 불량 프레임에 대한 가장 적합한 매개변수들을 발견하는 것이다.

Description

음성 복호기에서 프레임 오류 은폐를 위한 개선된 스펙트럼 매개변수 대체{Improved spectral parameter substitution for the frame error concealment in a speech decoder}
디지털 셀룰러 시스템들에 있어서, 비트 스트림은 공중 인터페이스 상에서 이동국을 기지국에 접속시키는 통신 채널을 통해 전송되는 것을 말한다. 비트 스트림은 음성 프레임들을 포함하는 프레임들내에 구성된다. 전송 동안 오류가 발생하는지 아닌지는 일반적인 채널 조건들에 의존한다. 오류들을 포함하는 것으로 검출되는 음성 프레임은 간단히 불량 프레임으로 지칭된다. 선행 기술에 따라, 불량 프레임의 경우에 있어서, (오류가 없는 음성 프레임들의) 과거 올바른 매개변수들로부터 유도되는 음성 매개변수들이 상기 불량 프레임의 음성 매개변수들에 대해 대체된다. 불량 프레임을 상기 대체를 수행함으로써 처리하고자 하는 목적은 음성 품질에서의 눈에 띄는 성능 저하를 야기하지 않으면서 오류가 있는 음성 프레임의 손상된 음성 매개변수들을 은폐하기 위한 것이다.
현대의 음성 코덱들은 짧은 세그먼트들을 갖는 음성 신호, 즉 상술된 프레임들을 처리함에 의해 동작한다. 음성 코덱의 전형적인 프레임 길이는 20 ms이고, 이것은 8 kHz 샘플링 주파수를 가정하면 160 음성 샘플들에 대응한다. 소위 광대역 코덱들에 있어서, 프레임 길이는 다시 20 ms일 수 있지만, 16 kHz 샘플링 주파수를 가정하면 320 음성 샘플들에 대응할 수 있다. 하나의 프레임은 다수의 서브프레임들로 더 분할될 수 있다.
모든 프레임에 대해, 부호기는 입력 신호의 매개 변수적 표현을 결정한다. 상기 매개변수들은 양자화되고 그 다음 디지털 형태로 통신 채널을 통해 전송된다. 복호기는 수신되는 매개변수들에 기초하여 합성 음성 신호를 생성한다(도 1 참조).
추출되는 부호화 매개변수들의 전형적인 집합은 단기간 예측에 사용되는 스펙트럼 매개변수들(소위 선형 예측 부호화 매개변수들, 또는 LPC 매개변수들), 신호의 장기간 예측에 사용되는 매개변수들(소위 장기간 예측 매개변수들 또는 LTP 매개변수들), 다양한 이득 매개변수들, 및 여진(excitation) 매개변수들을 포함한다.
소위 선형 예측 부호화는 통신 채널 상에서 전송을 위해 음성을 부호화하기 위한 널리 사용되고 성공적인 방법이다; 그것은 성도(vocal tract)의 주파수 형상 특성을 나타낸다. LPC 매개변수화는 음성의 짧은 세그먼트의 스펙트럼의 형상의 특징을 나타낸다. LPC 매개변수들은 선 스펙트럼 주파수들(LSFs; Line Spectral Frequencies) 또는 대응하여 이미턴스 스펙트럼 쌍들(ISPs; Immittance Spectral Pairs)로서 표시될 수 있다. ISP들은 역 필터 전송 함수 A(z)를 2개의 전송 함수들의 집합으로 분해시킴으로써 획득되고, 하나는 짝수 대칭을 가지며 다른 하나는 홀수 대칭을 가진다. 상기 ISP들은 또한 이미턴스 스펙트럼 주파수들(ISFs; Immittance Spectral Frequencies)로 지칭되고, z-단위 원 상의 이들 다항식들의 루트(root)들이다. 선 스펙트럼 쌍들(또한 선 스펙트럼 주파수들로 지칭되는)은 이미턴스 스펙트럼 쌍들과 같은 방식으로 정의될 수 있다; 이들 표현들간의 차이는 LP 필터 계수들을 다른 LPC 매개변수 표현(LSP 또는 ISP)으로 변환하는 변환 알고리즘이다.
때때로 부호화된 음성 매개변수들이 전송되는 통신 채널의 상태가 나빠서, 비트 스트림에서 오류들을 야기하는, 즉 프레임 오류들을 야기한다(그리고 따라서 불량 프레임들을 야기한다). 2 종류들의 프레임 오류들이 있다: 손실된(lost) 프레임들 및 손상된(corrupted) 프레임들. 손상된 프레임에 있어서, (전형적으로 20 ms 기간의) 특정 음성 세그먼트를 기술하는 매개변수들의 단지 몇 개만이 손상된다. 프레임 오류의 손실된 프레임 유형에 있어서, 프레임이 전체적으로 손상되거나 전혀 수신되지 않는다.
때때로 보통의 인터넷 접속에 의해 제공되는 것과 같은, 음성을 전송하기 위한 패킷-기반 전송 시스템(상기 시스템에서 프레임은 보통 단일 패킷으로서 전달된다)에 있어서, 데이터 패킷(또는 프레임)이 예정된 수신기에 전혀 도달하지 않거나 데이터 패킷(또는 프레임)이 너무 늦게 도착해서 음성의 실시간 성질로 인하여 사용될 수 없는 것이 가능하다. 그러한 프레임은 손실된 프레임으로 지칭된다. 그러한 상황에서의 손상된 프레임은 수신기에 (보통 단일 패킷내에서) 도달하고 예를 들어 주기적 덧붙임 검사(CRC, cyclic redundancy check)에 의해 표시되는 오류가있는 몇몇 매개변수들을 포함하는 프레임이다. 이것은 보통 이동 통신을 위한 글로벌 시스템(GSM) 접속의 시스템에서의 접속과 같은, 회선-교환 접속에서의 상황이고, 여기서 손상된 프레임의 비트 오류율(BER; bit error rate)은 전형적으로 5% 미만이다.
따라서, 불량 프레임의 발생에 대한 최적의 조정 응답은 불량 프레임들의 2가지 경우들(상기 손상된 프레임 및 상기 손실된 프레임)에 대해 상이한 것을 알 수 있다. 손상된 프레임들의 경우에 있어서, 상기 매개변수들에 대한 신뢰할 수 없는 정보가 있고, 손실된 프레임들의 경우에 있어서, 이용가능한 정보가 없기 때문에 상이한 응답들이 있다.
선행 기술에 따라, 수신된 음성 프레임에서 오류가 검출되는 경우, 대체 및 묵음 절차가 시작된다; 오류가 있는 프레임으로부터 가장 덜 중요한 매개변수들 몇몇, 예를 들어 부호 여진 선형 예측 매개변수들(CELPs; code excited linear prediction parameters), 또는 보다 간단히 여진 매개변수들이 사용된다 하더라도, 불량 프레임의 음성 매개변수들은 이전 우량 프레임으로부터 감소되거나 수정된 값들에 의해 대체된다.
선행 기술에 따른 몇몇 방법들에 있어서, 매개변수 이력으로 지칭되는 버퍼가 (수신기에서) 사용되고, 여기에 오류가 없이 수신된 최종 음성 매개변수들이 저장된다. 프레임이 오류가 없이 수신되는 경우, 매개변수 이력이 갱신되고 프레임에 의해 전달되는 음성 매개변수들은 복호화를 위해 사용된다. 불량 프레임이 CRC 체크 또는 어떤 다른 오류 검출 방법에 의하여 검출되는 경우, 불량 프레임표시자(BFI; bad frame indicator)가 참으로 세팅되고 매개변수 은폐(대응하는 불량 프레임들에 대한 대체 및 묵음화)가 그 다음 시작된다; 매개변수 은폐를 위한 선행 기술 방법들은 손상된 프레임들을 은폐하기 위하여 매개변수 이력을 사용한다. 상술된 바와 같이, 수신되는 프레임이 불량 프레임으로 분류되는 경우(BFI가 참으로 세팅), 몇몇 음성 매개변수들이 불량 프레임으로부터 사용될 수 있다; 예를 들어, 유럽 전기 통신 표준 협회(ETSI, European Telecommunications Standards Institute) 사양 06.91에서 제공되는 GSM AMR (적응 다중율) 음성 코덱의 손상된 프레임 대체에 대한 예시적인 해결책에 있어서, 채널로부터의 여진 벡터가 항상 사용된다. 음성 프레임이 손실되는 경우(예를 들어 몇몇 IP-기반 전송 시스템들에서와 같이, 프레임이 너무 늦게 도달해서 사용될 수 없는 경우를 포함하여), 분명히 어떠한 매개변수들도 손실된 프레임으로부터 사용에 이용될 수 없다.
몇몇 선행 기술 시스템들에 있어서, 수신된 최종 우량 스펙트럼 매개변수들이 일정한 소정의 평균을 향해 약간 이동된 후에 불량 프레임의 스펙트럼 매개변수들에 대해 대체된다. GSM 06.91 ETSI 사양에 따라, 은폐는 LSF 형식으로 수행되고, 다음 알고리즘에 의해 제공된다.
For i=0 to N-1:
[수학식 1.0]
LSF_q1(i)=α*past_LSF_q(i)+(1-α)*mean_LSF(i);
LSF_q2(i)=LSF_q1(i);
여기서 α=0.95이고 N은 사용되는 선형 예측(LP) 필터의 차수이다. 양LSF_q1은 제2 서브프레임의 양자화된 LSF 벡터이고, 양 LSF_q2는 제4 서브프레임의 양자화된 LSF 벡터이다. 제1 및 제3 서브프레임들의 LSF 벡터들은 이들 2 벡터들로부터 보간된다. (프레임(n)의 제1 서브프레임에 대한 LSF 벡터는 프레임(n-1), 즉 이전 프레임의 제4 서브프레임의 LSF 벡터로부터 보간된다). 양 past_LSF_q는 이전 프레임으로부터의 양 LSF_q2이다. 양 mean_LSF는 그 성분들이 소정의 상수들인 벡터이다; 그 성분들은 복호화된 음성 시퀀스에 의존하지 않는다. 상수 성분들을 갖는 양 mean_LSF는 일정한 음성 스펙트럼을 생성한다.
그러한 선행 기술 시스템들은 여기서 mean_LSF(i)로 표시되는 일정한 양들을 향해 스펙트럼 계수들을 항상 이동시킨다. 일정한 양들은 장시간 기간에 걸쳐 그리고 몇몇 연속적인 토커들(talkers)을 통해 평균함으로써 구성된다. 따라서 그러한 시스템들은 어떤 특정 화자 또는 상황에 최적인 해결책이 아닌, 절충하는 해결책만을 제공한다; 합성 음성에서의 성가신 인공물들을 남기는 것과 음성이 소리나는 방식에서 보다 자연스럽게 만드는 것(즉, 합성 음성의 품질) 사이에서 절충의 교환이 있다.
손상된 음성 프레임의 경우에 있어서 개선된 스펙트럼 매개변수 대체, 가능하게는 음성 매개변수 이력 및 오류가 있는 프레임의 분석에 기초한 대체가 필요한 것이다. 오류가 있는 음성 프레임들에 대한 적합한 대체는 비트 스트림으로부터 생성되는 합성 음성의 품질에 대한 상당한 효과를 나타낸다.
본 발명은 음성 복호기들에 관한 것으로, 보다 상세하게는 음성 복호기들에 의해 수신되는 불량 프레임들을 처리하는데 사용되는 방법들에 관한 것이다.
도 1은 음성 및 오디오 신호를 전송하거나 저장하기 위한 선행 기술에 따른 시스템의 구성요소들의 블록도이다.
도 2는 Y축은 주파수이고 X축은 프레임들인, 정적(stationary) 음성의 경우에 있어서 인접 프레임들의 LSF 계수들 [0 ... 4 kHz]을 나타내는 그래프이다.
도 3은 Y축은 주파수이고 X축은 프레임들인, 비-정적(non-stationary) 음성의 경우에 있어서 인접 프레임들의 LSF 계수들 [0 ... 4 kHz]을 나타내는 그래프이다.
도 4는 선행 기술 방법에서 절대 스펙트럼 편차 오류를 나타내는 그래프이다.
도 5는 (가장 가능한 잔류를 나타내는) 그래프에서의 가장 큰 막대가 거의 제로인, (선행 기술 방법보다 본 발명이 스펙트럼 매개변수들에 대한 더 좋은 대체를 제공하는 것을 나타내는) 본 발명에서의 절대 스펙트럼 편차 오류를 나타내는 그래프이다.
도 6은 불량 프레임이 검출되는 경우 어떤 선행 기술에 따라 비트들이 어떻게 분류되는지를 나타내는 개략적인 흐름도이다.
도 7은 본 발명의 전체적인 방법의 흐름도이다.
도 8은 오류들을 갖는 것으로 표시되는 프레임의 LSF가 수용가능한지 아닌지를 결정하는데 사용되는 기준의 태양들을 나타내는 2 그래프들의 집합이다.
따라서, 본 발명은 합성 음성을 제공하는 경우 복호기에 의해 복호화되는 프레임들에서의 프레임 오류들의 영향들을 은폐하기 위한 방법으로서, 상기 프레임들은 통신 채널 상에서 상기 복호기에 제공되고, 각 프레임은 음성을 합성하는 경우 상기 복호기에 의해 사용되는 매개변수들을 제공하는 은폐 방법에 있어서: 프레임이 불량 프레임인지를 결정하는 단계; 및 소정 수의 가장 최근에 수신된 우량 프레임들의 스펙트럼 매개변수들의 적어도 부분적 적응 평균에 기초하여 상기 불량 프레임의 매개변수들에 대한 대체(substitution)를 제공하는 단계를 포함하는 것을 특징으로 하는 은폐 방법 및 대응하는 장치를 제공한다.
본 발명의 추가 태양에 있어서, 상기 방법은 또한 상기 불량 프레임이 정적(stationary) 또는 비-정적(non-stationary) 음성을 전달하는지를 결정하는 단계를 포함하고, 추가로, 상기 불량 프레임에 대한 대체를 제공하는 상기 단계는 상기 불량 프레임이 정적 또는 비-정적 음성을 전달하는지에 의존하는 방식으로 수행된다. 본 발명의 다른 추가 태양에 있어서, 정적 음성을 전달하는 불량 프레임의 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 단계는 소정 수의 가장 최근에 수신된 우량 프레임들의 매개변수들의 평균을 사용하여 수행된다. 본 발명의 또 다른 추가 태양에 있어서, 비-정적 음성을 전달하는 불량 프레임의 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 단계는 소정 수의 가장 최근에 수신된 우량 프레임들의 매개변수들의 평균의 많아야 소정 부분을 사용하여 수행된다.
본 발명의 다른 추가 태양에 있어서, 상기 방법은 또한 상기 불량 프레임이 소정의 기준을 충족하는지를 결정하고, 그러한 경우, 상기 불량 프레임에 대한 대체 대신에 상기 불량 프레임을 사용하는 단계를 포함한다. 상기 단계에서의 본 발명의 다른 추가 태양에 있어서, 상기 소정의 기준은 4가지 비교들: 인터-프레임(inter-frame) 비교, 인트라-프레임(intra-frame) 비교, 두-점(two-point) 비교, 및 단일-점(single-point) 비교 중 하나 이상을 수행하는 것을 포함한다.
다른 하나의 관점에서, 본 발명은 합성 음성을 제공하는 경우 복호기에 의해 복호화되는 프레임들에서의 프레임 오류들의 영향들을 은폐하기 위한 방법으로서, 상기 프레임들은 통신 채널 상에서 상기 복호기에 제공되고, 각 프레임은 음성을 합성하는 경우 상기 복호기에 의해 사용되는 매개변수들을 제공하는 은폐 방법에 있어서: 프레임이 불량 프레임인지를 결정하는 단계; 및 상기 불량 프레임의 매개변수들에 대한 대체(substitution)를 제공하는 단계를 포함하고, 대체에서 과거 이미턴스 스펙트럼 주파수들(ISFs; immittance spectral frequencies)은:
ISFq(i)=α*past_ISFq(i)+(1-α)*ISFmean(i), for i=0..16에 의해 주어지는 부분적 적응 평균을 향해 이동되고,
여기서, α=0.9이고, ISFq(i)은 현재 프레임에 대한 ISF 벡터의 제i 성분이며, past_ISFq(i)은 이전 프레임으로부터의 ISF 벡터의 제i 성분이고, ISFmean(i)은 적응 평균 및 일정한 소정의 평균 ISF 벡터들의 조합인 벡터의 제i 성분이며 다음 수학식:
ISFmean(i)=β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i), for i=0..16을 사용하여계산되고,
여기서 β=0.75이며,이고 불량 프레임 표시자인 BFI가 BFI=0인 경우마다 갱신되며, ISFconst_mean(i)은 ISF 벡터들의 장시간 평균으로부터 형성되는 벡터의 제i 성분인 것을 특징으로 하는 은폐 방법이다.
본 발명의 상기 및 다른 목적들, 특징들 및 장점들은 첨부한 도면들과 함께 제시되는 다음의 상세한 설명을 고려함으로써 명백하게 될 것이다.
본 발명에 따라, 통신 채널(도 1)을 통해 음성 신호의 전송 후에 복호기에 의해 불량 프레임이 검출되는 경우, 음성 신호의 손상된 스펙트럼 매개변수들이 통신 채널을 통해 최근에 전송된 스펙트럼 매개변수들의 분석에 기초하여 (상기 손상된 스펙트럼 매개변수들에 대해 다른 스펙트럼 매개변수들을 대체함으로써) 은폐된다. 손상된 스펙트럼 매개변수들이 인공물(artifacts)(분명히 음성이 아닌 들리는 소리들)을 야기할 수 있기 때문일 뿐 아니라, (적어도 선형 예측 양자화가 사용되는 경우) 다음의 에러 없는 음성 프레임들의 주관적인 품질이 감소하기 때문에 불량 프레임의 손상된 스펙트럼 매개변수들을 효과적으로 은폐하는 것이 중요하다.
본 발명에 따른 분석은 또한 선 스펙트럼 주파수들(LSFs)과 같은, 스펙트럼 매개변수들의 스펙트럼 충격(impact)의 국부적인 성질을 이용한다. 하나의 LSF 매개변수가 양자화 및 부호화 과정에 의해 반대로 변경되는 경우 LP 스펙트럼은 LSF 매개변수에 의해 표시되는 주파수 근처에서만 변화하고 상기 스펙트럼의 나머지는변경되지 않는다는 점에서 LSF들의 스펙트럼 충격은 국부적이라고 말한다.
본 발명은 일반적으로, 손실된 프레임 또는 손상된 프레임에 대한 것이다.
본 발명에 따라, 분석기는 이전에 수신된 음성 매개변수들의 이력에 기초하는 불량 프레임의 경우에 스펙트럼 매개변수 은폐를 결정한다. 분석기는 복호화된 음성 신호의 유형을 결정한다(즉, 정적인지 비-정적인지). 음성 매개변수들의 이력은 복호화된 음성 신호를 분류하는데 사용된다(정적인지 아닌지로서, 보다 상세하게는 유성음(voiced)인지 아닌지로서); 사용되는 이력은 LTP 및 스펙트럼 매개변수들의 가장 최근 값들로부터 주로 유도될 수 있다.
정적 음성 신호(stationary speech signal) 및 유성음 음성 신호(voiced speech signal) 라는 용어는 실지로 동의어이다; 유성음 음성 시퀀스는 보통 비교적 정적 신호이지만, 무성음 음성 시퀀스는 보통 그렇지 않다. 우리는 본 명세서에서 정적 및 비-정적 음성 신호들이라는 용어를 사용하는데 이것은 상기 용어가 보다 명확하기 때문이다.
프레임에 대응하는 음성에 대한 프레임에서 표시되는 것으로서, 전체 여진(excitation)의 파워에 대한 적응 여진의 파워의 비에 따라, 프레임은 유성음인지 무성음인지 (그리고 또한 정적인지 또는 비-정적인지)로서 분류될 수 있다. (프레임은 매개변수들을 포함하고, 상기 매개변수들에 따라 적응 및 전체 여진 양자가 구성된다; 그렇게 한 후에, 전체 파워가 계산될 수 있다.)
음성 시퀀스가 정적인 경우, 상술된 바와 같이, 손상된 스펙트럼 매개변수들이 은폐되는 선행 기술의 방법들은 특별히 효과적이지 않다. 이것은 정적 인접 스펙트럼 매개변수들이 천천히 변화하고 있기 때문이다. 따라서 이전 우량 스펙트럼 값들(손상되거나 손실되지 않은 스펙트럼 값들)은 보통 다음 스펙트럼 계수들에 대한 좋은 추정들이고, 보다 상세하게는 선행 기술이 (불량 스펙트럼 매개변수들을 숨기기 위해) 불량 스펙트럼 매개변수들 대신에 사용하는, 일정한 평균을 향하여 구동되는 이전 프레임으로부터의 스펙트럼 매개변수들보다 더 좋다. 도 2는 정적 음성 신호(보다 상세하게는 유성음 음성 신호)에 대해, 스펙트럼 매개변수들의 일 예로서 LSF들의 특성들을 도시한다; 그것은 Y축은 주파수이고 X축은 프레임들인 정지 음성의 인접 프레임들의 LSF 계수들 [0 ... 4 kHz]를 도시하고, LSF들이 정지 음성에 대해 프레임 별로 비교적 천천히 변화하는 것을 나타낸다.
정지 음성 세그먼트들 동안, 은폐는 다음 알고리즘을 사용하여 (손실되거나 손상된 프레임들에 대해) 본 발명에 따라 수행된다:
For i = 0 to N-1 (한 프레임내의 요소들):
adaptive_mean_LSF_vector(i)
=(past_LSF_good(i)(0)+past_LSF_good(i)(1)+...+past_LSF_good(i)(K-1))/K;
[수학식 2.1]
LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*adaptive_mean_LSF(i);
LSF_q2(i)=LSF_q1(i);
여기서 α는 대략 0.95이고, N은 LP 필터의 차수이며, K는 적응 길이이다. LSF_q1(i)은 제2 서브프레임의 양자화된 LSF 벡터이고 LSF_q2(i)는 제4 서브프레임의 양자화된 LSF 벡터이다. 제1 및 제3 서브프레임들의 LSF 벡터들은 이들 2 벡터들로부터 보간된다. 양 past_LSF_good(i)(0)은 이전 우량 프레임으로부터의 양 LSF_q2(i-1)의 값과 같다. 양 past_LSF_good(i)(n)은 제n+1 이전 우량 프레임(즉 현재 불량 프레임을 n+1 프레임들만큼 앞서는 우량 프레임)으로부터의 LSF 매개변수들의 벡터의 성분이다. 마지막으로, 양 adaptive_mean_LSF(i)는 이전 우량 LSF 벡터들의 평균(산술 평균)이다(즉, 그것은 벡터 양의 성분이고, 각 성분은 이전 우량 LSF 벡터들의 대응하는 성분들의 평균이다).
선행 기술의 방법에 비해 본 발명의 적응 평균 방법은 합성 음성의 주관적인 품질을 개선한다는 것이 설명되었다. 설명은 음성이 오류가 야기되는 통신 채널을 통해 전송되는 시뮬레이션들을 사용한다. 불량 프레임이 검출될 때마다, 스펙트럼 오류가 계산된다. 스펙트럼 오류는 불량 프레임 동안 은폐를 위해 사용되는 스펙트럼인 원래 스펙트럼으로부터 감산에 의해 획득된다. 절대 오류는 스펙트럼 오류로부터 절대값을 취함으로서 계산된다. 도 4 및 도 5는 각각 선행 기술 및 본 발명 방법에 대한 LSF들의 절대 편차(deviation) 오류의 히스토그램들을 도시한다. 최적 오류 은폐는 제로에 가까운 오류를 갖는다. 즉, 오류가 제로에 근접하는 경우, 은폐를 위해 사용되는 스펙트럼 매개변수들은 원래의 (손상되거나 손실된) 스펙트럼 매개변수들에 매우 근접한다. 도 4 및 도 5의 히스토그램들로부터 볼 수 있는 바와 같이, 본 발명의 적응 평균 방법(도 5)은 선행 기술 방법(도 4)보다 정적 음성 시퀀스들 동안 더 잘 오류들을 은폐한다.
상술된 바와 같이, 비-정적 신호들(또는 덜 정밀하게는 무성음 신호들)의 스펙트럼 계수들은 도 3에 도시된 바와 같이 인접 프레임들 사이에서 변동한다. 도 3은 Y축은 주파수이고 X축은 프레임들인, 비-정적 음성의 경우에 있어서 인접 프레임들의 LSF들을 나타내는 그래프이다. 그러한 경우에 있어서, 최적 은폐 방법은 정적 음성 신호의 경우와 같지 않다. 비-정적 음성에 대해, 본 발명은 다음 알고리즘(비-정적 알고리즘)에 따라 불량(손상되거나 손실된) 비-정적 음성 세그먼트들에 대한 은폐를 제공한다:
For i = 0 to N-1:
[수학식 2.3]
partly_adaptive_mean_LSF(i)
=β*mean_LSF(i) + (1-β)*adaptive_mean_LSF(i);
[수학식 2.2]
LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*partly_adaptive_mean_LSF(i);
LSF_q2(i)= LSF_q1(i);
여기서 N은 LP 필터의 차수이고, α는 전형적으로 대략 0.90이며, LSF_q1(i) 및 LSF_q2(i)는 수학식 (2.1)에서와 같은 현재 프레임에 대한 LSF 벡터들의 2 집합들이다. past_LSF_q(i)는 이전 우량 프레임으로부터의 LSF_q2(i)이고, partly_adaptive_mean_LSF(i)는 적응 평균 LSF 벡터 및 평균 LSF 벡터의 조합이며, adaptive_mean_LSF(i)는 최종 K 우량 LSF 벡터들의 평균이고 (BFI가 세팅되지 않는 경우 갱신된다), mean_LSF(i)는 고정 평균 LSF이며 음성을 합성하는데 사용되는 코덱의 설계 과정 동안 생성된다; 그것은 몇몇 음성 데이터베이스의 평균 LSF이다. 매개변수 β는 전형적으로 대략 0.75이고, 이것은 음성이 비-정적에 반대되는 것으로서 정적인 정도를 나타내는데 사용되는 값이다. (그것은 때때로 고정 부호록(codebook) 여진 에너지에 대한 장기간 예측 여진 에너지의 비에 기초하여 계산되고, 보다 상세하게는 수학식
을 이용하여 계산된다.
여기서
이고, 여기서 energypitch는 피치 여진의 에너지이고 energyinnovation은 혁신 부호 여진의 에너지이다. 대부분의 에너지가 장기간 예측 여진에 있는 경우, 복호화되는 음성은 주로 정적이다. 대부분의 에너지가 고정 부호록 여진에 있는 경우, 음성은 주로 비-정적이다.)
β= 1.0인 경우, 수학식 (2.3)은 선행 기술인 수학식 (1.0)이 된다. β= 0.0인 경우, 수학식 (2.3)은 수학식 (2.1)이 되고, 정적 세그먼트들에 대해 본 발명에 의해 사용된다. 복잡도 민감 구현들에 대해 (상당한 레벨로 복잡도를 유지하는 것이 중요한 애플리케이션들에서), β는 정적 및 비-정적 세그먼트들 양자에 대해, 어떤 절충 값, 예를 들어 0.75로 고정될 수 있다. 특히 손실된 프레임들에 대한 스펙트럼 매개변수 은폐.
손실된 프레임의 경우에 있어서, 과거 스펙트럼 매개변수들의 정보들만이 이용가능하다. 대체되는 스펙트럼 매개변수들은 예를 들어 스펙트럼 및 장기간 예측(LTP, long-term prediction) 값들의 매개변수 이력들에 기초하는 기준에 따라 계산된다; LTP 매개변수들은 LTP 이득 및 LTP 지연(lag) 값을 포함한다. LTP는 이전 프레임에 대한 현재 프레임의 상관을 나타낸다. 예를 들어, 대체되는 스펙트럼 매개변수들을 계산하는데 사용되는 기준은 최종 우량 LSF들이 적응 LSF 평균에 의해 또는 선행 기술에서와 같이 고정 평균에 의해 수정되어야 하는 상황들을 구별할 수 있다.
특히 손상된 프레임들에 대한 대안적인 스펙트럼 매개변수 은폐
음성 프레임이 손상(손실되는 것에 반대되는 것으로서)되는 경우, 본 발명의 은폐 절차는 더 최적화될 수 있다. 그러한 경우에 있어서, 스펙트럼 매개변수들은 음성 복호기에서 수신되는 경우 완전히 또는 부분적으로 정정될 수 있다. 예를 들어, 패킷-기반 접속에서 (보통의 TCP/IP 인터넷 접속에서와 같이), TCP/IP 유형 접속들에 있어서 보통 모든 불량 프레임들이 손실된 프레임들이기 때문에 손상된 프레임들 은폐 방법은 보통 가능하지 않다. 그러나, 회선 교환 GSM 또는 EDGE 접속들에서와 같은 다른 종류의 접속들에 대해, 본 발명의 손상된 프레임들 은폐 방법이 사용될 수 있다. 따라서, 패킷-교환 접속들에 대해, 다음의 대안 방법이 사용될 수 없지만, 회선-교환 접속들에 대해, 그러한 접속들에서 불량 프레임들은 적어도 때때로 (그리고 사실 통상적으로) 단지 손상된 프레임들이기 때문에 상기 방법이 사용될 수 있다.
GSM에 대한 사양들에 따라, 채널 복호화 과정에서 사용되는 CRC 체크 또는다른 오류 검출 메커니즘에 따라 BFI 플래그가 세팅되는 경우 불량 프레임이 검출된다. 오류 검출 메커니즘들은 본질적으로 최상위 비트들, 즉 합성 음성의 품질에 가장 큰 영향을 미치는 비트들에서 오류들을 검출하는데 사용된다. 몇몇 선행 기술 방법들에서, 프레임이 불량 프레임으로 표시되는 경우 이들 최상위 비트들은 사용되지 않는다. 그러나, 프레임이 극히 소수의 비트 오류들을 가질 수 있고 (BFI 플래그를 세팅하기에 충분한 것까지), 따라서 비록 대부분의 비트들이 올바르다고 하더라도 전체 프레임이 폐기될 수 있다. CRC 체크는 단지 프레임이 오류가 있는 프레임들을 가지는지 아닌지를 검출하지만, 비트 오류율(BER; bit error rate)의 추정을 하지 않는다. 도 6은 불량 프레임이 검출되는 경우 선행 기술에 따라 비트들이 어떻게 분류되는지를 도시한다. 도 6에 있어서, CRC 체크에 포함되는 상기 프레임의 몇몇 비트들이 손상되고, 따라서 BFI가 1로 세팅되는 경우들에 있어서 단일 프레임이 통신 채널 상에서 복호기에, 한번에 한 비트씩 (왼쪽에서 오른쪽으로) 전달되는 것이 보여진다.
도 6에서 볼 수 있는 바와 같이, 비록 수신된 프레임이 때때로 많은 올바른 비트들을 포함하는 경우조차 (채널 상태가 비교적 양호한 경우 프레임에서의 BER은 보통 작다), 선행 기술은 상기 프레임을 사용하지 않는다. 대비하여, 본 발명은 수신된 매개변수들이 손상되었는지를 추정하려고 노력하고 상기 매개변수들이 손상되지 않은 경우, 본 발명 방법이 그들을 사용한다.
표 1은 적응 다중-율(AMR; adaptive multi-rate) 광대역(WB; wideband) 복호기의 예에서 본 발명에 따른 손상된 프레임 은폐를 뒷받침하는 사상을 나타낸다.
[표 1] 손상된 음성 프레임에서의 올바른 스펙트럼 매개변수들의 백분율
C/I [dB]
모드 12.65(AMR WB) 10 9 8 7 6
BER 3.72% 4.58% 5.56% 6.70% 7.98%
FER 0.30% 0.74% 1.62% 3.45% 7.16%
올바른 스펙트럼 매개변수 색인들 84% 77% 68% 64% 60%
전체 올바른 스펙트럼 47% 38% 32% 27% 24%
AMR WB 복호기의 경우에 있어서, 모드 12.65 kbit/s는 채널 반송파 대 간섭 비(C/I)가 대략 9 dB에서 10 dB까지의 범위 내에 있는 경우 사용하기에 좋은 선택이다. 표 1로부터, 가우스 최소-편이 방식(GMSK; Gaussian Minimum-Shift Keying) 변조 방식을 사용하여 9 내지 10 dB 범위 내의 C/I를 가지는 GSM 채널 상태들의 경우에 있어서, 수신된 불량 프레임들의 대략 35-50%는 완전히 올바른 스펙트럼을 갖는다는 것을 볼 수 있다. 또한, 모든 불량 프레임 스펙트럼 매개변수 계수들 중 대략 75-85%가 올바르다. 상술된 바와 같이, 스펙트럼 충격의 국부적 성질 때문에, 스펙트럼 매개변수 정보는 불량 프레임들에서 사용될 수 있다. 6-8 dB 이하의 범위의 C/I를 갖는 채널 상태들은 너무 나빠서 12.65 kbit/s 모드는 사용되지 않아야 한다; 대신에, 어떤 다른 하위 모드가 사용되어야 한다.
손상된 프레임들의 경우에 있어서 본 발명의 기본 사상은 (후술되는) 기준에 따라 손상된 프레임으로부터의 채널 비트들이 손상된 프레임을 복호화하는데 사용된다는 것이다. 스펙트럼 계수들에 대한 기준은 복호화되는 신호의 음성 매개변수들의 과거 값들에 기초한다. 불량 프레임이 검출되는 경우, 상기 기준이 충족되면 채널 상에서 전송되는 수신되는 LSF들 또는 다른 스펙트럼 매개변수들이 사용된다; 다시 말하면, 수신되는 LSF들이 기준을 충족하는 경우, 상기 LSF들은 상기 프레임이 불량 프레임이 아닌 경우인 것과 같이 복호화에 사용된다. 그렇지 않은 경우, 즉 채널로부터의 LSF들이 기준을 충족하지 않는 경우, 불량 프레임에 대한 스펙트럼은 수학식들 (2.1) 또는 (2.2)을 사용하여, 상술된 은폐 방법에 따라 계산된다. 스펙트럼 매개변수들을 수용하기 위한 기준은 예를 들어 소위 이타쿠라-사이토(Itakura-Saito) 스펙트럼 거리의 계산과 같은 스펙트럼 거리 계산을 사용하여 구현될 수 있다. (예를 들어, 2000년 IEEE 출판에 의해 발표된, 존 알 델러 주니어, 존 에이치. 엘. 한센, 및 존 지. 프로아키스(John R Deller Jr, John H.L. Hansen, and John G. Proakis)에 의한 음성 신호들의 이산-시간 처리의 329쪽을 참조)
채널로부터 스펙트럼 매개변수들을 수용하기 위한 기준은 정적 음성 신호의 경우에 있어서 매우 엄격해야 한다. 도 3에 도시된 바와 같이, 정적 음성 신호의 손상된 LSF들(또는 다른 음성 매개변수들)은 보통 쉽사리 검출될 수 있도록 스펙트럼 계수들은 정적 시퀀스 동안 (정의에 의하면) 매우 안정적이다(상기 스펙트럼 계수들이 손상되지 않은 인접 프레임들의 LSF들과 매우 상이하다는 것을 기초로 하여 상기 스펙트럼 계수들은 손상되지 않은 LSF들로부터 구별될 것이기 때문이다). 다른 한편, 비-정적 음성 신호에 대해, 상기 기준은 그렇게 엄격할 필요가 없다; 비-정적 음성 신호에 대한 스펙트럼은 더 큰 변동을 갖도록 허용된다. 비-정적 음성(즉 다소 무성음 음성)에 있어서, 음성 매개변수들이 올바른지 아닌지에 상관없이 어떠한 들을 수 있는 인공물들이 있을 것 같지 않기 때문에, 비-정적 음성 신호에 있어서, 올바른 스펙트럼 매개변수들의 정확함은 들을 수 있는 인공물들에 관해 엄격하지 않다. 다시 말하면, 비록 스펙트럼 매개변수들의 비트들이 손상된다 하더라도, 몇몇 손상된 비트들을 갖는 비-정적 음성에 대한 스펙트럼 매개변수들이 보통 어떤 들을 수 있는 인공물들을 생성하지 않을 것이기 때문에, 상기 비트들은 상기 조건에 따라 여전히 수용할 수 있다. 본 발명에 따라, 합성 음성의 주관적인 품질은 수신되는 LSF들에 대한 모든 이용 가능한 정보를 이용함으로써, 그리고 전달되는 음성의 특성들에 따라 사용할 LSF들을 선택함으로써 손상된 프레임들의 경우에 가능한 한 작게 감소되어진다.
따라서, 비록 본 발명이 손상된 프레임들을 은폐하기 위한 방법을 포함한다 하더라도, 그것은 또한 비-정적 음성을 전달하는 손상된 프레임의 경우에 기준을 사용하여 대안으로서 기준이 충족되는 경우 복호기로 하여금 손상된 프레임을 사용하도록 야기하는 것으로 이해한다; 다시 말하면, 비록 BFI가 세팅된다 하더라도, 그 프레임이 사용될 것이다. 상기 기준은 본질적으로 이용 가능한 손상된 프레임 및 이용 가능하지 않은 손상된 프레임 간을 구별하는데 사용되는 임계값이다; 상기 임계값은 손상된 프레임의 스펙트럼 매개변수들이 가장 최근에 수신된 우량 프레임들의 스펙트럼 매개변수들과 얼마나 많이 상이한지에 기초한다.
가능한 손상된 스펙트럼 매개변수들의 사용은 손상된 LTP 지연 값들과 같은 다른 손상된 매개변수들의 사용보다 들을 수 있는 인공물들에 아마 보다 더 민감하다. 이러한 이유로, 아마도 손상된 스펙트럼 매개변수를 사용할지 아닐지를 결정하는데 사용되는 기준은 특히 신뢰할 수 있어야 한다. 몇몇 실시예들에 있어서, 상기 기준으로서 최대 스펙트럼 거리(이전 프레임의 대응하는 스펙트럼 매개변수로부터,그것을 넘어 의심스러운 스펙트럼 매개변수가 사용되지 않는다)를 사용하는 것이 바람직하다; 그러한 실시예에 있어서, 공지된 이타쿠라-사이토 거리 계산은 임계값에 비교되는 스펙트럼 거리를 재는데 사용될 수 있다. 대안으로, 스펙트럼 매개변수들의 고정 또는 적응 통계들이 아마도 손상된 스펙트럼 매개변수들을 사용할지 아닐지를 결정하기 위해 사용될 수 있다. 또한 이득 매개변수들과 같은 다른 음성 매개변수들이 상기 조건을 생성하는데 사용될 수 있다. (다른 음성 매개변수들이 현재 프레임에서 가장 최근 우량 프레임에서의 값들에 비해 그다지 다르지 않은 경우, 수신된 스펙트럼 매개변수들이 또한 상기 기준들을 충족하는 경우 상기 스펙트럼 매개변수들이 아마도 사용하기에 적절하다. 다시 말하면, LTP 이득과 같은 다른 매개변수들은 수신된 스펙트럼 매개변수들을 사용할지 아닐지를 결정하기 위한 적합한 기준을 설정하기 위한 추가 성분으로서 사용될 수 있다. 다른 음성 매개변수들의 이력은 음성의 개선된 인식 특성을 위해 사용될 수 있다. 예를 들어, 상기 이력은 복호화된 음성 시퀀스가 정적 특성을 갖는지 비-정적 특성을 갖는지를 결정하는데 사용될 수 있다. 복호화된 음성 시퀀스의 특성들이 알려진 경우, 손상된 프레임으로부터 아마도 올바른 스펙트럼 매개변수들을 검출하는 것이 더 용이하고 어느 종류의 스펙트럼 매개변수 값들이 수신된 손상된 프레임에서 전달되는 것으로 예상되는지를 추정하는 것이 더 용이하다.)
본 발명에 따라 바람직한 실시예에 있어서, 이하 도 8을 참조하면, 손상된 프레임에 대한 스펙트럼 매개변수를 사용할지 아닐지를 결정하기 위한 기준은 상술된 바와 같이 스펙트럼 거리를 아는 것에 기초한다. 보다 상세하게는, 손상된 프레임의 LSF 계수들을 수용하기 위한 기준이 충족하는지를 결정하기 위하여, 수신기의 프로세서는 어떤 소정 수의 이전 가장 최근 프레임들의 LSF 계수들과 함께 LSF 버퍼에 저장되는, 최종 우량 프레임의 LSF 계수들과 비교해서 얼마나 많은 LSF 계수들이 주파수 축을 따라 이동하는지를 체크하는 알고리즘을 실행한다.
바람직한 실시예에 따른 기준은 4가지 비교들: 인터-프레임(inter-frame) 비교, 인트라-프레임(intra-frame) 비교, 두-점(two-point) 비교, 및 단일-점(single-point) 비교 중 하나 이상을 수행하는 것을 포함한다.
제1 비교, 인터-프레임 비교에 있어서, 손상된 프레임의 인접 프레임들의 LSF 벡터 요소들 간의 차이들이 이전 프레임의 대응하는 차이들에 비교된다. 상기 차이들은 다음과 같이 결정된다:
여기서 P는 프레임에 대한 스펙트럼 계수들의 수이고, Ln(i)는 손상된 프레임의 제i LSF 요소이며, Ln-1(i)은 손상된 프레임 이전의 프레임의 제i LSF 요소이다. k가 LSF 버퍼의 길이일 때, 차이 dn(i)가 dn-1(i), dn-2(i), ..., dn-k(i)에 비해 너무 큰 경우, 손상된 프레임의 LSF 요소 Ln(i)는 폐기된다.
제2 비교, 인트라-프레임 비교는 동일 프레임에서 인접 LSF 벡터 요소들간의 차이의 비교이다. 제n 프레임의 후보 제i LSF 요소(Ln(i)) 및 제n 프레임의 후보제i-1 LSF 요소(Ln(i-1)) 사이의 거리는 다음과 같이 결정된다:
여기서 P는 스펙트럼 계수들의 수이고, en(i)은 LSF 요소들 간의 거리이다. 프레임의 모든 LSF 벡터 요소들간의 거리들이 계산된다. 거리(en(i))가 en-1(i), en-2(i), ..., en-k(i)에 비해 너무 크거나 너무 작은 경우 LSF 요소들(Ln(i) 및 Ln(i-1)) 중의 하나 또는 다른 하나 또는 양자는 폐기될 것이다.
제3 비교, 두-점 비교는 후보 LSF 요소(Ln(i))를 포함하여 크로스오버(crossover)가 발생하는지, 즉 후보 요소보다 차수가 더 낮은 요소 Ln(i-1)이 후보 LSF 요소(Ln(i))보다 더 큰 값을 갖는지를 결정한다. 크로스오버는 하나 이상의 크게 손상된 LSF 값들을 나타낸다. 모든 교차하는 LSF 요소들은 보통 폐기된다.
제4 비교, 단일-점 비교는 후보 LSF 벡터 요소(Ln(i))의 값을 최소 LSF 요소(Lmin(i)) 및 최대 LSF 요소(Lmax(i))에 비교하고, 양자는 LSF 버퍼로부터 계산되며, 상기 후보 LSF 요소가 상기 최소 및 최대 LSF 요소들에 의해 묶여진 범위 외부에 놓여지는 경우 상기 후보 LSF 요소를 폐기한다.
손상된 프레임의 LSF 요소가 폐기되는 경우(상기 기준 또는 다른 것에 기초하여), LSF 요소에 대한 신규 값이 수학식 (2.2)을 이용하는 알고리즘에 따라 계산된다.
이하 도 7을 참조하면, 손실된 비-정적 음성 프레임들에 반대되는 것으로서 손상된 것에 대하여 그리고 정적 및 비-정적 음성 프레임들에 대한 상이한 제공들을 나타내는 본 발명의 전체적인 방법의 흐름도가 도시된다.
본 발명은 이동국 또는 이동 네트워크 요소의 음성 복호기에 적용될 수 있다. 또한 오류가 있는 전송 채널을 갖는 시스템에 사용되는 어떤 음성 복호기에 적용될 수 있다.
본 발명의 범위
상술된 정리들은 본 발명의 원리들의 응용의 단지 예시인 것으로 이해되어야 한다. 특히, 본 발명이 구체적인 예시로 선 스펙트럼 쌍들을 사용하여 도시되고 설명되었다 하더라도, 본 발명은 또한 이미턴스 스펙트럼 쌍들과 같은 다른 균등한 매개변수들을 사용하는 것을 포함하는 것으로 이해되어야 한다. 본 발명의 정신 및 범위를 벗어나지 않으면서 다수의 변형들 및 대안적인 장치들이 당업자에 의해 안출될 수 있고, 첨부된 청구범위는 그러한 변형들 및 장치들을 포함하는 것으로 의도된다.

Claims (18)

  1. 합성 음성을 제공하는 경우 복호기에 의해 복호화되는 프레임들에서의 프레임 오류들의 영향들을 은폐하기 위한 방법으로서, 상기 프레임들은 통신 채널 상에서 상기 복호기에 제공되고, 각 프레임은 음성을 합성하는 경우 상기 복호기에 의해 사용되는 매개변수들을 제공하는 은폐 방법에 있어서,
    a) 프레임이 불량 프레임인지를 결정하는 단계; 및
    b) 소정 수의 가장 최근에 수신된 우량 프레임들의 스펙트럼 매개변수들의 적어도 부분적 적응 평균에 기초하여 상기 불량 프레임의 매개변수들에 대한 대체(substitution)를 제공하는 단계를 포함하는 것을 특징으로 하는 은폐 방법.
  2. 제1항에 있어서, 상기 불량 프레임이 정적(stationary) 또는 비-정적(non-stationary) 음성을 전달하는지를 결정하는 단계를 더 포함하고, 상기 불량 프레임에 대한 대체를 제공하는 상기 단계는 상기 불량 프레임이 정적 또는 비-정적 음성을 전달하는지에 의존하는 방식으로 수행되는 것을 특징으로 하는 은폐 방법.
  3. 제2항에 있어서, 정적 음성을 전달하는 불량 프레임의 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 단계는 소정 수의 가장 최근에 수신된 우량 프레임들의 매개변수들의 평균을 사용하여 수행되는 것을 특징으로 하는 은폐 방법.
  4. 제3항에 있어서, 정적 음성을 전달하는 불량 프레임의 경우 및 선형 예측(LP; linear prediction) 필터가 사용되고 있는 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 단계는 다음 알고리즘:
    For i = 0 to N-1:
    adaptive_mean_LSF_vector(i)
    =(past_LSF_good(i)(0)+past_LSF_good(i)(1)+...+past_LSF_good(i)(K-1))/K;
    LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*adaptive_mean_LSF(i);
    LSF_q2(i)=LSF_q1(i);
    에 따라 수행되고,
    여기서 α는 소정의 매개변수이고, N은 상기 LP 필터의 차수이며, K는 적응 길이이고, LSF_q1(i)은 제2 서브프레임의 양자화된 LSF 벡터이고 LSF_q2(i)는 제4 서브프레임의 양자화된 LSF 벡터이며, past_LSF_good(i)(0)은 이전 우량 프레임으로부터의 양 LSF_q2(i-1)의 값과 같고, past_LSF_good(i)(n)은 제n+1 이전 우량 프레임으로부터의 LSF 매개변수들의 벡터의 성분이며, adaptive_mean_LSF(i)는 이전 우량 LSF 벡터들의 평균인 것을 특징으로 하는 은폐 방법.
  5. 제2항에 있어서, 비-정적 음성을 전달하는 불량 프레임의 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 단계는 소정 수의 가장 최근에 수신된 우량 프레임들의 매개변수들의 평균의 많아야 소정 부분을 사용하여 수행되는것을 특징으로 하는 은폐 방법.
  6. 제2항에 있어서, 비-정적 음성을 전달하는 불량 프레임의 경우 및 선형 예측(LP) 필터가 사용되고 있는 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 단계는 다음 알고리즘:
    For i = 0 to N-1:
    partly_adaptive_mean_LSF(i)
    =β*mean_LSF(i) + (1-β)*adaptive_mean_LSF(i);
    LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*partly_adaptive_mean_LSF(i);
    LSF_q2(i)= LSF_q1(i);
    에 따라 수행되고,
    여기서 N은 상기 LP 필터의 차수이고, α 및 β는 소정의 매개변수들이며, LSF_q1(i)은 제2 서브프레임의 양자화된 LSF 벡터이고 LSF_q2(i)는 제4 서브프레임의 양자화된 LSF 벡터이며, past_LSF_q(i)는 이전 우량 프레임으로부터의 LSF_q2(i)의 값이고, partly_adaptive_mean_LSF(i)는 적응 평균 LSF 벡터 및 평균 LSF 벡터의 조합이며, adaptive_mean_LSF(i)는 최종 K 우량 LSF 벡터들의 평균이고, mean_LSF(i)는 고정 평균 LSF인 것을 특징으로 하는 은폐 방법.
  7. 제1항에 있어서, 상기 불량 프레임이 소정의 기준을 충족하는지를 결정하고, 그러한 경우, 상기 불량 프레임에 대한 대체 대신에 상기 불량 프레임을 사용하는단계를 더 포함하는 것을 특징으로 하는 은폐 방법.
  8. 제7항에 있어서, 상기 소정의 기준은 4가지 비교들: 인터-프레임(inter-frame) 비교, 인트라-프레임(intra-frame) 비교, 두-점(two-point) 비교, 및 단일-점(single-point) 비교 중 하나 이상을 수행하는 것을 포함하는 것을 특징으로 하는 은폐 방법.
  9. 합성 음성을 제공하는 경우 복호기에 의해 복호화되는 프레임들에서의 프레임 오류들의 영향들을 은폐하기 위한 방법으로서, 상기 프레임들은 통신 채널 상에서 상기 복호기에 제공되고, 각 프레임은 음성을 합성하는 경우 상기 복호기에 의해 사용되는 매개변수들을 제공하는 은폐 방법에 있어서,
    a) 프레임이 불량 프레임인지를 결정하는 단계; 및
    b) 상기 불량 프레임의 매개변수들에 대한 대체(substitution)를 제공하는 단계를 포함하고,
    대체에서 과거 이미턴스 스펙트럼 주파수들(ISFs; immittance spectral frequencies)은:
    ISFq(i)=α*past_ISFq(i)+(1-α)*ISFmean(i), for i=0..16에 의해 주어지는 부분적 적응 평균을 향해 이동되고,
    여기서, α=0.9이고,
    ISFq(i)은 현재 프레임에 대한 ISF 벡터의 제i 성분이며,
    past_ISFq(i)은 이전 프레임으로부터의 ISF 벡터의 제i 성분이고,
    ISFmean(i)은 적응 평균 및 일정한 소정의 평균 ISF 벡터들의 조합인 벡터의 제i 성분이며 다음 수학식:
    ISFmean(i)=β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i), for i=0..16을 사용하여 계산되고,
    여기서 β=0.75이며,이고 불량 프레임 표시자인 BFI가 BFI=0인 경우마다 갱신되며, ISFconst_mean(i)은 ISF 벡터들의 장시간 평균으로부터 형성되는 벡터의 제i 성분인 것을 특징으로 하는 은폐 방법.
  10. 합성 음성을 제공하는 경우 복호기에 의해 복호화되는 프레임들에서의 프레임 오류들의 영향들을 은폐하기 위한 장치로서, 상기 프레임들은 통신 채널 상에서 상기 복호기에 제공되고, 각 프레임은 음성을 합성하는 경우 상기 복호기에 의해 사용되는 매개변수들을 제공하는 은폐 장치에 있어서,
    a) 프레임이 불량 프레임인지를 결정하는 수단; 및
    b) 소정 수의 가장 최근에 수신된 우량 프레임들의 스펙트럼 매개변수들의 적어도 부분적 적응 평균에 기초하여 상기 불량 프레임의 매개변수들에 대한 대체(substitution)를 제공하는 수단을 포함하는 것을 특징으로 하는 은폐 장치.
  11. 제10항에 있어서, 상기 불량 프레임이 정적(stationary) 또는 비-정적(non-stationary) 음성을 전달하는지를 결정하는 수단을 더 포함하고, 상기 불량 프레임에 대한 대체를 제공하는 상기 수단은 상기 불량 프레임이 정적 또는 비-정적 음성을 전달하는지에 의존하는 방식으로 상기 대체를 수행하는 것을 특징으로 하는 은폐 장치.
  12. 제11항에 있어서, 정적 음성을 전달하는 불량 프레임의 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 수단은 소정 수의 가장 최근에 수신된 우량 프레임들의 매개변수들의 평균을 사용하여 수행하는 것을 특징으로 하는 은폐 장치.
  13. 제12항에 있어서, 정적 음성을 전달하는 불량 프레임의 경우 및 선형 예측(LP; linear prediction) 필터가 사용되고 있는 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 수단은 다음 알고리즘:
    For i = 0 to N-1:
    adaptive_mean_LSF_vector(i)
    =(past_LSF_good(i)(0)+past_LSF_good(i)(1)+...+past_LSF_good(i)(K-1))/K;
    LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*adaptive_mean_LSF(i);
    LSF_q2(i)=LSF_q1(i);
    에 따라 동작하고,
    여기서 α는 소정의 매개변수이고, N은 상기 LP 필터의 차수이며, K는 적응 길이이고, LSF_q1(i)은 제2 서브프레임의 양자화된 LSF 벡터이고 LSF_q2(i)는 제4 서브프레임의 양자화된 LSF 벡터이며, past_LSF_good(i)(0)은 이전 우량 프레임으로부터의 양 LSF_q2(i-1)의 값과 같고, past_LSF_good(i)(n)은 제n+1 이전 우량 프레임으로부터의 LSF 매개변수들의 벡터의 성분이며, adaptive_mean_LSF(i)는 이전 우량 LSF 벡터들의 평균인 것을 특징으로 하는 은폐 장치.
  14. 제11항에 있어서, 비-정적 음성을 전달하는 불량 프레임의 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 수단은 소정 수의 가장 최근에 수신된 우량 프레임들의 매개변수들의 평균의 많아야 소정 부분을 사용하여 수행하는 것을 특징으로 하는 은폐 장치.
  15. 제11항에 있어서, 비-정적 음성을 전달하는 불량 프레임의 경우 및 선형 예측(LP) 필터가 사용되고 있는 경우에 있어서, 상기 불량 프레임에 대한 대체를 제공하는 상기 수단은 다음 알고리즘:
    For i = 0 to N-1:
    partly_adaptive_mean_LSF(i)
    =β*mean_LSF(i) + (1-β)*adaptive_mean_LSF(i);
    LSF_q1(i)=α*past_LSF_good(i)(0)+(1-α)*partly_adaptive_mean_LSF(i);
    LSF_q2(i)= LSF_q1(i);
    에 따라 동작하고,
    여기서 N은 상기 LP 필터의 차수이고, α 및 β는 소정의 매개변수들이며, LSF_q1(i)은 제2 서브프레임의 양자화된 LSF 벡터이고 LSF_q2(i)는 제4 서브프레임의 양자화된 LSF 벡터이며, past_LSF_q(i)는 이전 우량 프레임으로부터의 LSF_q2(i)의 값이고, partly_adaptive_mean_LSF(i)는 적응 평균 LSF 벡터 및 평균 LSF 벡터의 조합이며, adaptive_mean_LSF(i)는 최종 K 우량 LSF 벡터들의 평균이고, mean_LSF(i)는 고정 평균 LSF인 것을 특징으로 하는 은폐 장치.
  16. 제10항에 있어서, 상기 불량 프레임이 소정의 기준을 충족하는지를 결정하고, 그러한 경우, 상기 불량 프레임에 대한 대체 대신에 상기 불량 프레임을 사용하는 수단을 더 포함하는 것을 특징으로 하는 은폐 장치.
  17. 제16항에 있어서, 상기 소정의 기준은 4가지 비교들: 인터-프레임(inter-frame) 비교, 인트라-프레임(intra-frame) 비교, 두-점(two-point) 비교, 및 단일-점(single-point) 비교 중 하나 이상을 수행하는 것을 포함하는 것을 특징으로 하는 은폐 장치.
  18. 합성 음성을 제공하는 경우 복호기에 의해 복호화되는 프레임들에서의 프레임 오류들의 영향들을 은폐하기 위한 장치로서, 상기 프레임들은 통신 채널 상에서상기 복호기에 제공되고, 각 프레임은 음성을 합성하는 경우 상기 복호기에 의해 사용되는 매개변수들을 제공하는 은폐 장치에 있어서,
    a) 프레임이 불량 프레임인지를 결정하는 수단; 및
    b) 상기 불량 프레임의 매개변수들에 대한 대체(substitution)를 제공하는 수단을 포함하고,
    대체에서 과거 이미턴스 스펙트럼 주파수들(ISFs; immittance spectral frequencies)은:
    ISFq(i)=α*past_ISFq(i)+(1-α)*ISFmean(i), for i=0..16에 의해 주어지는 부분적 적응 평균을 향해 이동되고,
    여기서, α=0.9이고,
    ISFq(i)은 현재 프레임에 대한 ISF 벡터의 제i 성분이며,
    past_ISFq(i)은 이전 프레임으로부터의 ISF 벡터의 제i 성분이고,
    ISFmean(i)은 적응 평균 및 일정한 소정의 평균 ISF 벡터들의 조합인 벡터의 제i 성분이며 다음 수학식:
    ISFmean(i)=β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i), for i=0..16을 사용하여 계산되고,
    여기서 β=0.75이며,이고 불량 프레임 표시자인 BFI가 BFI=0인 경우마다 갱신되며, ISFconst_mean(i)은 ISF 벡터들의 장시간 평균으로부터 형성되는 벡터의 제i 성분인 것을 특징으로 하는 은폐 장치.
KR1020037005602A 2000-10-23 2001-10-17 음성 복호기에서 프레임 오류 은폐를 위한 개선된스펙트럼 매개변수 대체 KR100581413B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24249800P 2000-10-23 2000-10-23
US60/242,498 2000-10-23
PCT/IB2001/001950 WO2002035520A2 (en) 2000-10-23 2001-10-17 Improved spectral parameter substitution for the frame error concealment in a speech decoder

Publications (2)

Publication Number Publication Date
KR20030048067A true KR20030048067A (ko) 2003-06-18
KR100581413B1 KR100581413B1 (ko) 2006-05-23

Family

ID=22915004

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037005602A KR100581413B1 (ko) 2000-10-23 2001-10-17 음성 복호기에서 프레임 오류 은폐를 위한 개선된스펙트럼 매개변수 대체

Country Status (14)

Country Link
US (2) US7031926B2 (ko)
EP (1) EP1332493B1 (ko)
JP (2) JP2004522178A (ko)
KR (1) KR100581413B1 (ko)
CN (1) CN1291374C (ko)
AT (1) ATE348385T1 (ko)
AU (1) AU1079902A (ko)
BR (2) BR0114827A (ko)
CA (1) CA2425034A1 (ko)
DE (1) DE60125219T2 (ko)
ES (1) ES2276839T3 (ko)
PT (1) PT1332493E (ko)
WO (1) WO2002035520A2 (ko)
ZA (1) ZA200302778B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150014607A (ko) * 2013-07-30 2015-02-09 삼성전자주식회사 통신 시스템에서 오류 은닉 방법 및 장치

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6609118B1 (en) * 1999-06-21 2003-08-19 General Electric Company Methods and systems for automated property valuation
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP2004151123A (ja) * 2002-10-23 2004-05-27 Nec Corp 符号変換方法、符号変換装置、プログラム及びその記憶媒体
US20040143675A1 (en) * 2003-01-16 2004-07-22 Aust Andreas Matthias Resynchronizing drifted data streams with a minimum of noticeable artifacts
US7835916B2 (en) * 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
CN1950883A (zh) * 2004-04-30 2007-04-18 松下电器产业株式会社 可伸缩性解码装置及增强层丢失的隐藏方法
EP1603262B1 (en) * 2004-05-28 2007-01-17 Alcatel Multi-rate speech codec adaptation method
US7971121B1 (en) * 2004-06-18 2011-06-28 Verizon Laboratories Inc. Systems and methods for providing distributed packet loss concealment in packet switching communications networks
WO2006028009A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および信号消失補償方法
US7409338B1 (en) * 2004-11-10 2008-08-05 Mediatek Incorporation Softbit speech decoder and related method for performing speech loss concealment
US7596143B2 (en) * 2004-12-16 2009-09-29 Alcatel-Lucent Usa Inc. Method and apparatus for handling potentially corrupt frames
BRPI0607251A2 (pt) * 2005-01-31 2017-06-13 Sonorit Aps método para concatenar um primeiro quadro de amostras e um segundo quadro subseqüente de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
GB0512397D0 (en) * 2005-06-17 2005-07-27 Univ Cambridge Tech Restoring corrupted audio signals
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
US8069035B2 (en) * 2005-10-14 2011-11-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods of them
WO2007091926A1 (en) * 2006-02-06 2007-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for speech coding in wireless communication systems
US7457746B2 (en) 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8280728B2 (en) * 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
WO2008022181A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Updating of decoder states after packet loss concealment
WO2008056775A1 (fr) * 2006-11-10 2008-05-15 Panasonic Corporation Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre
KR101292771B1 (ko) * 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
KR101291193B1 (ko) 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
ES2642091T3 (es) * 2007-03-02 2017-11-15 Iii Holdings 12, Llc Dispositivo de codificación de audio y dispositivo de decodificación de audio
EP1973254B1 (en) * 2007-03-22 2009-07-15 Research In Motion Limited Device and method for improved lost frame concealment
US8165224B2 (en) 2007-03-22 2012-04-24 Research In Motion Limited Device and method for improved lost frame concealment
WO2008146466A1 (ja) * 2007-05-24 2008-12-04 Panasonic Corporation オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
US8751229B2 (en) * 2008-11-21 2014-06-10 At&T Intellectual Property I, L.P. System and method for handling missing speech data
EP2189976B1 (en) * 2008-11-21 2012-10-24 Nuance Communications, Inc. Method for adapting a codebook for speech recognition
CN101615395B (zh) * 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
JP2010164859A (ja) * 2009-01-16 2010-07-29 Sony Corp オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
US20100185441A1 (en) * 2009-01-21 2010-07-22 Cambridge Silicon Radio Limited Error Concealment
US8676573B2 (en) * 2009-03-30 2014-03-18 Cambridge Silicon Radio Limited Error concealment
US8316267B2 (en) * 2009-05-01 2012-11-20 Cambridge Silicon Radio Limited Error concealment
CN101894565B (zh) * 2009-05-19 2013-03-20 华为技术有限公司 语音信号修复方法和装置
US8908882B2 (en) * 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
KR101761629B1 (ko) 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
MX2013012301A (es) * 2011-04-21 2013-12-06 Samsung Electronics Co Ltd Aparato para cuantificar coeficientes de codificacion predictiva lineal, aparato de codificacion de sonido, aparato para decuantificar coeficientes de codificacion predictiva lineal, aparato de decodificacion de sonido y dispositivo electronico para los mismos.
WO2012144878A2 (en) 2011-04-21 2012-10-26 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
CN104011793B (zh) * 2011-10-21 2016-11-23 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
KR20130113742A (ko) * 2012-04-06 2013-10-16 현대모비스 주식회사 오디오 데이터 디코딩 방법 및 장치
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN103117062B (zh) * 2013-01-22 2014-09-17 武汉大学 语音解码器中帧差错隐藏的谱参数代替方法及系统
ES2603266T3 (es) * 2013-02-13 2017-02-24 Telefonaktiebolaget L M Ericsson (Publ) Ocultación de errores de trama
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
CN103456307B (zh) * 2013-09-18 2015-10-21 武汉大学 音频解码器中帧差错隐藏的谱代替方法及系统
JP5981408B2 (ja) 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
CN107369454B (zh) 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
US10803876B2 (en) * 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
CN111554308A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5406532A (en) * 1988-03-04 1995-04-11 Asahi Kogaku Kogyo Kabushiki Kaisha Optical system for a magneto-optical recording/reproducing apparatus
JP3104400B2 (ja) * 1992-04-27 2000-10-30 ソニー株式会社 オーディオ信号符号化装置及び方法
JP3085606B2 (ja) * 1992-07-16 2000-09-11 ヤマハ株式会社 ディジタルデータの誤り補正方法
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
JP3123286B2 (ja) * 1993-02-18 2001-01-09 ソニー株式会社 ディジタル信号処理装置又は方法、及び記録媒体
SE501340C2 (sv) 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
US5502713A (en) * 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
JP3404837B2 (ja) * 1993-12-07 2003-05-12 ソニー株式会社 多層符号化装置
CA2142391C (en) 1994-03-14 2001-05-29 Juin-Hwey Chen Computational complexity reduction during frame erasure or packet loss
JP3713288B2 (ja) 1994-04-01 2005-11-09 株式会社東芝 音声復号装置
JP3416331B2 (ja) 1995-04-28 2003-06-16 松下電器産業株式会社 音声復号化装置
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
JP3583550B2 (ja) 1996-07-01 2004-11-04 松下電器産業株式会社 補間装置
WO1998045951A1 (en) * 1997-04-07 1998-10-15 Koninklijke Philips Electronics N.V. Speech transmission system
US6810377B1 (en) 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6373842B1 (en) * 1998-11-19 2002-04-16 Nortel Networks Limited Unidirectional streaming services in wireless systems
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6418408B1 (en) 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150014607A (ko) * 2013-07-30 2015-02-09 삼성전자주식회사 통신 시스템에서 오류 은닉 방법 및 장치

Also Published As

Publication number Publication date
JP2004522178A (ja) 2004-07-22
BR0114827A (pt) 2004-06-15
ATE348385T1 (de) 2007-01-15
WO2002035520A3 (en) 2002-07-04
ES2276839T3 (es) 2007-07-01
KR100581413B1 (ko) 2006-05-23
EP1332493A2 (en) 2003-08-06
CN1291374C (zh) 2006-12-20
JP2007065679A (ja) 2007-03-15
AU2002210799B2 (en) 2005-06-23
AU1079902A (en) 2002-05-06
WO2002035520A2 (en) 2002-05-02
ZA200302778B (en) 2004-02-27
CN1535461A (zh) 2004-10-06
US20070239462A1 (en) 2007-10-11
BRPI0114827B1 (pt) 2018-09-11
CA2425034A1 (en) 2002-05-02
US7529673B2 (en) 2009-05-05
DE60125219T2 (de) 2007-03-29
US20020091523A1 (en) 2002-07-11
US7031926B2 (en) 2006-04-18
PT1332493E (pt) 2007-02-28
DE60125219D1 (de) 2007-01-25
EP1332493B1 (en) 2006-12-13

Similar Documents

Publication Publication Date Title
KR100581413B1 (ko) 음성 복호기에서 프레임 오류 은폐를 위한 개선된스펙트럼 매개변수 대체
TWI484479B (zh) 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法
US8825477B2 (en) Systems, methods, and apparatus for frame erasure recovery
JP4313570B2 (ja) 音声復号における音声フレームのエラー隠蔽のためのシステム
US6931373B1 (en) Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US6636829B1 (en) Speech communication system and method for handling lost frames
EP2535893B1 (en) Device and method for lost frame concealment
US7983906B2 (en) Adaptive voice mode extension for a voice activity detector
US6996523B1 (en) Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US7231348B1 (en) Tone detection algorithm for a voice activity detector
JP6626123B2 (ja) オーディオ信号を符号化するためのオーディオエンコーダー及び方法
AU2002210799B8 (en) Improved spectral parameter substitution for the frame error concealment in a speech decoder
US20040138878A1 (en) Method for estimating a codec parameter
AU2002210799A1 (en) Improved spectral parameter substitution for the frame error concealment in a speech decoder
Mertz et al. Voicing controlled frame loss concealment for adaptive multi-rate (AMR) speech frames in voice-over-IP.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
O035 Opposition [patent]: request for opposition
O074 Maintenance of registration after opposition [patent]: final registration of opposition
O132 Decision on opposition [patent]
FPAY Annual fee payment

Payment date: 20130419

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140422

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150416

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160419

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170420

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180417

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20190417

Year of fee payment: 14