KR20040072658A - 스피치 신호의 효과적인 코딩을 위한 신호 변조 방법 - Google Patents

스피치 신호의 효과적인 코딩을 위한 신호 변조 방법 Download PDF

Info

Publication number
KR20040072658A
KR20040072658A KR10-2004-7009260A KR20047009260A KR20040072658A KR 20040072658 A KR20040072658 A KR 20040072658A KR 20047009260 A KR20047009260 A KR 20047009260A KR 20040072658 A KR20040072658 A KR 20040072658A
Authority
KR
South Korea
Prior art keywords
signal
frame
sound signal
pitch
pitch pulse
Prior art date
Application number
KR10-2004-7009260A
Other languages
English (en)
Inventor
태미미코
제리넥밀란
라플람끌로드
루오필라베사
Original Assignee
보이세지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 보이세지 코포레이션 filed Critical 보이세지 코포레이션
Publication of KR20040072658A publication Critical patent/KR20040072658A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

사운드 신호를 디지털 방식으로 인코딩하기 위해 신호 변조를 이용하는 기술에서 장기간 예측(long term prediction)을 특징짓는 장기간 예측 지연 파라미터를 결정하기 위하여, 사운드 신호가 일련의 연속된 프레임으로 분할되고, 이전 프레임 내의 사운드 신호의 특징이 검출되고, 현재 프레임 내의 사운드 신호의 대응 특징이 검출되고, 장기간 예측을 이용하여, 이전 프레임의 신호 특징을 현재 프레임의 대응 신호 특징에 맵핑시켜, 현재 프레임에 대한 장기간 예측 지연 파라미터가 결정된다. 사운드 신호를 디지털 방식으로 인코딩하기 위한 기술에 구현하기 위한 신호 변조 방법에서, 사운드 신호가 일련의 연속된 프레임으로 분할되고, 사운드 신호의 각 프레임은 다수의 신호 세그먼트로 구획되고, 프레임의 신호 세그먼트의 적어도 일부가 워핑(warping)되고, 워핑된 신호 세그먼트는 프레임 내부로 제한된다. 사운드 신호 내의 피치 펄스를 탐색하기 위하여, 선형 예측 분석 필터를 통해 사운드 신호를 필터링함으로써 잔여 신호가 생성되고, 가중 필터를 통해 사운드 신호를 처리함으로써 가중 사운드 신호가 생성되고, 여기서, 가중 사운드 신호는 신호 주기성을 나타내고, 가중 필터를 통해 합성된 스피치 신호를 필터링함으로써 합성된 가중 사운드 신호가 생성되고, 이전 프레임의 사운드 신호의 최종 피치 펄스가 잔여 신호로부터 검출되고, 합성된 가중 사운드 신호를 이용하여 이전 프레임의 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입이 추출되며, 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스가 검출된다.

Description

스피치 신호의 효과적인 코딩을 위한 신호 변조 방법{SIGNAL MODIFICATION METHOD FOR EFFICIENT CODING OF SPEECH SIGNALS}
화상회의, 멀티미디어 및 무선 통신과 같은 여러 애플리케이션 분야에서, 주관적인 품질과 비트 속도 사이에서 적절한 절충되는 효과적인 디지털 협대역 및 광대역 스피치 코딩 기술에 대한 요구가 증가하고 있다. 최근까지, 200-3400 Hz 범위로 제한된 통화 대역이 스피치(speech) 코딩 애플리케이션에 주로 사용되어 왔다. 그러나, 광대역 스피치 애플리케이션은 종래 통화 대역에 비해 통신시 보다 명확하고 자연스러움을 제공한다. 50-7000 Hz 범위 내의 대역이 페이스-투-페이스(face-to-face) 통신의 효과를 주는 양호한 품질을 전달하는데 충분한 것으로 알려져 있다. 일반적인 오디오 신호에 대하여, 이 대역은 허용가능한 주관적 품질을 제공하지만, 각각 20-16000 Hz 및 20-20000 Hz 범위에서 동작하는 FM 라디오 또는 CD의 품질보다는 여전히 떨어진다.
스피치 인코더는 스피치 신호를 디지털 비트 스트림으로 변조하는데, 이것은 통신 채널을 통해 전송되거나 저장 매체에 저장된다. 스피치 신호는 디지털화되는데, 즉, 대개 샘플당 16-비트로 샘플링 및 양자화된다. 스피치 인코더는 양호한 주관적 스피치 품질을 유지하면서 보다 적은 수의 비트로 디지털 샘플을 표현하는 역할을 한다. 스피치 디코더 또는 신시사이저(synthesizer)는 전송 또는 저장된 비트 스트림에 대해 동작하여, 이것을 사운드 신호로 다시 변환한다.
CELP 코딩은 주관적 품질과 비트 속도 사이에 적절한 절충을 달성하기 위한 최적의 기술 중 하나이다. 이 코딩 기술은 무선 및 유선 애플리케이션 양쪽의 몇몇 스피치 코딩 표준에 기초를 둔다. CELP 코딩에서, 샘플링된 스피치 신호는 보통 프레임이라 부르는 N개 샘플의 연속된 블록으로 처리되는데, 여기서, N은 통상적으로 10-30 ms에 대응하는 소정의 수이다. 선형 예측(LP) 필터는 매 프레임마다 계산 및 전송된다. LP 필터의 계산은 통상적으로 미리보기(look ahead), 즉, 후속 프레임으로부터 5-10 ms 스피치 세그먼트(speech segment)를 필요로 한다. N-샘플 프레임은 서브프레임이라 부르는 보다 작은 블록으로 분할된다. 대개, 서브프레임의 수는 3개 또는 4개로, 4-10 ms 서브프레임을 발생시킨다. 각 서브프레임에서, 여기 신호(excitation signal)는 대개 2개의 성분, 즉, 과거 여기(past excitation) 및 혁신적인 고정-코드북 여기(fixed-codebook excitation)로부터 획득된다. 과거 여기로부터 형성된 성분은 종종 적응형 코드북(adaptive codebook) 또는 피치(pitch)여기로 언급된다. 여기 신호를 특징짓는 파라미터는 코딩되어 디코더로 전송되는데, 여기서, 재구성된 여기 신호가 LP 필터의 입력으로 사용된다.
종래의 CELP 코딩에서는, 과거 여기를 현재에 맵핑(mapping)하기 위한 장기간 예측(long term prediction)이 서브프레임 기반으로 대개 수행된다. 장기간 예측은 대개 매 서브프레임에 대해 계산 및 코딩되어 디코더로 전송되는 지연 파라미터 및 피치 이득에 의해 특징된다. 낮은 비트 속도에서, 이들 파라미터는 가용한 비트 예산의 실질적인 부분을 소비한다. 다음의 참조문헌 [1]-[7]의 신호 변조 기술은 코딩될 신호를 조정함으로써 낮은 비트 속도에서의 장기간 예측의 성능을 향상시킨다.
이것은 장기간 예측 지연을 맞추어 프레임당 오직 하나의 지연 파라미터를 전송할 수 있도록, 스피치 신호에서의 피치 사이클의 발생을 적응시킴으로써 이루어진다. 신호 변조는 변조된 스피치 신호와 본래의 스피치 신호 사이의 차를 들리지 않게 렌더링할 수 있다는 전제에 기반한다. 신호 변조를 활용하는 CELP 코더는 종종 일반화된 분석-합성(analysis-by-synthesis) 또는 RCELP(relaxed CELP) 코더로 언급된다.
신호 변조 기술은 신호의 피치를 소정의 지연 윤곽선(delay contour)으로 조정한다. 그리고 나서, 장기간 예측은 이 지연 윤곽선을 이용하여 이득 파라미터만큼 스케일링하여 과거 여기 신호를 현재 서브프레임에 맵핑시킨다. 지연 윤곽선은 2개의 개방-루프 피치 추정치(open-loop pitch estimates), 즉, 이전 프레임에서 획득된 제1 추정치와 현재 프레임에서 획득된 제2 추정치 사이를 보간(interpolating)함으로써 바로 획득된다. 보간은 프레임의 매 시간 인스턴트에 대해 지연값을 제공한다. 지연 윤곽선이 이용가능해진 후에, 현재 코딩되는 서브프레임에서의 피치는 워핑(warping), 즉, 신호의 시간 스케일을 변화시킴으로써, 이 의사(artificial) 윤곽선을 뒤따르도록 조정된다.
다음의 참조문헌 [1], [4], [5]의 불연속 워핑(discontinuous warping)에서, 신호 세그먼트는 세그먼트 길이를 변경하지 않고 시간에 맞게 시프트된다. 불연속 워핑은 결과로서 생성되는 겹쳐지거나 또는 분실한 신호 부분을 처리하기 위한 절차가 요구된다.
다음의 참조문헌 [2], [3], [6], [7]의 연속 워핑은 신호 세그먼트를 축소하거나 또는 확장한다.
이것은 신호 세그먼트에 대한 시간 연속 근사(time continuous approximation)를 이용하여, 이를 지연 윤곽선에 기반하여 결정된 동일하지 않은 샘플링 간격을 갖는 요구된 길이로 재샘플링하여 이루어진다. 이러한 동작들의 아티팩트(artifacts)을 줄이기 위해, 시간 스케일에서 허용된 변화가 작게 유지된다. 또한, 워핑은 통상적으로 LP 잔여 신호(residual signal) 또는 가중 스피치 신호(weighted speech signal)를 이용하여 이루어져, 결과로서 생성되는 왜곡을 감소시킨다. 스피치 신호 대신에 이러한 신호를 사용하는 것은 또한 그들 사이에서 피치 펄스와 저전력 영역의 검출을 용이하게 하고, 이에 따라, 워핑에 대한 신호 세그먼트의 결정을 용이하게 한다. 실제 변조된 스피치 신호는 역 필터링에 의해 생성된다.
현재 서브프레임에 대한 신호 변조가 이루어진 후에, 적응형 코드북 여기가 소정의 지연 윤곽선을 이용하여 생성되는 것을 제외하고, 종래의 방식으로 코딩이 진행될 수 있다. 본래의 동일한 신호 변조 기술이 협대역 및 광대역 CELP 코딩 모두에 사용될 수 있다.
신호 변조 기술은, 예를 들면, 다음의 참조문헌 [8]에 따라 시뉴소이드 코딩(sinusoidal coding) 및 파형 보간 코딩과 같은 다른 형태의 스피치 코딩에도 적용될 수 있다.
본 발명은 일반적으로 통신 시스템에서의 사운드(sound) 신호의 인코딩 및 디코딩에 관한 것으로, 특히, 이것으로 제한되지는 않지만, 코드-여기 선형 예측(code-excited linear prediction : CELP) 코딩에 적용가능한 신호 변조 기술에 관한 것이다.
도1은 하나의 프레임에 대한 최초 잔여 신호 및 변조 잔여 신호의 일례를 나타내는 도면.
도2는 본 발명에 따른 신호 변조방법의 도시적인 실시예의 기능 블록도.
도3은 스피치 인코더 및 디코더의 이용을 나타내는 스피치 통신 시스템의 도시적인 실시예의 개략 블록도.
도4는 신호 변조 방법을 이용하는 스피치 디코더의 도시적인 실시예의 개략 블록도.
도5는 피치 펄스 탐색의 도시적인 실시예의 기능 블록도.
도6은 하나의 프레임에 대한 검출된 펄스 위치 및 대응하는 피치 사이클의 도시적인 일례를 나타내는 도면.
도7은 피치의 수가 3일 때(c=3), 지연 파라미터를 결정하는 도시적인 예를 나타내는 도면.
도8은 선형 보간(얇은 선)과 비교해서 스피치 프레임상에서의 지연 보간(두꺼운 선)의 도시적인 예를 나타내는 도면.
도9는 도8의 보정 피치값이 52개 샘플일 때 지연 보간(두꺼운 선) 및 선형 보간에 따라 선택된 10개의 프레임상에서의 지연 윤곽선의 도시적인 예를 나타내는 도면.
도10은 본 발명의 도식적인 실시예에 따라 스피치 프레임을 선택딘 지연 윤곽선에 조정하는 신호 변조 방법의 기능 블록도.
도11은 결정된 최적 시프트(δ)를 이용하여 타겟 신호()를 업데이트하고, 회색 점으로 나타낸 보간값으로 신호 세그먼트(ws(k))를 대체하는 예를 나타내는 도면.
도12는 본 발명의 도시적인 실시예에 따른 속도 결정 로직의 기능 블록도.
도13은 본 발명의 도시적인 실시예에 따라 형성된 지연 윤곽선을 이용하는 스피치 디코더의 도시적인 실시예의 개략 블록도.
발명의 요약
본 발명은 사운드 신호를 디지털 방식으로 인코딩하기 위해 신호 변조를 이용하는 기술에서 장기간 예측(long term prediction)을 특징짓는 장기간 예측 지연 파라미터를 결정하기 위한 방법에 관한 것으로, 상기 방법은, 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계; 이전 프레임 내의 상기 사운드 신호의 특징을 검출하는 단계; 현재 프레임 내의 상기 사운드 신호의 대응 특징을 검출하는 단계; 및 상기 장기간 예측이 상기 이전 프레임의 신호 특징을 상기 현재 프레임의 대응 신호 특징에 맵핑시키도록, 상기 현재 프레임에 대한 상기 장기간 예측 지연 파라미터를 결정하는 단계를 포함한다.
본 발명은 사운드 신호를 디지털 방식으로 인코딩하기 위해 신호 변조를 이용하는 기술에서 장기간 예측을 특징짓는 장기간 예측 지연 파라미터를 결정하기 위한 장치에 관한 것으로, 상기 장치는, 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 분할 수단; 이전 프레임 내의 상기 사운드 신호의 특징을 검출하는 검출 수단; 현재 프레임 내의 상기 사운드 신호의 대응 특징을 검출하는 검출 수단; 및 상기 현재 프레임에 대한 장기간 예측 지연 파라미터를 결정하는 계산 수단 - 상기 장기간 예측 지연 파라미터의 계산은 상기 장기간 예측이 상기 이전 프레임의 신호 특징을 상기 현재 프레임의 대응 신호 특징에 맵핑시키도록 이루어짐 - 을 포함한다.
본 발명에 따르면, 사운드 신호를 디지털 방식으로 인코딩하기 위한 기술에 구현하기 위한 신호 변조 방법이 제공되는데, 상기 방법은, 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계; 상기 사운드 신호의 각 프레임을 다수의 신호 세그먼트로 구획하는 단계; 및 상기 프레임의 신호 세그먼트의 적어도 일부를워핑(warping)하는 단계 - 상기 워핑 단계는 상기 워핑된 신호 세그먼트를 상기 프레임 내부로 제한(constraining)하는 단계를 포함함 - 를 포함한다.
본 발명에 따르면, 사운드 신호를 디지털 방식으로 인코딩하기 위한 기술에 구현하기 위한 신호 변조 장치가 제공되는데, 상기 장치는 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 제1 분할 수단; 상기 사운드 신호의 각 프레임을 다수의 신호 세그먼트로 구획하는 제2 분할 수단; 및 상기 프레임의 신호 세그먼트의 적어도 일부에 제공되는 신호 세그먼트 워핑 수단 - 상기 워핑 수단은 상기 워핑된 신호 세그먼트를 상기 프레임 내부로 제한(constraining)하는 제한 수단을 포함함 - 을 포함한다.
본 발명은 또한 사운드 신호 내의 피치 펄스를 탐색하기 위한 방법에 관한 것으로, 상기 방법은, 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계; 각 프레임을 다수의 서브프레임으로 분할하는 단계; 선형 예측 분석 필터를 통해 상기 사운드 신호를 필터링함으로써 잔여 신호(residual signal)를 생성하는 단계; 상기 잔여 신호로부터 상기 이전 프레임의 상기 사운드 신호의 최종 피치 펄스를 검출하는 단계; 상기 잔여 신호를 이용하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입(prototype)을 추출하는 단계; 및 상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 단계를 포함한다.
본 발명은 또한 사운드 신호 내의 피치 펄스를 탐색하기 위한 장치에 관한 것으로, 상기 장치는, 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 분할 수단; 각 프레임을 다수의 서브프레임으로 분할하는 분할 수단; 상기 사운드 신호를 필터링하여 잔여 신호를 생성하기 위한 선형 예측 분석 필터링 수단; 상기 잔여 신호에 응답하여 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 검출 수단; 상기 잔여 신호에 응답하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 추출 수단; 및 상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 검출 수단을 포함한다.
또한, 본 발명에 따르면, 사운드 신호 내의 피치 펄스를 탐색하기 위한 방법이 제공되는데, 상기 방법은, 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계; 각 프레임을 다수의 서브프레임으로 분할하는 단계; 가중 필터를 통해 상기 사운드 신호를 처리함으로써 가중 사운드 신호를 생성하는 단계 - 상기 가중 사운드 신호는 신호 주기성을 나타냄 -; 상기 가중 사운드 신호로부터 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 단계; 상기 가중 사운드 신호를 이용하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 단계; 및 상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 단계를 포함한다.
또한, 본 발명에 따르면, 사운드 신호 내의 피치 펄스를 탐색하기 위한 장치가 제공되는데, 상기 장치는 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 분할 수단; 각 프레임을 다수의 서브프레임으로 분할하는 분할 수단; 가중 사운드 신호를 처리하기 위해 상기 사운드 신호를 생성하기 위한 가중 필터링 수단 -상기 가중 사운드 신호는 신호 주기성을 나타냄 -; 상기 가중 사운드 신호에 응답하여 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 검출 수단; 상기 가중 사운드 신호에 응답하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 추출 수단; 및 상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 검출 수단을 포함한다.
본 발명은 또한 사운드 신호 내의 피치 펄스를 탐색하기 위한 방법에 관한 것인데, 상기 방법은, 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계; 각 프레임을 다수의 서브프레임으로 분할하는 단계; 가중 필터를 통해 상기 사운드 신호의 이전 프레임의 최종 서브프레임 동안에 생성된 합성 스피치 신호를 필터링함으로써, 합성된 가중 사운드 신호를 생성하는 단계; 상기 합성된 가중 사운드 신호로부터 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 단계; 상기 합성된 가중 사운드 신호를 이용하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 단계; 및 상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 단계를 포함한다.
본 발명은 또한 사운드 신호 내의 피치 펄스를 탐색하기 위한 장치에 관한 것으로, 상기 장치는, 상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 분할 수단; 각 프레임을 다수의 서브프레임으로 분할하는 분할 수단; 상기 사운드 신호의 이전 프레임의 최종 서브프레임 동안에 생성된 합성 스피치 신호를 필터링하여 합성된 가중 사운드 신호를 생성하는 가중 필터링 수단; 상기 합성된 가중 사운드 신호에 응답하여 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 검출 수단; 상기 합성된 가중 사운드 신호를 이용하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 추출 수단; 및 상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 검출 수단을 포함한다.
또한, 본 발명에 따르면, 연속된 프레임으로 분할되어, 사운드 신호를 디지털 방식으로 인코딩하기 위해 신호 변조를 사용하는 기술을 이용하여 이전에 인코딩된 상기 사운드 신호의 디코딩 동안에 적응형 코드북 여기(adaptive codebook excitation)를 형성하기 위한 방법이 제공되는데, 상기 방법은, 각 프레임에 대하여, 상기 디지털 사운드 신호 인코딩 기술에서 장기간 예측을 특징짓는 장기간 예측 지연 파라미터를 수신하는 단계; 현재 프레임 동안에 수신된 장기간 예측 지연 파라미터 및 이전 프레임 동안에 수신된 장기간 예측 지연 파라미터를 이용하여 지연 윤곽선을 복구하는 단계 - 여기서, 상기 지연 윤곽선은 장기간 예측을 이용하여 상기 이전 프레임의 신호 특징을 상기 현재 프레임의 대응 신호 특징에 맵핑시킴 -; 및 상기 지연 윤곽선에 응답하여 적응형 코드북 내에 상기 적응형 코드북 여기를 형성하는 단계를 포함한다.
또한, 본 발명에 따르면, 연속된 프레임으로 분할되어, 사운드 신호를 디지털 방식으로 인코딩하기 위해 신호 변조를 사용하는 기술을 이용하여 이전에 인코딩된 상기 사운드 신호의 디코딩 동안에 적응형 코드북 여기를 형성하기 위한 장치가 제공되는데, 상기 장치는, 각 프레임의 장기간 예측 지연 파라미터를 수신하는 수신 수단 - 여기서, 상기 장기간 예측 지연 파라미터는 상기 디지털 사운드 신호 인코딩 기술에서 장기간 예측을 특징지음 -; 현재 프레임 동안에 수신된 장기간 예측 지연 파라미터 및 이전 프레임 동안에 수신된 장기간 예측 지연 파라미터에 응답하여 지연 윤곽선을 복구하는 계산 수단 - 여기서, 상기 지연 윤곽선은 장기간 예측을 이용하여 상기 이전 프레임의 신호 특징을 상기 현재 프레임의 대응 신호 특징에 맵핑시킴 -; 및 상기 지연 윤곽선에 응답하여 상기 적응형 코드북 여기를 형성하기 위한 적응형 코드북을 포함한다.
본 발명의 상기 및 그 밖의 목적, 장점 및 특징은 첨부된 도면을 참조한 다음의 상세한 설명의 예시된 실시예에 의해 더욱 명백해질 것이다.
본 발명의 실시예들이 스피치 신호 및 3GPP AMR Wideband Speech Codec AMR-WB Standard(ITU-T G.722.2)와 관련하여 설명되지만, 본 발명의 개념은 다른 형태의 사운드 신호 뿐만 아니라 다른 스피치 및 오디오 코더에 적용될 수 있다는 것을 알아야 한다.
도1은 1개 프래임 내의 변조 잔여 신호(modifide residual signal)(12)의 일례를 나타낸다. 도1에 도시한 바와 같이, 변조 잔여 신호(12)에서의 시간 시프트(time shift)는, 시각(time instant)(tn-1,tn)에서 발생하는 프레임 경계에서 본래의 미변조 잔여 신호(11)와 시간 동기(time synchronous)되도록 제한된다. 여기서, n은 현재 프레임의 인덱스로 참조된다.
구체적으로, 시간 시프트는 현재 프레임상에 지연 파라미터를 보간하기 위해 채용된 지연 윤곽선(delay contour)에 의해 암시적으로 제어된다. 지연 파라미터 및 윤곽선은 전술한 프레임 경계에서의 시간 정렬 제한(time alignment constrains)을 고려하여 결정된다. 선형 보간은 시간 정렬을 강제하기 위해 이용되고, 취득되는 지연 파라미터는 몇몇 프레임상에서 발진하는 경향이 있다. 이는 그 피치가 인공 발진 지연 윤곽선(artificial oscillating delay contour)을 따르는 변조 신호에 불필요한 아티팩트(annoying artifact)를 유발시키곤 한다. 지연 파라미터에 대해 바람직하게 선택된 비선형 보간 기술(nonlinear interpolation)의 이용은 이들 발진을 실질적으로 감소시킨다.
도2는 본 발명에 따른 신호 변조 방법의 실시예를 나타내는 기능 블록도이다.
이 방법은, "피치 사이클 탐색(pitch cycle serch)"에서, 각각의 피치 펄스(pitch pulses) 및 피치 사이클(pitch cycle)을 검출함으로써 개시된다. 블록(101) 탐색은 프레임상에서 보간된 개방-루프 피치 추정치(open-loop estimate)를 이용한다. 검출된 피치 펄스에 기반하여, 프레임은 각각 하나의 피치 펄스를 포함하는 피치 사이클 세그먼트로 분할되어, 프레임 경계(tn-1,tn) 내측을 제한한다.
"지연 커브 선택" 블록(103)의 기능은 장기간 예측자(long term predictor)의 지연 파라미터를 결정하고, 이 지연 파라미터를 프레임상으로 보간하기 위한 지연 윤곽선을 형성한다. 지연 파라미터 및 윤곽선은 프레임 경계(tn-1,tn)에서의 시간 동기 제한(time synchrony constrains)을 고려하여 결정된다. 현재 프레임에 대해 신호 변조가 가능하다면, 블록(103)에서 결정된 지연 파라미터는 코드화되어 디코더로 송신된다.
실제 신호 변조 절차는 "피치 동기 신호 변조" 블록(105)에서 수행된다. 먼저, 블록(105)은 블록(103)에서 결정된 지연 윤곽선에 기반하여 타겟 신호를 형성하고, 각각의 피치 사이클 세그먼트를 타겟 신호로 순차적으로 매칭(matching)한다. 이어서, 피치 사이클 세그먼트는 이 타겟 신호와의 상관성(correlation)을 최대화하기 위해 하나씩 시프트된다. 저 레벨에서의 복잡성(complexity)을 유지하기위해, 최적의 시프트 탐색 및 세그먼트 시프트 동안 어떠한 연속 시간 워핑(continuous time warping)도 적용되지 않는다.
본 명세서에 기재된 바와 같은 신호 변조 방법의 실시예는 순수한 유성 스피치(voiced speech) 프레임상에서만 통상적으로 인에이블된다. 즉, 유성 온셋(voiced onset) 등의 변이 프레임(transition frame)은 아티팩트를 유발할 위험이 높기 때문에 변조되지 않는다. 순수한 유성 프레임에서, 피치 사이클은 비교적 천천히 변화하고, 따라서 신호를 장기간 예측 모델에 적응시키기 위해서는 작은 시프트만으로도 충분하다. 시프트가 작기 때문에, 주의 깊은 신호 조정이 이루어지고, 아티팩트의 유발 가능성이 최소화된다.
이 신호 변조 방법은 순수 유성 세그먼트에 대해 효과적인 분류자(classifier)를 구성하고, 따라서 스피치 신호의 소스-제어식 코딩에 이용되는 비율 결정 메커니즘(rate determination mechanism)을 구성한다. 구체적으로, 이들 로직 블록(102,104,106)은 블록(101,103,105)에서 수행되는 동작의 성공을 모니터링한다.
블록(102)이 블록(101)에서 수행되는 동작이 성공인 것을 검출하면, 이 신호 변조 방법은 블록(103)에서 지속된다. 이 블록(102)이 블록(101)에서 수행되는 동작이 실패인 것을 검출하면, 신호 변조 절차는 종료되고, 본래의 스피치 프레임은 코딩을 위해 원본 그대로 보존된다(일반 모드(신호 변조 없음)에 대응하는 블록(108) 참조).
블록(104)이 블록(103)에서 수행되는 동작이 성공인 것을 검출하면, 이 신호변조 방법은 블록(105)에서 지속된다. 반대로, 이 블록(104)이 블록(103)에서 수행되는 동작이 실패인 것을 검출하면, 신호 변조 절차는 종료되고, 본래의 스피치 프레임은 코딩을 위해 원본 그래로 보존된다(일반 모드(신호 변조 없음)에 대응하는 블록(108) 참조).
블록(106)이 블록(105)에서 수행되는 동작이 성공인 것을 검출하면, 낮은 비트 속도 모드(low bit rate mode)의 신호 변조가 이용된다. 반대로, 이 블록(106)이 블록(105)에서 수행되는 동작이 실패인 것을 검출하면, 신호 변조 절차는 종료되고, 본래의 스피치 프레임은 코딩을 위해 원본 그래로 보존된다(일반 모드(신호 변조 없음)에 대응하는 블록(108) 참조). 블록(101~108)의 동작은 본 명세서에서 추후에 더욱 상세히 설명하도록 한다.
도3은 스피치 인코더 및 디코더의 이용을 설명하는 스프치 통신 시스템의 일례를 나타내는 개략적인 블록도이다. 도3의 스피치 통신 시스템은 통신 채널(205)을 통해 스피치 신호의 전송(transmission) 및 재현(reproduction)을 지원한다. 이 통신 시스템은, 예를 들어 와이어, 광학적 링크 또는 광섬유 링크를 포함할 수도 있지만, 통신 채널(205)은 적어도 무선 주파수 링크(radio frequency link)의 일부를 통상적으로 포함한다. 무선 주파수 링크는 셀룰러 통신에서 발견되는 것과 같은 공유 대역 자원(shared bandwidth resource)을 필요로 하는 다중 동시 스피치 통신(multiple simmultaneous speech communication)을 지원하기도 한다. 도시하지는 않았지만, 통신 채널(205)은 추후 재생(playback)을 위해 인코딩된 스피치 신호를 기록 및 저장하는 저장 장치(storage device)로 대체될 수도 있다.
송신측에서, 마이크로폰(201)은 아날로그-디지탈 컨버터(A/D 컨버터)(202)로 공급되는 아날로그 스피치 신호(210)를 생성한다. A/D 컨버터(202)의 기능은 아날로그 스피치 신호(210)를 디지탈 스피치 신호(211)로 변환한다. 스피치 인코더(203)는 디지탈 스피치 신호(211)를 인코딩하여, 2진수 형태로 코딩되어 채널인코더(204)로 배신되는 코딩 파라미터 세트를 생성한다. 채널 인코더(204)는 통신 채널(205)을 통해 코딩 파라미터를 비트스트림(213)으로 송신하기 전에 2진 코딩 파라미터에 리던던시를 부여한다.
수신측에서, 채널 디코더(206)에는, 송신에 발생되는 채널 에러 검출 및 보정하기 위해, 수신된 비트스트림(214)으로부터 전술한 리던던시 부여(redundant) 2진 코딩 파라미터가 공급된다. 합성 디지털 스피치 신호(synthesized speech signal)(216)를 생성하기 위해, 스피치 디코더(207)는 채널 디코더(206)로부터의 채널-에러-보정 비트스트림(channel-error-corrected bitstream)을 다시 코딩 파라미터의 세트로 변환한다. 스피치 디코더(207)에 의해 재구성된 합성 스피치 신호(216)는 디지탈-아날로그 컨버터(D/A 컨버터)(208)를 통해 아날로그 스피치 신호(217)로 변환되고, 확성기(loudspeaker)를 통해 재생된다.
도4는 신호 변조 기능을 내장한 스피치 인코더(203)(도3)의 실시예에 의해 수행되는 동작을 나타내는 개략적인 블록도이다. 본 명세서에서는 신호 변조 기능의 새로운 구현을 도4 내의 블록(603)에서 나타낸다. 스피치 인코더(203)에 의해 수행되는 다른 동작은 당업자에게 잘 알려져 있으며, 예를 들어, 본 명세서에서는 참조로서 포함되어 있는 간행물[10]에 기재되어 있다.
[10] 3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Function", 3GPP Technical Specigication).
다른 언급이 없는 경우, 본 발명의 도시적인 실시예 및 예에서의 스피치 코딩 및 디코딩 동작의 구현은 AMR 광대역 스피치 코덱(AMR-WB) 표준과 일치된다.
도4에 도시한 바와 같은 스피치 인코더(203)는 디지탈화된 스피치 신호를 하나 또는 복수의 코딩 모드를 이용하여 인코딩한다. 복수의 코딩 모드가 이용되고 신호 변조 기능이 이들 모드 중 하나의 모드에서 디스에이블되는 경우, 이 특정모드는 당업자에게 잘 알려진 기존의 표준(well established standard)을 따라 동작될 것이다.
도4에 도시하지는 않았지만, 스피치 신호는 16kHz의 속도로 샘플링되고, 각각의 스피치 신호 샘플은 디지탈화된다. 이어서, 디지탈 스피치 신호는 소정 길이의 연속적인 프레임으로 분할되고, 이들 프레임 각각은 소정 수의 연속적인 서브프레임(subframe)으로 분할된다. 디지탈 스피치 신호는 AMR-WB 표준에 의해 지시되는 바와 같은 프로세스를 더 받게 된다. 이 프로세스는 하이-패스 필터링(high-pass filtering), 필터 P(z)=1-0.68z-1를 이용하는 프리-엠파시스 필터링(pre-emphasis filtering)(이하, 고역강조 필터링이라고 함), 및 16kHz의 샘플링 속도로부터 12.8kHz의 샘플링 속도로의 다운-샘플링(down-sampling)을 포함한다. 도4의 그 다음 동작은, 입력 스피치 신호(s(t))가 선행처리(preprocess)되고 12.8kHz의 샘플링 속도로 다운-샘플링된다고 가정할 수 있다.
스피치 인코더(203)는 입력에 응답하는 LP(Linear Predicion:선형 예측) 분석 및 양자화 모듈(601)을 포함하고, 선행처리된 디지탈 스피치 신호(s(t))(617)가 컴퓨팅되어, LP 필터(1/A(z))의 파라미터 a0, a1, a2,..., anA를 양자화하며, 여기서 nA는 필터의 차수이며, A(z)= a0+ a1z-1+ a2z-2+ … + anAz-nA이다. 이들 양자화된 LP 필터 파라미터의 2진 표현(616)은 멀티플렉서(614)로 공급되고, 비트스트림(615)으로 순차적으로 멀티플렉싱된다. 비-양자화 및 양자화 LP 필터 파라미터는 모든 서브프레임에 대해 대응하는 LP 필터 파라미터를 취득하기 위해 보간될 수 있다.
스피치 인코더(203)는, LP 분석 및 양자화 모듈(601)로부터의 LP 필터 파라미터(618)에 응답하여 현재 프레임의 개방-루프 피치 추정치를 컴퓨팅하기 위해 피치 추정기(pitch estimator)(602)를 더 포함한다. 이들 개방-루프 피치 추정치는 신호 변조 모듈(603)에서 이용되는 프레임상에서 보간된다.
LP 분석 및 양자화 모듈(601)과 피치 추정기(602)에서 수행되는 동작은 전술한 AMR-WB 표준에 따라 구현될 수 있다.
도4의 신호 변조 모듈(603)은, 스피치 신호를 정해진 지연 윤곽선(d(t))으로 조절하기 위한 적응형 코드북 여기 신호(adaptive codebook excitation signal)의 폐쇄-루프(closed-loop) 피치 탐색 이전에 신호 변조 동작을 수행한다. 도시적인 실시예에서, 지연 윤곽선(d(t))은 모든 프레임 샘플에 대하여 장기간 예측 지연을 정의한다. 이 구성에 의해, 지연 윤곽선은 프레임 경계에서의 지연 윤곽선의 값과동일한 지연 파라미터(620) dn=d(tn) 및 그 이전의 값 dn-1=d(tn-1)에 의해 프레임 t∈(tn-1,tn)상에서 완전히 특징지어 진다. 지연 파라미터(620)는 신호 변조 동작의 일부분으로서 결정되고, 코딩되고, 이어서 멀티플렉서(614)로 공급되고, 여기에서 비트스트림(615)으로 멀티플렉싱된다.
프레임의 모든 샘플에 대하여 장기간 예측 지연 파라미터를 정의하는 지연 윤곽선(d(t))은 적응형 코드북(adaptive codebook)(607)으로 공급된다. 적응형 코드북(607)은, 지연 윤곽선(d(t))를 이용하여 ub(t)=u(t-d(t))와 같은 여기(excitation)(u(t))로부터의 현재 서브프레임의 적응형 코드북 여기(ub(t))를 형성하기 위해 지연 윤곽선(d(t))에 응답한다. 따라서, 지연 윤곽선은 여기 신호(u(t-d(t))의 과거 샘플(past sample)을 적응형 코드북 여기(ub(t)) 내의 현재 샘플로 맵핑한다.
또한, 신호 변조 절차는 고정-코드북 여기(fixed-codebook excitation)(uc(t))의 폐쇄-루프 탐색을 위한 변조 타겟 신호(621)을 구성하는데 이용되는 변조 잔여 신호()도 생성한다. 변조 잔여 신호()는 LP 잔여 신호의 피치 사이클 세그먼트를 워핑(warping)함으로써 신호 변조 모듈(603)에서 취득되고, 모듈(604) 내의 변조 타겟 신호의 컴퓨팅에 공급된다. 이어서, 필터(1/A(z))에 의한 변조 잔여 신호의 LP 합성 필터링은 모듈(604)에서 변조 스피치 신호를 산출한다. 고정-코드북 여기 탐색의 변조 타겟 신호(621)는 AMR-WB 표준 동작에 따라모듈(604)에서 형성되지만, 본래의 스피치 신호는 그 변조된 버젼으로 대체된다.
적응형 코드북 여기(ub(t)) 및 변조 타겟 신호(621)가 현재의 서브프레임에 대해 취득된 후, 종래의 수단을 이용하여 인코딩이 더 수행될 수 있다.
폐쇄-루프 고정-코드북 여기 탐색의 기능은 현재의 서브프레임에 대한 고정-코드북 여기 신호(uc(t))를 결정한다. 폐쇄-루프 고정-코드북 탐색 동작을 개략적으로 도시하기 위해, 고정-코드북 여기(uc(t))는 증폭기(610)를 통해 크기 조종(scaled)된 이득이다. 동일한 방식으로, 적응형 코드북 여기(ub(t))는 증폭기(609)를 통해 크기 조종된 이득이다. 크기 조정된 적응 및 고정-코드북 여기(ub(t),uc(t))의 이득은 가산기(adder)(611)를 통해 서로 가산되어 총 여기 신호(total excitation signal)(u(t))를 형성한다. 이 총 여기 신호(u(t))는 LP 합성 필터(1/A(z))(612)를 통해 처리되어, 에러 신호(626)를 생성하기 위해 가산기(605)를 통해 변조 타겟 신호(621)로부터 감산되는 합성 스피치 신호(625)를 생성한다. 에러 가중(error weighting) 및 최소화 모듈(606)은 종래 방법을 따라 서브프레임 마다 증폭기(609,610)에 대한 이득 파라미터를 계산하기 위해 에러 신호(626)에 응답한다. 에러 가중 및 최소화 모듈(606)은 에러 신호(626)에 응답하여 종래 방법을 따라 고정 코드북(608)으로의 입력(627)을 더 계산한다. 양자화된 이득 파라미터(622,623) 및 고정-코드북 여기 신호(uc(t))를 특징짓는 파라미터(624)는 멀티플렉서(614)로 공급되어 비트스트림(615)으로 멀티플렉싱된다. 전술한 절차는신호 변조가 인에이블되거나 디스에이블될 때 모두 동일한 방식으로 수행된다.
신호변호 기능이 디스에이블되면, 적응형 여기 코드북(607)은 종래 방법을 따라 동작하는 것을 알아야 한다. 이 경우, 각각의 지연 파라미터(separate delay parameter)는 개방-루프 피치 추정치(619)를 정제(refine)하기 위해 적응형 코드북(607) 내의 서브프레임 마다 탐색된다. 이들 지연 파라미터는 코딩되고, 멀티플렉서(614)로 공급되고, 비트스트림(615)으로 멀티플렉싱된다. 또한, 고정-코드북 탐색에 대한 타겟 신호(621)는 종래 방법을 따라 형성된다.
도13에 도시한 바와 같은 스피치 디코더는 신호 변조가 인에이블일 때를 제외하고 종래 방법을 따라 동작한다. 디스에이블 및 인에이블된 신호 변조 동작은 적응형 코드북 여기 신호(ub(t))가 형성되는 방식만이 주로 상이하다. 양자의 동작 모드에서, 디코더는 2진 표혐으로 수신된 파라미터를 디코딩한다. 통상적으로, 수신 파라미터는 여기, 이득, 지연 및 LP 파라미터를 포함한다. 디코딩된 여기 파라미터는 모든 서브프레임에 대하여 고정-코드북 여기 신호(uc(t))를 형성하도록 모듈(701)에서 이용된다. 이 신호는 증폭기(702)를 통해 가산기(703)로 공급된다. 동일하게, 현재 프레임의 적응형 코드북 여기 신호(ub(t))는 증폭기(704)를 통해 가산기(703)로 공급된다. 가산기(703)에서, 이득-크기 조종된(gain-scaled) 적응 및 고정-코드북 여기 신호((ub(t),uc(t))는 서로 합산되어 현재 서브프레임에 대한 총여기 신호(u(t))를 형성한다. 이 여기 신호(u(t))는 현재 서브프레임에 대하여 모듈(707) 내에 보간되는 LP 파라미터를 이용하는 LP 합성 필터(1/A(z))를 통해 처리되어 합성 스피치 신호()를 생성한다.
신호 변조가 인에이블 되면, 스피치 디코더는, 인코더에서와 같이, 수신된 지연 파라미터(dn) 및 그 이전에 수신된 값(dn-1)을 이용하여 모듈(705) 내의 지연 윤곽선(d(t))을 복구한다. 이 지연 윤곽선(d(t))은 현재 프레임의 매 시각마다 장기간 예측 지연 파라미터를 정의한다. 적응형 코드북 여기 ub(t)=u(t-d(t))는, 지연 윤곽선(d(t))를 이용하는 인코더에서와 같이, 현재의 서브프레임에 대한 과거의 여기로부터 형성된다.
나머지 설명은 모드 결정 메커니즘의 일부로서 신호 변조 절차(603)의 동작 뿐만 아니라 그 사용에 대한 것이다.
피치 펄스 및 피치 사이클 세그먼트의 탐색
이 신호 변조 방법은 피치 및 프레임을 동기하여 동작시키고, 각각의 검출된 피치 사이클 세그먼트를 개별적으로 시프트하지만, 프레임 경계에서의 시프트는 제한한다. 이는 현재 프레임에 대한 피치 펄스와 대응하는 피치 사이클 세그먼트를 검출하기 위한 수단을 필요로 한다. 신호 변조 방법의 도시적인 실시예에서, 피치 사이클 세그먼트는 도5에 따라 탐색되는 검출된 피치 펄스에 기반하여 결정된다.
피치 펄스 탐색은 잔여 신호(r(t)), 가중 스피치 신호(weighted speech signal)(w(t)) 및/또는 가중 합성 스피치 신호()상에서 동작될 수 있다. 잔여 신호(r(t))는 서브프레임에 대해 보간되는 LP 필터(A(z))에 의한 스피치신호(s(t))의 필터링에 의해 취득된다. 도시적인 실시예에서, LP 필터(A(z))의 차수는 16이다. 가중 스피치 신호(w(t))는 이하의 가중 필터를 통해 스피치 신호(s(t))를 처리함으로써 취득된다.
여기서, 계수= 0.92이고,= 0.68 이다. 가중 스피치 신호(w(t))는, 등식(1)에 의해 정의되는 가중 필터가 스피치 신호(s(t)) 내의 포르먼트(formant) 구조를 감쇠시키고, 사인곡선 신호 세그먼트(sinusoidal signal segment)상에서 주기를 보존하기 때문에 개방-루프 피치 추정(모듈602)에 이용되곤 한다. 이는 가능한 신호 주기가 가중 신호에서 분명해지기 때문에 피치 펄스 탐색을 용이하게 한다. 가중 스피치 신호(w(t))는 현재 프레임 내의 최종 피치 펄스를 탐색하기 위해 미리보기(look ahead)에도 필요하다는 것을 알아야 한다. 이는 미리보기 부분상의 현재 프레임의 최종 서브프레임 내에 형성된 등식(1)의 가중 필터를 이용하여 수행될 수 있다.
도5의 피치 펄스 탐색 절차는 잔여 신호(r(t))로부터의 이전 프레임의 최종 피치 펄스를 검출함으로써 블록(301)에서 개시된다. 통상적으로, 피치 펄스는 대략 p(tn-1)의 길이를 갖는 피치 사이클로 로우-패스 필터링된 잔여 신호의 최대 절대값이다. 5개 샘플 길이를 갖는 정규화된 해밍 윈도우(nomalized Hamming window) H5(z)= (0.08z-2+ 0.54z-1+ 1 + 0.54z + 0.08z2)/2.24 가 이전 프레임의 최종 피치펄스의 검출을 용이하게 하기 위해 로우-패스 필터링에 이용된다. 이 피치 펄스 위치는 T0으로 표기된다. 본 발명에 따른 신호 변조 방법의 도시적인 실시예는 이 피치 펄스에 대하여 정확한 위치를 필요로하지 않지만, 피치 사이클에서 고 에너지 세그먼트의 대략적인 위치 추정을 필요로 한다.
T0에서의 이전의 프레임 내의 최종 피치 펄스를 검출한 후, 길이 2l + 1 샘플의 피치 펄스 프로토타입(prototype)이, 예를 들어, 도5의 블록(302)에서, 등식(2)과 같은 대략적인 위치 추정치 주변에서 추출된다.
이 피치 펄스 프로토타입은 실질적으로 현재 프레임 내의 피치 펄스를 검출하는데 이용된다.
합성 가중 스피치 신호()(또는 가중 스피치 신호(w(t)))는 잔여 신호(r(t))를 대신하여 펄스 프로토타입에 이용될 수 있다. 이는 신호의 주기 구조가 가중 스피치 신호 내에 보다 잘 보존되기 때문에 피치 펄스 탐색을 용이하게 한다. 합성 가중 스피치 신호()는 이전 프레임의 최종 서브프레임의 합성 스피치 신호()를 등식(1)의 가중 필터(W(z))에 의해 필터링함으로써 취득될 수 있다. 피치 펄스 프로토타입이 미리 합성된 프레임의 단부를 지나 연장되면, 현재 프레임의 가중 스피치 신호(w(t))가 이 초과 부분에 이용된다. 피치 펄스 프로토타입은, 미리 합성된 스피치 프레임이 이미 절적한 피치 사이클을 보유하고 있다면, 가중스피치 신호(w(t))의 피치 펄스와 높은 상관성을 갖는다. 따라서, 프로토타입의 추출시 합성 스피치의 이용은, 이하에 보다 상세히 설명되는 바와 같이, 현재 프레임 내의 코딩 및 적당한 코딩 모드의 선택의 수행을 모니터링하기 위한 추가적인 정보를 제공한다.
l = 10인 샘플의 선택은 피치 펄스 탐색 내의 복잡도와 성능 사이에 양호한 절충안을 제공한다. l의 값은 개방-루프 피치 추정치에 비례하여 결정될 수 있다.
이전 프레임 내의 최종 펄스의 위치(T0)가 주어지면, 현재 프레임의 제1 피치 펄스는 근사적으로 인스턴트(instant) T0+ p(T0)에서 발생된다고 예측될 수 있다. 여기서, p(t)는 인스턴트(위치) t에서의 보간된 개방-루프 피치 추정치를 나타낸다. 이러한 예측은 블록(303)에서 수행된다.
블록(305)에서, 예측된 피치 펄스 위치(T0+ p(T0))는 등식(3)과 같이 정제 된다.
여기서, 예측된 위치 근방의 가중 스피치 신호(w(t))는 펄스 프로토타입(이하의 등식(4))과 상호 관련된다.
따라서, 정제된 것(refinement)은 [-jmax,jmax]로 제한되는 인수(argument) j이고, 이는 펄스 프로토타입과, 전술한 잔여 신호, 가중 스피치 신호 또는 가중합성 스피치 신호 중 어느 하나 사이에서 가중 상관성(weighted correlation)(C(j))을 최대화한다. 도시된 예에 따르면, 제한 jmax는 min{20,<p(0)/4>}와 같이 개방-루프 피치 추정치에 비례하고, 연산자 <·>는 가장 가까운 정수로 근사(rounding)된다.
등식(4) 내의 가중 함수는,가 그 최대값 1을 j=0에서 감쇠하기 때문에, 개방-루프 피치 추정치을 이용하여 예측된 펄스 위치를 부여한다. 등식(5)에서 분모는 예측된 피치 펄스 위치에 대한 개방-루프 피치 추정치이다.
제1 피치 펄스 위치(T1)가 등식(3)을 이용하여 발견된 후, 차회의 피치 펄스는 인스턴트(T2=T1+p(T1))에서 예측될 수 있고, 전술한 바와 같이 정제된다. 예측(303) 및 정제(305)를 포함하는 이 피치 펄스 탐색은 예측 또는 정제 절차 중 하나가 현제 프레임 외측의 피치 펄스 위치를 산출할 때 까지 반복된다. 이들 조건은 차회 피치 펄스(블록 303)의 위치 예측을 위해 로직 블록(304)에서 검사되고, 피치 펄스(블록 305)의 정제를 위해 논리 블록(306)에서 검사된다. 로직 블록(304)은 예측된 펄스 위치가 차회의 프레임에서 너무 멀리 떨어져 정제화 단계가 이를 현재 프레임으로 가져오지 못하는 경우에만 탐색을 종료한다. 이 절차는 현재 프레임 내측에서 T1, T2, ..., Tc로 지정되는 c 피치 펄스 위치를 산출한다.
도시된 예에 따르면, 피치 펄스는 Tc에 의해 지정되는 프레임의 최종 피치펄스를 제외하고 정수 해상도(integer resolution)로 검출된다. 2개의 연속 프레임의 최종 펄스 사이의 정확한 거리가 전송될 지연 파라미터를 결정하는데 필요하기 때문에, 최종 펄스는 j에 대한 등식(4)에서 1/4 샘플의 분수 해상도(fractional resolution)를 이용하여 검출된다. 분수 해상도는, 등식(4)의 상관성을 계산하기 전에 이웃하는 최종 예측 피치 펄스에서 w(t)를 업샘플링(upsampling)하여 취득된다. 도시된 실시예에 따르면, 길이 33의 해밍-윈도우 사인 보간법이 업샘플링에 이용된다. 최종 피치 펄스 위치의 분수 해상도는 프레임 단부에 설정된 시간 동기 제한에도 불구하고 양호한 성능의 장기간 예측을 유지한다. 이는 높은 정밀도로 지연 파라미터를 송신하는데 필요한 추가적인 비트 속도 코스트로 취득된다.
현재 프레임 내의 피치 사이클 세그먼트화를 완료한 후, 각 세그먼트에대한 최적 시프트가 결정된다. 이 동작은 이하에 설명되는 바와 같은 가중 스피치 신호(w(t))를 이용하여 수행된다. 워핑에 의해 유발되는 왜곡을 감소시키기 위해, 각각의 피치 사이클 세그먼트의 시프트는 LP 잔여 신호(r(t))를 이용하여 구현된다. 시프팅은 특히 세그먼트 경계 주변의 신호를 왜곡시키기 때문에, 잔여 신호(r(t))의 저 전력 섹션(low power section) 내의 경계를 위치시키는 것이 필수적이다. 도시된 예에서, 세그먼트 경계는 2개의 일련하는 피치 펄스의 거의 중간에 위치되지만, 현재 프레임의 내부로 제한된다. 세그먼트 경계는 각각의 세그먼트가 정확하게 하나의 피치 펄스를 포함하도록 현재 프레임 내측에서 선택된다. 하나 이상의 피치 펄스를 갖는 세그먼트 또는 어떠한 피치 펄스도 갖지 않는 "공백(empty)" 세그먼트는 타겟 신호와의 순차적 상관-기반 매칭(subsequentcorrelation-based matching)을 방해하고, 피치 사이클 세그먼트화가 방해된다. ls 샘플의 Sth추출 세그먼트는 ws(k)로서 표기되고, 여기서 k = 0,1,..., ls-1이다.
현재 프레임 내측의 2개의 연속 피치 펄스(Ts,Ts+1) 사이의 세그먼트 경계를 선택하는 동안, 다음의 절차가 이용된다. 먼저, 2개의 펄스 사이의 중심 인스턴트(central instant)가 Λ=<(Ts+ Ts+1)/2> 로서 컴퓨팅된다. 세그먼트 경계에 대한 후보 위치는 영역 [Λ-εmax, Λ+εmax] 내에서 검출되고, 여기서 εmax는 5개 샘플에 대응한다. 각 후보 경계 위치의 에너지는 등식(6)과 같이 컴퓨팅된다.
최소 에너지를 부여하는 위치가 선택되는데, 이는 이러한 선택이 일반적으로 변조 스피치 신호 내에 최소의 왜곡을 가져오기 때문이다. 등식(6)을 최소화하는 구간은 ε으로 표기된다. 새로운 세그먼트의 개시 인스턴트는 ts=Λ+ε으로서 선택된다. 이는 이전 세그먼트가 인스턴트 Λ+ε-1에서 끝나기 때문에, 이전 세그먼트의 길이도 결정한다.
도6은 피치 사이클 세그먼트화의 일례를 나타내는 도면이다. 제1 및 최종세그먼트(w1(k),w4(k)) 각각은 공백 세그먼트가 얻어지지 않고, 프레임 경계가 초과되지 않도록 추출되어야 한다는 것에 특히 주의해야 한다.
지연 파라미터의 결정
일반적으로, 신호 변조의 주된 이점은 프레임 당 하나의 지연 파라미터만이 코딩되고, 디코더(미도시)로 송신된다는 것이다. 그러나, 이 단일 파라미터의 결정에는 특별한 주의가 요구된다. 지연 파라미터는 프레임상의 피치 사이클 길이의 이전 값과 이후의 값을 함께 정의할 뿐 만 아니라, 취득되는 변조 신호에서의 시간 비동기(asynchrony)에도 영향을 끼친다.
[1,4-7]에 기재된 방법에서, 프레임 경계에서는 어떠한 시간 동기도 필요로하지 않고, 따라서 송신될 지연 파라미터는 개방-루프 피치 추정치를 이용하여 용이하게 결정될 수 있다.
신호 연속성이 보존되기 때문에, 이 선택은 일반적으로 프레임 경계에서 시간 비동기로 되고, 차회의 프레임에서 시간 시프트 축적으로 변화된다. 사람은 청각은 동기화된 스피치 신호의 시간 스케일의 변화에 둔감하지만, 시간 비동기의 증가는 인코더 구현을 복잡하게 만든다. 또한, 긴 신호 버퍼가 시간 스케일이 연장된 신호를 축적하기 위해 요구되고, 인코딩 동안에 축적된 시프트를 제한하기 위해 제어 로직이 구현되어야만 한다. 또한, RCELP 코딩의 다수의 샘플의 시간 비동기는LP 파라미터와 변조 잔여 신호 사이에서 미스매치를 일으킬 수 있다. 이 미스매치는 변조 잔여 신호를 LP 필터링하여 동기되는 변조 스피치 신호에 대하여 지각적(perceptual)인 아티팩트를 일으킬 수 있다.
반대로, 본 발명에 따른 신호 변조방법의 실시예는 프레임 경계에서 시간동조를 보존한다. 따라서, 엄격하게 제한된 시프트가 프레임 단부에서 발생되고, 모든 새로운 프레임이 본래의 스피치 프레임과 일치하는 완벽한 시간에서 개시된다.
프레임 단부에서의 시간 동기를 보장하기 위해, 지연 윤곽선(d(t))은 장기간 예측으로 이전에 동기화된 스피치 프레임의 단부에서의 최종 피치 펄스를 현재 프레임의 피치 펄스로 맵핑한다. 지연 윤곽선은 인스턴트 tn-1+ 1 로부터 tn까지 모든 샘플에 대하여 현재의 nth프레임상에서 보간된 장기간 예측 지연 파라미터를 정의한다. 프레임 단부에서의 지연 파라미터 dn=d(tn)만이 디코더로 송신된다. 이는 d(t)가 송신된 값에 의해 완전히 특정되는 형태를 가여야만 한다는 것을 암시한다. 장기간 예측지연 파라미터는 최종 지연 윤곽선이 펄스 맵핑을 종료하도록 선택되어야 한다. 수학적인 형태로, 이 맵핑은 다음과 같이 표기될 수 있다. kc를 일시적인 시간 변수라고 하고, T0및 Tc는 각각 이전및 현재 프레임에서의 최종 피치 펄스 위치라고 가정한다. 지연 파라미터(dn)는, 표1에 의사-코드(pseudo-code)를 실행한 후, 변수 kc가 에러 │kc-T0│를 최소화하는 값 T0에 매우 근접한 값을 갖도록 선택되어만 한다. 의사-코드는 값 k0=Tc로부터 시작되고, ki:=ki-1-d(ki-1)를 업데이트함으로써 뒤쪽으로 C번 반복한다. kc가 T0와 동일하면, 프레임 단부에서의 시간 비동기 없이 장기간 예측이 최대 효율로 이용될 수 있다.
도7에는 c=3인 경우의 지연 선택 루프의 동작의 예를 나타낸다. 루프는 k0=Tc에서 출발하고, k1=k0-d(k0)와 같이 뒤쪽으로 제1 반복을 수행한다. 반복은 연속하여 두번 수행되어 결과적으로 k2=k1-d(k1) 및 k3=k2-d(k2)가 된다. 이어서, 최종값 k3는 에러 θn=│k3-T0│의 항목에서 T0와 비교된다. 얻어진 에러는 본 명세서에서 이후에 설명되는 바와 같은 지연 선택알고리즘으로 조정되는 지연 윤곽선의 기능이다.
다음의 문서에 설명되는 바와 같은 신호 변조 방법[1,4,6,7]은 dn-1과 dn사이의 프레임상에서 지연 파라미터를 선형으로 보간한다.
그러나, 시간 동기가 프레임 단부에서 요구되는 경우, 선형 보간은 지연 윤곽선을 발진시키는 경향이 있다. 따라서, 변조 스피치 신호에서의 피치 사이클은 제한되고, 주기적으로 연장되어 불필요한 아티팩트(annoying artifact)를 쉽게 일으킨다. 발진의 발생(evolution) 및 진폭(amplitude)은 최종 피치 위치와 연관이 있다. 또한, 최종 피치 펄스는 피치 주기와 관련된 프레임 단부로부터 형성된다. 프레임 단부에서의 시간 동기는 본 발명에 따른 신호 변조 방법의 도시적인 실시예의 핵심적인 필수사항이기 때문에, 종래 방법과 유사한 선형 보간법은 스피치 품질을 열화시키지 않고 이용될 수 없다. 대신에, 본 발명에 따른 신호 변조 방법의 도시적인 실시예에는 구분적 선형 지연 윤곽선(piecewise linear delay contour)이기재되어 있다.
여기서,
이 지연 윤곽선을 이용함으로써 발진은 상당히 감소된다. 여기서, tn및 tn-1은 각각 현재 및 이전의 프레임의 단부 인스턴트(end instant)이고, dn및 dn-1은 대응하는 지연 파라미터 값이다. tn-1+ бn은 지연 윤곽선이 일정하게 유지된 후의 인스턴트이다.
도시적인인 실시예에서, 파라미터(бn)는 식(9)와 같은 dn-1의 함수로서 변화하고, 프레임 길이 N은 256 샘플이다.
발진을 회피하기 위해서는, 피치 사이클의 길이를 증가시킬수록 бn의 값은 감소시키는 것이 유리하다. 한편, tn-1< t < tn-1n과 같은 프레임의 시작부에서 지연 윤곽선(d(t))의 급격한 변화를 회피하기 위해서, 파라미터(бn)는 프레임 길이의 적어도 절반의 길이를 가져야만 한다. d(t)에서의 급격한 변화는 변조 스피치 신호의 품질을 쉽게 열화시킨다.
이전 프레임의 코딩 모드에 따라, dn-1은 프레임 단부에서의 지연값(신호 변조 인에이블)이거나, 최종 서브프레임의 지연값(신호 변조 디스에이블)일 수 있다. 지연 파라미터의 과거의 값(dn-1)은 디코더에게 잘 알려져 있기 때문에, 지연 윤곽선은 dn에 의해 명백하게 정의되고, 디코더는 등식(7)을 이용하여 지연 윤곽선을 형성할 수 있다.
최적 지연 윤곽선을 탐색하는 동안 변화될 수 있는 유일한 파라미터는 dn이고, 프레임의 단부에서의 지연 파라미터는 [34,231]로 제한된다. 통상의 경우 최적한 dn을 구하기 위한 명시된 방법은 없다. 대신, 최상의 해답을 발견하기 위해 몇몇개의 값이 테스트된다. 그러나, 탐색은 간단하다. dn의 값은 식(10)과 같이 맨처음 예측된다.
도시적인 실시예에서, 탐색은 해상도를 증가시키고, 모든 위상에서 [34,231] 내측에서 시험되는 탐색 범위를 포커싱함으로써, 3개의 위상내에서 수행된다. 이들 3개의 위상내에서, 표1의 절차에서 최소 에러 θn=│k3-T0│을 부여하는 지연 파라미터는로 각각 표기된다. 제1 위상에서, 탐색은< 60 일때 범위 [] 내에서, 그렇지 않으면 범위 [] 내에 4개 샘플의 해상도를 갖는 등식(10)을 이용하여 예측된 값() 주변에서 수행된다. 제2 위상에서, 범위를 []로 제한하고, 정수 해상도를 이용한다. 끝으로, 제3 위상은인 동안 1/4 샘플의 해상도를 갖는 범위 []을 실험한다. 전술한 범위 [] 및 1/2 샘플의 해상도가 이용된다. 이 제3 위상은 디코더로 송신될 최적의 지연 파라미터(dn)을 산출한다. 이 절차는 탐색 정밀도와 복잡도 사이의 절충안이다. 물론, 당업자는 본 발명의 특성 및 요지내에서 대안적인 수단을 이용하여, 시간 동기 제한하에서 지연 파라미터의 탐색을 용이하게 구현할 수 있다.
지연 파라미터(dn∈[34,231])는인 1/4 샘플 및인 1/2 샘플의 해상도를 이용하는 프레임 당 9개 비트를 이용해서 코딩될 수 있다.
도8은 dn-1=50, dn=53, бn=172 및 프레임 길이 N=256인 경우의 지연 보간을 도시한다. 종래 방법에 대응하는 선형 보간법이 얇은 선으로 도시된 반면, 이 신호 변조 방법의 실시예에 이용되는 보간 방법은 두꺼운 선으로 도시된다. 양측의 보간된 윤곽선은 표1의 지연 선택 루프에서 거의 유사한 방식으로 수행되지만, 기재된 구분적 선형 보간은 작은 절대값 변화 │dn-1- dn│가 있다. 이러한 특성은 지연 윤곽선(d(t))에서의 잠재적인 발진을 감소시키고, 그 피치가 이 지연 윤곽선을 따르는 변조 스피치에서의 불필요한 아티팩트를 감소시킨다.
구분적 선형 보간 방법의 성능을 보다 명백하게 하기 위해, 도9는 두꺼운 선으로 도시된 10개 프레임에 걸친 획득된 지연 윤곽선(d(t))상에서의 예를 나타낸다. 종래의 선형 보간법으로 획득된 대응하는 지연 윤곽선(d(t))은 얇은 선으로 도시된다. 이 예는 스피치 변조 절차의 입력과 같은 52개 샘플의 일정한 지연 파라미터를 갖는 인공 스피치 신호를 이용하여 구성된다. 지연 파라미터 d0=54 샘플은 스피치 코딩에서 전형적인 피치 추정 에러의 효과를 도시하기 위해 제1 프레임에 대한 초기 값으로서 고의적으로 이용된다. 이어서, 선형 보간 및 본 명세서에 기재된 구분적 선형 보간 방법 양자에 대한 지연 파라미터(dn) 표1의 절차를 이용하여 탐색된다. 필요한 모든 파라미터는 본 발명에 따른 신호 변조 방법의 도시적인 실시예에 따라 선택된다. 획득되는 지연 윤곽선(d(t))는 구분적 선형 보간법이 지연 윤곽선(d(t))을 신속하게 커버하는 반면, 종래 선형 보간법은 10개 프레임 기간 내에서 정확한 값에 도달할 수 없었음을 보여준다. 지연 윤곽선(d(t))내의 이들 연장된 발진은 변조 스피치 신호에 대해서 전체 지각적 품질(overall perceptual quality)을 열화시키는 불필요한 아티팩트를 유발시킨다.
신호의 변조
지연 파라미터(dn)와 피치 사이클 세그먼테이션(pitch cycle segmentation)이 결정된 후에, 신호 변조 절차 자체가 시작될 수 있다. 신호 변조 방법의 실시예에서, 스피치 신호는 개별적인 피치 사이클 세그먼트를 하나씩 시프팅(shift)하여 그 개별적인 피치 사이클 세그먼트를 지연 윤곽선 d(t)에 대해 조정함으로써 변조된다. 가중 스피치 도메인(weighted speech domain)의 세그먼트를 타겟 신호와 상관시킴으로써 세그먼트 시프트(segment shift)가 결정된다. 타겟 신호는 이전 프레임의 합성된 가중 스피치 신호와 현재 프레임의 선행하는, 이미 시프팅된 세그먼트를 이용하여 구성된다. 실제 시프트는 잔여 신호(residual signal) r(t)에 대해 행해진다.
신호 변조는 장기간 예측의 성능을 최대화함과 동시에 변조된 스피치 신호의 인식 품질(perceptual quality)을 보존하도록 주의하여 행해져야 한다. 프레임 경계(frame boundary)에서의 필요한 시간 싱크로니(synchrony)는 변조 동안에도 고려되어야 한다.
도10에는 신호 변조 방법의 실시예의 블록도가 도시되어 있다. 블록(401)에서, 가중 스피치 신호 w(t)로부터 ls의 새로운 세그먼트 ws(k)를 추출함으로써 변조가 시작된다. 이 세그먼트는 ws(k) = w(ts+ k)(여기서, k = 0, 1, ..., ls-1)를 고려하여 세그먼트 길이 ls및 시작 인스턴트(instant) ts에 의해 정의된다. 세그먼테이션 절차는 전술한 설명의 지시에 따라 실행된다.
더이상 세그먼트가 선택 또는 추출될 수 없는 경우(블록(402)), 신호 변조 동작이 완료된다(블록(403)). 그렇지 않은 경우, 신호 변조 동작은 블록(404)으로 계속 진행된다.
현재 세그먼트 ws(k)의 최적의 시프트를 찾기 위하여, 블록(405)에서 타겟신호가 생성된다. 현재 프레임의 제1 세그먼트 w1(k)에 대하여, 이 타겟 신호는 귀납(recursion)에 의해 얻어진다.
여기서,는 t≤tn-1에 대하여 이전 프레임에서 이용가능한 가중 합성 스피치 신호이다. 파라미터()는 길이(l1)의 제1 세그먼트에 허용된 최대 시프트이다. 등식(11)은 현재 시프팅된 세그먼트가 잠재적으로 배치되는 신호부에 대하여 지연 윤곽선을 이용하는 장기간 예측 시뮬레이션(simulation)으로서 해석될 수 있다. 후속 세그먼트에 대한 타겟 신호의 계산은 동일한 원리를 따르며, 이 절(section)에서 나중에 설명될 것이다.
현재 세그먼트의 최적의 시프트를 찾기 위한 탐색(search) 절차는 타겟 신호를 형성한 후에 시작될 수 있다. 이 절차는 블록(404)에서 인스턴트(ts)에서 시작하는 세그먼트 ws(k)와 타겟 신호사이에 다음 등식(12)로서 계산된 상관성(correlation)에 근거한다.
여기서, δs는 현재 세그먼트 ws(k)에 허용되는 최대 시프트를 결정하며,는 플러스 무한대(plus infinity) 쪽으로의 라운딩(rounding)을 표시한다. 비록 복잡도가 증가되지만, 등식(12) 대신에 정규화된 상관성이 잘 이용될 수 있다. 실시예에서, δs의 값으로 다음 값이 이용된다.
이 절에서 나중에 설명될 것인바, δs의 값은 프레임의 첫번째 및 마지막 세그먼트에 대해 보다 제한된다.
상관성 (12)은 정수 해상도(integer resolution)로 평가되지만, 보다 정밀하게 평가하면 장기간 예측 성능을 향상시킬 수 있다. 복잡도를 낮추기 위하여, 등식(12)에서 신호 ws(k) 또는를 직접 업샘플링(upsampling)하는 것은 적절하지 않다. 그 대신, 업샘플링된 상관성을 이용하여 최적의 시프트를 결정함으로써 계산 효율적 방식으로 분수 해상도(fractional resolution)가 얻어진다.
상관성을 최대화시키는 시프트(δ)는 블록(404)에서의 정수 해상도에서 먼저 탐색된다. 이제, 분수 해상도에서, 최대값은 개구간(open interval)(δ-1, δ+1)내에 배치되고, [-δs, δs]로 제한되어야 한다. 블록(406)에서, 상관성은 이 구간에서 65 샘플과 동일한 길이의 해밍-윈도우드 싱크 인터폴레이션(Hamming-windowed sinc interpolation)을 이용하여 1/8 샘플의 해상도까지 업샘플링된다. 그 다음, 업샘플링된 상관성의 최대값에 대응하는 시프트(δ)가 분수 해상도에서 최적의 시프트이다. 이 최적의 시프트를 찾은 후, 블록(407)에서, 가중 스피치 세그먼트 ws(k)가 해결된(solved) 분수 해상도로 재계산된다. 즉, 세그먼트의 정확한 새로운 시작 인스턴트는(여기서,)로서 갱신된다. 또한, 분수 해상도의 가중 스피치 세그먼트 ws(k)에 대응하는 잔여 세그먼트 rs(k)는 이전에(블록(407)) 설명된 바와 같이 싱크 인터폴레이션을 다시 이용하여 이 시점에서 잔여 신호 r(t)로부터 계산된다. 최적의 시프트의 분수부는 잔여 및 가중 스피치 세그먼트로 통합되기 때문에, 모든 후속 계산은 상향-라운딩된(upward-rounded) 시프트를 이용하여 구현될 수 있다.
도11은 도10의 블록(407)에 따른 세그먼트 ws(k)의 재계산을 예시한다. 실시예에서, 값을 고려하여 상관성을 최대화함으로써 1/8 샘플의 해상도로 최적의 시프트가 탐색된다. 따라서, 정수부()는가 되고, 분수부는이 된다. 이에 따라, 세그먼트의 시작 인스턴트는 ts= ts+ 3/8 로서 갱신된다. 도11에서, ws(k)의 새로운 샘플은 회색점으로 표시되어 있다.
나중에 개시될 로직 블록(106)이 신호 변조의 계속을 허용하는 경우, 최종작업은 현재의 잔여 신호 세그먼트 rs(k)를 변조된 잔여 신호로 복사함으로써 변조된 잔여 신호를 갱신하는 것이다(블록(411)).
일련의 세그먼트에 있어 시프트는 서로 독립적이기 때문에,에 배치된 세그먼트는 그들 사이에서 오버랩(overlap)되거나 혹은 그들 사이에 갭(gap)을 갖는다. 간단한(straightforward) 가중 평균화(weighted averaging)는 세그먼트를 오버랩하기 위해 이용될 수 있다. 갭은 인접 세그먼트로부터 이웃 샘플을 복사함으로써 채워진다. 오버래핑(overlapping) 또는 미싱(missing) 샘플들의 수는 보통 작으며 세그먼트 경계는 잔여 신호의 저에너지 영역에 나타나기 때문에, 보통 어떠한 인식 아티팩트(perceptual artifact)도 야기되지 않는다. 아래의 [2], [6], [7]에 기술된 바와 같은 어떠한 연속 신호 워핑(warping)도 이용되지 않지만, 복잡도를 줄이기 위해 피치 사이클 세그먼트를 시프팅시킴으로써 불연속적으로 변조가 행해진다는 것에 주목할 필요가 있다.
블록(405)의 타겟 신호가 첫번째 세그먼트에 대해서와 다르게 형성된다는 점을 제외하고는, 후속 피치 사이클 세그먼트의 처리는 상기 개시된 절차를 따른다.의 샘플은 먼저 등식(15)로서 변조된 가중 스피치 샘플로 대체된다.
이 절차는 도11에 예시되어 있다. 그 다음, 갱신된 세그먼트를 따르는 샘플이 또한 갱신된다.
타겟 신호의 갱신은, 지연 윤곽선 d(t)을 고려한 변조된 스피치 신호의 일련의 피치 사이클 세그먼트 사이의 보다 높은 상관성 및 이에 따라 보다 정확한 장기간 예측을 보증한다. 프레임의 마지막 세그먼트를 처리할지라도, 타겟 신호는 갱신될 필요가 없다.
프레임의 첫번째 및 마지막 세그먼트의 시프트는 특별히 주의하여 수행되어야 하는 특별한 경우이다. 첫번째 세그먼트를 시프팅하기 전에, 이러한 세그먼트의 시프트는 아티팩트를 야기할 수 있기 때문에, 프레임 경계(tn-1)에 근접한 잔여 신호 r(t)에 어떠한 고전력 영역도 존재하지 않는 것이 보증되어야 한다. 고전력 영역은 등식(17)으로서 잔여 신호 r(t)를 제곱함으로써 탐색된다.
여기서,이다. E0(k)의 최대가 범위 [tn-1- 2, tn-1+ 2]에서 프레임 경계에 근접하게 검출되는 경우, 허용 시프트는 1/4 샘플로 제한된다. 첫번째 세그먼트에 대한 제안된 시프트가 이 한계보다 작은 경우, 신호 변조 절차는 현재 프레임에서 인에이블(enable)되지만, 첫번째 세그먼트는 변조되지 않은채로 유지된다.
프레임의 마지막 세그먼트는 유사한 방식으로 처리된다. 전술한 설명에서 설명된 바와 같이, 지연 윤곽선 d(t)은 원칙적으로 마지막 세그먼트에 대해서 어떠한 시프트도 요구되지 않도록 선택된다. 그러나, 타겟 신호는 등식(16) 및 (17)에서 일련의 세그먼트 사이의 상관성을 고려하여 신호 변조 동안 반복적으로 갱신되기 때문에, 마지막 세그먼트는 약간 시프팅되어야 할 수 있다. 실시예에서, 이러한 시프트는 항상 3/2 샘플보다 작게 억제된다. 프레임 말단에 고전력 영역이 존재하는 경우, 어떠한 시프트도 허용되지 않는다. 이러한 조건은 제곱된 잔여 신호(등식(18))를 이용함으로써 검증된다.
여기서,이다. tn- 4 보다 크거나 같은 k에 대해서 E1(k)의 최대가 달성되는 경우, 마지막 세그먼트에 대해서 어떠한 시프트도 허용되지 않는다. 첫번째 세그먼트에 대해서와 유사하게, 제안된 시프트일 때, 현재 프레임은 여전히 변조를 위해 수락되지만, 마지막 세그먼트는 변조되지 않은채로 유지된다.
알려진 신호 변조 방법과 달리, 시프트는 다음 프레임으로 이동하지 않으며, 모든 새로운 프레임은 본래 입력 신호와 완벽하게 합성되어 시작한다. RCELP 코딩과 특별히 다른 기본적인 차이점으로서, 신호 변조 방법의 실시예는 서브프레임이 코딩되기 전에 완전한 스피치 프레임을 처리한다. 명백하게,서브프레임-방식의(subframe-wise) 변조는 잠재적으로 성능을 향상시키는, 이전에 코딩된 서브프레임을 이용하여 매 서브프레임에 대하여 타겟 신호를 구성할 수 있게 해준다. 이러한 방식은 프레임 말단에서의 허용된 시간 싱크로니가 엄격하게 억제되기 때문에 신호 변조 방법의 실시예와 관련하여 이용될 수 없다. 그럼에도 불구하고, 변조는 원활하게 발생하는 유성 프레임(smoothly evolving voiced frame)에 대해서만 인에이블되기 때문에, 등식(15) 및 (16)을 이용한 타겟 신호의 갱신은 서브프레임-방식의 처리를 이용하여 실제로 동일한 성능을 제공한다.
신호 변조 절차내에 통합된 모드 결정 로직
본 발명에 따른 신호 변조 방법의 실시예는 도2에 도시된 바와 같이 효율적인 분류 및 모드 결정 메커니즘을 통합한다. 블록(101, 103 및 105)에서 수행된 모든 동작은 현재 프레임에서 달성가능한 장기간 예측 성능을 정량화하는 여러개의 표시기(indicator)를 산출한다. 이들 표시기 중 어느것이 허용 한계 밖에 있는 경우, 신호 변조 절차는 로직 블록(102, 104 또는 106) 중 하나의 블록에 의해 종료된다. 이 경우, 본래 신호는 변조되지 않고 보존된다.
피치 펄스 탐색 절차(101)는 현재 프레임의 주기성에 대한 여러개의 표시기를 생성한다. 따라서, 이들 표시기를 분석하는 로직 블록(102)은 분류 로직의 가장 중요한 구성요소이다. 로직 블록(102)은 다음 조건 (19)을 이용하여 검출된 피치 펄스 위치와 보간된(interpolated) 개방-루프 피치 추정치 사이의 차이를 비교하고, 이 조건이 만족되지 않는 경우 신호 변조 절차를 중단한다.
블록(103)에서의 지연 윤곽선 d(t)의 선택은 또한 피치 사이클의 발생(evolution) 및 현재 스피치 프레임의 주기성에 관한 추가적인 정보를 제공한다. 이 정보는 로직 블록(104)에서 검사된다. 신호 변조 절차는 조건이 만족되는 경우에만 이 블록(104)으로부터 계속된다. 이 조건은 현재 프레임을 순수 유성 프레임(purely voiced frame)으로서 분류하기 위해 작은 지연 변화만이 허용된다는 것을 의미한다. 로직 블록(104)은 또한 선택된 지연 파라미터 값(dn)에 대한 차이를 검사함으로써 표1의 지연 선택 루프의 성공을 평가한다. 이 차이가 1 샘플보다 큰 경우, 신호 변조 절차는 종료된다.
변조된 스피치 신호에 대해 양호한 품질을 보증하기 위하여, 블록(105)에서 일련의 피치 사이클 세그먼트에 대해 행해진 시프트를 억제하는 것이 유익하다. 이것은 로직 블록(106)에서 프레임의 모든 세그먼트에 다음의 기준(criteria)(20)을 부과함으로써 달성된다.
여기서,은 sth및 (s-1)th피치 사이클 세그먼트에 대해 각각행해진 시프트이다. 임계값이 초과되는 경우, 신호 변조 절차는 중단되고 본래 신호가 유지된다.
신호 변조를 거친 프레임이 낮은 비트 속도로 코딩될 때, 피치 사이클 세그먼트의 형태는 프레임에 걸쳐서 여전히 유사하다는 것은 필수적이다. 이것은 장기간 예측에 의해 믿을만한 신호 모델링을 할 수 있게 하며, 이에 따라 주관적 품질(subjective quality)을 저하시킴이 없이 낮은 비트 속도로 코딩할 수 있게 한다. 일련의 세그먼트의 유사성은 도10의 블록(407)에서의 ws(k)의 갱신후 최적의 시프트에서 현재 세그먼트와 타겟 신호 사이의 정규화된 상관성
에 의해 간단하게 정량화될 수 있다. 정규화된 상관성(gs)은 피치 이득이라고도 칭해진다.
타겟 신호와의 상관성을 최대화시키는 블록(105)에서의 피치 사이클 세그먼트의 시프팅(shifting)은 주기성을 향상시키고, 현재 프레임에서 신호 변조가 유용한 경우 높은 피치 예측 이득을 산출한다. 절차의 성공은 로직 블록(106)에서 다음의 기준을 이용하여 검사된다.
gs≥ 0.84
이 조건이 모든 세그먼트에 대해서 만족되지 않는 경우, 신호 변조 절차는 종료되고(블록(409)), 본래 신호는 변조되지 않은채 유지된다. 이 조건이 만족되는 경우(블록(106)), 신호 변조는 블록(411)에서 계속 진행된다. 피치 이득(gs)은 블록(408)에서, 블록(407)로부터의 재계산된 세그먼트 ws(k)와 블록(405)으로부터의 타겟 신호사이에서 계산된다. 일반적으로, 동일한 코딩 성능을 갖는 남자의 보이스(voice)에 대해 약간 더 낮은 이득 임계값이 허용될 수 있다. 이득 임계값은 신호 변조 모드의 사용 비율 및 이에 따른 결과적인 평균 비트 속도를 조정하기 위해 인코더의 서로 다른 동작 모드에서 변조될 수 있다.
소스-제어된 변수(Source-controlled Variable) 비트 속도 스피치 코덱을 위한 모드 결정 로직
이 절은 소스-제어된 변수 비트 속도 스피치 코덱에서 일반적인 속도 결정 메커니즘의 일부분으로서 신호 변조 절차의 이용을 개시한다. 이러한 기능은 신호 주기성에 대한 여러개의 표시기 및 현재 프레임에서 장기간 예측의 기대되는 코딩 성능을 제공하기 때문에 신호 변조 방법의 실시예에 이머즈(immerse)된다. 이들 표시기는 피치 주기의 발생(evolution), 이러한 발생을 기술하기 위한 선택된 지연 윤곽선의 적합성(fitness) 및 신호 변조에 의해 달성가능한 피치 예측 이득을 포함한다. 도2에 도시된 로직 블록(102, 104 및 106)이 신호 변조를 인에이블하는 경우, 장기간 예측은 주관적 품질을 저하시킴이 없이 낮은 비트 속도로 코딩을 효율적으로 용이하게 하는 변조된 스피치 프레임을 모델링할 수 있다. 이 경우, 적응형 코드북 여기(adaptive codebook excitation)는 여기 신호를 기술함에 있어 중요한 기여를 하며, 이에 따라 고정-코드북 여기(fixed-codebook excitation)에 할당된 비트 속도가 감소될 수 있다. 로직 블록(102, 104 또는 106)이 신호 변조를 개시할 때, 프레임은 유성 유발(voiced onset) 또는 빠르게 발생하는 유성 스피치 신호와 같은 비정상 스피치 세그먼트를 포함할 가능성이 있다. 이들 프레임은 양호한 주관적 품질을 유지하기 위해 전형적으로 높은 비트 속도를 필요로 한다.
도12는 4가지 코딩 모드를 제어하는 속도 결정 로직의 일부분으로서 신호 변조 절차(603)를 도시한다. 실시예에서, 설정된 모드는 비-활성 스피치 프레임(블록(508)), 무성 스피치 프레임(블록(507)), 안정된 유성 프레임(블록(506)) 및 다른 타입의 프레임(블록(505))을 위한 전용 모드를 포함한다. 안정된 유성 프레임(506)을 위한 모드를 제외한 모든 모드는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 잘 알려져 있는 기술에 따라 구현된다는 것에 주목할 필요가 있다.
속도 결정 로직은 블록(501 및 502)의 동작이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 잘 알려져 있는 로직 블록(501, 502 및 504)의 3단계에서 행해지는 신호 분류에 근거한다.
먼저, 보이스 액티비티 검출기(voice activity detector: VAD)(501)가 활성스피치 프레임과 비활성 스피치 프레임 사이를 구별한다. 비활성 스피치 프레임이 검출되면, 스피치 신호는 모드(508)에 따라 처리된다.
블록(501)에서 활성 스피치 프레임이 검출되면, 프레임은 유성 결정(voicing decision)을 하는 전용의 제2 분류기(502)를 거친다. 분류기(502)가 현재 프레임을 무성 스피치 신호로서 평가하는 경우, 분류 체인은 종료되고 스피치 신호는 모드(507)에 따라 처리된다. 그렇지 않은 경우, 스피치 프레임은 신호 변조 모듈(503)로 보내진다.
신호 변조 모듈은 그 다음에 로직 블록(504)에서 현재 프레임의 신호 변조를 인에이블할 것인지 혹은 디스에이블할 것인지에 대한 결정을 제공한다. 이러한 결정은 사실상 이전에 도2를 참조하여 설명된 바와 같이 로직 블록(102, 104 및 106)에서 신호 변조 절차의 절대필요한 부분으로서 이루어진다. 신호 변조가 인에이블되는 경우, 프레임은 안정된 유성 또는 순수 유성 스피치 세그먼트로서 생각된다.
속도 결정 메커니즘이 모드(506)를 선택하는 경우, 신호 변조 모드는 인에이블되고 스피치 프레임은 이전의 선택의 지시에 따라 인코딩된다. 표2는 실시예에서 모드(506)에 이용된 비트 할당을 개시한다. 이 모드에서 코딩될 프레임이 특징으로서 매우 주기적이기 때문에, 실질적으로 보다 낮은 비트 속도로도, 예를 들면, 전이(transition) 프레임에 비해 양호한 주관적 품질을 유지하는데에 충분하다. 신호 변조는 또한 다른 파라미터를 위한 예비 비트(bit budget)의 상당 비율을 세이브(save)하는 20ms 프레임당 9개의 비트만을 이용하여 지연 정보의 효율적인 코딩을 가능하게 한다. 장기간 예측의 양호한 성능은 주관적 스피치 품질을 희생하지 않고 고정-코드북 여기를 위해 5ms 서브프레임당 13비트만을 사용할 수 있게 한다. 고정-코드북은 둘다 64개의 가능한 위치를 갖는 2개의 펄스를 갖는 하나의 트랙(track)을 포함한다.
4개의 서브프레임을 포함하는 20ms 프레임에 대한 유성 6.2kbps 모드에서의 비트 할당
파라미터 Bits/Frame
LP 파라미터피치 지연피치 필터링이득대수(algebraic) 코드북모드 비트 3494 = 1 + 1 + 1 + 124 = 6 + 6 + 6 + 652 =13 +13 +13 +131
합계 124 bits = 6.2 kbps
AMR-WB 표준에 따른 12.65kbps 모드에서의 비트 할당
파라미터 Bits/Frame
LP 파라미터피치 지연피치 필터링이득대수 코드북모드 비트 4630 = 9 + 6 + 9 + 64 = 1 + 1 + 1 + 128 = 7 + 7 + 7 + 7144 =36 +36 +36 +361
합계 253 bits = 12.65 kbps
다른 코딩 모드(505, 507 및 508)는 알려져 있는 기술에 따라 구현된다. 신호 변조는 모든 이들 모드에서 디스에이블된다. 표3은 AMR-WB 표준으로부터 채택된모드(505)의 비트 할당을 나타낸다.
AMR-WB 표준에 관한 기술 명세서 [11] 및 [12]는 블록(501 및 508)의 위로음(comfort noise) 및 VAD 기능에 대해 각각 참조문헌으로서 본원에 개시된다.
요약하면, 본 명세서는 순수 유성 스피치 프레임에 대한 프레임 동기식 신호 변조 방법, 변조될 프레임을 검출하기 위한 분류 메커니즘 및 낮은 비트 속도로 고품질의 코딩을 가능하게 하기 위해 소스-제어된 CELP 스피치 코덱에 이들 방법을 이용하는 것을 기술하였다.
신호 변조 방법은 변조될 프레임을 결정하기 위한 분류 메커니즘을 통합한다. 이것은 동작에 있어 그리고 변조된 신호의 특성에 있어 이전의 신호 변조 및 처리 수단과 다르다. 신호 변조 절차에 내장된 분류 기능은 소스-제어된 CELP 스피치 코덱에서 속도 결정 메커니즘의 일부분으로서 이용된다.
신호 변조는 피치 및 프레임 동기식으로 즉, 후속 스피치 프레임이 본래 신호와 완벽한 시간 정렬(alignment)을 이루어 시작하도록 현재 프레임에서 한번에 하나의 피치 사이클 세그먼트를 적응시켜 행해진다. 피치 사이클 세그먼트는 프레임 경계에 의해 제한된다. 이러한 특징은 인코더 구현을 간단하게 하여 변조된 스피치 신호에서의 아티팩트의 위험을 줄이는 프레임 경계에 걸쳐서 시간 시프트 전이를 방지한다. 시간 시프트가 일련의 프레임에 걸쳐서 누적되지 않기 때문에, 개시된 신호 변조 방법은 확장된 신호를 수용하기 위한 긴 버퍼도, 누적된 시간 시프트를 제어하기 위한 복잡한 로직도 필요하지 않다. 소스-제어된 스피치 코딩에서, 모든 새로운 프레임은 본래 신호와 시간 정렬을 이루어 시작하기 때문에, 개시된 신호 변조 방법은 신호 변조 인에이블(enabled) 모드와 신호 변조 디스에이블(disabled) 모드 사이의 다중-모드 동작을 간단하게 한다.
물론, 많은 다른 변경 및 변형이 가능하다. 본 발명의 상기 상세한 예시적인 설명 및 관련 도면에 비추어 보면, 이러한 다른 변경 및 변형은 이제 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다. 이러한 다른 변형은 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 이루어질 수 있음을 이해해야 한다.

Claims (66)

  1. 사운드 신호를 디지털 방식으로 인코딩하기 위해 신호 변조를 이용하는 기술에서 장기간 예측(long term prediction)을 특징짓는 장기간 예측 지연 파라미터를 결정하기 위한 방법에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계;
    이전 프레임 내의 상기 사운드 신호의 특징을 검출하는 단계;
    현재 프레임 내의 상기 사운드 신호의 대응 특징을 검출하는 단계; 및
    상기 장기간 예측이 상기 이전 프레임의 신호 특징을 상기 현재 프레임의 대응 신호 특징에 맵핑시키도록, 상기 현재 프레임에 대한 상기 장기간 예측 지연 파라미터를 결정하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 장기간 예측 지연 파라미터를 결정하는 단계는,
    상기 장기간 예측 지연 파라미터로부터 지연 윤곽선(delay contour)을 형성하는 단계를 포함하는
    방법.
  3. 제2항에 있어서,
    상기 사운드 신호는 스피치(speech) 신호를 포함하고,
    상기 이전 프레임 내의 상기 스피치 신호의 특징은 상기 이전 프레임 내의 상기 스피치 신호의 피치 펄스(pitch pulse)를 포함하고,
    상기 현재 프레임 내의 상기 스피치 신호의 특징은 상기 현재 프레임 내의 상기 스피치 신호의 피치 펄스를 포함하며,
    상기 지연 윤곽선을 형성하는 단계는, 상기 장기간 예측을 이용하여, 상기 현재 프레임의 피치 펄스를 상기 이전 프레임의 피치 펄스에 맵핑시키는 단계를 포함하는
    방법.
  4. 제3항에 있어서,
    상기 장기간 예측 지연 파라미터를 결정하는 단계는,
    상기 이전 프레임의 최종 피치 펄스와 상기 현재 프레임의 최종 피치 펄스 사이에 연속된 피치 펄스의 거리의 함수로서 상기 장기간 예측 지연 파라미터를 계산하는 단계를 포함하는
    방법.
  5. 제2항에 있어서,
    상기 이전 프레임의 장기간 예측 지연 파라미터와 상기 현재 프레임의 장기간 예측 지연 파라미터를 이용하여 상기 지연 윤곽선을 완전히 특징짓는 단계
    를 더 포함하는 방법.
  6. 제2항에 있어서,
    상기 지연 윤곽선을 형성하는 단계는,
    상기 이전 프레임의 장기간 예측 지연 파라미터와 상기 현재 프레임의 장기간 예측 지연 파라미터 사이의 상기 지연 윤곽선을 비선형적으로 보간(interpolating)하는 단계를 포함하는
    방법.
  7. 제2항에 있어서,
    상기 지연 윤곽선을 형성하는 단계는,
    상기 이전 프레임의 장기간 예측 지연 파라미터와 상기 현재 프레임의 장기간 예측 지연 파라미터로부터 구분적 선형 지연 윤곽선(piecewise linear delay contour)을 결정하는 단계를 포함하는
    방법.
  8. 사운드 신호를 디지털 방식으로 인코딩하기 위해 신호 변조를 이용하는 기술에서 장기간 예측을 특징짓는 장기간 예측 지연 파라미터를 결정하기 위한 장치에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 분할 수단;
    이전 프레임 내의 상기 사운드 신호의 특징을 검출하는 검출 수단;
    현재 프레임 내의 상기 사운드 신호의 대응 특징을 검출하는 검출 수단; 및
    상기 현재 프레임에 대한 장기간 예측 지연 파라미터를 결정하는 계산 수단 - 상기 장기간 예측 지연 파라미터의 계산은 상기 장기간 예측이 상기 이전 프레임의 신호 특징을 상기 현재 프레임의 대응 신호 특징에 맵핑시키도록 이루어짐 -
    을 포함하는 장치.
  9. 제8항에 있어서,
    상기 장기간 예측 지연 파라미터 계산 수단은,
    상기 장기간 예측 지연 파라미터로부터 지연 윤곽선을 형성하는 선택 수단을 포함하는
    장치.
  10. 제9항에 있어서,
    상기 사운드 신호는 스피치 신호를 포함하고,
    상기 이전 프레임 내의 상기 스피치 신호의 특징은 상기 이전 프레임 내의 상기 스피치 신호의 피치 펄스를 포함하고,
    상기 현재 프레임 내의 상기 스피치 신호의 특징은 상기 현재 프레임 내의 상기 스피치 신호의 피치 펄스를 포함하며,
    상기 지연 윤곽선 선택 수단은, 상기 장기간 예측을 이용하여, 상기 현재 프레임의 피치 펄스를 상기 이전 프레임의 피치 펄스에 맵핑시키는 선택 수단인
    장치.
  11. 제10항에 있어서,
    상기 장기간 예측 지연 파라미터 계산 수단은,
    상기 이전 프레임의 최종 피치 펄스와 상기 현재 프레임의 최종 피치 펄스 사이에 연속된 피치 펄스의 거리의 함수로서 상기 장기간 예측 지연 파라미터를 계산하는 계산 수단을 포함하는
    장치.
  12. 제9항에 있어서,
    상기 이전 프레임의 장기간 예측 지연 파라미터와 상기 현재 프레임의 장기간 예측 지연 파라미터를 이용하여 상기 지연 윤곽선을 완전히 특징짓는 수단
    을 더 포함하는 장치.
  13. 제9항에 있어서,
    상기 지연 윤곽선 선택 수단은,
    상기 이전 프레임의 장기간 예측 지연 파라미터와 상기 현재 프레임의 장기간 예측 지연 파라미터 사이의 상기 지연 윤관석을 비선형적으로 보간하는 선택 수단인
    장치.
  14. 제9항에 있어서,
    상기 지연 윤곽선 선택 수단은,
    상기 이전 프레임의 장기간 예측 지연 파라미터와 상기 현재 프레임의 장기간 예측 지연 파라미터로부터 구분적 선형 지연 윤곽선을 결정하는 선택 수단인
    장치.
  15. 사운드 신호를 디지털 방식으로 인코딩하기 위한 기술에 구현하기 위한 신호 변조 방법에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계;
    상기 사운드 신호의 각 프레임을 다수의 신호 세그먼트로 구획하는 단계; 및
    상기 프레임의 신호 세그먼트의 적어도 일부를 워핑(warping)하는 단계 - 상기 워핑 단계는 상기 워핑된 신호 세그먼트를 상기 프레임 내부로 제한(constraining)하는 단계를 포함함 -
    를 포함하는 방법.
  16. 제15항에 있어서,
    상기 사운드 신호는 피치 펄스를 포함하고,
    각 프레임은 경계(boundaries)를 포함하며,
    상기 각 프레임을 구획하는 단계는,
    상기 프레임의 사운드 신호 내의 피치 펄스를 검출하는 단계; 및
    상기 프레임을, 상기 피치 펄스 중 하나를 각각 포함하고 상기 프레임의 경계 내에 각각 위치된 피치 사이클 세그먼트로 분할하는 단계를 포함하는
    방법.
  17. 제16항에 있어서,
    상기 피치 펄스를 검출하는 단계는 상기 프레임을 통해 보간된 개방-루프 피치 추정치를 이용하는 단계를 포함하고,
    상기 신호 변조 방법은, 상기 검출된 피치 펄스의 위치와 상기 보간된 개방-루프 피치 추정치 사이의 거리가 주어진 조건을 만족하지 않는 경우, 신호 변조 절차를 종료하는 단계를 더 포함하는
    방법.
  18. 제15항에 있어서,
    상기 사운드 신호의 각 프레임을 다수의 신호 세그먼트로 구획하는 단계는,
    가중 사운드 신호(weighted sound signal)를 생성하기 위해 상기 사운드 신호를 가중(weighting)하는 단계; 및
    상기 가중 사운드 신호로부터 상기 신호 세그먼트를 추출하는 단계를 포함하는
    방법.
  19. 제15항에 있어서,
    상기 워핑 단계는,
    현재 신호 세그먼트에 대한 타겟 신호를 생성하는 단계; 및
    상기 타겟 신호에 응답하여 상기 현재 신호 세그먼트에 대한 최적의 시프트를 찾는 단계를 포함하는
    방법.
  20. 제17항에 있어서,
    상기 타겟 신호를 생성하는 단계는, 이전 프레임의 가중 합성 스피치 신호 또는 변조된 가중 스피치 신호로부터 타겟 신호를 생성하는 단계를 포함하고,
    상기 현재 신호 세그먼트에 대한 최적의 시프트를 찾는 단계는, 상기 현재 신호 세그먼트와 상기 타겟 신호 사이를 상관짓는 단계를 포함하는
    방법.
  21. 제20항에 있어서,
    상기 상관짓는 단계는,
    상관성(correlation)을 최대화하는 신호 세그먼트 시프트를 찾기 위해, 상기 상관성을 정수 해상도(interger resolution)로 먼저 평가하는 단계; 및
    상기 상관성-최대화(correlation-maximizing) 신호 세그먼트 시프트를 둘러싸는 영역 내의 상기 상관성을 업샘플링하는 단계 - 상기 상관성의 업샘플링 단계는 상기 상관성을 분수 해상도(fractional resolution)로 최대화함으로써 상기 현재 신호 세그먼트의 최적의 시프트를 탐색(searching)하는 단계를 포함함 - 를 포함하는
    방법.
  22. 제15항에 있어서,
    각 프레임은 경계를 포함하고,
    상기 프레임의 신호 세그먼트의 적어도 일부를 워핑하는 단계는,
    고전력 영역이 신호 세그먼트에 인접한 상기 프레임 경계에 가까운 상기 사운드 신호 내에 존재하는지를 검출하는 단계; 및
    고전력 영역 검출의 검출 또는 부재(absence)에 따라 상기 신호 세그먼트를 시프팅하는 단계를 포함하는
    방법.
  23. 제15항에 있어서,
    상기 워핑 단계는,
    상기 현재 프레임을 통해 보간된 장기간 예측 지연 파라미터를 정의하는 지연 윤곽선을 형성하고, 상기 현재 사운드 신호 프레임의 주기성(periodicity) 및 피치 사이클의 발생(evolution)에 관한 추가 정보를 제공하는 단계; 및
    개별적인 피치 사이클 세그먼트를 상기 지연 윤곽선에 대해 조정하기 위해, 상기 개별 피치 사이클 세그먼트를 하나씩 시프팅하는 단계를 포함하는
    방법.
  24. 제23항에 있어서,
    상기 개별 피치 사이클 세그먼트를 시프팅하는 단계는,
    상기 지연 윤곽선을 이용하여 타겟 신호를 형성하는 단계; 및
    상기 타겟 신호와 상기 피치 사이클 세그먼트의 상관성을 최대화하기 위해, 상기 피치 사이클 세그먼트를 시프팅하는 단계를 포함하는
    방법.
  25. 제23항에 있어서,
    상기 현재 사운드 신호 프레임의 주기성 및 피치 사이클의 발생에 관한, 상기 지연 윤곽선으로부터의 정보를 검사하는 단계;
    상기 현재 사운드 신호 프레임의 주기성 및 피치 사이클의 발생에 대해 상기 지연 윤곽선에 의해 제공된 정보에 관련된 적어도 하나의 조건을 정의하는 단계;및
    상기 현재 사운드 신호 프레임의 주기성 및 피치 사이클의 발생에 대해 상기 지연 윤곽선에 의해 제공된 정보에 관련된 상기 적어도 하나의 조건이 만족되지 않는 경우, 상기 신호 변조를 중단하는 단계
    를 더 포함하는 방법.
  26. 제19항에 있어서,
    상기 신호 세그먼트의 시프트를 제한하는 단계 - 상기 제한 단계는 상기 프레임의 모든 신호 세그먼트에 임의의 기준(criteria)을 부과하는 단계를 포함함 - ; 및
    상기 임의의 기준이 관련되지 않는 경우, 상기 신호 변조 절차를 중단하고, 상기 본래의 사운드 신호를 유지하는 단계
    를 더 포함하는 방법.
  27. 제15항에 있어서,
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티(voice activity)의 부재(absence)를 검출하는 단계; 및
    상기 현재 프레임 내의 보이스 액티비티 부재의 검출에 응답하여 상기 사운드 신호의 현재 프레임을 코딩하는 신호-변조-디스에이블 모드를 선택하는 단계
    를 더 포함하는 방법.
  28. 제15항에 있어서,
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티의 존재(presence)를 검출하는 단계;
    상기 현재 프레임을 무성(unvoiced) 사운드 신호 프레임으로 분류하는 단계; 및
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티 존재를 검출하고, 상기 현재 프레임을 무성 사운드 신호 프레임으로 분류하는 것에 응답하여, 상기 사운드 신호의 현재 프레임을 코딩하는 신호-변조-디스에이블 모드를 선택하는 단계
    를 더 포함하는 방법.
  29. 제15항에 있어서,
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티의 존재를 검출하는 단계;
    상기 현재 프레임을 유성(voiced) 사운드 신호 프레임으로 분류하는 단계;
    신호 변조가 성공적임을 검출하는 단계; 및
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티 존재를 검출하고, 상기 현재 프레임을 유성 사운드 신호 프레임으로 분류하고, 상기 신호 변조가 성공적임을 검출하는 것에 응답하여, 상기 사운드 신호의 현재 프레임을 코딩하는 신호-변조-디스에이블 모드를 선택하는 단계
    를 더 포함하는 방법.
  30. 제15항에 있어서,
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티의 존재를 검출하는 단계;
    상기 현재 프레임을 유성 사운드 신호 프레임으로 분류하는 단계;
    신호 변조가 성공적이지 않음을 검출하는 단계; 및
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티 존재를 검출하고, 상기 현재 프레임을 유성 사운드 신호 프레임으로 분류하고, 상기 신호 변조가 성공적이지 않음을 검출하는 것에 응답하여, 상기 사운드 신호의 현재 프레임을 코딩하는 신호-변조-디스에이블 모드를 선택하는 단계
    를 더 포함하는 방법.
  31. 사운드 신호를 디지털 방식으로 인코딩하기 위한 기술에 구현하기 위한 신호변조 장치에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 제1 분할 수단;
    상기 사운드 신호의 각 프레임을 다수의 신호 세그먼트로 구획하는 제2 분할 수단; 및
    상기 프레임의 신호 세그먼트의 적어도 일부에 제공되는 신호 세그먼트 워핑 수단 - 상기 워핑 수단은 상기 워핑된 신호 세그먼트를 상기 프레임 내부로 제한(constraining)하는 제한 수단을 포함함 -
    을 포함하는 장치.
  32. 제31항에 있어서,
    상기 사운드 신호는 피치 펄스를 포함하고,
    각 프레임은 경계(boundaries)를 포함하며,
    상기 제2 분할 수단은,
    상기 프레임의 사운드 신호 내의 피치 펄스를 검출하는 검출 수단; 및
    상기 프레임을, 상기 피치 펄스 중 하나를 각각 포함하고 상기 프레임의 경계 내에 각각 위치된 피치 사이클 세그먼트로 분할하는 분할 수단을 포함하는
    장치.
  33. 제32항에 있어서,
    상기 피치 펄스 검출 수단은 상기 프레임을 통해 보간된 개방-루프 피치 추정치를 이용하고,
    상기 신호 변조 장치는, 상기 검출된 피치 펄스의 위치와 상기 보간된 개방-루프 피치 추정치 사이의 거리가 주어진 조건을 만족하지 않는 경우에 활성화되는 신호 변조 절차 종료 수단을 더 포함하는
    장치.
  34. 제31항에 있어서,
    상기 사운드 신호의 각 프레임을 다수의 신호 세그먼트로 구획하는 제2 분할 수단은,
    가중 사운드 신호를 생성하기 위해 상기 사운드 신호를 가중하기 위한 필터링 수단; 및
    상기 가중 사운드 신호로부터 상기 신호 세그먼트를 추출하는 추출 수단을 포함하는
    장치.
  35. 제31항에 있어서,
    상기 신호 세그먼트 워핑 수단은,
    현재 신호 세그먼트에 대한 타겟 신호를 생성하는 계산 수단; 및
    상기 타겟 신호에 응답하여 상기 현재 신호 세그먼트에 대한 최적의 시프트를 찾는 수단을 포함하는
    장치.
  36. 제35항에 있어서,
    상기 타겟 신호 계산 수단은, 이전 프레임의 가중 합성 스피치 신호 또는 변조된 가중 스피치 신호로부터 타겟 신호를 생성하는 계산 수단을 포함하고,
    상기 현재 신호 세그먼트에 대한 최적의 시프트를 찾는 수단은, 상기 현재 신호 세그먼트와 상기 타겟 신호 사이를 상관짓는 계산 수단을 포함하는
    장치.
  37. 제36항에 있어서,
    상기 상관짓는 계산 수단은,
    상관성(correlation)을 최대화하는 신호 세그먼트 시프트를 찾기 위해, 상기상관성을 정수 해상도(interger resolution)로 평가하는 평가 수단; 및
    상기 상관성-최대화(correlation-maximizing) 신호 세그먼트 시프트를 둘러싸는 영역 내의 상기 상관성을 업샘플링하는 업샘플링 수단 - 상기 업샘플링 수단은 상기 현재 신호 세그먼트의 최적의 시프트를 탐색하는 탐색 수단을 포함하고, 상기 현재 신호 세그먼트의 최적의 시프트 탐색 수단은 상기 상관성을 분수 해상도로 평가하는 평가 수단을 포함함 - 을 포함하는
    장치.
  38. 제34항에 있어서,
    각 프레임은 경계를 포함하고,
    상기 신호 세그먼트 워핑 수단은,
    고전력 영역이 신호 세그먼트에 인접한 상기 프레임 경계에 가까운 상기 사운드 신호 내에 존재하는지를 검출하는 검출 수단; 및
    고전력 영역 검출의 검출 또는 부재에 따라 상기 신호 세그먼트를 시프팅하는 시프팅 수단을 포함하는
    장치.
  39. 제31항에 있어서,
    상기 신호 세그먼트 워핑 수단을,
    상기 현재 프레임을 통해 보간된 장기간 예측 지연 파라미터를 정의하는 지연 윤곽선을 형성하고, 상기 현재 사운드 신호 프레임의 주기성 및 피치 사이클의 발생에 관한 추가 정보를 제공하는 계산 수단; 및
    개별적인 피치 사이클 세그먼트를 상기 지연 윤곽선에 대해 조정하기 위해 하나씩 시프팅하는 시프팅 수단을 포함하는
    장치.
  40. 제39항에 있어서,
    상기 개별 피치 사이클 세그먼트 시프팅 수단은,
    상기 지연 윤곽선을 이용하여 타겟 신호를 형성하는 계산 수단; 및
    상기 타겟 신호와 상기 피치 사이클 세그먼트의 상관성을 최대화하기 위해, 상기 피치 사이클 세그먼트를 시프팅하는 시프팅 수단을 포함하는
    장치.
  41. 제40항에 있어서,
    상기 현재 사운드 신호 프레임의 주기성 및 피치 사이클의 발생에 관한, 상기 지연 윤곽선으로부터의 정보를 검사하는 평가 수단;
    상기 현재 사운드 신호 프레임의 주기성 및 피치 사이클의 발생에 대해 상기 지연 윤곽선에 의해 제공된 정보에 관련된 적어도 하나의 조건을 정의하는 정의 수단; 및
    상기 현재 사운드 신호 프레임의 주기성 및 피치 사이클의 발생에 대해 상기 지연 윤곽선에 의해 제공된 정보에 관련된 상기 적어도 하나의 조건이 만족되지 않는 경우, 상기 신호 변조를 중단하는 종료 수단
    을 더 포함하는 장치.
  42. 제35항에 있어서,
    상기 피치 사이클 세그먼트의 시프트를 제한하는 제한 수단 - 상기 제한 수단은 상기 프레임의 모든 신호 세그먼트에 임의의 기준을 부과하는 부과 수단을 포함함 - ; 및
    상기 임의의 기준이 관련되지 않는 경우, 상기 신호 변조 절차를 중단하는 종료 수단
    을 더 포함하는 장치.
  43. 제31항에 있어서,
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티의 부재를 검출하는검출 수단; 및
    상기 현재 프레임 내의 보이스 액티비티 부재의 검출에 응답하여 상기 사운드 신호의 현재 프레임을 코딩하는 신호-변조-디스에이블 모드를 선택하는 선택 수단
    을 더 포함하는 장치.
  44. 제31항에 있어서,
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티의 존재를 검출하는 검출 수단;
    상기 현재 프레임을 무성 사운드 신호 프레임으로 분류하는 분류 수단; 및
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티 존재를 검출하고, 상기 현재 프레임을 무성 사운드 신호 프레임으로 분류하는 것에 응답하여, 상기 사운드 신호의 현재 프레임을 코딩하는 신호-변조-디스에이블 모드를 선택하는 선택 수단
    을 더 포함하는 장치.
  45. 제31항에 있어서,
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티의 존재를 검출하는검출 수단;
    상기 현재 프레임을 유성 사운드 신호 프레임으로 분류하는 분류 수단;
    신호 변조가 성공적임을 검출하는 검출 수단; 및
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티 존재를 검출하고, 상기 현재 프레임을 유성 사운드 신호 프레임으로 분류하고, 상기 신호 변조가 성공적임을 검출하는 것에 응답하여, 상기 사운드 신호의 현재 프레임을 코딩하는 신호-변조-디스에이블 모드를 선택하는 선택 수단
    을 더 포함하는 장치.
  46. 제31항에 있어서,
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티의 존재를 검출하는 검출 수단;
    상기 현재 프레임을 유성 사운드 신호 프레임으로 분류하는 분류 수단;
    신호 변조가 성공적이지 않음을 검출하는 검출 수단; 및
    상기 사운드 신호의 현재 프레임 내의 보이스 액티비티 존재를 검출하고, 상기 현재 프레임을 유성 사운드 신호 프레임으로 분류하고, 상기 신호 변조가 성공적이지 않음을 검출하는 것에 응답하여, 상기 사운드 신호의 현재 프레임을 코딩하는 신호-변조-디스에이블 모드를 선택하는 선택 수단
    을 더 포함하는 장치.
  47. 사운드 신호 내의 피치 펄스를 탐색하기 위한 방법에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계;
    각 프레임을 다수의 서브프레임으로 분할하는 단계;
    선형 예측 분석 필터를 통해 상기 사운드 신호를 필터링함으로써 잔여 신호(residual signal)를 생성하는 단계;
    상기 잔여 신호로부터 상기 이전 프레임의 상기 사운드 신호의 최종 피치 펄스를 검출하는 단계;
    상기 잔여 신호를 이용하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입(prototype)을 추출하는 단계; 및
    상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 단계
    를 포함하는 방법.
  48. 제47항에 있어서,
    상기 이전에 검출된 피치 펄스의 위치에 관련된 인스턴트(instant)와 상기 이전에 검출된 피치 펄스의 위치에 대응하는 인스턴트에서 보간된 개방-루프 피치 추정치를 발생하기 위해, 상기 현재 프레임의 제1 피치 펄스의 위치를 예측하는 단계; 및
    상기 펄스 프로토타입과 상기 잔여 신호 사이의 가중 상관성을 최대화함으로써, 상기 피치 펄스의 예측된 위치를 정제(refining)하는 단계
    를 더 포함하는 방법.
  49. 제48항에 있어서,
    상기 예측 및 정제가 상기 현재 프레임 외부에 위치된 피치 펄스 위치를 나타낼 때까지, 상기 피치 펄스 위치의 예측 및 예측된 위치의 정제를 반복하는 단계
    를 더 포함하는 방법.
  50. 사운드 신호 내의 피치 펄스를 탐색하기 위한 장치에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 분할 수단;
    각 프레임을 다수의 서브프레임으로 분할하는 분할 수단;
    상기 사운드 신호를 필터링하여 잔여 신호를 생성하기 위한 선형 예측 분석 필터링 수단;
    상기 잔여 신호에 응답하여 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 검출 수단;
    상기 잔여 신호에 응답하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 추출 수단; 및
    상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 검출 수단
    을 포함하는 장치.
  51. 제50항에 있어서,
    상기 이전에 검출된 피치 펄스의 위치에 관련된 인스턴트와 상기 이전에 검출된 피치 펄스의 위치에 대응하는 인스턴트에서 보간된 개방-루프 피치 추정치를 발생하기 위해, 상기 현재 프레임의 제1 피치 펄스의 위치를 예측하는 예측 수단; 및
    상기 펄스 프로토타입과 상기 잔여 신호 사이의 가중 상관성을 최대화함으로써, 상기 피치 펄스의 예측된 위치를 정제하는 정제 수단
    을 더 포함하는 장치.
  52. 제51항에 있어서,
    상기 예측 및 정제가 상기 현재 프레임 외부에 위치된 피치 펄스 위치를 나타낼 때까지, 상기 피치 펄스 위치의 예측 및 예측된 위치의 정제를 반복하는 반복 수단
    을 더 포함하는 장치.
  53. 사운드 신호 내의 피치 펄스를 탐색하기 위한 방법에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계;
    각 프레임을 다수의 서브프레임으로 분할하는 단계;
    가중 필터를 통해 상기 사운드 신호를 처리함으로써 가중 사운드 신호를 생성하는 단계 - 상기 가중 사운드 신호는 신호 주기성을 나타냄 -;
    상기 가중 사운드 신호로부터 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 단계;
    상기 가중 사운드 신호를 이용하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 단계; 및
    상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 단계
    를 포함하는 방법.
  54. 제53항에 있어서,
    상기 이전에 검출된 피치 펄스의 위치에 관련된 인스턴트와 상기 이전에 검출된 피치 펄스의 위치에 대응하는 인스턴트에서 보간된 개방-루프 피치 추정치를 발생하기 위해, 상기 현재 프레임의 제1 피치 펄스의 위치를 예측하는 단계; 및
    상기 펄스 프로토타입과 상기 가중 사운드 신호 사이의 가중 상관성을 최대화함으로써, 상기 피치 펄스의 예측된 위치를 정제하는 단계
    를 더 포함하는 방법.
  55. 제54항에 있어서,
    상기 예측 및 정제가 상기 현재 프레임 외부에 위치된 피치 펄스 위치를 나타낼 때까지, 상기 피치 펄스 위치의 예측 및 예측된 위치의 정제를 반복하는 단계
    를 더 포함하는 방법.
  56. 사운드 신호 내의 피치 펄스를 탐색하기 위한 장치에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 분할 수단;
    각 프레임을 다수의 서브프레임으로 분할하는 분할 수단;
    가중 사운드 신호를 처리하기 위해 상기 사운드 신호를 생성하기 위한 가중 필터링 수단 - 상기 가중 사운드 신호는 신호 주기성을 나타냄 -;
    상기 가중 사운드 신호에 응답하여 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 검출 수단;
    상기 가중 사운드 신호에 응답하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 추출 수단; 및
    상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 검출 수단
    을 포함하는 장치.
  57. 제56항에 있어서,
    상기 이전에 검출된 피치 펄스의 위치에 관련된 인스턴트와 상기 이전에 검출된 피치 펄스의 위치에 대응하는 인스턴트에서 보간된 개방-루프 피치 추정치를 발생하기 위해, 상기 현재 프레임의 제1 피치 펄스의 위치를 예측하는 예측 수단; 및
    상기 펄스 프로토타입과 상기 가중 사운드 신호 사이의 가중 상관성을 최대화함으로써, 상기 피치 펄스의 예측된 위치를 정제하는 정제 수단
    을 더 포함하는 장치.
  58. 제57항에 있어서,
    상기 예측 및 정제가 상기 현재 프레임 외부에 위치된 피치 펄스 위치를 나타낼 때까지, 상기 피치 펄스 위치의 예측 및 예측된 위치의 정제를 반복하는 반복 수단
    을 더 포함하는 장치.
  59. 사운드 신호 내의 피치 펄스를 탐색하기 위한 방법에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 단계;
    각 프레임을 다수의 서브프레임으로 분할하는 단계;
    가중 필터를 통해 상기 사운드 신호의 이전 프레임의 최종 서브프레임 동안에 생성된 합성 스피치 신호를 필터링함으로써, 합성된 가중 사운드 신호를 생성하는 단계;
    상기 합성된 가중 사운드 신호로부터 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 단계;
    상기 합성된 가중 사운드 신호를 이용하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 단계; 및
    상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 단계
    를 포함하는 방법.
  60. 제59항에 있어서,
    상기 이전에 검출된 피치 펄스의 위치에 관련된 인스턴트와 상기 이전에 검출된 피치 펄스의 위치에 대응하는 인스턴트에서 보간된 개방-루프 피치 추정치를발생하기 위해, 상기 현재 프레임의 제1 피치 펄스의 위치를 예측하는 단계; 및
    상기 펄스 프로토타입과 상기 합성된 가중 사운드 신호 사이의 가중 상관성을 최대화함으로써, 상기 피치 펄스의 예측된 위치를 정제하는 단계
    를 더 포함하는 방법.
  61. 제60항에 있어서,
    상기 예측 및 정제가 상기 현재 프레임 외부에 위치된 피치 펄스 위치를 나타낼 때까지, 상기 피치 펄스 위치의 예측 및 예측된 위치의 정제를 반복하는 단계
    를 더 포함하는 방법.
  62. 사운드 신호 내의 피치 펄스를 탐색하기 위한 장치에 있어서,
    상기 사운드 신호를 일련의 연속된 프레임으로 분할하는 분할 수단;
    각 프레임을 다수의 서브프레임으로 분할하는 분할 수단;
    상기 사운드 신호의 이전 프레임의 최종 서브프레임 동안에 생성된 합성 스피치 신호를 필터링하여 합성된 가중 사운드 신호를 생성하는 가중 필터링 수단;
    상기 합성된 가중 사운드 신호에 응답하여 상기 이전 프레임의 사운드 신호의 최종 피치 펄스를 검출하는 검출 수단;
    상기 합성된 가중 사운드 신호를 이용하여 상기 이전 프레임의 상기 최종 피치 펄스의 위치 주위에서 주어진 길이의 피치 펄스 프로토타입을 추출하는 추출 수단; 및
    상기 피치 펄스 프로토타입을 이용하여 현재 프레임 내의 피치 펄스를 검출하는 검출 수단
    을 포함하는 장치.
  63. 제62항에 있어서,
    상기 이전에 검출된 피치 펄스의 위치에 관련된 인스턴트와 상기 이전에 검출된 피치 펄스의 위치에 대응하는 인스턴트에서 보간된 개방-루프 피치 추정치를 발생하기 위해, 상기 현재 프레임의 제1 피치 펄스의 위치를 예측하는 예측 수단; 및
    상기 펄스 프로토타입과 상기 합성된 가중 사운드 신호 사이의 가중 상관성을 최대화함으로써, 상기 피치 펄스의 예측된 위치를 정제하는 정제 수단
    을 더 포함하는 장치.
  64. 제63항에 있어서,
    상기 예측 및 정제가 상기 현재 프레임 외부에 위치된 피치 펄스 위치를 나타낼 때까지, 상기 피치 펄스 위치의 예측 및 예측된 위치의 정제를 반복하는 반복수단
    을 더 포함하는 장치.
  65. 연속된 프레임으로 분할되어, 사운드 신호를 디지털 방식으로 인코딩하기 위해 신호 변조를 사용하는 기술을 이용하여 이전에 인코딩된 상기 사운드 신호의 디코딩 동안에 적응형 코드북 여기(adaptive codebook excitation)를 형성하기 위한 방법에 있어서,
    각 프레임에 대하여, 상기 디지털 사운드 신호 인코딩 기술에서 장기간 예측을 특징짓는 장기간 예측 지연 파라미터를 수신하는 단계;
    현재 프레임 동안에 수신된 장기간 예측 지연 파라미터 및 이전 프레임 동안에 수신된 장기간 예측 지연 파라미터를 이용하여 지연 윤곽선을 복구하는 단계 - 여기서, 상기 지연 윤곽선은 장기간 예측을 이용하여 상기 이전 프레임의 신호 특징을 상기 현재 프레임의 대응 신호 특징에 맵핑시킴 -; 및
    상기 지연 윤곽선에 응답하여 적응형 코드북 내에 상기 적응형 코드북 여기를 형성하는 단계
    를 포함하는 방법.
  66. 연속된 프레임으로 분할되어, 사운드 신호를 디지털 방식으로 인코딩하기 위해 신호 변조를 사용하는 기술을 이용하여 이전에 인코딩된 상기 사운드 신호의 디코딩 동안에 적응형 코드북 여기를 형성하기 위한 장치에 있어서,
    각 프레임의 장기간 예측 지연 파라미터를 수신하는 수신 수단 - 여기서, 상기 장기간 예측 지연 파라미터는 상기 디지털 사운드 신호 인코딩 기술에서 장기간 예측을 특징지음 -;
    현재 프레임 동안에 수신된 장기간 예측 지연 파라미터 및 이전 프레임 동안에 수신된 장기간 예측 지연 파라미터에 응답하여 지연 윤곽선을 복구하는 계산 수단 - 여기서, 상기 지연 윤곽선은 장기간 예측을 이용하여 상기 이전 프레임의 신호 특징을 상기 현재 프레임의 대응 신호 특징에 맵핑시킴 -; 및
    상기 지연 윤곽선에 응답하여 상기 적응형 코드북 여기를 형성하기 위한 적응형 코드북
    을 포함하는 장치.
KR10-2004-7009260A 2001-12-14 2002-12-13 스피치 신호의 효과적인 코딩을 위한 신호 변조 방법 KR20040072658A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CA002365203A CA2365203A1 (en) 2001-12-14 2001-12-14 A signal modification method for efficient coding of speech signals
CA2,365,203 2001-12-14
PCT/CA2002/001948 WO2003052744A2 (en) 2001-12-14 2002-12-13 Signal modification method for efficient coding of speech signals

Publications (1)

Publication Number Publication Date
KR20040072658A true KR20040072658A (ko) 2004-08-18

Family

ID=4170862

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7009260A KR20040072658A (ko) 2001-12-14 2002-12-13 스피치 신호의 효과적인 코딩을 위한 신호 변조 방법

Country Status (19)

Country Link
US (2) US7680651B2 (ko)
EP (2) EP1758101A1 (ko)
JP (1) JP2005513539A (ko)
KR (1) KR20040072658A (ko)
CN (2) CN101488345B (ko)
AT (1) ATE358870T1 (ko)
AU (1) AU2002350340B2 (ko)
BR (1) BR0214920A (ko)
CA (1) CA2365203A1 (ko)
DE (1) DE60219351T2 (ko)
ES (1) ES2283613T3 (ko)
HK (2) HK1069472A1 (ko)
MX (1) MXPA04005764A (ko)
MY (1) MY131886A (ko)
NO (1) NO20042974L (ko)
NZ (1) NZ533416A (ko)
RU (1) RU2302665C2 (ko)
WO (1) WO2003052744A2 (ko)
ZA (1) ZA200404625B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190057376A (ko) * 2016-10-04 2019-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 피치 정보를 결정하는 장치 및 방법

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
US20060221059A1 (en) * 2005-04-01 2006-10-05 Samsung Electronics Co., Ltd. Portable terminal having display buttons and method of inputting functions using display buttons
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
US7974837B2 (en) * 2005-06-23 2011-07-05 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, and audio encoded information transmitting apparatus
RU2008105555A (ru) * 2005-07-14 2009-08-20 Конинклейке Филипс Электроникс Н.В. (Nl) Синтез аудиосигнала
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
WO2007124582A1 (en) * 2006-04-27 2007-11-08 Technologies Humanware Canada Inc. Method for the time scaling of an audio signal
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
EP2128855A1 (en) 2007-03-02 2009-12-02 Panasonic Corporation Voice encoding device and voice encoding method
US8312492B2 (en) * 2007-03-19 2012-11-13 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8355921B2 (en) * 2008-06-13 2013-01-15 Nokia Corporation Method, apparatus and computer program product for providing improved audio processing
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2379761T3 (es) * 2008-07-11 2012-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Proporcinar una señal de activación de distorsión de tiempo y codificar una señal de audio con la misma
GB2466669B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466670B (en) 2009-01-06 2012-11-14 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
US20100225473A1 (en) * 2009-03-05 2010-09-09 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Postural information system and method
WO2010134759A2 (ko) 2009-05-19 2010-11-25 한국전자통신연구원 Mdct-tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
US8452606B2 (en) 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
ES2508590T3 (es) * 2010-01-08 2014-10-16 Nippon Telegraph And Telephone Corporation Método de codificación, método de decodificación, aparato codificador, aparato decodificador, programa y medio de grabación
JP5625076B2 (ja) * 2010-03-10 2014-11-12 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. コーディングコンテキストのピッチ依存適合を用いた、オーディオ信号復号器、オーディオ信号符号化器、オーディオ信号を復号するための方法、オーディオ信号を符号化するための方法、およびコンピュータプログラム
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
ES2938725T3 (es) 2010-09-16 2023-04-14 Dolby Int Ab Transposición armónica basada en bloque de subbanda mejorado de producto cruzado
WO2012103686A1 (en) * 2011-02-01 2012-08-09 Huawei Technologies Co., Ltd. Method and apparatus for providing signal processing coefficients
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
AU2012217215B2 (en) 2011-02-14 2015-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (USAC)
RU2586838C2 (ru) * 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодек, использующий синтез шума в течение неактивной фазы
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
TWI483245B (zh) 2011-02-14 2015-05-01 Fraunhofer Ges Forschung 利用重疊變換之資訊信號表示技術
EP2676268B1 (en) 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
US9015044B2 (en) * 2012-03-05 2015-04-21 Malaspina Labs (Barbados) Inc. Formant based speech reconstruction from noisy signals
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9830920B2 (en) 2012-08-19 2017-11-28 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9208775B2 (en) 2013-02-21 2015-12-08 Qualcomm Incorporated Systems and methods for determining pitch pulse period signal boundaries
MY181026A (en) 2013-06-21 2020-12-16 Fraunhofer Ges Forschung Apparatus and method realizing improved concepts for tcx ltp
BR112016016310B1 (pt) * 2014-01-14 2022-06-07 Interactive Intelligence Group, Inc Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
KR102422794B1 (ko) * 2015-09-04 2022-07-20 삼성전자주식회사 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2258751B1 (ko) * 1974-01-18 1978-12-08 Thomson Csf
CA2102080C (en) 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6223151B1 (en) * 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190057376A (ko) * 2016-10-04 2019-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 피치 정보를 결정하는 장치 및 방법

Also Published As

Publication number Publication date
CN101488345A (zh) 2009-07-22
DE60219351T2 (de) 2007-08-02
EP1454315B1 (en) 2007-04-04
US8121833B2 (en) 2012-02-21
US20050071153A1 (en) 2005-03-31
BR0214920A (pt) 2004-12-21
CA2365203A1 (en) 2003-06-14
EP1758101A1 (en) 2007-02-28
DE60219351D1 (de) 2007-05-16
NZ533416A (en) 2006-09-29
JP2005513539A (ja) 2005-05-12
US20090063139A1 (en) 2009-03-05
WO2003052744A3 (en) 2004-02-05
CN101488345B (zh) 2013-07-24
CN1618093A (zh) 2005-05-18
ATE358870T1 (de) 2007-04-15
EP1454315A2 (en) 2004-09-08
HK1069472A1 (en) 2005-05-20
ZA200404625B (en) 2006-05-31
ES2283613T3 (es) 2007-11-01
NO20042974L (no) 2004-09-14
AU2002350340A1 (en) 2003-06-30
RU2004121463A (ru) 2006-01-10
WO2003052744A2 (en) 2003-06-26
AU2002350340B2 (en) 2008-07-24
MY131886A (en) 2007-09-28
MXPA04005764A (es) 2005-06-08
US7680651B2 (en) 2010-03-16
RU2302665C2 (ru) 2007-07-10
HK1133730A1 (en) 2010-04-01

Similar Documents

Publication Publication Date Title
KR20040072658A (ko) 스피치 신호의 효과적인 코딩을 위한 신호 변조 방법
KR100732659B1 (ko) 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
KR100873836B1 (ko) Celp 트랜스코딩
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
KR100711280B1 (ko) 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
JP5476160B2 (ja) 線スペクトル周波数の量子化のための符号帳の共有
JP5173939B2 (ja) Cdma無線システム用可変ビットレート広帯域音声符号化時における効率のよい帯域内ディム・アンド・バースト(dim−and−burst)シグナリングとハーフレートマックス処理のための方法および装置
KR100718712B1 (ko) 복호장치와 방법 및 프로그램 제공매체
FI113571B (fi) Puheenkoodaus
JP2002055699A (ja) 音声符号化装置および音声符号化方法
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JP2004163959A (ja) 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置
KR100409166B1 (ko) 지연 윤곽 조정을 사용하여 정보 신호를 코딩하는 방법 및장치
JPH05232995A (ja) 一般化された合成による分析音声符号化方法と装置
CA2469774A1 (en) Signal modification method for efficient coding of speech signals

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application