KR100550003B1 - 상호부호화기에서 개회로 피치 추정 방법 및 그 장치 - Google Patents

상호부호화기에서 개회로 피치 추정 방법 및 그 장치 Download PDF

Info

Publication number
KR100550003B1
KR100550003B1 KR1020030047454A KR20030047454A KR100550003B1 KR 100550003 B1 KR100550003 B1 KR 100550003B1 KR 1020030047454 A KR1020030047454 A KR 1020030047454A KR 20030047454 A KR20030047454 A KR 20030047454A KR 100550003 B1 KR100550003 B1 KR 100550003B1
Authority
KR
South Korea
Prior art keywords
loop pitch
open
pitch
closed
loop
Prior art date
Application number
KR1020030047454A
Other languages
English (en)
Other versions
KR20050007853A (ko
Inventor
성종모
김현우
김도영
윤성완
최진규
강홍구
박영철
윤대희
Original Assignee
학교법인연세대학교
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인연세대학교, 한국전자통신연구원 filed Critical 학교법인연세대학교
Priority to KR1020030047454A priority Critical patent/KR100550003B1/ko
Publication of KR20050007853A publication Critical patent/KR20050007853A/ko
Application granted granted Critical
Publication of KR100550003B1 publication Critical patent/KR100550003B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

상호부호화기에서 개회로 피치 추정 방법 및 그 장치가 개시된다. 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 본 발명에 따른 개회로 피치 추정 방법은, 입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 추출하는 (a)단계, 복호화된 음성 신호를 사람의 청각기관 특성을 고려한 지각가중필터 처리를 하는 (b)단계, 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 지각가중필터링된 음성신호의 개-루프 피치를 검색하는 (c)단계 및 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 생성하는 (d)단계를 포함하는 것을 특징으로 하며, 기존 재-검색 방식보다 음질 저하를 줄일 수 있으며, 계산량 감소 효과를 얻을 수 있다.

Description

상호부호화기에서 개회로 피치 추정 방법 및 그 장치{Open-loop pitch estimation method in transcoder and apparatus thereof}
도 1은 탠덤 방식과 비트스트림 매핑 방식의 상호부호화 과정을 비교한 도면이다.
도 2는 도 1의 비트스트림 매핑 방식에서 상호부호화기를 나타낸 블록도이다.
도 3은 종래의 재-검색 방식을 이용한 피치 변환 방법을 나타낸 순서도이다.
도 4는 서로 다른 CELP 방식의 음성 코덱 사이의 상호부호화기에서 본 발명에 따른 개-루프 피치 추정 장치의 일실시예를 개략적으로 나타내는 블록도이다.
도 5는 개-루프 피치 검색 범위 결정 방법의 본 발명에 따른 일실시예를 나타낸다.
도 6은 도 5에서 구해진 개-루프 피치 검색 범위에 대해서 도 4의 개-루프 피치 검색기에서 수행되는 개-루프 피치 검색 방법의 일실시예를 나타내는 흐름도이다.
본 발명은 켈프 (CELP: Code-Excited Linear Prediction) 방식의 음성 코딩 기술에 관한 것으로, 특히 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 개회로 피치 추정 방법 및 그 장치에 관한 것이다.
음성을 디지털로 전송하는 기술은 기존 전화망을 비롯한 유선 통신뿐만 아니라 무선 통신 및 최근 많은 관심을 끌고 있는 VoIP(Voice over Internet Protocol) 망에서도 널리 사용되고 있다. 음성을 단순히 8 kHz로 샘플링 후 샘플당 8 bit로 부호화하여 전송한다면, 64 kbps(kilo bits per second) 정도의 데이터 전송율을 필요로 한다. 그러나, 음성 분석과 적절한 코딩 방식을 채용한다면 훨씬 더 낮은 전송율로 음성을 고품질로 전송할 수 있다.
음성 생성 모델로부터 파라미터를 추출하여 음성을 압축하는 장치를 보통 보코더(vocoder)라고 부른다. 이러한 장치는 입력 음성으로부터 파라미터들의 추출을 위해 음성을 분석하는 부호화기와 전송 채널을 통해 전송된 파라미터로부터 수신 측에서 재합성하는 복호화기로 구성된다. 선형 예측 기반의 타임-도메인 보코더는 최근까지 가장 널리 사용되고 있다. 이러한 선형예측 기반의 타임-도메인 보코더는 과거 음성 샘플들로부터 현재 음성 샘플을 예측하여 원 샘플과의 오류가 최소가 되도록 하는 예측 필터의 계수를 계산하고, 예측 필터를 통과한 오류 신호를 적응 코드북과 고정 코드북으로 모델링하는 방식을 이용한다.
보코더의 기능은 음성 자체에 존재하는 중복성(Redundancy)을 제거함으로써, 낮은 전송 비트율로 음성 신호를 압축하는 것이다. 일반적으로, 음성은 입술과 혀의 필터링 동작으로 인한 단기간 중복성과 성대의 떨림으로 인한 장기간 중복성을 갖는 것으로 알려져 있다. CELP 기반의 보코더는 이러한 두 가지 특성을 각각의 필터로 모델링하는데, 이들을 각각 단기간 포만트 필터와 장기간 피치 필터라고 부른다. 이 두 개의 필터를 통해서 중복성이 제거되고 남는 잔여 신호는 CELP의 종류에 따라 백색 가우시안 잡음(White Gaussian Noise) 혹은 다중 펄스(multi-pulse) 등으로 모델링되어 부호화될 수 있다. 이러한 기술의 근간은 두 필터의 계수를 계산하는 것이다. 포만트 필터 혹은 LPC (Linear Predictive Coding) 필터는 음성의 단기간 예측 과정을 수행하고, 피치 필터는 음성의 장기간 예측 과정을 수행한다. 마지막으로 잔여 신호는 합성에 의한 분석(analysis-by-synthesis) 기법을 이용해서 최적의 신호로 모델링 된다. 이러한 분석을 통해서 채널로 전송되는 파라미터는 포만트 정보와 피치 정보 및 잔여 신호 정보 등을 포함한다.
최근 음성 전송을 위한 여러 가지 망이 공존하고 있다. 그러나, 이들 망에서 각각의 망 특성을 고려한 특정한 코덱을 채용하고 있기 때문에 망간 연동을 위해서는 서로 다른 코덱간 포맷 변환 작업을 필요로 하게 된다. 이 작업을 상호부호화(transcoding) 과정이라고 부르며 이 작업을 수행하는 장치를 상호부호화기(transcoder)라 한다. 상호부호화 과정을 위해 종래에는 단순히 한 코덱의 복호화기와 다른 코덱의 부호화기를 이어 붙이는 탠덤(tandem) 방식이 사용되었다. 그러나, 이 탠덤 방식의 상호부호화 과정은 음성 부호화와 복호화 과정을 두 번 거침으로 인해서 음질 저하, 알고리즘 지연 증가 및 계산량 증가 등의 단점을 가진다. 이러한 단점을 보완하기 위해, 탠덤 방식에서와 같이 복호화 과정을 거치지 않고 부호화된 비트스트림에서 직접 변환을 수행하는 비트스트림 매핑 방식의 상호부 호화가 사용된다.
도 1은 탠덤 방식과 비트스트림 매핑 방식의 상호부호화 과정을 비교한 도면이다. 도 1(a)을 참조하여, 탠덤 방식은 송신단에서 입력 음성 신호를 부호화기(102)를 통해서 비트스트림(A)로 부호화한 다음 제1채널(104)로 전송한다. 제1채널(104)을 통해서 수신된 비트스트림(A)은 상호부호화기(114)의 복호화기(106)를 통해서 복호화되어 PCM(Pulse-Coded Modulation) 신호로 바뀐다. 복호화된 PCM 신호는 상호부호화기(114)의 부호화기(108)를 통해서 비트스트림(B)으로 부호화되어 제2채널(110)을 통해 최종 수신단의 복호화기(112)로 전송된다. 수신단의 복호화기(112)를 통해 출력 음성 신호가 얻어진다. 여기서 탠덤 방식의 상호부호화기(114)는 복호화기(106)와 부호화기(108)로 구성된다. 반면, 도 1(b)의 비트스트림 매핑 상호부호화 방식에서는, 송신단에서 탠덤 방식과 마찬가지로 입력 음성 신호가 부호화기(152)를 통해서 비트스트림(A)로 부호화되어 제1채널(154)을 통해 상호부호화기(156)로 전송된다. 상호부호화기(156)는 수신된 비트스트림(A)를 비트스트림 매핑 방식을 이용하여 직접 비트스트림(B)로 변환하여 제2채널(158)로 전송한다. 수신단의 복호화기(160)는 제2채널(158)를 통해 수신된 비트스트림(B)을 복호화하여 출력 음성 신호를 생성한다.
도 2는 도 1의 비트스트림 매핑 방식에서 상호부호화기(156)를 나타낸 블록도이다. CELP 코덱으로 부호화된 비트스트림은 일반적으로 포만트 필터의 계수로 표현되는 포만트 파라미터와 피치 정보에 해당하는 적응 코드북 파라미터, 잔여 신호를 모델링하는 고정 코드북 파라미터로 이루어져있다. 상호부호화기는 입력 CELP 포맷의 비트스트림A로부터 각각의 파라미터를 추출하고 역-양자화하는 역-양자화 부(201), 각 파라미터를 매핑하는 포만트 파라미터 매핑부(202), 적응 코드북 매핑 부(203) 및 고정 코드북 매핑부(204)와, 매핑된 각각의 파라미터들을 출력 CELP 포맷으로 양자화하고 비트스트림B으로 변환하는 양자화부(205)로 구성된다.
한편, 텐덤 방식 및 비트스트림 맵핑 방식에서 피치 정보를 변환하기 위한 종래의 방식으로는 입력 CELP 포맷으로 부호화된 비트스트림A를 입력 CELP 포맷의 복호화기를 통해서 복호화 한 다음, 출력 CELP 포맷 부호화기의 피치 검색 방법을 적용하는 재-검색 방식이 사용된다. 도 3은 종래의 재-검색 방식을 이용한 피치 변환 방법을 나타낸 순서도이다. 입력 비트스트림A를 복호화기A를 이용해서 복호화 과정을 수행한다(제301단계). 복호화된 음성에 대해서 청각기관의 인지특성을 반영하도록 지각가중필터링을 적용한 후(제302단계), 개-루프 피치를 찾는다(제303단계). 제303단계에서 검색된 개-루프 피치로부터 폐-루프 피치 검색을 위한 검색 범위를 결정한다(제304단계). 제304단계에서 결정된 검색 범위에 대해서 폐-루프 피치 검색을 수행함으로써(제305단계) 출력 CELP 포맷에 해당하는 피치를 얻게 된다. 도 3에 도시된 바와 같이, 재-검색 방식을 비롯한 일반적인 CELP 코덱 부호화기에서 피치 검색은 개-루프 피치 검색과 폐-루프 피치 검색의 두 단계를 통해서 이루어진다. 이는 폐-루프 피치 검색 시에 개-루프 피치로부터 검색 구간을 제한함으로써 계산량을 줄이기 위함이다. 음성에서 피치 존재 구간인 약 2 ms에서 20 ms 구간에서 지각가중필터링된 음성의 자기상관 함수 혹은 정규화된 자기상관 함수가 최대가 되는 지연을 찾는 것으로 개-루프 피치를 검색한다. 이러한 재-검색 방법은 입 력 CELP 포맷으로 부호화된 피치 정보를 이용하지 않고 개-루프 피치 정보를 다시 검색하므로 해서 많은 계산량을 필요로한다. 또한, 두 음성 부호화기의 개-루프 피치 추정 과정이 서로 상이함으로 해서 두 번의 개-루프 피치 검색 과정을 통해 발생될 수 있는 피치의 부정확성은 폐-루프 피치 값에 직접적으로 영향을 미치게 되어 최종적으로 수신단에서 복호화된 음성의 음질이 저하된다.
본 발명이 이루고자 하는 기술적 과제는 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화기에서 계산량을 줄이면서 높은 음질을 제공하기 위한 개-루프 피치 추정 방법 및 그 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 상기 개-루프 피치 추정 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록된 기록 매체를 제공하는 데 있다.
상기 과제를 이루기 위해, 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 본 발명에 따른 개회로 피치 추정 방법은, 입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 추출하는 (a)단계, 복호화된 음성 신호를 사람의 청각기관 특성을 고려한 지각가중필터 처리를 하는 (b)단계, 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 지 각가중필터링된 음성신호의 개-루프 피치를 검색하는 (c)단계 및 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 생성하는 (d)단계를 포함하는 것이 바람직하다.
상기 과제를 이루기 위해, 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 본 발명에 따른 개회로 피치 추정 장치는, 입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 추출하는 복호화 처리부, 복호화된 음성 신호에 사람의 청각기관 특성을 고려한 지각가중필터링를 수행하는 지각가중필터, 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 지각가중필터링된 음성신호의 개-루프 피치를 검색하는 개-루프 피치 검색부 및 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 출력하는 폐-루프 피치 검색부를 포함하는 것이 바람직하다.
도 4는 서로 다른 CELP 방식의 음성 코덱 사이의 상호부호화기에서 본 발명에 따른 개-루프 피치 추정 장치의 일실시예를 개략적으로 나타내는 블록도이다. 본 발명에 따른 개-루프 피치 추정 장치는 복호화기(401), 지각가중필터(402), 개-루프 피치 검색 범위 결정부(403), 개-루프 피치 검색부(404), 폐-루프 피치 검색 범위 결정부(405) 및 폐-루프 피치 검색부(406)를 포함하여 구성된다.
도 4를 참조하여, 복호화 처리부(401)는 입력 CELP 코덱 포맷으로 부호화된 비트스트림A를 음성 신호A로 변환하고 각 부-프레임에 대한 폐-루프 피치A를 추출한다.
지각가중필터(402)는 복호화된 음성 신호에 사람의 청각기관 특성을 고려한 지각가중필터링를 수행한다.
개-루프 피치 검색부(407)는 개-루프 피치 검색 범위를 결정하는 개-루프 피치 검색 범위 결정기(403)와 결정된 개-루프 피치 검색 범위에서 개-루프 피치를 검색하는 개-루프 피치 검색기(404)를 포함한다. 개-루프 피치 검색 범위 결정기(403)는 복호화 처리기(401)로부터 얻어진 복호화된 폐-루프 피치A와, 폐-루프 피치 검색기(406)로부터 얻어진 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치B 또는 동일 프레임의 이전 개-루프 피치 정보를 참고로 하여 분석 대상인 프레임의 개-루프 피치 검색 범위를 결정한다. 개-루프 피치 검색 범위 결정기(403)에서 개-루프 피치 검색 범위를 결정하는 방법에 대해서는 도 5를 참조하여 구체적으로 설명될 것이다. 개-루프 피치 검색기(404)는 개-루프 피치 검색 범위 결정기(403)에서 결정된 개-루프 피치 검색 범위에 대해서, 지각가중필터링된 음성신호의 개-루프 피치를 검색한다.
폐-루프 피치 검색부(408)는 개-루프 피치 검색기(404)로부터 얻어진 개-루프 피치를 이용하여 폐-루프 피치 검색 범위를 결정하는 폐-루프 피치 검색 범위 결정기(405)와, 결정된 폐-루프 피치 검색 범위에서 폐-루프 피치를 검색하는 폐- 루프 피치 검색기(406)를 포함한다.
도 5는 개-루프 피치 검색 범위 결정 방법의 본 발명에 따른 일실시예를 나타낸다. 도 5의 개-루프 피치 검색 범위 결정 방법은 3GPP(3rd Generation Project Partnership)의 음성 부호화 표준인 AMR-NB(Adaptive Multi Rate NarrowBand)에서 ITU-T (International Telecommunication Union Telecommunication) 표준인 G.723.1으로 상호부호화일 때의 개-루프 피치 검색 방법을 나타낸 것이다. AMR-NB는 20ms의 프레임 길이를 5ms의 부-프레임 단위로 분석하고, 개-루프 피치는 10ms 마다 검색한다. 이에 비해서, G.723.1은 30ms의 프레임 길이를 7.5ms의 부-프레임 단위로 분석하고, 개-루프 피치는 15ms마다 계산한다. 따라서, 상기 상호부호화에서는 AMR-NB 세 프레임을 G.723.1 두 프레임에 대응시킨다. 개-루프 피치 추정은 개-루프 분석 프레임의 위치에 따라 두 가지 형태로 나눌 수 있다. 첫 번째 경우는 이전 부-프레임의 폐-루프 피치와 AMR-NB의 비트스트림에서 복호화된 폐-루프 피치를 개-루프 피치 후보로 선정하는 방식으로, 첫 번째 개-루프 피치(Olp_g11)와 세 번째 개-루프 피치(Olp_g21)를 추정하는 경우에 해당한다. 그리고, 두 번째는 동일 프레임내에서 검색된 이전 개-루프 피치와 AMR-NB의 비트스트림에서 복호화된 폐-루프 피치를 개-루프 피치 후보로 선정하는 방식으로 두 번째 개-루프 피치(Olp_g12)와 네 번째 개-루프 피치(Olp_g22)를 추정하는 경우에 해당한다. 상기 첫 번째 경우 및 두 번째 경우에서 각각 선택된 피치 후보로부터, 개-루프 피치 추정을 위한 검색 범위는 상기 각 경우에 대해서 수학식 1과 수학식 2와 같이 구해진다.
첫 번째 경우:
Figure 112003025417084-pat00001
두 번째 경우:
Figure 112003025417084-pat00002
수학식 1 및 2에서, ClpAMR-NB는 AMR-NB 비트스트림에서 복호화된 폐-루프 피치이고, Clpprev는 이전 부-프레임의 폐-루프 피치이며, Olpprev는 동일 프레임의 이전 개-루프 피치이다. 또한, 수학식 1에서 후보1은 복호화된 폐-루프 피치에 대한 개-루프 피치 검색 범위이며, 후보2는 이전 프레임의 마지막 부-프레임의 폐-루프 피치에 대한 개-루프 피치 검색 범위이다. 또한, 수학식 2에서 후보1은 복호화된 폐-루프 피치에 대한 개-루프 피치 검색 범위이며, 후보2는 동일 프레임의 이전 개-루프 피치에 대한 개-루프 피치 검색 범위이다. 결과적으로, 종래 재-검색 방법을 사용할 경우 개-루프 피치 검색 횟수가 G.723.1의 경우 20번째 샘플에서 143번째까지 124번인데 반해서, 본 발명에 따른 개-루프 피치 검색 방법을 적용한다면 각 후보에 대해서 검색 횟수가 (diff+1)이므로 전체 검색 횟수는 2*(diff+1)이 된 다. 일반적으로 피치값은 각 프레임 혹은 부-프레임에 대해서 천천히 변하므로(즉, diff는 작은 값을 갖게 된다), 종래 방식보다 검색 횟수가 상당히 줄어듦을 알 수 있다.
도 6은 도 5에서 구해진 개-루프 피치 검색 범위에 대해서 도 4의 개-루프 피치 검색기(404)에서 수행되는 개-루프 피치 검색 방법의 일실시예를 나타내는 흐름도이다.
도 4 및 도 6을 참조하여, 도 4의 지각가중 필터(402)로부터 얻어진 음성 신호에 대해서 출력 CELP 코덱의 개-루프 피치 검색 방법을 이용하여 수학식 1 또는 수학식 2에서 정해진 개-루프 피치 검색 범위에 대해서 후보1 및 2에 대해서 개-루프 피치 검색을 수행한다(제601단계 및 제602단계). 제601단계 및 제602단계에서의 개-루프 피치 검색을 통해 후보 1에 대한 개-루프 피치 검색 결과로 피치 지연(t1)과 해당 피치에 대한 상관도 값(R1)을 얻으며, 동일하게 후보 2에 대해서도 피치 지연(t2)과 해당 상관도 값(R2)을 얻는다.
후보 1이 입력 CELP 포맷의 비트스트림에서 복호화된 폐-루프 피치에 대한 것이라고 하는 경우, 후보 1의 결과로 얻어진 피치에 좀 더 많은 가중치(w)를 주어 R1과 R2 값을 비교한다(제603단계).
만약, 후보 2에 대한 상관도 값(R2)이 가중된 후보 1에 대한 상관도 값(R1)에 비해서 크다면, 개-루프 피치로 후보 2에 대한 피치 지연 값(t2)을 선택한다(제604단계). 반면, 후보 2에 대한 상관도 값(R2)이 가중된 후보 1에 대한 상관도 값(R1)에 비해서 작다면, 개-루프 피치로 후보 1에 대한 피치 지연 값(t1) 을 선택한다(제605단계).
이상에서와 같이, 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 개회로 피치 추정 장치 및 그 방법에 따르면, 종래의 재-검색 방식보다 음질 저하를 줄일 수 있으며, 계산량 감소 효과를 얻을 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
상술한 바와 같이, 본 발명에 의한 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 개회로 피치 추정 방법 및 그 장치에 따르면, 기존 재-검색 방식보다 음질 저하를 줄일 수 있으며, 계산량 감소 효과를 얻을 수 있다.

Claims (14)

  1. 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 개회로 피치 추정 방법에 있어서,
    (a)입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 상기 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 상기 비트스트림으로부터 추출하는 단계;
    (b)상기 복호화된 음성 신호를 사람의 청각기관 특성을 고려한 지각가중필터 처리를 하는 단계;
    (c)상기 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 상기 지각가중필터링된 음성신호의 개-루프 피치를 검색하는 단계; 및
    (d)상기 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 상기 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 생성하는 단계를 포함하는 것을 특징으 로 하는 상호부호화기에서 개회로 피치 추정 방법.
  2. 제1항에 있어서, 상기 (c)단계는
    (c1)상기 분석 대상인 프레임의 위치에 따라, 상기 폐-루프 피치와 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여, 분석 대상인 프레임의 개-루프 피치 검색 범위를 결정하는 단계; 및
    (c2)상기 (c1)단계에서 에서 결정된 개-루프 피치 검색 범위에 대해서, 지각가중 필터링된 음성신호의 개-루프 피치를 검색하는 단계를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
  3. 제2항에 있어서, 상기 (c1)단계는,
    상기 복호화된 폐-루프 피치에 대한 개-루프 피치 검색 범위인 후보1과 상기 이전 프레임의 마지막 부-프레임의 폐-루프 피치에 대한 개-루프 피치 검색 범위인 후보2를 다음 수학식과 같이 구하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
    Figure 112003025417084-pat00003
    (
    Figure 112003025417084-pat00004
    ClpA는 입력 CELP 코덱 포맷의 비트스트림 에서 복호화된 폐-루프 피치, Clpprev는 이전 부-프레임의 폐-루프 피치를 각각 나타냄)
  4. 제3항에 있어서, 상기 상호부호화기가 3GPP(3rd Generation Project Partnership) AMR-NB(Adaptive Multi Rate-NarrowBand)에서 ITU-T(Interation Telecommunication Union-Telecommunication) G.723.1으로의 상호부호화를 상호부호화기이면,
    상기 후보 1 및 상기 후보 2는 G.723.1의 첫 번째 프레임과 두 번째 프레임의 첫 번째 개-루프 피치를 추정하기 위한 개-루프 피치 검색 범위인 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
  5. 제2항에 있어서, 상기 (c1)단계는,
    상기 복호화된 폐-루프 피치에 대한 개-루프 피치 검색 범위인 후보1과 동일 프레임의 이전 개-루프 피치에 대한 개-루프 피치 검색 범위인 후보2를 다음 수학식과 같이 구하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
    Figure 112003025417084-pat00005
    (
    Figure 112003025417084-pat00006
    ClpA는 입력 CELP 코덱 포맷의 비트스트림에서 복호화된 폐-루프 피치, Olpprev는 동일 프레임의 이전 개-루프 피치를 각각 나 타냄)
  6. 제5항에 있어서, 상기 상호부호화기가 3GPP(3rd Generation Project Partnership) AMR-NB(Adaptive Multi Rate-NarrowBand)에서 ITU-T(Interation Telecommunication Union -Telecommunication) G.723.1으로의 상호부호화를 상호부호화기이면,
    상기 후보 1 및 후보 2는 G.723.1의 첫 번째 프레임과 두 번째 프레임의 두 번째 개루프 피치를 추정하기 위한 개-루프 피치 검색 범위인 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
  7. 제3항 또는 제5항에 있어서, 상기 (c2)단계는
    (c21)상기 후보1 및 후보2의 검색범위 각각에 대해 개-루프 피치를 검색하여, 상기 후보1 및 후보2에 대한 피치 지연 및 해당 피치에 대한 상관도 값을 각각 구하는 단계;
    (c22)상기 후보1에 대한 상관도 값에 소정의 가중치를 주는 단계; 및
    (c23)상기 가중치를 준 상관도 값과 상기 후보2에 대한 상관도 값을 비교하고, 비교 결과에 따라 개-루프 피치 지연값을 결정하는 단계를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
  8. 제7항에 있어서, 상기 (c23)단계는
    (c231)상기 후보2에 대한 상관도 값이 상기 가중치를 준 상관도 값보다 크면, 상기 후보2에 대한 피치 지연을 개-루프 피치 지연으로서 구하는 단계; 및
    (c232)상기 후보2에 대한 상관도 값이 상기 가중치를 준 상관도 값보다 크지 않으면, 상기 후보1에 대한 피치 지연을 개-루프 피치 지연으로서 구하는 단계를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
  9. 제1항의 개회로 피치 추정 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록되 기록 매체.
  10. 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 개회로 피치 추정 장치에 있어서,
    입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 상기 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 상기 비트스트림으로부터 추출하는 복호화 처리부;
    상기 복호화된 음성 신호에 사람의 청각기관 특성을 고려한 지각가중필터링를 수행하는 지각가중필터;
    상기 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 상기 지각가중필터링된 음성신호의 개-루프 피치를 검색 하는 개-루프 피치 검색부; 및
    상기 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 상기 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 출력하는 폐-루프 피치 검색부를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 장치.
  11. 제10항에 있어서, 상기 개-루프 피치 검색부는
    상기 분석 대상인 프레임의 위치에 따라, 상기 폐-루프 피치와 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여, 분석 대상인 프레임의 개-루프 피치 검색 범위를 결정하는 개-루프 피치 검색 범위 결정기; 및
    상기 개-루프 피치 검색 범위 결정기에서 결정된 개-루프 피치 검색 범위에 대해서, 지각가중 필터링된 음성신호의 개-루프 피치를 검색하는 개-루프 피치 검색기를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 장치.
  12. 제11항에 있어서, 상기 개-루프 피치 검색 범위 결정기는,
    상기 복호화된 폐-루프 피치에 대한 개-루프 피치 검색 범위인 후보1과 상기 이전 프레임의 마지막 부-프레임의 폐-루프 피치에 대한 개-루프 피치 검색 범위인 후보2를 다음 수학식과 같이 구하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 장치.
    Figure 112003025417084-pat00007
    (
    Figure 112003025417084-pat00008
    ClpA는 입력 CELP 코덱 포맷의 비트스트림에서 복호화된 폐-루프 피치, Clpprev는 이전 부-프레임의 폐-루프 피치를 각각 나타냄)
  13. 제11항에 있어서, 상기 개-루프 피치 검색 범위 결정기는,
    상기 복호화된 폐-루프 피치에 대한 개-루프 피치 검색 범위인 후보1과 동일 프레임의 이전 개-루프 피치에 대한 개-루프 피치 검색 범위인 후보2를 다음 수학식과 같이 구하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 장치.
    Figure 112005053822212-pat00009
    (
    Figure 112005053822212-pat00010
    ClpA는 입력 CELP 코덱 포맷의 비트스트림에서 복호화된 폐-루프 피치, Olpprev는 동일 프레임의 이전 개-루프 피치를 각각 나타냄)
  14. 제12항 또는 제13항에 있어서, 상기 개-루프 피치 검색기는
    상기 후보1 및 후보2의 검색범위 각각에 대해 개-루프 피치를 검색하여, 상기 후보1 및 후보2에 대한 피치 지연 및 해당 피치에 대한 상관도 값을 각각 구하고, 상기 후보1에 대한 상관도 값에 소정의 가중치를 주며, 상기 가중치를 준 상관도 값과 상기 후보2에 대한 상관도 값을 비교하는 것을 포함하여,
    상기 후보2에 대한 상관도 값이 상기 가중치를 준 상관도 값보다 크면, 상기 후보2에 대한 피치 지연을 개-루프 피치 지연으로서 구하고 그렇지 않으면, 상기 후보1에 대한 피치 지연을 개-루프 피치 지연으로서 구하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 장치.
KR1020030047454A 2003-07-11 2003-07-11 상호부호화기에서 개회로 피치 추정 방법 및 그 장치 KR100550003B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030047454A KR100550003B1 (ko) 2003-07-11 2003-07-11 상호부호화기에서 개회로 피치 추정 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030047454A KR100550003B1 (ko) 2003-07-11 2003-07-11 상호부호화기에서 개회로 피치 추정 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20050007853A KR20050007853A (ko) 2005-01-21
KR100550003B1 true KR100550003B1 (ko) 2006-02-08

Family

ID=37221173

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030047454A KR100550003B1 (ko) 2003-07-11 2003-07-11 상호부호화기에서 개회로 피치 추정 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR100550003B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4838181B2 (ja) * 2007-03-19 2011-12-14 株式会社エヌ・ティ・ティ・ドコモ ハンドオーバ方法及び無線基地局
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Also Published As

Publication number Publication date
KR20050007853A (ko) 2005-01-21

Similar Documents

Publication Publication Date Title
KR100908219B1 (ko) 로버스트한 음성 분류를 위한 방법 및 장치
JP5373217B2 (ja) 可変レートスピーチ符号化
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
JPH10187196A (ja) 低ビットレートピッチ遅れコーダ
KR20010093208A (ko) 주기적 음성 코딩
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
KR100503415B1 (ko) 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법
JPH04270398A (ja) 音声符号化方式
JP2004163959A (ja) 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置
KR100656788B1 (ko) 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더
KR100499047B1 (ko) 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
JP2000163096A (ja) 音声符号化方法及び音声符号化装置
KR100550003B1 (ko) 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
KR100554164B1 (ko) 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
Yoon et al. An efficient transcoding algorithm for G. 723.1 and G. 729A speech coders
KR20020081352A (ko) 유사주기 신호의 위상을 추적하는 방법 및 장치
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
Unver Advanced Low Bit-Rate Speech Coding Below 2.4 Kbps

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100201

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee