KR100550003B1 - 상호부호화기에서 개회로 피치 추정 방법 및 그 장치 - Google Patents
상호부호화기에서 개회로 피치 추정 방법 및 그 장치 Download PDFInfo
- Publication number
- KR100550003B1 KR100550003B1 KR1020030047454A KR20030047454A KR100550003B1 KR 100550003 B1 KR100550003 B1 KR 100550003B1 KR 1020030047454 A KR1020030047454 A KR 1020030047454A KR 20030047454 A KR20030047454 A KR 20030047454A KR 100550003 B1 KR100550003 B1 KR 100550003B1
- Authority
- KR
- South Korea
- Prior art keywords
- loop pitch
- open
- pitch
- closed
- loop
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 210000000056 organ Anatomy 0.000 claims abstract description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000011295 pitch Substances 0.000 claims 96
- 230000001934 delay Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000015556 catabolic process Effects 0.000 abstract description 3
- 238000006731 degradation reaction Methods 0.000 abstract description 3
- 238000013507 mapping Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
상호부호화기에서 개회로 피치 추정 방법 및 그 장치가 개시된다. 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 본 발명에 따른 개회로 피치 추정 방법은, 입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 추출하는 (a)단계, 복호화된 음성 신호를 사람의 청각기관 특성을 고려한 지각가중필터 처리를 하는 (b)단계, 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 지각가중필터링된 음성신호의 개-루프 피치를 검색하는 (c)단계 및 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 생성하는 (d)단계를 포함하는 것을 특징으로 하며, 기존 재-검색 방식보다 음질 저하를 줄일 수 있으며, 계산량 감소 효과를 얻을 수 있다.
Description
도 1은 탠덤 방식과 비트스트림 매핑 방식의 상호부호화 과정을 비교한 도면이다.
도 2는 도 1의 비트스트림 매핑 방식에서 상호부호화기를 나타낸 블록도이다.
도 3은 종래의 재-검색 방식을 이용한 피치 변환 방법을 나타낸 순서도이다.
도 4는 서로 다른 CELP 방식의 음성 코덱 사이의 상호부호화기에서 본 발명에 따른 개-루프 피치 추정 장치의 일실시예를 개략적으로 나타내는 블록도이다.
도 5는 개-루프 피치 검색 범위 결정 방법의 본 발명에 따른 일실시예를 나타낸다.
도 6은 도 5에서 구해진 개-루프 피치 검색 범위에 대해서 도 4의 개-루프 피치 검색기에서 수행되는 개-루프 피치 검색 방법의 일실시예를 나타내는 흐름도이다.
본 발명은 켈프 (CELP: Code-Excited Linear Prediction) 방식의 음성 코딩 기술에 관한 것으로, 특히 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 개회로 피치 추정 방법 및 그 장치에 관한 것이다.
음성을 디지털로 전송하는 기술은 기존 전화망을 비롯한 유선 통신뿐만 아니라 무선 통신 및 최근 많은 관심을 끌고 있는 VoIP(Voice over Internet Protocol) 망에서도 널리 사용되고 있다. 음성을 단순히 8 kHz로 샘플링 후 샘플당 8 bit로 부호화하여 전송한다면, 64 kbps(kilo bits per second) 정도의 데이터 전송율을 필요로 한다. 그러나, 음성 분석과 적절한 코딩 방식을 채용한다면 훨씬 더 낮은 전송율로 음성을 고품질로 전송할 수 있다.
음성 생성 모델로부터 파라미터를 추출하여 음성을 압축하는 장치를 보통 보코더(vocoder)라고 부른다. 이러한 장치는 입력 음성으로부터 파라미터들의 추출을 위해 음성을 분석하는 부호화기와 전송 채널을 통해 전송된 파라미터로부터 수신 측에서 재합성하는 복호화기로 구성된다. 선형 예측 기반의 타임-도메인 보코더는 최근까지 가장 널리 사용되고 있다. 이러한 선형예측 기반의 타임-도메인 보코더는 과거 음성 샘플들로부터 현재 음성 샘플을 예측하여 원 샘플과의 오류가 최소가 되도록 하는 예측 필터의 계수를 계산하고, 예측 필터를 통과한 오류 신호를 적응 코드북과 고정 코드북으로 모델링하는 방식을 이용한다.
보코더의 기능은 음성 자체에 존재하는 중복성(Redundancy)을 제거함으로써, 낮은 전송 비트율로 음성 신호를 압축하는 것이다. 일반적으로, 음성은 입술과 혀의 필터링 동작으로 인한 단기간 중복성과 성대의 떨림으로 인한 장기간 중복성을 갖는 것으로 알려져 있다. CELP 기반의 보코더는 이러한 두 가지 특성을 각각의 필터로 모델링하는데, 이들을 각각 단기간 포만트 필터와 장기간 피치 필터라고 부른다. 이 두 개의 필터를 통해서 중복성이 제거되고 남는 잔여 신호는 CELP의 종류에 따라 백색 가우시안 잡음(White Gaussian Noise) 혹은 다중 펄스(multi-pulse) 등으로 모델링되어 부호화될 수 있다. 이러한 기술의 근간은 두 필터의 계수를 계산하는 것이다. 포만트 필터 혹은 LPC (Linear Predictive Coding) 필터는 음성의 단기간 예측 과정을 수행하고, 피치 필터는 음성의 장기간 예측 과정을 수행한다. 마지막으로 잔여 신호는 합성에 의한 분석(analysis-by-synthesis) 기법을 이용해서 최적의 신호로 모델링 된다. 이러한 분석을 통해서 채널로 전송되는 파라미터는 포만트 정보와 피치 정보 및 잔여 신호 정보 등을 포함한다.
최근 음성 전송을 위한 여러 가지 망이 공존하고 있다. 그러나, 이들 망에서 각각의 망 특성을 고려한 특정한 코덱을 채용하고 있기 때문에 망간 연동을 위해서는 서로 다른 코덱간 포맷 변환 작업을 필요로 하게 된다. 이 작업을 상호부호화(transcoding) 과정이라고 부르며 이 작업을 수행하는 장치를 상호부호화기(transcoder)라 한다. 상호부호화 과정을 위해 종래에는 단순히 한 코덱의 복호화기와 다른 코덱의 부호화기를 이어 붙이는 탠덤(tandem) 방식이 사용되었다. 그러나, 이 탠덤 방식의 상호부호화 과정은 음성 부호화와 복호화 과정을 두 번 거침으로 인해서 음질 저하, 알고리즘 지연 증가 및 계산량 증가 등의 단점을 가진다. 이러한 단점을 보완하기 위해, 탠덤 방식에서와 같이 복호화 과정을 거치지 않고 부호화된 비트스트림에서 직접 변환을 수행하는 비트스트림 매핑 방식의 상호부 호화가 사용된다.
도 1은 탠덤 방식과 비트스트림 매핑 방식의 상호부호화 과정을 비교한 도면이다. 도 1(a)을 참조하여, 탠덤 방식은 송신단에서 입력 음성 신호를 부호화기(102)를 통해서 비트스트림(A)로 부호화한 다음 제1채널(104)로 전송한다. 제1채널(104)을 통해서 수신된 비트스트림(A)은 상호부호화기(114)의 복호화기(106)를 통해서 복호화되어 PCM(Pulse-Coded Modulation) 신호로 바뀐다. 복호화된 PCM 신호는 상호부호화기(114)의 부호화기(108)를 통해서 비트스트림(B)으로 부호화되어 제2채널(110)을 통해 최종 수신단의 복호화기(112)로 전송된다. 수신단의 복호화기(112)를 통해 출력 음성 신호가 얻어진다. 여기서 탠덤 방식의 상호부호화기(114)는 복호화기(106)와 부호화기(108)로 구성된다. 반면, 도 1(b)의 비트스트림 매핑 상호부호화 방식에서는, 송신단에서 탠덤 방식과 마찬가지로 입력 음성 신호가 부호화기(152)를 통해서 비트스트림(A)로 부호화되어 제1채널(154)을 통해 상호부호화기(156)로 전송된다. 상호부호화기(156)는 수신된 비트스트림(A)를 비트스트림 매핑 방식을 이용하여 직접 비트스트림(B)로 변환하여 제2채널(158)로 전송한다. 수신단의 복호화기(160)는 제2채널(158)를 통해 수신된 비트스트림(B)을 복호화하여 출력 음성 신호를 생성한다.
도 2는 도 1의 비트스트림 매핑 방식에서 상호부호화기(156)를 나타낸 블록도이다. CELP 코덱으로 부호화된 비트스트림은 일반적으로 포만트 필터의 계수로 표현되는 포만트 파라미터와 피치 정보에 해당하는 적응 코드북 파라미터, 잔여 신호를 모델링하는 고정 코드북 파라미터로 이루어져있다. 상호부호화기는 입력 CELP 포맷의 비트스트림A로부터 각각의 파라미터를 추출하고 역-양자화하는 역-양자화 부(201), 각 파라미터를 매핑하는 포만트 파라미터 매핑부(202), 적응 코드북 매핑 부(203) 및 고정 코드북 매핑부(204)와, 매핑된 각각의 파라미터들을 출력 CELP 포맷으로 양자화하고 비트스트림B으로 변환하는 양자화부(205)로 구성된다.
한편, 텐덤 방식 및 비트스트림 맵핑 방식에서 피치 정보를 변환하기 위한 종래의 방식으로는 입력 CELP 포맷으로 부호화된 비트스트림A를 입력 CELP 포맷의 복호화기를 통해서 복호화 한 다음, 출력 CELP 포맷 부호화기의 피치 검색 방법을 적용하는 재-검색 방식이 사용된다. 도 3은 종래의 재-검색 방식을 이용한 피치 변환 방법을 나타낸 순서도이다. 입력 비트스트림A를 복호화기A를 이용해서 복호화 과정을 수행한다(제301단계). 복호화된 음성에 대해서 청각기관의 인지특성을 반영하도록 지각가중필터링을 적용한 후(제302단계), 개-루프 피치를 찾는다(제303단계). 제303단계에서 검색된 개-루프 피치로부터 폐-루프 피치 검색을 위한 검색 범위를 결정한다(제304단계). 제304단계에서 결정된 검색 범위에 대해서 폐-루프 피치 검색을 수행함으로써(제305단계) 출력 CELP 포맷에 해당하는 피치를 얻게 된다. 도 3에 도시된 바와 같이, 재-검색 방식을 비롯한 일반적인 CELP 코덱 부호화기에서 피치 검색은 개-루프 피치 검색과 폐-루프 피치 검색의 두 단계를 통해서 이루어진다. 이는 폐-루프 피치 검색 시에 개-루프 피치로부터 검색 구간을 제한함으로써 계산량을 줄이기 위함이다. 음성에서 피치 존재 구간인 약 2 ms에서 20 ms 구간에서 지각가중필터링된 음성의 자기상관 함수 혹은 정규화된 자기상관 함수가 최대가 되는 지연을 찾는 것으로 개-루프 피치를 검색한다. 이러한 재-검색 방법은 입 력 CELP 포맷으로 부호화된 피치 정보를 이용하지 않고 개-루프 피치 정보를 다시 검색하므로 해서 많은 계산량을 필요로한다. 또한, 두 음성 부호화기의 개-루프 피치 추정 과정이 서로 상이함으로 해서 두 번의 개-루프 피치 검색 과정을 통해 발생될 수 있는 피치의 부정확성은 폐-루프 피치 값에 직접적으로 영향을 미치게 되어 최종적으로 수신단에서 복호화된 음성의 음질이 저하된다.
본 발명이 이루고자 하는 기술적 과제는 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화기에서 계산량을 줄이면서 높은 음질을 제공하기 위한 개-루프 피치 추정 방법 및 그 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 상기 개-루프 피치 추정 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록된 기록 매체를 제공하는 데 있다.
상기 과제를 이루기 위해, 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 본 발명에 따른 개회로 피치 추정 방법은, 입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 추출하는 (a)단계, 복호화된 음성 신호를 사람의 청각기관 특성을 고려한 지각가중필터 처리를 하는 (b)단계, 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 지 각가중필터링된 음성신호의 개-루프 피치를 검색하는 (c)단계 및 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 생성하는 (d)단계를 포함하는 것이 바람직하다.
상기 과제를 이루기 위해, 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 본 발명에 따른 개회로 피치 추정 장치는, 입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 추출하는 복호화 처리부, 복호화된 음성 신호에 사람의 청각기관 특성을 고려한 지각가중필터링를 수행하는 지각가중필터, 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 지각가중필터링된 음성신호의 개-루프 피치를 검색하는 개-루프 피치 검색부 및 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 출력하는 폐-루프 피치 검색부를 포함하는 것이 바람직하다.
도 4는 서로 다른 CELP 방식의 음성 코덱 사이의 상호부호화기에서 본 발명에 따른 개-루프 피치 추정 장치의 일실시예를 개략적으로 나타내는 블록도이다. 본 발명에 따른 개-루프 피치 추정 장치는 복호화기(401), 지각가중필터(402), 개-루프 피치 검색 범위 결정부(403), 개-루프 피치 검색부(404), 폐-루프 피치 검색 범위 결정부(405) 및 폐-루프 피치 검색부(406)를 포함하여 구성된다.
도 4를 참조하여, 복호화 처리부(401)는 입력 CELP 코덱 포맷으로 부호화된 비트스트림A를 음성 신호A로 변환하고 각 부-프레임에 대한 폐-루프 피치A를 추출한다.
지각가중필터(402)는 복호화된 음성 신호에 사람의 청각기관 특성을 고려한 지각가중필터링를 수행한다.
개-루프 피치 검색부(407)는 개-루프 피치 검색 범위를 결정하는 개-루프 피치 검색 범위 결정기(403)와 결정된 개-루프 피치 검색 범위에서 개-루프 피치를 검색하는 개-루프 피치 검색기(404)를 포함한다. 개-루프 피치 검색 범위 결정기(403)는 복호화 처리기(401)로부터 얻어진 복호화된 폐-루프 피치A와, 폐-루프 피치 검색기(406)로부터 얻어진 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치B 또는 동일 프레임의 이전 개-루프 피치 정보를 참고로 하여 분석 대상인 프레임의 개-루프 피치 검색 범위를 결정한다. 개-루프 피치 검색 범위 결정부기(403)에서 개-루프 피치 검색 범위를 결정하는 방법에 대해서는 도 5를 참조하여 구체적으로 설명될 것이다. 개-루프 피치 검색기(404)는 개-루프 피치 검색 범위 결정기(403)에서 결정된 개-루프 피치 검색 범위에 대해서, 지각가중필터링된 음성신호의 개-루프 피치를 검색한다.
폐-루프 피치 검색부(408)는 개-루프 피치 검색기(404)로부터 얻어진 개-루프 피치를 이용하여 폐-루프 피치 검색 범위를 결정하는 폐-루프 피치 검색 범위 결정기(405)와, 결정된 폐-루프 피치 검색 범위에서 폐-루프 피치를 검색하는 폐- 루프 피치 검색기(406)를 포함한다.
도 5는 개-루프 피치 검색 범위 결정 방법의 본 발명에 따른 일실시예를 나타낸다. 도 5의 개-루프 피치 검색 범위 결정 방법은 3GPP(3rd Generation Project Partnership)의 음성 부호화 표준인 AMR-NB(Adaptive Multi Rate NarrowBand)에서 ITU-T (International Telecommunication Union Telecommunication) 표준인 G.723.1으로의 상호부호화일 때의 개-루프 피치 검색 방법을 나타낸 것이다. AMR-NB는 20ms의 프레임 길이를 5ms의 부-프레임 단위로 분석하고, 개-루프 피치는 10ms 마다 검색한다. 이에 비해서, G.723.1은 30ms의 프레임 길이를 7.5ms의 부-프레임 단위로 분석하고, 개-루프 피치는 15ms마다 계산한다. 따라서, 상기 상호부호화에서는 AMR-NB 세 프레임을 G.723.1 두 프레임에 대응시킨다. 개-루프 피치 추정은 개-루프 분석 프레임의 위치에 따라 두 가지 형태로 나눌 수 있다. 첫 번째 경우는 이전 부-프레임의 폐-루프 피치와 AMR-NB의 비트스트림에서 복호화된 폐-루프 피치를 개-루프 피치 후보로 선정하는 방식으로, 첫 번째 개-루프 피치(Olp_g11)와 세 번째 개-루프 피치(Olp_g21)를 추정하는 경우에 해당한다. 그리고, 두 번째는 동일 프레임내에서 검색된 이전 개-루프 피치와 AMR-NB의 비트스트림에서 복호화된 폐-루프 피치를 개-루프 피치 후보로 선정하는 방식으로 두 번째 개-루프 피치(Olp_g12)와 네 번째 개-루프 피치(Olp_g22)를 추정하는 경우에 해당한다. 상기 첫 번째 경우 및 두 번째 경우에서 각각 선택된 피치 후보로부터, 개-루프 피치 추정을 위한 검색 범위는 상기 각 경우에 대해서 수학식 1과 수학식 2와 같이 구해진다.
수학식 1 및 2에서, ClpAMR-NB는 AMR-NB 비트스트림에서 복호화된 폐-루프 피치이고, Clpprev는 이전 부-프레임의 폐-루프 피치이며, Olpprev는 동일 프레임의 이전 개-루프 피치이다. 또한, 수학식 1에서 후보1은 복호화된 폐-루프 피치에 대한 개-루프 피치 검색 범위이며, 후보2는 이전 프레임의 마지막 부-프레임의 폐-루프 피치에 대한 개-루프 피치 검색 범위이다. 또한, 수학식 2에서 후보1은 복호화된 폐-루프 피치에 대한 개-루프 피치 검색 범위이며, 후보2는 동일 프레임의 이전 개-루프 피치에 대한 개-루프 피치 검색 범위이다. 결과적으로, 종래 재-검색 방법을 사용할 경우 개-루프 피치 검색 횟수가 G.723.1의 경우 20번째 샘플에서 143번째까지 124번인데 반해서, 본 발명에 따른 개-루프 피치 검색 방법을 적용한다면 각 후보에 대해서 검색 횟수가 (diff+1)이므로 전체 검색 횟수는 2*(diff+1)이 된 다. 일반적으로 피치값은 각 프레임 혹은 부-프레임에 대해서 천천히 변하므로(즉, diff는 작은 값을 갖게 된다), 종래 방식보다 검색 횟수가 상당히 줄어듦을 알 수 있다.
도 6은 도 5에서 구해진 개-루프 피치 검색 범위에 대해서 도 4의 개-루프 피치 검색기(404)에서 수행되는 개-루프 피치 검색 방법의 일실시예를 나타내는 흐름도이다.
도 4 및 도 6을 참조하여, 도 4의 지각가중 필터(402)로부터 얻어진 음성 신호에 대해서 출력 CELP 코덱의 개-루프 피치 검색 방법을 이용하여 수학식 1 또는 수학식 2에서 정해진 개-루프 피치 검색 범위에 대해서 후보1 및 2에 대해서 개-루프 피치 검색을 수행한다(제601단계 및 제602단계). 제601단계 및 제602단계에서의 개-루프 피치 검색을 통해 후보 1에 대한 개-루프 피치 검색 결과로 피치 지연(t1)과 해당 피치에 대한 상관도 값(R1)을 얻으며, 동일하게 후보 2에 대해서도 피치 지연(t2)과 해당 상관도 값(R2)을 얻는다.
후보 1이 입력 CELP 포맷의 비트스트림에서 복호화된 폐-루프 피치에 대한 것이라고 하는 경우, 후보 1의 결과로 얻어진 피치에 좀 더 많은 가중치(w)를 주어 R1과 R2 값을 비교한다(제603단계).
만약, 후보 2에 대한 상관도 값(R2)이 가중된 후보 1에 대한 상관도 값(R1)에 비해서 크다면, 개-루프 피치로 후보 2에 대한 피치 지연 값(t2)을 선택한다(제604단계). 반면, 후보 2에 대한 상관도 값(R2)이 가중된 후보 1에 대한 상관도 값(R1)에 비해서 작다면, 개-루프 피치로 후보 1에 대한 피치 지연 값(t1) 을 선택한다(제605단계).
이상에서와 같이, 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 개회로 피치 추정 장치 및 그 방법에 따르면, 종래의 재-검색 방식보다 음질 저하를 줄일 수 있으며, 계산량 감소 효과를 얻을 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
상술한 바와 같이, 본 발명에 의한 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 개회로 피치 추정 방법 및 그 장치에 따르면, 기존 재-검색 방식보다 음질 저하를 줄일 수 있으며, 계산량 감소 효과를 얻을 수 있다.
Claims (14)
- 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 개회로 피치 추정 방법에 있어서,(a)입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 상기 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 상기 비트스트림으로부터 추출하는 단계;(b)상기 복호화된 음성 신호를 사람의 청각기관 특성을 고려한 지각가중필터 처리를 하는 단계;(c)상기 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 상기 지각가중필터링된 음성신호의 개-루프 피치를 검색하는 단계; 및(d)상기 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 상기 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 생성하는 단계를 포함하는 것을 특징으 로 하는 상호부호화기에서 개회로 피치 추정 방법.
- 제1항에 있어서, 상기 (c)단계는(c1)상기 분석 대상인 프레임의 위치에 따라, 상기 폐-루프 피치와 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여, 분석 대상인 프레임의 개-루프 피치 검색 범위를 결정하는 단계; 및(c2)상기 (c1)단계에서 에서 결정된 개-루프 피치 검색 범위에 대해서, 지각가중 필터링된 음성신호의 개-루프 피치를 검색하는 단계를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
- 제3항에 있어서, 상기 상호부호화기가 3GPP(3rd Generation Project Partnership) AMR-NB(Adaptive Multi Rate-NarrowBand)에서 ITU-T(Interation Telecommunication Union-Telecommunication) G.723.1으로의 상호부호화를 상호부호화기이면,상기 후보 1 및 상기 후보 2는 G.723.1의 첫 번째 프레임과 두 번째 프레임의 첫 번째 개-루프 피치를 추정하기 위한 개-루프 피치 검색 범위인 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
- 제5항에 있어서, 상기 상호부호화기가 3GPP(3rd Generation Project Partnership) AMR-NB(Adaptive Multi Rate-NarrowBand)에서 ITU-T(Interation Telecommunication Union -Telecommunication) G.723.1으로의 상호부호화를 상호부호화기이면,상기 후보 1 및 후보 2는 G.723.1의 첫 번째 프레임과 두 번째 프레임의 두 번째 개루프 피치를 추정하기 위한 개-루프 피치 검색 범위인 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
- 제3항 또는 제5항에 있어서, 상기 (c2)단계는(c21)상기 후보1 및 후보2의 검색범위 각각에 대해 개-루프 피치를 검색하여, 상기 후보1 및 후보2에 대한 피치 지연 및 해당 피치에 대한 상관도 값을 각각 구하는 단계;(c22)상기 후보1에 대한 상관도 값에 소정의 가중치를 주는 단계; 및(c23)상기 가중치를 준 상관도 값과 상기 후보2에 대한 상관도 값을 비교하고, 비교 결과에 따라 개-루프 피치 지연값을 결정하는 단계를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
- 제7항에 있어서, 상기 (c23)단계는(c231)상기 후보2에 대한 상관도 값이 상기 가중치를 준 상관도 값보다 크면, 상기 후보2에 대한 피치 지연을 개-루프 피치 지연으로서 구하는 단계; 및(c232)상기 후보2에 대한 상관도 값이 상기 가중치를 준 상관도 값보다 크지 않으면, 상기 후보1에 대한 피치 지연을 개-루프 피치 지연으로서 구하는 단계를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 방법.
- 제1항의 개회로 피치 추정 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록되 기록 매체.
- 서로 다른 CELP 방식의 음성 코덱 간의 상호부호화를 위한 상호부호화기에서 개회로 피치 추정 장치에 있어서,입력 CELP 코덱 포맷으로 부호화된 비트스트림를 음성 신호로 복호화하고, 상기 복호화된 음성신호의 각 부-프레임에 대한 폐-루프 피치를 상기 비트스트림으로부터 추출하는 복호화 처리부;상기 복호화된 음성 신호에 사람의 청각기관 특성을 고려한 지각가중필터링를 수행하는 지각가중필터;상기 복호화된 폐-루프 피치와, 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여 결정된 개-루프 피치 검색 범위에서 상기 지각가중필터링된 음성신호의 개-루프 피치를 검색 하는 개-루프 피치 검색부; 및상기 검색된 개-루프 피치를 이용하여 결정된 폐-루프 피치 검색 범위에서 상기 지각가중 필터링된 음성신호의 폐-루프 피치를 검색하고, 검색된 결과를 출력 CELP 코덱 포맷의 피치 지연값으로서 출력하는 폐-루프 피치 검색부를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 장치.
- 제10항에 있어서, 상기 개-루프 피치 검색부는상기 분석 대상인 프레임의 위치에 따라, 상기 폐-루프 피치와 이전 프레임의 마지막 부-프레임에 대한 폐-루프 피치 또는 동일 프레임에 대한 이전 개-루프 피치를 이용하여, 분석 대상인 프레임의 개-루프 피치 검색 범위를 결정하는 개-루프 피치 검색 범위 결정기; 및상기 개-루프 피치 검색 범위 결정기에서 결정된 개-루프 피치 검색 범위에 대해서, 지각가중 필터링된 음성신호의 개-루프 피치를 검색하는 개-루프 피치 검색기를 포함하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 장치.
- 제12항 또는 제13항에 있어서, 상기 개-루프 피치 검색기는상기 후보1 및 후보2의 검색범위 각각에 대해 개-루프 피치를 검색하여, 상기 후보1 및 후보2에 대한 피치 지연 및 해당 피치에 대한 상관도 값을 각각 구하고, 상기 후보1에 대한 상관도 값에 소정의 가중치를 주며, 상기 가중치를 준 상관도 값과 상기 후보2에 대한 상관도 값을 비교하는 것을 포함하여,상기 후보2에 대한 상관도 값이 상기 가중치를 준 상관도 값보다 크면, 상기 후보2에 대한 피치 지연을 개-루프 피치 지연으로서 구하고 그렇지 않으면, 상기 후보1에 대한 피치 지연을 개-루프 피치 지연으로서 구하는 것을 특징으로 하는 상호부호화기에서 개회로 피치 추정 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030047454A KR100550003B1 (ko) | 2003-07-11 | 2003-07-11 | 상호부호화기에서 개회로 피치 추정 방법 및 그 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030047454A KR100550003B1 (ko) | 2003-07-11 | 2003-07-11 | 상호부호화기에서 개회로 피치 추정 방법 및 그 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050007853A KR20050007853A (ko) | 2005-01-21 |
KR100550003B1 true KR100550003B1 (ko) | 2006-02-08 |
Family
ID=37221173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030047454A KR100550003B1 (ko) | 2003-07-11 | 2003-07-11 | 상호부호화기에서 개회로 피치 추정 방법 및 그 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100550003B1 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4838181B2 (ja) * | 2007-03-19 | 2011-12-14 | 株式会社エヌ・ティ・ティ・ドコモ | ハンドオーバ方法及び無線基地局 |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
-
2003
- 2003-07-11 KR KR1020030047454A patent/KR100550003B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20050007853A (ko) | 2005-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100908219B1 (ko) | 로버스트한 음성 분류를 위한 방법 및 장치 | |
JP5373217B2 (ja) | 可変レートスピーチ符号化 | |
JP4870313B2 (ja) | 可変レート音声符号器におけるフレーム消去補償方法 | |
JPH10187196A (ja) | 低ビットレートピッチ遅れコーダ | |
KR20010093208A (ko) | 주기적 음성 코딩 | |
JPH10187197A (ja) | 音声符号化方法及び該方法を実施する装置 | |
KR100503415B1 (ko) | 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법 | |
JPH04270398A (ja) | 音声符号化方式 | |
JP2004163959A (ja) | 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置 | |
KR100656788B1 (ko) | 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더 | |
KR100499047B1 (ko) | 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법 | |
JP2000163096A (ja) | 音声符号化方法及び音声符号化装置 | |
KR100550003B1 (ko) | 상호부호화기에서 개회로 피치 추정 방법 및 그 장치 | |
US20030055633A1 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
KR100554164B1 (ko) | 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법 | |
Yoon et al. | An efficient transcoding algorithm for G. 723.1 and G. 729A speech coders | |
KR20020081352A (ko) | 유사주기 신호의 위상을 추적하는 방법 및 장치 | |
JPH08211895A (ja) | ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法 | |
Unver | Advanced Low Bit-Rate Speech Coding Below 2.4 Kbps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
N231 | Notification of change of applicant | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20100201 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |