KR101762723B1 - 피치 주기의 정확도를 검출하는 방법 및 장치 - Google Patents
피치 주기의 정확도를 검출하는 방법 및 장치 Download PDFInfo
- Publication number
- KR101762723B1 KR101762723B1 KR1020167021709A KR20167021709A KR101762723B1 KR 101762723 B1 KR101762723 B1 KR 101762723B1 KR 1020167021709 A KR1020167021709 A KR 1020167021709A KR 20167021709 A KR20167021709 A KR 20167021709A KR 101762723 B1 KR101762723 B1 KR 101762723B1
- Authority
- KR
- South Korea
- Prior art keywords
- parameter
- pitch period
- pitch
- spectral
- accuracy
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 claims abstract description 76
- 238000001228 spectrum Methods 0.000 claims abstract description 22
- 230000003595 spectral effect Effects 0.000 claims description 122
- 239000011295 pitch Substances 0.000 description 213
- 238000009499 grossing Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 102000016550 Complement Factor H Human genes 0.000 description 1
- 108010053085 Complement Factor H Proteins 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- SYHGEUNFJIGTRX-UHFFFAOYSA-N methylenedioxypyrovalerone Chemical compound C=1C=C2OCOC2=CC=1C(=O)C(CCC)N1CCCC1 SYHGEUNFJIGTRX-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
본 발명의 실시예는 피치 주기의 정확도를 검출하는 방법 및 장치를 제공한다. 피치 주기의 정확도를 검출하는 방법은: 시간 도메인에서의 입력 신호의 초기의 피치 주기에 따라, 상기 입력 신호의 피치 주파수 빈을 결정하는 단계 - 상기 초기의 피치 주기는 상기 입력 신호에 대해 개루프 검출을 수행함으로써 획득됨 - ; 주파수 도메인에서의 상기 입력 신호의 진폭 스펙트럼에 기초해서, 상기 입력 신호의 상기 피치 주파수 빈과 관련된 피치 주기 정확도 결정 파라미터를 결정하는 단계; 및 상기 피치 주기 정확도 결정 파라미터에 따라 상기 초기의 피치 주기의 정확도를 결정하는 단계를 포함한다. 본 발명의 실시예에 따라 피치 주기의 정확도를 검출하는 방법 및 장치는 상대적으로 덜 복잡한 알고리즘에 기초해서 피치 주기의 정확도를 검출하는 정확성을 향상시킬 수 있다.
Description
본 발명은 오디오 기술 분야에 관한 것이며, 특히 피치 주기의 정확도를 검출하는 방법 및 장치에 관한 것이다.
음성 및 오디오 신호의 처리에서, 피치 검출은 다양한 실제의 음성 및 오디오 애플리케이션에서 중요한 기술 중 하나이다. 예를 들어, 피치 검출은 음성 인코딩, 음성 인식, 가라오케 등의 애플리케이션에서 중요한 기술이다. 피치 검출 기술은 이동전화, 무선 장치, 개인휴대단말(PDA), 휴대형 또는 포터블 컴퓨터, GPS 수신기/내비게이터, 카메라, 오디오/비디오 플레이어, 비디오 카메라, 비디오 레코더, 및 감지 장치와 같은 다양한 전자기기에 폭넓게 적용된다. 그러므로 피치 검출의 정확도 및 검출 효율은 다양한 실제의 음성 및 오디오 애플리케이션의 효과에 직접적으로 영향을 미친다.
현재의 피치 검출은 기본적으로 시간 도메인에서 수행되며, 일반적으로 피치 검출 알고리즘은 시간 도메인 자동상관 방법이다. 그렇지만, 실제의 애플리케이션에서, 시간 도메인에서 수행되는 피치 검출은 주파수 체배 현상(frequency multiplication phenomenon)을 일으키며, 실제의 피치 주기 및 이 실제의 피치 주기의 체배 주파수 모두에서 큰 자동상관 계수가 획득되기 때문에 시간 도메인에서 주파수 체배 현상을 양호하게 해결하는 것은 곤란하며, 게다가 배경 잡음이 있는 경우, 시간 도메인에서 개루프 검출에 의해 획득되는 초기의 피치 주기 역시 부정확할 수 있다. 여기서, 실제의 피치 주기는 음성에서의 실제의 피치 주기, 정확한 피치 주기이다. 피치 주기란 음성에서 최소의 반복 가능한 시간 간격을 말한다.
시간 도메인에서 초기의 피치 주기를 검출하는 것을 예로 든다. 국제통신연합 통신표준화부문(International Telecommunication Union Telecommunication Standardization Sector: ITU-T)의 대부분의 인코딩 표준은 피치 검출이 수행되어야 하는 것을 요구하지만, 피치 검출의 거의 대부분은 동일한 도메인(시간 도메인 또는 주파수 도메인)에서 수행된다. 예를 들어, 지각 관련 가중 도메인(perceptual weighted domain)에서만 수행되는 개루프 피치 검출 방법은 음성 인코딩 표준 G729에 적용된다.
이러한 개루프 피치 검출 방법에서는, 시간 도메인에서 개루프에 의해 초기의 피치 주기가 획득된 후, 초기의 피치 주기의 정확도가 수행되지 않지만, 폐쇄-루프 미세 검출은 초기의 피치 주기에서 직접적으로 수행된다. 폐루프 미세 검출은 개루프 검출에 의해 획득된 초기의 피치 주기를 포함하는 주기 간격으로 수행되며, 이에 따라 개루프 검출에 의해 획득되는 초기의 피치 주기가 부정확하면, 최종 폐루프 검출에 의해 획득되는 피치 주기 역시 부정확하다. 환언하면, 시간 도메인에서 개루프 검출에 의해 획득되는 초기의 피치 주기가 절대적으로 정확하게 되도록 하는 것은 극히 어려우며, 후속의 처리에 부정확한 초기의 피치 주기가 적용되면, 최종의 오디오 품질이 떨어질 수 있다.
또한, 종래기술에서는, 시간 도메인에서 수행되는 피치 주기 검출을 주파수 도메인에서 수행되는 피치 주기 미세 검출로 전환하는 것도 제안되어 있으나, 주파수 도메인에서 수행되는 피치 주기 미세 검출은 극도로 복잡하다. 미세 검출에서는, 초기의 피치 주기에 따라 시간 도메인 또는 주파수 도메인에서의 입력 신호에 대해, 쇼트-피치 검출, 부분 피치 검출, 또는 체배 주파수 피치 검출을 포함한 추가의 피치 검출을 수행할 수 있다.
본 발명의 실시예는 피치 주기의 정확도를 검출하는 방법 및 장치를 제공하여, 시간 도메인 또는 주파수 도메인에서 초기의 피치 주기의 정확도를 검출할 때 정확도가 낮고 상대적으로 복잡한 종래기술의 문제를 해결한다.
한 관점에 따르면, 피치 주기의 정확도를 검출하는 방법이 제공되며, 상기 방법은:
시간 도메인에서의 입력 신호의 초기의 피치 주기에 따라, 상기 입력 신호의 피치 주파수 빈을 결정하는 단계 - 상기 초기의 피치 주기는 상기 입력 신호에 대해 개루프 검출을 수행함으로써 획득됨 - ;
주파수 도메인에서의 상기 입력 신호의 진폭 스펙트럼에 기초해서, 상기 입력 신호의 상기 피치 주파수 빈과 관련된 피치 주기 정확도 결정 파라미터를 결정하는 단계; 및
상기 피치 주기 정확도 결정 파라미터에 따라 상기 초기의 피치 주기의 정확도를 결정하는 단계
를 포함한다.
다른 관점에 따르면, 피치 주기의 정확도를 검출하는 장치가 제공되며, 상기 장치는:
시간 도메인에서의 입력 신호의 초기의 피치 주기에 따라, 상기 입력 신호의 피치 주파수 빈을 결정하도록 구성되어 있는 피치 주파수 빈 결정 유닛 - 상기 초기의 피치 주기는 상기 입력 신호에 대해 개루프 검출을 수행함으로써 획득됨 - ;
주파수 도메인에서의 상기 입력 신호의 진폭 스펙트럼에 기초해서, 상기 입력 신호의 상기 피치 주파수 빈과 관련된 피치 주기 정확도 결정 파라미터를 결정하도록 구성되어 있는 파라미터 생성 유닛; 및
상기 피치 주기 정확도 결정 파라미터에 따라 상기 초기의 피치 주기의 정확도를 결정하도록 구성되어 있는 정확도 결정 유닛
을 포함한다.
본 발명의 실시예에 따라 피치 주기의 정확도를 검출하는 방법 및 장치는 상대적으로 덜 복잡한 알고리즘에 기초해서 피치 주기의 정확도를 검출하는 정확성을 향상시킬 수 있다.
본 발명의 실시예의 기술적 솔루션을 더 명확하게 설명하기 위해, 이하에서는 본 발명의 실시예를 설명하는 데 필요한 첨부된 도면에 대해 간략하게 설명한다. 당연히, 이하의 실시예의 첨부된 도면은 본 발명의 일부의 실시예에 지나지 않으며, 당업자라면 창조적 노력 없이 첨부된 도면으로부터 다른 도면을 도출해낼 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 방법에 대한 흐름도이다.
도 2는 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 장치에 대한 개략적인 구조도이다.
도 3은 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 장치에 대한 개략적인 구조도이다.
도 4는 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 장치에 대한 개략적인 구조도이다.
도 5는 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 장치에 대한 개략적인 구조도이다.
도 1은 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 방법에 대한 흐름도이다.
도 2는 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 장치에 대한 개략적인 구조도이다.
도 3은 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 장치에 대한 개략적인 구조도이다.
도 4는 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 장치에 대한 개략적인 구조도이다.
도 5는 본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 장치에 대한 개략적인 구조도이다.
이하에서는 본 발명의 실시예에 첨부된 도면을 참조하여 본 발명의 실시예의 기술적 솔루션에 대해 명확하게 설명한다. 당연히, 설명된 실시예는 본 발명의 모든 실시예가 아닌 일부에 지나지 않는다. 당업자가 창조적 노력 없이 본 발명의 실시예에 기초하여 획득하는 모든 다른 실시예는 본 발명의 보호 범위 내에 있게 된다.
본 발명의 실시예에 따르면, 시간 도메인에서의 개루프 검출에 의해 획득되는 초기의 피치 주기의 정확도는 주파수 도메인에서 검출되어, 부정확한 초기의 피치 주기를 후속의 처리에 적용하는 것이 회피된다.
본 발명의 목적은 시간 도메인에서 개루프 검출에 의해 획득되는, 초기의 피치 주기에 대해 추가의 정확도 검출을 수행하여, 주파수 도메인에서의 효과적인 파라미터를 추출하고 이러한 파라미터를 결합하여 결정함으로써 피치 검출의 정확도 및 안정성을 크게 향상시키는 것이다.
본 발명의 실시예에 따른 피치 주기의 정확도를 검출하는 방법은 도 1에 도시된 바와 같이 이하의 단계를 포함한다.
11. 시간 도메인에서의 입력 신호의 초기의 피치 주기에 따라, 상기 입력 신호의 피치 주파수 빈을 결정하며, 상기 초기의 피치 주기는 상기 입력 신호에 대해 개루프 검출을 수행함으로써 획득된다.
일반적으로, 입력 신호의 피치 주파수 빈은 입력 신호의 초기의 피치 주기에 반비례하고 입력 신호에 대해 수행되는 고속 푸리에 변환(Fast Fourier Transform: FFT)의 포인트의 양에 정비례한다.
12. 주파수 도메인에서의 입력 신호의 진폭 스펙트럼에 기초해서, 상기 입력 신호의 상기 피치 주파수 빈과 관련된 피치 주기 정확도 결정 파라미터를 결정한다.
피치 주기 정확도 결정 파라미터는 스펙트럼 차이 파라미터 Diff_sm, 평균 스펙트럼 진폭 파라미터 Spec_sm, 및 차이대진폭비 파라미터(difference-to-amplitude ratio parameter) Diff_ratio를 포함한다. 스펙트럼 차이 파라미터 Diff_sm는 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합 Diff_sum 또는 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합 Diff_sum의 가중되고 평활화된 값이다. 평균 스펙트럼 진폭 파라미터 Spec_sm은 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균 Spec_avg 또는 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균 Spec_avg의 가중되고 평활화된 값이다. 차이대진폭비 파라미터 Diff_ratio는 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균 Spec_avg에 대한 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합 Diff_sum의 비율이다.
13. 피치 주기 정확도 결정 파라미터에 따라 초기의 피치 주기의 정확도를 결정한다.
예를 들어, 피치 주기 정확도 결정 파라미터가 정확도 결정 조건을 충족할 때, 초기의 피치 주기가 정확한 것으로 결정하고; 피치 주기 정확도 결정 파라미터가 부정확도 결정 조건을 충족할 때, 초기의 피치 주기가 부정확한 것으로 결정한다.
구체적으로, 정확도 결정 조건은 다음의 조건: 스펙트럼 차이 파라미터 Diff_sm이 제1 차이 파라미터 임계값보다 작다는 것과, 평균 스펙트럼 진폭 파라미터 Spec_sm이 제1 스펙트럼 진폭 파라미터 임계값보다 작다는 것과, 그리고 차이대진폭비 파라미터 Diff_ratio가 제1 비율 인자 파라미터 임계값보다 작다는 것 중 적어도 하나를 충족한다. 부정확도 결정 조건은 다음의 조건: 스펙트럼 차이 파라미터 Diff_sm이 제2 차이 파라미터 임계값보다 크다는 것과, 평균 스펙트럼 진폭 파라미터 Spec_sm이 제2 스펙트럼 진폭 파라미터 임계값보다 크다는 것과, 그리고 차이대진폭비 파라미터 Diff_ratio가 제2 비율 인자 파라미터 임계값보다 크다는 것 중 적어도 하나를 충족한다.
예를 들어, 부정확도 결정 조건이 스펙트럼 차이 파라미터 Diff_sm이 제1 차이 파라미터 임계값보다 작다는 것이고, 정확도 결정 조건이 평균 스펙트럼 진폭 파라미터 Spec_sm이 제2 스펙트럼 진폭 파라미터 임계값보다 크다는 것인 경우, 제2 차이 파라미터 임계값이 제1 차이 파라미터 임계값보다 크다. 대안으로, 부정확도 결정 조건이 평균 스펙트럼 진폭 파라미터 Spec_sm이 제1 스펙트럼 진폭 파라미터 임계값보다 작다는 것이고 정확도 결정 조건이 평균 스펙트럼 진폭 파라미터 Spec_sm이 제2 스펙트럼 진폭 파라미터 임계값보다 크다는 것인 경우, 제2 스펙트럼 진폭 파라미터 임계값은 제1 스펙트럼 진폭 파라미터 임계값보다 크다. 대안으로, 부정확도 결정 조건이 차이대진폭비 파라미터 Diff_ratio가 제1 비율 인자 파라미터 임계값보다 작다는 것이고, 정확도 결정 조건이 차이대진폭비 파라미터 Diff_ratio가 제2 비율 인자 파라미터 임계값보다 크다는 것인 경우, 제2 비율 인자 파라미터 임계값은 제1 비율 인자 파라미터 임계값보다 크다.
일반적으로, 시간 도메인에서 검출된 초기의 피치 주기가 정확하면, 초기의 피치 주기에 대응하는 주파수 빈에 피크가 있고, 에너지는 크며; 시간 도메인에서 검출된 초기의 피치 주기가 부정확하면, 주파수 도메인에서 미세 검출을 추가로 수행하여 정확한 주기를 결정할 수 있다.
환언하면, 피치 주기 정확도 결정 파라미터에 따라 초기의 피치 주기를 검출하는 동안 초기의 피치 주기가 부정확한 것으로 검출되면, 입력 신호에 대해 미세 검출을 수행한다.
대안으로, 피치 주기 정확도 결정 파라미터에 따라 초기의 피치 주기를 검출하는 동안 초기의 피치 주기가 부정확한 것으로 검출되면, 초기의 피치 주기의 에너지를 저주파 범위에서 검출하고; 그 에너지가 저주파 에너지 결정 조건을 충족할 때 쇼트-피치 검출(미세 검출의 방식)이 수행된다.
그러므로 본 발명의 본 실시예에 따라 피치 주기의 정확도를 검출하는 방법은 상대적으로 덜 복잡한 알고리즘에 기초해서 피치 주기의 정확도를 검출하는 정확성을 향상시킬 수 있다는 것을 알 수 있다.
이하에서는 특정한 실시예에 대해 상세히 설명하며, 이하의 단계를 포함한다.
1. 입력 신호 S(n)에 대해 N-포인트 FFT를 수행하여 시간 도메인에서의 입력 신호를 주파수 도메인에서의 입력 신호로 변환함으로써 주파수 도메인에서의 대응하는 진폭 스펙트럼 S(K)를 획득하며, 여기서 N=256, 512 등이다.
구체적으로, 진폭 스펙트럼 S(K)는 이하의 단계에서 획득될 수 있다:
단계 A1. 입력 신호 S(n)을 사전처리하여 사전처리된 입력 신호 Spre(n)을 획득하며, 여기서 사전처리는 고대역 필터링(high-filtering), 리샘플링(re-sampling), 또는 사전 가중(pre-weighting)과 같은 처리일 수 있다. 여기서는 사전 가중 처리만을 예로 들어 설명한다. 사전처리된 입력 신호 Spre(n)는 입력 신호 s(n)이 제1차 고대역 필터를 통과한 후 획득되며, 여기서 고대역 필터는 필터 인자 Hpre-emph(z) = 1 - 0.68z-1을 가진다.
단계 A2. 사전처리된 입력 신호 Spre(n)에 대해 FFT를 수행한다. 실시예에서는, 사전처리된 입력 신호 Spre(n)에 대해 FFT를 2번 수행하며, 여기서 한 번은 현재 프레임의 사전처리된 입력 신호에 대해 FFT를 수행하는 것이고, 다른 한 번은 현재 프레임의 제2 절반 및 미래 프레임의 제1 절반을 포함하는 사전처리된 입력 신호에 대해 FFT를 수행하는 것이다. FFT이 수행되기 전에, 사전처리된 입력 신호는 윈도윙(windowing)에 의해 처리되어야 하는데, 윈도 함수는 다음과 같다:
LFFT는 FFT의 길이이다.
제1 분석 윈도 및 제2 분석 윈도가 사전처리된 입력 신호에 부가된 후 윈도윙된 신호는 다음과 같다:
S[0] wnd(n) = WFFT(n)Spre(n), n=0,..., LFFT-1
S[1] wnd(n) = WFFT(n)Spre(n+LFFT/2), n=0,..., LFFT-1
여기서, 제1 분석 윈도는 현재 프레임에 대응하고 제2 분석 윈도는 미래 프레임의 제2 절반 및 미래 프레임의 제1 절반에 대응한다.
윈도윙된 신호에 대해 FFT를 수행하여 스펙트럼 계수를 획득한다:
여기서, K≤LFFT/2이다.
미래 프레임의 제1 절반은 시간 도메인에서 인코딩되는 다음 프레임 (장래) 신호로부터 온 것이고, 입력 신호는 다음 프레임 신호의 양에 따라 조정될 수 있다. FFT를 2번 수행하는 목적은 더 정확한 주파수 도메인 정보를 얻기 위한 것이다. 다른 실시예에서, FFT은 사전처리된 입력 신호 Spre(n)에 대해서도 수행될 수 있다.
단계 A3. 스펙트럼 계수에 기초해서 에너지 스펙트럼을 계산한다.
여기서, XR(k) 및 XI(k)는 k번째 주파수 빈의 실수부 및 허수부를 각각 나타내고, η는 상수이며, 예를 들어, 4/(LFFT*LFFT)일 수 있다.
단계 A4. 에너지 스펙트럼에 대해 가중 처리를 수행한다.
여기서, E[0](k)는 스펙트럼 계수 X[0](k)의 에너지 스펙트럼이고 단계 A3의 공식에 따라 계산되며, E[1](k)는 스펙트럼 계수 X[1](k)의 에너지 스펙트럼이고 단계 A3의 공식에 따라 계산된다.
단계 A5. 로그 도메인(logarithm domain)의 진폭 스펙트럼을 계산한다.
θ는 상수이고, 예를 들어, 2일 수 있으며; ε는 로그 값이 오버플로(overflowing)되지 않게 하는 상대적으로 작은 양수이다. 대안으로, log10은 프로젝트 실행에서는 loge로 대체될 수 있다.
2. 시간 도메인에서의 입력 신호에 대해 개루프 검출을 수행하여 초기의 피치 주기 Top를 획득하고, 이 단계는 다음과 같다:
단계 B1. 입력 신호 S(n)를 지각 관련 가중 신호(perceptual weighted signal)로 변환한다:
여기서, ai는 선형 예측(Linear Prediction: LP) 계수이고, 1 및 2는 지각 관련 가중 인자(perceptual weighted factor)이고, p는 지각 관련 필터이며, N은 프레임 길이이다.
단계 B2. 상관 함수를 사용함으로써 3개의 후보 검출 범위(예를 들어, 낮은 샘플링 도메인에서, 3개의 후보 검출 범위는 [62 115]; [32 61]; 및 [17 31]일 수 있다) 각각에서 가장 큰 값을 검색하고 그 가장 큰 값을 후보 피치로 사용한다:
여기서 k는 피치 주기의 후보 검출 범위 내의 값이고, 예를 들어, k는 3개의 후보 검출 범위 내의 값일 수 있다.
단계 B3. 3개의 후보 피치의 정상화된 상관 계수를 개별적으로 계산한다:
단계 B4. 범위의 정상화된 상관 계수들의 비교함으로써 개루프 초기의 피치 주기 Top를 선택한다:
먼저, 제1 후보 피치의 주기를 초기 피치 주기로 사용한다. 그런 다음, 제2 후보 피치의 정상화된 상관 계수가 초기의 피치 주기의 정상화된 상관 계수와 고정된 비율 인자의 적(product)보다 크거나 같으면, 제2 후보의 주기를 초기의 피치 주기로 사용하며; 그렇지 않으면, 초기의 피치 주기는 변하지 않는다. 마지막으로, 제3 후보 피치의 정상화된 상관 계수가 초기의 피치 주기의 정상화된 상관 계수와 고정된 비율 인자의 적보다 크거나 같으면, 제3 후보의 주기를 초기의 피치 주기로 사용하고; 그렇지 않으면, 초기의 피치 주기는 변하지 않는다. 이하의 프로그램 표현을 참조한다:
진폭 스펙트럼 S(k) 및 초기의 피치 주기 Top를 획득하는 전술의 단계의 시퀀스에 제한을 두지 않는다는 것은 물론이다. 단계들은 동시에 수행될 수 있거나, 임의의 단계가 먼저 수행될 수도 있다.
3. FFT의 포인트들의 양 N 및 초기의 피치 주기 T_op에 따라 피치 주파수 빈 F_op를 획득한다.
F_op = N/Top
4. 피치 주파수 빈 F_op의 양측 상의 스펙트럼 진폭의 합 Spec_sum 및 주파수 빈의 미리 정해진 양의 스펙트럼 진폭 차이의 합 Diff_sum을 계산하고, 여기서 피치 주파수 빈 F_op의 양측 상의 주파수 빈의 양은 사전설정될 수 있다.
여기서, 스펙트럼 진폭의 합 Spec_sum은 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 합이며, 스펙트럼 진폭 차이의 합 Diff_sum은 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합이며, 여기서, 스펙트럼 차이란 피치 주파수 빈 F_op의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭과 피치 주파수 빈의 스펙트럼 진폭 간의 차이를 말한다. 스펙트럼 진폭의 합 Spec_sum 및 스펙트럼 진폭 차이의 합 Diff_sum은 이하의 프로그램 표현으로 표현될 수 있다:
Spec_sum[0]=0;
Diff_sum[0]=0;
for (i=1; i < 2*F_op; i++){
Spec_sum[i] = Spec_sum[i-1] + S[i];
Diff_sum[i] = Diff_sum[i-1] + (S[F_op] - S[i]);
},
여기서 i는 주파수 빈의 순서 번호이다. 프로젝트 실행에서, i의 초기의 값은 가장 낮은 계수의 저주파 간섭을 회피하기 위해 2로 설정될 수 있다.
5. 평균 스펙트럼 진폭 파라미터 Spec_sm, 스펙트럼 차이 파라미터 Diff_sm, 및 차이대진폭 비율 파라미터 Diff_ratio를 결정한다.
평균 스펙트럼 진폭 파라미터 Spec_sm은 피치 주파수 빈 F_op의 양측 상의 주파수 빈의 미리 정해진 양의 평균 스펙트럼 진폭 Spec_avg일 수 있으며, 즉 피치 주파수 빈 F_op의 양측 상의 주파수 빈의 미리 정해진 양의 모든 주파수 빈의 양에 의해 분할된 스펙트럼 진폭의 합 Spec_sum일 수 있다:
Spec_avg = Spec_sum/(2* F_op-1)
또한, 평균 스펙트럼 진폭 파라미터 Spec_sm은 피치 주파수 빈 F_op의 양측 상의 주파수 빈의 미리 정해진 양의 평균 스펙트럼 진폭 Spec_avg의 가중되고 평활화된 값일 수도 있다:
Spec_sm = 0.2*Spec_sm_pre + 0.8*Spec_avg
여기서 Spec_sm_pre는 이전 프레임의 평균 스펙트럼 진폭의 가중되고 평활화된 값인 파라미터이다. 이 경우, 0.2 및 0.8은 가중 및 평활 계수이다. 입력 신호의 다른 특징에 따라 다른 가중 및 평활 계수가 선택될 수 있다.
스펙트럼 차이 파라미터 Diff_sm는 스펙트럼 진폭 차이의 합 Diff_sum 및 스펙트럼 진폭 차이의 합 Diff_sum의 가중되고 평활화된 값일 수 있다:
Diff_sm =0.4* Diff_sm_pre + 0.6*Diff_sum
여기서 Diff_sm_pre는 이전 프레임의 스펙트럼 차이의 가중되고 평활화된 값인 파라미터이다. 여기서, 0.4 및 0.6은 가중 및 평활 계수이다. 입력 신호의 다른 특징에 따라 다른 가중 및 평활 계수가 선택될 수 있다.
전술한 바로부터 알 수 있는 바와 같이, 일반적으로, 현재 프레임의 평균 스펙트럼 진폭 파라미터의 가중되고 평활화된 값 Spec_sm은 이전 프레임의, 평균 스펙트럼 진폭 파라미터의 가중되고 평활화된 값 Spec_sm_pre에 기초해 결정되고, 현재 프레임의 스펙트럼 차이 파라미터의 가중되고 평활화된 값 Diff_sm은 이전 프레임의 스펙트럼 차이 파라미터의 가중되고 평활화된 값 Diff_sm_pre에 기초해서 결정된다.
차이대진폭비 파라미터 Diff_ratio는 평균 스펙트럼 진폭 Spec_avg에 대한 스펙트럼 진폭 차이의 합 Diff_sum의 비율이다.
Diff_ratio = Diff_sum/Spec_avg.
평활화된 평균 스펙트럼 진폭 파라미터 Spec_sm 및 스펙트럼 차이 파라미터 Diff_sm.
평균 스펙트럼 진폭 파라미터 Spec_sm, 스펙트럼 차이 파라미터 Diff_sm, 및 차이대진폭비 파라미터 Diff_ratio에 따라, 초기의 피치 주기 Top가 정확한지를 결정하고 결정 플래그 T_flag를 변경할지를 결정한다.
예를 들어, 스펙트럼 차이 파라미터 Diff_sm이 제1 차이 파라미터 임계값 Diff_thr1보다 작고, 평균 스펙트럼 진폭 파라미터 Spec_sm이 제1 스펙트럼 진폭 파라미터 임계값 Spec_thr1보다 작으며, 차이대진폭비 파라미터 Diff_ratio가 제1 비율 인자 파라미터 임계값 ratio_thr1보다 작으면, 대응하는 플래그 T_flag는 1인 것으로 결정되며, 초기의 피치 주기는 정확도 플래그에 따라 부정확한 것으로 결정된다. 다른 예에 있어서, 스펙트럼 차이 파라미터 Diff_sm이 제2 차이 파라미터 임계값 Diff_thr2보다 작고, 평균 스펙트럼 진폭 파라미터 Spec_sm이 제2 스펙트럼 진폭 파라미터 임계값 Spec_thr2보다 작으며, 차이대진폭비 파라미터 Diff_ratio가 제2 비율 인자 파라미터 임계값 ratio_thr2보다 작으면, 대응하는 플래그 T_flag는 0인 것으로 결정되며, 초기의 피치 주기는 정확도 플래그에 따라 정확한 것으로 결정된다. 모든 정확도 결정 조건이 충족되는 것이 아니고 모든 부정확도 결정 조건이 충족되는 것이 아니면, 원래의 플래그 T_flag는 불변으로 유지된다.
제1 차이 파라미터 임계값 Diff_thr1, 제1 스펙트럼 진폭 파라미터 임계값 Spec_thr1, 제1 비율 인자 파라미터 임계값 ratio_thr1, 제2 차이 파라미터 임계값 Diff_thr2, 제2 스펙트럼 진폭 파라미터 임계값 Spec_thr2, 및 제2 비율 인자 파라미터 임계값 ratio_thr2는 요구에 따라 선택될 수 있다.
전술한 방법에 따라 검출된 부정확한 초기의 피치 주기에 있어서는, 전술한 검출 결과에 대해 미세 검출을 수행하여, 전술한 방법의 검출 오류를 회피할 수 있다.
또한, 저주파 범위 내의 에너지를 추가로 검출하여 초기의 피치 주기의 정확도를 추가로 검출할 수 있다. 검출된 부정확한 피치 주기에 대해 쇼트-피치 검출을 추가로 수행할 수 있다.
7.1. 초기의 피치 주기의 에너지가 저주파 범위 내에서 매우 작은지가 초기의 피치 주기에 대해 추가로 검출될 수 있다. 검출된 에너지가 저주파 에너지 결정 조건을 충족하면, 쇼트-피치 검출이 수행된다. 구체적으로, 저주파 에너지 결정 조건은 저주파 에너지가 상대적으로 작고 저주파 에너지가 상대적으로 크다는 것을 나타내는 2개의 저주파 에너지 상대 값을 설명한다. 그러므로 검출된 에너지가 저주파 주파수 에너지가 상대적으로 매우 작다는 것을 충족하면, 정확도 플래그 T_flag는 1에 설정되고, 검출된 에너지가 저주파 주파수 에너지가 상대적으로 크다는 것을 충족하면, 정확도 플래그 T_flag는 0에 설정된다. 검출된 에너지가 저주파 에너지 결정 조건을 충족하지 않으면, 원래의 플래그 T_flag는 불변으로 유지된다. 정확도 플래그 T_flag가 1에 설정되면, 쇼트-피치 검출이 수행된다. 저주파 에너지 상대 값을 지정하는 것 외에, 저주파 에너지 결정 조건은 또한 조건의 다른 조합을 지정하여 저주파 에너지 결정 조건의 견고성을 증가시킬 수도 있다.
예를 들어, 2개의 주파수 빈 f_low1 및 f_low2이 먼저 설정되고, 0과 f_low1 사이 그리고 f_low1과 f_low2 사이의 범위 내에 있는 초기의 피치 주기의 에너지 1 및 에너지 2인 에너지는 개별적으로 계산되고, 그런 다음 에너지1과 에너지2 간의 에너지 차이는 다음과 같이 계산된다: energy_diff=energy2-energy1. 또한, 에너지 차이는 가중될 수 있고, 가중 인자는 음성 정도 인자(voicing degree factor) voice_factor, 즉 energy_diff_w=energy_diff * voice_factor일 수 있다. 일반적으로, 가중된 에너지 차이는 추가로 평활화될 수 있고, 평활화의 결과는 사전설정된 임계값과 비교되어 저주파 범위 내의 초기의 피치 주기의 에너지가 손실되는지를 결정한다.
대안으로, 전술한 알고리즘은, 범위 내의 초기의 피치 주기의 저주파 에너지가 직접적으로 획득되고, 그런 다음 저주파 에너지가 가중되고 평활화되고, 평활화의 결과가 사전설정된 임계값과 비교되도록 간략하게 된다.
7.2. 쇼트-피치 검출을 수행하고, 정확도 플래그 T_flag에 따라 또는 다른 조건과 조합하는 정확도 플래그 T_flag에 따라, 초기의 피치 주기 Top를 쇼트-피치 검출의 결과로 대체할지를 결정한다. 대안으로, 쇼트-피치가 수행되기 전에, 쇼트-피치 검출을 수행할 필요가 있는지가, 정확도 플래그 T_flag에 따라 또는 다른 조건과 조합하는 정확도 플래그 T_flag에 따라, 먼저 결정될 수 있다.
쇼트-피치 검출은 주파수 도메인에서 수행될 수도 있고, 시간 도메인에서 수행될 수도 있다.
예를 들어, 시간 도메인에서 피치 주기의 검출 범위는 일반적으로 34 내지 231이고, 쇼트-피치 검출을 수행하는 것은 범위가 34보다 낮은 피치 주기를 검색하는 것이며, 사용된 방법은 시간 도메인 자동상관 함수 방법일 수 있다:
R(T) = MAX{R'(t), t<34};
R(T)가 초기의 피치 주기에 대응하는 사전설정된 임계값 또는 자동상관 값보다 크면, T_flag가 1일 때(여기서 다른 조건도 부가될 수 있다), T는 검출된 쇼트-피치 주기로 고려될 수 있다.
쇼트-피치 검출 외에, 체배 주파수 검출도 수행될 수 있다. 정확도 플래그 T_flag가 1이면, 초기의 피치 주기 Top가 부정확한 것으로 표시되고, 그러므로 체배 주파수 피치 검출은 초기의 피치 주기 Top의 체배 주파수 위치에서 수행될 수 있으며, 여기서 체배 주파수 피치 주기는 초기의 피치 주기 Top의 정수 배일 수도 있고, 초기의 피치 주기의 Top의 분수 배일 수도 있다.
단계 7.1 및 단계 7.2에 있어서, 미세 검출의 프로세스를 간단하게 하기 위해 단계 7.2만이 수행될 수 있다.
8. 단계 1 내지 7.2 전부는 현재 프레임에 대해 수행된다. 현재 프레임이 처리된 후, 다음 프레임이 처리되어야 한다.
그러므로 다음 프레임에 있어서, 파라미터 Spec_sm_pre는 이전 프레임의 평균 스펙트럼 진폭의 가중되고 평활화된 값이고 파라미터 Diff_sm_pre는 이전 프레임의 스펙트럼 차이의 가중되고 평활화된 값이며, 현재 프레임의 평균 스펙트럼 진폭 파라미터 Spec_sm 및 스펙트럼 차이 파라미터 Diff_sm이 사용되고 다음 프레임의 파라미터 평활화를 수행하도록 일시적으로 저장된다.
그러므로 본 발명의 실시예에서 초기의 피치 주기가 개루프 검출 동안 획득된 후, 초기의 피치 주기의 정확도가 주파수 도메인에서 검출되고, 초기의 피치 주기가 부정확한 것으로 검출되면, 초기의 피치 주기는 미세 검출을 사용함으로써 정정되어, 초기의 피치 주기의 정확도를 보장한다는 것을 알 수 있다. 초기의 피치 주기의 정확도를 검출하는 방법에서, 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이 파라미터, 평균 스펙트럼 진폭(또는 스펙트럼 에너지) 파라미터 및 차이대진폭 비율 파라미터가 추출되어야 한다. 이러한 파라미터를 추출하는 복잡도는 낮기 때문에, 본 발명의 본 실시예는 상대적으로 높은 정확도를 가지는 피치 주기가 덜 복잡한 알고리즘에 기초해서 출력되는 것을 보장할 수 있다. 결론적으로, 본 발명의 본 실시예에 따라 피치 주기의 정확도를 검출하는 방법 및 장치는 상대적으로 덜 복잡한 알고리즘에 기초해서 피치 주기의 정확도를 검출하는 정확성을 향상시킬 수 있다.
이하에서는 도 2 내지 도 4를 참조하여 본 발명의 실시예에 따라 피치 주기의 정확도를 검출하는 장치에 대해 설명한다.
도 2에서, 피치 주기의 정확도를 검출하는 장치(20)는 피치 주파수 빈 결정 유닛(21), 파라미터 생성 유닛(22), 및 정확도 결정 유닛(23)을 포함한다.
피치 주파수 빈 결정 유닛(21)은 시간 도메인에서의 입력 신호의 초기의 피치 주기에 따라, 입력 신호의 피치 주파수 빈을 결정하도록 구성되어 있으며, 상기 초기의 피치 주기는 입력 신호에 대해 개루프 검출을 수행함으로써 획득된다. 구체적으로, 피치 주파수 빈 결정 유닛(21)은 다음의 방식에 기초해서 피치 주파수를 결정한다: 입력 신호의 피치 주파수 빈이 상기 초기의 피치 주기에 반비례하고, 입력 신호에 대해 수행된 FFT의 포인트의 양에 정비례한다.
파라미터 생성 유닛(22)은 주파수 도메인에서의 입력 신호의 진폭 스펙트럼에 기초해서, 입력 신호의 피치 주파수 빈과 관련된 피치 주기 정확도 결정 파라미터를 결정하도록 구성되어 있다. 파라미터 생성 유닛(22)에 의해 생성된 피치 주기 정확도 결정 파라미터는 스펙트럼 차이 파라미터 Diff_sm, 평균 스펙트럼 진폭 파라미터 Spec_sm, 및 차이대진폭비 파라미터 Diff_ratio를 포함한다. 스펙트럼 차이 파라미터 Diff_sm은 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합 Diff_sum 또는 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합 Diff_sum의 가중되고 평활화된 값이다. 평균 스펙트럼 진폭 파라미터 Spec_sm은 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균 Spec_avg 또는 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균 Spec_avg의 가중되고 평활화된 값이다. 차이대진폭비 파라미터 Diff_ratio는 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균 Spec_avg에 대한 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합 Diff_sum의 비율이다.
정확도 결정 유닛(23)은 피치 주기 정확도 결정 파라미터에 따라 초기의 피치 주기의 정확도를 결정하도록 구성되어 있다.
구체적으로, 정확도 결정 유닛(23)이 피치 주기 정확도 결정 파라미터가 정확도 결정 조건을 충족하는 것으로 결정하면, 정확도 결정 유닛(23)은 초기의 피치 주기가 정확한 것으로 결정하거나; 또는 정확도 결정 유닛(23)이 피치 주기 정확도 결정 파라미터가 부정확도 결정 조건을 충족하는 것으로 결정하면, 정확도 결정 유닛(23)은 초기의 피치 주기가 부정확한 것으로 결정한다.
여기서, 정확도 결정 조건은 다음의 조건: 스펙트럼 차이 파라미터 Diff_sm이 제1 차이 파라미터 임계값보다 작거나 같다는 것과, 평균 스펙트럼 진폭 파라미터 Spec_sm이 제1 스펙트럼 진폭 파라미터 임계값보다 작거나 같다는 것과, 그리고 차이대진폭비 파라미터 Diff_ratio가 제1 비율 인자 파라미터 임계값보다 작거나 같다는 것 중 적어도 하나를 충족한다.
부정확도 결정 조건은 다음의 조건: 스펙트럼 차이 파라미터 Diff_sm이 제2 차이 파라미터 임계값보다 크다는 것과, 평균 스펙트럼 진폭 파라미터 Spec_sm이 제2 스펙트럼 진폭 파라미터 임계값보다 크다는 것과, 그리고 차이대진폭비 파라미터 Diff_ratio가 제2 비율 인자 파라미터 임계값보다 크다는 것 중 적어도 하나를 충족한다.
선택적으로, 도 3에 도시된 바와 같이, 장치(20)와 비교해 보면, 피치 주기의 정확도를 검출하는 장치(30)는 피치 주기 정확도 결정 파라미터에 따라 초기의 피치 주기를 검출하는 동안 초기의 피치 주기가 부정확한 것으로 검출되면, 입력 신호에 대해 미세 검출을 수행하도록 구성되어 있는 미세 검출 유닛(24)을 더 포함한다.
선택적으로, 도 4에 도시된 바와 같이, 장치(30)와 비교해 보면, 피치 주기의 정확도를 검출하는 장치(40)는 피치 주기 정확도 결정 파라미터에 따라 초기의 피치 주기를 검출하는 동안 부정확한 초기의 피치 주기가 검출되면, 저주파 범위 내의 초기의 피치 주기의 에너지를 검출하도록 구성되어 있는 에너지 검출 유닛(25)을 더 포함할 수 있다. 그런 다음, 미세 검출 유닛(24)은 상기 에너지가 저주파 에너지 결정 조건을 충족한다는 것을 상기 에너지 검출 유닛(25)이 검출할 때 입력 신호에 대해 쇼트-피치 검출을 수행한다.
그러므로 본 발명의 본 실시예에 따라 피치 주기의 정확도를 검출하는 방법은 상대적으로 덜 복잡한 알고리즘에 기초해서 피치 주기의 정확도를 검출하는 정확성을 향상시킬 수 있다는 것을 알 수 있다.
도 5를 참조하면, 다른 실시예에서, 피치 주기의 정확도를 검출하는 장치는:
입력 신호를 수신하도록 구성되어 있는 수신기: 및
시간 도메인에서의 입력 신호의 초기의 피치 주기에 따라, 상기 입력 신호의 피치 주파수 빈을 결정하고 - 상기 초기의 피치 주기는 상기 입력 신호에 대해 개루프 검출을 수행함으로써 획득됨 - ; 주파수 도메인에서의 상기 입력 신호의 진폭 스펙트럼에 기초해서, 상기 입력 신호의 상기 피치 주파수 빈과 관련된 피치 주기 정확도 결정 파라미터를 결정하며; 그리고 상기 피치 주기 정확도 결정 파라미터에 따라 상기 초기의 피치 주기의 정확도를 결정하도록 구성되어 있는 프로세서
를 포함한다.
프로세서는 전술한 방법 실시예에서의 각 단계를 실행할 수 있다.
당업자라면 본 명세서에 개시된 실시예에 설명된 예와 조합해서, 유닛 및 알고리즘 단계들은 전자식 하드웨어 또는 컴퓨터 소프트웨어와 전자식 하드웨어의 조합으로 실현될 수 있다는 것을 인지할 수 있을 것이다. 기능들이 하드웨어로 수행되는지 소프트웨어로 수행되는지는 특별한 애플리케이션 및 기술적 솔루션의 설계 제약 조건에 따라 다르다. 당업자라면 다른 방법을 사용하여 각각의 특별한 실시예에 대해 설명된 기능을 실행할 수 있을 것이나, 그 실행이 본 발명의 범위를 넘어서는 것으로 파악되어서는 안 된다.
당업자라면 설명의 편의 및 간략화를 위해, 전술한 시스템, 장치, 및 유닛에 대한 상세한 작업 프로세스는 전술한 방법 실시예의 대응하는 프로세스를 참조하면 된다는 것을 자명하게 이해할 수 있을 것이므로 그 상세한 설명은 여기서 다시 설명하지 않는다.
본 출원에서 제공하는 수 개의 실시예에서, 전술한 시스템, 장치, 및 방법은 다른 방식으로도 실현될 수 있다는 것은 물론이다. 예를 들어, 설명된 장치 실시예는 단지 예시에 불과하다. 예를 들어, 유닛의 분할은 단지 일종의 논리적 기능 분할일 뿐이며, 실제의 실행 동안 다른 분할 방식으로 있을 수 있다. 예를 들어, 복수의 유닛 또는 구성요소를 다른 시스템에 결합 또는 통합할 수 있거나, 또는 일부의 특징은 무시하거나 수행하지 않을 수도 있다. 또한, 도시되거나 논의된 상호 커플링 또는 직접 결합 또는 통신 접속은 일부의 인터페이스를 통해 실현될 수 있다. 장치 또는 유닛 간의 직접 결합 또는 통신 접속은 전자식, 기계식 또는 다른 형태로 실현될 수 있다.
별도의 부분으로 설명된 유닛들은 물리적으로 별개일 수 있고 아닐 수도 있으며, 유닛으로 도시된 부분은 물리적 유닛일 수도 있고 아닐 수도 있으며, 한 위치에 위치할 수도 있고, 복수의 네트워크 유닛에 분산될 수도 있다. 유닛 중 일부 또는 전부는 실제의 필요에 따라 선택되어 실시예의 솔루션의 목적을 달성할 수 있다.
또한, 본 발명의 실시예에서의 기능 유닛은 하나의 프로세싱 유닛으로 통합될 수 있거나, 각각의 유닛이 물리적으로 단독으로 존재할 수도 있거나, 2개 이상의 유닛이 하나의 유닛으로 통합될 수도 있다. 통합 유닛은 하드웨어의 형태로 실현될 수도 있고, 소프트웨어 기능 유닛의 형태로 실현될 수도 있다.
통합 유닛이 소프트웨어 기능 유닛의 형태로 실현되어 독립 제품으로 시판되거나 사용되면, 이 통합 유닛은 컴퓨터 판독 가능형 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 발명의 필수적 기술적 솔루션 또는, 또는 종래기술에 기여하는 부분, 또는 기술적 솔루션의 일부는 소프트웨어 제품의 형태로 실현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 본 발명의 실시예에 설명된 방법의 단계 중 일부 또는 전부를 수행하도록 컴퓨터 장치(이것은 퍼스널 컴퓨터, 서버, 또는 네트워크 장치 등이 될 수 있다)에 명령하는 수개의 명령어를 포함한다. 전술한 저장 매체는: 프로그램 코드를 저장할 수 있는 임의의 저장 매체, 예를 들어, USB 플래시 디스크, 휴대형 하드디스크, 리드-온리 메모리(ROM), 랜덤 액세스 메모리(RAM), 자기디스크 또는 광디스크를 포함한다.
전술한 설명은 단지 본 발명의 특정한 실행 방식에 불과하며, 본 발명의 보호 범위를 제한하려는 것이 아니다. 본 발명에 설명된 기술적 범위 내에서 당업자가 용이하게 실현하는 모든 변형 또는 대체는 본 발명의 보호 범위 내에 있게 된다. 그러므로 본 발명의 보호 범위는 특허청구범위의 보호 범위에 있게 된다.
Claims (14)
- 피치 주기의 정확도를 검출하는 방법으로서,
시간 도메인에서의 입력 신호의 초기의 피치 주기에 따라, 상기 입력 신호의 피치 주파수 빈을 결정하는 단계 - 상기 초기의 피치 주기는 상기 입력 신호에 대해 개루프(open-loop) 검출을 수행함으로써 획득됨 - ;
주파수 도메인에서의 상기 입력 신호의 진폭 스펙트럼에 기초해서, 상기 입력 신호의 상기 피치 주파수 빈과 관련된 피치 주기 정확도 결정 파라미터를 결정하는 단계;
상기 피치 주기 정확도 결정 파라미터에 따라 상기 초기의 피치 주기의 정확도를 결정하는 단계;
쇼트 피치 주기를 획득하기 위해 쇼트-피치 검출을 수행하는 단계; 및
하나 이상의 다른 조건과 조합한 상기 초기의 피치 주기의 정확도에 따라, 상기 초기의 피치 주기를 상기 쇼트 피치 주기로 교체할지 여부를 판정하는 단계
를 포함하고,
상기 피치 주기 정확도 결정 파라미터는 스펙트럼 차이 파라미터, 평균 스펙트럼 진폭 파라미터, 및 차이대진폭비 파라미터(difference-to-amplitude ratio parameter)를 포함하고,
상기 스펙트럼 차이 파라미터는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합 또는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합의 가중되고 평활화된 값이며;
상기 평균 스펙트럼 진폭 파라미터는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균 또는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균의 가중되고 평활화된 값이며; 그리고
상기 차이대진폭비 파라미터는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균에 대한 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합의 비율인, 피치 주기의 정확도를 검출하는 방법. - 제1항에 있어서,
상기 피치 주기 정확도 결정 파라미터에 따라 상기 초기의 피치 주기의 정확도를 결정하는 단계는,
상기 피치 주기 정확도 결정 파라미터가 정확도 결정 조건을 충족할 때, 상기 초기의 피치 주기가 정확한 것으로 결정하는 단계; 및
상기 피치 주기 정확도 결정 파라미터가 부정확도 결정 조건을 충족할 때, 상기 초기의 피치 주기가 부정확한 것으로 결정하는 단계
를 포함하는, 피치 주기의 정확도를 검출하는 방법. - 제2항에 있어서,
상기 정확도 결정 조건은 다음의 조건:
상기 스펙트럼 차이 파라미터가 제2 차이 파라미터 임계값보다 크다는 것과, 상기 평균 스펙트럼 진폭 파라미터가 제2 스펙트럼 진폭 파라미터 임계값보다 크다는 것과, 그리고 상기 차이대진폭비 파라미터가 제2 비율 인자 파라미터 임계값보다 크다는 것 중 적어도 하나를 충족하며,
상기 부정확도 결정 조건은 다음의 조건:
상기 스펙트럼 차이 파라미터가 제1 차이 파라미터 임계값보다 작다는 것과, 상기 평균 스펙트럼 진폭 파라미터가 제1 스펙트럼 진폭 파라미터 임계값보다 작다는 것과, 그리고 상기 차이대진폭비 파라미터가 제1 비율 인자 파라미터 임계값보다 작다는 것 중 적어도 하나를 충족하는, 피치 주기의 정확도를 검출하는 방법. - 제1항에 있어서,
상기 피치 주파수 빈은 다음의 등식:
F_op = N/Top
에 의해 결정되고, 여기서 F_op는 상기 피치 주파수 빈을 표현하고; N은 FFT 변환의 포인트의 개수를 표현하며; Top는 상기 초기의 피치 주기를 표현하는 것인, 피치 주기의 정확도를 검출하는 방법. - 제4항에 있어서,
상기 스펙트럼 진폭의 평균은 다음의 등식:
Spec_avg = Spec_sum / (2 * F_op - 1)
에 의해 결정되고, 여기서 Spec_avg는 상기 스펙트럼 진폭의 평균을 표현하고; Spec_sum은 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 합을 표현하는 것인, 피치 주기의 정확도를 검출하는 방법. - 제1항에 있어서,
상기 입력 신호의 피치 주파수 빈이 상기 초기의 피치 주기에 반비례하고, 상기 입력 신호에 대해 수행된 고속 푸리에 변환의 포인트의 양에 정비례하는, 피치 주기의 정확도를 검출하는 방법. - 피치 주기의 정확도를 검출하는 장치로서,
시간 도메인에서의 입력 신호의 초기의 피치 주기에 따라, 상기 입력 신호의 피치 주파수 빈을 결정하도록 구성되어 있는 피치 주파수 빈 결정 유닛 - 상기 초기의 피치 주기는 상기 입력 신호에 대해 개루프 검출을 수행함으로써 획득됨 - ;
주파수 도메인에서의 상기 입력 신호의 진폭 스펙트럼에 기초해서, 상기 입력 신호의 상기 피치 주파수 빈과 관련된 피치 주기 정확도 결정 파라미터를 결정하도록 구성되어 있는 파라미터 생성 유닛;
상기 피치 주기 정확도 결정 파라미터에 따라 상기 초기의 피치 주기의 정확도를 결정하도록 구성되어 있는 정확도 결정 유닛;
쇼트 피치 주기를 획득하기 위해 쇼트-피치 검출을 수행하도록 구성된 유닛; 및
하나 이상의 다른 조건과 조합한 상기 초기의 피치 주기의 정확도에 따라, 상기 초기의 피치 주기를 상기 쇼트 피치 주기로 교체할지 여부를 판정하도록 구성된 유닛
을 포함하고,
상기 파라미터 생성 유닛에 의해 생성되는 피치 주기 정확도 결정 파라미터는 스펙트럼 차이 파라미터, 평균 스펙트럼 진폭 파라미터, 및 차이대진폭비 파라미터를 포함하고,
상기 스펙트럼 차이 파라미터는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합 또는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합의 가중되고 평활화된 값이며;
상기 평균 스펙트럼 진폭 파라미터는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균 또는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균의 가중되고 평활화된 값이며; 그리고
상기 차이대진폭비 파라미터는 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 평균에 대한 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 차이의 합의 비율인, 피치 주기의 정확도를 검출하는 장치. - 제7항에 있어서,
상기 정확도 결정 유닛은,
상기 피치 주기 정확도 결정 파라미터가 정확도 결정 조건을 충족하는 것으로 결정되면, 상기 초기의 피치 주기가 정확한 것으로 결정하고; 그리고
상기 피치 주기 정확도 결정 파라미터가 부정확도 결정 조건을 충족하는 것으로 결정되면, 상기 초기의 피치 주기가 부정확한 것으로 결정하도록 구성되어 있는 피치 주기의 정확도를 검출하는 장치. - 제8항에 있어서,
상기 정확도 결정 조건은 다음의 조건:
상기 스펙트럼 차이 파라미터가 제2 차이 파라미터 임계값보다 크다는 것과, 상기 평균 스펙트럼 진폭 파라미터가 제2 스펙트럼 진폭 파라미터 임계값보다 크다는 것과, 그리고 상기 차이대진폭비 파라미터가 제2 비율 인자 파라미터 임계값보다 크다는 것 중 적어도 하나를 충족하며,
상기 부정확도 결정 조건은 다음의 조건:
상기 스펙트럼 차이 파라미터가 제1 차이 파라미터 임계값보다 작다는 것과, 상기 평균 스펙트럼 진폭 파라미터가 제1 스펙트럼 진폭 파라미터 임계값보다 작다는 것과, 그리고 상기 차이대진폭비 파라미터가 제1 비율 인자 파라미터 임계값보다 작다는 것 중 적어도 하나를 충족하는, 피치 주기의 정확도를 검출하는 장치. - 제7항에 있어서,
상기 피치 주파수 빈은 다음의 등식:
F_op = N/Top
에 의해 결정되고, 여기서 F_op는 상기 피치 주파수 빈을 표현하고; N은 FFT 변환의 포인트의 개수를 표현하며; Top는 상기 초기의 피치 주기를 표현하는 것인, 피치 주기의 정확도를 검출하는 장치. - 제10항에 있어서,
상기 스펙트럼 진폭의 평균은 다음의 등식:
Spec_avg = Spec_sum / (2 * F_op - 1)
에 의해 결정되고, 여기서 Spec_avg는 상기 스펙트럼 진폭의 평균을 표현하고; Spec_sum은 상기 피치 주파수 빈의 양측 상의 주파수 빈의 미리 정해진 양의 스펙트럼 진폭의 합을 표현하는 것인, 피치 주기의 정확도를 검출하는 장치. - 제7항에 있어서,
상기 입력 신호의 피치 주파수 빈이 상기 초기의 피치 주기에 반비례하고, 상기 입력 신호에 대해 수행된 고속 푸리에 변환의 포인트의 양에 정비례하는, 피치 주기의 정확도를 검출하는 장치. - 삭제
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210155298.4 | 2012-05-18 | ||
CN201210155298.4A CN103426441B (zh) | 2012-05-18 | 2012-05-18 | 检测基音周期的正确性的方法和装置 |
PCT/CN2012/087512 WO2013170610A1 (zh) | 2012-05-18 | 2012-12-26 | 检测基音周期的正确性的方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020147034975A Division KR101649243B1 (ko) | 2012-05-18 | 2012-12-26 | 피치 주기의 정확도를 검출하는 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160099729A KR20160099729A (ko) | 2016-08-22 |
KR101762723B1 true KR101762723B1 (ko) | 2017-07-28 |
Family
ID=49583070
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020147034975A KR101649243B1 (ko) | 2012-05-18 | 2012-12-26 | 피치 주기의 정확도를 검출하는 방법 및 장치 |
KR1020167021709A KR101762723B1 (ko) | 2012-05-18 | 2012-12-26 | 피치 주기의 정확도를 검출하는 방법 및 장치 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020147034975A KR101649243B1 (ko) | 2012-05-18 | 2012-12-26 | 피치 주기의 정확도를 검출하는 방법 및 장치 |
Country Status (10)
Country | Link |
---|---|
US (5) | US9633666B2 (ko) |
EP (2) | EP2843659B1 (ko) |
JP (2) | JP6023311B2 (ko) |
KR (2) | KR101649243B1 (ko) |
CN (1) | CN103426441B (ko) |
DK (1) | DK2843659T3 (ko) |
ES (2) | ES2627857T3 (ko) |
HU (1) | HUE034664T2 (ko) |
PL (1) | PL2843659T3 (ko) |
WO (1) | WO2013170610A1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426441B (zh) * | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
CN106373594B (zh) * | 2016-08-31 | 2019-11-26 | 华为技术有限公司 | 一种音调检测方法及装置 |
US11282407B2 (en) | 2017-06-12 | 2022-03-22 | Harmony Helper, LLC | Teaching vocal harmonies |
US10249209B2 (en) | 2017-06-12 | 2019-04-02 | Harmony Helper, LLC | Real-time pitch detection for creating, practicing and sharing of musical harmonies |
CN110600060B (zh) * | 2019-09-27 | 2021-10-22 | 云知声智能科技股份有限公司 | 一种硬件音频主动探测hvad系统 |
CN111223491B (zh) * | 2020-01-22 | 2022-11-15 | 深圳市倍轻松科技股份有限公司 | 一种提取音乐信号主旋律的方法、装置及终端设备 |
US11335361B2 (en) * | 2020-04-24 | 2022-05-17 | Universal Electronics Inc. | Method and apparatus for providing noise suppression to an intelligent personal assistant |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100070270A1 (en) * | 2008-09-15 | 2010-03-18 | GH Innovation, Inc. | CELP Post-processing for Music Signals |
Family Cites Families (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
CA1245363A (en) * | 1985-03-20 | 1988-11-22 | Tetsu Taguchi | Pattern matching vocoder |
US4776014A (en) * | 1986-09-02 | 1988-10-04 | General Electric Company | Method for pitch-aligned high-frequency regeneration in RELP vocoders |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
US4809334A (en) | 1987-07-09 | 1989-02-28 | Communications Satellite Corporation | Method for detection and correction of errors in speech pitch period estimates |
US5127053A (en) | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
US7171016B1 (en) * | 1993-11-18 | 2007-01-30 | Digimarc Corporation | Method for monitoring internet dissemination of image, video and/or audio files |
US6463406B1 (en) | 1994-03-25 | 2002-10-08 | Texas Instruments Incorporated | Fractional pitch method |
CA2154911C (en) * | 1994-08-02 | 2001-01-02 | Kazunori Ozawa | Speech coding device |
JP3528258B2 (ja) * | 1994-08-23 | 2004-05-17 | ソニー株式会社 | 符号化音声信号の復号化方法及び装置 |
US6136548A (en) * | 1994-11-22 | 2000-10-24 | Rutgers, The State University Of New Jersey | Methods for identifying useful T-PA mutant derivatives for treatment of vascular hemorrhaging |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5729694A (en) * | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
US5864795A (en) | 1996-02-20 | 1999-01-26 | Advanced Micro Devices, Inc. | System and method for error correction in a correlation-based pitch estimator |
US5774836A (en) | 1996-04-01 | 1998-06-30 | Advanced Micro Devices, Inc. | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator |
AU3708597A (en) | 1996-08-02 | 1998-02-25 | Matsushita Electric Industrial Co., Ltd. | Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus |
US6014622A (en) * | 1996-09-26 | 2000-01-11 | Rockwell Semiconductor Systems, Inc. | Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization |
JPH10105195A (ja) * | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
JP4121578B2 (ja) | 1996-10-18 | 2008-07-23 | ソニー株式会社 | 音声分析方法、音声符号化方法および装置 |
US6456965B1 (en) | 1997-05-20 | 2002-09-24 | Texas Instruments Incorporated | Multi-stage pitch and mixed voicing estimation for harmonic speech coders |
US6438517B1 (en) | 1998-05-19 | 2002-08-20 | Texas Instruments Incorporated | Multi-stage pitch and mixed voicing estimation for harmonic speech coders |
US6188980B1 (en) * | 1998-08-24 | 2001-02-13 | Conexant Systems, Inc. | Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients |
DE69939086D1 (de) * | 1998-09-17 | 2008-08-28 | British Telecomm | Audiosignalverarbeitung |
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
US6496797B1 (en) * | 1999-04-01 | 2002-12-17 | Lg Electronics Inc. | Apparatus and method of speech coding and decoding using multiple frames |
WO2001013360A1 (en) | 1999-08-17 | 2001-02-22 | Glenayre Electronics, Inc. | Pitch and voicing estimation for low bit rate speech coders |
US6151571A (en) * | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
US6418405B1 (en) | 1999-09-30 | 2002-07-09 | Motorola, Inc. | Method and apparatus for dynamic segmentation of a low bit rate digital voice message |
US6704711B2 (en) * | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
AU2001260162A1 (en) | 2000-04-06 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in a speech signal |
JP2002149200A (ja) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
AU2001294974A1 (en) * | 2000-10-02 | 2002-04-15 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
SE522553C2 (sv) | 2001-04-23 | 2004-02-17 | Ericsson Telefon Ab L M | Bandbreddsutsträckning av akustiska signaler |
GB2375028B (en) * | 2001-04-24 | 2003-05-28 | Motorola Inc | Processing speech signals |
US6917912B2 (en) * | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
WO2002101717A2 (en) * | 2001-06-11 | 2002-12-19 | Ivl Technologies Ltd. | Pitch candidate selection method for multi-channel pitch detectors |
US6871176B2 (en) * | 2001-07-26 | 2005-03-22 | Freescale Semiconductor, Inc. | Phase excited linear prediction encoder |
KR100393899B1 (ko) | 2001-07-27 | 2003-08-09 | 어뮤즈텍(주) | 2-단계 피치 판단 방법 및 장치 |
JP3888097B2 (ja) | 2001-08-02 | 2007-02-28 | 松下電器産業株式会社 | ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置 |
DE02765393T1 (de) * | 2001-08-31 | 2005-01-13 | Kabushiki Kaisha Kenwood, Hachiouji | Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit |
US7657427B2 (en) * | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7233894B2 (en) | 2003-02-24 | 2007-06-19 | International Business Machines Corporation | Low-frequency band noise detection |
SG120121A1 (en) * | 2003-09-26 | 2006-03-28 | St Microelectronics Asia | Pitch detection of speech signals |
CA2566368A1 (en) | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
KR100724736B1 (ko) * | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
KR100770839B1 (ko) | 2006-04-04 | 2007-10-26 | 삼성전자주식회사 | 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치 |
CN100541609C (zh) * | 2006-09-18 | 2009-09-16 | 华为技术有限公司 | 一种实现开环基音搜索的方法和装置 |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
US9142221B2 (en) * | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
CN101556795B (zh) * | 2008-04-09 | 2012-07-18 | 展讯通信(上海)有限公司 | 计算语音基音频率的方法及设备 |
US9197181B2 (en) * | 2008-05-12 | 2015-11-24 | Broadcom Corporation | Loudness enhancement system and method |
US9336785B2 (en) * | 2008-05-12 | 2016-05-10 | Broadcom Corporation | Compression for speech intelligibility enhancement |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
CN101354889B (zh) * | 2008-09-18 | 2012-01-11 | 北京中星微电子有限公司 | 一种语音变调方法及装置 |
CN101599272B (zh) | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
EP2211335A1 (en) * | 2009-01-21 | 2010-07-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal |
CN102016530B (zh) * | 2009-02-13 | 2012-11-14 | 华为技术有限公司 | 一种基音周期检测方法和装置 |
CN101814291B (zh) * | 2009-02-20 | 2013-02-13 | 北京中星微电子有限公司 | 在时域提高语音信号信噪比的方法和装置 |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
US8620672B2 (en) | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
WO2011013244A1 (ja) * | 2009-07-31 | 2011-02-03 | 株式会社東芝 | 音声処理装置 |
WO2012131438A1 (en) * | 2011-03-31 | 2012-10-04 | Nokia Corporation | A low band bandwidth extender |
CN102231274B (zh) * | 2011-05-09 | 2013-04-17 | 华为技术有限公司 | 基音周期估计值修正方法、基音估计方法和相关装置 |
CN102842305B (zh) * | 2011-06-22 | 2014-06-25 | 华为技术有限公司 | 一种基音检测的方法和装置 |
EP3301677B1 (en) * | 2011-12-21 | 2019-08-28 | Huawei Technologies Co., Ltd. | Very short pitch detection and coding |
CN103426441B (zh) * | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
CN105976830B (zh) * | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
CN104217727B (zh) * | 2013-05-31 | 2017-07-21 | 华为技术有限公司 | 信号解码方法及设备 |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
-
2012
- 2012-05-18 CN CN201210155298.4A patent/CN103426441B/zh active Active
- 2012-12-26 KR KR1020147034975A patent/KR101649243B1/ko active IP Right Grant
- 2012-12-26 ES ES12876916.3T patent/ES2627857T3/es active Active
- 2012-12-26 KR KR1020167021709A patent/KR101762723B1/ko active IP Right Grant
- 2012-12-26 EP EP12876916.3A patent/EP2843659B1/en active Active
- 2012-12-26 WO PCT/CN2012/087512 patent/WO2013170610A1/zh active Application Filing
- 2012-12-26 JP JP2015511902A patent/JP6023311B2/ja active Active
- 2012-12-26 EP EP17150741.1A patent/EP3246920B1/en active Active
- 2012-12-26 ES ES17150741T patent/ES2847150T3/es active Active
- 2012-12-26 PL PL12876916T patent/PL2843659T3/pl unknown
- 2012-12-26 HU HUE12876916A patent/HUE034664T2/hu unknown
- 2012-12-26 DK DK12876916.3T patent/DK2843659T3/en active
-
2014
- 2014-11-17 US US14/543,320 patent/US9633666B2/en active Active
-
2016
- 2016-10-06 JP JP2016197932A patent/JP6272433B2/ja active Active
-
2017
- 2017-03-23 US US15/467,356 patent/US10249315B2/en active Active
-
2019
- 2019-02-15 US US16/277,739 patent/US10984813B2/en active Active
-
2021
- 2021-04-16 US US17/232,807 patent/US11741980B2/en active Active
-
2023
- 2023-08-28 US US18/457,121 patent/US20230402048A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100070270A1 (en) * | 2008-09-15 | 2010-03-18 | GH Innovation, Inc. | CELP Post-processing for Music Signals |
Also Published As
Publication number | Publication date |
---|---|
HUE034664T2 (hu) | 2018-02-28 |
US20210335377A1 (en) | 2021-10-28 |
US11741980B2 (en) | 2023-08-29 |
JP6023311B2 (ja) | 2016-11-09 |
JP6272433B2 (ja) | 2018-01-31 |
JP2017027076A (ja) | 2017-02-02 |
DK2843659T3 (en) | 2017-07-03 |
WO2013170610A1 (zh) | 2013-11-21 |
EP2843659B1 (en) | 2017-04-05 |
CN103426441B (zh) | 2016-03-02 |
EP3246920B1 (en) | 2020-10-28 |
US20150073781A1 (en) | 2015-03-12 |
EP2843659A4 (en) | 2015-07-15 |
US20230402048A1 (en) | 2023-12-14 |
US10249315B2 (en) | 2019-04-02 |
CN103426441A (zh) | 2013-12-04 |
ES2847150T3 (es) | 2021-08-02 |
US20170194016A1 (en) | 2017-07-06 |
ES2627857T3 (es) | 2017-07-31 |
EP2843659A1 (en) | 2015-03-04 |
JP2015516597A (ja) | 2015-06-11 |
US9633666B2 (en) | 2017-04-25 |
PL2843659T3 (pl) | 2017-10-31 |
EP3246920A1 (en) | 2017-11-22 |
US20190180766A1 (en) | 2019-06-13 |
KR20150014492A (ko) | 2015-02-06 |
KR20160099729A (ko) | 2016-08-22 |
KR101649243B1 (ko) | 2016-08-18 |
US10984813B2 (en) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101762723B1 (ko) | 피치 주기의 정확도를 검출하는 방법 및 장치 | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
US20150081287A1 (en) | Adaptive noise reduction for high noise environments | |
EP2662854A1 (en) | Method and device for detecting fundamental tone | |
CA2413138A1 (en) | Fast frequency-domain pitch estimation | |
US20220051685A1 (en) | Method for transforming audio signal, device, and storage medium | |
US8086449B2 (en) | Vocal fry detecting apparatus | |
CN109346062A (zh) | 语音端点检测方法及装置 | |
US10522160B2 (en) | Methods and apparatus to identify a source of speech captured at a wearable electronic device | |
CN112201279B (zh) | 一种基音检测方法及装置 | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
KR101671305B1 (ko) | 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치 | |
Sun et al. | An adaptive speech endpoint detection method in low SNR environments | |
JP7152112B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
KR101804787B1 (ko) | 음질특징을 이용한 화자인식장치 및 방법 | |
CN117690421B (zh) | 降噪识别联合网络的语音识别方法、装置、设备及介质 | |
CN118314919A (zh) | 语音修复方法、装置、音频设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |