KR20040028293A - 에이엠디에프 피치 검색장치에서 피치 보정 방법 - Google Patents
에이엠디에프 피치 검색장치에서 피치 보정 방법 Download PDFInfo
- Publication number
- KR20040028293A KR20040028293A KR1020020059442A KR20020059442A KR20040028293A KR 20040028293 A KR20040028293 A KR 20040028293A KR 1020020059442 A KR1020020059442 A KR 1020020059442A KR 20020059442 A KR20020059442 A KR 20020059442A KR 20040028293 A KR20040028293 A KR 20040028293A
- Authority
- KR
- South Korea
- Prior art keywords
- pitch
- value
- searched
- amdf
- current
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000011295 pitch Substances 0.000 description 115
- 238000004458 analytical method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 현재 프레임 내에서 구한 피치 정보를 이용하여 입력 음성 신호에서의 자기 상관을 조사하여 피치를 보정토록 한 AMDF(Absolute Magnitude Difference Function) 피치 검색 장치에서 피치 보정 방법에 관한 것으로서, 이러한 본 발명은, AMDF에서 입력 음성신호의 자기 상관성을 볼 수 있는 AMD(Absolute Magnitude Difference)신호에서의 피치 검색과 그 결과로 획득한 피치 정보에 따라 입력 음성 신호의 자기 상관성을 제거한 MAMD(Modified Absolute Magnitude Difference) 신호에서 검색한 피치의 값을 비교하여 그 대소 여부에 따라 상이하게 피치 값의 더블링 및 하빙 현상을 보정한다.
Description
본 발명은 AMDF(Absolute Magnitude Difference Function) 피치(pitch) 검색장치에서 피치 보정 방법에 관한 것으로서, 좀 더 상세하게는 현재 프레임 내에서 구한 피치 정보를 이용하여 입력 음성 신호에서의 자기 상관을 조사하여 피치를 보정토록 한 AMDF 피치 검색 장치에서 피치 보정 방법에 관한 것이다.
일반적으로, 음성인식, 음성합성 및 음성분석과 같은 디지털 음성신호 처리 기술에 있어서, 기저기술이라 할 수 있는 기본 주파수(Pitch frequency) 즉, 피치를 정확히 검출하는 것은 매우 중요하다.
이러한 기본 주파수는 음의 전이구간이나 잡음에 혼탁된 음에서는 음의 변화가 심하고 구간별 문턱 값을 설정하기가 힘들기 때문에 검출하기가 매우 어렵다.
따라서 만일 피치 정보를 정확히 검출할 수 있다면 음성인식에 있어서는 화자에 따른 영향을 최소화하여 포만트 주파수(formant frequency)를 통한 인식의 정확도를 높일 수 잇게 되고, 음성합성의 경우에는 포만트 주파수와 성도성분을 분리하여 임의로 합성함으로써 자연성과 개성을 쉽게 변경 및 유지할 수 있다.
또한 분석에서는 피치에 동기시켜 분석함에 따라 성문의 영향을 제거하고 분석에 따른 오차를 줄여 정확한 성도 파라미터를 통한 고음질을 얻을 수 있게 된다.
그러므로 상기와 같은 장점들을 갖도록 피치를 검출하기 위한 종래의 검출방법으로는 파형의 주기성을 강조한 후 결정논리에 의해 피치를 검출하는 병렬처리법, AMDF법 등의 시간 영역법과 음성 스펙트럼의 고조파 간격을 측정하여 유성음의 기본 주파수를 검출하는 고조파 분석법, Lifter법, Combfiltering법 등의 주파수 영역법 및 상기 시간 영역법과 주파수 영역법의 장점을 이용한 시간-주파수 혼성영역법이 있다.
그 중에서 AMDF법에 적용되는 일반적인 피치 검색 장치를 첨부한 도면 도1에 도시하였다.
여기서 참조부호 100은 전처리부를 나타내고, 참조부호 200은 피치 보정부를 나타내며, 참조부호 300은 보코딩부를 나타내고, 참조부호 400은 후처리부를 나타낸다.
이와 같이 구성된 일반적인 피치 검색 장치는, 전처리부(100)에서 입력되는 음성 신호의 전처리를 수행하고, 피치 보정부(200)에서 전처리된 음성 신호로부터 피치를 추출한 후 보정을 수행하고, 보코딩부(300)에서 보정된 피치 정보를 이용하여 보코딩을 수행하며, 후처리부(400)에서 최종적인 처리 절차를 거쳐 출력된다.
도 2는 종래 피치 보정 방법을 보인 흐름도이다.
이에 도시된 바와 같이, 단계 S11에서 입력 음성에 해밍 윈도우를 쒸우고, 단계 S12에서 상기 해밍 윈도우 구간내의 음성으로부터 AMDF를 이용하여 피치(τ)를 검색한다. 이후 단계 S13에서 이전 피치 값들을 이용하여 현재 프레임의 피치를 예측(/τ)하고, 단계 S14에서 상기 검색된 피치(τ)에서 예측된 피치(/τ)값을 감산하고 그 결과치에 절대값을 취하며, 그 절대값과 미리 설정된 피치 임계치(//τ)를 비교한다. 상기 비교 후 단계 S15에서 상기 절대값이 상기 임계치(//τ)보다 클 경우에는 상기 피치 예측 값을 현재 피치로 결정하고, 이와는 달리 상기 절대값이 상기 임계치(//τ)보다 작을 경우에는 단계 S16에서 상기 검색된 피치(τ)를 현재 피치로 결정하게 된다.
즉 종래의 피치 보정 방법은, 피치 검색시에 피치값의 더블링(doubling) 및하빙(halving)을 보정하기 위해서 이전 입력 음성 프레임의 피치 값들(/τ)과 현재 입력 음성 프레임에서 구한 피치(τ)간의 상관 관계를 이용한다.
/τ와 τ의 차가 일정 범위(//τ)이내에 들었을 때만 현재 프레임에서 구한 피치(τ)를 현재 입력 음성 프레임의 피치로 한다. 그렇지 않을 경우에는 (/τ)를 현재 입력 음성 프레임의 피치로 함으로써 피치 값의 더블링 및 하빙 현상을 보정한다.
이러한 방법으로 피치 값의 더블링 및 하빙 현상을 보정할 경우, 피치의 변화가 심한 음성신호에서 피치를 찾을 경우 이전 피치 값들에서 현재 프레임의 피치에 대한 예측의 정확도가 떨어지게 되며, AMDF 피치 검색 알고리즘에서 피치 값의 더블링 및 하빙 현상이 많이 발생하게 되어 피치가 잘못 검색되어지는 경우가 자주 발생하였다.
이에 본 발명은 상기와 같은 종래 AMDF 피치 검색 장치에서 피치 검색시 발생하는 제반 문제점을 해결하기 위해서 제안된 것으로서,
본 발명의 목적은, 현재 프레임 내에서 구한 피치 정보를 이용하여 입력 음성 신호에서의 자기 상관을 조사하여 피치를 보정토록 한 AMDF 피치 검색 장치에서 피치 보정 방법을 제공하는 데 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 의한 AMDF 피치 검색 장치에서 피치 보정 방법은,
AMDF에서 입력 음성신호의 자기 상관성을 볼 수 있는 AMD(Absolute Magnitude Difference)신호에서의 피치 검색과 그 결과로 획득한 피치 정보에 따라 입력 음성 신호의 자기 상관성을 제거한 MAMD(Modified Absolute Magnitude Difference) 신호에서 검색한 피치의 값을 비교하여 피치 값의 더블링 및 하빙 현상을 보정한다.
도 1은 일반적인 AMDF 피치 검색장치의 구성을 보인 블록도이고,
도 2는 종래 AMDF 피치 검색장치에서 피치 보정 방법을 보인 흐름도이고,
도 3은 본 발명에 의한 AMDF 피치 검색장치에서 피치 보정 방법을 보인 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
100 ..... 전처리부
200 ..... 피치 보정부
300 ..... 보코딩부
400 ..... 후처리부
이하 상기와 같은 기술적 사상에 따른 본 발명의 바람직한 실시예를 첨부한 도면에 의거 상세히 설명하면 다음과 같다.
먼저 본 발명이 적용되는 AMDF 피치 검색 장치는 첨부한 도면 도 1에 도시된 일반적인 AMDF 피치 검색 장치와 동일하며, 도1과 같은 구성에서 피치 보정부(200)내부에서 수행되는 일련의 과정을 나타낸다.
도 3은 본 발명에 의한 AMDF 피치 검색 방법을 보인 흐름도이다.
이에 도시된 바와 같이, 입력 음성신호에 해밍 창을 씌워 AMDF 피치 검색을 위한 AMD를 설정하는 단계(S101)와, 상기 AMD에서 AMDF를 이용하여 피치(τ)를 검색하는 단계(S102)와, 상기 검색한 피치(τ)값의 배수의 위치에서 AMD(k)에 존재하는 입력신호의 자기 상관성을 제거한 MAMD(k)를 산출하는 단계(S103)와, 상기 산출한 MAMD(k)를 재 검색하여 피치(/τ)를 구하는 단계(S104)와, 상기 재 검색하여 산출한 피치(/τ)값이 영(0)인지를 확인하는 단계(S105)와, 상기 확인결과 피치(/τ)값이 영(0)일 경우 검색된 피치(τ)를 현재 피치로 설정하는 단계(S106)와, 상기피치(/τ)값이 영(0)이 아닐 경우, 상기 검색한 피치(τ)값과 재 검색하여 획득한 피치(/τ)값을 비교하는 단계(S107)와, 상기 비교결과 상기 재 검색한 피치(/τ)값이 상기 검색한 피치(τ)보다 클 경우에는 피치 더블링 현상이 발생한 것으로 판단하고, 상기 검색한 피치(τ)값을 2로 제산하여 그 결과값((τ/2)을 현재 피치로 설정하는 단계(S108)와, 상기 재 검색한 피치(/τ)값이 검색한 피치(τ)값보다 크지 않을 경우 피치 하빙 현상이 발생한 것으로 판단하고, 상기 검색한 피치(τ)에 2를 곱하여 그 결과값(τ*2)을 현재 피치로 설정하는 단계(S109)로 이루어진다.
이와 같이 이루어지는 본 발명에 의한 AMDF 피치 검색 장치에서 피치 보정 방법은, 먼저 단계 S101에서 입력되는 음성 프레임(s(n))에 대하여 해밍창 함수(w(n))를 통과시켜 AMDF 피치 검색을 위한 AMD(k)를 아래의 [수학식1]과 같이 얻는다.
여기서 N은 한 프레임 샘플 수를 나타낸다.
음성 신호는 피치를 주기로 자기 상관이 크게 나타나며, AMD(k)는 입력 음성 신호에서 자기 상관이 크면 0에 가까운 값을 그렇지 않으면 매우 큰 값을 가지는 함수로써 피치 값을 주기로 하여 0의 값에 가까운 값을 가지는 특성을 가지고 있다.
다음으로 단계 S102에서 AMDF에서의 피치 검색은 k=0을 제외한 프레임 전체에서 AMD(k)를 최소로 하는 값을 피치(τ)값으로 한다.
다음으로 단계 S103에서 상기 피치(τ)값의 배수의 위치에서 AMD(k)에 존재하는 입력신호의 자기 상관성을 제거한 MAMD(k)를 아래의 [수학식2]와 같이 구한다.
여기서 n은 k*n을 N보다 작게 하는 정수를 나타낸다.
다음으로 단계 S104에서 상기 MAMD(k)에서 AMDF와 같은 방법으로 피치를 검색하여 피치(/τ)값을 산출한다.
그리고 단계 S105에서 상기 산출한 피치(/τ)가 0인지를 확인한다.
이 확인 결과 상기 산출한 피치(/τ)값이 0일 경우에는, 단계 S106으로 이동하여 검색된 피치를 현재 피치로 결정한다. 즉 MAMD(k)에서 피치를 재 검색을 하여 프레임 내에서 k=0을 제외한 위치에서 피치가 검색되지 않았을 경우에는 AMD(k)에서 피치를 주기로 하는 입력 음성 신호의 자기 상관성이 모두 없어진 경우이므로 τ를 현재 프레임의 피치로 설정한다.
다음으로 상기 산출한 피치(/τ)값이 0이 아닐 경우에는, 단계 S107로 이동하여 재 검색한 피치(/τ)값과 현재 피치(τ)값을 비교한다.
상기 비교 결과 재 검색한 피치(/τ)값이 현재 피치(τ)값보다 클 경우에는단계 S108로 이동하여 현재 피치를 τ/2로 설정한다. 즉, MAMD(k)에서의 입력 음성신호에 대한 상관이 AMD(k)에서의 상관 보다 작은 간격을 가지고 있는 입력 음성 신호간의 상관이 존재하므로, τ가 더블링 현상이 발생하였음을 의미한다. 따라서 현재 프레임의 피치를 τ/2로 설정한다.
한편, 상기 비교 결과 재 검색한 피치(/τ)값이 현재 피치(τ)값보다 크기 않을 경우에는 단계 S109로 이동하여 현재 피치를 τ*2로 설정한다. 즉 MAMD(k)에서의 입력 음성신호에 대한 상관이 AMD(k)에서의 상관보다 큰 간격을 가지고 있음을 의미하므로, τ가 하빙 현상이 발생하였음을 의미한다. 따라서 이 경우에는 현재 프레임의 피치를 τ*2로 설정하여 피치를 보정하게 되는 것이다.
이상에서 상술한 본 발명에 따르면, 현재 프레임에서 구한 피치 정보를 이용하여 입력 음성 신호에서의 장기 상관을 조사하므로 피치의 변화가 많은 음성신호에서 피치 값의 더블링 및 하빙 현상을 정확하게 보정할 수 있는 효과가 있다.
Claims (2)
- AMDF 피치 검색 방법에 있어서,입력 음성신호에 해밍 창을 씌워 AMDF(Absolute Magnitude Difference Function) 피치 검색을 위한 AMD(Absolute Magnitude Difference)를 설정하는 단계와;상기 AMD에서 AMDF를 이용하여 피치(τ)를 검색하는 단계와;상기 검색한 피치(τ)값의 배수의 위치에서 AMD(k)에 존재하는 입력신호의 자기 상관성을 제거한 MAMD(k)를 산출하는 단계와;상기 산출한 MAMD(k)를 재 검색하여 피치(/τ)를 구하는 단계와;상기 재 검색하여 산출한 피치(/τ)값이 영(0)인지를 확인하는 단계와;상기 확인결과 피치(/τ)값이 영(0)일 경우 검색된 피치(τ)를 현재 피치로 설정하는 단계와;상기 피치(/τ)값이 영(0)이 아닐 경우, 상기 검색한 피치(τ)값과 재 검색하여 획득한 피치(/τ)값을 비교하는 단계와;상기 재 검색한 피치(/τ)값과 상기 검색한 피치(τ)값의 대소 여부에 따라 피치 값을 보정하는 단계를 포함하여 이루어짐을 특징으로 하는 에이엠디에프 피치 검색장치에서 피치 보정 방법.
- 제1항에 있어서, 상기 피치 값을 보정하는 단계는,상기 재 검색한 피치(/τ)값이 상기 검색한 피치(τ)보다 클 경우에는 피치 더블링 현상이 발생한 것으로 판단하고, 상기 검색한 피치(τ)값을 2로 제산하여 그 결과값((τ/2)을 현재 피치로 설정하는 단계와;상기 재 검색한 피치(/τ)값이 검색한 피치(τ)값보다 크지 않을 경우 피치 하빙 현상이 발생한 것으로 판단하고, 상기 검색한 피치(τ)에 2를 곱하여 그 결과값(τ*2)을 현재 피치로 설정하는 단계를 수행하여 피치 값을 보정하는 것을 특징으로 하는 에이엠디에프 피치 검색장치에서 피치 보정 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020059442A KR20040028293A (ko) | 2002-09-30 | 2002-09-30 | 에이엠디에프 피치 검색장치에서 피치 보정 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020059442A KR20040028293A (ko) | 2002-09-30 | 2002-09-30 | 에이엠디에프 피치 검색장치에서 피치 보정 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20040028293A true KR20040028293A (ko) | 2004-04-03 |
Family
ID=37330509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020020059442A KR20040028293A (ko) | 2002-09-30 | 2002-09-30 | 에이엠디에프 피치 검색장치에서 피치 보정 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20040028293A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231274A (zh) * | 2011-05-09 | 2011-11-02 | 华为技术有限公司 | 基音周期估计值修正方法、基音估计方法和相关装置 |
-
2002
- 2002-09-30 KR KR1020020059442A patent/KR20040028293A/ko not_active Application Discontinuation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231274A (zh) * | 2011-05-09 | 2011-11-02 | 华为技术有限公司 | 基音周期估计值修正方法、基音估计方法和相关装置 |
CN102231274B (zh) * | 2011-05-09 | 2013-04-17 | 华为技术有限公司 | 基音周期估计值修正方法、基音估计方法和相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100552693B1 (ko) | 피치검출방법 및 장치 | |
KR100269216B1 (ko) | 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법 | |
US8086449B2 (en) | Vocal fry detecting apparatus | |
CN100541609C (zh) | 一种实现开环基音搜索的方法和装置 | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
Delacourt et al. | Speaker-based segmentation for audio data indexing | |
KR20040032586A (ko) | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 | |
EP1298645A1 (en) | Method for detecting emotions in speech, involving linguistic correlation information | |
JP3219868B2 (ja) | 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置 | |
US7043424B2 (en) | Pitch mark determination using a fundamental frequency based adaptable filter | |
EP1436805B1 (en) | 2-phase pitch detection method and appartus | |
KR20040028293A (ko) | 에이엠디에프 피치 검색장치에서 피치 보정 방법 | |
CN1971707B (zh) | 一种进行基音周期估计和清浊判决的方法及装置 | |
Ding et al. | Determining polarity of speech signals based on gradient of spurious glottal waveforms | |
KR0136608B1 (ko) | 음성신호 검색용 음성인식 장치 | |
KR100194953B1 (ko) | 유성음 구간에서 프레임별 피치 검출 방법 | |
JPS6151320B2 (ko) | ||
JPH06282296A (ja) | ピッチ抽出装置 | |
Ferrer et al. | Using waveform matching techniques in the measurement of shimmer in voiced signals | |
Signol et al. | Evaluation of the pitch estimation algorithms in the monopitch and multipich cases | |
KR100212453B1 (ko) | 양자화 오차를 이용한 음성 신호의 피치 검출 방법 | |
KR100211965B1 (ko) | 유성음 구간에서 피치동기식 포먼트 추정방법 | |
KR100289317B1 (ko) | 음성신호의 피치 검출장치 및 그 방법 | |
KR19990070595A (ko) | 평탄화된 스펙트럼에서 유성-무성구간 분류방법 | |
JPH0122639B2 (ko) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
N231 | Notification of change of applicant | ||
WITN | Withdrawal due to no request for examination |