KR20000074086A - 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법 - Google Patents

음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법 Download PDF

Info

Publication number
KR20000074086A
KR20000074086A KR1019990017784A KR19990017784A KR20000074086A KR 20000074086 A KR20000074086 A KR 20000074086A KR 1019990017784 A KR1019990017784 A KR 1019990017784A KR 19990017784 A KR19990017784 A KR 19990017784A KR 20000074086 A KR20000074086 A KR 20000074086A
Authority
KR
South Korea
Prior art keywords
pitch
signal
voice
point
end point
Prior art date
Application number
KR1019990017784A
Other languages
English (en)
Inventor
류승표
Original Assignee
김영환
현대전자산업 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김영환, 현대전자산업 주식회사 filed Critical 김영환
Priority to KR1019990017784A priority Critical patent/KR20000074086A/ko
Priority to JP2000081688A priority patent/JP2000330581A/ja
Publication of KR20000074086A publication Critical patent/KR20000074086A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 차량등에서 이용되는 음성인식 시스템에 관한 것으로, 음성신호가 반복적으로 동일한 패턴을 나타낸다는 특성을 이용하여 음성 파일내에서 순수 음성 신호 부분만을 추출해 낼 수 있도록 한 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법에 관한 것이다.
본 발명은 입력되는 음성신호 s(n)으로부터 잔차신호의 자기 상관에 의한 피치값을 추출하고, 피치 신호 p(n)으로부터 피치 차이값을 검출하며, 피치 차이값의 중간 샘플에서 신호의 변화폭이 앞쪽에서 급격한 지점을 선택하고, 이 선택한 지점을 신호의 시작점으로 판단하며, 피치 차이값의 중간 샘플에서 신호의 변화폭이 뒤쪽에서 급격한 지점을 선택하고, 이 선택한 지점을 신호의 끝점으로 판단하도록 한 것이다.

Description

음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법{Ending point detection method of sound file using pitch difference price of sound}
본 발명은 차량등에서 이용되는 음성인식 시스템에 관한 것으로, 특히 음성신호가 반복적으로 동일한 패턴을 나타낸다는 특성을 이용하여 음성 파일내에서 순수 음성 신호 부분만을 추출해 낼 수 있도록 한 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법에 관한 것이다.
최근, 음성신호를 이용한 자동화 시스템의 개발이 추진되고 있는 추세이며,음성을 이용한 시스템으로는 음성인식, 화자인식, 음성합성등이 있다.
이러한 음성을 이용한 자동화 시스템의 개발에 있어서, 선행되어야 하는 것은 끝점 검출이다.
끝점 검출이란, 화자로부터 음성 샘플을 녹음하여 저장시킨 음성 파일 데이터에서 순수 음성 부분만을 뽑아내는 과정을 말한다.
이러한 끝점 수행이 얼마나 효과적으로 수행되었느냐에 따라 음성을 이용하는 각종 시스템들의 인식율 및 합성도의 성공 여부가 달려 있다.
현재의 음성 시스템들은 이 끝점 검출을 위해 다양한 방법을 사용하고 있는데, 현재 가장 많이 사용되는 것이 소구간 에너지를 이용하는 방법이며 그 외에도 영점 교차율, 주파수 분석법, 스펙트럼 분석법 등의 방법이 사용되고 있다.
본 발명은 이와같은 점에 부응하여 안출한 것으로, 본 발명의 목적은, 신호의 자기 상관법에 의해 피치를 추출하여 피치특성이 나타나는 지점,피치특성이 유지되는 구간을 실험에 의한 경계값에 따라 추출하여 끝점 검출을 수행할 수 있도록 하는데 있다.
도 1은 본 발명의 구성을 나타낸 블록도
도 2는 음성신호 "나라"의 전체적인 파형도
도 3은 도 2의 부분 확대도
도 4는 본 발명에 따른 피치 포락선
도 5는 본 발명의 잔차신호의 자기 상관 그래프
도 6은 본 발명의 잔차신호의 자기 상관법에 의한 피치 주기 검출상태를
나타낸 도면
도 7은 본 발명의 피치 차이값을 나타낸 도면
도 8은 본 발명의 끝점 검출법을 비교한 도면
도 9는 본 발명의 동작 흐름도이다
〈도면의 주요 부분에 대한 부호의 설명〉
10:음성 입력부 20:음성 저장부
30:음성 비교부 40:끝점 검출부
이와같은 목적을 달성하기 위한 본 발명은 입력되는 음성신호 s(n)으로부터 잔차신호의 자기 상관에 의한 피치값을 추출하는 제1단계, 피치 신호 p(n)으로부터 피치 차이값을 검출하는 제2단계, 제2단계에서 구한 피치 차이값의 중간 샘플에서 신호의 변화폭이 앞쪽에서 급격한 지점을 선택하는 제3단계, 제3단계에서 선택한 지점을 신호의 시작점으로 판단하는 제4단계, 피치 차이값의 중간 샘플에서 신호의 변화폭이 뒤쪽에서 급격한 지점을 선택하는 제5단계, 선택한 지점을 신호의 끝점으로 판단하는 제6단계로 이루어짐을 특징으로 한다.
이하, 본 발명의 실시예를 첨부된 도면을 참고로 하여 상세히 설명하면 다음과 같다.
도 1은 본 발명의 블록도로, 화자의 음성이 입력되는 음성 입력부(10)와, 특정인의 음성 데이터 파일을 기저장하는 음성 저장부(20)와,상기 음성입력부(10)의 음성데이터와 음성 저장부(20)의 음성 데이터를 비교하는 음성 비교부(30)와, 상기 음성 비교부(30)로부터 음성의 끝점을 검출하는 끝점 검출부(40)로 구성된다.
이와같이 구성된 본 발명의 작용을 설명하면 다음과 같다.
인간의 음성신호는 그 발성원리에 따라 반드시 성대의 떨림에 의해 그 패턴이 반복적으로 나타나는 피치현상이 나타나게 되는데 이러한 특성은 잡음 신호에는 없는 음성 신호만의 독특한 특성이다.
본 발명은 이러한 피치 정보의 특성을 이용하는 방식으로, 피치 정보는 첫째 음성신호에서만 나타나고, 둘째 50Hz-500Hz에서 나타나며, 셋째 피치 포락선은 단구간에서 급격히 변화하지 않으며 매끄러운 곡선을 그린다.
본 발명의 끝점 검출 방법은 신호의 자기 상관법에 의해 피치를 추출하였으며, 피치의 특성을 이용하여 피치특성이 나타나는 지점, 피치특성이 유지되는 구간을 실험에 의한 경계값에 따라 추출하여 끝점 검출을 수행하고 있다.
통상 피치란, 인간의 음성신호에서 그 형태가 시간에 따라 반복적으로 나타나는 특성을 의미하는 것으로, 그 반복되는 구간을 피치 주기라고 하며, 주파수적으로 볼 때 이를 보통 피치 또는 피치 주파수라고 한다.
도 2는 남성 화자의 "나라"라는 발음을 음성 신호의 시간적 파형으로 나타낸 것이며, 도 2는 상기 도 1의 신호를 부분적으로 확대한 도면으로, 일정한 주기를 두고 패턴이 반복되는 것을 알 수 있다.
이와같이 동일한 패턴이 주기적으로 나타나는 것은 인간의 발성과정에서 발성의 초기에 음성을 여기시키는 역할을 하는 성대의 떨림 현상에 의해 발생하는 음성의 자연스러운 특성이다.
피치는 남성의 경우 50-250Hz, 여성의 경우 120-500Hz 에서 나타나며, 화자에 따라 조금씩 다른 것으로, 이 피치 정보는 화자의 음성의 높낮이를 결정짓는 요소이다.
도 4는 이 음성 신호의 피치를 소구간별로 구하여 전체 시간적으로 나타낸 도면으로 피치 포락선이라고 한다.
도 4는 음성 신호가 존재하는 구간 내에서의 피치 주기는 매끄러운 곡선을 나타내고 있으나, 그 이외의 지점에서는 매우 불규칙이고 불안정된 모습을 보이고 있음을 알 수 있다.
피치 주파수를 추출하는 방법은 여러 가지가 있으나 여기서는 잔차 신호(Residual)의 자기상관법에 따른 방법을 사용한다.
잔차신호란, 선형예측계수(LPC)에 의해 재생된 신호와 원래 신호와의 차이값을 말하는 것으로, 선형예측게수에 의해 재생되는 신호는 음성의 피치 정보가 배제되는 특성이 있기 때문에 원래 신호와의 차이를 구하면 이 신호에서 피치 정보를 추출하기가 비교적 쉬워지는 특성이 있다.
한편, 음성 신호를 s(n)이라고 하고, 음성발음 과정을 다음과 같이 필터 모델에 따라 설명을 한다고 하자.
이때, 발성을 위한 성도의 특성이 게인 파라메터는 G, 폴은라고 하면 성도 필터는 다음 수학식 1과 같은 올 폴(All Pole)모델 형태로 나타나게 된다.
이때의 폴,를 선형예측계수라고 한다.
음성신호를 s(n)이라고 할 때 임의의 시점 n에서 그 이전 p개의 시점의 신호들의 선형예측에 의해 합성이 가능하다고 할 때의 신호 s(n)는 다음 수학식 2와 같다.
S(n)= SIGMA a_k S(n-k) + Gu(n)
선형예측신호는 다음 수학식 3과 같이 구할 수 있다.
이때, 잔차신호는 다음 수학식 4와 같이 구해진다.
선형예측계수를 구하는 방법은 여러 가지가 있으나 보통 더빈(Durbin)의 오토-코릴레이션(Auto-correlation)을 이용한 리큐시브(Recursive) 알고리즘을 많이 이용한다.
한편, 자기 상관이라는 것은, 신호의 시간적 유사성을 판별하는 기준의 하나로서 다음 수학식 5와 같이 구할 수 있다.
R(k) = SIGMA { x(m)x(m+k)}
잔차신호를 자기상관하면 도 5와 같은 형태가 나타나게 되는데 이때, 자기 상관성이 두드러지게 나타나는 지점이 곧 피치를 의미하는 것이다.
즉, 좌측에서 가장 가까운 곳에 툭 튀어나오는 지점이 곧 피치 주기를 의미하고 이는 도 6의 잔차신호의 자기 상관법에 의한 피치 주기검출에 의해 나타난 바와 같으며 이 지점이 7.69ms임을 알 수 있다.
소구간별로 피치 주파수를 구하여 전체적으로 그린 도면이 도 4의 피치포락선이다.
피치 차이값은 다음 수학식 6과 같이 해당 구간의 피치값과 그 이전의 5개의 피치, 이후 4개의 피치간에 있는 10개의 피치값들의 차이들을 모두 더한 값을 이용한다.
d(i) = SIGMA vert { p(k) - p(k+1)} vert
한편, 도 8은 피치 차이값에 의한 끝점 검출과 소구간 에너지를 이용한 끝점 검출의 상호 비교 그래프를 나타낸 것이다.
(A)와 (B)는 피치 차이값에 따른 끝점 검출을 나타낸 것이고, (C)와 (D)는 전통적인 소구간 에너지에 의한 끝점 검출을 나타낸 결과이다.
시작점 검출의 경우 두방법 모두 575ms로 같은 결과를 보이고 있으며, 끝점의 경우에는 피치 차이값 방법으로는 668ms, 소구간 에너지 방법으로는 6817ms로, 근소한 차이를 보이고 있음을 알 수 있다.
도 9는 본 발명의 동작 흐름도로, 입력되는 음성신호 s(n)으로부터 피치를 추출하여 잔차신호와 자기 상관에 의한 피치값을 검출한다(S1,S2단계).
그리고 피치 신호 p(n)으로부터 피치 차이값을 검출하고(S3단계), 피치 차이값의 중간 샘플에서 신호의 변화폭이 앞쪽에서 급격한 지점을 선택한다(S4단계).
또한, 상기 S4단계에서 선택한 지점을 음성 신호의 시작점으로 판단하고(S6단계), 피치 차이값의 중간 샘플에서 신호의 변화폭이 뒤쪽에서 급격한 지점을 선택한다(S7단계).
그리고 상기 S7단계에서 선택한 지점을 음성신호의 끝점으로 판단한다(S8단계).
즉, 본 발명에서 피치 차이값에 의한 끝점 검출 방법은 인간의 음성 신호에 내재되어 있는 피치 정보를 이용한 것으로, 소구간 에너지를 이용한 끝점 검출을 비롯한 다양한 끝점 검출법과 비교할 때 끝점검출에 매우 유용하게 사용될 수 있다.
특히, 잡음이 강한 신호의 경우 피티 특성은 음성이 존재하는 구간에서 가장 강하게 나타나기 때문에 다른 방법에 비해 끝점 검출에 유리하다.
이상에서 설명한 바와같은 본 발명은 음성의 피치 정보를 이용하여 음성신호가 반복적으로 동일한 패턴을 나타내는 특성을 이용함으로써 음성 파일내에서 순수 음성 신호 부분만을 추출해 내어 효과적인 끝점 검출을 수행할 수 있어 음성 신호를 이용한 자동화 시스템에 유용하게 적용시킬 수 있는 효과가 있다.

Claims (5)

  1. 입력되는 음성신호 s(n)으로부터 잔차신호의 자기 상관에 의한 피치값을 추출하는 제1단계와,
    피치 신호 p(n)으로부터 피치 차이값을 검출하는 제2단계와,
    상기 제2단계에서 구한 피치 차이값의 중간 샘플에서 신호의 변화폭이 앞쪽에서 급격한 지점을 선택하는 제3단계와,
    상기 제3단계에서 선택한 지점을 신호의 시작점으로 판단하는 제4단계와,
    피치 차이값의 중간 샘플에서 신호의 변화폭이 뒤쪽에서 급격한 지점을 선택하는 제5단계와,
    상기 제5단계에서 선택한 지점을 신호의 끝점으로 판단하는 제6단계로 이루어짐을 특징으로 하는 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법.
  2. 제 1항에 있어서, 상기 음성신호 s(n)은, S(n)= SIGMA a_k S(n-k) + Gu(n) 인 것을 특징으로 하는 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법.
  3. 제 1항에 있어서, 상기 잔차신호가,인 것을 특징으로 하는 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법.
  4. 제 1항에 있어서, 상기 자기상관을, R(k) = SIGMA { x(m)x(m+k)}로부터 구하는 것을 특징으로 하는 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법.
  5. 제 1항에 있어서, 상기 파치 차이값을, d(i) = SIGMA vert { p(k) - p(k+1)} vert 로부터 구하는 것을 특징으로 하는 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법.
KR1019990017784A 1999-05-18 1999-05-18 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법 KR20000074086A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019990017784A KR20000074086A (ko) 1999-05-18 1999-05-18 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법
JP2000081688A JP2000330581A (ja) 1999-05-18 2000-03-17 音声のピッチ差値を利用した音声ファイルの終点検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990017784A KR20000074086A (ko) 1999-05-18 1999-05-18 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법

Publications (1)

Publication Number Publication Date
KR20000074086A true KR20000074086A (ko) 2000-12-05

Family

ID=19586142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990017784A KR20000074086A (ko) 1999-05-18 1999-05-18 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법

Country Status (2)

Country Link
JP (1) JP2000330581A (ko)
KR (1) KR20000074086A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7113719B2 (ja) * 2018-10-19 2022-08-05 日本放送協会 発話末タイミング予測装置およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치

Also Published As

Publication number Publication date
JP2000330581A (ja) 2000-11-30

Similar Documents

Publication Publication Date Title
JPH0990974A (ja) 信号処理方法
CN101625858B (zh) 语音端点检测中短时能频值的提取方法
KR20030014331A (ko) 음성 인식 장치 및 음성 인식 방법
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
US6920424B2 (en) Determination and use of spectral peak information and incremental information in pattern recognition
JP3105465B2 (ja) 音声区間検出方法
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
CN101625862A (zh) 自动字幕生成系统中语音区间的检测方法
JP3611223B2 (ja) 音声認識装置及び方法
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JP3434730B2 (ja) 音声認識方法および装置
KR20000074086A (ko) 음성의 피치 차이값을 이용한 음성 파일의 끝점 검출방법
US20060150805A1 (en) Method of automatically detecting vibrato in music
JPH0229232B2 (ko)
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
JP3091537B2 (ja) 音声パターン作成方法
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
Seman et al. Evaluating endpoint detection algorithms for isolated word from Malay parliamentary speech
JPH05100661A (ja) 小節境界時刻抽出装置
JP3484559B2 (ja) 音声認識装置および音声認識方法
JPS60129796A (ja) 音声入力装置
JP2532618B2 (ja) ピッチ抽出装置
JPS59149400A (ja) 音声入力装置
KR970060044A (ko) 유색 잡음 환경에서 주파수 영역의 정보를 이용한 끝점 검출 방법
KR100275446B1 (ko) 음소 인식률을 이용한 기본 음소 설정 방법

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination