KR930010398B1 - 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법 - Google Patents

음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법 Download PDF

Info

Publication number
KR930010398B1
KR930010398B1 KR1019900014083A KR900014083A KR930010398B1 KR 930010398 B1 KR930010398 B1 KR 930010398B1 KR 1019900014083 A KR1019900014083 A KR 1019900014083A KR 900014083 A KR900014083 A KR 900014083A KR 930010398 B1 KR930010398 B1 KR 930010398B1
Authority
KR
South Korea
Prior art keywords
section
asymmetry
voice signal
sector
minimum
Prior art date
Application number
KR1019900014083A
Other languages
English (en)
Other versions
KR920006911A (ko
Inventor
배명진
박찬옥
Original Assignee
배명진
박찬옥
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 배명진, 박찬옥 filed Critical 배명진
Priority to KR1019900014083A priority Critical patent/KR930010398B1/ko
Publication of KR920006911A publication Critical patent/KR920006911A/ko
Application granted granted Critical
Publication of KR930010398B1 publication Critical patent/KR930010398B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

내용 없음.

Description

음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법
제1도는 범용 디지탈 시스템으로 비대칭율을 구현하기 위한 하드웨어 구성 블럭도.
제2도는 본 발명에서 단시간 음성파형을 받아 비대칭율을 구하기 위한 처리 흐름도.
제3도는 여성화자 발음/감사합니다/에 대해 비대칭율을 적용하여 음소의 전이구간을 검출한 신호 파형 예시도.
* 도면의 주요부분에 대한 부호의 설명
1 : 입력 마이크 2 : 증폭기
3 : 저역 통과필터 4 : 아날로그/디지탈 변환기
5 : 신호 처리장치 6 : 표시 장치
7 : 프린터 8 : 키보드
20 : /감사합니다/여성화자 파형 21 : 평균진폭의 변화도
22 : 비대칭율의 변화도 23 : 찾아진 전이구간
24 : 전이구간 25 : 비대칭율의 정점
본 발명은 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법에 관한 것으로 특히 시간적으로 변화하는 음성신호 파형에서 음소의 경계를 판정할 때 쓸수 있는 단시간 펴형 구간의 비대칭율 검출방법에 관한 것이다.
주지하는 바와같이 음성신호의 생성모델은 유성음, 무성음, 혼합음으로 분류할 수 있다. 음성음은 성대의 진동과 성도의 공명에 의해
주지하는 바와 같이 음성신호의 생성모델은 유성음, 무성음, 혼합음으로 분류할 수 있다. 음성음은 성대의 진동과 성도의 공명에 의해 너지가 낮고 준 색잡음의 성질을 띄게된다. 한편 혼합음은 유-무성음의 성질이 혼합되어 나타난다.
연속음이나 연결음에서는 이들 세가지의 음원들이 연결되기 때문에 음소의 변화에 따라 평균에너지의 변화도가 다르게 나타나게 된다. 따라서 이러한 변화도에서 골과 봉우리를 측정하면 음소의 전이구간을 측정할 수 있게 된다. 그렇지만 같은 음성파형에 대해 단시간 평균에너지를 구하려고 창함수의 적용길이나 형태를 바꾸면 그에 따른 평균에너지의 변화도가 변화하게 된다. 음성 파형의 기본주기에 비해 창함수의 길이를 짧게하면 음성 평균에너지의 변화도에는 불필요한 국부봉우리들이 많이 나타나기 때문에 음소의 전이구간 결정논리가 복잡하게 된다. 반면 창함수의 길이를 너무 길게하면 음소의 변화특성이 평균화되어 진폭의 변화를 통해서는 전이구간을 검출할 수 없게 된다.
이러한 창함수 적용상의 문제점들은 창함수의 길이를 음성의 피치에 맞추거나, 복잡한 창함수를 선택하여 창함수의 영향을 최소화할 수 있지만 완전히 제거할 수는 없다.
연속음이나 연결음 분석과 인식을 위해서는 음성신호 파형의 음성학적 경계를 결정짓는 분할과정이 필요하다. 이러한 분할과정이 정확하고 빠르게 이루어지면 연속음 분석시에는 불필요한 분석회수를 줄일 수 있고, 인식시에는 기존의 고립단어 인식기법을 연속음 인식에 쉽게 연장시켜 적용할 수 있게 된다.
음성신호 파형에서 음소의 전이구간을 검출하고자 하는 방법으로는 시간영역법, 스펙트럼 영역법, 혼성영역법으로 대분할 수 있다. 시간영역법에는 진폭의 증감을 이용하는 방법등이 제안되어져 있으며 시간 영역법은 보통 그 처리과정이 간단하지만 정확성은 낮은 실정이다. 한편 스펙트럼 영역법은 포먼트의 전이를 측정하거나 주파수 대역별 평균에너지의 변화도를 측정하는 방법들이 있으나 스펙트럼 계산시 단시간 구간내에서의 전이특성은 검출할 수 없게 된다. 한편 변환영역법은 선형예측(LPC) 계수의 전이특성이나 LPC 에러의 변화 특성을 이용하는 방법이 있으며, 변환영역으로의 차수나 계산의 정밀도에 크게 영향을 받게된다.
이들 종래의 방법을 이용하여 단시간 평균에너지 변화도에서 신호의 전이구간을 결정하려면 창함수를 적용할 때에 나타나는 창함구의 길이나 형태에 따라 국부봉우리가 많이 나타나 전이구간을 검출하기가 몹시 어려웠다. 여기서, 창함수(Window Function)라 함은 마이크로 입력되는 음성신호를 구간별로 구획하여 분석해야 하는데, 긴 음성 신호 구간을 단기간 구간(N)으로 구획하여 분석하고자 할때 취해지는 단기간 분석 기간을 의미한다. 즉, 긴 시간의 음성신호에 대하여 분석할 단기간 구간(short time)만을 취할때 필요로 하는 함수이다. 또한 단시간 평균에너지의 변화도의 변화 양상은 아주 다양하여 쉽게 검출되는 단시간 평균 에너지에 비해 이 평균에너지를 이용해 음소의 전이구간을 결정하는 결정 논리가 복잡하고 어려운 결점이 있었다.
본 발명은 이러한 종래의 제반 결점을 해소하기 위하여 제안된 것으로, 음성 신호파형의 단시간 구간에서 파형의 대칭성을 측정할 수 있는 비대칭율을 간단하게 처리하고 그 비대칭율에 의해 음소의 전이구간을 간단히 결정할 수 있도록 하므로써 연속음 분석이나 음성 인식장치등에 전처리용으로 사용할 수 있는 쉽고 정확한 전이구간 검출 방법을 제공코자 한 것이다. 즉, 본 발명은 음소의 전이구간을 검출하는 시간 영역법의 하나로 진폭의 변화를 통해 전이구간을 검출할때 나타나는 창함수의 영향과 결정 논리의 복잡성을 완전히 해소하기 위한 것으로, 음성신호의 단시간 파형 구간에서 비대칭율을 통해 파형의 전반적인 변화율을 측정할 수 있도록 하는 전이구간 검출 방법을 제공코자 한 것이다.
이러한 목적을 달성하기 위한 본 발명을 첨부 도면을 참조하여 상세히 설명하면 다음과 같다. n 시간의 음성신호 파형을 s(n)이라 하고, P를 비대칭율을 구하는 단시간 구간이라 할때, 음성파형의 비대칭율은 다음과 같이 정의하기로 한다.
Figure kpo00001
여기서 분자의 식은 n-시간을 중심으로 파형의 비대칭성을 나타내고, 분모는 비대칭성이 적용된 구간의 절대값 진폭을 나타내게 되어 상기 식은 규준화된(normalized) 비대칭율 값이 된다. 그렇지만 비대칭율 구한 위치 에 n- 따라 비대칭율이 다르게 나타날 수 있다. 이 때문에 비대칭율을 음성 기본피치주기의 반주기 구간까지에 걸쳐 구한 다음 이들중 최소 비대칭율에 의해 그 단시간 구간의 비대칭율 대표값으로 잡는다.
비대칭율이 0에 근접하면 현재의 단시간 파형 부분은 좌우로 대칭이 잘 이루어져 정상 상태에 있게 되고, 비대칭율이 1에 근접하면 전이구간에 있게 된다. 음성구간을 여러 단시간 구간(프레임)으로 잡았을 때 전이구간까지의 비대칭율은 증가하게 되고 그 다음 구간에서부터는 감소하는 성질이 있다. 이러한 성질에 의해 매단시간마다 비대칭율을 구하여 나열하면 전이구간에서 비대칭율 값이 정점을 이루게 된다. 따라서 비대칭율의 변화도에서 정점이 검출되는 구간이 바로 음소의 전이구간이 된다.
본 발명에서 제안한 비대칭율을 실제로 구하여 응용하려면 아날로그 시스템이나 디지탈 시스템에서 실현시킬 수 있다. 상기한 디지탈 시스템의 구성 일예를 나타내면 제1도와 같다. 이는 사람이 발성한 음성 음압파를 입력받는 마이크(1)와, 상기 마이크(1)의 출력 신호를 시스템이 감지할 수 있는 신호 레벨로 증폭하는 증폭기(2)와, 상기 증폭기(2)의 출력 신호에서 저역 성분만을 통과시키는 저역 통과 필터(3)와, 상기 저역 통과 필터(3)를 거친 아날로그 신호를 디지탈 신호로 변환하여 범용 디지탈 시스템인 신호처리장치(5)에 가해주는 아날로그/디지탈 변환기(4)와, 상기 마이크(1)로 입력된 단시간 신호 파형들에 대하여 비대칭율을 계산하고, 이와같이 계산된 비대칭율이 단시간 구간 동안의 최소 비대칭율인가를 판별하는 신호처리장치(5)와, 상기 신호처리장치(5)의 출력 상태를 각각 디스플레이 및 프린팅하는 표시장치(6) 및 프린터(7)로 구성되어져 있다.
이와같이 구성된 범용 디지탈 시스템을 이용한 본 발명에 의한 전이구간 검출 방법은 제2도에 나타낸 처리 흐름도에서와 같이 마이크(1)로부터 입력된 음성신호를 구간 단위로 처리하기 위해 구간별로 입력한 후 계산하고자 하는 최소 비대칭율 값을 검출하기 위한 초기값(NASR=1)을 설정하고, 음성신호구간(N)을 다시 세분구간(P)으로 나눈 후 상기 세분 구간내에서 비대칭율
Figure kpo00002
을 구하는 과정과, 상기 비대칭율이 음성신호구간(N) 내에서 최소값인가를 판별하는 과정과, 상기 음성신호구간(N)동안 계산하여 검출구간 끝인가를 검출한 후 검출구간 끝이면 음성신호구간(N)내에서 최소 비대칭율을 그 단구간의 대표값으로 프린트한 후 현재의 음성신호구간(N)이 소정번째(fr) 구간이면 이를 보관하는 곳에 저장하고 다음 작업을 수행하는 과정으로 이루어진 것이다.
이와 같이 이루어진 본 발명의 작용 및 효과를 설명하면 다음과 같다.
제1도에 나타낸 바와같이 사람이 발성한 음성 음압파를 마이크(1)를 통해 입력하고, 시스템이 감지할 수 있는 레벨로 증폭기(2)를 통해 증폭한후 저역통과 필터(3)에 보낸다. 저역통과 필터(3)에서는 입력되는 음성신호 성분들 중에서 처리에 필요한 저역성분들만 남기고 나머지는 제거하게 된다. 그런 다음에는 아날로그/디지탈 변환기(4)를 통해 아날로그 신호를 디지탈 신호로 변환(4)하여 범용 디지탈 시스템(5)에 보낸다. 이와 같은 상태에서 범용 디지탈 시스템(5)은 신호처리 장치로서 제2도에 나타낸 바와같은 처리 흐름도에 의해 비대칭율을 구하게 된다.
먼저, 마이크(1)로부터 입력된 음성신호구간(N)에서 음성신호를 일예로 구간(N=20 m Sec) 단위로 처리하기 위하여 구간별로 입력한다(스텝 10). 이후에, 계산하고자 하는 최소 비대칭율 값을 검출하기 위해 초기값(NASR=1)을 설정하고(스텝 11), 음성신호구간(N)을 다시 세부구간(P)으로 나눈후 이 세부구간(P)내에서 비대칭율을 식
Figure kpo00003
에 의해 구한다.
이와 같이 하여 분석구간(N)에서는 N-P+1개의 비대칭율이 계산된다(스텝 12). 지금 계산된 비대칭율(ASR)이 N 구간 내에서 최소값인가를 판별하여(스텝 13), 최소값이면 NASR에 저장한다(스텝 14). 다음 구간을 이동(스텝 15)한 후 N 구간(20 m Sec)동안 계산되었는가를 판별하여 검출 끝인가를 검출한 후(스텝 16), 검출 구간 끝이면 음성신호구간(N)내에서 최소 비대칭율을 그 단구간의 대표값으로 프린팅한다(스텝 17). 다음에 지금의 N 구간을 fr번째 구간이라면 이를 보관하는 곳에 저장하고(스텝 18) 다음 작업을 수행한다(스텝 19).
예를 들어 여성화자(speaker)가 발음한 /감사합니다/의 파형(20)에 대해 단시간마다 비대칭율을 구한(21) 결과는 제3도와 같이 나타낼 수 있다. 음소의 전이가 발생하는 구간에서는 평균진폭의 변화도(24)가 골에서 정점으로 또는 정점에서 골을 이루게 된다. 이때 비대칭율은 전이구간에서 정점이 맺히고 정점들을 검출하면(25) 전이구간이 된다. 비대칭율에 의해 검출된 전이구간은 평균진폭으로 잘 검출하기 어려운 구간(26)도 잘 구분하고 있다. 특히 언어학적으로 구분이 어려운 비음화현상 부분은 평균진폭의 변화도에서는 미소한 변화가 나타나지만 비대칭율의 변화도에서는 규합하여 잘 나타냄을 알 수가 있다.
이상에서와 같이 본 발명은 음소의 전이구간을 검출하는 시간 영역법으로서 진폭의 변화를 통해 전이구간을 검출할때 나타나는 창함수의 영향과 결정 논리의 복잡성을 완전히 해소하여 음성신호의 단시간 파형 구간에서 비대칭율을 통해 파형의 전반적인 변화율을 간편하게 측정할 수 있는 효과가 있다.

Claims (1)

  1. 마이크(1)로부터 입력된 음성신호를 구간 단위로 처리하기 위해 구간별로 입력한후 계산하고자 하는 최소 비대칭율 값을 검출하기 위한 초기값(NASR=1)을 설정하고, 음성 신호구간(N)을 다시 세분구간(P)으로 나눈후 상기 세분구간내에서 비대칭율
    Figure kpo00004
    을 구하는 과정과, 상기 비대칭율이 음성신호구간(N)내에서 최소값인가를 판별하는 과정과, 상기 음성신호 구간(N)동안 계산하여 검출구간 끝인가를 검출한후 검출구간 끝이면 음성신호구간(N)내에서 최소 비대칭율을 그 단구간의 대표값으로 프린트한 후 현재의 음성신호구간(N)이 소정번째(fr) 구간이면 이를 보관하는 곳에 저장하고 다음 작업을 수행하는 과정으로 이루어짐을 특징으로 하는 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법.
KR1019900014083A 1990-09-05 1990-09-05 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법 KR930010398B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019900014083A KR930010398B1 (ko) 1990-09-05 1990-09-05 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019900014083A KR930010398B1 (ko) 1990-09-05 1990-09-05 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법

Publications (2)

Publication Number Publication Date
KR920006911A KR920006911A (ko) 1992-04-28
KR930010398B1 true KR930010398B1 (ko) 1993-10-23

Family

ID=19303310

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019900014083A KR930010398B1 (ko) 1990-09-05 1990-09-05 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법

Country Status (1)

Country Link
KR (1) KR930010398B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1283252B1 (it) * 1996-03-15 1998-04-16 Pulitzer Italiana Soluzioni di piroxicam iniettabili per via parenterale
KR102478284B1 (ko) * 2020-10-28 2022-12-15 이희엽 덱시부프로펜 함유 주사용 액상 조성물

Also Published As

Publication number Publication date
KR920006911A (ko) 1992-04-28

Similar Documents

Publication Publication Date Title
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
Talkin et al. A robust algorithm for pitch tracking (RAPT)
US4809332A (en) Speech processing apparatus and methods for processing burst-friction sounds
CN104934029B (zh) 基于基音同步频谱参数的语音识别系统和方法
KR950000842B1 (ko) 피치 검출기
Ying et al. A probabilistic approach to AMDF pitch detection
Jin et al. Cute: A concatenative method for voice conversion using exemplar-based unit selection
JP2005043666A (ja) 音声認識装置
JPS62231997A (ja) 音声認識システム及びその方法
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
Kadiri et al. Estimation of Fundamental Frequency from Singing Voice Using Harmonics of Impulse-like Excitation Source.
KR930010398B1 (ko) 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법
Bellegarda A novel discontinuity metric for unit selection text-to-speech synthesis
Saratxaga et al. Use of harmonic phase information for polarity detection in speech signals.
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
Stanek et al. Comparison of fundamental frequency detection methods and introducing simple self-repairing algorithm for musical applications
CN111063371B (zh) 一种基于语谱图时间差分的语音音节数估计方法
KR100526110B1 (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
Laleye et al. An algorithm based on fuzzy logic for text-independent fongbe speech segmentation
JPS60129796A (ja) 音声入力装置
JP2001083978A (ja) 音声認識装置
Wolf Speech signal processing and feature extraction
KR19980037190A (ko) 유성음 구간에서 프레임별 피치 검출 방법
JPH1097269A (ja) 音声検出装置及び方法
JP2598518B2 (ja) 音声のセグメンテーション方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 19961028

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee