KR100404049B1 - 음성언어 분석방법 - Google Patents

음성언어 분석방법 Download PDF

Info

Publication number
KR100404049B1
KR100404049B1 KR10-2001-0023116A KR20010023116A KR100404049B1 KR 100404049 B1 KR100404049 B1 KR 100404049B1 KR 20010023116 A KR20010023116 A KR 20010023116A KR 100404049 B1 KR100404049 B1 KR 100404049B1
Authority
KR
South Korea
Prior art keywords
signal
digital signal
found
length
main sound
Prior art date
Application number
KR10-2001-0023116A
Other languages
English (en)
Other versions
KR20020083639A (ko
Inventor
한상용
소브르스코브발레리블라드미로비치
크넬레엠마누일그리고리에비치
Original Assignee
한상용
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한상용 filed Critical 한상용
Priority to KR10-2001-0023116A priority Critical patent/KR100404049B1/ko
Publication of KR20020083639A publication Critical patent/KR20020083639A/ko
Application granted granted Critical
Publication of KR100404049B1 publication Critical patent/KR100404049B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Algebra (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Health & Medical Sciences (AREA)

Abstract

본 발명은 정확도를 높이기 위해서 입력신호로부터 선택을 하여 아날로그-디지털 변환기(ADC)를 이용하여 디지털 신호(DS)를 형성시키며 시간단편에 이 디지털 신호를 저장시키고 이때 시간단편의 길이는 최소한 주음신호(SOT)의 최대 허용 주기를 2배 이상 초과한다. 휴지기가 발견되면 이의 길이를 정의하고, SOT가 관찰되어 주어진 선택된 시간단편에 2배 이상의 SOT 주기가 있으며 이들의 차이가 주어진 한계를 넘지 않으면 "모음"이 존재하는 것으로 받아들인다. 이때 기억된 디지털 신호는 프레임으로 분할되며 각 프레임의 길이는 T(산출, count, readout) 와 주음의 주기에 같게 설정된다. 매 frame에서 T의 수를 N(count, readout)의 수로 보간 삽입(interpolation)한다. 여기서 N=2n이고 n은 정수다. N의 수에서 얻은 디지털 신호는 N-점 푸리에 급수변환으로 옮겨간다. 만약 기억된 디지털 신호에서 주음의 신호가 발견되지 않고 기억된 디지털 신호의 진폭변화가 주어진 대역에서 발견되면 "쉰 소리(마찰음) 자음"이 존재하는 것으로 받아들인다. 그 다음 기억된 디지털 신호로부터 N 수를 선택하여 이를 활용 값에 따라 적정화(normalization)하고 이를 N-점 푸리에 급수변환으로 옮긴다. 만약 "모음"과 "쉰 소리 자음"이 발견되지 않으면 "파열자음"이 존재하는 것으로 받아들인다. 그 다음 기억된 디지털 신호로부터 N수를 선택하여 이를 N-점 푸리에 급수변환을 하여 분석함을 특징으로 하는 음성언어 분석방법에 관한 것이다.

Description

음성언어 분석방법 {Method for analysis of speech}
본 발명은 전자공학분야(Radiotechnics)에 속하는 분야로서, 음성언어 정보를 포함한 정보의 저장, 처리 및 전달분야에 속하며 음성언어의 인식, 합성 및 압축이 필요한 여러 분야의 다양한 시스템에 사용할 수 있는 음성언어 분석방법에 관한 것이다.
이미 푸리에 급수 변환을 근본으로 하는 음성언어 분석방법(미국특허 No. 4,038,503)과 필터링을 기초로 한 음성언어 분석방법(미국특허 No. 3,304,369, 3,646,576) 등은 잘 알려져 있다.
국내특허공개공보 공개번호 제10-98-76309호에는 음향분석부, 음성구간추출부, 시나리오패턴분석부, 사전, 문법 분석 및 단어추출부, 음성데이터베이스, 유사도계산부, 단어레이블 결정부, 문장레이블결정부로 구성되어 단어들의 음성패턴을 저장하여 음성데이터베이스를 구축하고, 입력 음성패턴 음성데이터베이스에 저장된 음성패턴과 비교하여 음석을 인식하는 방법 및 장치가 기재되어 있으나,
상기와 같은 종래의 방법들은 말하는 사람 목소리의 개인적 특성에 의해 좌우되는 측정된 신호의 주파수 파라메터의 심한 종속성과, 신호 영역(주음의 존재시, Base Tone)이 유사한 이웃 신호에 대해 측정된 스펙트럼의 다양성으로 정확한 측정을 하지 못하는 단점이 있고, 음성언어 파라메터 측정의 부정확성으로 인해 음성언어 처리(예 : 인식, 압축, 분석, 합성 등) 장치에서 측정된 파라메터의 사용을 어렵게 하며 음성언어를 처리하는 장치의 질을 저하시킨다.
월시(Uolsh) 변환을 기초로 하여 음성언어의 수준(표준)으로부터 음성언어 징후 스펙트럼의 독립성을 향상시킨 음성언어 분석방법(구 소련 특허 SU No. 584,325, No. 641,492)도 잘 알려져 있으나 이 방법은 정보량이 충분하지 않을 뿐만 아니라 정확성이 뒤떨어진다.
푸리에 급수를 이용하여 주음(Base tone)을 분리하는 음성언어 분석방법(DE특허, No. 4,316,297 C1, US No.5,583,784)도 잘 알려져 있으며 이는 푸리에 급수변환시 주어진 처리점(operating point, 512)의 수가 중간함수에 상응하는 선택방법에 의해 상수로 유지된다.
푸리에 급수를 이용하여 주음(Base tone)을 분리하는 음성언어 분석의 또 다른 방법(예 : 미국특허 No. 4,982,433)은 푸리에 변환시 주어진 처리점(512)에 일치하는 크기까지 주음신호 주기에 영("0")을 더해주는 선택의 수에 의해 주음이 정의되며 기존의 발명중 본 발명과 가장 유사한 발명으로 볼 수 있다. 그러나 이 방법도 음성언어 신호의 파라메터 정의에 있어 부정확한 단점을 가지고 있다.
상기와 같은 문제점을 해소하기 위하여, 본 발명은 음성언어 신호의 파라메터 정의의 정확도를 높여 음성언어 신호의 정확한 분석에 있다. 보다 구체적으로 설명하면, 정확도를 높이기 위해서 입력신호로부터 선택을 하여 아날로그-디지털 변환기(ADC)를 이용하여 디지털 신호(DS)를 형성시키며 시간단편에 이 디지털 신호를 저장시키고 이때 시간단편의 길이는 최소한 주음신호(SOT)의 최대 허용 주기를 2배 이상 초과한다. 휴지기가 발견되면 이의 길이를 정의하고, SOT가 관찰되어 주어진 선택된 시간단편에 2배 이상의 SOT 주기가 있으며 이들의 차이가 주어진 한계를 넘지 않으면 "모음"이 존재하는 것으로 받아들인다. 이때 기억된 디지털 신호는 프레임으로 분할되며 각 프레임의 길이는 T(산출, count, readout) 와 주음의 주기에 같게 설정된다. 매 frame에서 T의 수를 N(count, readout)의 수로 보간삽입(interpolation)한다. 여기서 N=2n이고 n은 정수다. N의 수에서 얻은 디지털 신호는 N-점 푸리에 급수변환으로 옮겨간다. 만약 기억된 디지털 신호에서 주음의 신호가 발견되지 않고 기억된 디지털 신호의 진폭변화가 주어진 대역에서 발견되면 "쉰 소리(마찰음) 자음"이 존재하는 것으로 받아들인다. 그 다음 기억된 디지털 신호로부터 N 수를 선택하여 이를 활용 값에 따라 적정화(normalization)하고 이를 N-점 푸리에 급수변환으로 옮긴다. 만약 "모음"과 "쉰 소리 자음"이 발견되지 않으면 "파열자음"이 존재하는 것으로 받아들인다. 그 다음 기억된 디지털 신호로부터 N수를 선택하여 이를 N-점 푸리에 급수변환하여 음성언어를 분석하는 음성언어 분석방법을 제공하는 것을 그 목적으로 한다.
도1은 본 발명의 음성언어 분석방법의 흐름도
<도면부호의 설명>
아날로그-디지털 변환기(ADC)(21), 버퍼(buffer)(22), 휴지기/신호 검출기 (23), 휴지기 길이 측정기(24), 음(tone)/잡음(noise)검출기(25), 주음 관찰블록 (26), 토막(frame) 선택 블록(27), 보간 장치(interpolator)(28), 제1 고속 푸리에 급수변환 블록(29), 진폭변화측정 블록(30), "쉰 소리 자음" 프레임 선택 블록 (31), 적정화 기(normalizater)(32), 제2 고속 푸리에 급수변환 블록(33), Bar에 따른 에너지 계산 블록(34), "파열 자음" 프레임 선택 블록(35), 제3 고속 푸리에 급수변환 블록(36)
상기와 같은 목적을 달성하기 위하여, 본 발명은 주파수의 불연속화(샘플링) 단위의 입력신호로부터 신호를 발췌 선택하여 아날로그-디지털 변환기(ADC)를 이용하여 이 선택된 입력신호를 디지털 신호로 형성하여 이 디지털 신호를 시단편(시간영역)에 기억시키며 (이때의 시단편의 길이는 주음신호의 허용최대주기보다 최소 두 배이상 길다.) 기억된 이 디지털 신호에서 음성신호와/또는 휴지기의 존재여부를 관찰하게 되며 휴지기가 발견되면 이의 길이를 측정하게 되고 주음의 존재가 발견되고 상기의 디지털 신호의 시간단편에 디지털 신호가 주음 주기의 2배 이상이고 이들 사이의 차이가 주어진 한계를 넘지 않으면, 음성신호에 "모음"이 존재하는 것으로 판별하며, 그 다음 기억된 디지털 신호를 여러 토막으로(Frame) 분할하고 이때 이 토막 개개의 길이는 T(산출, count, readout)수와 주음의 주기에 같게 설정되며, 매 frame에서 T의 수를 N(count, readout)의 수로 보간 삽입(interpolation)하고, 여기서 N=2n이고 n은 정수다. N의 수에서 얻은 디지털 신호는 N-점 푸리에 급수변환으로 옮겨가고 이를 기초로 or/and 를 선택하여 신호의 스펙트럼을 측정하며, 만약 기억된 디지털 신호에서 주음의 신호가 발견되지 않으면 이 기억된 신호의 진폭변화를 측정하여 만약 기억된 디지털 신호의 진폭변화가 주어진 대역에서 발견되면 "쉰 소리(마찰음) 자음"이 존재하는 것으로 받아들이고, 그 다음 기억된 디지털 신호로부터 N 수를 선택하여 이를 활용 값에 따라 적정화(normalization)하여 이를 N-점 푸리에 급수변환으로 옮기고 이를 기초로 귀의 한계지역(critical zone)에 따라 얻어진 스펙트럼의 에너지를 측정하며, 만약 "모음"과 "쉰 소리 자음"이 발견되지 않으면 "파열자음"이 존재하는 것으로 받아들이고, 그 다음 기억된 디지털 신호로부터 N수를 선택하여 이를 N-점 푸리에 급수변환을 하고 이를 기초로 and/or를 선별하고 신호의 스펙트럼을 측정하는 음성언어 분석방법에 관한 것이다.
또한 "파열자음"이 존재하는 것으로 받아들인 경우 N-점 급수변환 이전에 N수 토막(frame)의 길이는 감소되며 그 감소량은 5-15% 이하다.
도1에는 음성언어 분석방법을 설명하는 순서도가 표시되어 있다.
본 발명의 이론적 기초는 다음과 같이 정의할 수 있다. 즉 오늘날 인간에 의해 받아들여 질 수 있는 음성신호 분할 단편의 최소길이는 5-10ms 임이 잘 알려져 있다. 음성언어 신호의 파라메터를 측정하기 위해 사용할 수 있는 음성(음향)신호의 분할단편을 토막(frame)이라 부른다. 인간의 조음기관은 근본적으로 아래의 네 종류 신호만을 생성해 낼 수 있다.
- "휴지기" : 침묵, 혹은 신호가 없는 잡음
- "모음" : 이 경우 성대가 주기적인 소리신호를 발생하고 조음기관(입, 코, 혀, 입술)은 이 신호를 필터링 하여 성어요소(成語要素)에 부합하는 성질을 갖는 협화음을 형성한다.
- "쉰 소리 자음" : 이는 성대를 고정하여 작동시키지 않고 조음기관이 잡음신호를 형성한다.
- "파열 자음" : 이 신호의 생성현상(물리)은 공기의 흐름을 혀나 입술로 방해하는 것에 기초하고 있으며 그 결과로 음향충격(acoustic impact)이 발생하다.
그동안의 많은 연구 결과에 의해 주음의 주기(여기서는 22050Hz로 샘플링된 불연속 신호를 의미함)는 남자, 여자 어린이 등의 여러 경우에 60-400 count 영역에 존재한다는 것이 확정되었다. 여기서 마지막 수치는 주음신호 주기의 최대 허용치다. 또한 실험을 통해 스펙트럼 구성요소의 위상은 거의 변하지 않는다는 것이 밝혀졌다. 그러므로 이 신호는 전달할 필요가 없다. 음성신호는 유사주기 형태를 가지고 있으며 이 형태는 성대의 주파수에 의해 물리적으로 결정된다. 이 주파수는 사람에 따라 차이가 나고 시간(음성높임, 의문사, 기타 강세 등)에 따라 급속히 변할 수 있다. 그러나 조음기관의 조정은 시간에 따라 느리게 변할 뿐 아니라 사람에 따라 큰 차이가 나지 않으므로 우리가 서로 서로를 알아들을 수 있는 것이다.
도1은 본 발명의 음성언어 분석방법의 흐름도를 도시한 것이며, 아날로그-디지털 변환기(ADC)(21), 버퍼(buffer)(22), 휴지기/신호 검출기(23), 휴지기 길이 측정기(24), 음(tone)/잡음(noise)검출기(25), 주음 관찰블록(26), 토막(frame) 선택 블록(27), 보간 장치(interpolator)(28), 제1 고속 푸리에 급수변환 블록(29), 진폭변화측정 블록(30), "쉰 소리 자음" 프레임 선택 블록(31), 적정화 기 (normalizater)(32), 제2 고속 푸리에 급수변환 블록(33), Bar에 따른 에너지 계산 블록(34), "파열 자음" 프레임 선택 블록(35), 제3 고속 푸리에 급수변환 블록(36)을 나타낸 것임을 알 수 있다
이하 본 발명을 실시예를 통하여 상세히 설명하면 다음과 같다.
실시예
입력신호로부터 주어진 샘플링주파수로, /예를 들자면 22050Hz/ 신호를 선택하게 되며 이를 ADC(21)를 이용하여 디지털 신호로 변환하며 그 다음 이 신호를 시간 단편에 저장하는데, /예로 Buffer(22)/ 이때의 시간단편(선분)의 길이는 주음신호의 허용최대주기보다 최소한 두 배 이상 길다. 기억된 디지털 신호에서 휴지기/신호 검출기(23)를 이용하여 음성신호와(혹은) 휴지기의 존재여부를 관찰하게 되며 휴지기가 발견되면 이의 길이를 휴지기 길이 측정기(24)에 의해 측정 계산한다. 분석을 위해서 디지털 신호의 시간단편을 선택한 다음, (여기서 이의 길이는 주음신호주기의 최대 허용치를 두 배 이상 초과하는 길이로, /예로 2048/ 불연속 샘플(count)이다).
불연속 샘플 수(Count)에서 휴지기의 길이를 측정한 후에, (휴지기는 주어진 한계를 넘지 않는 진폭값(평균값 혹은 실제값)을 가진 신호를 의미한다.)
선택에 따라 buffer(22)에 기억된 음성언어 신호의 종류를 분리하게 된다. 예를 들자면 "모음", "쉰 소리 자음", "파열 자음" 등으로 분리한다.
음(tone)/잡음(noise)검출기(25)의 작동원리는 신호의 자동 상관 관계함수의 측정에 기초한다. 이를 잡음의 자동 상관 관계함수와 비교해 볼 때 주기성 신호의 자동 상관 관계함수는 주기의 길이에 합치하는 시간변위에서 매우 깊이가 깊은 굴곡(상실)이 존재한다는 점에 차이가 있다는 것은 잘 알려져 있다.(참고 : L. A. Zalmanzon "푸리에, 월샤(Uolsha), 하아라(Khaara) 변환과 이의 통신 제어 및 기타분야에서의 이용", M. "Nauka-science", 1989, 78-79쪽). 음(tone)/잡음(noise)검출기(25)블록에서는샘플링 수 동안 변환된 모듈의 차이를 합산한 형태로 자동상관관계함수를 측정한다. 0으로부터 t에 따라까지의 합 F() = (Abs(X(t) - X(t+))/주음의 변화대역에 상응하는 대역을에 따라, /예로 60-400사이에서/ 분석한다. 만약 굴곡(상실)의 깊이가 한계를, /예로 50%/ 넘으면 이 신호에서 주음신호가 관찰되고 F()의 최소 값을 위한값은 주음신호의 주기 값과 같다.
주음 관찰블록(26)에서 주음의 안정된 신호가 발견되면 분석대상 시간 단편에 주음 신호의 2회 이상의 주기 디지털 신호가 있는 것으로 설정하고 주음신호 주기간의 차이를 측정(정의)하고 만약 이 차이가 주어진 한계, /예로 5-20 샘플수(count)/ 를 넘지 않으면 음성언어 신호에 "모음"이 있는 것으로 받아들인다. 그 다음 디지털 신호는 모음 토막(frame) 선택 블록(27)에서 프레임 단위로 분할되며 이때 매 프레임의 길이(연속)는 T 수(count)와 같고, 주음신호의 주기에 같게 설정한다. 매 프레임 속에서 보간 장치(interpolator)(28)에서 T 샘플링 수를 N 샘플링 수로 보간하며 여기서 N=2n, n= 정수. N의 샘플링 수에서 얻은 디지털 신호는 제1 고속 푸리에 급수변환 블록(29)에서 N-점 푸리에 급수변환으로 옮겨가고 이를 기초로 or/and 를 선택하여 신호의 스펙트럼을 측정한다.
주음신호의 T 주기를 가진 프레임에 속하는 선택된 것의 N수로의 보간은 차후 고속푸리에 변환을 위해 요구된다. n값으로부터 구성된 표 형태로 주어진 함수를 m값으로 된 표 형태로 환산하기 위해서는 임의의, 예로 선형, 수학적 근사값 정리를 이용할 수 있다. 만약 300개의 선택에 선형함수 Y=2*X가 주어지면 이를 512 선택으로 환산하기 위해서 512의 매 값에 대하여 m=round{n*300/512}를 계산해야 한다. 여기서 n=구(舊) 표의 번호, m=새로운 표의 번호다. k=Drop{n*300/512}, 선형 근사값 정리에 의해 새로운 함수값 Y(m)=Y(m)=k*(Y(m=1)-Y(m)), 여기서 roumd와 Drop은 정수부분과 소수부분을 계산하는 함수를 의미한다.
만약 모음이 없는 것으로 판단되면(주음 관찰블록(26)), 주음의 신호가 없으며(음(tone)/잡음(noise)검출기(25)블록) 따라서 기억된 디지털 신호의 진폭변화를 측정하게 된다. 만약 진폭변화측정 블록(30)에 의해 측정된 기억된 디지털 신호의진폭변화가 주어진 대역에 존재하면 "쉰 소리(마찰음) 자음"이 존재하는 것으로 받아들인다. 그 다음 기억된 디지털 신호로부터 "쉰 소리 자음" 프레임 선택 블록(31)에서 N 수를 선택하여 이를 활용 값에, /예로 규정수준/ 따라 적정화 기(normalizater)(32)에서 적정화(normalization)하고 이를 제2 고속 푸리에 급수변환(기)블록(33)으로 보내 N-점 푸리에 급수변환으로 옮기고 이를 기초로 귀의 한계지역(critical zone)에 따라 얻어진 스펙트럼의 에너지를 ) Bar에 따른 에너지 계산 블록(34)에서 bark에 따라 측정한다. "쉰 소리 자음"의 징후는 주음이 존재하지 않고 신호의 정상 작동값의 변화로, /예로 20-50%이하/ 알 수 있다. 신호는 적정화, /예로 규정 작용 값 최대 진폭 값의 0.3/ 된다. N 선택의 프레임의 적정화된 디지털 신호는 제2 고속 푸리에 급수변환(기)블록(33)으로 옮겨져 변환이 되고 이를 기초로 귀의 한계지역에 따라 얻어진 신호의 에너지를 측정한다(1bark에 따라 23개 지역). 얻어진 스펙트럼에서 bark에 따른 에너지계산블록(34)는 이의 에너지를 귀의 한계지역에서 측정하고 이때 매 bark를 위하여 해당 bark에 관계있는 주파수에 따라 스펙트럼 계수 제곱을 합하여 이 제곱의 합에서 근을 뽑아낸다. 그 다음과 같은 처리 방법이 이용될 수 있다.(그림에 표시되지 않았음) : 비교블록(그림에 표시되지 않았음)에서 적정화된 잡음의 표준집합과 비교되는, /예로 상관관계에 따라/ 쉰 소리 자음에 해당하는 측정된 디지털 신호는 비교결과에 따라 합성시 이용될 수 있는 최대 유사성을 가진 규정 적정화된 잡음이 선택된다. 실험결과에 의하면 15% 수준의 잡음 속에서 상관관계에 따른 유사성인 경우 귀의 청각기관에서 구별할수 없었으며 이 경우 표준집합의 샘플수는 20-30정도 였다. Hz에서 bark로 주파수를 변환하기 위해 "bark- 변환"이라고 부르는 다음과 같은 함수를 이용할 수 있다.
Bark=13*arctg(0.76*F/1000)+3.5*arctg((F/7500)**2)+1
파열자음이 검색된 때 프레임의 길이 감소는 잘 구별되지 않는 언어, /예"sshiti"/ 의 차후 처리작업이나 합성시 이웃 프레임을 허용한다. 비구별성 "sshivki" 정도는 프레임의 길이를 5-15%정도 줄임으로서 선택된다.
모음의 처리시 매 분석대상 프레임은 전 프레임에 대하여 주음의 값만큼 이동되어 복구(합성)시 경계중첩효과를 피할 수 있게 한다.
만약 기억된 디지털 신호로부터 "모음"의 존재를 인지하지 않으면 즉 주음의 신호가 최소 2주기 이상 발견되지 않고(주음 관찰블록(26)) 또는 "쉰 소리 자음" 즉 진폭의 변화가 주어진 대역을 넘으면(진폭변화측정 블록(30)) 결국 "파열자음"이 있는 것으로 결정한다. 이 경우 기억된 디지털 신호로부터 "파열자음" 프레임 선택 블록 35번에 의해 N 수가 선택되어 제3 고속 푸리에 급수변환기(36)로 보내져 N-점 변환이 되어 이를 기초로 and/or를 선별하고 신호의 스펙트럼을 측정한다.
선별되고 측정된 파라메터는 메모리에 상응하는 장치에 기억(기록)될 수 있고 차후 기억된 파라메터로부터 음성언어의 음소(phoneme) 기록(표현)을 조성(구성)하며 이는 음성언어의 합성, 압축, 인식을 위하여 사용할 수 있다.
본 방법은 여러 요소를 기초로 실현될 수 있는데 특히 프로그램(Software), 단일 프로세서 및 컴퓨터의 형태에 상응하는 장치로 구현할 수 있다.
본 발명의 기술적 결과는 프레임의 길이와, 주음 신호의 주기에서 선택의 수를 하나의 동일한 수 N에, /예로 1Hz 이하에서는 N=512, 2Hz 이하에서는 N=256/ 인용한 고유 방법에 의해 달성되었으며 스펙트럼 구성 요소 정의에서 이룩된 정확성은 처리속도와 얻어진 결과의 정확성을 높이는 가능성을 제공한다.
본 발명에 대한 실시예는 한계성과 구별성에 구분 없이 표현되었는데 이는 그렇게 하므로서 본 발명에 대한 기술적 핵심이 좀더 명확하게 표현되기 때문이다.
상기와 같은 본 발명은 음성언어 정보를 포함한 정보의 저장, 처리 및 전달속도가 빠르며, 정확도가 높은 음성언어의 인식, 합성 및 압축이 필요한 여러 분야의 다양한 시스템에 사용할 수 있는 장점이 있는 것이다.

Claims (4)

  1. 음성언어 분석방법에 있어서, 음성신호를 받아들여 이의 양자화된 신호를 이용하여 음성신호를 "휴지기", "모음", "파열자음", "마찰자음"으로 분리하며, 이 신호를 각각의 물리적 특성에 상응하는 방법으로 처리함을 특징으로 하는 음성언어 분석방법.
  2. 청구항 1에 있어서, 상기 신호를 물리적특성에 따라 처리하는 방법은 주어진 주파수의 불연속 단위로 입력신호를 선택하며 아날로그-디지털 변환기(ADC)를 이용하여 선택된 입력신호로부터 디지털 신호를 구성하여 이 디지털 신호를 시간영역에서 기억시키며 이때의 시간단편(선분)의 길이는 주음신호의 허용최대주기보다 최대 두 배정도 초과한다. 기억된 디지털 신호에서 음성신호와 (혹은) 휴지기의 존재여부를 관찰하게 되며 휴지기가 발견되면 이의 길이를 정의하게 되고 주음의 존재가 관찰될 경우 지적된 시간단편에 디지털 신호가 주음 주기의 2배 이상이고 이들 사이의 차이가 주어진 한계를 넘지 않으면 음성신호에 "모음"이 존재하는 것으로 받아들이며, 다음으로 기억된 디지털 신호는 토막으로(Frame) 분할되고 이때 이 토막 개개의 길이는 T(산출, count, readout) 와 주음의 주기에 같게 설정된다. 매 frame에서 T의 수를 N(count, readout)의 수로 보간 삽입(interpolation)한다. 여기서 N=2n이고 n은 정수다. N의 수에서 얻은 디지털 신호는 N-점 푸리에 급수변환으로 옮겨가고 이를 기초로 or/and 를 선택하고 신호의 스펙트럼을 측정한다. 만약 기억된 디지털 신호에서 주음의 신호가 발견되지 않으면 이 기억된 신호의 진폭변화를 측정한다. 만약 기억된 디지털 신호의 진폭변화가 주어진 대역에서 발견되면 "쉰 소리(마찰음) 자음"이 존재하는 것으로 받아들인다. 그 다음 기억된 디지털 신호로부터 N 수를 선택하여 이를 활용 값에 따라 적정화(normalization)하고 이를 N-점 푸리에 급수변환으로 옮기고 이를 기초로 귀의 한계지역(critical zone)에 따라 얻어진 스펙트럼의 에너지를 측정한다. 만약 "모음"과 "쉰 소리 자음"이 발견되지 않으면 "파열자음"이 존재하는 것으로 받아들인다. 그 다음 기억된 디지털 신호로부터 N수를 선택하여 이를 N-점 푸리에 급수변환을 하고 이를 기초로 and/or를 선별하고 신호의 스펙트럼을 측정함을 특징으로 하는 음성언어 분석방법.
  3. 청구항 2에 있어서, 상기 "파열자음"이 존재하는 것으로 받아들인 경우 N-점 급수변환 이전에 N수 토막(frame)의 길이는 감소됨을 특징으로 하는 음성언어 분석방법.
  4. 청구항 3에 있어서 상기 프레임 길이의 감소량은 5-15% 이하임을 특징으로 하는 음성언어 분석방법.
KR10-2001-0023116A 2001-04-27 2001-04-27 음성언어 분석방법 KR100404049B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0023116A KR100404049B1 (ko) 2001-04-27 2001-04-27 음성언어 분석방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0023116A KR100404049B1 (ko) 2001-04-27 2001-04-27 음성언어 분석방법

Publications (2)

Publication Number Publication Date
KR20020083639A KR20020083639A (ko) 2002-11-04
KR100404049B1 true KR100404049B1 (ko) 2003-11-03

Family

ID=27702961

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0023116A KR100404049B1 (ko) 2001-04-27 2001-04-27 음성언어 분석방법

Country Status (1)

Country Link
KR (1) KR100404049B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180064353A (ko) 2018-05-31 2018-06-14 연세대학교 원주산학협력단 소리데이터 자동분할 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180064353A (ko) 2018-05-31 2018-06-14 연세대학교 원주산학협력단 소리데이터 자동분할 장치

Also Published As

Publication number Publication date
KR20020083639A (ko) 2002-11-04

Similar Documents

Publication Publication Date Title
US5729694A (en) Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5305421A (en) Low bit rate speech coding system and compression
CN101589430B (zh) 声音分离装置、声音合成装置及音质变换装置
JP4624552B2 (ja) 狭帯域言語信号からの広帯域言語合成
EP1635327A1 (en) Information transmission device
NL8300718A (nl) Werkwijze en inrichting voor herkenning van een foneem in een stemsignaal.
EP2109096B1 (en) Speech synthesis with dynamic constraints
GB1569990A (en) Frequency compensation method for use in speech analysis apparatus
JPH03137699A (ja) 音声認識装置
KR19990024267A (ko) 포만트 유사도 측정에 의한 피솔라를 이용한 음성 파형 부호화방식
CA2483607C (en) Syllabic nuclei extracting apparatus and program product thereof
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
KR100827097B1 (ko) 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치
Lee Prediction of acoustic feature parameters using myoelectric signals
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
JPS6366600A (ja) 話者の音声を前処理して次の処理のための正規化された信号を得る方法および装置
KR100404049B1 (ko) 음성언어 분석방법
CN116230018A (zh) 一种用于语音合成系统的合成语音质量评估方法
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
KR200239272Y1 (ko) 음성신호 분석 장치
Sawusch Acoustic analysis and synthesis of speech
LeVitt Acoustic analysis of deaf speech using digital processing techniques
JPS59131999A (ja) 音声認識装置
JP2019070775A (ja) 信号解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee