KR930007790B1 - 음성 인식방법 - Google Patents

음성 인식방법 Download PDF

Info

Publication number
KR930007790B1
KR930007790B1 KR1019850003590A KR850003590A KR930007790B1 KR 930007790 B1 KR930007790 B1 KR 930007790B1 KR 1019850003590 A KR1019850003590 A KR 1019850003590A KR 850003590 A KR850003590 A KR 850003590A KR 930007790 B1 KR930007790 B1 KR 930007790B1
Authority
KR
South Korea
Prior art keywords
trajectory
parameter
time series
distance
standard pattern
Prior art date
Application number
KR1019850003590A
Other languages
English (en)
Other versions
KR850008538A (ko
Inventor
마사오 와따루
마꼬또 아까바네
요이찌로 사꼬
도꾸노부 히라이와
Original Assignee
소니 가부시끼가이샤
오오가 노리오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼가이샤, 오오가 노리오 filed Critical 소니 가부시끼가이샤
Publication of KR850008538A publication Critical patent/KR850008538A/ko
Application granted granted Critical
Publication of KR930007790B1 publication Critical patent/KR930007790B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

내용 없음.

Description

음성 인식방법
제1도는 DP매칭 처리에 의해 음성 인식을 행하도록한 음성 인식방법의 예를 도시한 블럭선도.
제2도는 DP매칭 처리의 개념 설명을 위한 그래프도.
제3도는 음향 파라미터 공간에 있어서의 궤적선도.
제4도는, 제5도 및 제6도는 각각 1차원의 입력 패턴 A, 표준 패턴 A' 및 표준 패턴 B'의 예를 도시한 그래프도.
제7도는 입력 패턴 A의 파라미터 시계열과 표준 패턴 A'의 파라미터 시계열과의 DP매칭 처리에 의한 사간축 정규화의 설명을 위해 제공되는 그래프도.
제8도는 입력 패턴 A의 파라미터 시계열과 표준 패턴 B'의 파라미터 시계열과의 DP매칭 처리에 의한 시간축 정규화의 설명을 위해 제공되는 그래프도.
제9도는 본 발명의 음성인식방법의 일실시예를 도시한 블럭선도.
제10도, 제11도, 제12도 및 제14도는 각각 NAT처리부의 설명을 위해 제공되는 그래프도.
제13도는 보간점 추출기의 설명을 위해 제공되는 흐름선도.
제15도, 제16도 및 제17도는 각각 NAT처리부로서 처리한 입력 패턴 A, 표준 패턴 A' 및 표준 패턴 B'의 1차원의 음향 파라미터 시계열을 도시한 그래프도.
* 도면에 주요부분에 대한 부호의 설명
1 : 마이크로폰 2 : 음향 분석부
3 : 모드 절환 스위치 4 : 표준 패턴 메모리
6 : 최소 거리 판정기 16 : 음성 구간내 파라미터 메모리
21 : NAT처리부 22 : 궤적길리 산출기
23 : 보간간격 산출기 24 : 보간점 추출기
25 : 체비셰프(chebyshev)거리 산출기
본 발명은 음성을 인식하는 음성 인식방법에 관한 것이다.
종래, 음성의 발성 속도 변동에 대처한 음성 인식장치로서, 예를들면, 일본국 특개소 50-96104호 공보에 기술된 바와같은 DP매칭 처리를 행하도록 한 것이 제안되어 있다.
먼저, 이 DP매칭 처리로서 음성 인식을 행하도록 한 음성 인식장치에 대해서 설명한다.
제1도에 있어서, (1)은 음성 신호 입력부로서의 마이크로폰을 나타내는데, 이 마이크로폰(1)으로부터의 음성신호는 음향 분석부(2)에 공급되고, 이 음향 분석부(2)에서 음향 파라미터 시계열 Pi(n)이 얻어진다. 이 음향 분석부(2)에 있어서, 예를들면 대역통과 필터 뱅크의 정류 평활화 출력이 음향 파라미터 시계열 Pi(n)(i=1,…I : I는 대역통과 필터 뱅크의 채널수, n=1,…N : N은 음성구간 판정에 의해 분절된 프레임수)로서 얻어진다.
이 음향 분석부(2)의 음향 파라미터 시계열 Pi(n)이 모드 절환 스위치(3)에 의해, 등록 모드에 있어서는 인식대상어마다 표준 패턴 메모리(4)에 격납되고, 인식 모드에 있어서는 DP매칭거리 계산부(5)의 일단에 공급된다. 또한, 이 인식 모드에 있어서는 표준 메모리(4)에 격납되어 있는 표준 패턴이 DP매칭거리 계산부(5)의 타단에 공급된다.
이 DP매칭거리 계산부(5)로서 그때 입력되고 있는 음성의 음향 파라미터 시계열 Pi(n)인 입력 패턴과 표준 패턴 메모리(4)의 표준 패턴과의 DP매칭거리의 계산이 처리되고, 이 DP매칭거리 계산부(5)의 DP매칭 거리를 나타내는 거리 신호가 최소거리 판정부(6)에 공급되며, 이 최소거리 판정부(6)에서 입력 패턴에 대하여 DP메칭거리가 최소화되는 표준 패턴이 판정되고, 이 판정 결과에 의해 입력 음성을 표시하는 인식 결과가 출력 단자(7)에 얻어진다.
그런데, 일반적으로 표준 패턴 메모리(4)에 격납되는 표준 패턴의 프레임수 N는 발성 속도 변동이나 단어의 길이의 차이에 의해 달라지게 된다. DP매칭 처리에 의해 이 발성속도 변동이나 단어의 길이의 차이에 대처하기 위한 시간축 정규화가 필요하다.
이하, DP매칭 처리에 대해서 설명한다. 여기서, 편의상 음향 파라미터 시계열 Pi(n)의 주파수 축 방향 i에 대응하는 차원을 생략하여 표준 패턴의 파라미터 시계열을 b1,…bN으로 하고, 입력 패턴의 파라미터 시계열을 a1,…aM으로 하여, 단점 고정의 DP경로 인 경우의 DP매칭 처리에 대해서 설명한다.
제2도는 DP매칭 처리의 개념도로서, 횡축에 입력 파라미터(M=19)가 병기되고, 종축에 표준 파라미터(N=12)가 병기되며, 이 제2도에 도시한 (M,N)격자형 평면에 있어서 점은 M×N개 인데, 이 각 점에 1개의 거리가 대응한다.
예를들면, a3와 b5와의 거리가 a3으로부터 종으로 신장한 직선과, b5로부터 횡으로 신장한 직선과의 교점에 위치하는 점에 대응한다. 이 경우, 거리로서, 예를들면, 체비셰프 거리를 취하면, a3와 b5와의 거리 d
Figure kpo00001
가 된다. (이 경우, 주파수 축방향 i에 대응하는 차원을 생략하고 있으므로 I=1이다)그리하여, 단점 고정의 DP경로로서, 격자점(m,n)에 대하여 이 격자점(m,n)에 연결하기 전의 상태로서 좌측의 격자점(m-1,n), 경사 좌하측의 격자점(m-1,n-1) 및 하측부의 격자점(m,n-1)의 3개
Figure kpo00002
만을 허용한 경우, 시점 즉 a1과 b1과의 체비셰프 거리 d(1,1)을 표시하는 점 ◎으로부터 출발하고, 경로로서 3방향
Figure kpo00003
을 선택하며, 종점 : 즉 aM와 bN의 체비셰프 d(M,N)를 표시하는 점
Figure kpo00004
에 도달하는 경로로서, 통과하는 각 격자점의 거리의 총합계가 최소로 되는 것을 구하고, 이 거리의 총합계를 입력 패턴수 M와 표준 패턴수 N과의 합계로부터 값 1을 감산한 (M=N-1)로서 제산하여 얻어진 결과가 입력 패턴의 파라미터 시계열 a1,…aM과 표준 패턴의 파라미터 시계열 b1,…bN과의 DP매칭거리고 된다. 이와 같은 처리를 나타내는 초기조건 및 점화식은 초기조건 g(1,1)=d(1,1)
점화식
d(m,n)+g(m-1,n)
g(m,n)=min 2.d(m,n)+(m-1,n-1)
d(m,n)+g(m,n-1)
이와 같은 DP매칭거리에 의한 음성 인식장치에 따르면, 발성 속도 변동이나 단어 길이의 차이에 대해, 즉 시간축 정규화된 음성 인식을 행할 수 있다.
그러나, 이와 같은 DP매칭 거리에 의해 음성 인식을 행함에 있어서, 음성의 정상부가 DP매칭거리에 크게 반영되고, 부분적으로 유사하게 되어 있는 단어 사이에 있어서 잘못 인식되기 쉽다는 것이 밝혀졌다.
즉, 음향 파라미터 시계열 Pi(n)은 그 파라미터 공간에서 궤적을 묘사하고 고찰할 수 있다. 실제로는 각 프레임 n의 파라미터가 파라미터 공간내의 1점에 대응하므로, 점열에서 어느 것이 시계열 방향으로의 곡선으로 연결되면 시점으로부터의 종점까지의 1개의 궤적이 고찰된다. 예를들면, 2종류의 단어 "SAN"와 "HAI"를 등록한 경우, 각각의 표준 패턴 A',B'는 제3도에 도시한 바와 같이 "S","A","N","H","A","I"의 각음운 영역을 통과하는 궤적을 그린다.
그리하여, 인식모드에서 "SAN"라고 발생한 경우, 전체적으로 보면 입력 패턴A에 대한 표준 패턴 B'의 유사하는 부분은 적지 않지만, 이 입력 패턴A의 "SAN"의 "A"부분이 표준 패턴 A'의 "SAN"의 "A"의 부분보다 표준 패턴 B'의 "HAI"의 "A"부분에 보다 유사하고, 또 그 부분(준 정상부)에 점의 수가 많은 경우가 있다.
여기서, 제3도에 도시한 바와 같이 입력 패턴A의 파라미터는 전체적으로는 표준 패턴A'의 파라미터와 유사하고, 부분적으로는 표준 패턴B'의 파라미터와 유사한 경우에 DP매칭 처리에 의해 오인식을 초래하는 경우를 1차원 파라미터를 예로 설명한다. 이 경우, 제3도에 도시한 상황, 즉 부분적으로 유사한 단어 사이의 관계와 마찬가지의 1차원 파라미터 시계열로서 제4도에 도시한 바와 같은 입력 패턴 A : 2,4,6,8,8,8,6,4,4,4,6,8과, 제5도에 도시한 바와 같은 표준패턴 A' : 3,5,7,9,9,9,9,7,5,5,7,9와, 제6도에 도시한 바와 같은 표준패턴 B' : 7,6,6,8,8,8,8,6,4,4,4를 고찰한다. 이들 제4도 내지 제6도의 패턴으로 부터 명백한 바와 같이 입력 패턴 A은 표준 패턴 A'으로 판정되고자 하는 패턴이다. 그런데, 입력 패턴 A에 대한 표준 패턴 A' 및 B'의 DP매칭거리를 계산하면, 입력 패턴 A은 표준 패턴 B'에 가까운 것을 알 수 있다.
즉, 입력 패턴 A에 대한 표준 패턴 A'의 DP매칭 처리로서 제2도와 마찬가지로, 제7도에 도시한 바와 같이 횡축으로 입력 패턴 A의 파라미터 시계열 2,4,6,8,8,8,8,6,4,4,4,6,8을 병기하고, 종축에 표준 패턴 A'의 파라미터 시계열 3,5,7,9,9,9,9,7,5,5,7,9를 병기하며, 격자형 평면에 있어서의 교점에 대응하여 표준 패턴 A의 개개의 파라미터에 대한 표준 패턴 A'의 개개의 파라미터의 체비셰프 거리를 구한다. 그리하여, 입력 패턴 A의 파라미터 시계열의 첫번째 파라미터 2와, 표준 패턴 A' 의 파라미터 시계열의 첫번째 파라미터 3과의 체비셰프 거리 d(1,1)=1의 점을 시점으로 하고, 입력 패턴A의 파라미터 시계열의 13번째 파라미터 8과, 표준 패턴 A'의 파라미터 시계열의 12번째 파라미터 9와의 체비셰프 거리 d(13,12)=1의 종점으로 하며, DP경로로서 제2도의 경우와 마찬가지로, 임의의 점에 대한 전의 형태로서 그 임의의 점의 좌측의 점, 하측의 점 및 경사 좌하측의 점을 취하는 것을 허용한 경우(이 경로를 실선 화살표로 표시함), 경로상의 점은 d(1,1)-d(2,2)-d(3,3)-d(4,4)-d(5,5)-d(6,6)-d(7,7)-d(8,8)-d(9,9)-d(10,10)-d(11,10)-d(12,10)-d(13,11)-d(13,12)의 14개의 점이고, 그 거리의 총합계는 24이며, 이 DP매칭거리 DM(A,A')는 1이다.
한편, 입력 패턴 A에 대한 표준 패턴 B' 의 DP매칭 처리를 상술한 제7도에 도시한 경우와 마찬가지로, 제8도에 도시한 바와 같이 행한다. 즉, 입력 패턴 A의 개개의 파라미터 2,4,6,8,8,8,8,6,4,4,4,6,8에 대한 표준 패턴 B'의 개개의 파라미터 7,6,5,8,8,8,8,6,4,4,4의 체비셰프 거리를 구하고, DP경로로서 임의의 점에 대한 전의 상태로서 그 임의의 점의 좌측의 점, 하측의 점 및 경사 좌하측의 점을 취한 것을 허용한 경우(실선 화살표), 경로상의 점은 d(1,1)-d(2,2)-d(3,3)-d(4,4)-d(5,5)-d(6,6)-d(7,7)-d(8,8)-d(9,9)-d(10,10)-d(11,11)-d(12,11)-d(13,11)의 13개의 점이고, 그 거리의 총합계는 15이며, 이 DP매칭거리 DM(A,B')는 0.65이다.
이 DP경로를 3방향 으로 한 결과로부터 명백한 바와 같이 입력 패턴 A이 그 DP매칭처리가 작은 표준 패턴 B'으로 판정되고, 판정될때 결과가 얻어지지 않는다. 이와 같이 DP매칭거리에 있어서는 부분적으로 유사하게 되어 있는 단어 사이에 있어서 잘못 인식하기 쉽다.
또, DP매칭 처리에 있어서는 상술한 바와 같이 표준 패턴의 프레임 수 N가 부정이고, 더구나 입력 패턴에 대하여 모든 표준 패턴을 DP매칭할 필요가 있으며, 단어가 많아지고 그에 따라 연산량이 비약적으로 증가하여, 표준 패턴 메모리(4)의 기억용량이나 연산량의 점에서 문제가 있었다.
본 발명은 이러한 점에 비추어 보아 부분적으로 유사하게 되어 있는 단어 사이에 있어서도 잘못 인식되는 것이 비교적 적고, 또한 표준 패턴 메모리에 기억용량이나 연산량이 비교적 적은 음성 인식방법를 제공하는 것을 목적으로 한다.
본 발명은 음성 신호 입력부를 가지며, 이 음성 신호 입력부로부터의 음성 신호를 음향 파라미터 계열로 변환하고, 이 음향 파라미터 계열로부터 그 파라미터 공간에 있어서의 궤적을 추정하고, 이 궤적을 기초로 하여 새로운 음향 파라미터 계열을 형성하여 처리함으로써 음성 신호를 인식하도록 한 것이며, 이와 같은 본 발명의 음성 인식방법에 의하면 부분적으로 유사하게 되어 있는 단어 사이에 있어서도 잘못 인식함이 비교적 적고, 또한 표준 패턴 메모리의 기억용량이나 연산량이 비교적 적은 것을 얻을 수 있는 잇점이 있다.
이하, 제9도 내지 제17도를 참조하여 본 발명 음성 인식방법의 일실시예에 대해서 설명한다. 이 제9도 내지 제17도에 있어서 제1도 내지 제8도와 대응하는 부분에는 동일부호를 부가하고 그 상세한 설명은 생략한다.
제9도에 있어서, (1)은 음성 신호 입력부로서의 마이크로폰을 나타내고, 이 마이크로폰(1)으로부터의 음성신호를 음향 분석부(2)의 증폭기(8)에 공급하며, 이 증폭기(8)의 음성신호를 차단 주파수 5.5KHz의 저역통과 필터(9)을 통하여 샘플링 주파수12.5KHz의 12비트 A/D변환기(10)에 공급하고, 이 A/D변환기(10)의 디지탈 음성 신호를 15채널의 디지탈 대역통과 필터 뱅크(11A),(11B)…(11O)에 공급한다. 이 대역통과 필터뱅크(11A),(11B)…(11O)는, 예를들면, 4차의 디지탈 필터로서 구성되고, 250Hz로부터 5.5KHz까지의 대역이 대수축상에서 등간격으로 되도록 분할되어 있다. 그리하여, 각 디지탈 대역통과 필터 (11A),(11B)…(11O)의 출력 신호를 15채널의 정류기(12A),(12B)…(12O)에 각각 공급하고, 이들 정류기(12A),(12B)…(12O)의 제곱 출력을 15채널의 디지탈 저역통과 필터(13A),(13B)…(13O)에 각각 공급한다. 이들 디지탈 저역통과 필터(13A),(13B)…(13O)는 차단 주파수52.8Kz의 FIR(유한 임펄스 응답형)저역통과 필터로서 구성한다.
그리고, 각 디지탈 저역통과 필터(13A),(13B)…(13O)의 출력신호를 샘플링 주기 5.12ms의 샘플러(14)에 공급한다. 이 샘플러(14)에 의한 디지탈 저역통과필터(13A),(13B)…(13O)의 출력신호를 프레임 주기 5.12ms마다 샘플링하고, 이 샘플러(14)의 샘플링 신호를 음원 정보 정규화기(15)에 공급한다. 이 음원 정보 정규화기(14)는 인식하고자하는 음성의 발성자에 따른 성대음원 특성의 차이를 제거하는 것이다.
즉, 프레임 주기마다 샘플러(14)로부터 공급되는 샘플링 신호 Ai(n)(i=1,…15;n : 프레임 번호)에 대하여
A'ii(n)=log(Ai(n)+B)……………………………………………………………(1)
되도록 대수 변환된다. 이 (1)식에 있어서, B는 바이어스로서 노이즈 레벨이 은폐되는 정도의 값을 설정한다. 그리고, 성대음원 특성을 yi=aㆍi+b되는 식으로서 근사한다. 이 a 및 b의 계수는 다음식에 의하여 결정된다.
Figure kpo00005
그리고, 음원의 정규화된 파라미터를 Pi(nj으로 하면, a(n)<0될때 Pi(n)
Pi(n)=A'i(n)-{a(n)·i+b(n)}………………………………………………(4)
로 표현된다.
또, an
Figure kpo00006
0인때는 레벨의 정규화만 행하고, 파라미터 Pi(n)는
Figure kpo00007
로 표현된다.
이와 같은 처리에 의해 음성 특성의 정규화된 파라미터 Pi(n)를 음성구간내에 파라미터 메모리(16)에 공급한다. 이 음성구간내에 파라미터 메모리(16)는 후술하는 음성구간 판정부(17)로부터 음성구간 판정신호를 수신하여 음원 특성의 정규화된 파라미터 Pi(n)를 음성 구간마다 격납한다.
한편, A/D변환기(10)의 디지탈 음성 신호를 음성 구간 판정부(17)의 제로 클로즈 카운터(18) 및 파워산출기(19)에 공급한다. 이 제로 클로즈 카운터(18)는 5.12ms마다 그 구간의 64점의 디지탈 음성 신호의 제로 클로즈수를 계수하고, 그 계수값을 음성구간 판정기(20)의 제1입력단에 공급한다. 또, 파워 산출기(19)는 5.12ms마다 그 구간의 디지탈 음성 신호의 파워, 즉 2승의 합계를 구하고, 그 구간내 파워를 표시하는 파워 신로를 음성구간 판정기(20)의 제2입력단에 공급한다. 더우기, 음원정보 정규화기(15)의 음원 정규화 정보 a(n) 및 b(n)를 음성구간 판정기(20)의 제3입력단에 공급한다. 그리고, 음성구간 판정기(20)에 있어서는 제로 클로즈수, 구간내 파워 및 음원 정규화 정보 a(n),b(n)를 복합적으로 처리하고, 무음, 무성음 및 유성음의 판정 처리를 행하며, 음성구간을 결정한다. 이 음성구간 판정기(20)의 음성구간을 나타내는 음성구간 판정신호를 음성구간 판정부(17)의 출력으로 하여 음성구간내 파라미터 메모리(16)에 공급한다.
이 음성구간내 파라미터 메모리(16)에 격납된 음성 구간마다 음원특성의 정규화된 음향 파라미터 Pi(n))를 그 시계열 방향으로 NAT처리부(21)에 공급한다. 이 NAT는 Normalization Along Trajectory의 약자이다. 이 NAT처리부(21)는 NAT처리로서 음향 파라미터 시계열 Pi(n)로부터 그 파라미터 공간에 있어서의 궤적을 추정하고, 이 궤적에 따라서 새로운 음향 파라미터 시계열 Qi(n)을 형성한다.
여기서, 이 NAT처리부(21)에 대하여 다시 설명한다. 음향 파라미터 시계열 Pi(n)(i=1,…I ; n=1,…N)은 그 파라미터 공간에 점열을 그린다. 제10도에 도시한 같은 음성의 비정상부의 점열은 분산되어 분포하고, 준정상부는 밀집되게 분포한다. 이러한 일은 완전히 정상이면 파라미터는 변환하지 않고, 그 경우에는 점열이 파라미터 공간에 정류하는 것으로부터도 명백하다.
제11도는 제10도에 도시한 바와 같이 점열상에 매끈한 곡선으로 궤적을 그린예를 도시한다. 이 제11도에 도시한 바와 같은 점열에 대하여 궤적을 추정할 수 있으면, 음성의 발성 속도 변동에 대하여 궤적은 거의 불변인 것을 고찰할 수 있다. 왜냐하면, 음성의 발성 속도 변동에 의한 시간 길이의 차이는 거의 준정상부의 시간적 신축(제10도에 도시한 바와 같이 점열에 있어서는 준정상부의 점열밀도의 차이에 상당함)에 기인하고, 비정상부의 시간 길이의 영향을 적지않은 것으로 고찰되기 때문이다.
NAT처리부(21)에 있어서는 이와 같은 음성의 발성 속도 변동에 대한 궤적의 불변성에 착안하여 시간축 정규화를 행한다.
즉, 첫째로 음향 파라미터 시계열 Pi(n)에 대하여 시간Pi(1)으로부터 종단 Pi(n)까지를 연속 곡선으로 그린 궤도를 추정하고, 이 궤적을 나타내는 곡선을
Figure kpo00008
i(n)(0≤S≤S)로 한다. 이 경우, 반드시
Figure kpo00009
i(n)=Pi(n),
Figure kpo00010
i(n)=Pi(n)일 필요는 없고, 기본적으로는 Pi(n)가 점열 전체를 근사적으로 통과하도록 한 것이면 된다.
둘째로, 추정된
Figure kpo00011
로부터 궤적의 길이 SL를 구하고, 제12도에 0표로 표시한 바와 같은 궤적을 따라서 일정길이로 새로운 점열을 재샘플링한다. 예를들면, M점에 샘플링하는 경우, 일정길이, 즉 재샘플링 간격T=SL/(M-1)을 기준으로 하여 궤적상을 재샘플링 한다. 이 재샘플링된 점열을 Qi(n)(i=1,…I ; m=1,…M)으로 하면, Qi(n)=
Figure kpo00012
i(n) i(n) i(n)
이와 같이 하여 얻어진 새로운 파라미터 시계열 Qi(n)은 궤적의 기본 정보를 가지고 있고, 더우기 음성의 발성 속도 변동에 대하여 거의 불변인 파라미터로된다. 즉, 새로운 파라미터 시계열 Qi(n)은 시간축 정규화된 파라미터 시계열로 된다.
이와 같은 처리를 위해, 음성구간내 파라미터 메모리(16)의 음향 파라미터 시계열 Pi(n)을 궤적 길이 산출기(22)에 공급한다. 이 궤적길이 산출기(22)는 음향 파라미터 시계열 Pi(n)이 그 파라미터 공간에 있어서 그려진 직선 근사에 의한 궤적의 길이, 즉 궤적 길이를 산출하는 것이다.
이 경우, 1차원 벡터 ai 및 bi 사이의 유크리트 거리 D(ai,bi)는
Figure kpo00013
이다. 그래서, 1차원의 음향 파라미터 시계열 Pi(n)(i=1,…I ; n=1,…,N)에 의해, 직선 근상에 의한 궤적을 추정한 경우의 시계열 방향에 인접하는 파라미터간 거리s(n)는
S(n)=D(Pi(n+1), Pi(n))(n=1,…,N-1)……………………………………………(7)
로 표현된다. 그리고, 시계열 방향에 있어서 첫번째 파라미터 Pl(1)로부터 n번째 파라미터 Pl(n)까지의 거리 SL(n)는
Figure kpo00014
로 표현된다. 일반적으로, SL(1)=0이다. 더우기, 궤적길이 SL는
Figure kpo00015
로 표현된다. 궤적길이 산출기(22)는 이 (7)식, (8)식 및 (9)식으로 나타낸 신호 처리를 행한다.
이 궤적길이 산출기(22)의 궤적길이 SL를 나타낸 궤적길이 신호를 보간간격 산출기(23)에 공급한다. 이 보간 간격 산출기(23)는 궤적에 따라서 직선 보간에 의해 새로운 점열을 재샘플링하는 일정 길이의 재샘플링 간격 T을 산출하는 것이다. 이 경우, M점에 재생플링하는 것으로 되면, 재샘플링 간격T은
T=SL/(M-1)……………………………………………………………………………(10)
으로 표현된다. 보간 간격 산출기(23)는 이 (10)식으로 나타낸 신호 처리를 행한다.
이 보간 간격 산출기(23)의 재생플링 간격 T을 나타내는 재샘플링 간격 신호를 보간점 추출기(24)의 일단에 공급함과 동시에 음성구간내 파라미터 메모리(16)의 음향 파라미터 시계열 Pi(n)의 그 파라미터 공간에 있어서의 궤적, 예를들면, 파라미터 사이를 직선 근사한 궤적에 따라서 재생플링 간격 T로서 새로운 점열을 재샘플링하고, 이 새로운 점열에 의해 새로운 음향 파라미터 시계열 Qi(n)을 형성하는 것이다.
여기서, 이 보간 검출 추출기(24)에 있어서의 신호 처리를 제13도에 도시한 흐름선도에 따라서 설명한다. 먼저, 블럭(24a)에서 재샘플링점의 시계열 방향에 있어서의 번호를 나타내는 변두 J에 값 1이 설정됨과 동시에 음향 파라미터 시계열 Pi(n)의 시계열 방향에 있어서의 번호를 나타내는 변수 IC에 값 1이 설정된다.
그리고 블럭(24C)에서 변수 J가 인클리멘트되고, 블럭(24C)에서 그때의 변수 J가 (M-1) 이하 인지의 여부에 따라, 그때의 재샘플링점의 시계열 방향에 있어서의 번호가 재샘플링할 필요가 있는 최후의 번호로 되어 있는지의 여부를 판단하고, 되어있지 않으면, 블럭(24d)에서 첫번째의 재샘플링 점으로부터 J번째의 재샘플링점까지의 재샘플 거리 DL가 산출되고, 블럭(24e)에서 변수 IC가 인클리멘트되며, 블럭(24f)에서 재샘플리거리 DL가 음향 파라미터 시계열 Pi(n)의 첫번째의 파라미터 Pi(1)로부터 IC번째까지의 파라미터 Pi(IC)까지의 거리 SL (IC) 보다도 작은지의 여부에 따라, 그때의 재샘플링 점이 궤적상에 있어서그때의 파라미터 Pi(IC) 보다도 궤적의 시점측에 위치하는지의 여부를 판단하고, 위치되어 있지 않으면 블럭(24e)에서 변수 IC를 인클리멘트한 후 다시 블럭(24f)에서 재샘플링점과 파라미터 Pi(IC)와의 궤적상에 있어서의 위치를 비교하며, 재샘플링 점이 궤적상에 있어서 파라미터Pi (IC)보다도 시점측에 위치한다고 판단된때, 블럭(24g)에서 재샘플링에 의해 궤적을 따른 새로운 음향 파라미터 Qi(J)가 형성된다. 즉, 먼저 J번째의 재샘플링점에 의한 재샘플 거리 DL로부터 J번째의 재샘플링보다도 시점측에 위치하는 (IC-1)번째의 파라미터 Pi(IC-1)에 의한 거리 SL(IC-1)를 감산하여 (IC-1)번째의 파라미터 Pi(IC-1)로부터 J번째의 재샘플링점까지의 거리 SS를 구한다.
다음에, 궤적상에 있어서 J번째의 재샘플링점의 양측에 위치하는 파라미터 Pi(IC-1) 및 파라미터 PI(IC)사이의 거리 S(n) (이 거리 S(n)는 (7)에서 나타낸 신호 처리로서 얻어진다)에서 이 거리 SS를 제산 SS/S(IC-1)하고, 이 제산 결과 SS/S(IC-1)로 궤적상에 있어서 J번째의 재샘플링점의 양측에 위치하는 파라미터 Pi(IC)와 Pi(IC-1)과의 차(Pi(IC)-Pi(IC-1))를 승산(Pi(IC)-Pi(IC-1)*SS/S(IC-1)하여, 궤적상에 있어서 J번째의 재심플링 점의 이 샘플링점 보다도 시점측에 인접하여 위치하는 (IC-1)번째의 파라미터 Pi(IC-1)로 부터의 보간량을 산출하고, 이 보간량과 J번째의 재샘플링 점보다도 시점측에 인접하여 위치하는 (IC-1)번째의 파라미터 Pi(IC-1)와를 가산하여, 궤적에 따른 새로운 음향 파라미터 Qi(J)가 형성된다. 제14도에 2차원의 음향 파라미터 시계열P(1),P(2),…P(8)에 대하여 파라미터 사이를 직선 근사하여 궤적을 추정하고, 이 궤적에 따라서 직선 보간에 의해 6점의 새로운 음향 파라미터 시계열Q(1),Q(2),…Q(6)을 형성한 예를 나타낸다. 또, 이 블럭(24g)에 있어서는 주파수 계열 방향으로 1차원분(i=1,…I)에 신호 처리가 행해진다.
이와 같이 하여 블럭(24b)내지 (24g)에서 시점 및 종점(이들은 Q1(1)=Pi(O),Qi(M)=Pi(S)이다)을 제한(M-2)점의 재생플링에 의해 새로운 음향 파라밑 시계열 Qi(m)이 형성된다.
이 NAT처리부(21)에 새로운 음향 파라미터 시계열 Qi(m)을 모드 절환스위치(3)에 의해, 등록 모드에 있어서는 인식대상어마다 표준 패턴 메모리(4)에 격납하고, 인식 모드에 있어서는 인식대상어마다 표준 패턴 메모리(4)에 격납하고, 인식 모드에 있어서는 체비셰프 거리 산출부(25)의 일단에 공급한다.
또, 이 인식 모드에 있어서는 표준 패턴 메모리(4)에 격납 되어 있는 표준 패턴을 체비셰프거리 산출부(25)의 타단에 공급한다. 이 체비셰프 거리 산출부(25)에 있어서는 그때 입력되고 있는 음성의 시간축의 정규화된 새로운 음향 파라미터 시계열 Qi(m)에 의한 입력 패턴과, 표준 패턴 메모리(4)의 표준 패턴의 체비셰프 거리의 산출 거리가 행해진다.
그리고, 이 체비셰프 거리를 나탄내는 거리 신호를 최소 거리 판정부(6)에 공급하고, 이 최소 거리 판정부(6)에서 입력 패턴에 대한 체비셰프 거리가 최소로 되는 표준 패턴이 판정되며, 이 판정 결과에 의해 입력 음성을 나타내는 인식결과를 출력 단자(7)에 공급한다.
이와 같이 하여 음성 인식방법에 동작에 대해서 설명한다.
마이크로폰(1)의 음성 신호가 음향 분석부(2)에서 음성구간마다 음원 특성의 정규화된 음향 파라미터 시계열Pi(n)로 변환되고, 이 음향 파라미터 시계열Pi(n)이 NAT처리부(21)에 공급되며, 이 NAT처리부(21)에서 음향 파라미터 시계열Pi(n)로부터 그 파라미터 공간에 있어서의 직선 근사에 의한 궤적이 추정되고, 이 궤적에 따라서 시간축 정규화된 새로운 음향 파라미터 시계열 Qi(n)이 형성되며, 등록모드에 있어서는 이 새로운 음향 파라미터 시계열이 모두 절환 스위치(3)를 통하여 표준 패턴 메모리(4)에 격납된다.
또, 인식 모드에 있어서는, NAT처리부(21)의 새로운 음향 파라미터 시계열 Qi(m)이 모드 절환 스위치(3)를 통하여 체비셰프 거리 산출부(25)에 공급됨과 동시에 표준 패턴 메모리(4)의 표준 패턴이 체비셰프거리 산출부(25)에 공급된다. 제15도 내지 제17도에 제4도 내지 제6도에 도시한 1차원의 입력 패턴 A의 파라미터 시계열 ; 2,4,6,8,8,8,8,4,4,4,6,8, 표준 패턴 A'의 파라미터 계열 ; 3,5,7,9,9,9,9,5,5,7,9, 표준 패턴 B'의 파라미터 시계열 ; 7,6,6,8,8,8,8,6,4,4,4,을 NAT처리부(21)에서 직선근사로서 궤적을 추정하고, 재샘플링점을 8점으로 하는 처리를 한 1차원 입력 패턴 A의 파라미터 시계열 ; 2,4,6,8,6,4,,6,8, 표준 패턴 A'의 파라미터 시계열 3,5,7,9,7,5,7,9 표준 패턴 B'의 파라미터 시계열 ; 7,6,7,8,7,6,5,4을 각각 도시한다. 이 경우, 음향 파라미터 시계열 Pi(n)로부터 그 파라미터 공간에 있어서의 궤적을 추정하고, 이 궤적에 따라서 새로운 음향 파라미터 시계열 Qi(n)이 형성되므로, 입력 음성을 변환한 음향 파라미터 시계열 Pi(n)자신에 의해 시간축 정규화가 행해진다. 그리고, 체비셰프 거리 산출부(25)에 있어서 입력 패턴 A과 표준패턴 A'와의 사이의 체비셰프거리 8이 산출됨과 동시에 표준패턴 A과 표준패턴 B' 사이의 체비셰프 거리 16이 산출되며, 이들 거리 8 및 16을 각각 나타내는 거리 신호가 최소거리 판정부(6)에 공급되고, 이 최소 거리 판정부(6)에서 거리8이 거리16보다 작은 것으로부터 표준 패턴 A가 입력 패턴 A'인 것으로 판정되며, 이 판정 결과에 의해 입력 음성이 표준 패턴 A인 것을 나타내는 인식 결과가 출력단자(7)에 얻어진다. 따라서, 부분적으로 유사하게 되어 있는 단어 사이에 있어서도 잘못 인식하는 것이 비교적 적은 음성 인식을 행할 수 있다.
이상 설명한 바와 같은 본 발명 음성 인식방법에 따르면, 음성 신호 입력부로서의 마이크로폰(1)을 가지며, 이 음성 신호 입력부(1)로부터의 음성 신호를 음향 파라미터 시계열 Pi(n)로 변환하고, 이 음향 파라미터 시계열 Pi(n)로부터 그 파라미터 공간에 있어서의 직선 근사에 의한 궤적을 추정하며, 이 퀘적에 따라서 새로운 음향 파라미터 시계열 Pi(m)을 형성 처리함으로써 음성 신호를 인식하도록 했기 때문에, 부분적으로 유사하게 되어 있는 단어 사이에 있어서도 잘못 인식함이 비교적 적은 음성의 인식이 가능한 이익이 있다. 또, 처리를 위한 연산량을 비교적 적게 할 수 있는 이익이 있다.
여기서, NAT처리를 행하는 본 발명 음성 인식 방법과 DP매칭 처리를 행하는 종래의 음성 인식방법와의 연산량의 차이에 대해서 설명한다.
입력 패턴에 대한 표준 패턴 1개당의 DP매칭거리 계산부(5)에 있어서의 평균 연산량을 α라고 하고, 체비셰프 거리 산출부(25)에 있어서의 평균 연산량을 β라고 하며, NAT처리부(25)의 평균 연산량을 α라고 할때, J개의 표준 패턴에 대한 DP매칭 처리에 따른 연산량C1
C1=α·J…………………………………………………………………………(11)
이다. 또, J개의 표준 패턴에 대한 NAT처리한 경우의 연산량 C2
C2=β·J·σ……………………………………………………………………(12)
이다. 일반적으로, 평균연산량α는 평균 연산량β에 대하여 α>β가 되는 관계가 있다. 따라서,
Figure kpo00016
되는 관계가 성립하고, 즉 인식 대상어수가 증가함에 따라서 연산량 C1은 연산량 C2에 대하여 C1》C2의 관계로 되고, NAT처리를 행하는 본 발명 음성 인식방법에 따르면, 연산량을 대폭 절감할 수 있는 이익이 있다.
또, NAT처리부(211)에 의해 얻어지는 새로운 음향 파라미터 시계열 Qi(m)은 그 시계열 방향에 있어서 일정한 파라미터수로 설정될 수 있으므로, 표준 패턴 메모리(4)의 기억 영역을 유효하게 이용할 수 있고, 그 기억용량을 비교적 적게할 수 있는 이익이 있다.
또한, 상술한 실시예에 있어서는 음향 파라미터 시계열 Pi(m)로부터 그 파라미터 공간에 있어서의 궤적을 직선근사로서 추정함과 동시에 이 궤적으로부터 새로운 음향 파라미터 시계열Qi(n)을 직선 보간으로 형성하도록 경우에 대해서 설명하였었지만, 원호근사, 스플라인 근사등에 의해 궤적을 추정함과 동시에 궤적으로부터 새로운 음향 파라미터 시계열Qi(n)을 원호보간, 스플라인 보간 등으로 형성하도록 하여도 상술한 실시예와 마찬가지의 작용효과를 얻을 수 있는 것은 용이하게 이해할 수 있다. 또, 상술한 실시예에 있어서는 새로운 음향 파라미터 시계열 Pi(n)로부터 그 파라미터 공간에 있어서의 궤적을 추정하고, 이 궤적에 따라서 새로운 음향 파라미터 시계열Qi(m)을 형성하도록 한 경우에 대해서 설명하였었지만, 음향 파라미터 주파수 계열로부터 그 파라미터 공간에 있어서의 궤적을 추정하고, 이 궤적에 따라서 새로운 음향 파라미터 주파수 계열을 형성하도록 함으로써, 음성 신호의 주파수 특성의 정규화를 행할 수 있다. 또, 본 발명은 상술한 실시예에 한하지 않고 본 발명의 요지에서 벗어남이 없이 다른 종류의 구성을 얻을 수 있는 것은 물론이다.
본 발명의 음성인식방법에 따르면, 입력 음성 신호를 분할하며, 분할마다에서 시간 정규화된 특성을 가지며 분할된 음성 신호로부터 복수의 시계열 음향 파라미터를 얻으며, 각 분할점은 복수의 시계열적이고, 시간 정규화된 음향 파라미터중 하나에 대응하며, 분할된 음성 신호의 시간 정규화된 궤적을 형성하기 위해 복수의 분할점을 사용하는 제1궤적을 형성하며, 각각의 등록된 궤적들은 복수의 데이타로 표시되는데, 공지된 음성 분할을 표시하는 복수의 등록된 궤적들을 제공하며, 등록된 궤적중 하나와 형성된 궤적을 매칭하며, 매칭결과의 표시를 발생시킨다. 또한, 본 발명의 음성 인식방법은 설정된 길이로 형성된 제1궤적을 샘플링해서 형성된 궤적을 등록된 궤적과 매칭되게 표시하는 새로운 데이타를 발생하며, 형성된 궤적 길이를 결정하고, 등록된 궤적 길이를 결정하고, 형성된 궤적 길이를 등록된 궤적 길이와 비교하며, 매칭 단계에서 비교 결과를 사용한다.

Claims (1)

  1. 입력 음성 신호를 분할하는 단계와, 분할마다에서 시간 정규화된 특성을 가지며 분할된 음성 신호로부터 복수의 시계열 음향 파라미터를 얻는 단계와, 각 분할점은 복수의 시계열적이고, 시간 정규화된 음향 파라미터중 하나에 대응하는데, 상기 분할된 음성 신호의 시간 정규화된 궤적을 형성하기 위해 복수의 분할점을 사용하는 제1궤적을 형성하는 단계와, 각각의 등록된 궤적들은 복수의 데이타로 표시되는데, 공지된 음성 분할을 표시하는 복수의 등록된 궤적들을 제공하는 단계와, 상기 등록된 궤적중 하나와 형성된 궤적을 매칭하는 단계와, 매칭결과의 표시를 발생하는 단계를 구비하는 음성인식방법에 있어서, 설정된 길이로 상기 형성된 제1궤적을 샘플링하고, 그럼으로써 상기 형성된 궤적을 등록된 궤적과 매칭되게 표시하는 새로운 데이타를 발생하는 단계와, 상기 형성된 궤적 길이를 결정하는 단계와, 상기 등록된 궤적 길이를 결정하는 단계와, 상기 형성된 궤적 길이를 등록된 궤적 길이와 비교하는 단계와, 상기 매칭 단계에서 비교 결과를 사용하는 단계를 구비하는 것을 특징으로 하는 음성 인식방법.
KR1019850003590A 1984-05-25 1985-05-24 음성 인식방법 KR930007790B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP106177 1984-05-25
JP59106177A JPH0634181B2 (ja) 1984-05-25 1984-05-25 音声認識装置
JP59-106177 1984-05-25

Publications (2)

Publication Number Publication Date
KR850008538A KR850008538A (ko) 1985-12-18
KR930007790B1 true KR930007790B1 (ko) 1993-08-19

Family

ID=14426960

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019850003590A KR930007790B1 (ko) 1984-05-25 1985-05-24 음성 인식방법

Country Status (2)

Country Link
JP (1) JPH0634181B2 (ko)
KR (1) KR930007790B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0634183B2 (ja) * 1984-05-31 1994-05-02 ソニー株式会社 音声認識装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59106178A (ja) * 1982-12-10 1984-06-19 富士通株式会社 プリント配線基板のエツチング方法

Also Published As

Publication number Publication date
KR850008538A (ko) 1985-12-18
JPH0634181B2 (ja) 1994-05-02
JPS60249198A (ja) 1985-12-09

Similar Documents

Publication Publication Date Title
CA1227286A (en) Speech recognition method and apparatus thereof
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
KR930007790B1 (ko) 음성 인식방법
JPH0632022B2 (ja) 音声認識装置
JPH0572598B2 (ko)
JP2502880B2 (ja) 音声認識方法
JPH0668678B2 (ja) 音声認識装置
JPH0573036B2 (ko)
JPH0792674B2 (ja) 音声認識装置
JPH0634182B2 (ja) 音声認識装置
JPH0632004B2 (ja) 音声認識装置
JPH0634183B2 (ja) 音声認識装置
JP2748383B2 (ja) 音声認識方式
JPH01302300A (ja) 自己回帰モデル自動次数決定方法
JPS63173100A (ja) キ−ワ−ド抽出装置
JPH0228160B2 (ko)
JPH06100918B2 (ja) 音声認識装置
JPH05313695A (ja) 音声分析装置
JPH0273398A (ja) 音声標準パタン登録方式
JPS63257797A (ja) 音声始端検出装置
JPS61275799A (ja) 音声認識装置
JPS61176997A (ja) 音声認識装置
JPS6117195A (ja) 音声認識装置
JPH06105399B2 (ja) 音声認識方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20040716

Year of fee payment: 12

EXPY Expiration of term