KR0136608B1 - 음성신호 검색용 음성인식 장치 - Google Patents
음성신호 검색용 음성인식 장치Info
- Publication number
- KR0136608B1 KR0136608B1 KR1019880016203A KR880016203A KR0136608B1 KR 0136608 B1 KR0136608 B1 KR 0136608B1 KR 1019880016203 A KR1019880016203 A KR 1019880016203A KR 880016203 A KR880016203 A KR 880016203A KR 0136608 B1 KR0136608 B1 KR 0136608B1
- Authority
- KR
- South Korea
- Prior art keywords
- phoneme
- transition
- boundary
- point
- characteristic
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims description 52
- 230000007704 transition Effects 0.000 claims description 118
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000013078 crystal Substances 0.000 description 4
- 230000000630 rising effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
내용없음.
Description
제1도는 본 발명에 따른 음소 인식 장치의 한 실시예의 블록도.
제2도는 입력 음성 신호 및 이에 대응하는 천이 검출 파라미터 파형의 한예를 도시하는 도면.
제3도는 특성점의 한 예를 도시하는 도면.
제4도는 제1도에서 도시된 정상 및 천이 부분 검출기의 더욱 상세한 블록도.
제5도는 입력 음성 신호와 이에 대한 음향 파라미터 파형예를 도시하는 도면.
제6도는 제1도에서 도시된 음소 경계 후보 발생기의 보다 상세한 블럭도.
제7도는 음향 파라미터 및 특성점에 대한 음소 경계 특성의 관계를 도시하는 표.
제8도는 각 음향 파라미터의 관련 우선권(priorities)을 도시하는 도면.
제9도는 입력 음성 신호의 정상 및 천이 부분 검출을 위한 동작 흐름도.
* 도면의 주요부분에 대한 부호의 설명
7 : 특성점 추출 장치 10 : 음성 인식 장치
52 : 샘플러 54 : 소리 분해기
71 : 정보 기억 장치 97 : 음성 경계 후보 결정 장치
541 : 로그 파우어 검출기(logarithmic power detector)
545 : 피치 주기(pitch period) 검출기
본 발명은 음성 인식에서 입력 음소를, 특히 음소 인식을 위한 음소(phoneme) 세그먼트로 세그먼트화하는데 필수적인 음소 세그먼트 정보를 형성하는 음소 인식 장치에 관한 것이다.
음소 인식은 연속적인 음성 및 많은 어휘의 음성 인식의 기본이된다. 대상 입력 언어는 음소 인식을 위한 음소 세그먼트로 세그먼트화 되어야만 한다.
(segmented)
예를들어, 음절 SU가 발음될 때, 음파는 자음 S의 음소와 모음 U의 음소로 세그먼트화될 수 있다.
임계치에 대한 음성의 출력률(power rate) 또는 제로-교차율(zero-crossing rate)을 비교함으로써 세그먼트 한계를 얻는 방법이 음소 세그먼트화의 방법으로서 사용되어져 왔다.
그러나, 상기 임계치 설정이 어렵기 때문에, 임계치에 대한 음성의 출력률 또는 제로-교차율을 단순히 비교함으로써 정확한 음소 세그먼트화를 얻기는 어려웠다.
이후에 설명될 천이 검출 파라미터(T(n))가, 임계치보다 큰 천이 부분(transientpart)과 임계치(threshold)보다 적은 정상 부분(stationary part)을 검출하기 위해, 임계값과 비교 된다.
천이 검출 파라미터(T(n))의 주된 목적은 음성 스펙트럼이 가장 예리하게 변하는 점 즉, 피크 점(peak point)을 검출하는 것이다. 그러므로 천이 검출 파라미터의 단순한 응용을 통하여 천이 상태 및 정상 상태를 측정하는 것은 어렵다. 즉, 임계값을 설정하기가 어렵고, 따라서 정상 부분과 천이 부분 사이를 정확하게 판별하기가 어렵다.
따라서, 본 발명의 목적은 보다 정확한 음소 세그먼트화를 위한 정보를 제공할 수 있는 음소 인식 장치를 제공하는 것이다.
본 발명의 또 다른 목적은, 시간 축 상에 있는 블록내의 주파수 채널들의 변화와, 차이의 합과 동등한 천이 검출 파라미터로부터, 높은 정확도를 가지고, 정상 부분, 천이 부분 및 비결정 부분(undecided part), 즉, 입력 음성의 천이 부분 또는 정상 부분이 아닌 부분을 검출할 수 있는 음소 인식 장치를 제공 하는 것이다.
본 발명의 또 다른 목적은, 입력 음성의 음향 분석을 통해 얻어진 다수의 음소 세그먼트 파라미터의 상승점(rising points), 하강점(falling points) 및 피크점을 포함하는 특성점 정보(feature point information)로부터 음소 세그먼트 경계 후보와, 무음(silence phoneme)으로부터, 상승점과 자음-모음 및 모음-자음 천이점을 포함하는 경계 후보의 음소 경계 특성을 얻음으로써 음소 세그먼트 정보를 형성할 수 있고, 음소 세그먼트 파라미터중 하나로서 각 천이 검출 파라미터를 사용함으로써 천이 검출 파라미터의 피크 특성점을 기초로 음소 세그먼트를 정확하고 효과적으로 판별할 수 있는 음소 인식 장치를 제공하는 것이다.
본 발명은 입력 음성 신호를 음향학적으로 분석하고 이의 음성 스펙트럼 공급하기 위한 음향 분석기와, 이 음성 스펙트럼으로부터 천이 검출 파라미터를 발생시키기 위한 제1발생기와, 2개의 인접한 천이 검출 파라미터 사이에서 차이를 발생하기 위한 제2 발생기와, 인접한 2개의 천이 검출 파라미터의 생성된 차이에따라 입력 음성 신호의 천이 및 정상 부분을 검출하기 위한 검출기를 포함한다.
본 발명은 또한 로그 출력 스페트럼 및 제로 교차율과 같은 입력 음성 신호의 다수의 음향 파라미터를 발생하기 위한 다른 발생기와, 상승점, 증가점, 피크점등과 같은 음향각 파라미터의 특성점을 검출하기 위한 다른 검출기를 포함하여, 본 발명에 따른 장치는 입력 음성 신호의 음소 세그먼트 경계를 제공할 수 있다.
본 발명에 따른 음소 인식 장치는 천이 검출 파라미터의 피크 특성점을 기초로하여 음소 세그먼트 정보를 얻는다. 음소 인식 장치 설명에 앞서, 천이 검출 파라미터가 설명된다.
예를들어, 음절 SU가 발음될 때, 제2a도에 도시한 것과 같은 음성 파형이 얻어진다. 따라서, 상기 음절 SU는 자음S와 모음U로 음소화 된다. 음성 파형으로 부터 명백하듯이, 음소 경계는 음소가 변화하는 음성 파형의 천이 부분에 존재한다. 정확한 음소 인식은 음소 세그먼트의 정상 부분에서의 음소를 인식함으로써 얻어진다.
천이 검출 파라미터의 사용은 천이 상태 및 정상 상태를 검출하기 위한 유효한 수단이다.
천이 검출 파라미터는 각 채널(주파수)의 시간축 상의 블록 내에 변동의 합에 의해 한정된 음성 스펙트럼의 변화에 의해 표시된다.
즉, 언어 스펙트럼(Si(n))의 제1 이득은 주파수 방향에서의 평균(Savg(n))에 의해 표준화된다.
여기에서 I는 채널 번호이고, q는 채널수이다. 각각의 q개의 채널에 대한 정보는 시간축 상에서 샘플값이 취해진다. 동일 시간에서 q개의 채널에 대한 정보 블록은 프레임으로서 지정된다. 식(1)에서, n은 인식을 위한 프레임 수이다.
에 의해 표시된다.
천이 검출 파라미터(T(n))는, 프레임 전 후 M 프레임의 합(2M+1)의 블럭 [n-M, n+M] 내의 각 채널의 시간축 상의 변화의 합에 의해 표시된다.
여기에서 Ai(n)은 각 채널의 블록 내의 시간축 상의 평균이다.
특히, 상기 [n-M, n+M] 블럭의 중앙 부분에서 변화는 음향 및 소음의 파변동을 추출하기가 쉽기 때문에, 식(3)은 천이 검출 파라미터(T(n))를 계산할 때 중앙부분에서의 변동을 제거하기 위해 식(5)로 수정될 수 있다.
예를들어 식(5)에서, a=1, M=28, m=3 및 g=32로 대체함으로써, 천이 검출 파라미터(T(n))이 결정된다. 입력 음성 SU의 경우, 제2b도에 도시한 바와같이 천이 검출 파라미터가 얻어진다.
천이 검출 파라미터(T(n))의 피크점은 천이 부분에서 안정한 특성이 된다.
천이 검출 파라미터(T(n))를 기초로 하여 음소 경계 후보(phoneme boundary candidate) 결정은 음소 경계 후보의 잘못된 선택을 회피할 수 있게 한다. 본 발명은 특히 천이 검출 파라미터의 이와 같은 특성을 활용한다.
본 발명의 양호한 실시예가 첨부한 도면을 참고로 하여 이후에 설명된다. 제1도에 도시된 것은, 장치를 구성하는 음소 세그먼트 정보를 구비한, 본 발명에 따른 양호한 실시예에서의 음성 인식 장치이다.
마이크로폰(1)에 의해 발생된 음성 신호는 대역폭 제한하기 위한 증폭기(2) 및 저역 필터(3)를 통해 A/D 변환기(4)로 전송되고, 이 변환기는 음성 신호를 디지탈 음성 신호로 변환하고 디지탈 음성 신호를 음향 분석 유니트(5)에 제공하기 위하여, 예컨대 12.5㎑의 샘플링 주파수에서 음성 신호를 샘플링한다.
상기 음향 분석 유니트(5)는 대역 필터 뱅크(51) 및 음향 분석기(54)를 포함한다. 대역 필터 뱅크(51)는 예를들어, 디지탈 대역 필터(5110, 5111, 5112, … 및 51131)의 32개 채널을 구비한다. 디지탈 대역 필터(5110, 5111, 5112, … 및 51131)는 예컨대 4등급의 버터워쓰(Butterworth) 디지탈 필터이며 각각, 로그 축상의 250㎐ 및 5.5㎑ 사이의 대역폭의 동일 분할의 대역을 각각 갖는다. 디지탈 대역 필터 (5110, 5111, 5112, … 및 51131)의 출력 신호는 정류기 (5120, 5121, 5122, … 및 51231)에 각각 공급된다. 정류기 (5120, 5121, 5122, … 및 51231)의 출력 신호는 디지탈 저역 필터 (5130, 5131, 5132, … 및 51331)에 각각 공급된다. 상기 디지탈 저역 필터 (5130, 5131, 5132, … 및 51331)는 예컨대 52.8㎐의 차단 주파수를 갖는 FIR 저역 필터이다. 디지탈 저역 필터 (5130, 5131, 5132, … 및 51331)의 출력 신호는 샘플러(52)에 공급된다. 샘플러(52)는 5.12 msec의 프레임 주기에서 디지탈 저역 필터 (5130, 5131, 5132, … 및 51331)의 출력 신호를 샘플링한다. 따라서, 샘플시간 급수, 즉, 음성 스펙트럼 Si(n)(i=1, 2, … 및 32, n=1, 2, … 및 N(프레임 넘버)0)가 얻어진다.
샘플러(52)의 출력 신호, 즉 샘플 시간 급수(Si(n))는 규격화된 음성 스펙트럼의 시간 급수를 얻기 위해서 규격화 회로(53)에 공급된다.
규격화 회로(53)에 의해 공급된 음성 스펙트럼의 샘플 시간 급수(sample time series)(Si(n))는 천이 검출 파라미터 계산 장치(6)로 공급되고, 이 계산 장치는 천이 검출 파라미터(T(n))를 얻기 위해 식(5)을 사용하여 계산을 실행한다. 식(5)를 사용하는 계산에서는, 예를들어, 앞의 계산에서 사용된 M=28 및 m=3보다 작은 M=5 및 m=2가, 천이 부분 및 정상 부분을 검출하고 계산양을 줄이기 위해, 사용된다.
예를들면, 입력 음성 ASA 에 대한 천이 검출 파라미터(T(n))가 제5a도에 도시되었다. 제5g도는 입력 음성 신호의 파형이다.
이 실시예의 음향 분석기(54)는, 입력 음성 신호의 로그 출력을 검출하기 위한 로그 출력 검출기(541)와, 제로-교차율 컴퓨터(542)와, 연속적인 샘플 사이의 상호 관계의 정도를 지시하는 일차 PARCOR 계수를 계산하기 위한 컴퓨터(543)와, 출력 스펙트럼의 기울기를 계산하기 위한 컴퓨터(544)와, 입력 음성 신호의 피치 주기 검출용 피치 주기 검출기(545)를 포함한다. 상기 피치 주기는 음소 인식 장치(10)에 공급된다.
이들 파라미터, 즉 로그 출력, 제로-교차율, 일차(primary) PARCOR 계수, 출력 스펙트럼의 경사 및 피치주기의 계산에서, 시간점(프레임) 전의 M 프레임 및 시간점 후의 M 프레임에 대응하는 시간폭을 갖는 윈도우는, 각 윈도우 내에서 계산을 수행함으로써 파라미터를 새성하기 위하여, 시간축 상에서의 한 번에 하나의 샘플링 점만큼 연속적으로 이동된다. 이들 파라미터는 샘플러(55)에 제공되고, 이 샘플러(545)는 샘플러(52)에 대한 것과 동일한 샘플링 펄스로 파라미터를 샘플링한다. 따라서, 샘플러(55)는 음성 스펙트럼(Si(n))에 대한 것처럼 동일한 시간 급수 내에서 분석된 정보의 파라미터를 제공한다.
제5b, 5c, 5d 및 5e도는 로그 출력, 제로-교차율, 일차 PARCOR 계수 및 이와 같이 얻어진 출력 스펙트럼의 기울기를 각각 도시한다.
제5f도는 음성 피치, 즉, 음성의 피치 주기를 도시한다.
음향 분석 장치(5)에 의해 이렇게 얻어진 파라미터는 인식 처리를 위한 파라미터로서 음소 인식 장치(10)에 제공된다. 천이 검출 파라미터 계산장치(6)에 의해 계산된 천이 검출 파라미터(T(n))와 음향 분석 장치(54)에 의해 결정된 피치 주기를 제외한 파라미터는 특성점 추출 장치(7)에 공급된다.
특성점 추출 장치(7)는, 세그먼트화를 위한 파라미터로부터 음소 경계 후보를 얻기 위하여, 일반적인 특성점을 추출한다. 이 예에서, 제3도에서 도시한 바와 같이 다음의 7개의 특성점((1) 내지 (7))이 사용된다.
(1) 상승점
(2) 하강점
(3) 증가 변환점
(4) 감소 변환점
(5) 피크점
(6) 양의 제로 - 교차점
(7) 음의 제로 - 교차점
특성점 추출 장치(7)는 특성점 정보 기억 장치(71)에 의해 공급된 특성점 정보를 참고로하여 파라미터의 특성점을 추출한다. 제5a 내지 5e도에 있어서, 수직선에 의해 지시된 시간축 상의 위치는 파라미터의 특성점이다.
예를 들어, 피크점(5)은 천이 검출 파라미터(T(n))의 특성점으로서 추출되고, 상승점(1), 하강점(2), 증가 변환점(3) 및 감소 변환점(4)은 제로-교차율 및 로그 출력의 파라미터의 특성점으로서 추출된다.
특성점 추출 장치(7)에 의해 얻어진 특성점 정보는 음소 경계 후보 형성 장치(9)에 공급되고, 이 장치(9)는 천이 검출 파라미터(T(n))에 기초하여 음성 경계후보를 결정하고, 음성 경계 후보의 특성점을 추출한다.
음성 경계 후보 형성 장치(9)는 천이 부분, 정상 부분 및 비결정부분 결정 장치(8)에 의해 공급된 결정 출력을 참조한다. 결정 장치(8)는 천이 검출 파라미터 계산 장치(6)로부터 천이 검출 파라미터(T(n))와, 특성점 추출 장치(7)로부터 천이 검출 파라미터(T(n)) 상의 피크 특성점 정보를 수신한 후, 결정 장치(8)는 입력 음성의 천이 부분 또는 입력 음성의 정상부분중 어느 것에도 속하지 않은 비결정 부분을 결정한다.
제4도에 도시된 것은, 차이값 계산 장치(80)와, 파라미터 메모리(81)와, 차이값 메로리(82)와, 정상 부분 결정 장치(83)와, 천이점 검출 장치(84)와, 천이 부분 결정 장치(85)와, 비결정된 결정 장치(86)를 구비하는 천이부분, 정상부분 및 비결정 부분 결정 장치(8)를 도시한다.
천이 검출 파라미터 계산 장치(6)에 의해 제공된 천이 검출 파라미터(T(n))는, 연속적인 천이 검출 파라미터 사이의 차이값(dT(n))을 계산하기 위하여, 차이값 계산 장치(80)에 제공된다.
파라미터 메모리(81)는 천이 검출 파라미터 계산 장치(6)에 의해 제공된 천이 검출 파라미터(T(n))를 저장하고, 차이값 메모리(82)는 차이값(dT(n))을 저장한다.
결정 동작은 후에 설명된다.
(i) 정상 부분 결정 장치(83)는, 메모리 (81, 82)로부터 순차적으로 천이 검출 파라미터(T(n)) 및 차이값(dT(n))을 판독하기 위하여, 메모리(81, 82)에 검색신호를 보내고, 세그먼트가 다음의 식에 부합될 때, 정상부분이 될 세그먼트를 결정한다.
또는
여기에서 Ts1, Ts2및 do 은 예를 들어 Ts1= 1.0, Ts21.5 및 do= 0.1과 같이 설정된 임계값이다.
(ii) 천이점 검출 장치(84)는 특성점 추출장치(7)로부터 천이 검출 파라미터(T(n))(제5b도 )의 피크점을 검출하고, 피크점을 각각이 천이 부분의 중앙을 표시하는 천이점으로 간주한 후, 천이점에 대한 위치 정보(프레임 번호)를 천이 부분 결정 장치(85)에 제공한다.
(iii) 천이부분 결정 장치(85)는, 차이값(dT(n))을 판독하기 위하여, 천이점상의 기초점을 갖는 검색 신호를 차이값 메모리(82)에 보낸다. 과거 차이값은 기초점으로서 천이점으로부터의 시간에 대해 후방으로(backward) 검색 되어지고(이후로, 이검색 모드는 후방 검색(backward search)으로 언급한다), 다음식에 부합되는 차이값(dT(n))을 갖는 세그먼트를 후방 천이 부분으로 결정한다.
예컨대, d = 0.2 이다.
(iv) 후방 검색에 있어서, 식(9)에 부합되는 세그먼트가 정상부분 결정장치(83)에 의해 결정된 정상 부분에 중복될 때, 정상 부분 이 전의 세그먼트의 한 부분 바로 전의 세그먼트는 천이부분으로 간주된다.
(v) 그후, 천이부분 결정 장치(85)는 천이점으로부터의 시간에 대해 기초점으로서 전방 검색(forward search)을 형성하고(후에 이 검색 모드는 전방 검색으로 언급된다). 다음의 부동식에 부합되는 dT(n)을 갖는 세그먼트를 전방 천이 부분으로 결정한다.
(vi) 전방 검색에 있어서, 식(10)에 부합되는 세그먼트가 정상 부분에 중복될 때, 정상 부분 바로 전의 세그먼트의 한 부분이 천이 부분으로 간주된다.
(vii) 천이부분 상에 그 중심을 갖는 천이 부분은 후방 천이부분 및 전방 천이 부분으로부터 검출된다. 상기의 절차는 모든 천이 부분을 판별하기 위하여 모든 천이 점에 대해 실행된다.
(viii) 그후, 비결정 부분 결정 장치(86)는 천이부분 결정 장치(85) 및 정상부분 결정 장치(83)의 결정 출력을 참조한다. 정상 부분이나 천이 부분으로 결정되지 않을 세그먼트를 비결정 부분으로 결정한다. 제5a도에서, 두꺼운 실선으로 표시된 부분은 천이 부분이고, 가는 실선으로 표시된 부분은 정상 부분이고, 점선으로 표시된 부분은 비결정 부분이다.
상기 비결정 부분 결정 장치(86)의 결정 출력은 천이부분 결정장치(85) 및 정상부분 결정 장치(83)의 각각의 결정 출력과 함께 음소 경계 후보 형성 장치(9)에 제공된다. 음소 인식 장치(10)에 인가된 결정 장치(8)의 결정 출력에 포함된 데이터중에서, 음소 인식을 위하여 특히 정상 부분에 주목하게 되고, 정확한 음소 인식을 얻기 위하여 음소 인식에서 비결정 부분은 무시된다. 그 이유는 비결정 부분이 변화 요소이기 때문이다. 상기의 동작을 수행하기 위하여 컴퓨터가 사용된다. 제9도는 정상 부분, 천이부분 및 비결정 부분을 결정하기 위한 절차를 도시하는 흐름도이다.
음소 경계 후보 형성 장치(9)는 제6도를 참고로 설명된다.
상기 음성 후보 형성 장치(9)는 음소 경계 후보를 결정한다. 아래의 8개의 음소 경계 특성이 사용된다.
(1) 무음으로부터의 상승 (S-R)
(2) 자음 대 모음 천이 (C-V)
(3) 자음 대 자음 천이 (C-C)
(4) 모음 대 모음 천이 (V-V)
(5) 하강 대 모음 천이 (V-F)
(6) 모음 대 자음 천이 (V-C)
(7) 하강 대 무음 천이 (F-S)
(8) 음향 대 무음 천이 (S-S)
음소 경계 특성 정보 저장 장치(91)는 이들 8개의 음성 경계 특성 데이타를 저장한다. 음소 경계 후보 및 특성 판별 장치(93)는 음성 경계 특성 정보 저장 장치(91)로부터 페치(fetch)된 정보에 따라 음소 경계 후보의 음소 경계 특성을 판별한다. 제7도에 있어서, 음소 경계 특성 데이터는 심벌(S-R, C-C, C-V 등)에 의해 표시되어 진다. 또한, 제7도에 도시된 것은, 음소 경계와 제3도에 도시된 특성점 추출 장치(7)에 의해 추출된 특성점의 번호((1), (2),(3)…)를 구성하는 음향 파라미터이다. 각각의 음소 경계 특성은 다수의 음향 파라미터 및 특성점에 일치할 수 있다.
기준 우선권 정보 저장 장치(92)는 제8도에 도시한 바와 같이 음향 파라미터의 기준 우선권 정보를 저장하고, 우측 파라미터의 우선권은 좌측 파라미터보다 높다.
음소 경계 후보 및 특성 판별 장치(93)는 음소 경계 후보를 결정하기 위하여 파라미터의 특성점을 수집하고, 음소 경계 후보의 음소 경계 특성을 결정한다. 이 이유는 특성점 추출 장치(143)에 의해 얻어진 특성점은 파라미터에 대해 위치하지 않고 검출되지 않을 수 있기 때문이다.
이 동작에 있어서, 판별 장치(93)는 결정 장치(8)에 의해 제공된 천이 부분 결정 출력을 참조한다. 판별 장치(93)는 천이 부분 즉, 천이 검출 파라미터의 피크 특성점에서의 천이점을 제1음소 경계 후보로 간주하고, 음소 경계 후보를 결정하기 위하여 천이점 주변의 다른 음향 파라미터의 특성점을 시험한다. 이 동작에서, 판별 장치(93)는 저장 장치(92)에 의해 제공된 기준 우선권 정보에 대한 각 파라미터의 기준 우선권을 결정하고, 메모리 장치(91)에 의해 제공된 음소 경게 특성 정보에 대한 음소 경계 후보로 간주된 음향 파라미터의 특성점에 대응하는 음소 경계 특성을 판별한다.
따라서, 판별 장치(93)는 음소 경계 특성 (C-V, C-C, V-V, V-F, V-C 및 F-S)을 판별한다.
다른 특성 판별 장치(94)는, 판별 장치(93)에 의해 판별된 음소 경계 후보가아닌 천이점 전의 다른 특성점을 검색하기 위해, 결정 장치(8)에 의해 제공된 천이 부분 결정 출력을 참고한다. 임의의 특성점이 발견되는 경우, 특성 판별 장치(94)는 특성점을 사용하여 C-V 및 C-C의 음소 경계 특성을 판별한다. 판별 장치(94)는 다음의 경우를 취급한다.
예를들어, 양순음의 파열음 BA는 천이부분 사이에 정상부분을 거의 갖고 있지 않고, 2개의 천이 부분은 각각 서로 인접한다. 따라서 오직 하나의 특성점만이 검출된다. 그러므로, 천이점 이전에 원래 있어야만 하는 피크 특성점은 다른 파라미터의 특성점으로부터 검출된다. 일본어에 있어서 자음이 모음에 선행되고 모음의 피크는 자음의 피크보다 높기 때문에, 천이점 이후의 특성점은 검색되지 않는다.
당연히, 다른 언어는 검색될 특성점의 기대되는 위치에서 서로 다르다. 따라서, 특정 언어의 적합한 방법이 특성점을 검색하기 위해 적용된다.
소리/무음 판별 장치(95)는 결정 장치(8)의 정상 부분 결정 출력을 수신하고, 로그 출력 및 제로 교차율에 대한 특성점 정보로부터 음향의 정상 부분과 무음의 정상 부분 사이를 판별한다.
S-R/S-S 판별 장치(96)는 음향/무음 판별 장치(95)의 음향/무음 판별 출력과, 로그 출력 및 제로-교차율에 대한 특성점 정보를 수신하고, 무음으로부터 상승의 음소 경계 특성(S-R)과 음향으로부터 무음으로의 천이의 음소 경계 특성 (S-S) 사이를 판별한다.
판별 장치(93, 94)의 판별 결과는 음소 경계 후보 결정 장치(97)에 주어진다. 따라서, 음소 경계 후보 결정 장치(97)는 음소 경계 후보의 위치(프레임)와, 판별 장치 (93, 94, 96)에 의해 얻어진 음소 경계 특성을 음소 판별 장치(10)에 선택적으로 적용한다. 제5도에서 도시된 예의 음소 경계 후보 및 음성 경계 특성은 제5g도에 도시된 음성 파형 아래에 도시된다.
이 예에서, 천이부분 특징 출력 장치(98)는 음소 경계 후보 결정 장치(97)로 부터 음소 경계 특성과, 결정 장치(8)로부터 천이 부분 결정 출력을 수신한다. 그 후, 천이 부분 특성 출력 장치(98)는 음소 경계를 포함하는 천이부분의 음소 경계 특성을 음소 인식 장치(10)에 제공한다.
음소 인식 장치(10)는, 음향 분석 장치(5)에 의해 제공된 파라미터를 사용하고, 음소 경계 후보 형성 장치(9)에 의해 제공된 음소 세그먼트 정보를 참고함으로써, 음소 인식을 수행한다. 그 후, 상기 음소 인식 장치(10)는 음성 심벌을 결정하고, 음소 심벌을, 예컨대 도시하지는 않았지만 연속적인 음성 및 많은 어휘 음소의 인식 장치에 제공한다.
이 실시예의 하드웨어, 즉, 특성점 추출 장치(7), 천이 부분, 정상 부분 및 비결정 부분 결정 장치(8), 음소 경계 후보 형성 장치(9) 및 음향 분석 장치(5)의 동작 소자는 컴퓨터 소프트 웨어로 대체될 수 있다.
따라서, 본 발명에 따라, 음소 인식 장치는 음향 분석을 통해 얻어진 다수의 파라미터로부터 음소 경계가 될 것으로 기대되는 특성점을 추출하고, 다수의 파라미터의 특성점 데이타로부터 음소 세그먼트 후보를 결정한다. 따라서 보다 더 정확한 음성 세그먼트 정보가 쉽게 얻어질 수 있다. 더욱이, 음소 세그먼트 정보가 음소 세그먼트 후보의 특성을 포함하므로, 음소 인식은 쉽게 이루어질 수 있다.
또한, 본 발명에 따라, 음소 경계 후보는 입력 음성의 천이 부분에서 안정된 특성점이 되는 천이 검출 파라미터의 피크점을 토대로 결정되기 때문에, 잘못된 음소 경게 후보의 선택이 미연에 방지된다.
천이 검출 파라미터사이의 차이값이 계산되기 때문에, 천이 검출 파라미터를 임계값과의 단순한 비교를 통해 정상 부분과 천이부분을 결정하는 것 대신에, 정상부분은 천이 검출 파라미터 및 차이값을 기초로 결정되고, 천이부분은 차이값을 기초로 결정되어, 정상 부분과 천이부분의 정확한 결정이 이루어진다. 더욱이, 본 발명은 천이부분 및 정상부분중 어느 것도 아닌 세그먼트를 비결정 부분으로 간주하기 때문에, 음소 세그먼트 결정 및 음소 인식은 변동 요소인 비결정 부분과 비결정 부분 결정 출력을 제외한 세그먼트를 사용하여 이루어진다.
Claims (5)
- 음성 신호의 상태를 검출하기 위한 장치에 있어서, 입력 음성 신호를 수신하여 상기 입력 음성 신호를 분석하고 이의 음성 스펙트럼을 제공하기 위한 음향 분석 수단과, 상기 음향 분석 수단으로 부터 상기 음성 스펙트럼을 수신하여 천이 검출 파라미터를 유도하기 위한 수단과, 상기 천이 검출 파라미터를 수신하여 2개의 연속적인 천이 검출 파라미터 사이에서 차이값 발생을 위한 수단과, 상기 차이값을 수신하여 상기 입력 음성 신호의 정상부분 검출하기 위한 제1결정 수단(83)과, 상기 차이값을 수신하여 상기 입력 음성 신호의 천이 부분을 검출하기 위한 제2결정 수단(85)을 구비하는 것을 특징으로 하는 음성 신호 상태의 검출 장치.
- 제1항에 있어서, 상기 제1검출 수단 및 제2 검출 수단으로 부터 출력 신호를 수신하여, 상기 정상 부분이나 상기 천이 부분의 어느 것도 아닌 상기 입력 음성 신호의 비결정 부분을 검출하기 위한 제3 결정수단(86)을 추가로 포함하는 것을 특징으로 하는 음성 신호 상태의 검출 장치.
- 제1항에 있어서, 상기 천이 검출 파라미터의 피크를 검출하기 위한 피크 검출 수단을 추가로 포함하는 것을 특징으로 하는 음성 신호 상태의 검출 장치.
- 음성 신호 내의 음소의 경계를 인식하기 위한 장치에 있어서, 입력 음성 신호를 수신하여 상기 입력 음성 신호를 음향학적으로 분석하고 다수의 음향 파라미터를 생성하기 위한 제1수단(5)과, 상기 다수의 음향 파라미터를 수신하여 상기 음향 파라미터의 특성점을 검출하기 위한 제2수단(7)과, 상기 특성점에 기초하여, 음소 세그먼트 경계 후보를 생성 및 출력하고, 상기 음소 세그먼트 경계 후보의 각각에 대응하는 음소 경계 특성을 생성 및 출력하기 위한 제3수단(9)과, 상기 음소 경계 후보와 이에 대응하는 상기 음소 경계 특성 따라 상기 입력 음성 신호 내의 음소의 경계를 인식하기 위한 제4수단(10)을 포함하는 것을 특징으로 하는 음성 신호 내의 음소의 경계를 인식하기 위한 장치.
- 제4항에 있어서, 상기 다수의 음향 파라미터는 천이 검출 파라미터를 포함하고, 상기 제2수단은 상기 천이 검출 파라미터의 피크점을 상기 특성점의 하나로서 검출하고, 상기 제3수단은, 검출된 상기 피크점으로부터 소정의 기간 내에서만, 상기 음소 세그먼트 경계 후보와 이에 대응하는 음소 경계 특성을 생성 및 출력하는 것을 특징으로 하는 음성 신호 내의 음소 경계를 인식하기 위한 장치.
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62310569A JP2643202B2 (ja) | 1987-12-08 | 1987-12-08 | 入力音声の定常部、過渡部、不確定部の検出装置 |
JP310569 | 1987-12-08 | ||
JP32330787A JPH01165000A (ja) | 1987-12-21 | 1987-12-21 | 音韻区間情報形成装置 |
JP323307 | 1987-12-21 | ||
JP331656 | 1987-12-25 | ||
JP62331656A JPH01170998A (ja) | 1987-12-25 | 1987-12-25 | 音韻区間情報形成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR890010791A KR890010791A (ko) | 1989-08-10 |
KR0136608B1 true KR0136608B1 (ko) | 1998-11-16 |
Family
ID=27339113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019880016203A KR0136608B1 (ko) | 1987-12-08 | 1988-12-06 | 음성신호 검색용 음성인식 장치 |
Country Status (5)
Country | Link |
---|---|
KR (1) | KR0136608B1 (ko) |
AU (1) | AU612737B2 (ko) |
DE (1) | DE3841376A1 (ko) |
FR (1) | FR2624297B1 (ko) |
GB (1) | GB2213623B (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0538536A1 (en) * | 1991-10-25 | 1993-04-28 | International Business Machines Corporation | Method for detecting voice presence on a communication line |
DK46493D0 (da) * | 1993-04-22 | 1993-04-22 | Frank Uldall Leonhard | Metode for signalbehandling til bestemmelse af transientforhold i auditive signaler |
DE69922059D1 (de) * | 1998-03-13 | 2004-12-23 | Frank Uldall Leonhard | Signalverarbeitungsverfahren zur Analyse von Sprachsignal-Transienten |
DE10317502A1 (de) * | 2003-04-16 | 2004-11-18 | Daimlerchrysler Ag | Verfahren zur Analyse eines Schallsignals |
IT1403658B1 (it) * | 2011-01-28 | 2013-10-31 | Universal Multimedia Access S R L | Procedimento e mezzi per scandire e/o sincronizzare eventi audio/video |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5782896A (en) * | 1980-11-12 | 1982-05-24 | Hitachi Ltd | Continuous voice recognition system |
-
1988
- 1988-12-06 AU AU26617/88A patent/AU612737B2/en not_active Ceased
- 1988-12-06 KR KR1019880016203A patent/KR0136608B1/ko not_active IP Right Cessation
- 1988-12-07 GB GB8828532A patent/GB2213623B/en not_active Expired - Lifetime
- 1988-12-08 DE DE3841376A patent/DE3841376A1/de not_active Withdrawn
- 1988-12-08 FR FR888816163A patent/FR2624297B1/fr not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE3841376A1 (de) | 1989-06-22 |
GB8828532D0 (en) | 1989-01-11 |
FR2624297B1 (fr) | 1992-01-24 |
GB2213623A (en) | 1989-08-16 |
AU2661788A (en) | 1989-06-22 |
AU612737B2 (en) | 1991-07-18 |
GB2213623B (en) | 1991-07-24 |
KR890010791A (ko) | 1989-08-10 |
FR2624297A1 (fr) | 1989-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3162994B2 (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
US5692104A (en) | Method and apparatus for detecting end points of speech activity | |
KR950013551B1 (ko) | 잡음신호예측장치 | |
EP1083542B1 (en) | A method and apparatus for speech detection | |
US5596680A (en) | Method and apparatus for detecting speech activity using cepstrum vectors | |
EP0237934B1 (en) | Speech recognition system | |
US8175868B2 (en) | Voice judging system, voice judging method and program for voice judgment | |
Niyogi et al. | Detecting stop consonants in continuous speech | |
JPH0990974A (ja) | 信号処理方法 | |
KR0136608B1 (ko) | 음성신호 검색용 음성인식 장치 | |
KR100391123B1 (ko) | 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 | |
Sangeetha et al. | Robust automatic continuous speech segmentation for indian languages to improve speech to speech translation | |
JP4890792B2 (ja) | 音声認識方法 | |
JP2001083978A (ja) | 音声認識装置 | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
JP3049711B2 (ja) | 音声処理装置 | |
JP3032215B2 (ja) | 有音検出装置及びその方法 | |
KR100345402B1 (ko) | 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법 | |
KR19980037190A (ko) | 유성음 구간에서 프레임별 피치 검출 방법 | |
JPH1097269A (ja) | 音声検出装置及び方法 | |
JP3008404B2 (ja) | 音声認識装置 | |
KR960007132B1 (ko) | 음성인식장치 및 그 방법 | |
JPH01170998A (ja) | 音韻区間情報形成装置 | |
JPH01165000A (ja) | 音韻区間情報形成装置 | |
JP4328262B2 (ja) | 発話速度測定方法、発話速度測定プログラムおよびこれを格納した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20011219 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |