KR0185755B1 - 신경회로망을 이용한 음성인식 시스템 - Google Patents
신경회로망을 이용한 음성인식 시스템 Download PDFInfo
- Publication number
- KR0185755B1 KR0185755B1 KR1019940001995A KR19940001995A KR0185755B1 KR 0185755 B1 KR0185755 B1 KR 0185755B1 KR 1019940001995 A KR1019940001995 A KR 1019940001995A KR 19940001995 A KR19940001995 A KR 19940001995A KR 0185755 B1 KR0185755 B1 KR 0185755B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- data
- input
- storage means
- recognition system
- Prior art date
Links
- 230000001537 neural effect Effects 0.000 title 1
- 238000013528 artificial neural network Methods 0.000 abstract description 14
- 239000010410 layer Substances 0.000 description 46
- 230000015654 memory Effects 0.000 description 23
- 210000002569 neuron Anatomy 0.000 description 14
- 238000000034 method Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
본 발명은 신경회로망을 이용한 음성 인식시스템을 공개한다. 그 시스템은 음성을 입력하기 위한 음성입력수단, 상기 음성입력수단으로부터 입력된 음성을 분석하기 위한 음성 분석수단, 상기 음성분석된 결과를 입력하기 위한 입력수단, 음성인식 결과를 출력하기 위한 음성출력수단, 데이터의 리드와 라이트를 제어하기 위한 제어수단을 구비하는 음성인식시스템에 있어서, 상기 제어수단에 의하여 제어되고, 상기 음성 입력수단을 통한 상기 음성 분석 결과 데이터를 저장하기 위한 제1저장수단; 상기 제어수단에 의하여 제어되고, 학습된 가중치 데이터가 저장되어 있는 제2저장수단; 및 상기 제어수단에 의하여 제어되고, 상기 제1저장수단에 저장된 결과를 저장된 프로그램에 의해서 정규화하고 이진화하며, 상기 제1저장수단에 저장한 후, 상기 제1저장수단의 이진화된 데이터를 입력하고 상기 제2저장수단에 저장된 가중치 데이터를 입력하여 학습을 수행하여 최종적인 음성인식 결과를 상기 음성출력수단으로 출력하기 위한 제3저장수단을 포함하는 것을 특징으로 한다. 따라서, 컴퓨터를 사용하지 않고 간단하게 음성인식 시스템을 구성할 수 있다.
Description
제1도는 본 발명의 음성인식 시스템에 사용될 신경회로망의 모델을 나타내는 도.
제2도는 일반적인 음성인식 시스템의 블럭도.
제3도는 본 발명의 음성인식 시스템의 블럭도.
제4도는 본 발명의 음성인식 시스템에 사용되는 메모리의 메모리 맵을 나타내는 것 도.
제5도는 음성분석 데이터의 추출과정을 나타내는 것.
제6도는 본 발명의 음성인식 과정을 나타내는 흐름도.
제7도는 본 발명에 사용된 실시예의 음성합성 시스템의 블록도.
본 발명은 음성인식 시스템에 관한 것으로, 특히 신경회로망을 이용한 음성인식 시스템에 관한 것이다.
대화형 장난감은 음성을 인식하기 위한 음성인식 시스템과 인식된 음성을 합성하기 위한 음성합성 시스템으로 이루어지게 된다. 그런데, 음성합성 시스템은 일반적으로 사용되는 방법을 이용하여 인식된 음성을 쉽게 합성할 수 있다. 그러나, 음성인식 시스템은 일반적으로 사람들의 음성의 특징을 추출하여 음성의 인식을 수행하게 되지만 모든 사람들의 음성을 정화하게 인식하기가 여전히 어려운 문제이다. 인식에서의 이러한 문제를 해결할 수 있는 것이 바로 신경회로망이다.
본 발명의 발명자에 의해서 기출원된 입력구동 다층신경회로망(IDMLP; Input Driven Multi-Layer Perceptron)은 입력에서의 모든 뉴련들이 출력층과 마찬가지로 완전하게 모든 은닉층의 신경망들에 연결되는 것을 제외하고는 다층 신경망(MLP; Multi-Layer Perceptron)의 구성과 동일하다.
본 발명의 목적은 입력구동 다층신경회로망을 이용한 대화형 장난감을 제공하는데 있다.
이와 같은 목적을 달성하기 위한 본 발명의 신경회로망을 이용한 음성인식 시스템은 음성을 입력하기 위한 음성입력수단, 사익 음성입력수단으로부터 입력된 음성을 분석하기 위한 음성 분석수단, 상기 음성분석된 결과를 입력하기 위한 입력수단, 음성인식 결과를 출력하기 위한 음성출력수단, 데이터의 리드와 라이트를 제어하기 위한 제어수단을 구비하는 음성인식시스템에 있어서, 상기 제어수단에 의하여 제어되고, 상기 음성 입력수단을 통한 상기 음성 분석 결과 데이터를 저장하기 위한 제1저장수단; 상기 제어수단에 의하여 제어되고, 학습된 가중치 데이터가 저장되어 있는 제2저장수단; 및 상기 제어수단에 의하여 제어되고, 상기 제1저장수단에 저장된 결과를 저장된 프로그램에 의해서 정규화하고 이진화하며, 상기 제1저장수단에 저장한 후, 상기 제1저장수단의 이진화된 데이터를 입력하고 상기 제2저장수단에 저장된 가중치 데이터를 입력하여 학습을 수행하여 최종적인 음성인식 결과를 상기 음성출력수단으로 출력하기 위한 제3저장수단을 포함하는 것을 특징으로 한다.
첨부된 도면을 참고로 하여 본 발명의 대화형 장난감을 설명하기 전에 음성인식 시스템을 위하여 사용될 다층신경회로망을 설명하면 다음과 같다.
제1도는 본 발명의 음성인식 시스템에 사용될 입력구동 다층 신경회로망의 모델을 나타내는 것이다.
제1도에 있어서, 데이터를 입력하기 위한 입력층(1), 상기 입력층(1)으로부터의 신호와 이전층의 출력신호를 입력하여 학습을 수행하는 은닉층(2), 및 입력층(1)으로부터의 신호와 은닉층(2)의 출력신호를 입력하여 학습을 수행하고 최종적인 결과를 출력하기 위한 출력층(3)으로 구성되어 있다.
먼저, 주어진 2진 훈련 패턴에 대하여, 은닉층의 수는 미리 정의되지 않는다. 마치 은닉층이 요구되지 않는 것처럼 단지 입력과 출력만을 가지고 시작한다. 만일 은닉층이 없이 주어진 패턴들을 분류하는 것이 불가능한 것이 발견되면, 출력층의 수와 같은 뉴런들의 수를 가지는 층이 출력층의 위에 발생한다. 그런데, 이전 출력층은 제1은닉층이 된다. 출력층에서의 뉴런들은 완전하게 출력층내의 뉴런들에 연결된다. 부가적인 층에도 불구하고, 만일 학습주기 후에(또는, 소정의 반복회수 후에)망이 주어진 패턴들을 분류하지 못한다면, 또 다른 층이 이전 망의 위에 더해진다. 이때, 망은 두 개의 은닉층을 가진다. 이전망의 출력층은 제2은닉층이 된다. 분명하게, 제2은닉층은 제1은닉층과 동일한 수의 뉴런을 가진다. 이것은 출력들의 수와 동일하다. 그러나, 새롭게 더해진 층 내에서 뉴런들은 완전하게 제2은닉층과 입력층내의 모든 뉴런들에 연결된다. 그렇지 않고, 만일 은닉층의 망과 패턴을 분류하는 것이 불가능하다는 것이 발견된다면, 동일한 방법으로 제3은닉층을 발생한다. 제3은닉층내의 뉴런들은 유사하게 제2은닉층과 입력층내의 뉴런들에 연결된다. 이 과정은 모든 훈련 패턴들이 정확하게 분류될 때까지 계속한다.
상기 다층신경회로망의 학습과정을 설명하면 다음과 같다.
1. 단일층 내에서 모든 가중치를 작은값으로 초기화한다.
2. 망에 훈련 패턴을 제시한다. 출력층의 뉴런으로부터 출력을 얻고 제시된 훈련패턴에 대하여 실제적인 출력과 원하는 출력을 비교함에 의해서 에러값을 얻는다. 이것은 다음식에 의해서 얻어질 수 있다.
여기에서, Wij는 k번째 위상에서 출력층의 j번째 뉴런과 입력층의 I번째 뉴런사이의 연결가중치이다. Tij는 k번째 위상에서 출력층의 j번째 뉴런과 이전층의 I번째 뉴런사이의 연결가중치이다. Xj는 j번째 입력이고 Yj는 이전층으로부터의 출력이다. 모든 j에 대하여 Yj1은 0이다.
3a. 만일 모든 errori이 0이라면, 단계2부터 수행한다.
3b. 만일 errori가 0이 아니고 OUTi가 0이면, 가중치를 1씩 증가한다. 만일 errori가 0이 아니고 OUTi가 1이면 가중치를 1씩 감소한다. 가중치는 즉시 변경되지 않으나 저장한다.
4. 마지막 훈련 패턴이 망에 제시될 때까지 단계2부터 수행한다.
5a. 만일, 모든 훈련패턴에 대하여 errori이 0이면, 학습을 중단한다.
5b. 반복 후에 에러값이 0이 아니면, 아래의 식에 따라 단계3에서 저장된 가중치로 수정하라. 만일 반복 횟수가 어떤값보다 크다면, 망 위의 또 다른 층을 덧붙이고 단계2부터 수행한다.
이 학습 과정에서 외부의 파라메타는 하나의 뉴런에 모든 연결 가중치의 대수적인 합에 대한 상한값이다. WSUM과 반복수는 다른 층을 더하기 전에 허락된다. 만일 훈련된 망이 소프트웨어로 사용된다면, WSUM은 특정화되지 않는다.
제2도는 일반적인 음성인식 시스템의 블럭도이다.
제2도에 있어서, 음성인식 시스템은 인간의 불협화음에 의해서 발생되는 공기압 변화를 전기적인 신호로 변환하는 변환기(10), 상기 변환기(10)에 의해서 발생되는 여러 가지 전기적인 신호로부터 필요한 특징을 추출하는 전처리수단(20), 상기 필요한 특징에 따라 음성을 분류하는 분류수단(30)으로 이루어진다. 여기에서 변환기(10)의 종류로는 콘덴서 마이크로폰, 동적 마이크로폰 등이 있다.
전기적인 신호로 변환된 음성을 디지털 값으로 나타내는 방법은 신호파형을 디지털 값으로 나타내는 파형 코딩방법과 신호의 특성을 파라메타로 나타내는 파라메트릭 표현방법으로 이루어진다. 후자는 주로 음성인식에서 사용되고 음성인식의 특징에 의해서 필터 뱅크출력이 주로 사용된다.
음성을 인식하는데 대부분의 시간을 요구하는 전처리과정은 하드웨어에 의해서 형성되고 그래서 실시간 음성인식 시스템을 구성한다.
그래서 7채널 대역 필터의 출력을 하드웨어로 얻어지고 그래서, 요구되는 시간은 실시간 음성인식 시스템에 사용될 수 있도록 하기 위하여 감소된다. 아래의 표는 필터뱅크 출력의 7대역 필터의 주파수 특성을 나타내는 것이다.
제3도는 본 발명의 신경회로망을 이용한 음성인식 시스템의 블록도이다.
제3도에 있어서, 음성인식 시스템은 제어수단(100), 디코더(101,102), 제1메모리(103), 제2메모리(104), 제3메모리(105), OR게이트들(106,107), 버퍼(108), 타이밍 제어수단(109), 음성입력수단(110), 음성출력수단(111), 클럭 발생수단(112), 및 리세트 회로(113)로 구성되어 있다.
상기 구성의 동작을 설명하면 다음과 같다.
음성입력수단(110)을 통하여 7대역 필터 주파수에 의해서 음성분석된 결과를 버퍼(108)와 데이터 버스를 통하여 제3메모리(105)에 저장된다. 저장된 데이터는 제1메모리(103)에 저장된 프로그램에 의해서 시간축 정규화되고 이진화된다. 이진화된 데이터는 데이터 버스를 통하여 제3메모리(105)에 저장된다. 또한, 제1메모리(103)는 상기 이진화된 데이터를 입력데이타로 하고 입력데이타에 대응하는 가중치 데이터가 저장된 제2메모리(104)로부터 가중치 데이터를 입력하여 인식과정을 수행하고 난 후 인식된 결과 데이터를 출력한다. 인식결과 데이터는 데이터 버스와 버퍼(108)를 통하여 음성합성수단에 연결되는 음성출력수단(111)을 통하여 출력된다. 음성출력수단(111)은 음성 인식시스템에 결합되어야 할 필요는 없고 음성 합성수단에 결합되어도 상관없다. OR게이트들(106, 107)은 버퍼(108)와 제1, 제2 제3메모리(103, 104, 105)와 타이밍 제어수단(109)의 리드와 라이트를 제어하게 된다. 디코더(101)는 제 1, 제2, 제3메모리(103, 104, 105)를 선택하기 위한 인에이블 신호를 발생하고 디코더(102)는 타이밍 제어수단(109), 음성 입,출력수단(110, 111)을 선택하기 위한 인에이블 신호를 발생한다. 타이밍 제어수단(109)은 각 부의 동작 타이밍을 제어한다. 제어수단(100)의 어드레스 신호(A13-A15)는 디코더(101)의 입력으로 사용되고 어드레스 신호(A2-A4, A7)는 디코더(102)의 입력으로 사용된다. 그리고 리드, 라이트신호(/RD, /WR)와 입, 출력 요청신호(/IORQ)는 OR게이트들(106, 107)의 입력으로 사용된다. 그래서 제어수단(100)은 각 부를 제어하게 된다.
제4도는 제3도에 나타낸 제1, 제2, 제3메모리들의 메모리 맵을 나타내는 것이다.
제4도에 있어서, 메모리 어드레스(0000H - 1FFFH)는 제1메모리 영역으로 모니터 프로그램이 저장되어 있고, 메모리 어드레스(2000H - 3FFFH)는 가중치 데이터가 저장되어 있고, 메모리 어드레스(4000H - 5FFFH)는 일시적인 순시 데이터가 저장된 영역으로 어드레스(4000H - 4FFFH)는 이진화된 데이터가 저장되는 영역이고 어드레스(5000H - 5FFFH)에는 분석된 데이터가 입력되는 영역이다.
제5도는 본 발명의 음성 분석데이타를 추출하는 과정을 나타내는 것이다.
마이크로폰을 통하여 음성을 입력한다(제200단계). 시스템을 초기화한다(제201단계). 채널 데이터를 설정한다(제202단계). 음성 입력수단이 인에이블 되었는가를 판단한다(제203단계). 음성입력수단이 인에이블 되었으면, 음성 분석결과를 출력하고 상기 제202단계로 진행한다(제204단계).
제6도는 본 발명의 음성인식 시스템의 음성인식 과정을 나타내는 동작 흐름도이다.
음성 분석 데이터를 임력한다(제300단계). 데이터를 제3메모리(105)에 저장한다(제301단계). 음성 구간을 검출한다(제302단계). 제1메모리(103) 저장된 프로그램에 의해서 시간축 정규화를 수행한다(제303단계). 그리고, 제1메모리(103)에 저장된 프로그램에 의해서 이진화를 수행한다(제304단계). 이진화된 결과와 제2메모리(104)에 저장된 가중치 데이터를 입력하여 제1메모리(103)의 다층 신경회로망에 의해 학습된 결과에 따라서 음성을 인식한다(제305단계). 음성인식 결과를 출력한다(제306단계).
제7도는 본 발명의 실시예의 음성합성 시스템의 블록도이다.
제7도에 있어서, 음성합성 시스템은 Z80시스템(400), 음성 합성기(401), 저역 통과 필터(402), 파워 증폭기(403), 및 스피커(404)로 구성되어 있다.
음성합성 시스템은 제7도에 나타낸 것과 같은 시스템을 사용하지 않고 일반적인 음성합성 시스템을 사용하여도 상관없다.
따라서, 본 발명의 음성인식 시스템은 대화형 장난감의 음성인식을 위하여 사용될 수 있다.
즉, 제3도에 나타낸 것과 같은 시스템을 채용하면 모든 음성의 인신이 가능하게 된다.
본 발명의 음성 인식 시스템은 컴퓨터를 사용하지 않으므로 시스템이 작아지게 되고, 신경회로망을 사용함으로써 정확한 음성인식이 가능하다.
Claims (1)
- 음성을 입력하기 위한 음성입력수단, 상기 음성입력수단으로부터 입력된 음성을 분석하기 위한 음성 분석수단, 상기 음성분석된 결과를 입력하기 위한 입력수단, 음성인식 결과를 출력하기 위한 음성출력수단, 데이터의 리드와 라이트를 제어하기 위한 제어수단을 구비하는 음성인식시스템에 있어서, 상기 제어수단에 의하여 제어되고, 상기 음성 입력수단을 통한 상기 음성 분석 결과 데이터를 저장하기 위한 제1저장수단; 상기 제어수단에 의하여 제어되고, 학습된 가중치 데이터가 저장되어 있는 제2저장수단; 및 상기 제어수단에 의하여 제어되고, 상기 제1저장수단에 저장된 결과를 저장된 프로그램에 의해서 정규화하고 이진화하며, 상기 제1저장수단에 저장한 후, 상기 제1저장수단의 이진화된 데이터를 입력하고 상기 제2저장수단에 저장된 가중치 데이터를 입력하여 학습을 수행하여 최종적인 음성인식 결과를 상기 음성출력수단으로 출력하기 위한 제3저장수단을 포함하는 것을 특징으로 하는 음성인식 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019940001995A KR0185755B1 (ko) | 1994-02-03 | 1994-02-03 | 신경회로망을 이용한 음성인식 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019940001995A KR0185755B1 (ko) | 1994-02-03 | 1994-02-03 | 신경회로망을 이용한 음성인식 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR950025560A KR950025560A (ko) | 1995-09-18 |
KR0185755B1 true KR0185755B1 (ko) | 1999-05-15 |
Family
ID=19376731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019940001995A KR0185755B1 (ko) | 1994-02-03 | 1994-02-03 | 신경회로망을 이용한 음성인식 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR0185755B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100322202B1 (ko) * | 1999-09-06 | 2002-02-06 | 윤장진 | 신경망을 이용한 음성인식장치 및 그 방법 |
-
1994
- 1994-02-03 KR KR1019940001995A patent/KR0185755B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100322202B1 (ko) * | 1999-09-06 | 2002-02-06 | 윤장진 | 신경망을 이용한 음성인식장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR950025560A (ko) | 1995-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN111201565A (zh) | 用于声对声转换的系统和方法 | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
CN112183107B (zh) | 音频的处理方法和装置 | |
KR0173923B1 (ko) | 다층구조 신경망을 이용한 음소 분할 방법 | |
RU2193797C2 (ru) | Устройство ассоциативной памяти (варианты) и способ распознавания образов (варианты) | |
JPH07104952B2 (ja) | パターンマッチング装置 | |
JPH06161496A (ja) | 家電製品のリモコン命令語を認識するための音声認識システム | |
JP3014177B2 (ja) | 話者適応音声認識装置 | |
CN117373431A (zh) | 音频合成方法、训练方法、装置、设备及存储介质 | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
US5751898A (en) | Speech recognition method and apparatus for use therein | |
KR0185755B1 (ko) | 신경회로망을 이용한 음성인식 시스템 | |
Shome et al. | Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges | |
US5440661A (en) | Time series association learning | |
Zegers | Speech recognition using neural networks | |
KR102159988B1 (ko) | 음성 몽타주 생성 방법 및 시스템 | |
JPH02304493A (ja) | 音声合成システム | |
KR0185758B1 (ko) | 음성인식 시스템 | |
Francisco Carlos et al. | An analysis of visual speech features for recognition of non-articulatory sounds using machine learning | |
JPH01241667A (ja) | 学習機構を有するダイナミック・ニユーラル・ネットワーク | |
Islam et al. | Hybrid feature and decision fusion based audio-visual speaker identification in challenging environment | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |