KR20010106903A - 음성 발생 원리를 이용한 음성 언어 파서 - Google Patents
음성 발생 원리를 이용한 음성 언어 파서 Download PDFInfo
- Publication number
- KR20010106903A KR20010106903A KR1020000027955A KR20000027955A KR20010106903A KR 20010106903 A KR20010106903 A KR 20010106903A KR 1020000027955 A KR1020000027955 A KR 1020000027955A KR 20000027955 A KR20000027955 A KR 20000027955A KR 20010106903 A KR20010106903 A KR 20010106903A
- Authority
- KR
- South Korea
- Prior art keywords
- language
- speech
- sentence
- parser
- generation
- Prior art date
Links
- 230000007246 mechanism Effects 0.000 claims abstract description 45
- 230000002787 reinforcement Effects 0.000 claims abstract description 40
- 230000007787 long-term memory Effects 0.000 claims abstract description 16
- 230000006403 short-term memory Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 abstract description 9
- 230000006399 behavior Effects 0.000 description 20
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000007774 longterm Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000270708 Testudinidae Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 음성 언어를 음절 단위로 표기한 입력 데이터로부터 형태소 분류를 인간과 흡사한 방식으로 수행하며 음성 언어의 문법을 자동 학습하는 음성 발생 원리를 이용한 음성 언어 파서에 관한 것이다. 본 발명은 음성 언어 파서에 있어서: 상기 음성 언어 파서가 학습에 의하여 획득한 문법과 어휘집을 저장하는 장기 기억부; 상기 장기 기억부에 저장되어 있는 어휘집과 문법을 이용하여 문장 또는 문장의 일부분을 생성하는 언어 생성 기제부; 상기 언어 생성 기제부가 생성한 문장들과 상기 음성 언어 파서로 입력되는 문장을 비교하여 상기 입력 문장과 발음상 가장 흡사하다고 판정된 하나의 생성 문장을 선택하고 강화 신호를 발생시키는 언어 인식 기제부; 상기 언어 인식 기제부가 발생시킨 강화 신호를 상기 언어 생성 기제부에 제공하여 상기 언어 생성 기제부가 내부의 강화 학습에 이용되는 가중치 값을 바꾸도록 하는 언어 학습 기제부; 상기 언어 인식 기제부가 선택한 생성 문장을 저장하고 이를 상기 언어 생성 기제부로 보고하는 단기 기억부로 구성된다.
Description
본 발명은 음성 발생 원리를 이용한 음성 언어 파서에 관한 것으로, 보다 상세하게는 음성 언어를 음절 단위로 표기한 입력 데이터로부터 형태소 분류를 인간과 흡사한 방식으로 수행하며 음성 언어의 문법을 자동 학습하는 음성 언어 파서에 관한 것이다.
종래 기술들을 대별하면 HMM(Hidden Markov Model, 은닉 마콥 모델) 방식, 신경망 방식, 통합 기반 문법(Unification Based Grammar) 방식 등이 있다.
상기 HMM은 확률 통계 방식 중의 하나로서 어떤 미지의 시스템에서 발생한 데이터를 통하여 미지의 시스템의 내부 구조를 알아내는 방법이다. 이때 미지의 시스템이 은닉 마콥 모델이라고 가정하고서 동작하는데, 은닉 마콥 모델이란 시스템의 내부에 관측 불가능한 마콥 프로세스가 존재하고 그 외부에 관측 가능한 마콥 프로세스가 존재한다는 의미이다. 즉 이중 마콥 모델이면서 내부의 모델은 관측 불가능하고 외부의 모델은 관측 가능하다고 가정하는 것이다.
HMM을 기반으로 하는 통계적 파서들은 주로 트라이그램(tri-gram)을 이용하는데, 이것의 문제는 대용량 어휘를 구현할 때 탐색 공간(search space)이 급격히 증가하여 실시간 처리가 불가능해진다는 것이다. 또한 근본적으로 마콥 프로세스를 전제하므로 언어 생성 과정에서 나타나는 순행 동화 현상이나 역행 동화 현상 등의 다양한 변화들을 포용하기 어렵고 어휘 확장이나 문법 수정을 하기에 유연성(flexibility)이 부족하다는 단점이 있다.
신경망 기반의 파서들은 학습 능력과 일반화 능력이 있지만 대용향 어휘를구현하기 어렵고 통계적 빈도수가 적은 문장과 관례적으로 쓰이는 예외적 표현들을 학습하기 어렵다는 단점이 있다.
통합 기반 문법을 기반으로 하는 파서들은 문어체의 자연어 파싱에는 적절하나 음성 언어의 불완전성에 의하여 급격한 성능 저하가 나타나며 전자 사전(electronic dictionary) 구축과 예외 처리에 인간의 수작업이 대량 필요하다는 단점이 있다.
음성 인식의 가장 큰 문제는 잡음 하에서 발생된 음성 언어의 불완전성이다. 완전한 형태의 어휘와 문장 구조를 요구하는 기존의 파싱 기법으로는 이러한 실세계의 문제를 다루는 데에 한계가 있다.
본 발명은 상기 문제점을 해결하기 위하여 안출된 것으로서, 실세계의 잡음 하에서 발생된 음성 언어를 음절 단위로 표기한 입력 데이터로부터 45 개의 형태소 분류를 인간과 흡사한 방식으로 수행하며 음성 언어의 문법을 자동 학습할 수 있는 음성 발생 원리를 이용한 음성 언어 파서를 제공하는 데 그 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명은, 음성 언어 파서에 있어서: 상기 음성 언어 파서가 학습에 의하여 획득한 문법과 어휘집을 저장하는 장기 기억부; 상기 장기 기억부에 저장되어 있는 어휘집과 문법을 이용하여 문장 또는 문장의 일부분을 생성하는 언어 생성 기제부; 상기 언어 생성 기제부가 생성한 문장들과 상기 음성 언어 파서로 입력되는 문장을 비교하여 상기 입력 문장과 발음상 가장 흡사하다고 판정된 하나의 생성 문장을 선택하고 강화 신호를 발생시키는 언어 인식기제부; 상기 언어 인식 기제부가 발생시킨 강화 신호를 상기 언어 생성 기제부에 제공하여 상기 언어 생성 기제부가 내부의 강화 학습에 이용되는 가중치 값을 바꾸도록 하는 언어 학습 기제부; 상기 언어 인식 기제부가 선택한 생성 문장을 저장하고 이를 상기 언어 생성 기제부로 출력하는 단기 기억부를 포함하는 것을 특징으로 한다.
도 1은 본 발명에 따른 음성 발생 원리를 이용한 음성 언어 파서의 일 실시 예를 나타낸 블록도,
도 2는 도 1에 도시된 언어 생성 기제부의 일 실시 예를 나타낸 블록도,
도 3은 도 1에 도시된 음성 발생 원리를 이용한 음성 언어 파서가 인식 동작을 하는 시점을 나타낸 블록도,
도 4는 도 1에 도시된 음성 발생 원리를 이용한 음성 언어 파서가 학습 동작을 하는 시점을 나타낸 블록도,
도 5는 종래의 기술과 본 발명의 기술을 비교한 표를 나타낸 도면.
<도면의 주요부분에 대한 부호의 설명>
2 : 장기 기억부 4 : 언어 생성 기제부
6 : 단기 기억부 8 : 비교기
12 : 문맥 생성기 14 : 어휘 발생기
16 : 임시 기억부 18 : 선택기
본 발명에서는 실세계의 잡음 하에서 발생된 음성 언어를 음절 단위로 표기한 입력 데이터로부터 45 개의 형태소 분류를 인간과 흡사한 방식으로 수행하며 음성 언어의 문법을 자동 학습할 수 있는 음성 언어 파서를 개발하였으며, 형태소 단위 품사 태깅 시스템에 적용하여 그 우수함을 증명하였다.
본 발명의 핵심적인 아이디어는 인간의 음성발생 및 인식의 구조와 흡사한 유한 상태 기계들의 동적 시스템으로서 파서를 설계했다는 것이다. 형태소 분류를 계층적으로 처리하기 위하여 음성 생성 모델은 내부적으로 계층적인 구조로 설계하였으며 생성의 최종 결과만을 이용하는 반복적인 생성을 통하여 생성 습성과 어휘 발생 습성을 수정할 수 있도록 강화 학습을 적용하였다.
상기 어휘 발생 습성은 생성기의 내부에는 문맥 생성기와 어휘 발생기가 있는데, 문맥 생성기의 내부에는 문맥 생성 습성이 있으며 어휘 발생기의 내부에는 어휘 발생 습성이 있다.
상기 생성 습성은 생성기의 습성으로, 생성기는 자신의 습성이 있어서 어떤 습관화가 일어나서 출력 데이터를 만들게 된다. 보다 구체적으로 말하면 본 발명에서의 언어 생성기는 확률적 생성기로서 그 내부에 확률 가중치(stochastic weights)들이 있으며 최초의 상태에서는 이 가중치들이 모두 임의의 값으로 되어 있어서 생성되는 출력 데이터들이 임의의 출력이지만, 강화학습에 의하여 가중치들이 조절되게 되면 문맥에 맞는 출력 데이터들을 주로 발생시키게 되는 것이다.
상기 강화 학습은 크게 두 가지로 나눌 수 있는데, 하나는 교사 학습(supervised learning)이고 다른 하나는 비교사 학습(unsupervised learning)이다. 강화 학습은 최근 연구에 의해 생겨난 새로운 이론으로서 그동안 주로 제어 분야에서 활용되어 왔다. 본 발명에서는 이러한 강화 학습을 음성 언어 파서 분야에 적용한 것이다. 강화 학습은 동물 학습 이론에 기반하여 시스템이 일단 어떤 동작들을 수행하게 되고 그 동작의 결과 환경으로부터 발생하는 강화 신호(개를 훈련할 때 잘 했을 때는 먹이를 줌으로써 다음에도 그런 행동을 하도록 강화시키고, 잘못했을 때는 몽둥이로 때려서 앞으로 그런 행동을 하지 않도록 한다. 이때 먹이와 몽둥이가 강화 신호이다.)
상기 강화 신호는 강화 학습에 사용되는 신호로서 위에서 설명한 바와 같이 개의 학습에 있어서 먹이와 몽둥이에 해당하는 것이다. 먹이는 보상 신호(reward signal)라고 부르고 몽둥이는 벌점 신호(penalty signal)이다. 본 발명에서는 벌점 신호는 전혀 사용하지 않고 보상 신호만 사용하여 음성 언어 파서가 좋은 행동을 하였을 때 그 행동을 강화시키는 방식으로 학습을 시킨다.
분야 일반 대용량 연속 음성 인식의 실현을 위해서는 단순히 신호 처리 수준에서의 음성 처리 외에도 상위 계층의 언어 정보와 의미 정보가 하위 계층으로 전달되어야만 한다. 이를 위하여 음성 언어의 특수성을 반영한 음성 언어 파서를 개발이 시급하다. 음성 언어 파서의 학습 기제로 강화 학습을 적용할 때 얻게되는 가장 큰 장점은 초기 학습 후의 언어 모델은 실시간 학습을 통하여 태깅이 없는 문장들만으로 학습이 가능하다는 것이다. 음성 언어 파서는 생성 기제에 의해 발생한 의사 음성과 관측 음성의 비교에 의한 강화 신호만으로 실시간 학습이 가능하다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예의 동작을 상세하게 설명한다.
도 1은 본 발명에 따른 음성 발생 원리를 이용한 음성 언어 파서의 일 실시 예를 나타낸 블록도로, 장기 기억부(2), 언어 생성 기제부(4), 단기 기억부(6), 및 비교기(8)로 구성된다.
동 도면에 있어서, 음성 언어 파서는 음성 언어 생성, 음성 언어 인식, 및 음성 언어 학습의 3 가지로 이루어진다고 볼 수 있다.
장기 기억부(2)는 음성 언어 파서가 기억하는 문법과 어휘집을 저장한다. 문법이란 각각의 형태소들 간의 관계 정보를 말하며 어휘집은 형태소들의 집합이다. 여기서 형태소란 한국어를 구성하는 의미 있는 최소 단위로서 더 이상 쪼갤 수 없는 의미소를 의미한다. 예로, '간다'라는 말을 형태소들로 분리하면 '가 + ㄴ + 다'로 구성되어 있으며 각각의 형태소는 개별 의미를 가지고 있다. '가'는 '가다'라는 동사의 어간이며, 'ㄴ'은 현재 시제를 나타낸다. '다'는 종결 어미로서 문장이 끝남을 나타낸다. 형태소는 의미 관점에서 의미가 없어지지 않는 한도 내에서 더 이상 쪼갤 수 없을 때까지 쪼갠 것이므로 글자 관점에서는 'ㄴ'과 같이 자음하나 일 수도 있지만, 고유 명사의 경우 '김 수한무 거북이와 두루미 ... ' 처럼 아무리 길어도 사람의 이름이므로 더 이상 쪼갤 수 없어서 매우 긴 형태소도 존재한다. 장기 기억부(2)는 바로 음성 언어 파서가 학습에 의하여 획득한 모든 형태소들(어휘집)과 형태소들 간의 관계(문법)을 저장한다. 또한 구체적인 구현에 있어서는 신속하게 해당 정보를 넣고 뺄 수 있도록 데이터베이스로 구현되어 있다.
언어 생성 기제부(4)는 문장 생성기로서 장기 기억부(2)에 있는 어휘집과 문법을 이용하여 문장 또는 문장의 일부분을 생성한다. 장기 기억부(2)와 언어 생성 기제부(4)의 관계는 언어 생성 기제부(4)가 현재의 문맥에 맞추어 장기 기억부(2)에 있는 일부 형태소들과 일부 문법(문형)을 끄집어 내어 활용하는 관계이다. 즉 언어 생성 기제부(4)의 입력은 단기 기억부(6)의 출력과 장기 기억부(2)의 출력이며 언어 생성 기제부(4)의 출력은 언어 생성 기제부(4)가 생성시킨 문장(또는 문장의 일부분)이다.
단기 기억부(6)는 언어 생성 기제부(4)가 출력하는 다수의 생성 문장(또는 문장의 일부분)들과 음성 언어 파서로 입력되는 문장이 비교기(8)에 의해 비교되어 선택된 단 하나의 생성 문장(또는 문장의 일부분)을 저장하는 메모리이다. 이 메모리의 단위는 형태소이며 최대 7 개의 형태소가 기억된다. 이러한 단기 기억부(6)의 입력은 생성 문장들 중에서 입력 문장과 발음상 가장 흡사하다고 판정된 하나의 출력들이 큐(queue)의 구조로 기억된다. 상기 단기 기억부(6)의 출력은 현재 기억되어 있는 0 개에서 7 개까지의 형태소 열(morpheme sequence)이다. 상기 언어 생성 기제부(4)는 병렬 복수 출력한다.
강화 신호는 언어 생성 기제부(4)의 다양한 동작들 중에서 올바른 동작을 하였을 때 그 동작을 강화하는 신호로서 강화 신호를 받은 언어 생성 기제부(4)는 앞으로 더욱 더 올바른 동작을 자주 수행하게 된다. 언어 생성 기제부(4)는 확률적인 발생 기제이므로 강화 신호는 발생에 관계된 확률적인 가중치의 값을 현재 값보다 큰 값으로 바꾸는 역할을 하게 된다. 바로 이렇게 가중치를 조정하는 동작이 바로 음성 언어 파서의 학습 동작이다. 학습이란 어떤 시스템이 시간이 지나면서 보다 나은 동작을 하기 위하여 내부의 가중치를 수정하는 것을 의미하기 때문이다. 비교기(8)는 언어 생성 기제부(4)에서 예측한 신호와 입력 문장이 맞았을 때 강화 신호를 발생하여 언어 생성 기제부(4)에 제공함이 따라 언어 생성 기제부(4)는 내부의 강화 학습에 이용되는 가중치 값을 바꾸게 된다.
언어 학습 기제부는 전체 도면에 구체적인 블록으로 표시되지는 않지만 언어 인식 기제부에서 발생한 강화신호에 따라 언어 생성 기제부를 업데이트 시켜주는 비스듬한 화살표로 표현되어 있다.
언어 인식 기제는 언어 생성 기제부(4)의 출력과 현재 음성 언어 파서로 입력된 관측 데이터를 비교하여 소리 관점에서 얼마나 가까운 지를 계산하여 입력 문장과 가장 소리가 흡사한 생성 문장을 선택하는 기능을 수행한다. 상기 관측 데이터란 음성 언어 파서가 동작할 때 입력되는 데이터를 의미하며 우리가 음성 언어 파서를 사용할 때 키보드를 통해 입력하는 데이터를 말한다.
상기 관측 데이터는 어떤 시스템으로 입력되는 데이터를 말한다. 사람의 입장에서는 입력 데이터이지만 시스템의 입장에서는 관측되는 데이터이기 때문이다.
이 파서의 구조는 기존의 파서에서 채용하고 있는 상향식 데이터 분석 구조가 아니라 음성 신호의 과거 데이터와 파서의 생성 습성에 영향을 받는 의사 음성의 발생을 이용하여 다음 입력 신호를 추정하는 예측 필터 기반의 하향식 의미 생성 구조이다. 파서의 예측 음성 신호는 실제 입력된 음성 신호와 비교되어 생성 습성을 수정하기 위한 강화 신호를 발생시킨다. 형태소 분류 체계가 다단계임을 반영하기 위하여 생성 언어 모델은 계층적 구조로 이뤄져 각 단계마다 분류할 뿐 아니라 상하계층간에도 상호 작용을 하게 된다.
인간은 다른 사람의 말을 들을 때, 단지 들리는 말소리를 분석하는 것만이 아니라 다음에 그 사람이 할 말을 예측해 가면서 분석한다. 본 발명에서는 이러한 인간의 방식을 적용하였으며 음성 언어 파서는 현재의 관측 데이터를 통하여 다음에 들어올 관측 데이터를 예측하는데, 이 예측은 구체적인 발음이다.
예측과 학습에 의하여 파서는 하나의 음성 신호에 여러 후보를 제시하는 HMM에 쉽게 접목되며, 파서의 예측은 하부의 HMM을 제어하여 탐색 공간을 대폭적으로 줄여주게 되어 음성 인식 시스템의 속도와 성능을 향상시키고 실시간 대용량 어휘 처리가 가능해지게 된다.
음성 언어 파서는 다음의 동작을 반복하는 유한 상태 기계들의 동적 시스템이다.
주어진 현재의 문맥과 관측 데이터를 이용하여 다음 문맥을 예측한다. 그러한 예측을 토대로 의사 관측 데이터를 생성시키고 이것은 실제의 관측 데이터와 음향음성학적으로 비교되어서 가장 가까운 후보가 선택된다. 이와 같은 두 가지 과정을 한 문장이 끝날 때까지 음절이 입력될 때마다 반복한다.
도 2는 도 1에 도시된 언어 생성 기제부(4)의 일 실시 예를 나타낸 블록도로, 문맥 생성기(12), 어휘 발생기(14), 임시 기억부(16), 및 선택기(18)를 구비한다.
동 도면에 있어서, 문맥 생성기(12)와 어휘 발생기(14)는 그것이 활용하는 방대한 데이터들(문법, 어휘집)을 장기 기억부(2)에서 꺼내 와서 사용한다. 장기 기억부(2)는 데이터베이스로 구현되어 있으며 이 데이터베이스에서 특정 정보를 꺼내 올 때에는 SQL(Structured Query Language)를 사용하여 적합한 데이터들을 읽어 낸다.
초기 상태 q(0)은 음성 언어 파서가 동작을 시작할 때 취할 상태를 의미한다. 초기 상태는 확률적으로 결정되며 이때의 확률 가중치가 장기 기억부(2)에 저장되어 있고 학습 기제에 의하여 변화된다.
문맥 생성기(12)의 입력은 동작 초기에는 초기 상태 q(0) 뿐이며 출력은 예측 상태 후보들 q(t)이다. 즉 입력은 하나이어도 출력은 여러 개가 될 수 있다. 동작 초기 이후에는 문맥 생성기(12)의 입력은 임시 기억부(16)에 저장되어 있는 이전 상태 q(t-1)에서 q(t-7)이다. 여기서 q(.)라는 것은 형태소의 카테고리 예로, 고유 명사, 동사 어간, 및 접사 등을 의미한다. 그러므로 q(t-1)의 의미는 특정 시간 t-1(현재 시간 t의 바로 직전 순간)에서 임시 기억부(16)에 저장된 형태소의 카테고리를 의미한다. 이러한 임시 기억부(16) 내부에 들어갈 수 있는 q(.)의개수는 0 개에서 최대 7 개까지이며, 매 동작 순간마다(동작 단위 시간이 지날 때마다) q(t-1)은 q(t-2)가 되고 q(t-2)는 q(t-3)이 되고, 마찬가지로 q(t-6)은 q(t-7)이 되고 원래 있던 q(t-7)은 기억 속에서 사라진다. 물론 가장 최근의 기억은 q(t-1)이 된다. 즉 일종의 큐 구조로서 매 동작 순간마다 가장 최근의 기억이 하나 들어가고 가장 오래된 기억은 사라지는 구조인 것이다.
문맥 생성기(12)의 출력인 예측 상태 후보들 q(t)는 어휘 발생기(14)로 입력되며 어휘 발생기(14)는 예측 음소열 후보들 o(t)를 생성한다. 즉 예측 상태 후보들은 형태소의 카테고리이지만, 예측 음소열 후보는 발음열이다. 예로, 예측 상태 후보가 접사(j) 였다면 이것이 어휘 발생기(14)에 들어가서 나올 때는 구체적인 '는', '가', '이' 등이 출력된다.
예측 후보 선택기(18)는 언어 인식 기제의 출력을 받아서 여러 개의 예측 상태 후보들 중에서 하나의 후보를 선택하는 기능을 수행한다. 삼각형으로 표현한 이유는 입력은 다입력이고 출력은 하나의 출력이므로 일종의 깔데기 역할을 하기 때문이다. 깔데기의 오른쪽에 달린 입력은 일종의 스위치 역할을 하여 깔데기가 입력들 중에서 어떤 출력을 선택할 것인지를 결정해준다.
음성 언어 파서에서 문법은 생성 습성의 확률 가중치 집합으로 표현된다.는,,의 계층적인 피라미드 구조로 구성되어 있어서 주어진 문장을 여러 수준에서 형태소 분석을 수행하게 된다.은 주어진 문장의 형태소 분석을 7 개의 대분류 품사로만 분류하며의 동작은의 생성에 영향을 준다.에서는 20 개의 세부 품사로 분류하고의 생성에 영향을 준다. 마지막으로에서는 45 개의 확장 세부 품사로 분류하게 된다.의 출력은 어휘 발생 습성에 의하여 기저형에서 표층형으로 변환되어 발생하게 된다.
인간은 다른 사람의 말을 들을 때 자신의 장기 기억부에 있는 어휘집를 토대로 단기 기억부에 자신의 생각을 생성해가면서 상대방의 의미를 인식해 간다. 이러한 자신의 생각은 임시 기억부로 작용하여 현재의 인식에 영향을 미친다. 문맥주의집중은 청자에게 가해지는 음성 자극의 영향을 받아서 자극과의 차이가 적어지는 상태로 변화되어간다. 또한 인간은 단순히 현재의 자극을 수동적으로 분석하는 것이 아니라 다음에 가해질 음성도 미리 기대해가며 기대가 맞을 경우에는 자신의 생각이 상대방의 생각와 흡사하다는 확신을 가지게 되고 틀릴 경우에는 다른 의미로 해석해보려고 시도하게 된다.
음성 언어 파서의 내부에는 임시 기억부(16)가 있는데 여기에는 최근 파서가 수행한 행위들이 기억되어 있다. 상기 문맥주의집중은 이러한 단기 기억부(16)에 의한 효과는 주의집중(attention)으로서 우리가 시끄러운 시장 바닥에 있어도 바로 앞에 있는 사람의 소리에만 귀를 귀울이는 것을 의미한다. 현재의 컴퓨터는 이러한 주의집중 능력이 없기 때문에 귀에 들리는 모든 소리를(그것이 잡음이더라도) 분석해야만 처리가 가능한 상태이며, 이것 때문에 실시간 처리가 어려웠었다. 본 발명에서는 단기 기억 효과를 이용하여 주어진 문맥에서 다음 문맥을 예측하는데이것을 문맥 주의집중이라고 이름 붙인 것이다.
이러한 출력에 대한 확신도는 음성 언어 파서에서 파싱 가상 온도로 나타나며 온도가 낮은 것은 확신도가 높다는 것을 의미한다. 예측은 파서의 생성 습성와 문맥주의집중의 영향을 받으므로 예측과 관측열의 비교로부터 생성되는 강화 학습 신호를 이용하여 특정 문맥에서의 생성 습성을 변화시켜주면 반복 학습에 의하여 예측 오차가 줄어들게 된다.
본 발명에 의한 음성 언어 파서는 파서가 동작할 때 내부적으로 온도에 해당하는 값이 있으며, 파서의 상태를 나타낸다. 상기 파싱 가상 온도란 이 온도값이 높을 때에는 파서가 자신의 출력을 확신하지 못한다는 것을 의미하며 이 온도값이 낮을 때는 파서가 자신의 출력을 확신한다는 것이다. 여기서 확신이란 말의 의미는 파서가 해당 출력을 발생할 때 그 내부의 확률 가중치가 높은 상태에서 출력할 때는 확신이 높은 때이고 가중치가 작은 상태에서 임의의 출력이 발생된 것이라면 확신이 낮은 때이다.
강화 학습 신호는 억제 신호를 사용하지 않고 강화 신호만을 사용하여 보상 분배(credit assignment) 문제를 해결한다.
상기 보상 분배(credit assignment)는 강화 학습에 있어서 발생하는 강화 신호에는 보상 신호와 벌점 신호가 있는데, 본 발명에서는 보상 신호만 활용한다. 보상이 발생하였을 때 이것을 발생하게 된 생성고리의 각각의 구성 요소들에게 보상 신호를 분배하는 것을 말한다.
생성 기제에 의해 발생하는 의사 음성은 관측 음성과 음향음성학적 거리가 측정되며 관측 음성에 가장 흡사한 의사 음성이 선택되면 그러한 의사 음성을 발생시킨 형태소 열이 함께 선택되는 원리이다. 반복적인 선택은 그러한 발생에 관여한 생성 습성이 강화되는 효과를 나타내게 된다. 파서는 말뭉치의 다양한 문장들을 이용하여 생성 인식 학습 동작을 수없이 반복하게 되면서 자신만의 고유한 생성 습성으로 수렴하게 된다.
이러한 언어 생성 과정은 파싱 가상 온도의 영향을 받도록 소프트맥스 행위 선택(softmax action selection) 방식으로 동작한다. 그러므로, 언어 생성 기제부(4)는 확률 과정이며 파싱 가상 온도는 강화 신호의 발생 빈도에 반비례하고 다시 생성 과정은 파싱 가상 온도에 영향을 받으므로 언어 생성 기제부(4)는 일종의 정궤환 특성을 가지게 된다.
강화 학습은 다양한 구현 방식이 있는데, 본 발명에서는 가장 간단한 소프트맥스 행위 선택 방식을 활용하였다. 소프트맥스 행위 선택 방식을 선택한 이유는 이것을 이용하여 가상 파싱 온도 값을 만들어 낼 수 있기 때문이다.
도 3은 도 1에 도시된 음성 발생 원리를 이용한 음성 언어 파서가 인식 동작을 하는 시점을 나타낸 블록도로, 문맥 생성기(12), 어휘 발생기(14), 임시 기억부(16), 및 선택기(18)를 구비한 언어 생성 기재부(4)와 비교기(8)로 구성된다.
동 도면에 있어서, 비교기(8)의 입력은 두 개이며 각각 좌우에서 입력된다. 왼쪽에서 입력되는 것은 여러 개의 예측 음소열 후보들 o(t)이다. 오른쪽으로 입력되는 것은 하나 뿐인 관측 음소열 O(t)이다. 관측 음소열이란 음성 언어 파서가 동작할 때 사용자가 키보드로 입력한 데이터를 말한다. 두 개의 입력은 비교기(8)에서 소리 관점에서의 거리가 측정된다. 즉 소리가 흡사한 두 입력은 작은 값이 나오고 소리가 많이 다른 두 입력은 큰 값이 나온다. 이러한 값들 중에서 가장 작은 값이 나오는 예측 음소열 후보의 번호가 비교기(8)에서 출력되며 이 출력은 '후보 선택 신호'가 되어서 예측 후보 선택기(18)로 들어간다.
생성, 인식, 학습은 음성 언어 파서의 동작 모드 세 가지이며 각각의 모드에서 파서는 상이한 메커니즘으로 동작한다.
언어 인식 단계에서는 생성 기제에 의하여 발생된 여러 의사 음성들 가운데서 관측 음성과 음향음성학적으로 가장 가까운 후보가 선택된다. 유사도 측정은 DTW(Dynamic Time Warping, 동적 시간 정렬)를 자음 모음 수준에서 동작하도록 수정하여 적용하였다. 의사 음성 음절열과 관측음성 음절열의 각각의 음절은 초성 중성 종성으로 분해되어 자모열이 되고 두 개의 자모열이 DTW에 의하여 비교된다.
본 발명에서의 언어 인식 기제에서는 예측 음소열 후보들과 관측 음소열을 비교하는데 이때 활용하는 알고리즘이 상기 DTW이다.
도 4는 도 1에 도시된 음성 발생 원리를 이용한 음성 언어 파서가 학습 동작을 하는 시점을 나타낸 블록도로, 문맥 생성기(12), 어휘 발생기(14), 임시 기억부(16), 및 선택기(18)를 구비한 언어 생성 기재부(4)와 비교기(8)로 구성된다.
동 도면에 있어서, 강화 신호란 비교기(8)의 출력으로서 예측 음소열 후보들과 관측 음소열이 비교되어 소리 측면에서 가장 가깝다고 판정된 예측 음소열 후보의 인덱스이다. 이 인덱스는 문맥 생성기(12)와 어휘 발생기(14)에 각기 입력되어 문맥 생성기 내부의 확률적 가중치들을 수정하며 어휘 발생기(14) 내부의 확률적 가중치들을 수정하게 된다. 상기 가중치는 강화 학습에 관련된 행위 값(action value)을 말한다. 이때 현재의 문맥에서 예측한 다음 형태소와 어휘를 예측하는 것을 행동이라 하며 이것이 맞았으면 그러한 행동이 자주 일어나도록 확률적인 값으로 정해두었는데 이것을 행위 값이라 하는 것이다. 따라서 입력 신호와 예측 신호가 맞았을 때 발생하는 강화 신호에 따라서 행위 값을 증가시킴으로 해서 자주 일어나거나 올바른 문법을 학습해 나가는 것이다. 예로, 현재 '명사'라는 형태소가 현재 문맥에 있을 때 언어 생성 기제부(4)에서 '조사'를 예측했고 이것이 입력 문장과 맞았다면 명사에서 조사로 예측하는 행동의 행위 값이 증가되게 된다. 이러한 가중치들의 수정을 학습이라고 한다. 보다 정확히 말하여 문맥 생성기(12)의 가중치가 변화하는 것을 문법 자동 습득이라고 하며, 어휘 발생기(14) 내부의 가중치가 변화하는 것을 어휘 자동 습득이라고 한다.
학습을 보다 구체적으로 말하면 위에서 이야기한 가중치의 수정 이외에도 가중치의 추가가 있다. 즉, 처음 접하는 문법은 장기 기억부(2)에 저장되어 있지 않으므로 추가되며 만일 이미 저장되어 있는 문법의 경우에는 그 문법의 가중치만 수정되는 것이다. 마찬가지로 처음 접하는 어휘는 장기 기억부(2)에 저장되어 있지 않으므로 추가되며 만일 이미 저장되어 있는 어휘일 경우에는 그 어휘를 발생시키는데 영향을 주는 확률 가중치만 수정되게 된다.
언어 학습 단계에서 파서는 강화 학습신호에 의하여와값을 수정해가면서 점차적으로 최적값에 가까워지게 된다. 강화 학습이론의알고리즘을 생성 인식 언어 모델에 적합하도록 수정하여 적용하였다.
학습 기제는 음성 언어 파서의 초기에 수행되는 초기 학습과 그 이후의 실시간 학습의 두 가지 동작 모드가 있다. 초기 학습에서는 일반적으로 파싱 가상 온도가 높은 상태이고 학습용 말뭉치로부터 어휘 습득과 문법 습득이 활발하게 일어나서 파서의 장기 기억이 확장된다. 반면에 실시간 학습에서는 파싱 가상 온도가 비교적 낮은 상태가 유지되면서 파서는 자신의 습득한 어휘집과 문법 지식을 이용하여 여러 가지 생성들을 반복하면서 생성 습성을 정교하게 다듬게 된다. 초기 학습에서는 태깅이 되어 있는 말뭉치가 필요하지만 실시간 학습에서는 일반 문장들만으로 학습이 가능하다. 실시간 학습에서도 파서는 미등록어 자동 습득 기제에 의하여 어휘와 문법을 확장해 나가지만 초기 학습보다는 느리게 확장한다. 실시간 학습에서는알고리즘을 이용하여 한 문장을 분석하는 과정에서도 의사 강화 신호를 발생시켜서 빠르게값들을 수정해간다.
초기 학습 단계에서 생성 인식 언어모델은 어린아이가 경험을 통하여 언어를 배우는 것과 유사한 방식으로 태깅이 되어 있는 말뭉치로부터 강화 학습을 통해 문법과 어휘를 자동으로 습득하고 습득된 문법과 어휘는 장기 기억에 저장된다. 문법습득은 생성 습성의 가중치 집합의 값들이 적절하게 조정되는 것을 의미하며 어휘 습득은 어휘 발생 습성에서 사용하는 어휘집에 새로운 어휘가 추가되는 것을의미한다.
실시간 학습 단계에서 언어 모델은 태깅이 없는 일반 문장만으로 생성 습성와 어휘 발생 습성를 보다 정교하게 다듬게 되며 어휘집에 있는 기존의 어휘와 같은 용도로 쓰이는 미등록어들을 습득하게 된다. 생성 습성에 의하여 동일한 문맥으로 파악되는 부분 문장에서 음성 언어 파서는 미등록어의 품사를 추정할 수 있기 때문이다.
도 5는 종래의 기술과 본 발명의 기술을 비교한 표를 나타낸 도면이다.
아래와 같은 출력문은 음성 언어 파서가 2525 어절을 학습한 이후에 임의의 문장에 대한 출력문으로, '나는 학교에 간다'는 문장의 어절을 모두 붙여서 띄어쓰기 정보를 제거하고 음절 단위로 입력할 때 각 단계에서의 파서의 출력을 나타내었다. 이 부분에서 띄어쓰기 정보를 제거한 입력 문장을 파싱할 수 있다는 것이 매우 중요하다. 기존 파서의 경우에는 띄어쓰기 정보를 제거한 입력 문장을 전혀 처리 할 수 없었다.
. 나 (observation)
: 나이키/nq (expectation)
. 나는
: 나가/px+는/etm 관행/ncn+에/jca
. 나는학
: 나가/px+는/etm 한국/nq
. 나는학교
: 나가/px+는/etm 한국/nq 파트너/ncn+와/jct
. 나는학교에
: 나가/px+는/etm 한국/nq+에/jca 화승/nq+과/jct
. 나는학교에간
: 나가/px+는/etm 한국/nq+에/jca 가/pvg+ㄴ/etm 기업/ncn+도/jxc
. 나는학교에간다
: 나가/px+는/etm 한국/nq+에/jca 가/pvg+ㄴ/etm+다/ef
이와 같이 본 발명에 따른 음성 언어 파서가 자신의 생성 습성와 어휘 발생 습성를 이용하여 관측 데이터와 흡사한 부분 문장들을 생성해 나가는 것을 볼 수 있다. 최종 출력에서 '나는'과 '학교'를 '나가는'과 '한국'으로 잘못 분석한 것은 파서가 단지 2525 어절의 한겨례 신문 한 페이지만을 학습한 상태이어서 '나는'과 '학교'라는 어휘가 어휘집에 없기 때문에 어휘집에 있는 어휘 중에서 가장 흡사한 것을 생성한 것이다.
이상에서 설명한 바와 같이, 본 발명에 따른 음성 언어 파서의 동작에서 기존의 파서들과 다른 중요한 특징을 보면, 음성 언어 파서에게 인가하는 문장에서 띄어쓰기 정보를 완전히 제거했는데도 불구하고 사람과 흡사한 반응을 나타내어서 원래의 문장과 비슷한 문장으로 인식하여서 형태소 인식을 수행한다. 음성 언어 파서는 주어진 관측 데이터를 바탕으로 다음에 입력될 것이라고 기대되는 데이터를추정한다. 음성 언어 파서는 학습한 어휘의 양에 민감하므로 해당 분야의 다양한 말뭉치를 이용하여 어휘의 양을 늘려주어야 한다.
Claims (6)
- 음성 언어 파서에 있어서:상기 음성 언어 파서가 학습에 의하여 획득한 문법과 어휘집을 저장하는 장기 기억부;상기 장기 기억부에 저장되어 있는 어휘집과 문법을 이용하여 문장 또는 문장의 일부분을 생성하는 언어 생성 기제부;상기 언어 생성 기제부가 생성한 문장들과 상기 음성 언어 파서로 입력되는 문장을 비교하여 상기 입력 문장과 발음상 가장 흡사하다고 판정된 하나의 생성 문장을 선택하고 강화 신호를 상기 언어 생성 기제부에 제공하여 상기 언어 생성 기제부가 내부의 강화 학습에 이용되는 가중치 값을 바꾸도록 하는 비교기;상기 비교기가 선택한 생성 문장을 저장하고 이를 상기 언어 생성 기제부로 출력하는 단기 기억부를 포함하는 음성 발생 원리를 이용한 음성 언어 파서.
- 제 1 항에 있어서,상기 언어 생성 기제부는, 동작 초기에는 초기 상태를 입력받고 동작 초기 이후에는 이전 상태를 입력 받아 예측 상태 후보들을 출력하는 문맥 생성기;상기 문맥 생성기로부터 예측 상태 후보들을 제공받아 예측 음소열 후보들을 상기 비교기로 제공하는 어휘 발생기;상기 비교기로부터 제공되는 후보 선택 신호에 따라 상기 문맥 생성기로부터제공되는 예측 상태 후보들 중에 하나를 선택하는 선택기;상기 선택기로부터 선택된 예측 상태 후보를 제공받아 저장하고 이를 상기 문맥 생성기에게 이전 상태로 제공하는 임시 기억부를 포함하는 것을 특징으로 하는 음성 발생 원리를 이용한 음성 언어 파서.
- 제 1 항 또는 제 2 항에 있어서,상기 단기 기억부의 기억 단위는 형태소인 것을 특징으로 하는 음성 발생 원리를 이용한 음성 언어 파서.
- 제 2 항에 있어서,상기 초기 상태는 확률적으로 결정되는 것을 특징으로 하는 음성 발생 원리를 이용한 음성 언어 파서.
- 제 1 항에 있어서,상기 비교기는 관측되는 음성과 상기 언어 생성 기제부에 의해 생성된 의사 음성의 유사도 측정을 통해 언어를 인식하는 것을 특징으로 하는 음성 발생 원리를 이용한 음성 언어 파서.
- 제 1 항에 있어서,상기 언어 생성 기제부는 상기 강화 학습을 통해 언어의 실시간 학습을 하는것을 특징으로 하는 음성 발생 원리를 이용한 음성 언어 파서.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000027955A KR100339668B1 (ko) | 2000-05-24 | 2000-05-24 | 음성 발생 원리를 이용한 음성 언어 파서 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000027955A KR100339668B1 (ko) | 2000-05-24 | 2000-05-24 | 음성 발생 원리를 이용한 음성 언어 파서 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010106903A true KR20010106903A (ko) | 2001-12-07 |
KR100339668B1 KR100339668B1 (ko) | 2002-06-05 |
Family
ID=19669966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020000027955A KR100339668B1 (ko) | 2000-05-24 | 2000-05-24 | 음성 발생 원리를 이용한 음성 언어 파서 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100339668B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100766058B1 (ko) * | 2005-12-08 | 2007-10-11 | 한국전자통신연구원 | 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치 |
-
2000
- 2000-05-24 KR KR1020000027955A patent/KR100339668B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100766058B1 (ko) * | 2005-12-08 | 2007-10-11 | 한국전자통신연구원 | 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR100339668B1 (ko) | 2002-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
Yao et al. | An improved LSTM structure for natural language processing | |
US20210312914A1 (en) | Speech recognition using dialog history | |
Odell | The use of context in large vocabulary speech recognition | |
De Mori | Spoken language understanding: A survey | |
US11308938B2 (en) | Synthesizing speech recognition training data | |
US10121467B1 (en) | Automatic speech recognition incorporating word usage information | |
Young et al. | Corpus-based methods in language and speech processing | |
CN111145718B (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JPH0320800A (ja) | 音声認識方法および装置 | |
JP2021105708A (ja) | ニューラル・スピーチ・ツー・ミーニング | |
KR20180038707A (ko) | 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법 | |
Suyanto et al. | End-to-End speech recognition models for a low-resourced Indonesian Language | |
Razavi et al. | Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework | |
Buchsbaum et al. | Algorithmic aspects in speech recognition: An introduction | |
CN113160792A (zh) | 一种多语种的语音合成方法、装置和系统 | |
CN114333760B (zh) | 一种信息预测模块的构建方法、信息预测方法及相关设备 | |
Kitano | ΦDmDialog: A speech-to-speech dialogue translation system | |
KR100339668B1 (ko) | 음성 발생 원리를 이용한 음성 언어 파서 | |
JP7570666B2 (ja) | 機械翻訳学習方法、装置及びプログラム、並びに、機械翻訳方法、装置及びプログラム | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP2000222406A (ja) | 音声認識翻訳装置及び方法 | |
Raju et al. | Speech recognition to build context: A survey | |
Sharan et al. | ASR for Speech based Search in Hindi using Attention based Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |