KR100573870B1 - 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 - Google Patents
대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 Download PDFInfo
- Publication number
- KR100573870B1 KR100573870B1 KR1020030071937A KR20030071937A KR100573870B1 KR 100573870 B1 KR100573870 B1 KR 100573870B1 KR 1020030071937 A KR1020030071937 A KR 1020030071937A KR 20030071937 A KR20030071937 A KR 20030071937A KR 100573870 B1 KR100573870 B1 KR 100573870B1
- Authority
- KR
- South Korea
- Prior art keywords
- representative
- sound
- text corpus
- dictionary
- morpheme
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002269 spontaneous effect Effects 0.000 title 1
- 230000000877 morphologic effect Effects 0.000 claims abstract description 3
- 238000000605 extraction Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 230000001788 irregular Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07F—COIN-FREED OR LIKE APPARATUS
- G07F17/00—Coin-freed apparatus for hiring articles; Coin-freed facilities or services
- G07F17/30—Coin-freed apparatus for hiring articles; Coin-freed facilities or services for musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 대화체 음성에서 빈번하게 나타나는 발음변이를 의사형태소 기반의 대표어휘에 수용하여 확장된 다중 발음사전을 구성하고 대표어휘만을 이용하여 언어모델 및 어휘사전을 구성함으로써, 대화체 연속음성인식의 성능을 향상시키고 정형화된 출력패턴을 얻을 수 있는 다중발음사전 구축 방법 및 시스템과 이를 이용한 대화체 음성인식 방법에 관한 것이다.
본 발명은 대화체 텍스트 코퍼스로부터 대표음 텍스트 코퍼스와 변이음 텍스트 코퍼스를 각각 추출하는 단계와, 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 단계와, 태깅 결과를 어절별로 비교하여 의사형태소 단위의 대표음/변이음 쌍들을 추출하는 단계와, 대표음 코퍼스만의 의사형태소 태깅 결과로부터 대표음 어휘사전을 생성하는 단계와, 대표음 어휘사전과 대표음/변이음 쌍 추출 결과를 통해 다중발음사전 및 대표음 언어모델을 생성하는 단계로 이루어진다.
의사형태소, 다중 발음사전, 언어모델, 연속음성인식 시스템, 발음변이
Description
도 1은 일반적인 연속음성인식시스템에 대한 블록 구성도.
도 2는 종래의 의사형태소 기반 발음사전에 대한 예시도.
도 3은 본 발명에 따른 의사형태소 기반 발음사전 구축 시스템의 블록 구성도.
도 4는 본 발명에 따른 의사형태소 기반 확장 다중발음사전의 예시도.
도 5는 종래의 의사형태소 기반 발음사전에 의한 탐색 트리의 예시도.
도 6은 본 발명에 따른 의사형태소 기반 발음사전에 의한 탐색 트리의 예시도.
<도면의 주요부분에 대한 부호의 설명>
101: 특징 추출부 102: 탐색부
103: 인식결과 출력부 104: 음향모델 DB
105: 발음사전 DB 106: 언어모델 DB
301: 대표음 텍스트 추출부 302: 변이음 텍스트 추출부
303: 의사형태소 태깅부 304: 의사형태소 태깅 후처리부
305: 대표음 어휘사전 생성부
306: 어절별 텍스트 비교부
307: 대표음/변이음 쌍 추출부
308: 대표음 언어모델 생성부
309: 다중 발음사전 생성부
본 발명은 대화체 연속음성인식을 위한 다중발음사전의 구축 및 음성인식 방법에 관한 것이며, 보다 상세히는 대화체 음성에서 빈번하게 나타나는 발음변이를 의사형태소 기반의 확장된 다중 발음사전 형태로 수용하여 대화체 연속음성인식 성능을 향상시키고 정형화된 출력패턴을 얻을 수 있는 의사형태소 기반 다중발음사전 구축 방법 및 그 시스템과 이를 이용한 대화체 음성인식 방법에 관한 것이다.
일반적으로, 대화체 음성은 낭독체와 달리 자연스런 발화로 인해 간투어, 반복, 수정, 사투리 어휘 등이 많이 나타나고, 발음 변이가 심하다. 특히, 발음 변이의 경우 음운축약, 음운 탈락, 전형적인 오발화, 발화 오류 등의 다양한 형태로 나타난다.
이러한 요소를 모두 수용하여 언어모델을 구성할 경우 언어모델이 약화되고, 어휘 수가 증가하는 단점으로 인해 인식률 하락의 원인이 될 수 있다. 또한, 음성인식 결과로 나타나는 출력 패턴이 정형화되지 않아, 음성인식 뒤에 그 결과를 사용하는 언어번역 등의 적용에 문제가 될 수 있다.
따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 대화체 음성에서 나타나는 발음변이를 수용하여 의사형태소 기반의 확장 다중 발음사전을 구축함으로써 탐색과정에서 언어모델의 효율성을 높이고 인식률을 향상시키며 정형화된 출력형태를 갖도록 하는 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법 및 그 시스템과 이를 이용한 대화체 음성인식 방법을 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법은, 대화체 텍스트 코퍼스로부터 대표음 텍스트 코퍼스와 변이음 텍스트 코퍼스를 각각 추출하는 단계; 상기 추출된 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 단계; 상기 태깅 결과를 어절별로 비교하여 의사형태소 단위의 대표음/변이음 쌍들을 추출하는 단계; 상기 대표음 텍스트 코퍼스의 의사형태소 태깅 결과로부터 대표음 어휘사전을 생성하는 단계; 및 상기 대표음 어휘사전과 상기 대표음/변이음 쌍 추출 결과를 이용하여 다중발음사전 DB을 생성하는 단계;로 이루어진다.
상기 다중발음사전 생성 단계는, 다중발음사전 DB의 대표음 및 그 변이음들을 하나의 대표 표제어로 표현하고 표제어에 별도의 식별태그를 추가하여 각 변이 음들을 관리하는 것이 바람직하다.
또한, 상기 본 발명의 목적을 달성하기 위한 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 시스템은, 입력 대화체 텍스트 코퍼스로부터 대표음 코퍼스를 추출하는 대표음 텍스트 추출부; 입력 대화체 텍스트 코퍼스로부터 변이음 텍스트 코퍼스를 추출하는 변이음 텍스트 코퍼스 추출부; 상기 추출된 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 의사형태소 태깅부; 상기 의사형태소단위로 태깅된 대표음 텍스트 코퍼스 및 변이음 텍스트 코퍼스를 어절별로 비교하여 대표음/변이음 쌍들을 추출하는 대표음/변이음 쌍 추출부; 상기 대표음 텍스트 코퍼스의 의사형태소 분석결과로부터 대표음 어휘사전을 생성하는 대표음 어휘사전 생성부; 상기 대표음 어휘사전과 상기 대표음/변이음 쌍 추출 결과를 통해 다중발음사전 DB를 생성하는 다중발음사전 생성부; 및 상기 생성된 대표음 어휘사전 결과를 통해 대표음 언어모델 DB를 생성하는 대표음 언어모델 생성부;로 구성된다.
또한, 상기 본 발명의 목적을 달성하기 위한 의사형태소 기반 대화체 음성인식 방법은, 입력되는 대화체 음성으로부터 인식에 필요한 특징벡터를 추출하는 단계와, 음향모델, 발음사전, 및 언어모델을 참조하여 상기 추출된 특징벡터로부터 가장 확률이 높은 단어열을 의사형태소 기반으로 탐색하는 단계와, 상기 탐색 결과를 통해 텍스트 형태로 인식하는 단계로 이루어지는 의사형태소 기반 대화체 음성인식 방법에 있어서, 상기 탐색 단계는, 본 발명의 의사형태소 기반 다중발음사전 구축 방법에 따라 구축되는 발음사전 및 언어모델을 이용하여 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리 기반 탐색을 수행하며, 트리내 노드들의 탐색에 의해 하나의 단어가 결정되면 그 결정 단어의 대표음에 대한 언어모델을 참조하여 어휘간 연결을 수행하는 것을 특징으로 한다.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1은 일반적인 연속음성인식시스템에 대한 블록 구성도이다.
도 1에 도시된 바와 같이, 연속음성인식시스템은, 일반적으로 특징 추출부(101), 탐색부(102), 및 인식결과 출력부(103)로 구성되고, 데이터베이스로서 음향모델 DB(104), 발음사전 DB(105), 언어모델 DB(106) 등을 구비한다.
상기 특징 추출부(101)는 입력되는 대화체 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터로 변환한다.
또한, 상기 탐색부(102)는 학습과정을 통해 미리 구축된 음향모델 DB(104), 발음사전 DB(105), 및 언어모델 DB(106)를 참조하면서 상기 추출된 특징벡터로부터 가장 확률이 높은 단어열을 비터비 알고리즘을 통해 찾게된다.
상기 음향모델 DB(104), 발음사전 DB(105), 및 언어모델 DB(106)는 대어휘 인식을 위해 그 인식단위는 한국어 의사형태소 단위로 구성된다. 여기에서 인식대상 어휘들은 트리를 구성하고 있으며, 상기 탐색부(102)는 이러한 트리를 탐색하게 된다.
그리고, 상기 인식결과 출력부(103)는 상기 탐색부(102)의 출력을 이용하여 그 인식결과를 제공한다.
도 2는 종래 일반적인 의사형태소 기반 발음사전 DB(105)의 구성에 대한 예시도이다.
도 2에서와 같이, 종래 발음사전 DB(105)의 구성은 각 의사형태소의 표준발음과 함께 발음변이에 해당하는 발음들이 모두 표제어로서 나타나는 것을 볼 수 있다.
한편, 일반적인 형태소와 비교하여 대화체 음성인식에서 사용되는 인식단위로서의 의사형태소에 대해 간단히 설명하면 다음과 같다.
의사형태소는 주어진 어절의 소리값을 유지하는 범위 내에서의 언어학적인 형태소를 말하며, 어떤 형태의 음소가 첨가되거나 삭제되지 않는다. 이는 의사형태소 단위로 분리된 형태소들의 단순 결합에 의해서 원래의 소리값을 찾을 수 있음을 의미한다. 즉, 의사형태소는 일반적인 형태소와 매우 유사하나, 형태소의 분리에 있어서 소리값이 유지된다는 점이 매우 다르다.
따라서, 불규칙이나 음운 현상을 처리하는데 있어서 소리값이 유지되도록 그 기준을 정한다. 의사형태소는 불규칙 및 음운 현상에 의해서 분리되는 의사형태소 외에 다른 의사형태소는 일반적인 형태소와 같다. 그러나, 불규칙 및 음운 현상에 의해서 분리되는 의사형태소는 그 음가가 연접 연산에 의해서 원형을 찾을 수 있어야 하므로 일반적인 형태소와는 다소 차이를 보인다. 예를 들면, '써서'라는 어절은 일반적인 형태소에서는 '쓰+어서'로 분리되나, 의사형태소에서는 '써/pvg(EUI)+서'로 분리된다.
한편, 도 3은 본 발명에 따른 의사형태소 기반 발음사전 구축 시스템의 블록 구성도이다.
도 3에서, 대표음 텍스트 추출부(301)는 미리 약속된 전사규칙에 의해 대화체 텍스트 코퍼스(Corpus)로부터 대표음 텍스트 코퍼스를 추출하고, 변이음 텍스트 추출부(302)는 대화체 텍스트 코퍼스로부터 변이음 텍스트 코퍼스를 추출한다.
그리고, 의사형태소 태깅부(303-1,303-2) 및 의사형태소 태깅 후처러부(304-1,304-2)는, 상기 추출된 대표음, 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 하고, 태깅 후처리를 수행한다.
이때, 변이음과 대표음 텍스트 코퍼스를 각각 처리한 결과 그 의사형태소단위로 태깅된 대표음/변이음 쌍은 어절별로 차이가 나게되는데, 어절별 텍스트 비교부(306)는 이들 쌍들을 비교 추출한다.
대표음/변이음 쌍 추출부(307)는 상기 어절별 텍스트 비교부(306)의 처리 결과를 통해 의사형태소 단위의 대표음/변이음 쌍들을 추출해 낸다.
대표음 어휘사전 생성부(305)는 대표음 텍스트만으로 추출되어 의사형태소 단위로 태깅된 코퍼스로부터 대표음의 의사형태소 단위 어휘사전을 생성한다.
다중발음사전 생성부(309)는 상기 대표음 어휘사전 생성부(305)의 결과와 상기 대표음/변이음 쌍 추출부(307)의 결과를 이용하여 도 4와 같은 의사형태소 기반 확장 다중발음사전 DB(105)를 생성한다.
또한, 대표음 언어모델 생성부(308)는 상기 대표음 어휘사전 생성부(305)의 결과를 통해 대표음 언어모델 DB(106)를 생성한다.
도 4는 본 발명에 따른 의사형태소 기반 확장 다중발음사전의 구성에 대한 예시도이다.
도 4에서, 첫번째 열은 발음사전의 표제어이며, 두번째 열은 그 표제어에 대한 발음을 나타낸다. 도 4에 예시된 바와 같이, 본 발명에 따른 다중발음사전 DB(105)는 각 변이음에 대해 하나의 대표 표제어로 표현하고, 표제어에 발음변이가 있을 경우 "(2)"와 같이 표제어에 별도의 괄호를 붙여 표시한다.
한편, 도 5는 종래의 의사형태소 기반 발음사전 DB(105)에서 사용되는 탐색 트리에 대한 예시도로서, 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리 기반 탐색 기술을 나타낸다.
도 5에서, 도면부호 501은 Root 노드를, 502는 일반 노드를, 503은 Leaf 노드를, 504는 단어간 천이를 각각 나타낸다. 도 5를 참조하면, 처음 시작 또는 한 어휘가 결정된 후 탐색경로는 모두 하나의 가상적인 Root 노드(501)로부터 진행한다. 음성 입력이 들어오면, 매 프레임마다 트리의 모든 노드에서의 확률값을 계산한 후 각 노드로 들어오는 천이들 중에 가장 확률이 높은 천이만을 남긴다. 이와 같이 탐색을 진행하여 Leaf 노드(503)에 도달하면 어휘가 결정된다. 또한, Leaf 노드(503)에서 Root 노드(501)로의 천이(504)는 단어의 변경을 의미하므로 어휘간의 연결을 위해 통계적인 형태의 언어모델 DB(106)를 적용한다.
하지만, 이와 같은 종래의 발음사전은 대표어에 대한 각각의 발음변이를 모두 개별적인 어휘로 처리하기 때문에, 언어모델 역시 변이발음 개개에 대해 통계를 내야하고 그 결과 언어모델의 효율성이 떨어지게 된다. 예를 들면, "어떻게/mad"와 "어트께/mad", "세요/ef"와 "세여/ef"는 문장내에서 동일한 의미로서 언어모델 측면에서 동일한 통계적 특성을 갖음에도 불구하고 각각 따로 계산함으로 인해 그 효율성이 저하되는 문제가 있다.
도 6은 본 발명에 따른 의사형태소 기반 발음사전 DB(105)의 탐색 트리에 대한 예시도이다.
도 6에서, 도면부호 601 내지 604의 각 노드가 갖는 의미는 도 5를 통해 상기 설명한 바와 같으나 탐색과정에서의 차이점은 다음과 같다.
도 5와 도 6 모두 트리내의 노드를 탐색할 때 대표어에 대한 발음변이에 대해 각각 음향모델 DB(104)를 참조하면서 확률값을 계산해 나가는 면에서는 동일하지만, 하나의 단어가 결정된 후 다음 단어로 천이(604)함에 있어서 언어모델 DB(106)를 참조하는 방식이 다르다. 즉, 도 6의 탐색 트리에서는 각각의 Leaf 노드(603)에서 다음 단어로 천이(604)할 때, 하나의 대표어에 대한 변이발음에 대해서 따로 언어모델 DB(106)가 적용되는 것이 아니라, 각 변이발음에 대한 대표어를 가지고 언어모델 DB(106)를 참조한다.
상술한 바와 같이 본 발명에 따른 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법 및 그 시스템과 음성인식 방법은, 대화체 음성의 다양한 발음변이를 효과적으로 수용하는 의사형태소 기반의 확장 다중 발음사전을 구축하고 대표어휘로만 언어모델을 구성하여 탐색과정에 적용함으로써, 언어모델의 효율성 및 그 인식률을 향상시키고 결과적으로 정형화된 출력패턴을 얻을 수 있게 한다.
이상에서 설명한 것은 본 발명에 따른 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법 및 그 시스템과 이를 이용한 대화체 음성인식 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
Claims (6)
- 대화체 텍스트 코퍼스로부터 대표음 텍스트 코퍼스와 변이음 텍스트 코퍼스를 각각 추출하는 단계;상기 추출된 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 단계;상기 태깅 결과를 어절별로 비교하여 의사형태소 단위의 대표음/변이음 쌍들을 추출하는 단계;상기 대표음 텍스트 코퍼스의 의사형태소 태깅 결과로부터 대표음 어휘사전을 생성하는 단계;상기 대표음 어휘사전과 상기 대표음/변이음 쌍 추출 결과를 이용하여 다중발음사전 DB을 생성하는 단계; 및상기 생성된 대표음 어휘사전 결과를 통해 대표음 언어모델 DB를 생성하는 단계;로 이루어지는 것을 특징으로 하는 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 방법.
- 삭제
- 삭제
- 입력 대화체 텍스트 코퍼스로부터 대표음 코퍼스를 추출하는 대표음 텍스트 코퍼스 추출부;입력 대화체 텍스트 코퍼스로부터 변이음 텍스트 코퍼스를 추출하는 변이음 텍스트 코퍼스 추출부;상기 추출된 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 의사형태소 태깅부;상기 의사형태소단위로 태깅된 대표음 텍스트 코퍼스 및 변이음 텍스트 코퍼스를 어절별로 비교하여 대표음/변이음 쌍들을 추출하는 대표음/변이음 쌍 추출부;상기 대표음 텍스트 코퍼스의 의사형태소 분석결과로부터 대표음 어휘사전을 생성하는 대표음 어휘사전 생성부;상기 대표음 어휘사전과 상기 대표음/변이음 쌍 추출 결과를 통해 다중발음사전 DB를 생성하는 다중발음사전 생성부; 및상기 생성된 대표음 어휘사전 결과를 통해 대표음 언어모델 DB를 생성하는 대표음 언어모델 생성부;로 구성되는 것을 특징으로 하는 대화체 연속음성인식을 위한 의사형태소 기반 다중발음사전 구축 시스템.
- 삭제
- 입력되는 대화체 음성으로부터 인식에 필요한 특징벡터를 추출하는 단계와, 음향모델, 발음사전, 및 언어모델을 참조하여 상기 추출된 특징벡터로부터 가장 확률이 높은 단어열을 의사형태소 기반으로 탐색하는 단계와, 상기 탐색 결과를 통해 텍스트 형태로 인식하는 단계로 이루어지는 의사형태소 기반 대화체 음성인식 방법에 있어서,상기 탐색 단계는, 제 1항의 방법에 따라 구축되는 발음사전 및 언어모델을 이용하여 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리 기반 탐색을 수행하며, 트리내 노드들의 탐색에 의해 하나의 단어가 결정되면 그 결정 단어의 대표음에 대한 언어모델을 참조하여 어휘간 연결을 수행하는 것을 특징으로 하는 의사형태소 기반 대화체 음성인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030071937A KR100573870B1 (ko) | 2003-10-15 | 2003-10-15 | 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030071937A KR100573870B1 (ko) | 2003-10-15 | 2003-10-15 | 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050036303A KR20050036303A (ko) | 2005-04-20 |
KR100573870B1 true KR100573870B1 (ko) | 2006-04-26 |
Family
ID=37239546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030071937A KR100573870B1 (ko) | 2003-10-15 | 2003-10-15 | 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100573870B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101333194B1 (ko) * | 2011-07-21 | 2013-11-26 | 한국전자통신연구원 | 통계 기반의 다중 발음 사전 생성 장치 및 방법 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100815115B1 (ko) * | 2006-03-31 | 2008-03-20 | 광주과학기술원 | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 |
KR100904049B1 (ko) * | 2007-07-06 | 2009-06-23 | 주식회사 예스피치 | 음성 인식에 대한 통계적 의미 분류 시스템 및 방법 |
KR101295642B1 (ko) * | 2009-12-07 | 2013-08-13 | 한국전자통신연구원 | 음성인식결과 문장에 대한 문형분류장치 및 방법 |
KR102106797B1 (ko) | 2013-10-11 | 2020-05-06 | 에스케이텔레콤 주식회사 | 복합 문장 분석 장치, 이를 위한 기록매체 |
KR102147670B1 (ko) | 2013-10-14 | 2020-08-25 | 에스케이텔레콤 주식회사 | 복합 문장 분석 장치, 이를 위한 기록매체 |
KR102443087B1 (ko) | 2015-09-23 | 2022-09-14 | 삼성전자주식회사 | 전자 기기 및 그의 음성 인식 방법 |
KR102012404B1 (ko) * | 2017-08-18 | 2019-08-20 | 동아대학교 산학협력단 | 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법 |
KR20190080834A (ko) | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 사투리 음소 적응 학습 시스템 및 방법 |
KR20200101891A (ko) | 2020-08-19 | 2020-08-28 | 에스케이텔레콤 주식회사 | 복합 문장 분석 장치, 이를 위한 기록매체 |
CN112349294B (zh) * | 2020-10-22 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 语音处理方法及装置、计算机可读介质、电子设备 |
-
2003
- 2003-10-15 KR KR1020030071937A patent/KR100573870B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101333194B1 (ko) * | 2011-07-21 | 2013-11-26 | 한국전자통신연구원 | 통계 기반의 다중 발음 사전 생성 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20050036303A (ko) | 2005-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
US6182039B1 (en) | Method and apparatus using probabilistic language model based on confusable sets for speech recognition | |
JP4543294B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US7299178B2 (en) | Continuous speech recognition method and system using inter-word phonetic information | |
Lyu et al. | Speech recognition on code-switching among the Chinese dialects | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
Mantena et al. | Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios | |
KR100573870B1 (ko) | 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 | |
JP2019012095A (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
KR20160061071A (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
KR100484493B1 (ko) | 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
KR100736496B1 (ko) | 연속 음성인식기의 성능 개선 방법 | |
JP2938865B1 (ja) | 音声認識装置 | |
Yeh et al. | Speech recognition with word fragment detection using prosody features for spontaneous speech | |
Lamel et al. | Speech recognition of European languages | |
Ma et al. | Low-frequency word enhancement with similar pairs in speech recognition | |
Choueiter | Linguistically-motivated sub-word modeling with applications to speech recognition. | |
Bassan et al. | An experimental study of continuous automatic speech recognition system using MFCC with Reference to Punjabi | |
KR100981540B1 (ko) | 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법 | |
KR102300303B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
KR102182408B1 (ko) | 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120330 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20130325 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20160330 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20170327 Year of fee payment: 12 |
|
LAPS | Lapse due to unpaid annual fee |