KR20060067107A - 조음모델을 이용한 연속음성인식 장치 및 그 방법 - Google Patents
조음모델을 이용한 연속음성인식 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20060067107A KR20060067107A KR1020050039412A KR20050039412A KR20060067107A KR 20060067107 A KR20060067107 A KR 20060067107A KR 1020050039412 A KR1020050039412 A KR 1020050039412A KR 20050039412 A KR20050039412 A KR 20050039412A KR 20060067107 A KR20060067107 A KR 20060067107A
- Authority
- KR
- South Korea
- Prior art keywords
- articulation
- model
- feature
- feature vector
- speech recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 62
- 238000013518 transcription Methods 0.000 claims abstract description 6
- 230000035897 transcription Effects 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 24
- 238000002372 labelling Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 연속음성을 인식하는데 있어서 기존의 음향모델을 사용하지 않고 조음특징값(articulatory features)을 이용한 조음모델(articulatory model)을 사용하여 음성인식을 수행하는 조음모델을 이용한 연속음성인식 장치 및 그 방법에 관한 것이다. 이와 같은 본 발명은 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출부와, 상기 특징 추출부에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하여, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB와 언어모델 DB를 이용하여 최종 단어열을 탐색하는 탐색부와, 상기 탐색부에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력부로 구성된다.
조음특징, 연속음성인식, 발성유형, 조음위치, 조음방법, 전사문
Description
도 1은 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치의 구성을 나타낸 기능 블럭도,
도 2는 도 1에서의 탐색부의 구성을 나타낸 상세 기능 블럭도,
도 3은 도 2에서의 조음모델 생성부의 구성을 나타낸 상세 기능 블럭도,
도 4는 도 3에서의 조음특징 검출부의 구성을 나타낸 상세 기능 블럭도,
도 5는 도 3에서의 조합부의 구성을 나타낸 상세 기능 블럭도,
도 6은 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식방법을 나타낸 동작 플로우챠트,
도 7은 도 6의 조합과정을 상세하게 나타낸 동작 플로우챠트이다.
<도면의 주요 부분에 대한 부호의 설명>
101 : 특징 추출부 102 : 탐색부
103 : 인식결과 출력부 104 : 조음모델 DB
105 : 발음사전 DB 106 : 언어모델 DB
본 발명은 조음모델을 이용한 연속음성인식 장치 및 그 방법에 관한 것으로, 특히 연속음성을 인식하는데 있어서 기존의 음향모델을 사용하지 않고 조음특징값(articulatory features)을 이용한 조음모델(articulatory model)을 사용하여 음성인식을 수행하는 조음모델을 이용한 연속음성인식 장치 및 그 방법에 관한 것이다.
종래의 연속음성인식 장치는 음성신호를 시간-주파수 영역에서 특징값들을 추출하여 생성한 음향모델을 이용하여 음성인식을 수행한다. 이러한 연속음성인식 장치는 음향모델의 크기가 커서 음성인식 과정에서 많은 계산량을 요구하고 잡음이 없는 깨끗한 환경하에서는 좋은 인식성능을 보이지만 자동차내에서와 같이 잡음이 존재하는 환경이나 훈련된 음향모델의 환경과 다른 환경하에서는 인식성능이 현저히 떨어지는 문제점이 있었다.
따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루어진 것으로, 본 발명의 목적은 음성을 인식하는 방법에 있어서 음성생성정보를 포함하는 조음정보를 이용함으로써 조음모델을 생성하고 그 조음모델을 인식과정에서 사용함으로써 모델의 크기를 줄이고 잡음환경과 같이 훈련환경과 다른 환경하에서 연속음성인식 장치의 인식성능을 높일 수 있는 조음모델을 이용한 연속음성인식 장치 및 그 방법을 제공하는 데 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 조음모델을 이용한 연속음성인식 장치는, 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 수단과, 상기 특징 추출 수단에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 수단과, 상기 탐색 수단에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 수단을 포함하여 구성되는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 조음모델을 이용한 연속음성인식 방법은, 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 단계와, 상기 특징 추출 단계에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 단계와, 상기 탐색 단계에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 단계를 포함하여 이루지는 것을 특징으로 한다.
이하, 본 발명의 일 실시예에 의한 조음모델을 이용한 연속음성인식 장치 및 그 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치의 기능 블럭도를 도시한 것이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치는, 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출부(101)와, 상기 특징 추출부(102)에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB(104)를 구축하여, 그 조음모델 DB(104)에서 상기 음성신호에서 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색하는 탐색부(102)와, 상기 탐색부(102)에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력부(103)로 구성된다.
도 2는 도 1에서의 탐색부의 상세 기능 블럭도를 도시한 것이다.
도 2에 도시된 바와 같이, 상기 탐색부(102)는 상기 특징벡터로부터 조음모델을 생성하여 조음 모델 DB(104)를 구축하는 조음모델 생성부(201)와, 상기 조음모델 생성부(201)에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색하는 탐색기(202)로 구성된다.
도 3은 도 2에서의 조음모델 생성부의 상세 기능 블럭도를 도시한 것이다.
도 3에 도시된 바와 같이, 상기 조음모델 생성부(201)는 상기 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 상기 특징벡터로부터 조음 특징 정보을 검출하고, 그 음소-조음특징 매핑테이블을 참조하여 조음특징 정보로터 조음정보 기술문을 얻는 조음특징 검출부(301)와, 상기 조음특징 검출부(301)에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB(104)에 저장시키는 조합부(302)로 구성된다.
도 4는 도 3에서의 조음특징 검출부의 상세 기능 블럭도를 도시한 것이다.
도 4에 도시된 바와 같이, 상기 조음특징 검출부(301)는 상기 특징벡터가 자음인 경우 그 자음에 해당하는 조음특징을 상기 조음모델 DB에서 검출하는 제1 조음특징 검출기(401)와, 상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DB(104)에서 검출하는 제2 조음특징 검출기(402)로 구성된다.
상기 제1 조음특징 검출기(401)는 상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출하는 발성 유형 검출기(401a)와, 상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출하는 조음방법 검출기(401b)와, 상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하는 조음위치 검출기(401c)로 구성된다.
상기 제2 조음특징 검출기(402)는 상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출하는 입술모양 검출기(402a)와, 상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하는 혀의 고저 검출기(402b)와, 상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하는 혀의 전후 검출기(402c)로 구성된다.
도 5는 도 3에서의 조합부의 상세 기능 블럭도를 도시한 것이다.
도 5에 도시된 바와 같이, 상기 조합부(302)는 상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하는 조음특징 레이블링부(501)와, 상기 조음특징 레이블링부(501)에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB(104)에 저장시키는 조음특징 클러스터링부(502)로 구성된다.
그러면, 상기와 같은 구성을 가지는 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치 및 그 방법에 대해 도 6 및 도 7를 참조하여 설명하기로 한다.
먼저, 특징 추출부(101)는 입력되는 음성신호에서 특징벡터를 추출한다(S501). 탐색부(102)는 상기 특징 추출부(102)에서 추출된 특징벡터에서 조음특징들을 추출하고(S502), 그 조음특징들을 조합하여 조음모델을 생성한 후, 그 생성된 조음모델을 조음모델 DB(104)에 저장시킨다(S503). 이후, 탐색부(102)는 그 조음모델 DB(104)에서 상기 음성신호에서 해당되는 음소를 탐색한 후(S504), 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색한다(S505). 인식 결과 출력부(103)는 상기 탐색부(102)에서 탐색된 최종 단어열을 음성 인식 결과로 출력한다(S506).
상기 탐색부(102)의 상세한 동작을 도 2 내지 도 5를 참조하여 설명한다.
먼저, 상기 탐색부(102)의 조음모델 생성부(201)는 상기 특징 추출부(101)에 서 추출된 특징벡터로부터 조음모델을 생성하여 조음 모델 DB(104)를 구축한다.
즉, 상기 조음모델 생성부(201)의 조음특징 검출부(301)는 상기 특징벡터로부터 조음특징을 검출한다. 상기 조음특징 검출부(301)의 제1 조음특징 검출기(401)는 특징벡터가 자음인 경우, 그 자음에 해당하는 조음특징을 상기 조음모델 DB(104)에서 검출한다. 상기 제1 조음특징 검출기(401)의 발성 유형 검출기(401a)는 상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출한다. 상기 제1 조음특징 검출기(401)의 조음방법 검출기(401b)는 상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출한다. 상기 제1 조음특징 검출기(401)의 조음위치 검출기(401c)는 상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하게 되는 것이다.
이어서, 상기 조음특징 검출부(301)의 제2 조음특징 검출기(402)는 상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DB(104)에서 검출한다. 상기 제2 조음특징 검출기(402)의 입술모양 검출기(402a)는 상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출한다. 상기 조음특징 검출부(301)의 혀의 고저 검출기(402b)는 상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하게 된다. 상기 조음특징 검출부(301)의 혀의 전후 검출기(402c)는 상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하게 되는 것이다.
이와같은 조음특징 정보는 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 구할 수 있는데, 전사문의 각 음소에 해당되는 조음특징 정보 로부터 음소-조음특징 매핑테이블을 참조함으로써 조음정보 기술문을 얻을 수 있다.
일반적으로, 한국의 말소리는 크게 자음과 모음으로 구분된다. 자음은 다시 발성유형, 조음방법, 그리고 조음위치에 따라 구분되고, 모음은 입술모양, 혀의고저, 그리고 혀의 전후에 따라 구분 되어진다. 예를 들어, 자음인 [b]음성을 입력으로 받았을 경우, 발성유형 검출기(401a)는 유성음임을 검출하고, 조음방법 검출기(401b)는 폐쇄음을 검출한다. 그리고 조음위치 검출기(401c)는 양순음임을 검출한다. 입술모양 검출기(402a), 혀의 고저 검출기(402b), 그리고 혀의 전후 검출기(401c)는 [b]음성과 관련된 조음특징 정보가 없기 때문에 어떤 조음특징 정보도 추출하지 못한다. 만약, 모음인 [i]음성을 입력으로 받았다면, [b]음성과는 반대로 발성유형 검출기(401a), 조음방법 검출기(401b), 그리고 조음위치 검출기(401c)는 어떤 조음정보도 추출하지 못한다. 하지만, 입술모양 검출기(402a)는 평순음을 검출하고 혀의 고저 검출기(402b)는 고모음을 검출한다. 마지막으로 혀의 전후 검출기(402c)는 전설음을 검출한다.
이후, 상기 조음모델 생성부(201)의 조합부(302)는 상기 조음특징 검출부(301)에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB(104)에 저장시킨다. 즉, 상기 조합부(302)의 조음특징 레이블링부(501)는 상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하게 된다(S701). 상기 조합부(302)의 조음특징 클러스터링부(502)는 상기 조음특징 레이블링부(501)에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB(104)에 업데이트시킨다(S702-S704). 이와 같은 과정(S701-S704)은 종료조건이 만족할 때 까지 수행된다(S705).
이후, 탐색기(202)는 상기 조음모델 생성부(201)에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색하게 되는 것이다.
이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위내에서 다양하게 변형실시될 수 있다.
상술한 바와 같이 본 발명에 의한 조음모델을 이용한 연속음성인식 장치 및 그 방법에 의하면, 본 발명은 음성신호로부터 조음특징값을 추출하여 조음모델을 생성하고 이를 이용하여 음성인식을 수행한다. 조음특징값은 음성의 생성(speech production)에 대한 정보를 포함하고 있기 때문에 음향정보와 비교하여 볼 때 잡음등에 상대적으로 덜 민감하고 조음모델의 크기도 작기 때문에, 음성 인식시 계산량이 상대적으로 적게 요구되는 효과가 있다.
또한, 본 발명은 음성인식을 수행하는데 있어 조음특징 정보를 이용함으로써 인식시 계산량을 줄이고 잡음환경에서의 음성인식률을 향상시킬 수 있는 효과가 있다.
Claims (14)
- 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 수단과;상기 특징 추출 수단에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 수단과;상기 탐색 수단에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 수단을 포함하여 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
- 제 1 항에 있어서,상기 탐색 수단은 상기 특징벡터로부터 조음모델을 생성하여 조음 모델 DB를 구축하는 조음모델 생성부와;상기 조음모델 생성부에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB와 언어모델 DB를 이용하여 최종 단어열을 탐색하는 탐색기로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
- 제 2 항에 있어서, 상기 조음모델 생성부는상기 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 상기 특징벡터로부터 조음특징 정보을 검출하고, 그 음소-조음특징 매핑테이블을 참조하여 조음특징 정보로터 조음정보 기술문을 얻는 조음특징 검출부와;상기 조음특징 검출부에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB에 저장시키는 조합부로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
- 제 3 항에 있어서, 상기 조음특징 검출부는상기 특징벡터가 자음인 경우 그 자음에 해당하는 조음특징을 상기 조음모델 DB에서 검출하는 제1 조음특징 검출기와;상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DBD에서 검출하는 제2 조음특징 검출기로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
- 제 4 항에 있어서, 상기 제1 조음특징 검출기는상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출하는 발성 유형 검출기와;상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출하는 조음방법 검출기와;상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하는 조음위치 검출기로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
- 제 4 항에 있어서, 상기 제2 조음특징 검출기는상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출하는 입술모양 검출기와;상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하는 혀의 고저 검출기와;상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하는 혀의 전후 검출기로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
- 제 3 항에 있어서, 상기 조합부는상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하는 조음특징 레이블링부와;상기 조음특징 레이블링부에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB에 저장시키는 조음특징 클러스터링부로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식장치.
- 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 단계와;상기 특징 추출 단계에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 단계와;상기 탐색 단계에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 단계를 포함하여 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
- 제 8 항에 있어서, 상기 탐색 단계는상기 특징벡터로부터 조음모델을 생성하여 조음 모델 DB를 구축하는 조음모델 생성 과정과;상기 조음모델 생성 과정에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB와 언어모델 DB를 이용하여 최종 단어열을 탐색하는 탐색 과정으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
- 제 9 항에 있어서, 상기 조음모델 생성 과정은상기 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 상기 특징벡터로부터 조음특징 정보을 검출하고, 그 음소-조음특징 매핑테이블을 참조하여 조음특징 정보로터 조음정보 기술문을 얻는 조음특징 검출 과정과;상기 조음특징 검출 과정에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB에 저장시키는 조합 과정으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
- 제 10 항에 있어서, 상기 조음특징 검출 과정은상기 특징벡터가 자음인 경우 그 자음에 해당하는 조음특징을 상기 조음모델 DB에서 검출하는 제1 조음특징 검출 서브과정과;상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DBD에서 검출하는 제2 조음특징 검출 서브과정으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
- 제 11 항에 있어서, 상기 제1 조음특징 검출 서브과정은상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출하는 발성 유형 검출 과정과;상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출하는 조음방법 검출과정과;상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하는 조음위치 검출과정으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
- 제 11 항에 있어서, 상기 제2 조음특징 검출 서브과정은상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출하는 입술모양 검출 과정과;상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하는 혀의 고저 검출 과정과;상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하는 혀의 전후 검출 과정으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
- 제 10 항에 있어서, 상기 조합 과정은상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하는 조음특징 레이블링 과정과;상기 조음특징 레이블링 과정에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB에 저장시키는 조음특징 클러스터링과정으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040105507 | 2004-12-14 | ||
KR20040105507 | 2004-12-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20060067107A true KR20060067107A (ko) | 2006-06-19 |
Family
ID=37161723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050039412A KR20060067107A (ko) | 2004-12-14 | 2005-05-11 | 조음모델을 이용한 연속음성인식 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20060067107A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100735820B1 (ko) * | 2006-03-02 | 2007-07-06 | 삼성전자주식회사 | 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 |
KR100842754B1 (ko) * | 2006-12-08 | 2008-07-01 | 한국전자통신연구원 | 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치 |
KR20190054850A (ko) * | 2017-11-14 | 2019-05-22 | 주식회사 엘솔루 | 자동 음성인식 장치 및 방법 |
-
2005
- 2005-05-11 KR KR1020050039412A patent/KR20060067107A/ko not_active Application Discontinuation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100735820B1 (ko) * | 2006-03-02 | 2007-07-06 | 삼성전자주식회사 | 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 |
KR100842754B1 (ko) * | 2006-12-08 | 2008-07-01 | 한국전자통신연구원 | 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치 |
KR20190054850A (ko) * | 2017-11-14 | 2019-05-22 | 주식회사 엘솔루 | 자동 음성인식 장치 및 방법 |
WO2019098589A1 (ko) * | 2017-11-14 | 2019-05-23 | 주식회사 시스트란인터내셔널 | 자동 음성인식 장치 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
KR20140028174A (ko) | 음성 인식 방법 및 이를 적용한 전자 장치 | |
KR102298901B1 (ko) | 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치 | |
Mantena et al. | Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios | |
Sharma et al. | Speech recognition in Kannada using HTK and julius: a comparative study | |
Stanek et al. | Algorithms for vowel recognition in fluent speech based on formant positions | |
KR100573870B1 (ko) | 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 | |
KR20060067107A (ko) | 조음모델을 이용한 연속음성인식 장치 및 그 방법 | |
US11282495B2 (en) | Speech processing using embedding data | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
Park et al. | Real-time continuous phoneme recognition system using class-dependent tied-mixture hmm with hbt structure for speech-driven lip-sync | |
Hacioglu et al. | Parsing speech into articulatory events | |
Siohan | CTC Training of Multi-Phone Acoustic Models for Speech Recognition. | |
JP2938865B1 (ja) | 音声認識装置 | |
Hu | FSM-based pronunciation modeling using articulatory phonological code | |
Fosler-Lussier | A tutorial on pronunciation modeling for large vocabulary speech recognition | |
Huang et al. | Speech-Based Interface for Visually Impaired Users | |
Kiran et al. | Subtitle generation and video scene indexing using recurrent neural networks | |
Miyazaki et al. | Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations | |
JPH0384600A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |