KR20060067107A - 조음모델을 이용한 연속음성인식 장치 및 그 방법 - Google Patents

조음모델을 이용한 연속음성인식 장치 및 그 방법 Download PDF

Info

Publication number
KR20060067107A
KR20060067107A KR1020050039412A KR20050039412A KR20060067107A KR 20060067107 A KR20060067107 A KR 20060067107A KR 1020050039412 A KR1020050039412 A KR 1020050039412A KR 20050039412 A KR20050039412 A KR 20050039412A KR 20060067107 A KR20060067107 A KR 20060067107A
Authority
KR
South Korea
Prior art keywords
articulation
model
feature
feature vector
speech recognition
Prior art date
Application number
KR1020050039412A
Other languages
English (en)
Inventor
박경현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060067107A publication Critical patent/KR20060067107A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 연속음성을 인식하는데 있어서 기존의 음향모델을 사용하지 않고 조음특징값(articulatory features)을 이용한 조음모델(articulatory model)을 사용하여 음성인식을 수행하는 조음모델을 이용한 연속음성인식 장치 및 그 방법에 관한 것이다. 이와 같은 본 발명은 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출부와, 상기 특징 추출부에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하여, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB와 언어모델 DB를 이용하여 최종 단어열을 탐색하는 탐색부와, 상기 탐색부에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력부로 구성된다.
조음특징, 연속음성인식, 발성유형, 조음위치, 조음방법, 전사문

Description

조음모델을 이용한 연속음성인식 장치 및 그 방법{CONTINUOUS SPEECH RECOGNITION APPARATUS USING ARTICULATORY MODEL AND METHOD THEREOF}
도 1은 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치의 구성을 나타낸 기능 블럭도,
도 2는 도 1에서의 탐색부의 구성을 나타낸 상세 기능 블럭도,
도 3은 도 2에서의 조음모델 생성부의 구성을 나타낸 상세 기능 블럭도,
도 4는 도 3에서의 조음특징 검출부의 구성을 나타낸 상세 기능 블럭도,
도 5는 도 3에서의 조합부의 구성을 나타낸 상세 기능 블럭도,
도 6은 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식방법을 나타낸 동작 플로우챠트,
도 7은 도 6의 조합과정을 상세하게 나타낸 동작 플로우챠트이다.
<도면의 주요 부분에 대한 부호의 설명>
101 : 특징 추출부 102 : 탐색부
103 : 인식결과 출력부 104 : 조음모델 DB
105 : 발음사전 DB 106 : 언어모델 DB
본 발명은 조음모델을 이용한 연속음성인식 장치 및 그 방법에 관한 것으로, 특히 연속음성을 인식하는데 있어서 기존의 음향모델을 사용하지 않고 조음특징값(articulatory features)을 이용한 조음모델(articulatory model)을 사용하여 음성인식을 수행하는 조음모델을 이용한 연속음성인식 장치 및 그 방법에 관한 것이다.
종래의 연속음성인식 장치는 음성신호를 시간-주파수 영역에서 특징값들을 추출하여 생성한 음향모델을 이용하여 음성인식을 수행한다. 이러한 연속음성인식 장치는 음향모델의 크기가 커서 음성인식 과정에서 많은 계산량을 요구하고 잡음이 없는 깨끗한 환경하에서는 좋은 인식성능을 보이지만 자동차내에서와 같이 잡음이 존재하는 환경이나 훈련된 음향모델의 환경과 다른 환경하에서는 인식성능이 현저히 떨어지는 문제점이 있었다.
따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루어진 것으로, 본 발명의 목적은 음성을 인식하는 방법에 있어서 음성생성정보를 포함하는 조음정보를 이용함으로써 조음모델을 생성하고 그 조음모델을 인식과정에서 사용함으로써 모델의 크기를 줄이고 잡음환경과 같이 훈련환경과 다른 환경하에서 연속음성인식 장치의 인식성능을 높일 수 있는 조음모델을 이용한 연속음성인식 장치 및 그 방법을 제공하는 데 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 조음모델을 이용한 연속음성인식 장치는, 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 수단과, 상기 특징 추출 수단에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 수단과, 상기 탐색 수단에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 수단을 포함하여 구성되는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 조음모델을 이용한 연속음성인식 방법은, 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 단계와, 상기 특징 추출 단계에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 단계와, 상기 탐색 단계에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 단계를 포함하여 이루지는 것을 특징으로 한다.
이하, 본 발명의 일 실시예에 의한 조음모델을 이용한 연속음성인식 장치 및 그 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치의 기능 블럭도를 도시한 것이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치는, 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출부(101)와, 상기 특징 추출부(102)에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB(104)를 구축하여, 그 조음모델 DB(104)에서 상기 음성신호에서 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색하는 탐색부(102)와, 상기 탐색부(102)에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력부(103)로 구성된다.
도 2는 도 1에서의 탐색부의 상세 기능 블럭도를 도시한 것이다.
도 2에 도시된 바와 같이, 상기 탐색부(102)는 상기 특징벡터로부터 조음모델을 생성하여 조음 모델 DB(104)를 구축하는 조음모델 생성부(201)와, 상기 조음모델 생성부(201)에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색하는 탐색기(202)로 구성된다.
도 3은 도 2에서의 조음모델 생성부의 상세 기능 블럭도를 도시한 것이다.
도 3에 도시된 바와 같이, 상기 조음모델 생성부(201)는 상기 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 상기 특징벡터로부터 조음 특징 정보을 검출하고, 그 음소-조음특징 매핑테이블을 참조하여 조음특징 정보로터 조음정보 기술문을 얻는 조음특징 검출부(301)와, 상기 조음특징 검출부(301)에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB(104)에 저장시키는 조합부(302)로 구성된다.
도 4는 도 3에서의 조음특징 검출부의 상세 기능 블럭도를 도시한 것이다.
도 4에 도시된 바와 같이, 상기 조음특징 검출부(301)는 상기 특징벡터가 자음인 경우 그 자음에 해당하는 조음특징을 상기 조음모델 DB에서 검출하는 제1 조음특징 검출기(401)와, 상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DB(104)에서 검출하는 제2 조음특징 검출기(402)로 구성된다.
상기 제1 조음특징 검출기(401)는 상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출하는 발성 유형 검출기(401a)와, 상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출하는 조음방법 검출기(401b)와, 상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하는 조음위치 검출기(401c)로 구성된다.
상기 제2 조음특징 검출기(402)는 상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출하는 입술모양 검출기(402a)와, 상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하는 혀의 고저 검출기(402b)와, 상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하는 혀의 전후 검출기(402c)로 구성된다.
도 5는 도 3에서의 조합부의 상세 기능 블럭도를 도시한 것이다.
도 5에 도시된 바와 같이, 상기 조합부(302)는 상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하는 조음특징 레이블링부(501)와, 상기 조음특징 레이블링부(501)에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB(104)에 저장시키는 조음특징 클러스터링부(502)로 구성된다.
그러면, 상기와 같은 구성을 가지는 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치 및 그 방법에 대해 도 6 및 도 7를 참조하여 설명하기로 한다.
먼저, 특징 추출부(101)는 입력되는 음성신호에서 특징벡터를 추출한다(S501). 탐색부(102)는 상기 특징 추출부(102)에서 추출된 특징벡터에서 조음특징들을 추출하고(S502), 그 조음특징들을 조합하여 조음모델을 생성한 후, 그 생성된 조음모델을 조음모델 DB(104)에 저장시킨다(S503). 이후, 탐색부(102)는 그 조음모델 DB(104)에서 상기 음성신호에서 해당되는 음소를 탐색한 후(S504), 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색한다(S505). 인식 결과 출력부(103)는 상기 탐색부(102)에서 탐색된 최종 단어열을 음성 인식 결과로 출력한다(S506).
상기 탐색부(102)의 상세한 동작을 도 2 내지 도 5를 참조하여 설명한다.
먼저, 상기 탐색부(102)의 조음모델 생성부(201)는 상기 특징 추출부(101)에 서 추출된 특징벡터로부터 조음모델을 생성하여 조음 모델 DB(104)를 구축한다.
즉, 상기 조음모델 생성부(201)의 조음특징 검출부(301)는 상기 특징벡터로부터 조음특징을 검출한다. 상기 조음특징 검출부(301)의 제1 조음특징 검출기(401)는 특징벡터가 자음인 경우, 그 자음에 해당하는 조음특징을 상기 조음모델 DB(104)에서 검출한다. 상기 제1 조음특징 검출기(401)의 발성 유형 검출기(401a)는 상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출한다. 상기 제1 조음특징 검출기(401)의 조음방법 검출기(401b)는 상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출한다. 상기 제1 조음특징 검출기(401)의 조음위치 검출기(401c)는 상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하게 되는 것이다.
이어서, 상기 조음특징 검출부(301)의 제2 조음특징 검출기(402)는 상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DB(104)에서 검출한다. 상기 제2 조음특징 검출기(402)의 입술모양 검출기(402a)는 상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출한다. 상기 조음특징 검출부(301)의 혀의 고저 검출기(402b)는 상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하게 된다. 상기 조음특징 검출부(301)의 혀의 전후 검출기(402c)는 상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하게 되는 것이다.
이와같은 조음특징 정보는 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 구할 수 있는데, 전사문의 각 음소에 해당되는 조음특징 정보 로부터 음소-조음특징 매핑테이블을 참조함으로써 조음정보 기술문을 얻을 수 있다.
일반적으로, 한국의 말소리는 크게 자음과 모음으로 구분된다. 자음은 다시 발성유형, 조음방법, 그리고 조음위치에 따라 구분되고, 모음은 입술모양, 혀의고저, 그리고 혀의 전후에 따라 구분 되어진다. 예를 들어, 자음인 [b]음성을 입력으로 받았을 경우, 발성유형 검출기(401a)는 유성음임을 검출하고, 조음방법 검출기(401b)는 폐쇄음을 검출한다. 그리고 조음위치 검출기(401c)는 양순음임을 검출한다. 입술모양 검출기(402a), 혀의 고저 검출기(402b), 그리고 혀의 전후 검출기(401c)는 [b]음성과 관련된 조음특징 정보가 없기 때문에 어떤 조음특징 정보도 추출하지 못한다. 만약, 모음인 [i]음성을 입력으로 받았다면, [b]음성과는 반대로 발성유형 검출기(401a), 조음방법 검출기(401b), 그리고 조음위치 검출기(401c)는 어떤 조음정보도 추출하지 못한다. 하지만, 입술모양 검출기(402a)는 평순음을 검출하고 혀의 고저 검출기(402b)는 고모음을 검출한다. 마지막으로 혀의 전후 검출기(402c)는 전설음을 검출한다.
이후, 상기 조음모델 생성부(201)의 조합부(302)는 상기 조음특징 검출부(301)에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB(104)에 저장시킨다. 즉, 상기 조합부(302)의 조음특징 레이블링부(501)는 상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하게 된다(S701). 상기 조합부(302)의 조음특징 클러스터링부(502)는 상기 조음특징 레이블링부(501)에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB(104)에 업데이트시킨다(S702-S704). 이와 같은 과정(S701-S704)은 종료조건이 만족할 때 까지 수행된다(S705).
이후, 탐색기(202)는 상기 조음모델 생성부(201)에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색하게 되는 것이다.
이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위내에서 다양하게 변형실시될 수 있다.
상술한 바와 같이 본 발명에 의한 조음모델을 이용한 연속음성인식 장치 및 그 방법에 의하면, 본 발명은 음성신호로부터 조음특징값을 추출하여 조음모델을 생성하고 이를 이용하여 음성인식을 수행한다. 조음특징값은 음성의 생성(speech production)에 대한 정보를 포함하고 있기 때문에 음향정보와 비교하여 볼 때 잡음등에 상대적으로 덜 민감하고 조음모델의 크기도 작기 때문에, 음성 인식시 계산량이 상대적으로 적게 요구되는 효과가 있다.
또한, 본 발명은 음성인식을 수행하는데 있어 조음특징 정보를 이용함으로써 인식시 계산량을 줄이고 잡음환경에서의 음성인식률을 향상시킬 수 있는 효과가 있다.

Claims (14)

  1. 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 수단과;
    상기 특징 추출 수단에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 수단과;
    상기 탐색 수단에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 수단
    을 포함하여 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
  2. 제 1 항에 있어서,
    상기 탐색 수단은 상기 특징벡터로부터 조음모델을 생성하여 조음 모델 DB를 구축하는 조음모델 생성부와;
    상기 조음모델 생성부에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB와 언어모델 DB를 이용하여 최종 단어열을 탐색하는 탐색기
    로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
  3. 제 2 항에 있어서, 상기 조음모델 생성부는
    상기 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 상기 특징벡터로부터 조음특징 정보을 검출하고, 그 음소-조음특징 매핑테이블을 참조하여 조음특징 정보로터 조음정보 기술문을 얻는 조음특징 검출부와;
    상기 조음특징 검출부에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB에 저장시키는 조합부
    로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
  4. 제 3 항에 있어서, 상기 조음특징 검출부는
    상기 특징벡터가 자음인 경우 그 자음에 해당하는 조음특징을 상기 조음모델 DB에서 검출하는 제1 조음특징 검출기와;
    상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DBD에서 검출하는 제2 조음특징 검출기
    로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
  5. 제 4 항에 있어서, 상기 제1 조음특징 검출기는
    상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출하는 발성 유형 검출기와;
    상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출하는 조음방법 검출기와;
    상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하는 조음위치 검출기
    로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
  6. 제 4 항에 있어서, 상기 제2 조음특징 검출기는
    상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출하는 입술모양 검출기와;
    상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하는 혀의 고저 검출기와;
    상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하는 혀의 전후 검출기
    로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
  7. 제 3 항에 있어서, 상기 조합부는
    상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하는 조음특징 레이블링부와;
    상기 조음특징 레이블링부에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB에 저장시키는 조음특징 클러스터링부
    로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식장치.
  8. 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 단계와;
    상기 특징 추출 단계에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 단계와;
    상기 탐색 단계에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 단계
    를 포함하여 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
  9. 제 8 항에 있어서, 상기 탐색 단계는
    상기 특징벡터로부터 조음모델을 생성하여 조음 모델 DB를 구축하는 조음모델 생성 과정과;
    상기 조음모델 생성 과정에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB와 언어모델 DB를 이용하여 최종 단어열을 탐색하는 탐색 과정
    으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
  10. 제 9 항에 있어서, 상기 조음모델 생성 과정은
    상기 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 상기 특징벡터로부터 조음특징 정보을 검출하고, 그 음소-조음특징 매핑테이블을 참조하여 조음특징 정보로터 조음정보 기술문을 얻는 조음특징 검출 과정과;
    상기 조음특징 검출 과정에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB에 저장시키는 조합 과정
    으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
  11. 제 10 항에 있어서, 상기 조음특징 검출 과정은
    상기 특징벡터가 자음인 경우 그 자음에 해당하는 조음특징을 상기 조음모델 DB에서 검출하는 제1 조음특징 검출 서브과정과;
    상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DBD에서 검출하는 제2 조음특징 검출 서브과정
    으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
  12. 제 11 항에 있어서, 상기 제1 조음특징 검출 서브과정은
    상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출하는 발성 유형 검출 과정과;
    상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출하는 조음방법 검출과정과;
    상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하는 조음위치 검출과정
    으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
  13. 제 11 항에 있어서, 상기 제2 조음특징 검출 서브과정은
    상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출하는 입술모양 검출 과정과;
    상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하는 혀의 고저 검출 과정과;
    상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하는 혀의 전후 검출 과정
    으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
  14. 제 10 항에 있어서, 상기 조합 과정은
    상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하는 조음특징 레이블링 과정과;
    상기 조음특징 레이블링 과정에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB에 저장시키는 조음특징 클러스터링과정으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
KR1020050039412A 2004-12-14 2005-05-11 조음모델을 이용한 연속음성인식 장치 및 그 방법 KR20060067107A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040105507 2004-12-14
KR20040105507 2004-12-14

Publications (1)

Publication Number Publication Date
KR20060067107A true KR20060067107A (ko) 2006-06-19

Family

ID=37161723

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050039412A KR20060067107A (ko) 2004-12-14 2005-05-11 조음모델을 이용한 연속음성인식 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20060067107A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
KR100842754B1 (ko) * 2006-12-08 2008-07-01 한국전자통신연구원 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치
KR20190054850A (ko) * 2017-11-14 2019-05-22 주식회사 엘솔루 자동 음성인식 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
KR100842754B1 (ko) * 2006-12-08 2008-07-01 한국전자통신연구원 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치
KR20190054850A (ko) * 2017-11-14 2019-05-22 주식회사 엘솔루 자동 음성인식 장치 및 방법
WO2019098589A1 (ko) * 2017-11-14 2019-05-23 주식회사 시스트란인터내셔널 자동 음성인식 장치 및 방법

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
KR20140028174A (ko) 음성 인식 방법 및 이를 적용한 전자 장치
KR102298901B1 (ko) 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
Sharma et al. Speech recognition in Kannada using HTK and julius: a comparative study
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
KR20060067107A (ko) 조음모델을 이용한 연속음성인식 장치 및 그 방법
US11282495B2 (en) Speech processing using embedding data
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
Park et al. Real-time continuous phoneme recognition system using class-dependent tied-mixture hmm with hbt structure for speech-driven lip-sync
Hacioglu et al. Parsing speech into articulatory events
Siohan CTC Training of Multi-Phone Acoustic Models for Speech Recognition.
JP2938865B1 (ja) 音声認識装置
Hu FSM-based pronunciation modeling using articulatory phonological code
Fosler-Lussier A tutorial on pronunciation modeling for large vocabulary speech recognition
Huang et al. Speech-Based Interface for Visually Impaired Users
Kiran et al. Subtitle generation and video scene indexing using recurrent neural networks
Miyazaki et al. Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations
JPH0384600A (ja) 音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application