KR101905827B1 - 연속어 음성 인식 장치 및 방법 - Google Patents

연속어 음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR101905827B1
KR101905827B1 KR1020130073990A KR20130073990A KR101905827B1 KR 101905827 B1 KR101905827 B1 KR 101905827B1 KR 1020130073990 A KR1020130073990 A KR 1020130073990A KR 20130073990 A KR20130073990 A KR 20130073990A KR 101905827 B1 KR101905827 B1 KR 101905827B1
Authority
KR
South Korea
Prior art keywords
vocabulary
representative
vocabularies
generating
unit
Prior art date
Application number
KR1020130073990A
Other languages
English (en)
Other versions
KR20150001191A (ko
Inventor
박기영
정훈
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130073990A priority Critical patent/KR101905827B1/ko
Priority to US14/304,104 priority patent/US20150006175A1/en
Publication of KR20150001191A publication Critical patent/KR20150001191A/ko
Application granted granted Critical
Publication of KR101905827B1 publication Critical patent/KR101905827B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Abstract

본 발명은 대용량 어휘가 포함된 연속어에 대하여 음성 인식을 수행하는 장치 및 방법에 관한 것이다. 본 발명은 동일 종류의 어휘의 수가 매우 많은 대어휘 연속어에서 대어휘를 적당한 개수의 클러스터로 나누고, 해당 클러스터의 대표 어휘를 선정하여 대표 어휘만 포함된 1단계 인식을 수행하며, 1단계 수행한 결과를 이용하여 대표 어휘가 인식되었을 경우 인식된 대표 어휘가 속한 클러스터 내의 모든 단어에 대하여 재인식을 수행한다.

Description

연속어 음성 인식 장치 및 방법 {Apparatus and method for recognizing continuous speech}
본 발명은 연속어에 대하여 음성 인식을 수행하는 장치 및 방법에 관한 것이다. 보다 상세하게는, 대용량 어휘가 포함된 연속어에 대하여 음성 인식을 수행하는 장치 및 방법에 관한 것이다.
오늘날 차량에서는 여러 가지 기기를 조작하는 데에 음성 인식 기술을 이용하고 있다. 가장 대표적인 것이 목적지 지명을 인식하는 데에 음성 인식 기술을 이용하는 것이다. 최근 들어서는 연속어를 인식하는 시스템이 차량 내 음성 인식 시스템으로 점차 확대되고 있다.
그런데 종래 일반적인 연속어 인식 시스템은 수집된 문장의 통계 정보를 이용하여 단어나 단어열의 발생 빈도를 추출하고 이를 이용하여 단어나 단어열의 발생 확률을 계산한 후 음성 인식 단계에서 이 확률 정보를 이용한다.
그러나 목적지 지명 인식의 경우, 발생 가능한 어휘의 수가 수백만개에 이른다. 또한 단어, 단어열 등 어휘들 간의 발생 확률에 큰 차이가 없기 때문에 대부분의 어휘들은 동일 확률로 가정되고, 어휘의 개수에 반비례하여 발생 확률은 매우 낮아진다. 그래서 종래 시스템은 차량에 적용하더라도 목적지 지명을 제대로 인식하지 못한다.
국내공개특허 제2009-0065102호는 클러스터를 구성하여 음성을 인식하는 시스템을 제안하고 있다. 그러나 국내공개특허 제2009-0065102호에 제안된 방법은 고립어를 인식하기에는 적합하나, 연속어를 인식하기에는 부적합한 측면이 있다.
본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, 전체 어휘들 중에서 선택된 대표 어휘들을 이용하여 사용자의 의도가 포함된 문형을 인식하고 그 결과와 유사 어휘들을 이용하여 대용량 어휘가 포함된 연속어를 최종 인식하는 연속어 음성 인식 장치 및 방법을 제안함을 목적으로 한다.
그러나 본 발명의 목적은 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, 연속어로부터 적어도 하나의 어휘를 포함하는 클러스터들을 생성하는 클러스터 생성부; 각 클러스터에서 적어도 하나의 대표 어휘를 추출하는 대표 어휘 추출부; 추출된 대표 어휘들을 기초로 상기 연속어를 최초 인식하여 인식 결과를 도출하는 연속어 최초 인식부; 및 도출된 인식 결과를 기초로 상기 연속어를 최종 인식하는 연속어 최종 인식부를 포함하는 것을 특징으로 하는 연속어 음성 인식 장치를 제안한다.
바람직하게는, 상기 클러스터 생성부는 상기 연속어에 포함된 어휘들의 개수보다 적은 수의 클러스터들을 생성한다.
바람직하게는, 상기 클러스터 생성부는 각 어휘의 발음열을 추출하는 발음열 추출부; 및 추출된 발음열을 벡터로 하여 벡터 양자화(vector quantization) 방법에 따라 상기 연속어로부터 상기 클러스터들을 생성하는 양자화부를 포함한다.
바람직하게는, 상기 대표 어휘 추출부는 클러스터 또는 상기 연속어에서의 어휘의 출현 확률에 따라 상기 대표 어휘를 추출한다.
바람직하게는, 상기 연속어 최종 인식부는 상기 연속어에서 대표 어휘로 추출되지 않은 어휘들을 이용하여 상기 연속어를 최종 인식한다.
바람직하게는, 상기 연속어 음성 인식 장치는 상기 추출된 대표 어휘들을 포함하는 음성 인식용 언어 모델을 생성하는 언어 모델 생성부를 더욱 포함한다.
바람직하게는, 상기 연속어 음성 인식 장치는 내비게이션에 탑재되어 목적지명을 인식할 때 이용된다.
또한 본 발명은 연속어로부터 적어도 하나의 어휘를 포함하는 클러스터들을 생성하는 단계; 각 클러스터에서 적어도 하나의 대표 어휘를 추출하는 단계; 추출된 대표 어휘들을 기초로 상기 연속어를 최초 인식하여 인식 결과를 도출하는 단계; 및 도출된 인식 결과를 기초로 상기 연속어를 최종 인식하는 단계를 포함하는 것을 특징으로 하는 연속어 음성 인식 방법을 제안한다.
바람직하게는, 상기 클러스터들을 생성하는 단계는 상기 연속어에 포함된 어휘들의 개수보다 적은 수의 클러스터들을 생성한다.
바람직하게는, 상기 클러스터들을 생성하는 단계는 각 어휘의 발음열을 추출하는 단계; 및 추출된 발음열을 벡터로 하여 벡터 양자화(vector quantization) 방법에 따라 상기 연속어로부터 상기 클러스터들을 생성하는 단계를 포함한다.
바람직하게는, 상기 대표 어휘를 추출하는 단계는 클러스터 또는 상기 연속어에서의 어휘의 출현 확률에 따라 상기 대표 어휘를 추출한다.
바람직하게는, 상기 연속어를 최종 인식하는 단계는 상기 연속어에서 대표 어휘로 추출되지 않은 어휘들을 이용하여 상기 연속어를 최종 인식한다.
바람직하게는, 상기 대표 어휘를 추출하는 단계와 상기 인식 결과를 도출하는 단계 사이에, 상기 추출된 대표 어휘들을 포함하는 음성 인식용 언어 모델을 생성하는 단계를 포함한다.
본 발명에 따르면 다음 효과를 얻을 수 있다.
첫째, 전체 어휘들 중에서 선택된 대표 어휘들을 이용하여 사용자의 의도가 포함된 문형을 인식하고 그 결과와 유사 어휘들을 이용하여 대용량 어휘가 포함된 연속어를 최종 인식함으로써 대용량 어휘가 포함된 연속어의 인식 성능을 향상시킬 수 있다.
둘째, 최초 인식시 탐색 공간을 제한함으로써 연속어의 인식 속도를 향상시킬 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 연속어 음성 인식 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 2는 도 1의 연속어 음성 인식 장치에 추가되는 구성을 설명하기 위한 블록도이다.
도 3은 도 1에 도시된 연속어 음성 인식 장치의 활용례를 도시한 흐름도이다.
도 4는 본 발명의 바람직한 실시예에 따른 연속어 음성 인식 방법을 도시한 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 본 발명의 바람직한 실시예에 따른 연속어 음성 인식 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 1에 따르면, 연속어 음성 인식 장치(100)는 클러스터 생성부(110), 대표 어휘 추출부(120), 연속어 최초 인식부(130), 연속어 최종 인식부(140), 전원부(150) 및 주제어부(160)를 포함한다.
음성은 인간이 사용하고 있는 통신 매체 중 가장 자연스러운 형태로 자신의 의사 표명 혹은 정보의 생성에 있어서 음성을 이용하는 비중이 매우 높다. 따라서 음성을 매체로 한 사람과 기계 간의 의사소통(Man-Machine Interface)의 필요성이 크게 대두되었으며, 1970년대 중반 이후 음성 인식에 대한 연구가 활발히 전개되어 오고 있다.
1980년대 초반까지 음성 인식 시스템은 주로 인공지능 기법에 기반을 두고 개발되었는데, 이는 실제 사람이 음성을 인식하는데 적용하는 지식을 컴퓨터에 구현한 것이었다. 그 뒤 IBM에서는 HMM(Hidden Markov Model)이라는 통계적 기법을 이용하여 대규모의 음성 인식 시스템을 개발하였는데, HMM은 1980년대 중반 이후 거의 모든 대형 음성 인식 시스템에서 채택되어 음성 인식 기법의 대표주자로 자리잡고 있다.
1990년대 이후의 음성 인식은 단순히 인식의 차원을 뛰어넘어 주어진 음성의 뜻을 파악하고 그에 맞는 대응을 수행하는 음성 이해의 단계에 와 있는데 이는 음성 인식 기술과 자연어 처리 기술의 결합으로 이루어지고 있다.
음성 인식 기술은 그 분류 기준에 따라 여러 가지로 분류할 수 있다.
우선 인식의 대상으로 삼는 화자에 따라 화자 독립 인식 기술과 화자 종속 인식 기술로 분류된다.
먼저 화자 종속 시스템은 특정 화자의 음성을 인식하기 위한 시스템으로 현재 휴대폰에 탑재되어 사용되는 음성 다이얼링(Voice dialing) 시스템이 대표적인 예이다.
화자 독립 시스템은 불특정 다수 화자의 음성을 인식하기 위한 것으로서, 다수 화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행한다.
최근에는 화자 독립 시스템을 구축하고 실제 사용할 때에는 사용자의 음성에 적합하도록 인식 모델을 변형하는 기법들이 개발되고 있는데, 이를 화자 적응 기술이라 한다.
다음으로는 발음의 형태에 따라 고립어 인식 시스템과 연속어 인식 시스템으로 나눌 수 있다.
고립어 인식 시스템에서는 각 단어가 또박또박 발음되고 각 단어 사이에는 충분한 길이의 묵음 구간이 존재한다고 가정하는 것으로, 인식의 초점이 각 단어가 다른 단어와 얼마나 다른가에 있고 인접한 단어의 영향은 무시된다.
이에 반해 연속어 인식 시스템은 문장 단위로 인식을 수행하는 시스템을 의미하며, 각 문장은 평상시와 같이 발음되고 특별히 단어 사이의 묵음은 첨가되지 않는다. 연속어의 경우 한 단어의 특성이 인접한 단어의 발음에 의하여 영향을 받는데 이를 조음 효과(coarticulation effect)라 부른다. 이러한 조음 효과는 연속어 인식을 어렵게 만드는 큰 요소로 자리잡고 있다.
본 발명에서는 대용량 어휘가 포함된 연속어 음성 인식 장치(100)를 제안한다. 연속어 음성 인식 장치(100)는 목적지 지명 인식과 같이 동일 확률을 가지는 대용량 어휘를 포함하는 연속어를 정확하게 인식하기 위한 것이다. 연속어 음성 인식 장치(100)는 전체 어휘들 중에서 추출된 대표 어휘들을 이용하여 사용자의 의도가 포함된 문형을 인식하고, 이후 그 인식 결과와 유사 어휘를 이용하여 재인식을 수행함으로써 인식 성능과 인식 속도를 향상시킬 수 있다.
클러스터 생성부(110)는 연속어로부터 적어도 하나의 어휘를 포함하는 클러스터들을 생성하는 기능을 수행한다. 본 실시예에서 클러스터 생성부(110)는 연속어에 포함된 어휘들의 개수보다 적은 수의 클러스터들을 생성할 수 있다.
도 2는 도 1의 연속어 음성 인식 장치에 추가되는 구성을 설명하기 위한 블록도이다.
도 2에 따르면, 클러스터 생성부(110)는 발음열 추출부(111) 및 양자화부(112)를 포함할 수 있다.
발음열 추출부(111)는 각 어휘의 발음열을 추출하는 기능을 수행한다.
양자화부(112)는 발음열 추출부(111)에 의해 추출된 발음열을 벡터로 하여 벡터 양자화(vector quantization) 방법에 따라 연속어로부터 클러스터들을 생성하는 기능을 수행한다.
다시 도 1을 참조한다.
대표 어휘 추출부(120)는 각 클러스터에서 적어도 하나의 대표 어휘를 추출하는 기능을 수행한다.
대표 어휘 추출부(120)는 클러스터 또는 연속어에서의 어휘의 출현 확률에 따라 대표 어휘를 추출할 수 있다. 일례로, 대표 어휘 추출부(120)는 클러스터에서 한개의 대표 어휘를 추출할 때 클러스터 또는 연속어에서 출현 확률이 가장 높은 어휘를 대표 어휘로 추출한다. 또한 대표 어휘 추출부(120)는 클러스터에서 적어도 두개의 대표 어휘들을 추출할 때 클러스터 또는 연속어에서 출현 확률이 기준값 이상인 어휘들을 대표 어휘로 추출한다.
연속어 최초 인식부(130)는 대표 어휘 추출부(120)에 의해 추출된 대표 어휘들을 기초로 연속어를 최초 인식하여 인식 결과를 도출하는 기능을 수행한다.
연속어 최종 인식부(140)는 연속어 최초 인식부(130)에 의해 도출된 인식 결과를 기초로 연속어를 최종 인식하는 기능을 수행한다. 연속어 최종 인식부(140)는 연속어에서 대표 어휘로 추출되지 않은 어휘들을 이용하여 연속어를 최종 인식할 수 있다.
전원부(150)는 연속어 음성 인식 장치(100)를 구성하는 각 구성에 전원을 공급하는 기능을 수행한다.
주제어부(160)는 연속어 음성 인식 장치(100)를 구성하는 각 구성의 전체 작동을 제어하는 기능을 수행한다.
한편 도 2에 도시된 바와 같이 연속어 음성 인식 장치(100)는 언어 모델 생성부(170)를 더욱 포함할 수 있다.
언어 모델 생성부(170)는 대표 어휘 추출부(120)에 의해 추출된 대표 어휘들을 포함하여 음성 인식용 언어 모델을 생성하는 기능을 수행한다. 언어 모델 생성부(170)에 의해 대표 어휘들을 기초로 한 언어 모델이 생성되면, 연속어 최초 인식부(130)는 이 언어 모델을 이용하여 연속어를 최초 인식한다. 언어 모델 생성부(170)에 의해 생성된 언어 모델은 언어 모델 DB(171)에 저장된다.
이상 바람직한 실시예에 따른 연속어 음성 인식 장치(100)에 대하여 설명하였다. 본 발명에 따른 연속어 음성 인식 장치(100)는 내비게이션에 탑재되어 목적지 지명을 인식할 때 이용될 수 있다.
도 3은 도 1에 도시된 연속어 음성 인식 장치의 활용례를 도시한 흐름도이다.
대용량 어휘가 포함된 연속어를 인식하는 장치는 일실시예로써 도 3에 도시된 바와 같이 구동될 수 있다.
먼저 전체 N개의 대용량 어휘(310)가 입력되면(S410) 이 대용량 어휘(310)를 클러스터 1, 클러스터 2, …, 클러스터 K, …, 클러스터 M 등 N보다 작은 임의의 정수 M개의 그룹으로 클러스터링한다(㉮). 도 3에서 도면부호 311은 클러스터를 의미한다.
㉮ 단계는 발음열이 비슷한 단어를 하나의 그룹으로 묶는 과정으로, 예를 들어 전체 N개의 어휘의 발음열을 추출하여 각 발음열을 하나의 벡터로 간주한 후 벡터 양자화(VQ; Vector Quantization) 방법을 적용할 수 있다. M은 N보다 작은 임의의 정수로 실험을 통하여 사전에 미리 정할 수도 있고 벡터 양자화 과정에서 각 클러스터 간의 거리를 비교하여 자동으로 결정될 수도 있다.
㉮ 단계 이후 각 클러스터당 1개 이상의 대표 어휘 L개를 추출한다(㉯).
㉯ 단계는 1단계 인식시에 필요한 언어 모델에 각 클러스터의 대표명으로 들어갈 단어를 추출하는 단계로, 클러스터 내의 임의의 것을 선택하거나 또는 클러스터 내의 단어 중 출현 확률이 가장 높은 것을 고를 수 있다.
㉯ 단계 이후 L개의 대표 어휘를 포함하는 음성 인식용 언어 모델을 생성한다(㉰).
㉰ 단계에서는 일반적인 음성 인식에서 사용하는 것과 동일한 방식으로 언어 모델을 생성한다. 대표 어휘가 포함된 언어 모델 코퍼스(320)가 이렇게 생성된 언어 모델을 의미한다.
다만 대용량 어휘 N개의 모든 단어에 대해서 만드는 것이 아니라 N개의 어휘 중 M개만을 이용한다. 언어 모델 생성용 데이터에 모집단의 어휘가 있는 경우 각 대표 어휘로 대치하여 언어 모델을 훈련한다.
㉰ 단계 이후 대표 어휘만을 포함하여 생성한 언어 모델을 이용하여 인식(S420)을 수행한 이후 1단계 인식 결과를 도출한다(㉱).
㉱ 단계에서는 ㉰ 단계에서 생성된 언어 모델을 이용하여 일반적인 음성 인식을 수행한다. 이 결과에는 전체 N개의 대용량 인식 어휘 중 L개만이 출현 가능하며, 나머지 N-L개는 출현할 수 없다.
㉱ 단계 이후 1단계 인식 결과가 속한 클러스터 내의 단어를 인식 대상 어휘까지 포함하여 재인식하는 2단계 인식을 수행한다(㉲).
㉲ 단계는 ㉱ 단계에서 인식된 결과로부터 최종 인식 결과를 추출하는 단계로, 1단계 인식 결과에서 대표 어휘가 인식된 위치에 실제로는 다른 어휘를 발성했을 수 있으므로 인식된 대표 어휘를 클러스터 내의 다른 어휘로 대치될 수 있다고 가정하고 인식 이미지를 생성(S430, S440)한 이후 재인식(S450)을 수행하여 최종 인식 결과(S460)를 도출한다.
이상 도 3을 참조하여 설명한 방법은 내비게이션 상에서 목적지 지명과 같이 유사한 종류의 어휘가 대규모로 섞여서 인식되어야 하는 경우 어휘 수 증가에 따른 인식 성능 저하를 방지할 수 있다. 또한 대용량 어휘를 포함하는 연속어를 인식할 때 인식 성능을 향상시킬 수 있고 인식시 탐색 공간을 감소시켜 인식 속도도 향상시킬 수 있다.
도 4는 본 발명의 바람직한 실시예에 따른 연속어 음성 인식 방법을 도시한 흐름도이다.
먼저 동일 종류의 어휘의 수가 매우 많은 대어휘 연속어에서 대어휘를 적당한 개수의 클러스터로 나눈다. 이후 해당 클러스터의 대표 어휘를 선정하여 대표 어휘만 포함된 1단계 인식을 수행하며, 1단계 수행한 결과를 이용하여 대표 어휘가 인식되었을 경우 인식된 대표 어휘가 속한 클러스터 내의 모든 단어에 대하여 재인식을 수행한다. 이하 보다 자세하게 설명한다.
먼저 클러스터 생성부가 연속어로부터 적어도 하나의 어휘를 포함하는 클러스터들을 생성한다(S10).
이후 대표 어휘 추출부가 각 클러스터에서 적어도 하나의 대표 어휘를 추출한다(S20).
이후 연속어 최초 인식부가 대표 어휘 추출부에 의해 추출된 대표 어휘들을 기초로 연속어를 최초 인식하여 인식 결과를 도출한다(S30).
이후 연속어 최종 인식부가 연속어 최초 인식부에 의해 도출된 인식 결과를 기초로 연속어를 최종 인식한다(S40).
한편, 언어 모델 생성부가 대표 어휘 추출부에 의해 추출된 대표 어휘들을 포함하여 음성 인식용 언어 모델을 생성할 수 있다. 언어 모델 생성부는 이 단계를 S20 단계와 S30 단계 사이에 수행하며, 연속어 최초 인식부는 S30 단계에서 이 언어 모델을 이용하여 인식 결과를 도출할 수 있다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.
또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (13)

  1. 연속어로부터 적어도 하나의 어휘를 포함하는 클러스터들을 생성하는 클러스터 생성부;
    각 클러스터에서 적어도 하나의 대표 어휘를 추출하는 대표 어휘 추출부;
    추출된 대표 어휘들을 기초로 상기 연속어를 최초 인식하여 인식 결과를 도출하는 연속어 최초 인식부; 및
    도출된 인식 결과를 기초로, 상기 연속어에서 대표 어휘로 추출되지 않은 어휘들을 이용하여 상기 연속어를 최종 인식하는 연속어 최종 인식부
    를 포함하는 연속어 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 클러스터 생성부는 상기 연속어에 포함된 어휘들의 개수보다 적은 수의 클러스터들을 생성하는 것을 특징으로 하는 연속어 음성 인식 장치.
  3. 제 1 항에 있어서,
    상기 클러스터 생성부는,
    각 어휘의 발음열을 추출하는 발음열 추출부; 및
    추출된 발음열을 벡터로 하여 벡터 양자화(vector quantization) 방법에 따라 상기 연속어로부터 상기 클러스터들을 생성하는 양자화부
    를 포함하는 것을 특징으로 하는 연속어 음성 인식 장치.
  4. 제 1 항에 있어서,
    상기 대표 어휘 추출부는 클러스터 또는 상기 연속어에서의 어휘의 출현 확률에 따라 상기 대표 어휘를 추출하는 것을 특징으로 하는 연속어 음성 인식 장치.
  5. 삭제
  6. 제 1 항에 있어서,
    상기 추출된 대표 어휘들을 포함하는 음성 인식용 언어 모델을 생성하는 언어 모델 생성부
    를 더욱 포함하는 것을 특징으로 하는 연속어 음성 인식 장치.
  7. 제 1 항에 있어서,
    상기 연속어 음성 인식 장치는 내비게이션에 탑재되어 목적지명을 인식할 때 이용되는 것을 특징으로 하는 연속어 음성 인식 장치.
  8. 연속어로부터 적어도 하나의 어휘를 포함하는 클러스터들을 생성하는 단계;
    각 클러스터에서 적어도 하나의 대표 어휘를 추출하는 단계;
    추출된 대표 어휘들을 기초로 상기 연속어를 최초 인식하여 인식 결과를 도출하는 단계; 및
    도출된 인식 결과를 기초로, 상기 연속어에서 대표 어휘로 추출되지 않은 어휘들을 이용하여 상기 연속어를 최종 인식하는 단계
    를 포함하는 연속어 음성 인식 방법.
  9. 제 8 항에 있어서,
    상기 클러스터들을 생성하는 단계는 상기 연속어에 포함된 어휘들의 개수보다 적은 수의 클러스터들을 생성하는 것을 특징으로 하는 연속어 음성 인식 방법.
  10. 제 8 항에 있어서,
    상기 클러스터들을 생성하는 단계는,
    각 어휘의 발음열을 추출하는 단계; 및
    추출된 발음열을 벡터로 하여 벡터 양자화(vector quantization) 방법에 따라 상기 연속어로부터 상기 클러스터들을 생성하는 단계
    를 포함하는 것을 특징으로 하는 연속어 음성 인식 방법.
  11. 제 8 항에 있어서,
    상기 대표 어휘를 추출하는 단계는 클러스터 또는 상기 연속어에서의 어휘의 출현 확률에 따라 상기 대표 어휘를 추출하는 것을 특징으로 하는 연속어 음성 인식 방법.
  12. 삭제
  13. 제 8 항에 있어서,
    상기 추출된 대표 어휘들을 포함하는 음성 인식용 언어 모델을 생성하는 단계
    를 더욱 포함하는 것을 특징으로 하는 연속어 음성 인식 방법.
KR1020130073990A 2013-06-26 2013-06-26 연속어 음성 인식 장치 및 방법 KR101905827B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130073990A KR101905827B1 (ko) 2013-06-26 2013-06-26 연속어 음성 인식 장치 및 방법
US14/304,104 US20150006175A1 (en) 2013-06-26 2014-06-13 Apparatus and method for recognizing continuous speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130073990A KR101905827B1 (ko) 2013-06-26 2013-06-26 연속어 음성 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150001191A KR20150001191A (ko) 2015-01-06
KR101905827B1 true KR101905827B1 (ko) 2018-10-08

Family

ID=52116455

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130073990A KR101905827B1 (ko) 2013-06-26 2013-06-26 연속어 음성 인식 장치 및 방법

Country Status (2)

Country Link
US (1) US20150006175A1 (ko)
KR (1) KR101905827B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2523353B (en) * 2014-02-21 2017-03-01 Jaguar Land Rover Ltd System for use in a vehicle
KR101988222B1 (ko) 2015-02-12 2019-06-13 한국전자통신연구원 대어휘 연속 음성 인식 장치 및 방법
KR102434604B1 (ko) * 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
CN106601259B (zh) * 2016-12-13 2021-04-06 北京奇虎科技有限公司 一种基于声纹搜索的信息推荐方法及装置
CN110019696A (zh) * 2017-08-09 2019-07-16 百度在线网络技术(北京)有限公司 查询意图标注方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
WO2003088209A1 (fr) * 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme
US20040210437A1 (en) * 2003-04-15 2004-10-21 Aurilab, Llc Semi-discrete utterance recognizer for carefully articulated speech
US7606708B2 (en) * 2005-02-01 2009-10-20 Samsung Electronics Co., Ltd. Apparatus, method, and medium for generating grammar network for use in speech recognition and dialogue speech recognition
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
WO2008033439A2 (en) * 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents

Also Published As

Publication number Publication date
US20150006175A1 (en) 2015-01-01
KR20150001191A (ko) 2015-01-06

Similar Documents

Publication Publication Date Title
US10249294B2 (en) Speech recognition system and method
KR101237799B1 (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
JP4749387B2 (ja) 子供に向けられた発話を使用してモデル・ベースの音声の区分化をブートストラップすること、および認識システム
US8600749B2 (en) System and method for training adaptation-specific acoustic models for automatic speech recognition
US20160049144A1 (en) System and method for unified normalization in text-to-speech and automatic speech recognition
CN105654940B (zh) 一种语音合成方法和装置
KR20140028174A (ko) 음성 인식 방법 및 이를 적용한 전자 장치
KR101905827B1 (ko) 연속어 음성 인식 장치 및 방법
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
KR102094935B1 (ko) 음성 인식 시스템 및 방법
CN112242144A (zh) 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
Imseng et al. Fast and flexible Kullback-Leibler divergence based acoustic modeling for non-native speech recognition
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
Soltau et al. Reducing the computational complexity for whole word models
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Ons et al. A self learning vocal interface for speech-impaired users
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Li et al. Cantonese automatic speech recognition using transfer learning from mandarin
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
Deng et al. Prosodic information-assisted dnn-based mandarin spontaneous-speech recognition
KR102637025B1 (ko) 자동 음성 인식을 위한 다언어 리스코어링 모델들
CN104756183A (zh) 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant