KR101578766B1 - 음성 인식용 탐색 공간 생성 장치 및 방법 - Google Patents

음성 인식용 탐색 공간 생성 장치 및 방법 Download PDF

Info

Publication number
KR101578766B1
KR101578766B1 KR1020110090283A KR20110090283A KR101578766B1 KR 101578766 B1 KR101578766 B1 KR 101578766B1 KR 1020110090283 A KR1020110090283 A KR 1020110090283A KR 20110090283 A KR20110090283 A KR 20110090283A KR 101578766 B1 KR101578766 B1 KR 101578766B1
Authority
KR
South Korea
Prior art keywords
search space
word
selective
speech recognition
database
Prior art date
Application number
KR1020110090283A
Other languages
English (en)
Other versions
KR20130026855A (ko
Inventor
김승희
김동현
김영익
박준
조훈영
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110090283A priority Critical patent/KR101578766B1/ko
Publication of KR20130026855A publication Critical patent/KR20130026855A/ko
Application granted granted Critical
Publication of KR101578766B1 publication Critical patent/KR101578766B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 선택적 포즈가 삽입될 단어 목록을 기반으로 요소 WFST를 구성함으로써, 음성 인식의 성능을 떨어뜨리지 않으면서 탐색 공간의 크기 증가를 최소화할 수 있는 음성 인식용 탐색 공간 생성 장치 및 방법에 관한 것이다.
이를 위하여 본 발명은 발음 사전과, 선택적 포즈가 삽입될 단어 목록을 저장하고 있는 단어 목록 데이터베이스와, 상기 발음 사전으로부터 읽어 들인 각 단어의 발음열을 이용하여 탐색 공간을 생성하되, 상기 읽어 드린 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 드린 단어에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 탐색 공간 구현부와, 상기 선택적 포즈가 삽입된 탐색 공간이 저장된 데이터베이스를 포함하는 음성 인식용 탐색 공간 생성 장치를 제공한다.

Description

음성 인식용 탐색 공간 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING INVESTIGATION SPACE IN SPEECH RECOGNITION}
본 발명은 음성 인식용 탐색 공간 생성에 관한 것으로, 더욱 상세하게는 음성인식의 성능을 떨어뜨리지 않으면서 탐색 공간의 크기 증가를 최소화하기 위해 특정 단어에 대해서만 선택적 포즈(pause)를 삽입하여 탐색 공간을 생성할 수 있는 음성 인식용 탐색 공간 생성 장치 및 방법에 관한 것이다.
일반적으로 자동 음성 인식을 위해서는 여러 가지 요소들이 필요하다. 그 중에는 음성 인식의 대상 범위를 나타내는 탐색 공간이 있다. 탐색 공간을 만드는 방법으로는 여러 가지 방법이 있는데, 그 중에서 WFST(Weighted Finite State Transducer)를 이용하는 방법이 널리 확산되고 있다. WFST 방식으로 탐색 공간을 만들기 위해서는 몇 가지의 요소 WFST들이 필요하다. 요소 WFST의 예로는 탐색 대상 문장을 단어 간의 관계로 표현하는 문법 WFST(이하, WFST G), 각 단어들을 문맥 독립 음소를 이용하여 표현하는 발음 사전 WFST(이하, WFST L), 문맥 독립 음소들을 문맥 종속 음소들로 변환하는 문맥 WFST를 들 수 있다.
문장의 시작 혹은 끝에 나타날 수 있는 묵음(silence)은 WFST G에서 표현한다. 그러나, 문장의 중간에서 단어들 사이에 나타날 수 있는 묵음(이하 선택적 pause)은 WFST G에서 표현하는 것보다는 WFST L에서 표현하는 것이 훨씬 효율적이다. 단어들 사이의 pause는 나타날 수도 있고 나타나지 않을 수도 있다. 그래서, 각 단어의 발음열을 정의한 발음사전에는 단어의 발음열에 pause를 포함하지 않는다. 단지, 발음사전을 WFST로 구현한 WFST L에서, 각 단어에 대해 pause가 삽입된 발음열과 pause가 삽입되지 않는 발음열을 모두 WFST로 구현한다. 즉, 인식 과정에서 탐색공간을 탐색할 때 선택적 pause를 거칠 수도 있고, 거치지 않을 수도 있다. WFST 방식이 아닌 형태의 탐색공간을 정의하여 사용하는 인식기에서도 이런 개념은 마찬가지이다.
일반적인 개념에서 설명하면 다음과 같다. 일반적인 연속음성 발화에서는, 경우에 따라 발화 중간에 묵음이 포함될 수 있다. 예를 들어, "어제 오후 2시 경에 제가 전화를 했고 4시 경에 처리되었다는 연락을 받았습니다"라고 얘기를 할 때 '전화를 했고'와 '4시 경에' 사이에 잠시 말을 끊을 수도 있고 아닐 수도 있다. 이렇게 단어 사이에 삽입될 수도 있고 아닐 수도 있는 묵음을 본 발명에서는 선택적 pause라고 언급한다.
일반적으로 연속 음성 인식기에서는 언어모델을 이용하여 단어들간의 관계를 정의한다. 이 때 언어모델은 단어 사이에 삽입될 수 있는 선택적 pause를 고려하지 않는다.
각 단어의 발음은 별도의 발음사전에 정의한다. 선택적 pause는 개별 단어의 발음이 아니라 단어 사이에 삽입될 수 있는 것이므로 개별 단어의 발음으로 취급하지는 않는다. 특정 단어 내에서 항상 묵음이 관측된다면 해당 단어의 발음열의 일부로서 묵음을 반영할 수도 있으나, 이러한 묵음과 선택적 pause는 개념이 다른 것이다.
인식기에서 사용할 탐색 공간은 언어모델에 기반을 두고, 발음사전에 근거하여 단어를 발음열을 구성하는 음소열로 확장하며, 각 음소를 보다 작은 단위로 확장하여 구성된다.
언어모델로부터 발음사전을 이용하여 음소열로 확장하는 과정에서, 선택적 pause를 각 단어의 앞 혹은 뒤에 추가한다.
전술한 바와 같은 종래 기술에 따라 탐색 공간을 구성하는 경우 선택적 pause를 단어에 삽입하지 않으면 사용자의 발화 중 단어 사이에 묵음이 들어간 문장에 대해서 인식 성능이 떨어지는 문제가 발생한다. 반대로, 모든 단어에 대해 일괄적으로 선택적 pause를 삽입할 경우 탐색공간의 크기가 커지는 문제가 발생한다. 탐색 공간의 종류에 따라서 크기 증가의 비율은 다르겠으나, 연속 음성인식 영역의 경우 30% 정도가 증가하는 문제점이 있다.
본 발명은 이와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 음향 모델 훈련용 음성 발화 데이터베이스에 대해 음성 인식을 수행한 후 이를 기반으로 선택적 포즈가 삽입될 단어 목록을 구성하기 위한 장치를 제공한다.
또한, 본 발명은 선택적 포즈가 삽입될 단어 목록을 기반으로 요소 WFST를 구성함으로써, 음성 인식의 성능을 떨어뜨리지 않으면서 탐색 공간의 크기 증가를 최소화할 수 있는 음성 인식용 탐색 공간 생성 장치를 제공한다.
본 발명의 일 관점에 의하면, 본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치는 발음 사전과, 선택적 포즈가 삽입될 단어 목록을 저장하고 있는 단어 목록 데이터베이스와, 상기 발음 사전으로부터 읽어 들인 각 단어의 발음열을 이용하여 탐색 공간을 생성하되, 상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어의 발음열에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 탐색 공간 구현부와, 상기 선택적 포즈가 삽입된 탐색 공간이 저장된 데이터베이스를 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치에서 상기 탐색 공간 구현부는, 상기 선택적 포즈가 삽입된 탐색 공간인 WFST(Weighted Finite State) L을 생성할 수 있는 기능을 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치는 음향 모델 훈련용 음성 발화 데이터베이스와, 선택적 포즈가 일괄 포함된 탐색 공간과, 상기 탐색 공간과 상기 음성 발화 데이터베이스 내 각 전사문을 이용하여 음성 인식을 수행하는 음성 인식부와, 상기 음성 인식부의 음성 인식 수행 결과를 이용하여 단어별 선택적 포즈가 삽입되는 빈도 수를 산출하며, 상기 산출된 빈도 수에 의거하여 상기 단어 목록을 생성하여 상기 단어 목록 데이터베이스를 구축하는 음성 인식 결과 분석부를 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치에서 상기 선택적 포즈가 일괄 포함된 탐색 공간을 구성하는 WFST G는, 상기 음성 발화 데이터베이스 내 전사문으로부터 생성될 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 장치에서 상기 음성 인식 결과 분석부는, 상기 음성 인식 수행 결과를 읽어드린 후 선택적 포즈가 삽입된 단어들을 검색하는 선택적 포즈 검색부와, 상기 단어 각각에 대해 선택적 포즈의 삽입 빈도 수를 산출한 후 상기 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출하여 상기 단어 목록을 구축하는 빈도별 정렬부를 포함할 수 있다.
본 발명의 다른 관점에 따르면, 본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 방법은 음향 모델용 음성 발화 데이터베이스를 이용하여 선택적 포즈가 삽입된 단어 목록을 생성하여 단어 목록 데이터베이스를 구축하는 단계와, 발음 사전으로부터 단어를 읽어 들리는 단계와, 상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 단계와, 상기 선택적 포즈가 삽입된 탐색 공간을 데이터베이스에 저장하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따른 음성 인식용 탐색 공간 생성 방법에서 상기 단어 목록 데이터베이스를 구축하는 단계는, 상기 음향 모델 훈령용 음성 발화 데이터베이스 내 전사문을 읽어 들이는 단계와, 상기 읽어 들인 전사문의 각 단어에 선택적 포즈를 삽입하여 탐색 공간을 생성하는 단계와, 상기 탐색 공간을 포함하는 전사문에 대한 음성 인식을 수행하는 단계와, 상기 음향 모델 훈련용 음성 발화 데이터베이스 내 모든 전사문에 대해 상기 단계들을 반복 수행하며, 상기 반복 수행 결과를 이용하여 단어별 선택적 포즈가 삽입된 빈도 수를 산출하는 단계와, 상기 산출된 단어별 선택적 포즈가 삽입된 빈도 수를 기반으로 상기 단어 목록을 생성하여 상기 단어 목록 데이터베이스를 구축하는 단계를 포함할 수 있다.
삭제
삭제
본 발명의 실시 예에 의하면, 일반적인 음성 인식을 통하지 않고 음향 모델 훈련용 음성 발화 데이터베이스를 이용하여 음성 인식을 수행하기 때문에 음성 인식의 정확도를 높여 선택적 포즈가 삽입될 단어 목록에 대한 정확도를 높일 수 있는 효과가 있다.
또한, 본 발명은 이미 보유 중인 음향 모델 훈련용 음성 발화 데이터베이스를 이용하기 때문에, 선택적 포즈가 삽입될 단어 목록을 구하기 위하여 별도의 음성 발화 데이터베이스를 구축할 필요를 없애는 효과가 있다.
또한, 본 발명은 특정 단어에 대해서만 선택적 포즈를 삽입하여 탐색 공간을 구성하기 때문에 음성 인식의 성능을 떨어뜨리지 않으면서 탐색 공간의 크기 증가를 최소화할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예에 따라 특정 단어에 대해서만 선택적 포즈를 삽입하여 탐색 공간의 요소 중 하나인 WFST L을 생성하기 위한 장치를 도시한 블록도,
도 2는 본 발명의 실시 예에 따라 선택적 포즈를 삽입할 단어 목록을 생성하기 위한 장치를 도시한 블록도,
도 3은 본 발명의 실시 예에 따라 선택적 포즈가 삽입될 단어 목록을 산출하는 과정을 설명하기 위한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하, 첨부된 도면을 참조하여 선택적 포즈가 삽입될 단어 목록을 구성하기 위한 장치 및 방법과 단어 목록을 기반으로 탐색 공간을 구성하기 위한WFST L을 구현하는 장치 및 방법에 대해 설명한다.
도 1은 본 발명의 실시 예에 따라 특정 단어에 대해서만 선택적 포즈를 삽입하여 탐색 공간의 요소 중 하나인 WFST L을 생성하기 위한 장치를 도시한 블록도로서, 발음 사전(100), 단어 목록 데이터베이스(120), WFST L 구현부(140), WFST L 데이터베이스(160) 등을 포함할 수 있다.
WFST L 구현부(140)는 발음 사전(100)을 읽어 들여 각 단어의 발음열을 구한 후 단어 목록 데이터베이스(120)에 저장된 단어 목록과의 비교를 통해 선택적 포즈가 삽입된 WFST L을 생성하여 WFST L 데이터베이스(160)에 저장한다. 즉, WFST L 구현부(140)는 각 단어의 발음열을 WFST로 구현하되, 해당 단어가 단어 목록 데이터베이스(120)에 존재하는 경우 해당 단어에 선택적 포즈를 삽입하여 WFST L을 생성할 수 있다.
본 발명의 실시 예에 따른 단어 목록 데이터베이스(120)에는 선택적 포즈의 삽입이 필요한 단어 목록이 저장되어 있는데, 이러한 단어 목록을 생성하는 과정에 대해 도 2을 참조하여 설명한다.
도 2는 본 발명의 실시 예에 따라 선택적 포즈를 삽입할 단어 목록을 생성하기 위한 장치를 도시한 블록도로서, 음향 모델(200), 음향 모델 훈련용 음성 발화 데이터베이스(210), 음성 인식부(220), 선택적 포즈가 일괄 포함된 탐색 공간(230), 음성 인식 결과 분석부(240) 및 단어 목록 데이터베이스(120) 등을 포함할 수 있다.
음성 인식부(220)는 음향 모델 훈련용 음성 발화 데이터베이스(210)에 저장된 각 전사문과 발화에 대해 음성 인식을 수행하는데, 즉 각 전사문과 선택적 포즈가 일괄 포함된 탐색 공간(230)을 이용하여 음성 인식을 수행한 후 수행 결과를 음성 인식 결과 분석부(240)에 제공할 수 있다. 여기에서, 선택적 포즈가 일괄 포함된 탐색 공간(230)을 구성하는 WFST G는 음향 모델 훈련용 음성 발화 데이터베이스(210) 내 전사문으로부터 생성될 수 있으며, 선택적 포즈가 일괄 포함된 탐색 공간(230)을 구성하는 WFST L은 도 1의 발음 사전(100) 내 각 단어의 발음열에 선택적 포즈를 일괄 삽입하여 구현할 수 있다.
상술한 바와 같이, 일반적인 음성 인식을 통하지 않고 음향 모델 훈련용 음성 발화 데이터베이스(210)를 이용하여 음성 인식을 수행하기 때문에 음성 인식의 정확도를 높일 수 있을 뿐만 아니라 포즈의 검출 성능도 높일 수 있다.
음성 인식부(220)에서 출력되는 음성 인식 결과에는 음성 신호에 포즈가 포함되어 있을 경우 매우 높은 정확도를 갖는 포즈가 포함되어 있다.
음성 인식 결과 분석부(240)는 음성 인식부(220)의 음성 인식 수행 결과, 즉 음향 모델 훈련용 음성 발화 데이터베이스(210)에 저장된 모든 전사문에 대한 음성 인식 수행 결과를 분석하여 선택적 포즈가 삽입될 단어 목록을 구한 후 이를 단어 목록 데이터베이스(120)에 저장할 수 있다. 즉, 음성 인식 결과 분석부(240)는 음성 인식 결과를 기반으로 단어별로 포즈가 삽입된 빈도 수를 산출한 후 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 구함으로써, 선택적 포즈가 삽입될 단어 목록을 구할 수 있다.
상기와 같이 음성 인식 결과 분석부(240)가 음성 인식부(220)의 음성 인식 결과를 기반으로 단어 목록을 산출하는 과정에 대해 도 3을 참조하여 설명한다.
도 3은 본 발명의 실시 예에 따라 선택적 포즈가 삽입될 단어 목록을 산출하는 과정을 도시한 도면이다.
도 3에 도시된 바와 같이, 선택적 포즈 검색부(300)는 음성 인식 결과를 분석하여 선택적 포즈가 삽입된 단어들을 검색하고, 각 단어별 빈도 수를 산출한다.
그런 다음, 빈도별 정렬부(310)는 산출된 빈도 수를 정렬한 후 최상위 빈도의 N개의 단어 목록을 산출하며, 산출된 단어 목록을 이용하여 단어 목록 데이터베이스(120)를 구축할 수 있다. 즉, 빈도별 정렬부(310)는 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출함으로써, 단어 목록 데이터베이스(120)를 구축할 수 있다. 단어 목록 데이터베이스(120)에 저장된 단어 목록은 WFST L 구현을 위해 선택적 포즈가 삽입될 단어들을 의미한다.
이상의 설명에서는 WFST 방식의 탐색 공간을 구현하는 방법을 실시 예로 설명하였으나, 본 발명이 반드시 WFST 방식에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.
100 :발음 사전 120 : 단어 목록 데이터베이스
140 : WFST L 구현부 160 : WFST L 데이터베이스
200 : 음향 모델
210 : 음향 모델 훈련용 음성 발화 데이터베이스
220 : 음성 인식부
230 : 선택적 포즈가 일괄 포함된 탐색 공간
240 : 음성 인식 결과 분석부
300 : 선택적 포즈 검색부
310 :빈도별정렬부

Claims (8)

  1. 발음 사전과,
    선택적 포즈가 삽입될 단어 목록을 저장하고 있는 단어 목록 데이터베이스와,
    상기 발음 사전으로부터 읽어 들인 각 단어의 발음열을 이용하여 탐색 공간을 생성하되, 상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어의 발음열에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 탐색 공간 구현부와,
    상기 선택적 포즈가 삽입된 탐색 공간이 저장된 데이터베이스를 포함하되,
    상기 탐색 공간 구현부는, 상기 선택적 포즈가 삽입된 탐색 공간인 WFST(Weighted Finite State) L을 생성하는 기능을 포함하는 것을 특징으로 하는 음성 인식용 탐색 공간 생성 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    음향 모델 훈련용 음성 발화 데이터베이스와,
    선택적 포즈가 일괄 포함된 탐색 공간과,
    상기 탐색 공간과 상기 음성 발화 데이터베이스 내 각 전사문을 이용하여 음성 인식을 수행하는 음성 인식부와,
    상기 음성 인식부의 음성 인식 수행 결과를 이용하여 단어별 선택적 포즈가 삽입되는 빈도 수를 산출하며, 상기 산출된 빈도 수에 의거하여 상기 단어 목록을 생성하여 상기 단어 목록 데이터베이스를 구축하는 음성 인식 결과 분석부를 포함하는
    음성 인식용 탐색 공간 생성 장치.
  4. 제 3 항에 있어서,
    상기 선택적 포즈가 일괄 포함된 탐색 공간을 구성하는 WFST G는, 상기 음성 발화 데이터베이스 내 전사문으로부터 생성되는
    음성 인식용 탐색 공간 생성 장치.
  5. 제 3 항에 있어서,
    상기 음성 인식 결과 분석부는,
    상기 음성 인식 수행 결과를 읽어드린 후 선택적 포즈가 삽입된 단어들을 검색하는 선택적 포즈 검색부와,
    상기 단어 각각에 대해 선택적 포즈의 삽입 빈도 수를 산출한 후 상기 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출하여 상기 단어 목록을 구축하는 빈도별 정렬부를 포함하는
    음성 인식용 탐색 공간 생성 장치.
  6. 음향 모델용 음성 발화 데이터베이스를 이용하여 선택적 포즈가 삽입된 단어 목록을 생성하여 단어 목록 데이터베이스를 구축하는 단계와,
    발음 사전으로부터 단어를 읽어 들이는 단계와,
    상기 읽어 들인 단어가 상기 단어 목록 데이터베이스에 포함된 경우 상기 읽어 들인 단어에 선택적 포즈를 삽입시켜 탐색 공간을 생성하는 단계와,
    상기 선택적 포즈가 삽입된 탐색 공간을 데이터베이스에 저장하는 단계를 포함하며,
    상기 단어 목록 데이터베이스를 구축하는 단계는,
    상기 음향 모델 훈령용 음성 발화 데이터베이스 내 전사문을 읽어 들이는 제1 단계와,
    상기 읽어 들인 전사문의 각 단어에 선택적 포즈를 삽입하여 탐색 공간을 생성하는 제2 단계와,
    상기 탐색 공간을 포함하는 전사문에 대한 음성 인식을 수행하는 제3 단계와,
    상기 음향 모델 훈련용 음성 발화 데이터베이스 내 모든 전사문에 대해 상기 제1 단계 내지 제3 단계를 반복 수행하며, 상기 반복 수행 결과를 이용하여 단어별 선택적 포즈가 삽입된 빈도 수를 산출하는 제4 단계와,
    상기 산출된 단어별 선택적 포즈가 삽입된 빈도 수를 기반으로 상기 단어 목록을 생성하는 제5 단계를 포함하는
    음성 인식용 탐색 공간 생성 방법.
  7. 삭제
  8. 제 6 항에 있어서,
    상기 단어 목록을 생성하는 제5 단계는,
    상기 산출된 빈도 수가 기 설정된 임계치 이상을 갖는 단어들을 추출하여 단어 목록을 생성하는
    음성 인식용 탐색 공간 생성 방법.
KR1020110090283A 2011-09-06 2011-09-06 음성 인식용 탐색 공간 생성 장치 및 방법 KR101578766B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110090283A KR101578766B1 (ko) 2011-09-06 2011-09-06 음성 인식용 탐색 공간 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110090283A KR101578766B1 (ko) 2011-09-06 2011-09-06 음성 인식용 탐색 공간 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130026855A KR20130026855A (ko) 2013-03-14
KR101578766B1 true KR101578766B1 (ko) 2015-12-22

Family

ID=48177999

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110090283A KR101578766B1 (ko) 2011-09-06 2011-09-06 음성 인식용 탐색 공간 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101578766B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230006625A (ko) 2016-05-27 2023-01-10 주식회사 케이티 Wfst의 최적화를 이용하는 음성 인식 장치 및 음성 인식 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102069700B1 (ko) 2014-05-20 2020-01-23 한국전자통신연구원 특화영역 교체형 음성인식 시스템, 모바일 장치 및 그 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100981540B1 (ko) * 2003-04-24 2010-09-10 주식회사 케이티 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230006625A (ko) 2016-05-27 2023-01-10 주식회사 케이티 Wfst의 최적화를 이용하는 음성 인식 장치 및 음성 인식 방법

Also Published As

Publication number Publication date
KR20130026855A (ko) 2013-03-14

Similar Documents

Publication Publication Date Title
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
EP4018437B1 (en) Optimizing a keyword spotting system
EP2048655B1 (en) Context sensitive multi-stage speech recognition
KR101609473B1 (ko) 영어 말하기 시험의 유창성 평가 시스템 및 방법
CN111862954B (zh) 一种语音识别模型的获取方法及装置
EP1557822A1 (en) Automatic speech recognition adaptation using user corrections
KR20180028893A (ko) 음성 인식 시스템 및 방법
Elloumi et al. Asr performance prediction on unseen broadcast programs using convolutional neural networks
KR101578766B1 (ko) 음성 인식용 탐색 공간 생성 장치 및 방법
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
JP2021033228A (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
KR102051235B1 (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for turkish
Lung et al. Implementation of vocal tract length normalization for phoneme recognition on TIMIT speech corpus
Singh et al. Speech recognition system for north-east Indian accent
JP2011180308A (ja) 音声認識装置及び記録媒体
JP4972660B2 (ja) 音声学習装置及びプログラム
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
Khalifa et al. Statistical modeling for speech recognition
KR20210054001A (ko) 음성인식 서비스를 제공하기 위한 방법 및 장치
Jalalvand et al. A classifier combination approach for Farsi accents recognition
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20181030

Year of fee payment: 4