KR100908444B1 - 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법 - Google Patents

음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법 Download PDF

Info

Publication number
KR100908444B1
KR100908444B1 KR1020070070733A KR20070070733A KR100908444B1 KR 100908444 B1 KR100908444 B1 KR 100908444B1 KR 1020070070733 A KR1020070070733 A KR 1020070070733A KR 20070070733 A KR20070070733 A KR 20070070733A KR 100908444 B1 KR100908444 B1 KR 100908444B1
Authority
KR
South Korea
Prior art keywords
phoneme
recognition
word
search space
speech recognition
Prior art date
Application number
KR1020070070733A
Other languages
English (en)
Other versions
KR20080052268A (ko
Inventor
전형배
박준
김승희
황규웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US11/950,130 priority Critical patent/US8032374B2/en
Publication of KR20080052268A publication Critical patent/KR20080052268A/ko
Application granted granted Critical
Publication of KR100908444B1 publication Critical patent/KR100908444B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치 및 방법에 관한 것으로, 음소 인식 결과를 기반으로 단어의 경계 부분에서 천이될 연결 단어를 제한하는 방식으로 탐색공간을 1차적으로 줄이는 한편, 천이될 연결 단어가 음소 인식 결과와 얼마나 유사한지를 음소 코드를 통해 빠르게 계산하여 유사도가 소정 기준값 이상인 연결 단어에 대해서만 단어 천이를 수행하여 탐색공간을 2차적으로 줄여 음성인식을 수행함으로써, 다양한 음성인식 서비스에 있어서 음성인식 속도와 성능을 개선할 수 있는 것을 특징으로 한다.
음소 인식, 단어인식, 음성 인식

Description

음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치 및 방법{The method and apparatus for recognizing continuous speech using search network restriction based of phone recognition}
본 발명은 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치 및 방법에 관한 것으로, 더 자세하게는 연속음성인식에 있어 단어의 경계 부분에서 음소 인식 결과를 기반으로 천이될 연결 단어를 제한하는 방식으로 탐색공간을 줄여 음성인식 속도와 성능을 개선하는 기술에 관한 것이다.
일반적으로 연속음성인식 시스템에서는 탐색공간을 제한하기 위하여 단어 네트워크(word network)를 사용하며, 단어네트워크는 주로 FSN(Finite State Network), word-pair grammar, N-gram 등으로 구현된다. 주요 개념은 한 단어 뒤에 나타날 수 있는 단어들을 연결하되 규칙에 의해 고정시키거나 통계적인 확률값을 연결하는 것이다.
상기 word-pair grammar는 특정 단어 뒤에 나타날 수 있는 단어들만 연결시키는 것으로, 예를 들어, " 먹고" + " 싶습니다" 는 순서대로 연결이 가능하지만 그 반대로는 연결될 수 없는 것을 이용하여 탐색을 수행하는 방식이다. 하지만, 상 기 word-pair grammar는 사용자의 발화내용이 미리 정의된 표준적인 문법 구조를 벗어나는 경우에는 탐색이 불가능하다는 문제점이 있다.
상기 N-gram은 단어와 단어 사이의 연결에 통계적인 확률을 이용하는 것으로, 학습 데이터 뭉치를 이용해서 어떤 단어가 한 단어 다음에 나타날 확률을 계산하여 확률이 높은 쪽으로 탐색을 수행하는 방식이다. 하지만, 상기 N-gram은 대용량의 말뭉치가 있어야만 활용이 가능하며 대화체 음성 인식에는 부적합하다는 문제점이 있다.
상기 FSN(Finite State Network)은 구성가능한 문장들을 모두 네트워크로 묶는 것으로, 이 방법은 인식 성능은 빨라지지만, 인식하고자 하는 문장 패턴이 증가하게 되면 FSN으로 표현되는 탐색 네트워크의 크기가 증가하게 되고 이로 인해 탐색시간의 증가와 음성인식 성능의 저하를 가져오게 된다는 문제점이 있다.
본 발명은 상기한 문제점들을 해결하기 위해 안출된 것으로, 본 발명의 목적은 연속음성인식 단계를 2 단계로 나누어, 1차 음성인식 단계에서는 음소 인식을 수행하고, 2차 음성인식 단계에서는 상기 음소 인식 결과를 기반으로 단어의 경계 부분에서 천이될 연결 단어를 제한하는 방식으로 탐색공간을 줄여 음성인식을 수행함으로써 음성인식 속도와 성능을 개선하는 것이다.
상기 목적을 달성하기 위하여 본 발명에 따른 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치는, 입력된 음성신호로부터 특징벡터를 추출하는 음성 특징 추출부; 상기 음성신호의 특징벡터를 기반으로 음소를 인식하는 음소 인식부; 및 상기 음소 인식 결과를 기반으로 탐색공간이 제한된 연결 단어 탐색 네트워크를 구성하여 상기 연결 단어 탐색 네트워크를 기반으로 음성인식을 수행하는 음소 기반 음성인식부를 포함하며, 상기 음소 기반 음성인식부는, 상기 음소 인식 결과를 기반으로 단어의 경계 부분에서 천이될 연결 단어를 제한하여 탐색공간을 제한하고, 상기 음소 인식 결과와 상기 천이될 연결 단어와의 유사도를 계산하여 소정 기준값 이상의 유사도를 가진 연결 단어에 대하여 단어 천이를 수행하여 탐색공간을 제한하는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위하여 본 발명에 따른 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 방법은, (a) 입력된 음성신호로부터 특징벡터를 추출하는 단계; (b) 상기 음성신호의 특징벡터를 기반으로 음소를 인식하는 단계; 및 (c) 상기 음소 인식 결과를 기반으로 탐색공간이 제한된 연결 단어 탐색 네트워크를 구성하여 상기 연결 단어 탐색 네트워크를 기반으로 음성인식을 수행하는 단계를 포함하며, 상기 (c) 단계에서, 상기 음소 인식 결과를 기반으로 단어의 경계 부분에서 천이될 연결 단어를 제한하여 탐색공간을 제한하는 제 1 단계; 및 상기 음소 인식 결과와 상기 천이될 연결 단어와의 유사도를 계산하여 소정 기준값 이상의 유사도를 가진 연결 단어에 대하여 단어 천이를 수행하여 탐색공간을 제한하는 제 2 단계를 더 포함하는 것을 특징으로 한다.
본 발명에 따르면, 연속음성인식에 있어 음소 인식 결과를 기반으로 단어의 경계 부분에서 천이될 연결 단어를 제한하는 방식으로 탐색공간을 줄여 음성인식을 수행함으로써, 다양한 음성인식 서비스에 있어서 음성인식 속도와 성능을 개선할 수 있는 효과가 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치의 블록 구성도이다.
도 1을 참조하면, 본 발명에 따른 연속음성인식 장치(100)는, 음성 특징 추출부(110), 음소 인식부(120), 음소 탐색 네트워크(130), 문맥독립 음향모델(140), 음소 기반 음성인식부(150), 연결 단어 탐색 네트워크(160), 문맥종속 오류모델(170), 발음사전(180) 등을 포함한다.
상기 음성 특징 추출부(110)는 입력된 음성신호로부터 특징벡터를 추출하여 이를 음소 인식부(120)로 전달한다.
상기 음소 인식부(120)는 상기 음성 특징 추출부(110)를 통해 추출된 특징벡터를 기반으로 음소를 인식하여 출력하며, 이 때, 음소의 자음과 모음으로 구성된 음소 탐색 네트워크(130)와 문맥독립 음향모델(140)이 음소 인식에 이용된다.
상기 음소 기반 음성인식부(150)는 상기 음소 인식 결과를 기반으로 탐색 네 트워크(SN)로부터 탐색공간이 제한된 연결 단어 탐색 네트워크(160)를 구성하여 이를 기반으로 음성인식을 수행하는데, 이에 대하여 도 2을 참조하여 더 자세히 설명하면 다음과 같다.
도 2는 본 발명에 따른 음소 인식 기반의 탐색공간 제한 방법을 설명하기 위한 도면이다.
도 2를 참조하면, 예를 들어 "서울에서 대전까지 KTX 자리 있나요?"(201)라는 음성이 입력된 경우, 상기 음소 인식부(120)에서는 음소 인식을 수행하여 음소 인식 결과로서 "ㅅㅓㅗㄹㅔㅅㅓㅓㅌㅐㅉㅓㅇㅋㅏㅕ_ㄷㅊㅣㅋㅡㅣㅋㅖㅣ_ㄱㅆㅡㅐㅊㅐㄷㅟㅣ_ㄴㄴㅡㅛㅂ"(202)를 출력한다.
그 다음, 상기 음소 기반 음성인식부(150)는 상기 음소 인식 결과를 한 음소씩 입력받아 문맥종속 오류모델(170)과 발음사전(180)을 이용하여 입력된 음소에 해당하는 단어를 인식하는데, 예를 들어 "ㅅㅓㅗㄹ"(203)은 "서울"(203A)로, "ㅔㅅㅓㅓ"(204)는 "에서"(204A)로 인식한다.
이 때, 가능한 탐색 네트워크(SN)에 정의되어 있는 단어로 인식하는 것이 바람직하다.
그 다음, 상기 음소 기반 음성인식부(150)는 인식된 단어를 기반으로 탐색공간이 제한된 연결 단어 탐색 네트워크(160)를 구성하는데, 예를 들어 "서울(203A)+에서(204A)" 다음에 올 수 있는 단어는 지명일 확률이 높기 때문에, 지명에 해당하는 "대전"(206), "대구"(207), "포항"(208), "부산"(209) 등의 단어들로 연결 단어 탐색 네트워크(160)를 구성한다.
즉, 이와 같이 단어의 경계 부분(단어 천이가 이루어지는 부분)에서, 음소 인식 결과를 이용하여 다음에 천이될 연결 단어를 제한해 줌으로써, 탐색공간을 줄여 음성인식 속도와 성능을 향상시킬 수 있게 되는 것이다.
그 다음, 상기 음소 기반 음성인식부(150)는 현재까지 인식이 수행된 음소열 이후의 N 개의 음소열 "ㅌㅐㅉㅓㅇ"(205)을 "00000001001000101…"(205')과 같은 음소 코드로 변환하는데, 상기 음소 코드에 대하여 도 3을 참조하여 더 자세히 설명하면 다음과 같다.
도 3은 본 발명에서 이용되는 음소 코드를 설명하기 위한 도면이다.
도 3을 참조하면, 음소 코드는, 인식 대상의 음소집합 "ㄱㄴㄷㄹㅁㅂㅅㅇㅈㅊㅋㅌㅍㅎㅏㅓㅔㅐㅣㅗㅜㅡㅑ"(P)을 순서대로 나열한 상태에서, 단어상에 해당 순서의 음소가 존재하면 해당 코드값을 "1"로, 존재하지 않으면 해당 코드값을 "0" 으로 설정하고, 다중 발음 환경을 고려하여 발음 변이가 가능한 음소가 존재할 경우에도 해당 코드값을 "1"로 설정한 것으로, 예를 들어, "대전"(206)이 "대전" 그대로 발음될 수도 있지만 "테전"으로 발음될 수도 있다고 가정하면, "대전"(206)에 대하여 "ㄷ", "ㅈ", "ㅐ", "ㅓ" 외에 "ㅌ", "ㅔ" 에 해당하는 코드를 "1"로 설정하여 결과적으로 "대전"(206)은 "00100001001000111…"(206')의 음소코드로 변환될 수 있다.
이와 유사한 방식으로, "대구"(207)는 "1010000000100001100100…"(207')의 음소 코드로, "포항"(208)은 "0000000000011100001000…"(208')의 음소 코드로, "부산"(209)은 "11000000100000100…"(209')의 음소 코드로 변환될 수 있다.
한편, 상기와 같은 음소 코드 정의에 따라 상기 발음사전(180)에 존재하는 모든 단어들에 대해 음소 코드를 미리 정의하여, 해당 단어의 발음열과 함께 저장하는 것이 바람직하다.
다시 도 2를 참조하면, 상기 음소 기반 음성인식부(150)는 상기 "ㅌㅐㅉㅓㅇ"(205)의 음소 코드(205')와 상기 연결 단어 탐색 네트워크(160)상의 천이될 연결 단어들(206, 207, 208, 209)의 음소코드(206', 207', 208', 209')와의 유사도를 계산한다.
이를 좀 더 자세히 설명하면, 상기 "ㅌㅐㅉㅓㅇ"(205)의 음소 코드인 "00000001001000101…"(205')와 천이될 연결 단어 "대전"(206)의 음소 코드(206')를 AND 연산하면 "00000001001000101"이 얻어지고, 그 결과의 각 코드값을 더하면 "4"가 되는데, 이 값은 두 음소 코드에서 동일하게 존재하는 음소의 갯수를 의미하며, 그 값이 크면 클수록 두 음소 코드가 유사한 것으로 판단할 수 있으므로 이를 음소 코드간의 유사도로 이용할 수 있다.
이와 동일한 방식으로, 연결 단어 "대구"(207)의 음소 코드(207')와 AND 연산하여 얻어진 유사도는 "2"이고, 연결 단어 "포항"(208)의 음소 코드(208')와 AND 연산하여 얻어진 유사도는 "1"이며, 연결 단어 "부산"(209)의 음소 코드(209')와 AND 연산하여 얻어진 유사도는 "0"이다.
그 다음, 상기 음소 기반 음성인식부(150)는 소정 기준값(예를 들어 "2") 미만의 유사도를 가진 연결 단어(예를 들어, "포항"(208), "부산"(209))를 탐색 경로상에서 삭제하여 해당 연결 단어로 천이가 수행되지 않도록 한다.
여기에서, 상기 기준값은 당업자에 의해 다양하게 변경될 수 있음은 물론이다.
그 다음, 상기 음소 기반 음성인식부(150)는 소정 기준값(예를 들어 "2") 이상의 유사도를 가진 연결 단어(예를 들어, "대전"(206), "대구"(207))만을 대상으로 단어 천이를 수행하고 이에 따른 음성인식을 수행한다. 이 때, 음향 모델로 Discrete HMM Model(DHMM) 기반의 문맥종속 오류모델(170)을 이용하여 음성 인식의 오류 유형인 삽입오류, 삭제 오류, 치환 오류를 정정하는 것이 바람직하다.
즉, 본 발명의 연속음성인식 장치(100)는, 음소 인식 결과를 기반으로 단어의 경계 부분에서 천이될 연결 단어를 제한하는 방식으로 탐색공간을 1차적으로 줄이는 한편, 천이될 연결 단어가 음소 인식 결과와 얼마나 유사한지를 음소 코드를 통해 빠르게 계산하여 유사도가 소정 기준값 이상인 연결 단어에 대해서만 단어 천이를 수행하여 탐색공간을 2차적으로 줄여 음성인식을 수행하므로, 연속음성인식 시스템에 있어서 음성인식 속도와 성능 향상을 기대할 수 있다.
이하, 본 발명에 따른 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 방법에 대하여 도 4를 참조하여 상세히 설명한다.
도 4는 본 발명에 따른 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 방법을 나타낸 흐름도이다.
우선, 음성신호가 입력되면(S410), 입력된 음성신호로부터 특징벡터를 추출한다(S420).
다음으로, 상기 추출된 특징벡터를 기반으로 음소를 인식하며(S430), 이 때, 음소의 자음과 모음으로 구성된 음소 탐색 네트워크(130)와 문맥독립 음향모델(140)이 음소 인식에 이용된다.
다음으로, 상기 음소 인식 결과를 기반으로 탐색 네트워크(SN)로부터 탐색공간이 제한된 연결 단어 탐색 네트워크(160)를 구성하여 이를 기반으로 음성인식을 수행하는데(S440), 이에 대하여 더 자세히 설명하면 다음과 같다.
우선, 상기 음소 인식 결과를 한 음소씩 입력받아 문맥종속 오류모델(170)과 발음사전(180)을 이용하여 입력된 음소에 해당하는 단어를 인식한다(S441). 이 때, 가능한 탐색 네트워크(SN)에 정의된 단어로 인식하는 것이 바람직하다.
그 다음, 상기 인식된 단어를 기반으로 탐색공간이 제한된 연결 단어 탐색 네트워크(160)를 구성한다(S442). 예를 들어 도 2에서와 같이, "서울(203A)+에서(204A)" 다음에 올 수 있는 단어는 지명일 확률이 높기 때문에, 지명에 해당하는 "대전"(206), "대구"(207), "포항"(208), "부산"(209) 등의 단어들로 연결 단어 탐색 네트워크(160)를 구성한다.
그 다음, 현재까지 인식이 수행된 음소열 이후의 N 개의 음소열을 음소 코드로 변환하며(S443), 상기 음소 코드에 대하여는 상기 도 3과 관련된 설명에서 자세히 하였으므로 이에 대한 자세한 설명은 생략한다.
그 다음, 상기 N 개의 음소열의 음소 코드와 상기 연결 단어 탐색 네트워크(160)상의 천이될 연결 단어의 음소 코드에서 동일하게 존재하는 음소의 갯수를 추출하여 유사도를 계산한다(S444).
상기 유사도 계산 방법에 대하여 좀 더 자세히 설명하면, 상기 N 개의 음소 열의 음소 코드와 상기 천이될 연결 단어의 음소 코드를 AND 연산한 후, 상기 AND 연산 결과의 각 코드값을 더하면, 두 음소 코드에서 동일하게 존재하는 음소의 갯수가 추출되는데, 그 값이 크면 클수록 두 음소 코드가 유사한 것으로 판단할 수 있으므로 이를 두 음소 코드간의 유사도로 이용하는 것이다.
그 다음, 상기 유사도가 소정 기준값 이상인지를 확인하여(S445), 기준값 이상의 유사도를 가진 연결 단어만을 대상으로 단어 천이를 수행하고(S446), 이에 따른 음성인식을 수행한다(S447).
이 때, 상기 음성인식시 음향 모델로 Discrete HMM Model(DHMM) 기반의 문맥종속 오류모델(170)을 이용하여 음성 인식의 오류 유형인 삽입오류, 삭제 오류, 치환 오류를 정정하는 것이 바람직하다.
만약, 상기 유사도가 소정 기준값 미만인 경우, 해당 연결 단어를 탐색 경로상에서 삭제하여 해당 연결 단어로 천이가 수행되지 않도록 한다(S448).
즉, 이와 같이 단어의 경계 부분(단어 천이가 이루어지는 부분)에서, 음소 인식 결과를 이용하여 천이될 연결 단어를 제한해 줌으로써, 탐색공간을 줄여 음성인식 속도와 성능을 향상시킬 수 있게 되는 것이다.
전술한 바와 같이, 일반적인 연속음성인식 방법은 모든 가능한 문장패턴과 문형을 포함하도록 구성된 탐색 네트워크 공간내에서 음성의 특징데이터를 기반으로 가장 확률적으로 가능성이 높은 단어열을 음성인식 결과로 출력하기 때문에 음성인식 속도가 저하될 수 밖에 없는 구조적인 문제점을 갖고 있으나, 본 발명의 연속음성인식 방법은 음소 인식 결과를 기반으로 단어의 경계 부분에서 천이될 연결 단어를 제한하는 방식으로 탐색공간을 줄여 음성인식을 수행하므로, 음성인식 속도와 성능을 개선할 수 있는 잇점이 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명에 따른 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치의 블록 구성도이다.
도 2는 본 발명에 따른 음소 인식 기반의 탐색공간 제한 방법을 설명하기 위한 도면이다.
도 3은 본 발명에서 이용되는 음소 코드를 설명하기 위한 도면이다.
도 4는 본 발명에 따른 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 방법을 나타낸 흐름도이다.
* 도면의 주요부분에 대한 부호의 설명 *
110 : 음성 특징 추출부
120 : 음소 인식부
130 : 음소 탐색 네트워크
140 : 문맥독립 음향모델
150 : 음소 기반 음성인식부
160 : 연결 단어 탐색 네트워크
170 : 문맥종속 오류모델
180 : 발음사전

Claims (16)

  1. 입력된 음성신호로부터 특징벡터를 추출하는 음성 특징 추출부;
    상기 음성신호의 특징벡터를 기반으로 음소를 인식하는 음소 인식부; 및
    상기 음소 인식 결과를 기반으로 탐색공간이 제한된 연결 단어 탐색 네트워크를 구성하여 상기 연결 단어 탐색 네트워크를 기반으로 음성인식을 수행하는 음소 기반 음성인식부를 포함하며,
    상기 음소 기반 음성인식부는,
    상기 음소 인식 결과를 기반으로 단어의 경계 부분에서 천이될 연결 단어를 제한하여 탐색공간을 제한하고,
    상기 음소 인식 결과와 상기 천이될 연결 단어와의 유사도를 계산하여 소정 기준값 이상의 유사도를 가진 연결 단어에 대하여 단어 천이를 수행하여 탐색공간을 제한하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치.
  2. 삭제
  3. 제 1항에 있어서, 상기 음소 기반 음성인식부는,
    상기 소정 기준값 미만의 유사도를 가진 연결 단어는 탐색 경로상에서 삭제하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치.
  4. 제 1항에 있어서, 상기 음소 기반 음성인식부는,
    상기 음소 인식 결과에서 단어 인식이 수행된 음소열 이후의 N 개의 음소열을 음소 코드로 변환한 후, 상기 N 개의 음소열의 음소 코드와 상기 천이될 연결 단어의 음소 코드를 AND 연산하여, 상기 AND 연산 결과의 각 코드값을 더하여 유사도를 계산하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치.
  5. 제 4항에 있어서, 상기 유사도는,
    상기 N 개의 음소열의 음소 코드와 상기 천이될 연결 단어의 음소 코드에 동일하게 존재하는 음소의 갯수인 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치.
  6. 제 1항에 있어서,
    음소 인식을 위한 음소 탐색 네트워크와 문맥독립 음향모델을 더 포함하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치.
  7. 제 1항에 있어서,
    음성인식을 위한 문맥종속 오류모델 및 발음사전을 더 포함하는 것을 특징으 로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치.
  8. 제 7항에 있어서, 상기 음소 기반 음성인식부는,
    상기 문맥종속 오류모델을 이용하여 삽입오류, 삭제 오류, 또는 치환 오류를 정정하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치.
  9. 제 7항에 있어서, 상기 발음사전에는 해당 단어의 발음열 및 음소 코드가 저장된 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치.
  10. 제 4항, 제 5항, 제 9항 중 어느 한 항에 있어서, 상기 음소 코드는,
    인식 대상의 음소집합을 순서대로 나열한 상태에서, 해당 단어상에 해당 순서의 음소가 존재하는 경우 해당 코드값을 "1"로 설정하고, 존재하지 않는 경우 해당 코드값을 "0"으로 설정하며, 발음 변이가 가능한 음소가 존재하는 경우 해당 코드값을 "1"로 설정한 코드인 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 장치.
  11. (a) 입력된 음성신호로부터 특징벡터를 추출하는 단계;
    (b) 상기 음성신호의 특징벡터를 기반으로 음소를 인식하는 단계; 및
    (c) 상기 음소 인식 결과를 기반으로 탐색공간이 제한된 연결 단어 탐색 네트워크를 구성하여 상기 연결 단어 탐색 네트워크를 기반으로 음성인식을 수행하는 단계를 포함하며,
    상기 (c) 단계에서,
    상기 음소 인식 결과를 기반으로 단어의 경계 부분에서 천이될 연결 단어를 제한하여 탐색공간을 제한하는 제 1 단계; 및
    상기 음소 인식 결과와 상기 천이될 연결 단어와의 유사도를 계산하여 소정 기준값 이상의 유사도를 가진 연결 단어에 대하여 단어 천이를 수행하여 탐색공간을 제한하는 제 2 단계를 더 포함하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 방법.
  12. 삭제
  13. 제 11항에 있어서, 상기 제 2 단계에서,
    상기 소정 기준값 미만의 유사도를 가진 연결 단어는 탐색 경로상에서 삭제하는 단계를 더 포함하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 방법.
  14. 제 11항에 있어서, 상기 제 2 단계에서,
    상기 음소 인식 결과에서 단어 인식이 수행된 음소열 이후의 N 개의 음소열을 음소 코드로 변환하는 단계; 및
    상기 N 개의 음소열의 음소 코드와 상기 천이될 연결 단어의 음소 코드에 동일하게 존재하는 음소의 갯수를 추출하여 유사도를 계산하는 단계를 더 포함하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 방법.
  15. 제 11항에 있어서, 상기 (a) 단계 이전에,
    인식 대상의 음소집합을 순서대로 나열한 상태에서, 발음사전에 저장된 단어상에 해당 순서의 음소가 존재하는 경우 해당 코드값을 "1"로 설정하고, 존재하지 않는 경우 해당 코드값을 "0"으로 설정하며, 발음 변이가 가능한 음소가 존재하는 경우 해당 코드값을 "1"로 설정하는 단계를 더 포함하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 방법.
  16. 제 11항에 있어서, 상기 (c) 단계에서,
    문맥종속 오류모델을 이용하여 삽입오류, 삭제 오류, 또는 치환 오류를 정정하는 단계를 더 포함하는 것을 특징으로 하는 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식 방법.
KR1020070070733A 2006-12-05 2007-07-13 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법 KR100908444B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11/950,130 US8032374B2 (en) 2006-12-05 2007-12-04 Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020060122576 2006-12-05
KR20060122576 2006-12-05

Publications (2)

Publication Number Publication Date
KR20080052268A KR20080052268A (ko) 2008-06-11
KR100908444B1 true KR100908444B1 (ko) 2009-07-21

Family

ID=39807111

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070070733A KR100908444B1 (ko) 2006-12-05 2007-07-13 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법

Country Status (1)

Country Link
KR (1) KR100908444B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102272453B1 (ko) 2014-09-26 2021-07-02 삼성전자주식회사 음성 신호 전처리 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005787A (ja) 2001-06-20 2003-01-08 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識プログラム
KR20040072104A (ko) * 2003-02-08 2004-08-18 엘지전자 주식회사 음성인식기의 탐색속도 향상방법
KR20040076035A (ko) * 2003-02-24 2004-08-31 삼성전자주식회사 음소 결합정보를 이용한 연속 음성인식방법 및 장치
WO2005077098A2 (en) * 2004-02-11 2005-08-25 America Online Incorporated Handwriting and voice input with automatic correction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005787A (ja) 2001-06-20 2003-01-08 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識プログラム
KR20040072104A (ko) * 2003-02-08 2004-08-18 엘지전자 주식회사 음성인식기의 탐색속도 향상방법
KR20040076035A (ko) * 2003-02-24 2004-08-31 삼성전자주식회사 음소 결합정보를 이용한 연속 음성인식방법 및 장치
WO2005077098A2 (en) * 2004-02-11 2005-08-25 America Online Incorporated Handwriting and voice input with automatic correction

Also Published As

Publication number Publication date
KR20080052268A (ko) 2008-06-11

Similar Documents

Publication Publication Date Title
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
US6934683B2 (en) Disambiguation language model
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US7249017B2 (en) Speech recognition with score calculation
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
US8849668B2 (en) Speech recognition apparatus and method
Nakagawa et al. A robust/fast spoken term detection method based on a syllable n-gram index with a distance metric
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
US20150073796A1 (en) Apparatus and method of generating language model for speech recognition
JP4089861B2 (ja) 音声認識文章入力装置
Réveil et al. An improved two-stage mixed language model approach for handling out-of-vocabulary words in large vocabulary continuous speech recognition
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
JP4966324B2 (ja) 音声翻訳装置、および方法
KR100908444B1 (ko) 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
KR101677530B1 (ko) 음성 인식 장치 및 음성 인식 방법
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
JP2012255867A (ja) 音声認識装置
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130624

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140630

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150629

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee