KR20140051519A - 연속어 음성인식 방법 및 연속어 음성인식 장치 - Google Patents

연속어 음성인식 방법 및 연속어 음성인식 장치 Download PDF

Info

Publication number
KR20140051519A
KR20140051519A KR1020120117591A KR20120117591A KR20140051519A KR 20140051519 A KR20140051519 A KR 20140051519A KR 1020120117591 A KR1020120117591 A KR 1020120117591A KR 20120117591 A KR20120117591 A KR 20120117591A KR 20140051519 A KR20140051519 A KR 20140051519A
Authority
KR
South Korea
Prior art keywords
sentence
word
speech
reliability
recognition result
Prior art date
Application number
KR1020120117591A
Other languages
English (en)
Inventor
강점자
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120117591A priority Critical patent/KR20140051519A/ko
Publication of KR20140051519A publication Critical patent/KR20140051519A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 명세서에서는 음성인식 방법 및 음성인식 장치에 대해 개시하며, 더욱 상세하게는 연속어 음성인식 방법 및 연속어 음성인식 장치에 대해 개시한다.
본 명세서에서 개시하는 연속어 음성인식방법은 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 단계, 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단계, 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 단계, 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 단계 및 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 단계를 포함한다.

Description

연속어 음성인식 방법 및 연속어 음성인식 장치{Method for Continuous Speech Recognition and Apparatus thereof}
본 명세서에서는 음성인식 방법 및 음성인식 장치에 대해 개시하며, 더욱 상세하게는 연속어 음성인식 방법 및 연속어 음성인식 장치에 대해 개시한다.
음성인식은 음성에 포함된 언어적인 정보를 추출하여 인간이 해독할 수 있는 표현방법으로 변환하는 과정을 말하는 것으로서, 음향학, 음운학, 언어학 등의 단계적인 처리를 필요로 한다. 이를 위한 음향모델은 입력음성과의 음향학적 조합을 통해 음향학적 우도(Likelihood)로 주어진 모델을 말하고, 언어모델은 이웃하는 단어 사이의 연관성을 나타내는 정보를 포함하는 것으로서, 유한상태 네크워크(finite-state network) 언어 모델, 문맥 의존(context-sensitive grammar) 언어모델 등이 있다. 음성인식은 연속음성인식(continuous speech recognition)과 단어음성인식(word recognition)으로 나뉠 수 있다.
통상적인 음성인식시스템은 음향분석부, 음운인식부, 단어인식부, 언어처리부 등의 요소로 구성되어 있다. 음향분석부에서는 음성신호에 대해 20~30㎳의 짧은 구간마다 주파수분석 또는 선형예측분석이라 부르는 수학적인 변환처리를 하고, 이것으로 십수차원의 특징벡터(feature vector)계열로 변환한다. 음운인식부에서는 음성의 대략적인 특징을 이용하여 음성신호를 일정한 물리적 성질을 지닌 부분으로 분할하는 조작, 즉 세그먼테이션(segmentation)을 하고, 각 구간을 각각 하나의 단위로 하여 모음과 자음을 인식한다. 음운인식의 결과를 1차원적인 음운기호열로 나타내기는 곤란하므로, 몇몇 가능성을 남긴 음운래티스(phoneme lattice) 꼴로 주어진다. 단어인식부에서는 단어의 음형이 기술되어 있는 단어사전을 참조하여 음운래티스를 단어래티스(word lattice)로 변환한다. 언어처리부에서는 단어래티스 안의 단어들로부터 구문적 제약을 만족시키고 의미적으로도 정합이 이루어진 단어열을 선택한다.
음성인식을 위해서는 많은 다양한 기술들이 사용된다. 전형적인 음성인식은 음성의 디지털 샘플링(digital sampling)에서 시작되어, 음향 신호처리에 의한 분석이 수행된다. 이러한 방법에는 LPC analysis (Linear Predictive Coding): 선형예측코딩, MFCC(Mel Frequency Cepstral Coefficients), cochlea modeling 등이다. 다음은 음소의 인식이다(recognition of phonemes). 음소들의 그룹과 단어를 포함하고, 이에 사용되는 기술들은 DTW(Dynamic Time Warping), HMM(hidden Markov modeling), Neural Networks, expert systems and combinations of technique 등이 있다. 최근까지 음성 인식에 가장 많이 사용되며 성공적이었던 알고리즘은 HMM이며, HMM은 이중 통계적 모델로서, 기본이 되는 음소열의 생성과 프레임 단위의 표면적 음향학적인 표현을 markov 과정과 같이 확률로서 나타낸다.
일반적으로 음성인식 시스템은 오인식 가능성을 포함하고 있기 때문에 인식결과에 대해 인식된 결과를 수락할지 또는 거절할지를 결정하는 발화검증 과정을 거친다. 즉, 발화 검증 방식이란, 음성인식된 어떤 결과에 대해 그 인식 결과를 받아들일 것인지(Accept), 거절할 것인지(Reject)를 어떤 신뢰도(Confidence Score 또는 Confidence Measure)값을 사용하여 결정하는 방식이다. 여기서, 신뢰도는 음성인식 결과에 대해서 그 결과가 얼마나 믿을 만한 것인가를 나타내는 척도로서, 신뢰도값이 높으면 인식 결과를 신뢰할 수 있는 것으로 인식결과를 받아들여야 하고, 반대로 낮으면 결과를 신뢰하기가 어렵다는 의미로 인식결과를 거절하여야 한다.
기존의 발화검증에서 단어 신뢰도 척도는 음향 모델로 구한 음소 신뢰도 척도를 단어를 구성하고 있는 음소의 수만큼 합하여 음소의 수로 나누어 구한다. 문장 신뢰도 척도는 단어 신뢰도 척도를 모두 합하여 문장을 구성하고 있는 단어의 수로 나누는 산술평균 방식을 사용하는 것이 일반적이다.하지만, 이러한 방식이 문장 수준 발화 검증의 성능 저하의 원인으로 나타나고 있다.
본 명세서에서는 전술한 문제점들을 해결하기 위한 것으로서, 음성인식시스템의 신뢰도 향상 및 발화검증 성능을 향상시키기 위한 연속어 음성인식 방법 및 연속어 음성인식 장치를 개시한다.
본 명세서에서 개시하는 연속어 음성인식방법은 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 단계, 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단계, 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 단계, 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 단계 및 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 단계를 포함한다.
여기서, 단어 신뢰도 척도를 계산하는 단계는 단어 래티스를 이용하여 단어별 우도비(likelihood ratio)를 계산하는 단계를 포함할 수 있고, 이는 문장인식 결과에 대해 문장의 노드(node)별로 존재하는 유사한 단어에 대한 단어 우도비를 계산한다.
한편, 단어 신뢰도 척도를 계산하는 단계는 문맥종속(Context-Dependent) 음향모델 및 반음소(Anti-Phone) 모델을 이용하여 단어별 우도비를 계산하는 단계를 포함할 수 있다.
한편, 문법분석은 문장인식 결과에 대해 문장의 구조 또는 의미를 분석하는 것을 포함할 수 있다.
본 명세서에서 개시하는 연속어 음성인식장치는 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 디코딩부 및 문장인식 결과에 대한 발화검증을 수행하는 발화검증부를 포함하고, 발화검증부는 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단어 신뢰도 제어부, 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 확률기반 문장 신뢰도 제어부, 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 문법기반 문장 신뢰도 제어부 및 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 발화검증 제어부를 포함한다.
여기서, 단어 신뢰도 제어부는 단어 래티스를 이용하여 단어별 우도비를 계산하여 단어 신뢰도 척도를 계산할 수 있고, 이는 문장인식 결과에 대해 문장의 노드별로 존재하는 유사한 단어에 대한 단어 우도비를 계산하여 수행할 수 있다.
한편, 단어 신뢰도 제어부는 문맥종속 음향모델 및 반음소 모델을 이용하여 단어별 우도비를 계산할 수 있다.
한편, 문법분석은 문장인식 결과에 대해 문장의 구조 또는 의미를 분석하는 것을 포함할 수 있다.
본 명세서에 개시되는 발명들에 의하면, 음성인식시스템의 신뢰도 향상 및 발화검증 성능을 향상시킬 수 있다.
도 1은 본 명세서에서 개시하는 연속어 음성인식방법을 설명하기 위한 도면이다.
도 2는 발화검증을 수행하는 방법에 대해 자세히 설명하기 위한 도면이다.
도 3은 본 명세서에서 개시하는 연속어 음성인식장치를 설명하기 위한 도면이다.
이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 발명의 원리를 구체화하는 예시적인 개념적 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.
본 명세서의 특허청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 특허청구범위에 의해 정의되는 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
본 명세서에서는 음성인식시스템의 신뢰도 향상 및 발화검증 성능을 향상시킬 수 있는 연속어 음성인식 방법 및 연속어 음성인식 장치를 개시한다. 이러한 연속어 음성인식 방법 및 연속어 음성인식 장치는 발화검증을 수행하기 위하여 단어 신뢰도 척도는 음향적 스코어를 기반으로 하며, 문장 신뢰도 척도는 음향적 스코어와 언어적 스코어를 결합하고, 문장 구조에 대해 문법적, 의미적 분석을 통해 판단한다.
음성인식시스템에서의 엔베스트(N-Best) 출력 정보는 입력 음성에 대하여 서로 유사도가 높은 결과를 출력하고 있기 때문에, 인식결과에 대해 수락 또는 거절을 결정하는 발화검증 성능 향상을 위해 유용한 정보로 활용될 수 있다. 일 실시예로서, 이러한 엔베스트 출력정보로부터 단어 신뢰도 척도는 음향 모델로 구한 음향적 스코어를 기반으로 하며, 문장 신뢰도 척도는 음향적 스코어와 언어적 스코어 그리고 문장의 문법 구조, 의미를 분석하여 발화검증을 수행할 수 있다.
도 1은 본 명세서에서 개시하는 연속어 음성인식방법을 설명하기 위한 도면이다.
도 1을 참조하면, 연속어 음성인식방법은 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 단계(S101, 102), 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단계(S103), 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 단계(S104), 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 단계(S105) 및 확률기반와 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 단계(S106, 107, 108)를 포함한다.
여기서, 단어 신뢰도 척도를 계산하는 단계(S103)는 단어 래티스를 이용하여 단어별 우도비(likelihood ratio)를 계산하는 단계를 포함할 수 있다. 예를 들어, 문장 형태의 음성이 입력되면 입력 음성에 대해서 비터비(Viterbi) 디코딩을 수행하면, 문장 형태의 인식 결과가 출력되며, 이에는 문장을 구성하고 있는 각 단어의 시작점과 끝점, 단어의 우도값을 포함하고 있다. 최종 문장 형태의 인식결과를 뽑기 위해 사용되었던 단어 래티스가 파일 형태로 저장되고, 발화검증을 수행하기 위해 최종 문장 형태의 인식결과뿐만 아니라 단어 래티스를 사용하여 노드별로 존재하는 단어에 대해서 기존의 우도비테스트(Likelihood Ratio Testing)방식에 의한 우도비값을 구한다. 이러한 우도비 계산은 문장인식 결과에 대해 문장의 노드별로 존재하는 유사한 단어에 대한 단어 우도비를 계산할 수 있다.
한편, 단어 신뢰도 척도를 계산하는 단계는 문맥종속(Context-Dependent) 음향모델 및 반음소(Anti-Phone) 모델을 이용하여 단어별 우도비를 계산하는 단계(S111, 112)를 포함할 수 있다. 즉, 단어 신뢰도 척도를 구하기 위해 음성인식에 사용하는 문맥종속 음향모델을 사용하고, 반음소 모델을 사용하여 우도비를 구한다. 또한, 특정 노드에서 여러 개의 노드로 갈라지는 경우, 우도값을 모두 합하고, 이를 정규화하여 구해진 신뢰도 척도를 함께 사용할 수 있다.
음향모델 기반의 단어 신뢰도 척도가 구해지면(S103), 문장 신뢰도 척도를 구한다(S104). 문장 신뢰도 척도는 인식을 수행하면서 단어가 삽입 또는 삭제, 다른 단어로 대체가 이루어짐으로써 오인식된 단어를 상당수 포함되기 때문에 이때 언어모델 확률값을 함께 결합하여 사용하면 고성능의 발화검증을 수행할 수 있다. 따라서, 우도비 기반의 단어 신뢰도 척도에 언어모델 확률값을 결합한 확률기반 문장 신뢰도 척도를 계산한다.
다음으로, 문법기반 문장 신뢰도 척도를 계산한다(S105). 문장 신뢰도 척도는 문자인식 결과에 대한 문법분석을 통해 수행된다. 여기서, 문법분석은 문장인식 결과에 대해 문장의 구조 또는 의미를 분석하는 것을 포함한다. 즉, 문장의 구조 또는 의미를 분석하여 또 다른 형태의 문장 신뢰도 척도를 계산하게 된다.
이렇게 확률기반 및 문법기반 문장 신뢰도 척도가 계산되면, 이를 기 설정된 문턱값과 비교하고(S106), 확률기반 및 문법기반 문장 신뢰도 척도값이 설정된 문턱값보다 둘다 크면 수락을 수행하고(S107), 둘 중에 하나라도 문턱치 값보다 작으면 거절을 수행(S108)하도록 설정하여 발화검증을 수행할 수 있다.
도 2는 발화검증을 수행하는 방법에 대해 자세히 설명하기 위한 도면이다.
최종 문장 인식결과에 대해서 단어 래티스로부터 노드별로 존재하는 유사한 단어들에 대하여 단어 우도비를 구하여 단어 신뢰도 척도를 구한다. 그 다음, 문장 신뢰도 척도는 단어별 우도비에 언어 모델 확률값을 결합하여 확률값에 의한 문장에 대한 신뢰도 척도를 구하고, 확률값에 기반에 문장 신뢰도 척도에 문장의 문법적 구조 및 의미적 구조를 분석하여 최종 문장 수준의 수락 또는 거절을 결정하도록 함으로써 문장 수준의 발화검증 성능을 향상시키게 된다.
예를 들어, 도 2에 도시된 바와 같이 단어 래티스로부터 구해진 최종 인식결과가 “나는 학교에 간다(201-202-203)” 라고 할 때 “학교에(202)” 에 해당하는 시간 정보 구간 내에서 존재하는 노드에 대한 단어쌍은 “학교에(202)”, “집에(205)”, “교회에(206)” 라는 단어들이 존재한다. 이중 1-best 단어 즉 “학교에(202)”와 유사한 나머지 단어들과의 유사도비를 음향모델을 사용하여 단어 신뢰도 척도를 구하고, 문장 신뢰도 척도는 각 단어별 우도비값에 언어 모델 확률값을 결합하여 확률 모델 기반 문장 신뢰도 척도를 구하고, 문장의 구조 또는 의미 분석을 통하여 문법기반 문장 신뢰도 척도를 구하게 된다.
이렇게 음성인식에 의해 인식된 문장에 대해 발화검증을 수행함으로써, 단어 및 문장 수준 발화검증 성능 향상과 신뢰성 있는 음성인식 시스템을 구현할 수 있다.
도 3은 본 명세서에서 개시하는 연속어 음성인식장치를 설명하기 위한 도면이다.
도 3을 참조하면, 연속어 음성인식장치(300)는 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 디코딩부(301) 및 문장인식 결과에 대한 발화검증을 수행하는 발화검증부(311)를 포함하고, 발화검증부(311)는 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단어 신뢰도 제어부(312), 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 확률기반 문장 신뢰도 제어부(313), 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 문법기반 문장 신뢰도 제어부(314) 및 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 발화검증 제어부(315)를 포함한다. 여기서, 단어 신뢰도 제어부(312)는 단어 래티스를 이용하여 단어별 우도비를 계산하여 단어 신뢰도 척도를 계산할 수 있고, 이는 문장인식 결과에 대해 문장의 노드별로 존재하는 유사한 단어에 대한 단어 우도비를 계산하는 수행될 수 있다.
한편, 단어 신뢰도 제어부(312)는 문맥종속 음향모델 및 반음소 모델을 이용하여 단어별 우도비를 계산할 수 있다.
한편, 문법기반 문장 신뢰도 제어부(314)에서의 문법분석은 문장인식 결과에 대해 문장의 구조 또는 의미를 분석하는 것을 포함할 수 있다.
기타 연속어 음성인식장치에 대한 자세한 설명 중 도 1 및 도 2에서 설명한 연속어 음성인식방법과 중복되는 것은 여기서는 생략하기로 한다.
이상에서 실시 예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시 예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
300: 연속어 음성인식장치
301: 디코딩부
311: 발화검증부

Claims (1)

  1. 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 단계;
    상기 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단계;
    상기 문장인식 결과에 대해 상기 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 단계;
    상기 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 단계; 및
    상기 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 상기 문장인식 결과에 대한 발화검증을 수행하는 단계를 포함하는, 연속어 음성인식방법.



KR1020120117591A 2012-10-23 2012-10-23 연속어 음성인식 방법 및 연속어 음성인식 장치 KR20140051519A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120117591A KR20140051519A (ko) 2012-10-23 2012-10-23 연속어 음성인식 방법 및 연속어 음성인식 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120117591A KR20140051519A (ko) 2012-10-23 2012-10-23 연속어 음성인식 방법 및 연속어 음성인식 장치

Publications (1)

Publication Number Publication Date
KR20140051519A true KR20140051519A (ko) 2014-05-02

Family

ID=50885158

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120117591A KR20140051519A (ko) 2012-10-23 2012-10-23 연속어 음성인식 방법 및 연속어 음성인식 장치

Country Status (1)

Country Link
KR (1) KR20140051519A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134390B2 (en) 2015-09-23 2018-11-20 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
KR20190100498A (ko) * 2018-02-06 2019-08-29 한국전자통신연구원 음성인식 결과 수정 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134390B2 (en) 2015-09-23 2018-11-20 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
KR20190100498A (ko) * 2018-02-06 2019-08-29 한국전자통신연구원 음성인식 결과 수정 장치 및 방법

Similar Documents

Publication Publication Date Title
US11996097B2 (en) Multilingual wakeword detection
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
JPWO2015118645A1 (ja) 音声検索装置および音声検索方法
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
Sinha et al. Continuous density hidden markov model for context dependent Hindi speech recognition
CN112651247A (zh) 对话系统、对话处理方法、翻译装置和翻译方法
Neubig et al. Learning a language model from continuous speech
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
RU2597498C1 (ru) Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа
JP2008242059A (ja) 音声認識辞書作成装置および音声認識装置
KR20210054001A (ko) 음성인식 서비스를 제공하기 위한 방법 및 장치
Zhang et al. Using mutual information criterion to design an efficient phoneme set for Chinese speech recognition
Hwang et al. Building a highly accurate Mandarin speech recognizer with language-independent technologies and language-dependent modules
Teruszkin et al. Implementation of a large vocabulary continuous speech recognition system for Brazilian Portuguese
Khalifa et al. Statistical modeling for speech recognition
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
Gabriel Automatic speech recognition in somali
Puurula et al. Vocabulary decomposition for Estonian open vocabulary speech recognition

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination