KR20140051519A

KR20140051519A - 연속어 음성인식 방법 및 연속어 음성인식 장치

Info

Publication number: KR20140051519A
Application number: KR1020120117591A
Authority: KR
Inventors: 강점자; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2012-10-23
Filing date: 2012-10-23
Publication date: 2014-05-02

Abstract

본 명세서에서는 음성인식 방법 및 음성인식 장치에 대해 개시하며, 더욱 상세하게는 연속어 음성인식 방법 및 연속어 음성인식 장치에 대해 개시한다.
본 명세서에서 개시하는 연속어 음성인식방법은 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 단계, 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단계, 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 단계, 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 단계 및 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 단계를 포함한다.

Description

연속어 음성인식 방법 및 연속어 음성인식 장치{Method for Continuous Speech Recognition and Apparatus thereof}

본 명세서에서는 음성인식 방법 및 음성인식 장치에 대해 개시하며, 더욱 상세하게는 연속어 음성인식 방법 및 연속어 음성인식 장치에 대해 개시한다.

음성인식은 음성에 포함된 언어적인 정보를 추출하여 인간이 해독할 수 있는 표현방법으로 변환하는 과정을 말하는 것으로서, 음향학, 음운학, 언어학 등의 단계적인 처리를 필요로 한다. 이를 위한 음향모델은 입력음성과의 음향학적 조합을 통해 음향학적 우도(Likelihood)로 주어진 모델을 말하고, 언어모델은 이웃하는 단어 사이의 연관성을 나타내는 정보를 포함하는 것으로서, 유한상태 네크워크(finite-state network) 언어 모델, 문맥 의존(context-sensitive grammar) 언어모델 등이 있다. 음성인식은 연속음성인식(continuous speech recognition)과 단어음성인식(word recognition)으로 나뉠 수 있다.

통상적인 음성인식시스템은 음향분석부, 음운인식부, 단어인식부, 언어처리부 등의 요소로 구성되어 있다. 음향분석부에서는 음성신호에 대해 20~30㎳의 짧은 구간마다 주파수분석 또는 선형예측분석이라 부르는 수학적인 변환처리를 하고, 이것으로 십수차원의 특징벡터(feature vector)계열로 변환한다. 음운인식부에서는 음성의 대략적인 특징을 이용하여 음성신호를 일정한 물리적 성질을 지닌 부분으로 분할하는 조작, 즉 세그먼테이션(segmentation)을 하고, 각 구간을 각각 하나의 단위로 하여 모음과 자음을 인식한다. 음운인식의 결과를 1차원적인 음운기호열로 나타내기는 곤란하므로, 몇몇 가능성을 남긴 음운래티스(phoneme lattice) 꼴로 주어진다. 단어인식부에서는 단어의 음형이 기술되어 있는 단어사전을 참조하여 음운래티스를 단어래티스(word lattice)로 변환한다. 언어처리부에서는 단어래티스 안의 단어들로부터 구문적 제약을 만족시키고 의미적으로도 정합이 이루어진 단어열을 선택한다.

음성인식을 위해서는 많은 다양한 기술들이 사용된다. 전형적인 음성인식은 음성의 디지털 샘플링(digital sampling)에서 시작되어, 음향 신호처리에 의한 분석이 수행된다. 이러한 방법에는 LPC analysis (Linear Predictive Coding): 선형예측코딩, MFCC(Mel Frequency Cepstral Coefficients), cochlea modeling 등이다. 다음은 음소의 인식이다(recognition of phonemes). 음소들의 그룹과 단어를 포함하고, 이에 사용되는 기술들은 DTW(Dynamic Time Warping), HMM(hidden Markov modeling), Neural Networks, expert systems and combinations of technique 등이 있다. 최근까지 음성 인식에 가장 많이 사용되며 성공적이었던 알고리즘은 HMM이며, HMM은 이중 통계적 모델로서, 기본이 되는 음소열의 생성과 프레임 단위의 표면적 음향학적인 표현을 markov 과정과 같이 확률로서 나타낸다.

일반적으로 음성인식 시스템은 오인식 가능성을 포함하고 있기 때문에 인식결과에 대해 인식된 결과를 수락할지 또는 거절할지를 결정하는 발화검증 과정을 거친다. 즉, 발화 검증 방식이란, 음성인식된 어떤 결과에 대해 그 인식 결과를 받아들일 것인지(Accept), 거절할 것인지(Reject)를 어떤 신뢰도(Confidence Score 또는 Confidence Measure)값을 사용하여 결정하는 방식이다. 여기서, 신뢰도는 음성인식 결과에 대해서 그 결과가 얼마나 믿을 만한 것인가를 나타내는 척도로서, 신뢰도값이 높으면 인식 결과를 신뢰할 수 있는 것으로 인식결과를 받아들여야 하고, 반대로 낮으면 결과를 신뢰하기가 어렵다는 의미로 인식결과를 거절하여야 한다.

기존의 발화검증에서 단어 신뢰도 척도는 음향 모델로 구한 음소 신뢰도 척도를 단어를 구성하고 있는 음소의 수만큼 합하여 음소의 수로 나누어 구한다. 문장 신뢰도 척도는 단어 신뢰도 척도를 모두 합하여 문장을 구성하고 있는 단어의 수로 나누는 산술평균 방식을 사용하는 것이 일반적이다.하지만, 이러한 방식이 문장 수준 발화 검증의 성능 저하의 원인으로 나타나고 있다.

본 명세서에서는 전술한 문제점들을 해결하기 위한 것으로서, 음성인식시스템의 신뢰도 향상 및 발화검증 성능을 향상시키기 위한 연속어 음성인식 방법 및 연속어 음성인식 장치를 개시한다.

본 명세서에서 개시하는 연속어 음성인식방법은 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 단계, 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단계, 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 단계, 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 단계 및 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 단계를 포함한다.

여기서, 단어 신뢰도 척도를 계산하는 단계는 단어 래티스를 이용하여 단어별 우도비(likelihood ratio)를 계산하는 단계를 포함할 수 있고, 이는 문장인식 결과에 대해 문장의 노드(node)별로 존재하는 유사한 단어에 대한 단어 우도비를 계산한다.

한편, 단어 신뢰도 척도를 계산하는 단계는 문맥종속(Context-Dependent) 음향모델 및 반음소(Anti-Phone) 모델을 이용하여 단어별 우도비를 계산하는 단계를 포함할 수 있다.

한편, 문법분석은 문장인식 결과에 대해 문장의 구조 또는 의미를 분석하는 것을 포함할 수 있다.

본 명세서에서 개시하는 연속어 음성인식장치는 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 디코딩부 및 문장인식 결과에 대한 발화검증을 수행하는 발화검증부를 포함하고, 발화검증부는 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단어 신뢰도 제어부, 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 확률기반 문장 신뢰도 제어부, 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 문법기반 문장 신뢰도 제어부 및 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 발화검증 제어부를 포함한다.

여기서, 단어 신뢰도 제어부는 단어 래티스를 이용하여 단어별 우도비를 계산하여 단어 신뢰도 척도를 계산할 수 있고, 이는 문장인식 결과에 대해 문장의 노드별로 존재하는 유사한 단어에 대한 단어 우도비를 계산하여 수행할 수 있다.

한편, 단어 신뢰도 제어부는 문맥종속 음향모델 및 반음소 모델을 이용하여 단어별 우도비를 계산할 수 있다.

본 명세서에 개시되는 발명들에 의하면, 음성인식시스템의 신뢰도 향상 및 발화검증 성능을 향상시킬 수 있다.

도 1은 본 명세서에서 개시하는 연속어 음성인식방법을 설명하기 위한 도면이다.
도 2는 발화검증을 수행하는 방법에 대해 자세히 설명하기 위한 도면이다.
도 3은 본 명세서에서 개시하는 연속어 음성인식장치를 설명하기 위한 도면이다.

이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

또한, 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 예를 들어, 본 명세서의 블럭도는 발명의 원리를 구체화하는 예시적인 개념적 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.

또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.

본 명세서의 특허청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 특허청구범위에 의해 정의되는 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

본 명세서에서는 음성인식시스템의 신뢰도 향상 및 발화검증 성능을 향상시킬 수 있는 연속어 음성인식 방법 및 연속어 음성인식 장치를 개시한다. 이러한 연속어 음성인식 방법 및 연속어 음성인식 장치는 발화검증을 수행하기 위하여 단어 신뢰도 척도는 음향적 스코어를 기반으로 하며, 문장 신뢰도 척도는 음향적 스코어와 언어적 스코어를 결합하고, 문장 구조에 대해 문법적, 의미적 분석을 통해 판단한다.

음성인식시스템에서의 엔베스트(N-Best) 출력 정보는 입력 음성에 대하여 서로 유사도가 높은 결과를 출력하고 있기 때문에, 인식결과에 대해 수락 또는 거절을 결정하는 발화검증 성능 향상을 위해 유용한 정보로 활용될 수 있다. 일 실시예로서, 이러한 엔베스트 출력정보로부터 단어 신뢰도 척도는 음향 모델로 구한 음향적 스코어를 기반으로 하며, 문장 신뢰도 척도는 음향적 스코어와 언어적 스코어 그리고 문장의 문법 구조, 의미를 분석하여 발화검증을 수행할 수 있다.

도 1은 본 명세서에서 개시하는 연속어 음성인식방법을 설명하기 위한 도면이다.

도 1을 참조하면, 연속어 음성인식방법은 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 단계(S101, 102), 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단계(S103), 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 단계(S104), 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 단계(S105) 및 확률기반와 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 단계(S106, 107, 108)를 포함한다.

여기서, 단어 신뢰도 척도를 계산하는 단계(S103)는 단어 래티스를 이용하여 단어별 우도비(likelihood ratio)를 계산하는 단계를 포함할 수 있다. 예를 들어, 문장 형태의 음성이 입력되면 입력 음성에 대해서 비터비(Viterbi) 디코딩을 수행하면, 문장 형태의 인식 결과가 출력되며, 이에는 문장을 구성하고 있는 각 단어의 시작점과 끝점, 단어의 우도값을 포함하고 있다. 최종 문장 형태의 인식결과를 뽑기 위해 사용되었던 단어 래티스가 파일 형태로 저장되고, 발화검증을 수행하기 위해 최종 문장 형태의 인식결과뿐만 아니라 단어 래티스를 사용하여 노드별로 존재하는 단어에 대해서 기존의 우도비테스트(Likelihood Ratio Testing)방식에 의한 우도비값을 구한다. 이러한 우도비 계산은 문장인식 결과에 대해 문장의 노드별로 존재하는 유사한 단어에 대한 단어 우도비를 계산할 수 있다.

한편, 단어 신뢰도 척도를 계산하는 단계는 문맥종속(Context-Dependent) 음향모델 및 반음소(Anti-Phone) 모델을 이용하여 단어별 우도비를 계산하는 단계(S111, 112)를 포함할 수 있다. 즉, 단어 신뢰도 척도를 구하기 위해 음성인식에 사용하는 문맥종속 음향모델을 사용하고, 반음소 모델을 사용하여 우도비를 구한다. 또한, 특정 노드에서 여러 개의 노드로 갈라지는 경우, 우도값을 모두 합하고, 이를 정규화하여 구해진 신뢰도 척도를 함께 사용할 수 있다.

음향모델 기반의 단어 신뢰도 척도가 구해지면(S103), 문장 신뢰도 척도를 구한다(S104). 문장 신뢰도 척도는 인식을 수행하면서 단어가 삽입 또는 삭제, 다른 단어로 대체가 이루어짐으로써 오인식된 단어를 상당수 포함되기 때문에 이때 언어모델 확률값을 함께 결합하여 사용하면 고성능의 발화검증을 수행할 수 있다. 따라서, 우도비 기반의 단어 신뢰도 척도에 언어모델 확률값을 결합한 확률기반 문장 신뢰도 척도를 계산한다.

다음으로, 문법기반 문장 신뢰도 척도를 계산한다(S105). 문장 신뢰도 척도는 문자인식 결과에 대한 문법분석을 통해 수행된다. 여기서, 문법분석은 문장인식 결과에 대해 문장의 구조 또는 의미를 분석하는 것을 포함한다. 즉, 문장의 구조 또는 의미를 분석하여 또 다른 형태의 문장 신뢰도 척도를 계산하게 된다.

이렇게 확률기반 및 문법기반 문장 신뢰도 척도가 계산되면, 이를 기 설정된 문턱값과 비교하고(S106), 확률기반 및 문법기반 문장 신뢰도 척도값이 설정된 문턱값보다 둘다 크면 수락을 수행하고(S107), 둘 중에 하나라도 문턱치 값보다 작으면 거절을 수행(S108)하도록 설정하여 발화검증을 수행할 수 있다.

도 2는 발화검증을 수행하는 방법에 대해 자세히 설명하기 위한 도면이다.

최종 문장 인식결과에 대해서 단어 래티스로부터 노드별로 존재하는 유사한 단어들에 대하여 단어 우도비를 구하여 단어 신뢰도 척도를 구한다. 그 다음, 문장 신뢰도 척도는 단어별 우도비에 언어 모델 확률값을 결합하여 확률값에 의한 문장에 대한 신뢰도 척도를 구하고, 확률값에 기반에 문장 신뢰도 척도에 문장의 문법적 구조 및 의미적 구조를 분석하여 최종 문장 수준의 수락 또는 거절을 결정하도록 함으로써 문장 수준의 발화검증 성능을 향상시키게 된다.

예를 들어, 도 2에 도시된 바와 같이 단어 래티스로부터 구해진 최종 인식결과가 “나는 학교에 간다(201-202-203)” 라고 할 때 “학교에(202)” 에 해당하는 시간 정보 구간 내에서 존재하는 노드에 대한 단어쌍은 “학교에(202)”, “집에(205)”, “교회에(206)” 라는 단어들이 존재한다. 이중 1-best 단어 즉 “학교에(202)”와 유사한 나머지 단어들과의 유사도비를 음향모델을 사용하여 단어 신뢰도 척도를 구하고, 문장 신뢰도 척도는 각 단어별 우도비값에 언어 모델 확률값을 결합하여 확률 모델 기반 문장 신뢰도 척도를 구하고, 문장의 구조 또는 의미 분석을 통하여 문법기반 문장 신뢰도 척도를 구하게 된다.

이렇게 음성인식에 의해 인식된 문장에 대해 발화검증을 수행함으로써, 단어 및 문장 수준 발화검증 성능 향상과 신뢰성 있는 음성인식 시스템을 구현할 수 있다.

도 3은 본 명세서에서 개시하는 연속어 음성인식장치를 설명하기 위한 도면이다.

도 3을 참조하면, 연속어 음성인식장치(300)는 연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 디코딩부(301) 및 문장인식 결과에 대한 발화검증을 수행하는 발화검증부(311)를 포함하고, 발화검증부(311)는 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단어 신뢰도 제어부(312), 문장인식 결과에 대해 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 확률기반 문장 신뢰도 제어부(313), 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 문법기반 문장 신뢰도 제어부(314) 및 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 문장인식 결과에 대한 발화검증을 수행하는 발화검증 제어부(315)를 포함한다. 여기서, 단어 신뢰도 제어부(312)는 단어 래티스를 이용하여 단어별 우도비를 계산하여 단어 신뢰도 척도를 계산할 수 있고, 이는 문장인식 결과에 대해 문장의 노드별로 존재하는 유사한 단어에 대한 단어 우도비를 계산하는 수행될 수 있다.

한편, 단어 신뢰도 제어부(312)는 문맥종속 음향모델 및 반음소 모델을 이용하여 단어별 우도비를 계산할 수 있다.

한편, 문법기반 문장 신뢰도 제어부(314)에서의 문법분석은 문장인식 결과에 대해 문장의 구조 또는 의미를 분석하는 것을 포함할 수 있다.

기타 연속어 음성인식장치에 대한 자세한 설명 중 도 1 및 도 2에서 설명한 연속어 음성인식방법과 중복되는 것은 여기서는 생략하기로 한다.

이상에서 실시 예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시 예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

300: 연속어 음성인식장치
301: 디코딩부
311: 발화검증부

Claims

연속어음성 입력에 대한 단어 래티스를 저장하고, 문장인식 결과를 출력하는 단계;
상기 문장인식 결과에 포함된 단어에 대해 음향모델을 이용하여 단어 신뢰도 척도를 계산하는 단계;
상기 문장인식 결과에 대해 상기 단어 신뢰도 척도 및 언어모델 확률값에 기초하여 확률기반 문장 신뢰도 척도를 계산하는 단계;
상기 문장인식 결과에 대한 문법분석을 통해 문법기반 문장 신뢰도 척도를 계산하는 단계; 및
상기 확률기반 및 문법기반 문장 신뢰도 척도를 기 설정된 문턱값과 비교하여 상기 문장인식 결과에 대한 발화검증을 수행하는 단계를 포함하는, 연속어 음성인식방법.