KR102018331B1

KR102018331B1 - 음성 인식 시스템에서의 발화 검증 장치 및 그 방법

Info

Publication number: KR102018331B1
Application number: KR1020160002792A
Authority: KR
Inventors: 강점자; 송화전; 박전규; 정훈
Original assignee: 한국전자통신연구원
Priority date: 2016-01-08
Filing date: 2016-01-08
Publication date: 2019-09-04
Also published as: KR20170083391A; US20170200458A1; US9799350B2

Abstract

본 발명은 자연어 음성 인식 시스템에서의 발화검증을 수행하기 위하여 다중 이벤트 검출 정보를 기반으로 한 발화 검증 장치 및 그 방법에 관한 것으로서, 상기 장치는, 입력되는 음성신호에 대한 잡음을 처리하는 잡음 처리부; 잡음 처리된 음성 데이터에 대한 특징을 추출하는 특징 추출부; 상기 잡음 처리된 데이터와 추출된 특징 데이터를 이용하여 해당 음성 데이터에서 발생되는 다수의 음성 특성에 대한 이벤트를 검출하는 이벤트 검출부; 상기 추출된 특징 데이터에 대하여 기 설정된 다수의 음성 인식 모델을 이용하여 음성 인식을 수행하는 탐색부; 및 상기 이벤트 검출부에서 검출된 다중 이벤트 정보와 기 설정된 발화 검증 모델을 이용하여 단어 단위와 문장 단위별로 신뢰도 측정 값을 계산하고, 계산된 신뢰도 측정값에 따라 발화 검증을 수행하는 발화 검증부를 포함한다.

Description

음성 인식 시스템에서의 발화 검증 장치 및 그 방법{Utterance verification apparatus and method for speech recognition system}

본 발명은 음성 인식 시스템에서의 발화 검증 장치 및 그 방법에 관한 것으로, 특히 자연어 음성인식시스템에서의 발화검증을 수행하기 위하여 다중 이벤트 검출 정보를 기반으로 한 발화검증 장치 및 그 방법에 관한 것이다.

일반적으로 음성인식시스템은 오인식 가능성을 포함하고 있기 때문에 인식결과에 대해 인식된 결과를 수락할지 또는 거절할지를 결정하는 발화검증 과정을 거친다.

이와 같이 음성인식 시스템의 신뢰도를 향상시키기 위해 인식결과를 맞는 것으로 판단할지, 틀린 것으로 판단할 지의 여부를 결정하는 기법을 발화검증이라 한다.

기존의 발화검증시스템은 탐색기의 음성인식 결과를 기반으로 발화검증을 수행하거나 탐색기의 인식결과 기반의 1단계 발화검증과 인식엔진을 구성하는 다른 요소 즉, 잡음처리 모듈, 특징 추출 모듈에서 생성하는 정보를 활용한 2단계 발화검증 방법이 있다.

이러한 구조하에서의 발화검증은 음성인식시스템에서의 일반적 정보를 추출하기 때문에 자연어 음성 인식을 위한 특징을 반영할 수 없는 한계를 지닌다.

자연어 발성의 예를 보면 도 1과 같다. 도 1에 도시된 바와 같은 LAB 파일은 실제 발성하는 것을 표기한 것으로 구어체에 해당하는 "구좁니다", "그", "아예", "이게"와 같은 간투사, "체험을"과 같은 장음화 현상이 나타남을 알 수 있다. 이와 같은 자연어 발성을 인식 실험했을 때 구조체 발음, 간투사, 장음화 현상 등이 발생하는 구간에 오인식이 발생함을 알 수 있다.

따라서, 본 발명은 상기한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 자연어 음성인식시스템에서의 발화검증을 수행하기 위하여 다중 이벤트 검출 정보를 기반으로 한 발화검증 장치 및 그 방법을 제공함에 있다.

상기한 목적을 달성하기 위한 본 발명의 일 측면에 따른 음성 인식 시스템의 발화 검증 장치는, 입력되는 음성신호에 대한 잡음을 처리하는 잡음 처리부; 잡음 처리된 음성 데이터에 대한 특징을 추출하는 특징 추출부; 상기 잡음 처리된 데이터와 추출된 특징 데이터를 이용하여 해당 음성 데이터에서 발생되는 다수의 음성 특성에 대한 이벤트를 검출하는 이벤트 검출부; 상기 추출된 특징 데이터에 대하여 기 설정된 다수의 음성 인식 모델을 이용하여 음성 인식을 수행하는 탐색부; 및 상기 이벤트 검출부에서 검출된 다중 이벤트 정보와 기 설정된 발화 검증 모델을 사용하여 단어 단위와 문장 단위별로 신뢰도 측정 값을 계산하고, 계산된 신뢰도 측정값에 따라 발화 검증을 수행하는 발화 검증부를 포함할 수 있다.

상기 이벤트 검출부는, 상기 잡음 처리된 데이터 및 특징이 검출된 데이터로부터 잡음 레벨, 숨소리, 간투사, 어구반복, 머뭇거림, 감탄사, 장음화, 웃음, 발화속도 및 말뭉개짐 중 적어도 하나 이상의 특성을 검출하는 검출기를 포함한다.

상기 음성 인식 모델은, 문맥종속 음향 모델, n-gram 언어 모델을 포함한다.

상기 발화 검증 모델은, 스무딩 반모델, 상세한 반모델, 필러 모델, SVM 모델을 포함한다.

상기 발화 검증부는, 이벤트가 발생한 구간의 단어와 이벤트가 발생하지 않은 단어에 대하여 각각 단어별 신뢰도 스코어를 계산하는 단어 단위 발화 검증부; 상기 단어 단위 발화 검증부에서 계산된 단어 수준 신뢰도 척도에 대해 문장 단위 또는 발화 단위로 신뢰도 스코어를 계산하는 문장 단위 발화 검증부; 단어 경계를 구분하지 않고, 이벤트가 발생한 구간에 대한 구간 정보와 추정된 다수의 특징 파라미터값을 사용하여 이벤트가 적용된 문장 단위의 신뢰도 스코어를 계산하는 문장 단위 이벤트 적용 발화 검증부; 상기 탐색부에서의 탐색 결과인 음성인식 결과 문장에 대해 문장 구조 및 의미를 분석하여 문장에 대한 신뢰도 스코어를 계산하는 문장 구조 및 의미 분석부; 및 상기 문장 단위 발화 검증부에서 계산된 스코어, 문장 단위 이벤트 적용 발화 검증부에서 계산된 스코어, 문장 구조 및 의미 분석부에서 계산된 스코어를 기 설정된 임계값과 각각 비교하여 그 결과에 따라 문장 인식의 수락 여부를 결정하는 판단부를 포함한다.

상기 단어 단위 발화 검증부는, 데이터베이스에 기 설정된 상세한 반모델과 필러 모델를 사용하여 단어별 신뢰도 스코어(척도)를 계산한다.

상기 문장 단위 이벤트 적용 발화 검증부는, 해당 문장에 대해 자연어의 특성을 반영하고 있는 훈련 데이터를 사용하여 SVM으로 훈련된 데이터베이스에 기 설정된 SVM 모델을 이용하여 신뢰도 스코어를 계산한다.

상기 문장 단위 이벤트 적용 발화 검증부에서의 특징 파라미터는, 잡음 추정구간 및 추정값, 숨소리 구간 및 추정값, 간투사 구간 및 추정값, 어구반복 구간 및 추정값, 머뭇거림 구간 및 추정값, 감탄사 구간 및 추정값, 장음화 구간 및 추정값, 웃음 구간 및 추정값, 발화속도 구간 및 추정값, 말뭉개짐 구간 및 추정값, 이벤트가 검출되지 않은 프레임수 및 로그비 우도값 중 적어도 하나 이상의 파라미터를 포함한다.

상기 문장 구조 및 의미 분석부에서의 음성인식 결과 문장에 대한 문장 구조 및 의미 분석은 형태소 분석기를 이용한다.

상기 판단부는, 상기 문장 단위 발화 검증부에서 계산된 스코어, 문장 단위 이벤트 적용 발화 검증부에서 계산된 스코어, 문장 구조 및 의미 분석부에서 계산된 스코어 중 2개 이상의 스코어가 기 설정된 임계값 보다 크면 문장 인식을 수락하고, 3개의 스코어 모두가 기 설정된 임계값보다 작으면 인식 문장을 거절하고, 상기 3개의 스코어중 1개의 스코어가 기 설정된 임계값보다 크고, 2개의 스코어가 기 설정된 임계값보다 작으면 인식 문장의 판단불가로 판단한다.

한편, 본 발명의 다른 측면에 따른 음성 인식 시스템의 발화 검증 방법은, 입력되는 음성신호에 대한 잡음을 처리하는 단계; 잡음 처리된 음성 데이터에 대한 특징을 추출하는 단계; 상기 잡음 처리된 데이터와 추출된 특징 데이터를 이용하여 해당 음성 데이터에서 발생되는 다수의 음성 특성에 대한 이벤트를 검출하는 단계; 상기 추출된 특징 데이터에 대하여 기 설정된 다수의 음성 인식 모델을 이용하여 음성 인식을 수행하는 단계; 및 상기 검출된 다중 이벤트 정보와 기 설정된 발화 검증 모델을 사용하여 단어 단위와 문장 단위별로 신뢰도 측정 값을 계산하고, 계산된 신뢰도 측정값에 따라 발화 검증을 수행하는 단계를 포함할 수 있다.

상기 이벤트는, 상기 잡음 처리된 데이터 및 특징이 검출된 데이터로부터 잡음 레벨, 숨소리, 간투사, 어구반복, 머뭇거림, 감탄사, 장음화, 웃음, 발화속도 및 말뭉개짐 중 적어도 하나를 포함한다.

상기 발화 검증을 수행하는 단계는, 이벤트가 발생한 구간의 단어와 이벤트가 발생하지 않은 단어에 대하여 각각 단어별 신뢰도 스코어를 계산하는 단계; 상기 계산된 단어 수준 신뢰도 척도에 대해 문장 단위 또는 발화 단위로 신뢰도 스코어를 계산하는 단계; 단어 경계를 구분하지 않고, 이벤트가 발생한 구간에 대한 구간 정보와 추정된 다수의 특징 파라미터값을 사용하여 이벤트가 적용된 문장 단위의 신뢰도 스코어를 계산하는 단계; 상기 음성인식 결과 문장에 대해 문장 구조 및 의미를 분석하여 문장에 대한 신뢰도 스코어를 계산하는 단계; 및 상기 계산된 각각의 스코어를 기 설정된 임계값과 각각 비교하여 그 결과에 따라 문장 인식의 수락 여부를 결정하는 단계를 포함한다.

상기 단어별 신뢰도 스코어를 계산하는 단계는, 데이터베이스에 기 설정된 상세한 반모델과 필러 모델을 사용하여 단어별 신뢰도 스코어(척도)를 계산한다.

상기 문장 단위 또는 발화 단위로 신뢰도 스코어를 계산하는 단계는, 해당 문장에 대해 자연어의 특성을 반영하고 있는 훈련 데이터를 사용하여 SVM으로 훈련된 데이터베이스에 기 설정된 SVM 모델을 이용하여 신뢰도 스코어를 계산한다.

상기 특징 파라미터는, 잡음 추정구간 및 추정값, 숨소리 구간 및 추정값, 간투사 구간 및 추정값, 어구반복 구간 및 추정값, 머뭇거림 구간 및 추정값, 감탄사 구간 및 추정값, 장음화 구간 및 추정값, 웃음 구간 및 추정값, 발화속도 구간 및 추정값, 말뭉개짐 구간 및 추정값, 이벤트가 검출되지 않은 프레임수 및 로그비 우도값 중 적어도 하나 이상의 파라미터를 포함한다.

상기 문장 구조 및 의미를 분석하여 문장에 대한 신뢰도 스코어를 계산하는 단계에서, 음성인식 결과 문장에 대한 문장 구조 및 의미 분석은 형태소 분석기를 이용한다.

상기 문장 인식의 수락 여부를 결정하는 단계, 상기 계산된 각 스코어 중 2개 이상의 스코어가 기 설정된 임계값 보다 크면 문장 인식을 수락하고, 3개의 스코어 모두가 기 설정된 임계값보다 작으면 인식 문장을 거절하고, 상기 3개의 스코어중 1개의 스코어가 기 설정된 임계값보다 크고, 2개의 스코어가 기 설정된 임계값보다 작으면 인식 문장의 판단불가로 판단한다.

본 발명에 따르면, 자연어 음성인식 시스템에서 자연어 현상으로 발생하는 이벤트들에 대해 정의하고, 각각의 이벤트 검출기로부터 추출된 다중 이벤트 정보를 발화검증에 통합 활용하기 위한 구조 및 방법을 제안함으로써 발화 검증 성능을 향상시킬 수 있는 효과가 있다.

다시 말해, 자연어는 일상 대화 또는 구어체에서 나타나는 간투사, 어구 반복, 머뭇거림, 감탄사, 관용어 삽입, 수정, 도치, 장음화, 웃음, 발음 뭉개짐, 발화속도 등 비문법적 발성 특성을 갖는 이벤트들이 발생한다. 따라서 본 발명은 이와 같은 특성을 갖는 이벤트를 검출하고, 검출된 정보를 발화검증 장치에 통합하여 활용함으로써 발화검증 성능을 향상시키는 것이다.

도 1은 일반적인 자연어 발성에 대한 LAB 파일을 나타낸 도면.
도 2는 본 발명에 따른 음성 인식 시스템에 대한 전체 블록 구성을 나타낸 도면.
도 3은 도 2에 도시된 이벤트 검출기의 상세 구성을 나타낸 도면.
도 4는 도 2에 도시된 발화 검증부에 대한 상세 블록 구성을 나타낸 도면.
도 5는 도 4에 도시된 단어 단위 발화 검증부에 대한 상세 동작을 설명하기 위한 동작 플로우챠트.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 용이하게 이해할 수 있도록 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명에 따른 음성 인식 시스템에서의 발화 검증 장치 및 그 방법에 대한 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세하게 설명하기로 한다.

도 2는 본 발에 따른 음성 인식 시스템에 대한 전체 블록 구성을 나타낸 도면이다.

도 2에 도시된 바와 같이, 본 발명에 따른 음성 인식 시스템은, 잡음 처리부(100), 특징 추출부(200), 탐색부(300), 이벤트 검출부(400), 발화 검증부(500) 및 데이터베이스(600)를 포함할 수 있다. 여기서, 데이터베이스(600)는 문맥종속 음향모델, n-gram 언어모델, 반모델, SVM 모델을 저장한다.

잡음 처리부(100)는 입력되는 음성신호에 잡음의 존재여부를 확인하여 잡음 을 처리한 후, 잡음 처리된 음성신호를 특징 추출부(200) 및 이벤트 검출기(400)로 제공한다.

특징 추출부(200)는 잡음 처리된 음성 신호에 대한 특징을 추출하여 이벤트 검출부(400) 및 탐색부(300)로 제공한다.

탐색부(300)는 상기 특징 추출부(200)에서 추출된 특징을 이용하여 데이터베이스(600)의 문맥 종속 음향 모델과, n-gram 언어 모델을 사용하여 탐색을 수행하여 음성 인식 결과를 발화 검증부(500)로 제공한다.

이벤트 검출부(400)는 잡음 처리부(100)에서 잡음 처리된 데이터와 특징 추출부(200)에서 추출된 특징 데이터를 사용하여 자연어 특성을 나타내는 각각의 이벤트에 대해 검출하고, 검출된 결과를 발화검증부(500)로 제공한다.

그리고, 이벤트 검출부(400)에서 검출된 이벤트 검출 결과는 이벤트 타입, 프레임 시작점, 프레임 끝점, 스코어 등으로 저장한다. 여기서, 상기 이벤트는 잡음레벨, 숨소리, 간투사, 어구반복, 머뭇거림, 감탄사, 장음화, 웃음, 발화속도, 말뭉개짐으로 정의될 수 있다.

발화 검증부(90)는 이벤트 검출부(400)로부터 제공되는 상기와 같은 다중 이벤트 정보와 미리 훈련하여 저장해 놓은 반모델과 SVM(Support Vector Machine)모델을 사용하여 단어 단위와 문장 단위별로 신뢰도 측정 값을 구하여 미리 설정된 문턱치 값과 비교하여 단어 단위 또는 문장 단위 별로 수락 또는 거절을 수행하는 것이다.

이하, 상기한 이벤트 검출부(400)와 발화 검증부(500)에 대하여 도 3 및 도 4를 참조하여 좀 더 구체적으로 설명하기로 하자.

도 3은 도 1에 도시된 이벤트 검출부(400)의 블록 구성을 나타낸 도면이고, 도 4는 도 1에 도시된 발화 검증부(500)에 대한 상세 블록 구성을 나타낸 도면이다.

도 3에 도시된 바와 같이, 이벤트 검출부(400)는 잡음 처리된 데이터 및 특징이 검출된 데이터로부터 잡음 레벨, 숨소리, 간투사, 어구반복, 머뭇거림, 감탄사, 장음화, 웃음, 발화속도 및 말뭉개짐을 각각 검출하는 각각의 검출기(401 내지 410)을 포함할 수 있다.

즉, 이벤트 검출부(400)는 발화검증에 활용되는 다중 이벤트 정보를 검출하는 것으로, 음성 신호가 입력되면 잡음을 처리한 데이터 또는 특징 추출을 수행한 데이터를 사용하여 이벤트를 검출하여 이벤트 타입, 프레임 시작점, 프레임 끝점, 스코어를 저장하여 발화검증에 사용될 수 있도록 이벤트 정보를 발화 검증부(500)로 제공한다.

한편, 발화 검증부(500)는 도 4에 도시된 바와 같이, 단어 단위 발화 검증부(510), 문장 단위 발화 검증부(520), 문장 단위 이벤트 적용 발화 검증부(530), 문장 구조 및 의미 분석부(540) 및 판단부(550)를 포함할 수 있다.

상기 발화 검증부(500)는 문장 단위로 검출된 이벤트를 적용하여 발화를 검증하고, 이벤트 발생구간 단어에 대해서는 단어 단위로 이벤트를 적용한 발화를 검증한다.

그리고, 발화 검증부(500)는 이벤트가 발생하지 않은 단어에 대해서는 단어 단위로 이벤트를 적용하지 않은 상태로 발화검증을 수행하고, 이를 기반으로 문장 단위로 발화검증을 수행한다.

구체적으로 살펴보면, 단어 단위 발화 검증부(510)는 이벤트가 발생한 구간의 단어와 이벤트가 발생하지 않은 단어에 대하여 각각 발화 검증을 구분하여 수행한다. 즉, 이벤트가 발생한 구간 단어에 대한 단어 단위 이벤트 적용 발화 검증은, 데이터베이스(600)의 상세한 반모델과 필러 모델를 사용하여 단어별 신뢰도 스코어(척도)를 계산한다,

그리고, 단어 단위 발화 검증부(510)는 이벤트가 발생하지 않은 단어에 대한 단어 단위 이벤트를 적용하지 않은 발화 검증은 데이터베이스(600)의 스무딩 반모델을 적용하여 단어 수준 신뢰도 척도를 계산한다.

문장 단위 발화 검증부(520)는 상기 단어 단위 발화 검증부(510)에서 계산된 단어 수준 신뢰도 척도에 대해 문장 단위 또는 발화 단위로 발화를 검증한다.

문장 단위 이벤트 적용 발화 검증부(530)는 해당 문장에 대해 자연어의 특성을 반영하고 있는 훈련 데이터를 사용하여 SVM으로 훈련된 데이터베이스(600)의 SVM 모델을 사전에 생성하여 둔다. 이 경우에는 단어 경계를 구분하지 않고, 이벤트가 발생한 구간에 대한 구간 정보와 추정된 값을 파라미터로 사용한다. 이벤트 추정 값은 이벤트 검출부(400)로부터 추정된 값을 사용하며, 아래의 표 1과 같이 22개의 특징 파라미터를 사용한다.

번호	특징
1	잡음 추정구간 및 추정값
2	숨소리 구간 및 추정값
3	간투사 구간 및 추정값
4	어구반복 구간 및 추정값
5	머뭇거림 구간 및 추정값
6	감탄사 구간 및 추정값
7	장음화 구간 및 추정값
8	웃음 구간 및 추정값
9	발화속도 구간 및 추정값
10	말뭉개짐 구간 및 추정값
11	이벤트가 검출되지 않은 프레임수 및 로그비 우도값

또한, 문장 구조 및 의미 분석부(540)는 도 1에 도시된 탐색부(300)에서의 탐색 결과인 음성인식 결과 문장에 대해 형태소 분석기(미도시)를 사용하여 문장구조 및 의미를 분석하여 문장에 대한 신뢰도 스코어(척도)를 계산한다.

판단부(550)는 상기 문장 단위 이벤트 적용 발화 검증부(530)에서 계산된 문장 단위 이벤트 적용 문장 신뢰도 척도와, 문장 단위 발화 검증부(520)에서 계산된 단어 단위 이벤트 적용한 문장 단위 신뢰도 척도 및 문장 구조 및 의미 분석부(540)에서 계산된 문장 구조 분석 신뢰도 척도를 기 설정된 임계값과 비교하여 비교 결과에 따라 문장의 수락 또는 거절을 판단한다.

즉, 판단부(550)는 상기 3개 문장 신뢰도 척도 즉, 상기 문장 단위 이벤트 적용 발화 검증부(530)에서 계산된 문장 단위 이벤트 적용 문장 신뢰도 척도와, 문장 단위 발화 검증부(520)에서 계산된 단어 단위 이벤트 적용한 문장 단위 신뢰도 척도 및 문장 구조 및 의미 분석부(540)에서 계산된 문장 구조 분석 신뢰도 척도 중 2개 이상이 기 설정된 임계값 보다 크면 문장 수락을 하고, 3개의 척도 모두가 기 설정된 임계값보다 작으면 거절을 수행한다. 그리고, 상기 3개의 척도 중1개의 척도가 기 설정된 임계값보다 크고, 2개의 척도가 기 설정된 임계값보다 작으면 판단불가로 판단한다.

이하, 도 5를 참조하여 도 4에 도시된 발화 검증부(500)의 단어 단위 발화 검증부(510)의 구체적인 동작에 대하여 설명하기로 한자.

도 5는 도 4에 도시된 단어 단위 발화 검증부 및 문장 단위 발화 검증부에 대한 상세 동작을 설명하기 위한 동작 플로우챠트이다.

먼저, 이벤트 검출부(400)에서의 이벤트 검출에 따른 이벤트 발생구간 단어에 대해서는 단어 단위 이벤트 적용한 발화 검증을 수행하고, 이벤트가 발생하지 않은 단어에 대해서는 단어 단위 이벤트를 적용하지 않은 발화 검증을 수행한다.

그리고, 상기한 이벤트 적용 또는 이벤트를 적용하지 않은 단어 단위 발화 검증 결과를 기반으로 문장 단위 발화 검증부(520)에서 문장 단위 발화 검증을 수행하는 것이다.

구체적으로 살펴보면, 먼저 도 1에 도시된 탐색부(300)부터 출력된 음성인식 결과를 단어 단위 발화 검증부(510)에서 분석한다.

그리고, 이벤트 검출부(400)로부터 지공되는 이벤트 검출 정보를 분석하여 인식 단어 구간에 이벤트 정보가 발생했는지의 여부를 확인한다(S502~S504)

확인 결과, 이벤트 정보가 존재하는 경우, 이벤트 정보 중 잡음 레벨, 숨소리, 머뭇거림 이벤트에 대해서는 스무딩 반모델 로그비 값에 필러 모델 스코어를 계산하여 계산된 스코어를 단어 신뢰도 값 가중치로 적용한다(S506, S507). 이때 해당 단어 구간내의 프레임 내부에 여러 개의 이벤트가 존재할 경우 프레임 단위에서 로그비 값을 가중함으로써 반모델의 스코어를 크게 키워 오인식 가능성이 큰 구간임을 강조한다.

그리고, 상기 발생된 이벤트가 간투사, 감탄사, 웃음인 경우 인식된 단어가 간투사, 감탄사, 웃음에 해당되는지 확인하고, 확인 결과, 인식된 단어가 간투사, 감탄사, 웃음인 경우 1로, 틀리면 2로 하여 반모델 스코어를 계산한 후, 계산된 스코어를 단어 신뢰도 값 가중치로 적용한다(S508).

한편, 상기 발생된 이벤트가 어구반복인 경우 인식된 단어 앞뒤에서 반복된 어구가 존재하는 지를 확인한다(S509).

그리고, 발생된 이벤트가 장음화, 말뭉개짐, 발화속도인 경우에는 상세 반모델 적용하여 단어 로그 우도비 값을 계산하여 스무딩 반모델 로그비 값에 가중하여 값을 구한다(S510).

만일, 이벤트 정보가 존재하지 않는 단어인 경우에는 스무딩 반모델을 적용하여 단어 로그 우도비값을 계산한다(S511).

이와 같이 문장 또는 발화 단위에서 인식된 단어 각각에 대해 이벤트가 정보가 존재할 경우는 기본 스무딩 반모델 로그 우도 값에 이벤트 구간별로 구해진 값을 가중치로 사용하고, 이벤트 정보가 존재하지 않는 단어 구간에서는 기본 스무딩 반모델을 적용하여 전체 문장 또는 발화 단위 스코어를 계산한다(S512).

정리하면, 자연어에서는 일상 대화 또는 구어체에서 나타나는 간투사, 어구 반복, 머뭇거림, 감탄사, 관용어 삽입, 수정, 도치, 장음화, 웃음, 발음 뭉개짐, 발화속도 등 비문법적 발성 특성이 두드러지게 나타나게 되는데, 본 발명에서는 이들의 특성을 검출하여 검출된 정보를 발화검증 장치에 통합하여 활용함으로써 발화검증 성능을 향상시키는 것이다.

본 발명에 따른 음성 인식 시스템에서의 발화 검증 장치 및 그 방법의 실시 예에 따라 설명하였지만, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.

따라서, 본 발명에 기재된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 잡음 처리부 200 : 특징 추출부
300 : 탐색부 400 : 이벤트 검출부
410 : 잡음 레벨 검출기 420 : 숨소리 검출기
430 : 간투사 검출기 440 : 어구 반복 검출기
450 : 머뭇거림 검출기 460 : 감탄사 검출기
470 : 장음화 검출기 480 : 웃음 검출기
480 : 발화 속도 검출기 490 : 말뭉개짐 검출기
500 : 발화 검증부 510 : 단어단위 발화 검증부
520 : 문장 단위 발화 검증부
530 : 문장 단위 이벤트 적용 발화 검증부
540 : 문장 구조 및 의미 분석부
550 : 판단부 600 : 데이터베이스

Claims

입력되는 음성신호에 대한 잡음을 처리하는 잡음 처리부;
잡음 처리된 음성 데이터에 대한 특징을 추출하는 특징 추출부;
상기 잡음 처리된 데이터와 추출된 특징 데이터를 이용하여 해당 음성 데이터에서 발생되는 다수의 음성 특성에 대한 이벤트를 검출하는 이벤트 검출부;
상기 추출된 특징 데이터에 대하여 기 설정된 다수의 음성 인식 모델을 이용하여 음성 인식을 수행하는 탐색부; 및
상기 이벤트 검출부에서 검출된 다중 이벤트 정보와 기 설정된 발화 검증 모델을 사용하여 단어 단위와 문장 단위별로 신뢰도 측정 값을 계산하고, 계산된 신뢰도 측정값에 따라 발화 검증을 수행하는 발화 검증부를 포함하되,
상기 발화 검증 모델은, 스무딩 반모델, 상세한 반모델, 필러 모델, SVM 모델을 포함하는 것인 음성 인식 시스템의 발화 검증 장치.
제1항에 있어서,
상기 이벤트 검출부는,
상기 잡음 처리된 데이터 및 특징이 검출된 데이터로부터 잡음 레벨, 숨소리, 간투사, 어구반복, 머뭇거림, 감탄사, 장음화, 웃음, 발화속도 및 말뭉개짐 중 적어도 하나 이상의 특성을 검출하는 검출기를 포함하는 것인 음성 인식 시스템의 발화 검증 장치.
제1항에 있어서,
상기 음성 인식 모델은, 문맥종속 음향 모델, n-gram 언어 모델을 포함하는 것인 음성 인식 시스템의 발화 검증 장치.
삭제
제1항에 있어서,
상기 발화 검증부는,
이벤트가 발생한 구간의 단어와 이벤트가 발생하지 않은 단어에 대하여 각각 단어별 신뢰도 스코어를 계산하는 단어 단위 발화 검증부;
상기 단어 단위 발화 검증부에서 계산된 단어 수준 신뢰도 척도에 대해 문장 단위 또는 발화 단위로 신뢰도 스코어를 계산하는 문장 단위 발화 검증부;
단어 경계를 구분하지 않고, 이벤트가 발생한 구간에 대한 구간 정보와 추정된 다수의 특징 파라미터값을 사용하여 이벤트가 적용된 문장 단위의 신뢰도 스코어를 계산하는 문장 단위 이벤트 적용 발화 검증부;
상기 탐색부에서의 탐색 결과인 음성인식 결과 문장에 대해 문장 구조 및 의미를 분석하여 문장에 대한 신뢰도 스코어를 계산하는 문장 구조 및 의미 분석부; 및
상기 문장 단위 발화 검증부에서 계산된 스코어, 문장 단위 이벤트 적용 발화 검증부에서 계산된 스코어, 문장 구조 및 의미 분석부에서 계산된 스코어를 기 설정된 임계값과 각각 비교하여 그 결과에 따라 문장 인식의 수락 여부를 결정하는 판단부를 포함하는 것인 음성 인식 시스템의 발화 검증 장치.
제5항에 있어서,
상기 단어 단위 발화 검증부는, 데이터베이스에 기 설정된 상세한 반모델과 필러 모델을 사용하여 단어별 신뢰도 스코어(척도)를 계산하는 것인 음성 인식 시스템의 발화 검증 장치.
제5항에 있어서,
상기 문장 단위 이벤트 적용 발화 검증부는, 해당 문장에 대해 자연어의 특성을 반영하고 있는 훈련 데이터를 사용하여 SVM으로 훈련된 데이터베이스에 기 설정된 SVM 모델을 이용하여 신뢰도 스코어를 계산하는 것인 음성 인식 시스템의 발화 검증 장치.
제5항에 있어서,
상기 문장 단위 이벤트 적용 발화 검증부에서의 특징 파라미터는, 잡음 추정구간 및 추정값, 숨소리 구간 및 추정값, 간투사 구간 및 추정값, 어구반복 구간 및 추정값, 머뭇거림 구간 및 추정값, 감탄사 구간 및 추정값, 장음화 구간 및 추정값, 웃음 구간 및 추정값, 발화속도 구간 및 추정값, 말뭉개짐 구간 및 추정값, 이벤트가 검출되지 않은 프레임수 및 로그비 우도값 중 적어도 하나 이상의 파라미터를 포함하는 것인 음성 인식 시스템의 발화 검증 장치.
제5항에 있어서,
상기 문장 구조 및 의미 분석부에서의 음성인식 결과 문장에 대한 문장 구조 및 의미 분석은 형태소 분석기를 이용하는 것인 음성 인식 시스템의 발화 검증 장치.
제5항에 있어서,
상기 판단부는,
상기 문장 단위 발화 검증부에서 계산된 스코어, 문장 단위 이벤트 적용 발화 검증부에서 계산된 스코어, 문장 구조 및 의미 분석부에서 계산된 스코어 중 2개 이상의 스코어가 기 설정된 임계값 보다 크면 문장 인식을 수락하고, 3개의 스코어 모두가 기 설정된 임계값보다 작으면 인식 문장을 거절하고, 상기 3개의 스코어중 1개의 스코어가 기 설정된 임계값보다 크고, 2개의 스코어가 기 설정된 임계값보다 작으면 인식 문장의 판단불가로 판단하는 것인 음성 인식 시스템의 발화 검증 장치.
입력되는 음성신호에 대한 잡음을 처리하는 단계;
잡음 처리된 음성 데이터에 대한 특징을 추출하는 단계;
상기 잡음 처리된 데이터와 추출된 특징 데이터를 이용하여 해당 음성 데이터에서 발생되는 다수의 음성 특성에 대한 이벤트를 검출하는 단계;
상기 추출된 특징 데이터에 대하여 기 설정된 다수의 음성 인식 모델을 이용하여 음성 인식을 수행하는 단계; 및
상기 검출된 다중 이벤트 정보와 기 설정된 발화 검증 모델을 사용하여 단어 단위와 문장 단위별로 신뢰도 측정 값을 계산하고, 계산된 신뢰도 측정값에 따라 발화 검증을 수행하는 단계를 포함하되,
상기 발화 검증 모델은, 스무딩 반모델, 상세한 반모델, 필러 모델, SVM 모델을 포함하는 것인 음성 인식 시스템의 발화 검증 방법.
제11항에 있어서,
상기 이벤트는,
상기 잡음 처리된 데이터 및 특징이 검출된 데이터로부터 잡음 레벨, 숨소리, 간투사, 어구반복, 머뭇거림, 감탄사, 장음화, 웃음, 발화속도 및 말뭉개짐 중 적어도 하나를 포함하는 것인 음성 인식 시스템의 발화 검증 방법.
제11항에 있어서,
상기 음성 인식 모델은, 문맥종속 음향 모델, n-gram 언어 모델을 포함하는 것인 음성 인식 시스템의 발화 검증 방법.
제11항에 있어서,
상기 발화 검증 모델은, 스무딩 반모델, 상세한 반모델, 필러 모델, SVM 모델을 포함하는 것인 음성 인식 시스템의 발화 검증 방법.
제11항에 있어서,
상기 발화 검증을 수행하는 단계는,
이벤트가 발생한 구간의 단어와 이벤트가 발생하지 않은 단어에 대하여 각각 단어별 신뢰도 스코어를 계산하는 단계;
상기 계산된 단어 수준 신뢰도 척도에 대해 문장 단위 또는 발화 단위로 신뢰도 스코어를 계산하는 단계;
단어 경계를 구분하지 않고, 이벤트가 발생한 구간에 대한 구간 정보와 추정된 다수의 특징 파라미터값을 사용하여 이벤트가 적용된 문장 단위의 신뢰도 스코어를 계산하는 단계;
상기 음성인식 결과 문장에 대해 문장 구조 및 의미를 분석하여 문장에 대한 신뢰도 스코어를 계산하는 단계; 및
상기 계산된 각각의 스코어를 기 설정된 임계값과 각각 비교하여 그 결과에 따라 문장 인식의 수락 여부를 결정하는 단계를 포함하는 것인 음성 인식 시스템의 발화 검증 방법.
제15항에 있어서,
상기 단어별 신뢰도 스코어를 계산하는 단계는, 데이터베이스에 기 설정된 상세한 반모델과 필러 모델을 사용하여 단어별 신뢰도 스코어(척도)를 계산하는 것인 음성 인식 시스템의 발화 검증 방법.
제15항에 있어서,
상기 문장 단위 또는 발화 단위로 신뢰도 스코어를 계산하는 단계는,
해당 문장에 대해 자연어의 특성을 반영하고 있는 훈련 데이터를 사용하여 SVM으로 훈련된 데이터베이스에 기 설정된 SVM 모델을 이용하여 신뢰도 스코어를 계산하는 것인 음성 인식 시스템의 발화 검증 방법.
제15항에 있어서,
상기 특징 파라미터는, 잡음 추정구간 및 추정값, 숨소리 구간 및 추정값, 간투사 구간 및 추정값, 어구반복 구간 및 추정값, 머뭇거림 구간 및 추정값, 감탄사 구간 및 추정값, 장음화 구간 및 추정값, 웃음 구간 및 추정값, 발화속도 구간 및 추정값, 말뭉개짐 구간 및 추정값, 이벤트가 검출되지 않은 프레임수 및 로그비 우도값 중 적어도 하나 이상의 파라미터를 포함하는 것인 음성 인식 시스템의 발화 검증 방법.
제15항에 있어서,
상기 문장 구조 및 의미를 분석하여 문장에 대한 신뢰도 스코어를 계산하는 단계에서, 음성인식 결과 문장에 대한 문장 구조 및 의미 분석은 형태소 분석기를 이용하는 것인 음성 인식 시스템의 발화 검증 방법.
제15항에 있어서,
상기 문장 인식의 수락 여부를 결정하는 단계,
상기 계산된 각 스코어 중 2개 이상의 스코어가 기 설정된 임계값 보다 크면 문장 인식을 수락하고, 3개의 스코어 모두가 기 설정된 임계값보다 작으면 인식 문장을 거절하고, 상기 3개의 스코어중 1개의 스코어가 기 설정된 임계값보다 크고, 2개의 스코어가 기 설정된 임계값보다 작으면 인식 문장의 판단불가로 판단하는 것인 음성 인식 시스템의 발화 검증 방법.