KR20140147587A

KR20140147587A - Ｗｆｓｔ를 이용한 음성 끝점 검출 장치 및 방법

Info

Publication number: KR20140147587A
Application number: KR1020130071143A
Authority: KR
Inventors: 정훈; 이성주; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2013-06-20
Filing date: 2013-06-20
Publication date: 2014-12-30
Also published as: US9396722B2; US20140379345A1

Abstract

WFST를 이용한 음성 끝점 검출 장치 및 방법을 공개한다. 본 발명은 음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하고, 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 음성 판별부, 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하는 프레임 레벨 WFST, 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST, 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하는 WFST 결합부 및 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST가 결합된 결합 WFST를 최소 경로를 갖도록 최적화하는 최적화부를 포함한다.

Description

ＷＦＳＴ를 이용한 음성 끝점 검출 장치 및 방법{A METHOD AND APPARATUS TO DETECT SPEECH ENDPOINT USING WEIGHTED FINITE STATE TRANSDUCER}

본 발명은 음성 끝점 검출 장치 및 방법에 관한 것으로, 특히 WFST를 이용한 음성 끝점 검출 장치 및 방법에 관한 것이다.

음성 인식 기술은 전화, 마이크 등을 통하여 컴퓨터나 음성인식 시스템에 전달되는 사람의 음성으로부터 특징을 추출하고 분석하여, 미리 입력된 인식 목록에서 가장 근접한 결과를 찾아내는 기술이다.

음성 인식 기술의 핵심은 음성인식 성능을 높이기 위해 잡음 사이에 잡음과 함께 인가되는 음성의 음성 구간을 정확하게 획득하는 기술에 있다. 특히 최근 음성을 이용한 사용자 인터페이스를 구비하는 장치의 보급이 확대됨에 따라 실시간 음성 인식 기술에 대한 요구가 높아지고 있다. 이에 노이즈와 함께 인가되는 음성을 음성이 입력되는 시간부터 음성이 종료되는 시간까지의 음성 구간을 정확히 검출하는 음성 구간 검출 기술에 대한 연구가 다양하게 진행되고 있다.

그리고 음성 구간 검출 기술의 정확도는 일반적으로 음성 구간의 끝을 나타내는 음성 끝점(Speech Endpoint)의 검출 성능에 좌우되는 것으로 알려져 있다. 그리고 현재까지 음성 인식 기술이 보편화되지 않은 가장 큰 원인 또한 음성 끝점 검출 기술에 있다. 따라서 음성 끝점 검출 기술의 발천이 매우 시급하다.

도1 은 종래의 음성 끝점 검출 장치의 일예를 나타낸다.

도1 에 도시된 바와 같이, 종래의 음성 끝점 검출 장치(1)는 크게 프레임 레벨 판별부(frame-level decision)(10) 및 발성 레벨 판별부(utterance-level decision)(20)를 구비한다. 프레임 레벨 판별부(10)는 입력 신호를 변환하여 생성된 프레임 단위의 특징 벡터(fv)를 수신하여 수신된 프레임 단위의 특징 벡터(fv)가 음성인지 비음성인지를 판별한다. 그리고 발성 레벨 판별부(20)는 프레임 레벨 판별부(10)의 판별 결과로부터 음성 구간이 검출되는지를 판별한다.

프레임 레벨 판별부(10)는 음성 판별부(11) 및 행오버부(12)를 포함한다. 음성 판별부(11)는 인가된 프레임 단위의 특징 벡터(fv)에 대해 음성인지 비음성인지 판별한다. 그러나 프레임 단위의 음성 신호 판별은 오류를 포함할 수 있다. 이에 프레임 레벨 판별부(10)는 행오버부(12)를 더 구비하여 프레임 단위의 오류를 수정한다. 행오버부(12)는 음성의 인접 프레임 간에는 연관 관계가 높다는 가정하에서 프레임 단위 음성 판별의 오류를 보상한다.

발성 레벨 판별부(20)는 상태흐름 제어부(21) 및 휴리스틱 적용부(22)를 포함한다. 상태흐름 제어부(21)는 프레임 레벨 판별부(10)의 판별 결과를 이용하여 발성 단위의 끝점을 검출하기 위한 내부 흐름을 기설정된 규칙(Rule)에 따라 제어한다. 그리고 휴리스틱 적용부(22)는 상태흐름 제어부(21)에서 끝점으로 검출된 음성이 음성 끝점이 맞는지 검증한다. 휴리스틱 적용부(22)는 일반적으로 끝점으로 검출된 음성의 길이가 기설정된 최소 음성의 길이(일반적으로 20ms)를 만족하는지 분석하여 음성 끝점을 검증한다.

도1 에 도시된 기존의 음성 끝점 검출 장치(1)는 프레임 레벨 판별부(10)가 통계 기반 판별 로직을 사용하는데 비해, 발성 레벨 판별부(20)는 규칙 기반 로직을 주로 사용한다. 따라서 프레임 레벨 판별부(10)와 발성 레벨 판별부(20)가 서로 독립적인 로직을 사용함으로서, 음성을 분석하는 연관성이 있음에도 불구하고, 독립적으로 구성된 로직을 개별적으로 최적화하여야 하며, 개별적 최적화에도 불구하고 전체적으로는 최적의 성능을 도출하지 못하는 경우가 빈번하게 발생한다. 즉 전역적인 최적화가 이루어지지 않는 경우가 많다. 더불어 발성 기반 판별부(20)가 규칙 기반 로직을 주로 사용함에 따라 다양한 규칙을 추가하는 경우, 규칙 간에 충돌이 발생할 수 있으며, 이러한 규칙간의 충돌은 끝점 검출 최적화에 큰 장애 요인이 되고 있다.

본 발명의 목적은 독립적 로직을 갖고 끝점을 검출하는 프레임 레벨 결정 및 발성 레벨 결정을 WFST을 이용하여 끝점을 검출함으로서 전역적인 최적화 가능하고, 규칙을 충돌없이 추가 삭제하기 용이한 음성 끝점 검출 장치를 제공하는데 있다.

본 발명의 다른 목적은 WFST를 이용한 음성 끝점 검출 방법을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 예에 따른 음성 끝점 검출 장치는 음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하고, 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 음성 판별부; 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하는 프레임 레벨 WFST; 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST; 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하는 WFST 결합부; 및 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST가 결합된 결합 WFST를 최소 경로를 갖도록 최적화하는 최적화부;를 포함한다.

상기 WFST 결합부는 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식

(여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다.)에 따라 결합하는 것을 특징으로 한다.

상기 최적화부는 상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식

(여기서, D 는 최적화된 WFST이다.)에 따라 상기 결합 WFST를 최적화 하는 것을 특징으로 한다.

상기 음성 레벨 WFST는

상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식

(여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다. 그리고 i는 초기 상태로서 NOISE 상태이고, F는 최종 상태 집합으로 EOU이다. 그리고 E는 천이 함수 집합이며, λ 및 ρ는 각각 음성 클래스(H) 가중치 및 노이즈 클래스 가중치를 나타낸다.)에 따라 구현되는 것을 특징으로 한다.

상기 음성 레벨 WFST는 음성 대기 상태(Sn)의 개수를 기설정된 최소 음성 프레임 카운트(T_m)에 대응하여 설정하고, 노이즈 대기 상태(Nn)의 개수를 기설정된 후단 묵음 프레임 카운트(T_b)에 대응하여 설정하는 것을 특징으로 한다.

상기 음성 레벨 WFST는 상기 음성 클래스 및 상기 노이즈 클래스의 오분류에 따른 오류가 발생하는 것을 방지하기 위해 행오버 기법을 추가로 적용하여, 상기 음성 레벨 WFST가 수학식

(여기서, Vn 은 n 번째 행오버 상태이다.)에 따라 구현되는 것을 특징으로 한다.

상기 음성 레벨 WFST는 상기 음성 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 후단 묵음 프레임 카운트(T_b)보다 작게 설정하고, 상기 노이즈 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 최소 음성 프레임 카운트(T_m)보다 작게 설정하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 일 예에 따른 음성 끝점 검출 방법은 음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하여, 음성 끝점을 검출하는 음성 끝점 검출 장치를 이용한 음성 끝점 검출 방법에 있어서, 상기 음성 끝점 검출 장치가 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 단계; 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하여 프레임 레벨 WFST를 생성하는 단계; 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST를 생성하는 단계; 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하여 결합 WFST를 획득하는 단계; 및 상기 결합 WFST를 최적화하는 단계;를 포함한다.

따라서, 본 발명의 WFST를 이용한 음성 끝점 검출 장치 및 방법은 기존의 프레임 레벨 결정부 및 발성 레벨 결정부로 독립적으로 운용되는 모듈들이 WFST를 이용하도록 하고, 두 개의 WFST를 합성하기 위한 WFST 결합부 및 WFST의 경로를 최적화하는 최단경로부를 구비함으로서 규칙의 추가 및 삭제가 용이하고 규칙의 충돌에 의한 장애가 발생하지 않으며, 전역적인 최적화가 용이하다. 그러므로 기존에 비해 오류 없이 빠르고 정확하게 음성 끝점을 검출할 수 있다.

도1 은 종래의 음성 끝점 검출 장치의 일예를 나타낸다.
도2 는 본 발명의 일실시예에 따른 음성 끝점 검출 장치를 나타낸다.
3 은 도2 의 프레임 레벨 WFST의 일예를 나타낸다.
도4 는 도2 의 음성 레벨 WFST의 일예를 나타낸다.
도5 는 행오버 WFST의 일예를 나타낸다.
도6 은 도4 의 음성 레벨 WFST에 행오버 기법을 적용한 일예를 나타낸다.
도7 은 WFST 결합부가 수행하는 결합 연산의 간단한 일예를 나타낸다.
도8 은 최적화부가 수행하는 최소화 연산의 간단한 일예를 나타낸다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “...부”, “...기”, “모듈”, “블록” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도2 는 본 발명의 일실시예에 따른 음성 끝점 검출 장치를 나타낸다.

도2 를 참조하면, 본 발명의 음성 끝점 검출 장치(100)는 음성 판별부(110), 프레임 레벨 WFST(120), 발성 레벨 WFST(130), WFST 결합부(140) 및 최적화부(150)를 구비한다.

음성 판별부(110)는 도1 에 도시된 기존의 음성 끝점 검출 장치(1)의 음성 판별부(11)과 동일하게 인가된 프레임 단위의 특징 벡터(fv)에 대해 음성인지 비음성인지 판별한다. 그리고 판별 결과를 프레임 레벨 WFST(120)로 전송한다.

음성 판별부(110)는 마이크와 같은 음성 입력 수단(미도시)을 통해 입력된 아날로그 음성 신호를 변환한 프레임 단위의 특징 벡터(fv)를 수신하고, 수신된 특징 벡터(fv)를 분석하여 음성(H₁) 및 노이즈(H₀)로 분류한다. 음성 판별부(110)가 특징 벡터(fv)를 수신하여 음성(H₁) 및 노이즈(H₀)으로 분류하는 방법은 다양하게 공개되어 있으나, 본 발명에서는 일예로 우도비 검사(likelihood ration testing : LRT) 기반분류를 이용하는 것으로 가정하여 설명한다.

우도비 검사 기반 분류에서 결정 규칙은 수학식1에 따른다.

(여기서, X는 특징 벡터(fv), H₀ 및 H₁ 은 각각 노이즈와 음성 클래스, P(X:H₁), P(X:H₀)는 각각 해당 클래스의 확률을 나타내고, T_d는 특징 벡터(X)가 음성 클래스(H₁)인지 노이즈 클래스(H₀)인지 이진 판정하기 위한 문턱값이다.)

상기에서는 음성 판별부(110)가 특징 벡터를 음성 클래스(H₁) 및 노이즈 클래스(H₀)로 2진 판정하는 것으로 설명하였으나, 경우에 따라서는 연판정(soft decision) 결과를 출력할 수도 있다.

음성 판별부(110)는 단순히 입력되는 특징 벡터(fv)를 확률 기반으로 분석하여 음성 클래스(H₁) 및 노이즈 클래스(H₀)로 구분할 뿐, 음성의 끝점을 인식하지는 못한다. 또한 음성 판별부(110)의 음성 클래스(H₁) 및 노이즈 클래스(H₀) 분류는 임의 분류로서, 음성 클래스(H₁) 및 노이즈 클래스(H₀)는 분류를 위한 가정일 뿐, 음성 판별부(110)는 수신되는 특징 벡터가 실질적으로 음성인지 노이즈인지 100% 명확하게 식별하지는 못한다. 이에 상기한 바와 같이 음성 판별부(110)는 확률에 기반하여 음성 클래스(H₁) 및 노이즈 클래스(H₀)로 분류한다.

프레임 레벨 WFST(120)는 음성 판별부(110)에서의 판별결과에 WFST(Weighted Finite State Transducer : 가중 유한 상태 변환기)를 적용한다. 음성 판별부(110)은 단순히 음성 클래스(H₁) 및 노이즈 클래스(H₀) 분류만을 수행하므로, 음성 레벨 WFST(130)과의 결합이 용이하지 않다. 이에 프레임 레벨 WFST(120)는 음성 레벨 WFST(130)와 결합할 수 있도록 음성 판별부(110)의 분류 결과를 WFST로 변환한다.

WFST는 입력 심볼과 출력 심볼에 상태 천이를 표시하고, 각 천이에 가중치를 할당하는 유한 상태 자동화기(finite state automaton : FST)이다. FST는 음성인식을 위한 방법론으로서 그 목적은 음성인식에서 사용하는 제반 지식원을 하나의 통합된 프레임웍으로 표현이 가능하고 잘 정의된 수학적 최적화 방법론을 제공하는 것이다. WFST는 FST에서 상태 천이 시 해당 천이에 가중치가 추가로 결합되는 형태로서, WFST는 입력 심볼 시퀀스(input symbol sequences : 본 발명에서는 특징 벡터를 포함한 프레임)는 천이를 통한 모든 유효 경로 상에서 계산된 경로 가중치와 함께 출력 심볼 시퀀스에 맵핑된다. 여기서 경로 가중치 각각은 해당 경로에 할당된 전체 상태 천이 가중치들에 대한 함수이다. WFST에 대한 알고리즘 및 상세한 수학적 설명은 공지된 기술로서 D Moore, J Dines, MM Doss, J Vepa, O Cheng, T Hain, "Juicer: A weighted finite state transducer speech coder," Proc. MLMI 2006 Washington DC. 및 M.T Johnson: "Capacity and complexity of HMM duration modeling techniques," IEEE Signal Processing Letters, vol. 12, pp. 407- 410, 2005 에 기술되어 있다.

도3 은 도2 의 프레임 레벨 WFST의 일예를 나타낸다.

프레임 레벨 WFST(120)는 도3 에 도시된 바와 같이 음성 상태(H₁)와 노이즈 상태(H₀)의 상태(State)를 포함하여, 음성 판별부(110)에서 분류한 음성 및 노이즈 클래스(H₀, H₁)를 WFST로 변환한다.

도3 에서 프레임 레벨 WFST(120)는 음성 판별부(110)에서 특징 벡터를 판별한 결과인 음성 클래스(H₁) 또는 노이즈 클래스(H₀)를 수신하고, 수신된 음성 클래스(H₁) 및 노이즈 클래스(H₀)를 순차적으로 천이하여, 최종 상태로 천이되도록 하고 상태값을 출력한다.

프레임 레벨 WFST(120)에서 가중치는 음성 판별부(110)가 이진 판정하는지 또는 연판정하는지 여부에 따라 이진수 또는 실수로 표현될 수 있다. 본 발명에서는 음성 판별부(110)가 2진 판별하는 것으로 가정하였으므로, 가중치가 이진수로 표현되는 것으로 설명한다.

한편, 음성 레벨 WFST(130)는 분류된 클래스(H₀, H₁)와 판별되는 상태 사이에 관계를 분석하여 음성 끝점(EOU)을 검출할 수 있도록 구성된다. 음성 레벨 WFST(130)는 두 개의 입력 클래스(H₀ 및 H₁)에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함한다. 그리고 초기 상태는 노이즈 상태인 것으로 설정하고 최종 상태는 EOU 상태인 것으로 설정한다. 6개의 상태 중 NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다.

음성 레벨 WFST(130)를 수학식으로 표현하면 수학식 2와 같이 표현된다.

(여기서, i는 초기 상태로서 i ∈ Q이고, F는 최종 상태 집합으로 F ⊆ Q 이다. 그리고 E는 천이 함수 집합이며, λ 및 ρ는 각각 음성 클래스(H) 가중치 및 노이즈 클래스 가중치를 나타낸다.)

도4 는 도2 의 음성 레벨 WFST의 일예를 나타낸다.

도4 에서 음성 레벨 WFST(130)는 음성 판별부(110)으로부터 노이즈 클래스(H₀)가 입력되는 동안 초기 상태인 NOISE 상태(노드 0)가 유지된다. 그러나 음성 클래스(H₁)가 입력되면, 1번째 음성 대기 상태(S1)로 천이한다. 이후 다시 음성 클래스(H₁)가 입력되면, 2번째 음성 대기 상태(S2)로 천이하는 반면, 노이즈 클래스(H₀)가 입력되면, 초기 상태인 NOISE 상태로 천이한다. 만일 음성 클래스(H₁)가 연속적으로 기설정된 최소 음성 프레임 카운트(T_m) 만큼(여기서는 3) 입력되면, 3번째 음성 대기 상태(S3)로 천이한 후, 바로 음성 구간이 시작된 것으로 판별하여, BOU 상태로 천이한다. 그리고 BOU 상태는 다시 SPEECH 상태로 천이한다. SPEECH 상태에서 음성 클래스(H₁)가 다시 입력되면, SPEECH 상태를 유지하는 반면, 노이즈 클래스(H₀)가 인가되면, 1번째 노이즈 대기 상태(N1)로 천이한다. 1번째 노이즈 대기 상태(N1)에서 음성 클래스(H₁)가 입력되면, SPEECH 상태로 천이하는 반면, 노이즈 클래스(H₀)가 연속하여 후단 묵음 프레임 카운트(T_b)만큼(여기서는 3) 입력되면, 음성 레벨 WFST는 음성 구간이 종료(EOU)된 것으로, 즉 끝점이 검출된 것으로 판별할 수 있다.

여기서 최소 음성 프레임 카운트(T_m)는 음성 클래스(H₁)가 기설정된 프레임 이상 인가된 경우에만 음성 구간이 시작(BOU)한 것으로 판별하기 위한 변수이며, 후단 묵음 프레임 카운트(T_b)는 BOU 상태 이후, 노이즈 클래스(H₀)가 기설정된 프레임 이상 인가된 경우에만 음성 구간이 종료(EOU)된 것으로 판별하기 위한 변수이다. 도4 에서는 최소 음성 프레임 카운트(T_m)와 후단 묵음 프레임 카운트(T_b)가 각각 3으로 설정된 경우를 가정하였으므로, 초기 NOISE 상태로부터 BOU 상태까지의 음성 대기 상태(S1, S2, S3)의 수가 3개이며, SPEECH 상태로부터 EOU 상태까지의 노이즈 대기 상태(N1, N2, N3)의 수 또한 3개로 도시되었다. 최소 음성 프레임 카운트(T_m)와 후단 묵음 프레임 카운트(T_b)가 각각 3으로 설정되었으므로, 도4 에서 BOU 상태가 되기 위해서는 NOISE 상태에서 음성 클래스(H₁)가 연속하여 3회 인가되어야 하고, EOU 상태가 되기 위해서는 SPEECH 상태 이후, 노이즈 클래스(H₀)가 연속하여 3회 인가되어야 한다.

음성 레벨 WFST(130)는 음성 판별부(110)로부터 분류된 음성 클래스(H₁) 및 노이즈 클래스(H₀)를 인가받아 음성 끝점을 검출할 수도 있으나, 본 발명에서 음성 레벨 WFST(130)는 하기에 설명하는 WFST 결합부(140)에 의해 프레임 레벨 WFST(120)와 결합된다. 따라서 프레임 레벨 WFST(120)와 결합되는 음성 레벨 WFST(130)는 직접적인 입력을 인가받지 않아도 되며, 최소 음성 프레임 카운트(T_m)와 후단 묵음 프레임 카운트(T_b)를 고려한 WFST 구조를 포함하면된다.

상기에서는 음성 레벨 WFST(130)가 단순히 음성 클래스(H₁)가 최소 음성 프레임 카운트(T_m) 이상 연속하여 인가되면, BOU 상태로 천이하고, 이후 노이즈 클래스(H₀)가 후단 묵음 프레임 카운트(T_b) 이상으로 인가되면, EOU 상태로 천이하였다.

그러나 이러한 최소 음성 프레임 카운트(T_m) 및 후단 묵음 프레임 카운트(T_b)만을 고려한 BOU 상태 천이 및 EOU 상태 천이는 의도하지 않는 오류를 야기할 수도 있다. 예를 들어, 도4 의 1번째 음성 대기 상태(S1) 또는 2번째 음성 대기 상태(S2)에서 오분류된 노이즈 클래스(H₀)가 인가된다면, 음성 레벨 WFST(130)는 NOISE 상태로 천이한다. 이러한 오분류로 인한 NOISE 상태 천이는 정확한 끝점 검출에 장애로 동작한다. 즉 NOISE 상태에서 최소 음성 프레임 카운트(T_m) 이상의 음성 클래스(H₁)가 연속적으로 인가되지 않으면, BOU 상태로 천이하지 않도록 설정되어 오분류가 포함되면, BOU 상태 이후의 EOU 상태로 천이하기 어렵게 된다. 마찬가지로 SPEECH 상태에서도 후단 묵음 프레임 카운트(T_b) 이상의 노이즈 클래스(H₀)가 연속적으로 인가되지 않으면, EOU 상태로 천이하지 않도록 설정되어 있으므로, 오분류가 포함되면, EOU 상태로 천이하기 어렵게 되어 정확한 음성 끝점 검출이 어렵다.

이러한 문제를 해결하기 위해서는 오분류가 발생하지 않도록 하는 것이 가장 좋은 방법이지만 현재까지 오분류를 발생하지 않고, 음성 클래스(H₁) 및 노이즈 클래스(H₀)를 분류할 수 있는 음성 판별부(110)는 개발되지 않았다. 이는 사람의 음성 편차를 고려하여 음성 판별부(110)가 대부분 확률에 기초하여 음성 클래스(H₁) 및 노이즈 클래스(H₀)를 분류하기 때문이다.

이에 본 발명에서는 연속하여 획득되는 음성 프레임에는 강한 관계가 있다는 아이디어에 기반한 행오버 기법을 음성 레벨 WFST에 행오버 기법을 추가로 적용할 수 있다. 행오버 기법은 기설정된 행오버 프레임 카운트(T_v)만큼 전송 지연함에 의해 상태 천이 에러를 평활화하는 기법이다.

도5 는 행오버 WFST의 일예를 나타낸다.

도5 에서 (a)는 도4 의 1번째 음성 대기 상태(S1)에 행오버 기법을 적용한 경우를 나타내며, 행오버 프레임 카운트(T_v)가 2인 경우를 나타낸다. 그리고 (b)는 도4 에서 1번째 노이즈 대기 상태(N1)에 행오버 기법을 적용한 경우를 나타내며, 마찬가지로 행오버 프레임 카운트(T_v)가 2인 경우를 나타낸다.

도5 의 (a) 에 도시된 바와 같이, WFST에 행오버 기법이 적용되면, 1번째 음성 대기 상태(S1)에서 노이즈 클래스(H₀)가 인가되더라도, 도4 와 달리 곧바로 NOISE 상태로 천이하지 않고, 행오버 상태(V1)로 천이한다. 즉 노이즈 클래스(H₀)가 행오버 프레임 카운트(T_v) 이하로 인가되면, 행오버 상태(V1, V2)로 천이함에 따라 NOISE 상태나 2번째 음성 대기 상태(S2)로 천이하지 않게 되어 오분류에 의한 오류를 줄일 수 있다. 마찬가지로 도5 의 (b)에서 1번째 노이즈 대기 상태(N1)에서 오분류로 인한 오류가 발생하는 것을 방지하기 위해 행오버 프레임 카운트(T_v)가 2로 적용되어 있으며, 이에 따라 1번째 노이즈 대기 상태(N1)에서 음성 클래스(H₁)가 2회 연속으로 입력되더라도 SPEECH 상태나 2번째 노이즈 대기 상태(N2)로 천이하지 않고 행오버 상태(V1, V2)로 천이하게 된다.

즉 오분류로 인한 오류 발생 가능성을 낮출 수 있다.

도6 은 도4 의 음성 레벨 WFST에 행오버 기법을 적용한 일예를 나타낸다.

도6 을 살펴보면, 도6 의 음성 레벨 WFST는 도4 의 음성 레벨 WFST에서 1번째 및 2번째 음성 대기 상태(S1, S2)와 1번째 및 2번째 노이즈 대기 상태(N1, N2)에 각각 행오버 기법이 적용되었다. 그리고 도5 에서와 마찬가지로, 행오버 프레임 카운트(T_v)가 2로 적용되었다. 이에 음성 레벨 WFST에서 1번째 및 2번째 음성 대기 상태(S1, S2) 각각에서는 노이즈 클래스(H₀)가 2회까지 인가되더라도 NOISE 상태로 천이하지 않으며, 1번째 및 2번째 노이즈 대기 상태(N1, N2) 각각에서는 음성 클래스(H₁)가 2회 연속으로 입력되더라도 SPEECH 상태로 천이하지 않으므로, 안정적으로 끝점을 검출할 수 있다.

여기서 행오버 프레임 카운트(T_v)는 최소 음성 프레임 카운트(T_m)와 후단 묵음 프레임 카운트(T_b)보다 작게 설정되는 것이 바람직하다. 따라서 도6 에서는 최소 음성 프레임 카운트(T_m)와 후단 묵음 프레임 카운트(T_b)가 각각 3으로 설정되으므로, 행오버 프레임 카운트(T_v)를 2로 설정하였다. 그리고 최소 음성 프레임 카운트(T_m)와 최소 음성 프레임 카운트(T_m)의 값이 서로 상이한 경우, 행오버 프레임 카운트(T_v)는 음성 대기 상태(S1, S2)와 노이즈 대기 상태(N1, N2) 각각에 서로 상이한 값으로 설정될 수도 있다. 예를 들어 최소 음성 프레임 카운트(T_m)가 5 이고, 후단 묵음 프레임 카운트(T_b)가 4이면, 음성 대기 상태(S1, S2) 각각에 대한 행오버 프레임 카운트(T_v)는 후단 묵음 프레임 카운트(T_b)보다 작은 3으로 설정될 수 있으며, 노이즈 대기 상태(N1, N2) 각각에 대한 행오버 프레임 카운트(T_v)는 최소 음성 프레임 카운트(T_m)보다 작은 3으로 설정될 수 있다.

행오버 기법이 적용된 음성 레벨 WFST(130)를 수학식으로 표현하면 수학식 3와 같이 표현된다.

(여기서, Vn 은 n 번째 행오버 상태이다.)

그리고 WFST 결합부(140)는 프레임 레벨 WFST(120)과 음성 레벨 WFST(130)를 결합한다. WFST는 기본적으로 몇가지 연산을 지원한다. WFST 결합부(140)는 WFST의 기본 연산 중 하나인 결합 연산(°)을 이용하여 프레임 레벨 WFST(120)과 음성 레벨 WFST(130)의 표현상 서로 다른 레벨들의 WFST들을 조합하기 위해 사용된다. 결합 연산(°)은 C = A ° B 와 같은 형태로 표시될 수 있다.

C = A ° B 는 두 개의 변환기(A 및 B)의 결합하여 하나의 변환기 C를 구현하는 연산으로서, 일예로 각각의 입/출력 심볼이 x/y 및 y/z인 두 개의 변환기(A 및 B)를 결합한 변환기 C는 입/출력 심볼이 x/z가 되고, 원래의 구분된 변환기들(A 및 B)과 비교하여 모든 가능한 입력 및 출력 시퀀스에 동일한 가중치를 부여하기 위해 계산된 가중치들을 갖는다.

도7 은 WFST 결합부가 수행하는 결합 연산의 간단한 일예를 나타낸다.

도7 에서는 두 개의 WFST(T1, T2)이 결합 연산(°)을 이용하여 결합되는 방법을 도시하였다. 도7 을 참조하면, WFST(T1)은 입력 심볼로 c를 인가받아 출력 심볼로서 (a, b)를 출력하고, WFST(T2)는 입력 심볼로서 a, b, c를 인가받아 Z, X, Y를 출력 심볼로서 출력한다. 그리고 두 개의 WFST(T1, T2)를 결합 연산(°)을 통해 결합한 T1 ° T2 는 c를 입력 심볼로 인가받아 Z 및 X를 출력 심볼로서 출력할 수 있도록 구성된다. 즉 T1 의 입력 심볼을 인가받아 T2 의 출력 심볼을 출력할 수 있다. 그리고 도시하지 않았으나, T1 ° T2 는 2개의 WFST(T1, T2)의 결합에 대응하는 가중치가 설정된다.

이러한 WFST 결합 연산(°)을 이용하여 WFST 결합부(130)는 프레임 레벨 WFST(120) 및 음성 레벨 WFST(130)를 결합할 수 있다. 프레임 레벨 WFST(120)를 F라 하고, 음성 레벨 WFST를 U라 할 때, WFST 결합부(130)는 수학식 4의 연산을 수행하여 결합 WFST를 획득할 수 있다.

마지막으로 최적화부(150)는 WFST 결합부(130)에 의해 결합된 WFST에 대해 최적화를 수행한다. WFST의 최적화는 WFST의 기본 연산 중 하나인 최소화 연산(min)을 활용하여 결합된 WFST를 최적화한다. WFST의 최소화 연산은 WFST가 최소의 상태와 최소의 천이를 갖도록 하는 연산이다.

최적화부(150)는 최소화 연산(min)을 이용하여 결합된 WFST를 수학식 5와 같이 최적화 한다.

도8 은 최적화부가 수행하는 최소화 연산의 간단한 일예를 나타낸다.

도8 의 (a)에서 WFST를 분석하면, red 입력에 대한 상태는 결국 green 입력에 대한 상태에 의해 3번째 노드로 천이됨에 따라 불필요한 상태이다. 이에 (b)에서는 이를 간략화 하여 green 입력에 대한 상태 천이만이 적용되도록 최소화하였음을 알 수 있다.

WFST의 결합 연산(°) 및 최소화 연산은 공지된 기술이므로 여기서는 추가적인 상세 설명은 하지 않는다.

상기에서는 도2 에 WFST를 이용한 음성 끝점 검출 장치를 도시하였으나, WFST를 이용한 끝점 검출 방법 또한 동일한 플로우를 가지므로 여기서는 상세하게 설명하지 않도록 한다.

상기한 바와 같이 본 발명의 WFST를 이용한 음성 끝점 검출 장치는 음성 판별부(110)에서 분류한 음성 클래스(H₁)와 노이즈 클래스(H₀)를 프레임 레벨 WFST(120)에서 다시 검증하여 음성 클래스(H₁)와 노이즈 클래스(H₀)를 명확하게 분류할 수 있도록 하며, 음성 레벨 WFST(130)를 활용하여 끝점을 용이하게 검출할 수 있도록 한다. 더불어 WFST 결합부(140)에서 프레임 레벨 WFST(120)와 음성 레벨 WFST(130)를 결합 연산을 이용하여 결합하므로, 규칙의 추가 및 삭제에 의한 오류가 발생하지 않으며, 최적화부(150)가 결합된 WFST의 경로를 최소화함에 따라 음성 끝점 검출 장치의 전역적인 최적화가 이루어질 수 있다. 또한 행오버 기법을 WFST에 적용함에 따라 오분류로 인한 음성 끝점 검출 오류를 크게 줄일 수 있다.

본 발명에 따른 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하고, 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 음성 판별부;
분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하는 프레임 레벨 WFST;
분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST;
상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하는 WFST 결합부; 및
상기 프레임 레벨 WFST와 상기 음성 레벨 WFST가 결합된 결합 WFST를 최소 경로를 갖도록 최적화하는 최적화부;를 포함하는 음성 끝점 검출 장치.
제1 항에 있어서, 상기 WFST 결합부는
상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식

(여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다.)
에 따라 결합하는 것을 특징으로 하는 음성 끝점 검출 장치.
제2 항에 있어서, 상기 최적화부는
상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식

(여기서, D 는 최적화된 WFST이다.)
에 따라 상기 결합 WFST를 최적화 하는 것을 특징으로 하는 음성 끝점 검출 장치.
제3 항에 있어서, 상기 음성 레벨 WFST는
상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식

(여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다. 그리고 i는 초기 상태로서 NOISE 상태이고, F는 최종 상태 집합으로 EOU이다. 그리고 E는 천이 함수 집합이며, λ 및 ρ는 각각 음성 클래스(H) 가중치 및 노이즈 클래스 가중치를 나타낸다.)
에 따라 구현되는 것을 특징으로 하는 음성 끝점 검출 장치.
제4 항에 있어서, 상기 음성 레벨 WFST는
음성 대기 상태(Sn)의 개수를 기설정된 최소 음성 프레임 카운트(T_m)에 대응하여 설정하고,
노이즈 대기 상태(Nn)의 개수를 기설정된 후단 묵음 프레임 카운트(T_b)에 대응하여 설정하는 것을 특징으로 하는 음성 끝점 검출 장치.
제5 항에 있어서, 상기 음성 레벨 WFST는
상기 음성 클래스 및 상기 노이즈 클래스의 오분류에 따른 오류가 발생하는 것을 방지하기 위해 행오버 기법을 추가로 적용하여, 상기 음성 레벨 WFST가 수학식

(여기서, Vn 은 n 번째 행오버 상태이다.)에 따라 구현되는 것을 특징으로 하는 음성 끝점 검출 장치.
제4 항에 있어서, 상기 음성 레벨 WFST는
상기 음성 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 후단 묵음 프레임 카운트(T_b)보다 작게 설정하고,
상기 노이즈 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 최소 음성 프레임 카운트(T_m)보다 작게 설정하는 것을 특징으로 하는 음성 끝점 검출 장치.
음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하여, 음성 끝점을 검출하는 음성 끝점 검출 장치를 이용한 음성 끝점 검출 방법에 있어서,
상기 음성 끝점 검출 장치가
수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 단계;
분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하여 프레임 레벨 WFST를 생성하는 단계;
분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST를 생성하는 단계;
상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하여 결합 WFST를 획득하는 단계; 및
상기 결합 WFST를 최적화하는 단계;를 포함하는 음성 끝점 검출 방법.
제8 항에 있어서, 상기 결합 WFST를 획득하는 단계는
상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식

(여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다.)
에 따라 결합하는 것을 특징으로 하는 음성 끝점 검출 방법.
제9 항에 있어서, 상기 결합 WFST를 최적화하는 단계는
상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식

(여기서, D 는 최적화된 WFST이다.)
에 따라 상기 결합 WFST를 최적화 하는 것을 특징으로 하는 음성 끝점 검출 방법.
제9 항에 있어서, 상기 결합 WFST를 최적화하는 단계는
상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식

(여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다. 그리고 i는 초기 상태로서 NOISE 상태이고, F는 최종 상태 집합으로 EOU이다. 그리고 E는 천이 함수 집합이며, λ 및 ρ는 각각 음성 클래스(H) 가중치 및 노이즈 클래스 가중치를 나타낸다.)
에 따라 구현되는 것을 특징으로 하는 음성 끝점 검출 방법.
제8 항 내지 제11 항 중 어느 한 항에 따른 상기 음성 끝점 검출 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록 매체.