KR20140147587A - Wfst를 이용한 음성 끝점 검출 장치 및 방법 - Google Patents

Wfst를 이용한 음성 끝점 검출 장치 및 방법 Download PDF

Info

Publication number
KR20140147587A
KR20140147587A KR1020130071143A KR20130071143A KR20140147587A KR 20140147587 A KR20140147587 A KR 20140147587A KR 1020130071143 A KR1020130071143 A KR 1020130071143A KR 20130071143 A KR20130071143 A KR 20130071143A KR 20140147587 A KR20140147587 A KR 20140147587A
Authority
KR
South Korea
Prior art keywords
voice
wfst
class
speech
noise
Prior art date
Application number
KR1020130071143A
Other languages
English (en)
Inventor
정훈
이성주
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130071143A priority Critical patent/KR20140147587A/ko
Priority to US14/224,626 priority patent/US9396722B2/en
Publication of KR20140147587A publication Critical patent/KR20140147587A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

WFST를 이용한 음성 끝점 검출 장치 및 방법을 공개한다. 본 발명은 음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하고, 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 음성 판별부, 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하는 프레임 레벨 WFST, 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST, 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하는 WFST 결합부 및 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST가 결합된 결합 WFST를 최소 경로를 갖도록 최적화하는 최적화부를 포함한다.

Description

WFST를 이용한 음성 끝점 검출 장치 및 방법{A METHOD AND APPARATUS TO DETECT SPEECH ENDPOINT USING WEIGHTED FINITE STATE TRANSDUCER}
본 발명은 음성 끝점 검출 장치 및 방법에 관한 것으로, 특히 WFST를 이용한 음성 끝점 검출 장치 및 방법에 관한 것이다.
음성 인식 기술은 전화, 마이크 등을 통하여 컴퓨터나 음성인식 시스템에 전달되는 사람의 음성으로부터 특징을 추출하고 분석하여, 미리 입력된 인식 목록에서 가장 근접한 결과를 찾아내는 기술이다.
음성 인식 기술의 핵심은 음성인식 성능을 높이기 위해 잡음 사이에 잡음과 함께 인가되는 음성의 음성 구간을 정확하게 획득하는 기술에 있다. 특히 최근 음성을 이용한 사용자 인터페이스를 구비하는 장치의 보급이 확대됨에 따라 실시간 음성 인식 기술에 대한 요구가 높아지고 있다. 이에 노이즈와 함께 인가되는 음성을 음성이 입력되는 시간부터 음성이 종료되는 시간까지의 음성 구간을 정확히 검출하는 음성 구간 검출 기술에 대한 연구가 다양하게 진행되고 있다.
그리고 음성 구간 검출 기술의 정확도는 일반적으로 음성 구간의 끝을 나타내는 음성 끝점(Speech Endpoint)의 검출 성능에 좌우되는 것으로 알려져 있다. 그리고 현재까지 음성 인식 기술이 보편화되지 않은 가장 큰 원인 또한 음성 끝점 검출 기술에 있다. 따라서 음성 끝점 검출 기술의 발천이 매우 시급하다.
도1 은 종래의 음성 끝점 검출 장치의 일예를 나타낸다.
도1 에 도시된 바와 같이, 종래의 음성 끝점 검출 장치(1)는 크게 프레임 레벨 판별부(frame-level decision)(10) 및 발성 레벨 판별부(utterance-level decision)(20)를 구비한다. 프레임 레벨 판별부(10)는 입력 신호를 변환하여 생성된 프레임 단위의 특징 벡터(fv)를 수신하여 수신된 프레임 단위의 특징 벡터(fv)가 음성인지 비음성인지를 판별한다. 그리고 발성 레벨 판별부(20)는 프레임 레벨 판별부(10)의 판별 결과로부터 음성 구간이 검출되는지를 판별한다.
프레임 레벨 판별부(10)는 음성 판별부(11) 및 행오버부(12)를 포함한다. 음성 판별부(11)는 인가된 프레임 단위의 특징 벡터(fv)에 대해 음성인지 비음성인지 판별한다. 그러나 프레임 단위의 음성 신호 판별은 오류를 포함할 수 있다. 이에 프레임 레벨 판별부(10)는 행오버부(12)를 더 구비하여 프레임 단위의 오류를 수정한다. 행오버부(12)는 음성의 인접 프레임 간에는 연관 관계가 높다는 가정하에서 프레임 단위 음성 판별의 오류를 보상한다.
발성 레벨 판별부(20)는 상태흐름 제어부(21) 및 휴리스틱 적용부(22)를 포함한다. 상태흐름 제어부(21)는 프레임 레벨 판별부(10)의 판별 결과를 이용하여 발성 단위의 끝점을 검출하기 위한 내부 흐름을 기설정된 규칙(Rule)에 따라 제어한다. 그리고 휴리스틱 적용부(22)는 상태흐름 제어부(21)에서 끝점으로 검출된 음성이 음성 끝점이 맞는지 검증한다. 휴리스틱 적용부(22)는 일반적으로 끝점으로 검출된 음성의 길이가 기설정된 최소 음성의 길이(일반적으로 20ms)를 만족하는지 분석하여 음성 끝점을 검증한다.
도1 에 도시된 기존의 음성 끝점 검출 장치(1)는 프레임 레벨 판별부(10)가 통계 기반 판별 로직을 사용하는데 비해, 발성 레벨 판별부(20)는 규칙 기반 로직을 주로 사용한다. 따라서 프레임 레벨 판별부(10)와 발성 레벨 판별부(20)가 서로 독립적인 로직을 사용함으로서, 음성을 분석하는 연관성이 있음에도 불구하고, 독립적으로 구성된 로직을 개별적으로 최적화하여야 하며, 개별적 최적화에도 불구하고 전체적으로는 최적의 성능을 도출하지 못하는 경우가 빈번하게 발생한다. 즉 전역적인 최적화가 이루어지지 않는 경우가 많다. 더불어 발성 기반 판별부(20)가 규칙 기반 로직을 주로 사용함에 따라 다양한 규칙을 추가하는 경우, 규칙 간에 충돌이 발생할 수 있으며, 이러한 규칙간의 충돌은 끝점 검출 최적화에 큰 장애 요인이 되고 있다.
본 발명의 목적은 독립적 로직을 갖고 끝점을 검출하는 프레임 레벨 결정 및 발성 레벨 결정을 WFST을 이용하여 끝점을 검출함으로서 전역적인 최적화 가능하고, 규칙을 충돌없이 추가 삭제하기 용이한 음성 끝점 검출 장치를 제공하는데 있다.
본 발명의 다른 목적은 WFST를 이용한 음성 끝점 검출 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 예에 따른 음성 끝점 검출 장치는 음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하고, 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 음성 판별부; 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하는 프레임 레벨 WFST; 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST; 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하는 WFST 결합부; 및 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST가 결합된 결합 WFST를 최소 경로를 갖도록 최적화하는 최적화부;를 포함한다.
상기 WFST 결합부는 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식
Figure pat00001
(여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다.)에 따라 결합하는 것을 특징으로 한다.
상기 최적화부는 상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식
Figure pat00002
(여기서, D 는 최적화된 WFST이다.)에 따라 상기 결합 WFST를 최적화 하는 것을 특징으로 한다.
상기 음성 레벨 WFST는
상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식
Figure pat00003
(여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다. 그리고 i는 초기 상태로서 NOISE 상태이고, F는 최종 상태 집합으로 EOU이다. 그리고 E는 천이 함수 집합이며, λ 및 ρ는 각각 음성 클래스(H) 가중치 및 노이즈 클래스 가중치를 나타낸다.)에 따라 구현되는 것을 특징으로 한다.
상기 음성 레벨 WFST는 음성 대기 상태(Sn)의 개수를 기설정된 최소 음성 프레임 카운트(Tm)에 대응하여 설정하고, 노이즈 대기 상태(Nn)의 개수를 기설정된 후단 묵음 프레임 카운트(Tb)에 대응하여 설정하는 것을 특징으로 한다.
상기 음성 레벨 WFST는 상기 음성 클래스 및 상기 노이즈 클래스의 오분류에 따른 오류가 발생하는 것을 방지하기 위해 행오버 기법을 추가로 적용하여, 상기 음성 레벨 WFST가 수학식
Figure pat00004
(여기서, Vn 은 n 번째 행오버 상태이다.)에 따라 구현되는 것을 특징으로 한다.
상기 음성 레벨 WFST는 상기 음성 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 후단 묵음 프레임 카운트(Tb)보다 작게 설정하고, 상기 노이즈 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 최소 음성 프레임 카운트(Tm)보다 작게 설정하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 일 예에 따른 음성 끝점 검출 방법은 음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하여, 음성 끝점을 검출하는 음성 끝점 검출 장치를 이용한 음성 끝점 검출 방법에 있어서, 상기 음성 끝점 검출 장치가 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 단계; 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하여 프레임 레벨 WFST를 생성하는 단계; 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST를 생성하는 단계; 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하여 결합 WFST를 획득하는 단계; 및 상기 결합 WFST를 최적화하는 단계;를 포함한다.
따라서, 본 발명의 WFST를 이용한 음성 끝점 검출 장치 및 방법은 기존의 프레임 레벨 결정부 및 발성 레벨 결정부로 독립적으로 운용되는 모듈들이 WFST를 이용하도록 하고, 두 개의 WFST를 합성하기 위한 WFST 결합부 및 WFST의 경로를 최적화하는 최단경로부를 구비함으로서 규칙의 추가 및 삭제가 용이하고 규칙의 충돌에 의한 장애가 발생하지 않으며, 전역적인 최적화가 용이하다. 그러므로 기존에 비해 오류 없이 빠르고 정확하게 음성 끝점을 검출할 수 있다.
도1 은 종래의 음성 끝점 검출 장치의 일예를 나타낸다.
도2 는 본 발명의 일실시예에 따른 음성 끝점 검출 장치를 나타낸다.
3 은 도2 의 프레임 레벨 WFST의 일예를 나타낸다.
도4 는 도2 의 음성 레벨 WFST의 일예를 나타낸다.
도5 는 행오버 WFST의 일예를 나타낸다.
도6 은 도4 의 음성 레벨 WFST에 행오버 기법을 적용한 일예를 나타낸다.
도7 은 WFST 결합부가 수행하는 결합 연산의 간단한 일예를 나타낸다.
도8 은 최적화부가 수행하는 최소화 연산의 간단한 일예를 나타낸다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “...부”, “...기”, “모듈”, “블록” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도2 는 본 발명의 일실시예에 따른 음성 끝점 검출 장치를 나타낸다.
도2 를 참조하면, 본 발명의 음성 끝점 검출 장치(100)는 음성 판별부(110), 프레임 레벨 WFST(120), 발성 레벨 WFST(130), WFST 결합부(140) 및 최적화부(150)를 구비한다.
음성 판별부(110)는 도1 에 도시된 기존의 음성 끝점 검출 장치(1)의 음성 판별부(11)과 동일하게 인가된 프레임 단위의 특징 벡터(fv)에 대해 음성인지 비음성인지 판별한다. 그리고 판별 결과를 프레임 레벨 WFST(120)로 전송한다.
음성 판별부(110)는 마이크와 같은 음성 입력 수단(미도시)을 통해 입력된 아날로그 음성 신호를 변환한 프레임 단위의 특징 벡터(fv)를 수신하고, 수신된 특징 벡터(fv)를 분석하여 음성(H1) 및 노이즈(H0)로 분류한다. 음성 판별부(110)가 특징 벡터(fv)를 수신하여 음성(H1) 및 노이즈(H0)으로 분류하는 방법은 다양하게 공개되어 있으나, 본 발명에서는 일예로 우도비 검사(likelihood ration testing : LRT) 기반분류를 이용하는 것으로 가정하여 설명한다.
우도비 검사 기반 분류에서 결정 규칙은 수학식1에 따른다.
Figure pat00005
(여기서, X는 특징 벡터(fv), H0 및 H1 은 각각 노이즈와 음성 클래스, P(X:H1), P(X:H0)는 각각 해당 클래스의 확률을 나타내고, Td는 특징 벡터(X)가 음성 클래스(H1)인지 노이즈 클래스(H0)인지 이진 판정하기 위한 문턱값이다.)
상기에서는 음성 판별부(110)가 특징 벡터를 음성 클래스(H1) 및 노이즈 클래스(H0)로 2진 판정하는 것으로 설명하였으나, 경우에 따라서는 연판정(soft decision) 결과를 출력할 수도 있다.
음성 판별부(110)는 단순히 입력되는 특징 벡터(fv)를 확률 기반으로 분석하여 음성 클래스(H1) 및 노이즈 클래스(H0)로 구분할 뿐, 음성의 끝점을 인식하지는 못한다. 또한 음성 판별부(110)의 음성 클래스(H1) 및 노이즈 클래스(H0) 분류는 임의 분류로서, 음성 클래스(H1) 및 노이즈 클래스(H0)는 분류를 위한 가정일 뿐, 음성 판별부(110)는 수신되는 특징 벡터가 실질적으로 음성인지 노이즈인지 100% 명확하게 식별하지는 못한다. 이에 상기한 바와 같이 음성 판별부(110)는 확률에 기반하여 음성 클래스(H1) 및 노이즈 클래스(H0)로 분류한다.
프레임 레벨 WFST(120)는 음성 판별부(110)에서의 판별결과에 WFST(Weighted Finite State Transducer : 가중 유한 상태 변환기)를 적용한다. 음성 판별부(110)은 단순히 음성 클래스(H1) 및 노이즈 클래스(H0) 분류만을 수행하므로, 음성 레벨 WFST(130)과의 결합이 용이하지 않다. 이에 프레임 레벨 WFST(120)는 음성 레벨 WFST(130)와 결합할 수 있도록 음성 판별부(110)의 분류 결과를 WFST로 변환한다.
WFST는 입력 심볼과 출력 심볼에 상태 천이를 표시하고, 각 천이에 가중치를 할당하는 유한 상태 자동화기(finite state automaton : FST)이다. FST는 음성인식을 위한 방법론으로서 그 목적은 음성인식에서 사용하는 제반 지식원을 하나의 통합된 프레임웍으로 표현이 가능하고 잘 정의된 수학적 최적화 방법론을 제공하는 것이다. WFST는 FST에서 상태 천이 시 해당 천이에 가중치가 추가로 결합되는 형태로서, WFST는 입력 심볼 시퀀스(input symbol sequences : 본 발명에서는 특징 벡터를 포함한 프레임)는 천이를 통한 모든 유효 경로 상에서 계산된 경로 가중치와 함께 출력 심볼 시퀀스에 맵핑된다. 여기서 경로 가중치 각각은 해당 경로에 할당된 전체 상태 천이 가중치들에 대한 함수이다. WFST에 대한 알고리즘 및 상세한 수학적 설명은 공지된 기술로서 D Moore, J Dines, MM Doss, J Vepa, O Cheng, T Hain, "Juicer: A weighted finite state transducer speech coder," Proc. MLMI 2006 Washington DC. 및 M.T Johnson: "Capacity and complexity of HMM duration modeling techniques," IEEE Signal Processing Letters, vol. 12, pp. 407- 410, 2005 에 기술되어 있다.
도3 은 도2 의 프레임 레벨 WFST의 일예를 나타낸다.
프레임 레벨 WFST(120)는 도3 에 도시된 바와 같이 음성 상태(H1)와 노이즈 상태(H0)의 상태(State)를 포함하여, 음성 판별부(110)에서 분류한 음성 및 노이즈 클래스(H0, H1)를 WFST로 변환한다.
도3 에서 프레임 레벨 WFST(120)는 음성 판별부(110)에서 특징 벡터를 판별한 결과인 음성 클래스(H1) 또는 노이즈 클래스(H0)를 수신하고, 수신된 음성 클래스(H1) 및 노이즈 클래스(H0)를 순차적으로 천이하여, 최종 상태로 천이되도록 하고 상태값을 출력한다.
프레임 레벨 WFST(120)에서 가중치는 음성 판별부(110)가 이진 판정하는지 또는 연판정하는지 여부에 따라 이진수 또는 실수로 표현될 수 있다. 본 발명에서는 음성 판별부(110)가 2진 판별하는 것으로 가정하였으므로, 가중치가 이진수로 표현되는 것으로 설명한다.
한편, 음성 레벨 WFST(130)는 분류된 클래스(H0, H1)와 판별되는 상태 사이에 관계를 분석하여 음성 끝점(EOU)을 검출할 수 있도록 구성된다. 음성 레벨 WFST(130)는 두 개의 입력 클래스(H0 및 H1)에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함한다. 그리고 초기 상태는 노이즈 상태인 것으로 설정하고 최종 상태는 EOU 상태인 것으로 설정한다. 6개의 상태 중 NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다.
음성 레벨 WFST(130)를 수학식으로 표현하면 수학식 2와 같이 표현된다.
Figure pat00006
(여기서, i는 초기 상태로서 i ∈ Q이고, F는 최종 상태 집합으로 F ⊆ Q 이다. 그리고 E는 천이 함수 집합이며, λ 및 ρ는 각각 음성 클래스(H) 가중치 및 노이즈 클래스 가중치를 나타낸다.)
도4 는 도2 의 음성 레벨 WFST의 일예를 나타낸다.
도4 에서 음성 레벨 WFST(130)는 음성 판별부(110)으로부터 노이즈 클래스(H0)가 입력되는 동안 초기 상태인 NOISE 상태(노드 0)가 유지된다. 그러나 음성 클래스(H1)가 입력되면, 1번째 음성 대기 상태(S1)로 천이한다. 이후 다시 음성 클래스(H1)가 입력되면, 2번째 음성 대기 상태(S2)로 천이하는 반면, 노이즈 클래스(H0)가 입력되면, 초기 상태인 NOISE 상태로 천이한다. 만일 음성 클래스(H1)가 연속적으로 기설정된 최소 음성 프레임 카운트(Tm) 만큼(여기서는 3) 입력되면, 3번째 음성 대기 상태(S3)로 천이한 후, 바로 음성 구간이 시작된 것으로 판별하여, BOU 상태로 천이한다. 그리고 BOU 상태는 다시 SPEECH 상태로 천이한다. SPEECH 상태에서 음성 클래스(H1)가 다시 입력되면, SPEECH 상태를 유지하는 반면, 노이즈 클래스(H0)가 인가되면, 1번째 노이즈 대기 상태(N1)로 천이한다. 1번째 노이즈 대기 상태(N1)에서 음성 클래스(H1)가 입력되면, SPEECH 상태로 천이하는 반면, 노이즈 클래스(H0)가 연속하여 후단 묵음 프레임 카운트(Tb)만큼(여기서는 3) 입력되면, 음성 레벨 WFST는 음성 구간이 종료(EOU)된 것으로, 즉 끝점이 검출된 것으로 판별할 수 있다.
여기서 최소 음성 프레임 카운트(Tm)는 음성 클래스(H1)가 기설정된 프레임 이상 인가된 경우에만 음성 구간이 시작(BOU)한 것으로 판별하기 위한 변수이며, 후단 묵음 프레임 카운트(Tb)는 BOU 상태 이후, 노이즈 클래스(H0)가 기설정된 프레임 이상 인가된 경우에만 음성 구간이 종료(EOU)된 것으로 판별하기 위한 변수이다. 도4 에서는 최소 음성 프레임 카운트(Tm)와 후단 묵음 프레임 카운트(Tb)가 각각 3으로 설정된 경우를 가정하였으므로, 초기 NOISE 상태로부터 BOU 상태까지의 음성 대기 상태(S1, S2, S3)의 수가 3개이며, SPEECH 상태로부터 EOU 상태까지의 노이즈 대기 상태(N1, N2, N3)의 수 또한 3개로 도시되었다. 최소 음성 프레임 카운트(Tm)와 후단 묵음 프레임 카운트(Tb)가 각각 3으로 설정되었으므로, 도4 에서 BOU 상태가 되기 위해서는 NOISE 상태에서 음성 클래스(H1)가 연속하여 3회 인가되어야 하고, EOU 상태가 되기 위해서는 SPEECH 상태 이후, 노이즈 클래스(H0)가 연속하여 3회 인가되어야 한다.
음성 레벨 WFST(130)는 음성 판별부(110)로부터 분류된 음성 클래스(H1) 및 노이즈 클래스(H0)를 인가받아 음성 끝점을 검출할 수도 있으나, 본 발명에서 음성 레벨 WFST(130)는 하기에 설명하는 WFST 결합부(140)에 의해 프레임 레벨 WFST(120)와 결합된다. 따라서 프레임 레벨 WFST(120)와 결합되는 음성 레벨 WFST(130)는 직접적인 입력을 인가받지 않아도 되며, 최소 음성 프레임 카운트(Tm)와 후단 묵음 프레임 카운트(Tb)를 고려한 WFST 구조를 포함하면된다.
상기에서는 음성 레벨 WFST(130)가 단순히 음성 클래스(H1)가 최소 음성 프레임 카운트(Tm) 이상 연속하여 인가되면, BOU 상태로 천이하고, 이후 노이즈 클래스(H0)가 후단 묵음 프레임 카운트(Tb) 이상으로 인가되면, EOU 상태로 천이하였다.
그러나 이러한 최소 음성 프레임 카운트(Tm) 및 후단 묵음 프레임 카운트(Tb)만을 고려한 BOU 상태 천이 및 EOU 상태 천이는 의도하지 않는 오류를 야기할 수도 있다. 예를 들어, 도4 의 1번째 음성 대기 상태(S1) 또는 2번째 음성 대기 상태(S2)에서 오분류된 노이즈 클래스(H0)가 인가된다면, 음성 레벨 WFST(130)는 NOISE 상태로 천이한다. 이러한 오분류로 인한 NOISE 상태 천이는 정확한 끝점 검출에 장애로 동작한다. 즉 NOISE 상태에서 최소 음성 프레임 카운트(Tm) 이상의 음성 클래스(H1)가 연속적으로 인가되지 않으면, BOU 상태로 천이하지 않도록 설정되어 오분류가 포함되면, BOU 상태 이후의 EOU 상태로 천이하기 어렵게 된다. 마찬가지로 SPEECH 상태에서도 후단 묵음 프레임 카운트(Tb) 이상의 노이즈 클래스(H0)가 연속적으로 인가되지 않으면, EOU 상태로 천이하지 않도록 설정되어 있으므로, 오분류가 포함되면, EOU 상태로 천이하기 어렵게 되어 정확한 음성 끝점 검출이 어렵다.
이러한 문제를 해결하기 위해서는 오분류가 발생하지 않도록 하는 것이 가장 좋은 방법이지만 현재까지 오분류를 발생하지 않고, 음성 클래스(H1) 및 노이즈 클래스(H0)를 분류할 수 있는 음성 판별부(110)는 개발되지 않았다. 이는 사람의 음성 편차를 고려하여 음성 판별부(110)가 대부분 확률에 기초하여 음성 클래스(H1) 및 노이즈 클래스(H0)를 분류하기 때문이다.
이에 본 발명에서는 연속하여 획득되는 음성 프레임에는 강한 관계가 있다는 아이디어에 기반한 행오버 기법을 음성 레벨 WFST에 행오버 기법을 추가로 적용할 수 있다. 행오버 기법은 기설정된 행오버 프레임 카운트(Tv)만큼 전송 지연함에 의해 상태 천이 에러를 평활화하는 기법이다.
도5 는 행오버 WFST의 일예를 나타낸다.
도5 에서 (a)는 도4 의 1번째 음성 대기 상태(S1)에 행오버 기법을 적용한 경우를 나타내며, 행오버 프레임 카운트(Tv)가 2인 경우를 나타낸다. 그리고 (b)는 도4 에서 1번째 노이즈 대기 상태(N1)에 행오버 기법을 적용한 경우를 나타내며, 마찬가지로 행오버 프레임 카운트(Tv)가 2인 경우를 나타낸다.
도5 의 (a) 에 도시된 바와 같이, WFST에 행오버 기법이 적용되면, 1번째 음성 대기 상태(S1)에서 노이즈 클래스(H0)가 인가되더라도, 도4 와 달리 곧바로 NOISE 상태로 천이하지 않고, 행오버 상태(V1)로 천이한다. 즉 노이즈 클래스(H0)가 행오버 프레임 카운트(Tv) 이하로 인가되면, 행오버 상태(V1, V2)로 천이함에 따라 NOISE 상태나 2번째 음성 대기 상태(S2)로 천이하지 않게 되어 오분류에 의한 오류를 줄일 수 있다. 마찬가지로 도5 의 (b)에서 1번째 노이즈 대기 상태(N1)에서 오분류로 인한 오류가 발생하는 것을 방지하기 위해 행오버 프레임 카운트(Tv)가 2로 적용되어 있으며, 이에 따라 1번째 노이즈 대기 상태(N1)에서 음성 클래스(H1)가 2회 연속으로 입력되더라도 SPEECH 상태나 2번째 노이즈 대기 상태(N2)로 천이하지 않고 행오버 상태(V1, V2)로 천이하게 된다.
즉 오분류로 인한 오류 발생 가능성을 낮출 수 있다.
도6 은 도4 의 음성 레벨 WFST에 행오버 기법을 적용한 일예를 나타낸다.
도6 을 살펴보면, 도6 의 음성 레벨 WFST는 도4 의 음성 레벨 WFST에서 1번째 및 2번째 음성 대기 상태(S1, S2)와 1번째 및 2번째 노이즈 대기 상태(N1, N2)에 각각 행오버 기법이 적용되었다. 그리고 도5 에서와 마찬가지로, 행오버 프레임 카운트(Tv)가 2로 적용되었다. 이에 음성 레벨 WFST에서 1번째 및 2번째 음성 대기 상태(S1, S2) 각각에서는 노이즈 클래스(H0)가 2회까지 인가되더라도 NOISE 상태로 천이하지 않으며, 1번째 및 2번째 노이즈 대기 상태(N1, N2) 각각에서는 음성 클래스(H1)가 2회 연속으로 입력되더라도 SPEECH 상태로 천이하지 않으므로, 안정적으로 끝점을 검출할 수 있다.
여기서 행오버 프레임 카운트(Tv)는 최소 음성 프레임 카운트(Tm)와 후단 묵음 프레임 카운트(Tb)보다 작게 설정되는 것이 바람직하다. 따라서 도6 에서는 최소 음성 프레임 카운트(Tm)와 후단 묵음 프레임 카운트(Tb)가 각각 3으로 설정되으므로, 행오버 프레임 카운트(Tv)를 2로 설정하였다. 그리고 최소 음성 프레임 카운트(Tm)와 최소 음성 프레임 카운트(Tm)의 값이 서로 상이한 경우, 행오버 프레임 카운트(Tv)는 음성 대기 상태(S1, S2)와 노이즈 대기 상태(N1, N2) 각각에 서로 상이한 값으로 설정될 수도 있다. 예를 들어 최소 음성 프레임 카운트(Tm)가 5 이고, 후단 묵음 프레임 카운트(Tb)가 4이면, 음성 대기 상태(S1, S2) 각각에 대한 행오버 프레임 카운트(Tv)는 후단 묵음 프레임 카운트(Tb)보다 작은 3으로 설정될 수 있으며, 노이즈 대기 상태(N1, N2) 각각에 대한 행오버 프레임 카운트(Tv)는 최소 음성 프레임 카운트(Tm)보다 작은 3으로 설정될 수 있다.
행오버 기법이 적용된 음성 레벨 WFST(130)를 수학식으로 표현하면 수학식 3와 같이 표현된다.
Figure pat00007
(여기서, Vn 은 n 번째 행오버 상태이다.)
그리고 WFST 결합부(140)는 프레임 레벨 WFST(120)과 음성 레벨 WFST(130)를 결합한다. WFST는 기본적으로 몇가지 연산을 지원한다. WFST 결합부(140)는 WFST의 기본 연산 중 하나인 결합 연산(°)을 이용하여 프레임 레벨 WFST(120)과 음성 레벨 WFST(130)의 표현상 서로 다른 레벨들의 WFST들을 조합하기 위해 사용된다. 결합 연산(°)은 C = A ° B 와 같은 형태로 표시될 수 있다.
C = A ° B 는 두 개의 변환기(A 및 B)의 결합하여 하나의 변환기 C를 구현하는 연산으로서, 일예로 각각의 입/출력 심볼이 x/y 및 y/z인 두 개의 변환기(A 및 B)를 결합한 변환기 C는 입/출력 심볼이 x/z가 되고, 원래의 구분된 변환기들(A 및 B)과 비교하여 모든 가능한 입력 및 출력 시퀀스에 동일한 가중치를 부여하기 위해 계산된 가중치들을 갖는다.
도7 은 WFST 결합부가 수행하는 결합 연산의 간단한 일예를 나타낸다.
도7 에서는 두 개의 WFST(T1, T2)이 결합 연산(°)을 이용하여 결합되는 방법을 도시하였다. 도7 을 참조하면, WFST(T1)은 입력 심볼로 c를 인가받아 출력 심볼로서 (a, b)를 출력하고, WFST(T2)는 입력 심볼로서 a, b, c를 인가받아 Z, X, Y를 출력 심볼로서 출력한다. 그리고 두 개의 WFST(T1, T2)를 결합 연산(°)을 통해 결합한 T1 ° T2 는 c를 입력 심볼로 인가받아 Z 및 X를 출력 심볼로서 출력할 수 있도록 구성된다. 즉 T1 의 입력 심볼을 인가받아 T2 의 출력 심볼을 출력할 수 있다. 그리고 도시하지 않았으나, T1 ° T2 는 2개의 WFST(T1, T2)의 결합에 대응하는 가중치가 설정된다.
이러한 WFST 결합 연산(°)을 이용하여 WFST 결합부(130)는 프레임 레벨 WFST(120) 및 음성 레벨 WFST(130)를 결합할 수 있다. 프레임 레벨 WFST(120)를 F라 하고, 음성 레벨 WFST를 U라 할 때, WFST 결합부(130)는 수학식 4의 연산을 수행하여 결합 WFST를 획득할 수 있다.
Figure pat00008
마지막으로 최적화부(150)는 WFST 결합부(130)에 의해 결합된 WFST에 대해 최적화를 수행한다. WFST의 최적화는 WFST의 기본 연산 중 하나인 최소화 연산(min)을 활용하여 결합된 WFST를 최적화한다. WFST의 최소화 연산은 WFST가 최소의 상태와 최소의 천이를 갖도록 하는 연산이다.
최적화부(150)는 최소화 연산(min)을 이용하여 결합된 WFST를 수학식 5와 같이 최적화 한다.
Figure pat00009
도8 은 최적화부가 수행하는 최소화 연산의 간단한 일예를 나타낸다.
도8 의 (a)에서 WFST를 분석하면, red 입력에 대한 상태는 결국 green 입력에 대한 상태에 의해 3번째 노드로 천이됨에 따라 불필요한 상태이다. 이에 (b)에서는 이를 간략화 하여 green 입력에 대한 상태 천이만이 적용되도록 최소화하였음을 알 수 있다.
WFST의 결합 연산(°) 및 최소화 연산은 공지된 기술이므로 여기서는 추가적인 상세 설명은 하지 않는다.
상기에서는 도2 에 WFST를 이용한 음성 끝점 검출 장치를 도시하였으나, WFST를 이용한 끝점 검출 방법 또한 동일한 플로우를 가지므로 여기서는 상세하게 설명하지 않도록 한다.
상기한 바와 같이 본 발명의 WFST를 이용한 음성 끝점 검출 장치는 음성 판별부(110)에서 분류한 음성 클래스(H1)와 노이즈 클래스(H0)를 프레임 레벨 WFST(120)에서 다시 검증하여 음성 클래스(H1)와 노이즈 클래스(H0)를 명확하게 분류할 수 있도록 하며, 음성 레벨 WFST(130)를 활용하여 끝점을 용이하게 검출할 수 있도록 한다. 더불어 WFST 결합부(140)에서 프레임 레벨 WFST(120)와 음성 레벨 WFST(130)를 결합 연산을 이용하여 결합하므로, 규칙의 추가 및 삭제에 의한 오류가 발생하지 않으며, 최적화부(150)가 결합된 WFST의 경로를 최소화함에 따라 음성 끝점 검출 장치의 전역적인 최적화가 이루어질 수 있다. 또한 행오버 기법을 WFST에 적용함에 따라 오분류로 인한 음성 끝점 검출 오류를 크게 줄일 수 있다.
본 발명에 따른 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (12)

  1. 음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하고, 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 음성 판별부;
    분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하는 프레임 레벨 WFST;
    분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST;
    상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하는 WFST 결합부; 및
    상기 프레임 레벨 WFST와 상기 음성 레벨 WFST가 결합된 결합 WFST를 최소 경로를 갖도록 최적화하는 최적화부;를 포함하는 음성 끝점 검출 장치.
  2. 제1 항에 있어서, 상기 WFST 결합부는
    상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식
    Figure pat00010

    (여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다.)
    에 따라 결합하는 것을 특징으로 하는 음성 끝점 검출 장치.
  3. 제2 항에 있어서, 상기 최적화부는
    상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식
    Figure pat00011

    (여기서, D 는 최적화된 WFST이다.)
    에 따라 상기 결합 WFST를 최적화 하는 것을 특징으로 하는 음성 끝점 검출 장치.
  4. 제3 항에 있어서, 상기 음성 레벨 WFST는
    상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식
    Figure pat00012

    (여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다. 그리고 i는 초기 상태로서 NOISE 상태이고, F는 최종 상태 집합으로 EOU이다. 그리고 E는 천이 함수 집합이며, λ 및 ρ는 각각 음성 클래스(H) 가중치 및 노이즈 클래스 가중치를 나타낸다.)
    에 따라 구현되는 것을 특징으로 하는 음성 끝점 검출 장치.
  5. 제4 항에 있어서, 상기 음성 레벨 WFST는
    음성 대기 상태(Sn)의 개수를 기설정된 최소 음성 프레임 카운트(Tm)에 대응하여 설정하고,
    노이즈 대기 상태(Nn)의 개수를 기설정된 후단 묵음 프레임 카운트(Tb)에 대응하여 설정하는 것을 특징으로 하는 음성 끝점 검출 장치.
  6. 제5 항에 있어서, 상기 음성 레벨 WFST는
    상기 음성 클래스 및 상기 노이즈 클래스의 오분류에 따른 오류가 발생하는 것을 방지하기 위해 행오버 기법을 추가로 적용하여, 상기 음성 레벨 WFST가 수학식
    Figure pat00013

    (여기서, Vn 은 n 번째 행오버 상태이다.)에 따라 구현되는 것을 특징으로 하는 음성 끝점 검출 장치.
  7. 제4 항에 있어서, 상기 음성 레벨 WFST는
    상기 음성 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 후단 묵음 프레임 카운트(Tb)보다 작게 설정하고,
    상기 노이즈 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 최소 음성 프레임 카운트(Tm)보다 작게 설정하는 것을 특징으로 하는 음성 끝점 검출 장치.
  8. 음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하여, 음성 끝점을 검출하는 음성 끝점 검출 장치를 이용한 음성 끝점 검출 방법에 있어서,
    상기 음성 끝점 검출 장치가
    수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 단계;
    분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하여 프레임 레벨 WFST를 생성하는 단계;
    분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST를 생성하는 단계;
    상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하여 결합 WFST를 획득하는 단계; 및
    상기 결합 WFST를 최적화하는 단계;를 포함하는 음성 끝점 검출 방법.
  9. 제8 항에 있어서, 상기 결합 WFST를 획득하는 단계는
    상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식
    Figure pat00014

    (여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다.)
    에 따라 결합하는 것을 특징으로 하는 음성 끝점 검출 방법.
  10. 제9 항에 있어서, 상기 결합 WFST를 최적화하는 단계는
    상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식
    Figure pat00015

    (여기서, D 는 최적화된 WFST이다.)
    에 따라 상기 결합 WFST를 최적화 하는 것을 특징으로 하는 음성 끝점 검출 방법.
  11. 제9 항에 있어서, 상기 결합 WFST를 최적화하는 단계는
    상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식
    Figure pat00016

    (여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다. 그리고 i는 초기 상태로서 NOISE 상태이고, F는 최종 상태 집합으로 EOU이다. 그리고 E는 천이 함수 집합이며, λ 및 ρ는 각각 음성 클래스(H) 가중치 및 노이즈 클래스 가중치를 나타낸다.)
    에 따라 구현되는 것을 특징으로 하는 음성 끝점 검출 방법.
  12. 제8 항 내지 제11 항 중 어느 한 항에 따른 상기 음성 끝점 검출 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록 매체.
KR1020130071143A 2013-06-20 2013-06-20 Wfst를 이용한 음성 끝점 검출 장치 및 방법 KR20140147587A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130071143A KR20140147587A (ko) 2013-06-20 2013-06-20 Wfst를 이용한 음성 끝점 검출 장치 및 방법
US14/224,626 US9396722B2 (en) 2013-06-20 2014-03-25 Method and apparatus for detecting speech endpoint using weighted finite state transducer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130071143A KR20140147587A (ko) 2013-06-20 2013-06-20 Wfst를 이용한 음성 끝점 검출 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20140147587A true KR20140147587A (ko) 2014-12-30

Family

ID=52111608

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130071143A KR20140147587A (ko) 2013-06-20 2013-06-20 Wfst를 이용한 음성 끝점 검출 장치 및 방법

Country Status (2)

Country Link
US (1) US9396722B2 (ko)
KR (1) KR20140147587A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220141554A (ko) * 2021-04-13 2022-10-20 주식회사 카카오엔터프라이즈 음성의 끝점 검출 장치, 프로그램 및 그것의 제어 방법

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
KR102476600B1 (ko) * 2015-10-21 2022-12-12 삼성전자주식회사 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP6495850B2 (ja) * 2016-03-14 2019-04-03 株式会社東芝 情報処理装置、情報処理方法、プログラムおよび認識システム
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN106875936B (zh) * 2017-04-18 2021-06-22 广州视源电子科技股份有限公司 语音识别方法及装置
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
CN108962226B (zh) * 2018-07-18 2019-12-20 百度在线网络技术(北京)有限公司 用于检测语音的端点的方法和装置
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11520561B1 (en) 2018-11-28 2022-12-06 Amazon Technologies, Inc. Neural network accelerator with compact instruct set
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
KR20200117826A (ko) * 2019-04-05 2020-10-14 삼성전자주식회사 음성 인식 방법 및 장치
US11501761B2 (en) 2019-04-05 2022-11-15 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4277645A (en) * 1980-01-25 1981-07-07 Bell Telephone Laboratories, Incorporated Multiple variable threshold speech detector
US5293452A (en) * 1991-07-01 1994-03-08 Texas Instruments Incorporated Voice log-in using spoken name input
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
US6278973B1 (en) * 1995-12-12 2001-08-21 Lucent Technologies, Inc. On-demand language processing system and method
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6249757B1 (en) * 1999-02-16 2001-06-19 3Com Corporation System for detecting voice activity
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US7165030B2 (en) * 2001-09-17 2007-01-16 Massachusetts Institute Of Technology Concatenative speech synthesis using a finite-state transducer
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
US7020257B2 (en) * 2002-04-17 2006-03-28 Texas Instruments Incorporated Voice activity identiftication for speaker tracking in a packet based conferencing system with distributed processing
JP2004271764A (ja) * 2003-03-06 2004-09-30 Nagoya Industrial Science Research Inst 有限状態変換器作成装置、プログラム、記録媒体、作成方法、及び漸進的構文解析装置
KR100574883B1 (ko) 2003-03-20 2006-04-27 주식회사 케이티 비음성 제거에 의한 음성 추출 방법
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US20140372119A1 (en) * 2008-09-26 2014-12-18 Google, Inc. Compounded Text Segmentation
KR101239318B1 (ko) * 2008-12-22 2013-03-05 한국전자통신연구원 음질 향상 장치와 음성 인식 시스템 및 방법
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
US8566259B2 (en) * 2009-09-04 2013-10-22 The Regents Of The University Of California Method and system for parallel statistical inference on highly parallel platforms
JP5385876B2 (ja) 2010-08-30 2014-01-08 日本電信電話株式会社 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
US9418675B2 (en) * 2010-10-04 2016-08-16 LI Creative Technologies, Inc. Wearable communication system with noise cancellation
KR20120056661A (ko) * 2010-11-25 2012-06-04 한국전자통신연구원 음성 신호 전처리 장치 및 방법
RU2010152225A (ru) * 2010-12-20 2012-06-27 ЭлЭсАй Корпорейшн (US) Обнаружение музыки с использованием анализа спектральных пиков
KR20120072145A (ko) * 2010-12-23 2012-07-03 한국전자통신연구원 음성 인식 방법 및 장치
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
JP5647919B2 (ja) * 2011-03-07 2015-01-07 株式会社Nttドコモ 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
US9201862B2 (en) * 2011-06-16 2015-12-01 Asociacion Instituto Tecnologico De Informatica Method for symbolic correction in human-machine interfaces
US8989058B2 (en) * 2011-09-28 2015-03-24 Marvell World Trade Ltd. Conference mixing using turbo-VAD
KR20130059476A (ko) * 2011-11-28 2013-06-07 한국전자통신연구원 음성 인식용 탐색 공간 생성 방법 및 장치
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
KR20130134620A (ko) * 2012-05-31 2013-12-10 한국전자통신연구원 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법
US9123333B2 (en) * 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US8972243B1 (en) * 2012-11-20 2015-03-03 Amazon Technologies, Inc. Parse information encoding in a finite state transducer
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220141554A (ko) * 2021-04-13 2022-10-20 주식회사 카카오엔터프라이즈 음성의 끝점 검출 장치, 프로그램 및 그것의 제어 방법

Also Published As

Publication number Publication date
US9396722B2 (en) 2016-07-19
US20140379345A1 (en) 2014-12-25

Similar Documents

Publication Publication Date Title
KR20140147587A (ko) Wfst를 이용한 음성 끝점 검출 장치 및 방법
US8554563B2 (en) Method and system for speaker diarization
EP3770905A1 (en) Speech recognition method, apparatus and device, and storage medium
KR101054704B1 (ko) 음성 활성도 검출 시스템 및 방법
US9489965B2 (en) Method and apparatus for acoustic signal characterization
US8538752B2 (en) Method and apparatus for predicting word accuracy in automatic speech recognition systems
US20060015333A1 (en) Low-complexity music detection algorithm and system
CN111640456B (zh) 叠音检测方法、装置和设备
CN112735482B (zh) 基于联合深度神经网络的端点检测方法及系统
Hebbar et al. Robust speech activity detection in movie audio: Data resources and experimental evaluation
US8892436B2 (en) Front-end processor for speech recognition, and speech recognizing apparatus and method using the same
KR20190032868A (ko) 음성인식 방법 및 그 장치
Krishnakumar et al. A comparison of boosted deep neural networks for voice activity detection
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
US20220189496A1 (en) Signal processing device, signal processing method, and program
JPH08110792A (ja) 話者適応化装置及び音声認識装置
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법
Hamandouche Speech Detection for noisy audio files
US11900921B1 (en) Multi-device speech processing
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
Rittikar Development of a Conversation State Prediction System
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
KR101752709B1 (ko) 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템
JP2024032655A (ja) 音声認識装置、音声認識方法、および、プログラム

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid