KR102390784B1

KR102390784B1 - 활성화 음성 검측 방법 및 장치

Info

Publication number: KR102390784B1
Application number: KR1020177004532A
Authority: KR
Inventors: 창바오 주; 하오 위안
Original assignee: 지티이 코포레이션
Priority date: 2014-07-18
Filing date: 2014-10-24
Publication date: 2022-04-25
Also published as: RU2680351C2; CN105261375A; EP4273861A3; EP3171363A4; US10339961B2; EP4273861A2; JP2017521720A; EP3171363A1; CA2955652C; RU2017103938A3; CA2955652A1; KR20170035986A; US20170206916A1; EP3171363B1; CN105261375B; JP6606167B2; ES2959448T3; RU2017103938A; WO2015117410A1

Abstract

본 발명은 활성화 음성 검측 방법 및 장치를 제공하는데, 상기 방법은 제1 특징세트중의 적어도 하나의 제1유형의 특징 파라미터와, 제2 특징세트중의 적어도 하나의 제2유형의 특징 파라미터와, 적어도 두개 기존 VAD 판단결과를 획득하는 단계(S102)와, 여기서, 상기 제1유형의 특징 파라미터와 상기 제2유형의 특징 파라미터는 모두 VAD 검측에 이용되는 특징 파라미터이고, 상기 제1유형의 특징 파라미터와, 상기 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 활성화 음성 검측 판단결과에 근거하여 활성화 음성 검측을 수행하여 연합 VAD 판단결과를 얻는 단계(S104)를 포함한다. 본 발명에서 제공하는 상기 기술방안에 의하면, 기존 기술에 있어서 VAD 방안의 검측이 정확하지 않은 등 기술문제를 해결하고 VAD의 정확성을 높이고 사용자 체험을 향상시킬 수 있다.

Description

활성화 음성 검측 방법 및 장치{VOICE ACTIVITY DETECTION METHOD AND DEVICE}

본 발명은 통신 분야에 관한 것으로, 특히 활성화 음성 검측(Voice Activity Detection, VAD로 약칭) 방법 및 장치에 관한 것이다.

정상적인 음성 통화과정에서 사람들은 말하거나 듣거나 하고 이러한 경우, 통화과정에 비 활성화 음성 단계가 존재하게 되고 정상적인 경우, 통화 양측의 비 음성 활성화 단계의 합계는 통화 양측의 총 음성 부호화 시간의 50%를 초과한다. 비 활성화 음성 단계에는 배경 노이즈만이 존재하고 배경 노이즈의 경우, 일반적으로 아무런 유용한 정보도 없다. 이러한 사실을 이용하여 음성 주파수 신호 처리에 있어서, VAD 알고리즘을 통하여 활성화 음성과 비 활성화 음성을 검측하고 서로다른 방법으로 각각 처리한다. 예를 들어, 적응형 다중 전송율AMR(Adaptive Multiple Rate), 적응형 다중 전송율 광대역AMR-WB(Adaptive Multiple Rate-WideBand) 등 현대의 많은 음성 부호화 표준은 VAD 기능을 지원하고 있다. 효율측면에서 보면 이러한 부호화기의 VAD가 모든 전형적인 배경 노이즈에서 모두 양호한 성능을 실현할 수 있는 것은 아니다. 특히, 비안정적인 노이즈에서는 이러한 부호화기의 VAD 효율은 모두 낮다. 그리고 음악 신호에 대하여 이러한 VAD는 검측 에러가 발생할 수 있고 대응되는 처리 알고리즘의 품질을 현저하게 저하시키게 된다. 그리고, 기존의 VAD 기술에는 예를 들어 일부 VAD 기술은 음성 구간 앞의 몇 프레임에서 정확하게 검측할 수 없고 일부 VAD는 음성 구간 뒤의 몇 프레임에서 정확하게 검측할 수 없는 등 판단 미스가 발생하는 경우도 있다.

기존 기술중의 상기 문제에 대하여 아직 유효한 해결책을 제시하지 못하였다.

기존 기술중의 기존 VAD 방안의 검측이 정확하지 않은 등 기술문제에 대하여, 본 발명은 적어도 상기 기술문제를 해결할 수 있는 활성화 음성 검측 방법 및 장치를 제공한다.

본 발명의 일 실시예에 따르면, 제1 특징세트(first feature category)중의 적어도 하나의 제1유형의 특징 파라미터(first class feature)와, 제2 특징세트(second feature category)중의 적어도 하나의 제2유형의 특징 파라미터(second class feature)와, 적어도 두개 기존 VAD 판단결과(VAD judgment results)를 획득하는 단계와, 여기서, 상기 제1유형의 특징 파라미터와 상기 제2유형의 특징 파라미터는 모두 VAD 검측에 이용되는 특징 파라미터이고, 상기 제1유형의 특징 파라미터와, 상기 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 활성화 음성 검측 판단결과에 근거하여 활성화 음성 검측을 수행하여 연합 VAD 판단결과를 얻는 단계를 포함하는 VAD 방법을 제공한다.

상기 제1유형의 특징 파라미터가 연속되는 활성화 음성 프레임 수량(the number of continuous active frames), 대역전체의 평균 신호 대 잡음비(the average total signal-to-noise ratio (SNR) of all sub-bands), 조성 신호 마크(the tonality signal flag)중의 적어도 하나를 포함하고, 여기서, 대역전체의 평균 신호 대 잡음비는 소정 수량의 프레임에 대한 대역전체의 신호 대 잡음비의 평균값이고, 상기 제2유형의 특징 파라미터는 노이즈 타입 마크(the flag of noise type), 장시간 평활화한 평균 주파수영역 신호 대 잡음비(the smoothed average long-time frequency domain SNR), 연속되는 노이즈 프레임 수량(the number of continuous noise frames), 주파수영역 신호 대 잡음비(the frequency domain SNR)중의 적어도 하나를 포함하는 것이 바람직하다.

상기 제1유형의 특징 파라미터와, 상기 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 VAD 판단결과에 근거하여 활성화 음성 검측을 수행하는 단계가, a) 상기 적어도 두개 기존 VAD 판단결과로부터 한 VAD 판단결과를 연합 VAD의 초기값(the initial value of combined VAD)으로하여 선택하는 단계와, b) 상기 노이즈 타입 마크가 음소거를 지시하고 또한 상기 주파수영역 신호 대 잡음비가 기설정된 임계값을 초과하고 상기 초기값이 비 활성화 음성 프레임일 경우, 상기 적어도 두개 기존 VAD 판단결과중의 상기 초기값으로 하지 않은 VAD 마크를 상기 연합 VAD 판단결과로하여 선택하고 그렇지 않으면 단계c)를 수행하는 단계와, 여기서, 상기 VAD 마크는 VAD 판단결과가 활성화 음성 프레임 또는 비 활성화 음성 프레임임을 지시하기 위한 것이고, c) 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 기설정된 임계값 미만이면, 또는 노이즈 타입이 음소거가 아니면, 단계d)를 수행하고 그렇지 않으면 단계a)에서 선택한 상기 VAD 판단결과를 상기 연합 VAD 판단결과로하는 단계와, d) 기설정된 조건을 만족시킬 경우, 상기 적어도 두개 기존 VAD 판단결과에 논리 OR 연산을 수행하여 연산결과를 상기 연합 VAD 판단결과로하고 그렇지 않으면 단계e)를 수행하는 단계와, e)상기 노이즈 타입 마크가 음소거를 지시하면, 상기 적어도 두개 기존 VAD 판단결과중의 상기 초기값으로 하지 않은 VAD 마크를 상기 연합 VAD 판단결과로하여 선택하고 그렇지 않으면 단계a)에서 선택한 상기 VAD 판단결과를 상기 연합 VAD 판단결과（the combined VAD judgment result）로하는 단계를 포함하는 것이 바람직하다.

상기 제1유형의 특징 파라미터와, 상기 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 VAD 판단결과에 근거하여 활성화 음성 검측을 수행하는 단계가, a) 상기 적어도 두개 기존 VAD 판단결과로부터 한 VAD 판단결과를 연합 VAD의 초기값으로하여 선택하는 단계와, b) 상기 노이즈 타입 마크가 음소거를 지시하고 또한 상기 주파수영역 신호 대 잡음비가 기설정된 임계값을 초과하고 상기 초기값이 비 활성화 음성 프레임일 경우, 상기 적어도 두개 기존 VAD 판단결과중의 상기 초기값으로 하지 않은 VAD 마크를 상기 연합 VAD 판단결과로하여 선택하고 그렇지 않으면 단계c)를 수행하는 단계와, 여기서, 상기 VAD 마크는 VAD 판단결과가 활성화 음성 프레임 또는 비 활성화 음성 프레임임을 지시하기 위한 것이고, c) 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 기설정된 임계값 미만이면 또는 노이즈 타입이 음소거가 아니면, 단계d) 를 수행하고 그렇지 않으면 단계a)에서 선택한 상기 VAD 판단결과를 상기 연합 VAD 판단결과로하는 단계와, d) 기설정된 조건을 만족시킬 경우, 상기 적어도 두개 기존 VAD 판단결과에 논리 OR 연산을 수행하여 연산결과를 상기 연합 VAD 판단결과로하고 그렇지 않으면 단계e)를 수행하는 단계와, e) 상기 적어도 두개 기존 VAD 판단결과중의 상기 초기값으로 하지 않은 VAD 마크를 상기 연합 VAD 판단결과로하여 선택하는 단계를 포함하는 것이 바람직하다.

상기 제1유형의 특징 파라미터와, 상기 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 VAD 판단결과에 근거하여 활성화 음성 검측을 수행하는 단계가, a) 상기 적어도 두개 기존 VAD 판단결과로부터 한 VAD 판단결과를 연합 VAD의 초기값으로하여 선택하는 단계와, b) 상기 노이즈 타입 마크가 음소거를 지시할 경우, 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 임계값을 초과하고 상기 조성 신호 마크가 비 조성 신호를 지실할 경우, 상기 적어도 두개 기존 VAD 판단결과중의 상기 초기값으로 하지 않은 VAD 마크를 상기 연합 VAD 판단결과로하여 선택하는 단계를 포함하고, 여기서, 상기 VAD 마크는 VAD 판단결과가 활성화 음성 프레임 또는 비 활성화 음성 프레임임을 지시하기위한 것인 것이 바람직하다.

상기 제1유형의 특징 파라미터와, 상기 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 VAD 판단결과에 근거하여 활성화 음성 검측을 수행하는 단계가, a) 상기 적어도 두개 기존 VAD 판단결과로부터 한 VAD 판단결과를 연합 VAD의 초기값으로하여 선택하는 단계와, b) 상기 노이즈 타입 마크가 비 음소거를 지시하고 기설정된 조건을 만족시킬 경우, 상기 적어도 두개 기존 VAD 판단결과에 논리 OR 연산을 수행하여 연산결과를 상기 연합 VAD 판단결과로하는 단계를 포함하는 것이 바람직하다.

상기 기설정된 조건이, 조건1: 상기 대역전체의 평균 신호 대 잡음비가 제1 임계값을 초과하는 것, 조건2: 상기 대역전체의 평균 신호 대 잡음비가 제2 임계값을 초과하고 연속되는 활성화 음성 프레임 수량이 기설정된 임계값을 초과하는 것, 조건3: 상기 조성 신호 마크가 조성 신호를 지시하는 것중의 적어도 하나를 포함하는 것이 바람직하다.

상기 제1유형의 특징 파라미터와, 상기 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 VAD 판단결과에 근거하여 활성화 음성 검측을 수행하는 단계가, 상기 연속되는 노이즈 프레임 수량이 제1 소정 임계값을 초과하고 상기 대역전체의 평균 신호 대 잡음비가 제2 소정 임계값 미만이면, 상기 적어도 두개 기존 VAD 판단결과에 논리 AND 연산을 수행하여 연산결과를 상기 연합 VAD 검측 결과로하고 그렇지 않으면 상기 적어도 두개 기존 VAD 판단결과로부터 임의의 하나의 기존 VAD 판단결과를 상기 연합 VAD 검측 결과로하여 선택하는 단계를 포함하는 것이 바람직하다.

상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비와 상기 노이즈 타입 마크를,

현재 프레임의 바로 앞 프레임에 대응되는 적어도 두개 기존 VAD 판단결과 또는 상기 바로 앞 프레임의 연합 VAD 판단결과중의 임의의 하나의 VAD 판단결과, 상기 바로 앞 프레임의 제1 기설정된 시간 구간에서의 장시간 평균 활성화 음성 프레임 에네르기（average energy of long-time active frames）와 바로 앞 프레임의 장시간 평균 배경 노이즈 에네르기（average energy of long-time background noise）로부터 현재 프레임의 평균 장시간 활성화 음성 프레임 에네르기와 상기 현재 프레임의 장시간 평균 배경 노이즈 에네르기를 계산하고,

상기 현재 프레임의 제2 기설정된 시간 구간에서의 평균 장시간 활성화 음성 프레임 에네르기와 장시간 평균 배경 노이즈 에네르기로부터 상기 현재 프레임의 상기 제2 시간 구간에서의 장시간 신호 대 잡음비（the long-time SNR）를 계산하고,

상기 바로 앞 프레임에 대응되는 적어도 두개 기존 VAD 판단결과 또는 상기 현재 프레임의 상기 연합 VAD 판단결과중의 임의의 하나의 VAD 판단결과, 상기 바로 앞 프레임의 평균 주파수영역 신호 대 잡음비로부터 상기 현재 프레임의 제3 기설정된 시간 구간에서의 장시간 평활화한 평균 주파수영역 신호 대 잡음비를 계산하며,

상기 장시간 신호 대 잡음비와 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비에 근거하여 노이즈 타입 마크를 판단하는 방식으로 확정하는 것이 바람직하다.

상기 장시간 신호 대 잡음비와 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비에 근거하여 노이즈 타입 마크를 판단하는 단계가,

노이즈 타입을 비 음소거로 설정하고 상기 장시간 신호 대 잡음비가 제1 기설정된 임계값을 초과하고 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 제2 기설정된 임계값을 초과하는 경우, 상기 노이즈 타입 마크를 음소거로 설정하는 것을 포함하는 것이 바람직하다.

본 발명의 다른 일 실시예에 의하면, 제1 특징세트중의 적어도 하나의 제1유형의 특징 파라미터와, 제2 특징세트중의 적어도 하나의 제2유형의 특징 파라미터와, 적어도 두개 기존 VAD 판단결과를 획득하도록 구성되는 획득수단과, 여기서, 상기 제1유형의 특징 파라미터와 상기 제2유형의 특징 파라미터는 모두 VAD 검측에 이용되는 특징 파라미터이고, 상기 제1유형의 특징 파라미터와, 상기 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 활성화 음성 검측 판단결과에 근거하여 활성화 음성 검측을 수행하여 연합 VAD 판단결과를 얻도록 구성되는 검측수단과을 포함하는 활성화 음성 검측VAD 장치를 제공한다.

상기 획득수단이, 연속되는 활성화 음성 프레임 수량, 대역전체의 평균 신호 대 잡음비, 조성 신호 마크중의 적어도 하나의 상기 제1유형의 특징 파라미터를 획득하도록 구성되는 제1 획득유닛과, 여기서, 대역전체의 평균 신호 대 잡음비는 소정 수량의 프레임에 대한 대역전체의 신호 대 잡음비의 평균값이고, 노이즈 타입 마크, 장시간 평활화한 평균 주파수영역 신호 대 잡음비, 연속되는 노이즈 프레임 수량, 주파수영역 신호 대 잡음비중의 적어도 하나의 상기 제2유형의 특징 파라미터를 획득하도록 구성되는 제2 획득유닛을 포함하는 것이 바람직하다.

본 발명에 의하면, 제1 특징세트중의 제1유형의 특징 파라미터, 제2 특징세트중의 제2유형의 특징 파라미터 및 적어도 두개 기존 VAD 판단결과에 근거하여 연합 검측을 수행하는 기술수단을 이용하여 기존 기술에 있어서 VAD 방안의 검측이 정확하지 않는 등 기술문제를 해결하고 VAD의 정확성을 높이고 사용자 체험을 향상시킬 수 있다.

도면은 본 발명에 대한 이해를 돕기위한 것으로 본 발명의 명세서의 일부분이고 본 발명에 예시적으로 나타낸 실시예 및 그 설명은 본 발명을 해석하기 위한 것으로 본 발명을 한정하는 것이 아니다.
도 1은 본 발명의 실시예에 따른 VAD 방법을 나타낸 흐름도이다.
도 2는 본 발명의 실시예에 따른 VAD 장치의 구조를 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 VAD 장치의 기타 구조를 나타낸 블록도이다.
도 4는 본 발명의 실시예1에 따른 VAD 방법을 나타낸 흐름도이다.

아래 도면을 참조하고 실시예를 결합하여 본 발명을 상세하게 설명한다. 여기서, 상호 모순되지 않는 상황하에서 본 발명중의 실시예 및 실시예에 기재된 특징을 상호 결합할 수 있다.

VAD 검측이 정확하지 않은 문제를 해결하기 위하여, 하기 실시예에서 대응되는 해결책을 제시하는데 아래 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 VAD 방법을 나타낸 흐름도이다. 도 1에 도시한 바와 같이 이 방법은 단계S102~S104를 포함한다.

제1 특징세트（first feature category）(특징군（feature category）1로도 불리움)중의 적어도 하나의 제1유형의 특징 파라미터와, 제2 특징세트（second feature category）(특징군（feature category）2로도 불리움)중의 적어도 하나의 제2유형의 특징 파라미터와, 적어도 두개 기존 VAD 판단결과를 획득하고(단계S102), 여기서, 상기 제1유형의 특징 파라미터와 상기 제2유형의 특징 파라미터는 모두 VAD 검측에 이용되는 특징 파라미터이다.

제1유형의 특징 파라미터와, 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 활성화 음성 검측 판단결과에 근거하여 활성화 음성 검측을 수행하여 연합 VAD 판단결과를 얻는다(단계S104).

상기 각 처리 단계에 의하면, 제1 특징세트와 제2 특징세트중의 적어도 하나의 파라미터와 적어도 두개 기존 VAD 판단결과에 근거하여 VAD의 연합 검측을 수행할 수 있임으로 VAD의 정확성을 향상시킬 수 있다.

본 실시예에 있어서, 제1유형의 특징 파라미터는 연속되는 활성화 음성 프레임 수량, 대역전체의 평균 신호 대 잡음비, 조성 신호 마크중의 적어도 하나를 포함하고, 여기서, 대역전체의 평균 신호 대 잡음비는 소정 수량의 프레임에 대한 대역전체의 신호 대 잡음비의 평균값이다.

제2유형의 특징 파라미터는 노이즈 타입 마크, 장시간 평활화한 평균 주파수영역 신호 대 잡음비, 연속되는 노이즈 프레임 수량, 주파수영역 신호 대 잡음비중의 적어도 하나를 포함한다. 여기서, 장시간 평활화한 평균 주파수영역 신호 대 잡음비를 소정의 시간내(장시간)의 다수의 주파수영역 신호 대 잡음비의 평균값을 구하여 평활화 처리를 수행하여 얻은 주파수영역 신호 대 잡음비로 이해할 수 있다.

단계S104의 실현방식은 여러가지이고, 예를 들어 하기 방식으로 실현할 수 있다.

하기 몇 실현방식에 있어서의 판단 종료는 어느 한 실현방식의 프로세스를 종료함을 말하고 그 프로세스를 종료한 후에는 연합 VAD 판단결과를 수정하지 않음을 말하는 것은 아니다.

제1유형의 실현방식: 하기 단계에 따라 수행된다.

a) 상기 적어도 두개 기존 VAD 판단결과로부터 한 VAD 판단결과를 연합 VAD의 초기값으로하여 선택하고,

b) 상기 노이즈 타입 마크가 음소거를 지시하고 또한 상기 주파수영역 신호 대 잡음비가 기설정된 임계값을 초과하고 상기 초기값이 비 활성화 음성 프레임일 경우, 상기 적어도 두개 기존 VAD 판단결과중의 상기 초기값으로 하지 않은 VAD 마크를 상기 연합 VAD 판단결과로하여 선택하고, 그렇지 않으면 단계c)를 수행하며, 여기서, 상기 VAD 마크는 VAD 판단결과가 활성화 음성 프레임 또는 비 활성화 음성 프레임임을 지시하는 것이고,

c) 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 기설정된 임계값 미만이면, 또는 노이즈 타입이 음소거가 아니면 단계d)를 수행하고, 그렇지 않으면 단계a)에서 선택한 상기 VAD 판단결과를 상기 연합 VAD 판단결과로하고,

d) 기설정된 조건을 만족시킬 경우, 상기 적어도 두개 기존 VAD 판단결과에 논리 OR 연산을 수행하여 연산결과를 상기 연합 VAD 판단결과로하고, 그렇지 않으면 단계e)를 수행하며,

e) 상기 노이즈 타입 마크가 음소거를 지시할 경우, 상기 적어도 두개 기존 VAD 판단결과중의 상기 초기값으로 하지 않은 VAD 마크를 상기 연합 VAD 판단결과로하여 선택한다.

제2유형의 실현방식:

c) 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 기설정된 임계값 미만이면, 또는 노이즈 타입이 음소거가 아니면, 단계d)를 수행하며, 그렇지 않으면 단계a)에서 선택한 상기 VAD 판단결과를 상기 연합 VAD 판단결과로하고,

e) 상기 적어도 두개 기존 VAD 판단결과중의 상기 초기값으로 하지 않은 VAD 마크를 상기 연합 VAD 판단결과로하여 선택한다.

제3유형의 실현방식:

상기 적어도 두개 기존 VAD 판단결과로부터 한 VAD 판단결과를 연합 VAD의 초기값으로하여 선택하고,

상기 노이즈 타입 마크가 음소거를 지시할 경우, 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 임계값을 초과하고 상기 조성 신호 마크가 비 조성 신호를 지시하면, 상기 적어도 두개 기존 VAD 판단결과중의 상기 초기값으로 하지 않은 VAD 마크를 상기 연합 VAD 판단결과로하여 선택하고, 여기서, 상기 VAD 마크는 VAD 판단결과가 활성화 음성 프레임 또는 비 활성화 음성 프레임임을 지시한다.

제4유형의 실현방식:

b) 상기 노이즈 타입 마크가 비 음소거를 지시하고 기설정된 조건을 만족시킬 경우, 상기 적어도 두개 기존 VAD 판단결과에 논리 OR 연산을 수행하여 연산결과를 상기 연합 VAD 판단결과로 한다.

여기서, 제1유형의 실현방식, 제2유형의 실현방식, 제4유형의 실현방식에 기재된 기설정된 조건은 하기중의 적어도 하나를 포함한다:

조건1: 상기 대역전체의 평균 신호 대 잡음비가 제1 임계값을 초과.

조건2: 상기 대역전체의 평균 신호 대 잡음비가 제2 임계값을 초과하고 연속되는 활성화 음성 프레임 수량이 기설정된 임계값을 초과.

조건3: 상기 조성 신호 마크가 조성 신호를 지시.

그리고, 제3유형의 실현방식과 제4유형의 실현방식을 결합할 수도 있다.

제5유형의 실현방식:

상기 연속되는 노이즈 프레임 수량이 제1 소정 임계값을 초과하고 상기 대역전체의 평균 신호 대 잡음비가 제2 소정 임계값 미만이면, 상기 적어도 두개 기존 VAD 판단결과에 논리 AND 연산을 수행하여 연산결과를 상기 연합 VAD 검측 결과로하고, 그렇지 않으면 상기 적어도 두개 기존 VAD 판단결과로부터 임의의 하나의 기존 VAD 판단결과를 상기 연합 VAD 검측 결과로하여 선택한다.

그리고, 제5유형의 실현방식과 앞의 네가지 실현방식을 결합할 수도 있다.

본 실시예의 한 바람직한 실시예에 있어서, 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비와 상기 노이즈 타입 마크는 하기 방식을 통하여 확정된다:

현재 프레임의 바로 앞 프레임에 대응되는 적어도 두개 기존 VAD 판단결과 또는 상기 바로 앞 프레임의 연합 VAD 판단결과중의 임의의 하나의 VAD 판단결과, 상기 바로 앞 프레임의 제1 기설정된 시간 구간에서의 평균 장시간 활성화 음성 프레임 에네르기와 바로 앞 프레임의 장시간 평균 배경 노이즈 에네르기로부터 현재 프레임의 평균 장시간 활성화 음성 프레임 에네르기와 상기 현재 프레임의 장시간 평균 배경 노이즈 에네르기를 계산하고,

상기 현재 프레임의 제2 기설정된 시간 구간에서의 평균 장시간 활성화 음성 프레임 에네르기와 장시간 평균 배경 노이즈 에네르기로부터 상기 현재 프레임의 상기 제2 시간 구간에서의 장시간 신호 대 잡음비를 계산하며,

상기 바로 앞 프레임에 대응되는 적어도 두개 기존 VAD 판단결과 또는 상기 현재 프레임의 상기 연합 VAD 판단결과중의 임의의 하나의 VAD 판단결과, 상기 바로 앞 프레임의 평균 주파수영역 신호 대 잡음비로부터 상기 현재 프레임의 제3 기설정된 시간 구간에서의 장시간 평활화한 평균 주파수영역 신호 대 잡음비를 계산하고,

상기 장시간 신호 대 잡음비와 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비에 근거하여 노이즈 타입 마크를 판단한다. 다만, 장시간 평활화한 평균 주파수영역 신호 대 잡음비는 기설정된 시간 구간에서의 평균 주파수영역 신호 대 잡음비에 평활화 처리를 수행하여 얻은 것이다.

노이즈 타입 마크의 판단에 대하여, 한 바람직한 실시형태에 있어서 하기 방식으로 실현할 수 있지만 이에 한정되는 것은 아니다:

노이즈 타입을 비 음소거으로 설정하고 상기 장시간 신호 대 잡음비가 제1 기설정된 임계값을 초과하고 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 제2 기설정된 임계값을 초과하는 경우, 상기 노이즈 타입 마크를 음소거로 설정한다.

한 바람직한 실시형태에 있어서, 상기 연속되는 활성화 음성 프레임 수량과 상기 연속되는 노이즈 프레임 수량을 하기 방식으로 확정할 수 있다:

상기 현재 프레임이 비 초기화 프레임일 경우, 상기 현재 프레임의 바로 앞 프레임의 연합 VAD 판단결과로부터 상기 현재 프레임의 연속되는 활성화 음성 프레임 수량과 연속되는 노이즈 프레임 수량을 계산하고, 또는,

상기 현재 프레임이 비 초기화 프레임일 경우, 상기 바로 앞 프레임의 적어도 두개 기존 VAD 판단결과와 상기 바로 앞 프레임의 연합 VAD 판단결과로부터 한 VAD 판단결과를 선택하고 현재 선택된 상기 VAD 판단결과로부터 상기 현재 프레임의 연속되는 활성화 음성 프레임 수량과 연속되는 노이즈 프레임 수량을 계산한다.

본 실시예의 한 바람직한 실시형태에 있어서, 상기 연속되는 활성화 음성 프레임 수량과 연속되는 노이즈 프레임 수량을 하기 방식으로 확정한다:

상기 바로 앞 프레임의 연합 VAD 판단결과를 지시하는 또는 현재 선택된 상기 VAD 판단결과를 지시하는 VAD 마크가 활성화 음성 프레임을 지실할 경우, 연속되는 활성화 음성 프레임 수량에 1을 더하고, 그렇지 않으면 연속되는 활성화 음성 프레임 수량을 0으로 설정하고, 상기 바로 앞 프레임의 연합 VAD 판단결과를 지시하는 또는 현재 선택된 상기 VAD 판단결과를 지시하는 VAD 마크가 비 음성 프레임를 지실할 경우, 연속되는 노이즈 프레임 수량에 1을 더하고, 그렇지 않으면 연속되는 노이즈 프레임 수량을 0으로 설정한다.

본 실시예에 있어서, 진일보로 VAD 장치를 제공하는데 도 2에 도시한 바와 같이 이 장치는

제1 특징세트중의 적어도 하나의 제1유형의 특징 파라미터와, 제2 특징세트중의 적어도 하나의 제2유형의 특징 파라미터와, 적어도 두개 기존 VAD 판단결과를 획득하는 획득수단(20)과, 여기서, 상기 제1유형의 특징 파라미터와 상기 제2유형의 특징 파라미터는 모두 VAD 검측에 이용되는 특징 파라미터이고,

획득수단(20)에 연결되어 상기 제1유형의 특징 파라미터와, 상기 제2유형의 특징 파라미터와, 상기 적어도 두개 기존 활성화 음성 검측 판단결과에 근거하여 활성화 음성 검측을 수행하여 연합 VAD 판단결과를 얻는 검측수단(22)을 포함한다.

한 바람직한 실시예에 있어서, 도 3에 도시한 바와 같이 획득수단(20)은 진일보로,

연속되는 활성화 음성 프레임 수량, 대역전체의 평균 신호 대 잡음비, 조성 신호 마크중의 적어도 하나의 제1유형의 특징 파라미터를 획득하도록 구성되는 제1 획득유닛(200)과, 여기서, 대역전체의 평균 신호 대 잡음비는 소정 수량의 프레임에 대한 대역전체의 신호 대 잡음비의 평균값이고,

노이즈 타입 마크, 장시간 평활화한 평균 주파수영역 신호 대 잡음비, 연속되는 노이즈 프레임 수량, 주파수영역 신호 대 잡음비중의 적어도 하나의 제2유형의 특징 파라미터를 획득하도록 구성되는 제2 획득유닛(202)을 포함한다.

그리고, 본 실시예에 기재된 상기 각 수단을 소프트웨어 또는 하드웨어로 실현할 수 있고 하드웨어로 실현할 경우, 한 바람직한 실시형태에 있어서, 획득수단(20)이 제1 프로세서에 설치되고 검측수단(22)이 제2 프로세서에 설치되는 방식, 또는 상기 두개 수단이 동일한 프로세서에 설치되는 방식으로 실현할 수 있는데 이에 한정되는 것은 아니다.

상기 실시예에 대한 이해를 돕기 위하여 아래 바람직한 실시예를 결합하여 상세하게 설명한다.

하기 실시예에 기재된 OR 연산과 AND 연산을 하기와 같이 정의한다:

두개 VAD중의 임의의 하나의 VAD 출력 마크가 활성화 음성 프레임이면 두개 VAD의 OR 연산 결과는 활성화 음성 프레임이고, 두개가 모두 비 활성화 음성 프레임이면 OR 연산 결과는 비 활성화 음성 프레임이고,

두개 VAD중의 임의의 하나의 VAD 출력 마크가 비 활성화 음성 프레임이면 두개 VAD의 AND 연산 결과는 비 활성화 음성 프레임이고, 두개가 모두 활성화 음성 프레임이면 AND 연산 결과는 활성화 음성 프레임이고,

여기서, 하기 실시예에 있어서 VAD가 어느 VAD인가 명확히 기재되지 않았으면 두개 기존 VAD, 또는 연합 VAD, 또는 대응되는 기능을 실현할 수 있는 기타 VAD임을 표시한다.

실시예1

본 실시예에 있어서 VAD 방법을 제공하는데 도 4에 도시한 바와 같이 이 방법은 하기 단계를 포함한다:

기존의 두개 VAD의 출력 결과를 획득한다(단계S402).

현재 프레임의 서브밴드 신호 및 스팩트럼 진폭 값을 획득한다(단계S404).

본 발명의 실시예에 있어서, 프레임의 길이가 20ms이고 샘플링율이 32kHz인 오디오 스트림을 예로 구체적으로 설명한다. 기타 프레임 길이와 샘플링율 조건에서도 본 발명의 실시예에서 제공하는 활성화 음성 연합 검측 방법을 적용할 수 있다.

현재 프레임의 시간영역 신호를 필터세트유닛에 입력하여 서브밴드 필터 계산을 수행하여 필터세트의 서브밴드 신호를 얻는다.

본 실시예에 있어서는 40 통로의 필터세트를 이용하지만 본 발명의 실시예에서 제공하는 기술방안은 기타 통로수의 필터세트에도 적용된다.

현재 프레임의 시간영역 신호를 40 통로의 필터세트에 입력하고 서브밴드 필터 계산을 수행하여 16개 시간 샘플점의 40개 서브밴드의 필터세트 서브밴드 신호

를 얻고, 그중

,

이고, 여기서

는 필터세트 서브밴드의 인덱스이고 그 값은 계수에 대응되는 서브밴드를 말하며

는 각 서브밴드의 시간 샘플점의 인덱스이고, 하기 단계를 통하여 실현된다:

1: 가장 가까운 640개 오디오 신호 샘플 값을 데이터 버퍼에 기억한다.

2: 데이터 버퍼중의 데이터를 40개 비트 전이하고 최초의 40개 샘플 값을 데이터 버퍼로부터 삭제하며 40개 새로운 샘플점을 0으로부터 39 위치에 기억한다.

버퍼중의 데이터x에 윈도우 계수（Window Coefficient）를 곱셈하여 수치세트

를 얻는데 계산식은

이고,

여기서,

는 필터세트 윈도우 계수이다.

하기 의사코드를 이용하여 계산하여 하나의 80점(点)의 데이터u를 얻는다.

for(

=0；

<80；

++)

{

for(

=0；

<8；

++)

{

}

하기 방정식에 따라 계산하여 수치세트

과

를 얻는다:

하기 방정식에 따라 계산하여 첫번째 시간 샘플점의 40개 복소수의 서브밴드 샘플 값을 얻고

, 여기서,

와

는 각각 필터세트 서브밴드 신호

의 제

개 시간 샘플점의 계수의 실수부와 허수부이고, 그 계산식은

이다.

3: 필터세트가 본 프레임의 모든 데이터에 필터 처리를 수행할 때까지 2의 계산 프로세스를 반복하고 마지막의 출력 결과가 필터세트 서브밴드 신호

이다.

4: 상기 계산 프로세스를 완성한 후, 40개 서브밴드의 16개 시간 샘플점의 필터세트 서브밴드 신호

를 얻고 여기서

,

이다.

그다음, 필터세트 서브밴드 신호에 시간 주파수 변환을 수행하여 계산하여 스팩트럼 진폭 값을 얻는다.

여기서, 필터세트 서브밴드의 전부 또는 일부에 시간 주파수 변환을 수행하여 스팩트럼 진폭 값을 계산할 수 있으면 모두 본 발명의 실시예를 실현할 수 있다. 본 발명의 실시예에 있어서 시간 주파수 변환 방법은 이산푸리에 변환DFT(Discrete Fourier Transform), 고속 푸리에 변환FFT(Fast Fourier Transformation), 이산 코사인 변환DCT(Discrete Cosine Transform) 또는 이산 사인 변환DST(Discrete Sine Transform)일 수 있다. 본 발명의 실시예에 있어서는 DFT를 예로 그 실현 방법을 구체적으로 설명한다. 계산 프로세스는 하기와 같다:

인덱스가 0으로부터 9까지인 각 필터세트 서브밴드상의 16개 시간 샘플점 데이터에 16점(点)의 DFT 변환을 수행하여 스팩트럼의 해상도를 더 향상시키고 각 주파수점의 진폭 값을 계산하여 스팩트럼 진폭값

을 얻는다.

시간 주파수 변환 계산식은

이다.

각 주파수점의 진폭값은 하기와 같이 계산한다:

우선, 수치세트

의 각 점의 에네르기를 계산하고, 계산식은

이고, 여기서,

,

는 각각 스팩트럼 계수

의 실수부와 허수부를 나타낸다.

가 짝수이면 하기 방정식에 따라 각 주파수점의 스팩트럼 진폭 값을 계산한다:

가 홀수이면 하기 방정식에 따라 각 주파수점의 스팩트럼 진폭 값을 계산한다:

는 시간 주파수 변환후의 스팩트럼 진폭값이다.

프레임 에네르기 파라미터는 각 서브밴드 신호 에네르기를 가중 중첩한 값 또는 직접 중첩한 값이다(단계S406).

서브밴드 신호로부터 계산하여 현재 프레임의 프레임 에네르기 파라미터를 얻고, 구체적으로,

sb_power[k]=

0<=k< band_num이다.

일정한 서브밴드내에서 에네르기sb_power를 중첩하면 프레임 에네르기2를 얻을수 있다:

frame_energy2=

.

프레임 에네르기는 frame_energy= frame_energy2 + fac*sb_power[0]이다.

서브밴드를 분할하면 신호 대 잡음비 서브밴드를 얻을 수 있고, 각 서브밴드내의 에네르기를 중첩하면 현재 프레임의 신호 대 잡음비 서브밴드 에네르기frame_sb_energy를 얻을 수 있다:

frame_sb_energy[i]=

배경 노이즈 마크의 수정값과 현재 프레임의 프레임 에네르기 파라미터, 바로 앞 프레임의 대역전체의 배경 노이즈 에네르기로부터 서브밴드 배경 노이즈 에네르기와 대역전체의 배경 노이즈 에네르기를 포함한 현재 프레임의 배경 노이즈 에네르기를 추정한다. 배경 노이즈 마크의 계산에 대하여서는 단계S430을 참조할 수 있다.

스팩트럼 중심 특징 파라미터는 전부 또는 일부 서브밴드 신호 에네르기를 가중 중첩한 값과 가중하지 않은채 중첩한 값의 비율이고, 또는 그 비율값에 평활화 필터 처리를 수행하여 얻은 값이다(단계S408). 스팩트럼 중심 특징 파라미터는 하기 단계로 실현할 수 있다:

스팩트럼 중심 특징 파라미터의 계산에 이용되는 서브밴드 구간을 하기와 같이 분할한다:

표1 스팩트럼 중심 파라미터QMF 서브밴드 분할

a의 스팩트럼 중심 특징 파라미터 계산 구간 분할 방식과 하기 식을 이용하여 계산하여 제1 구간 스팩트럼 중심 특징 파라미터와 제2 구간 스팩트럼 중심 특징 파라미터의 두개 스팩트럼 중심 특징 파라미터 값을 얻는다.

제2 구간 스팩트럼 중심 특징 파라미터sp_center[2]에 평활화 필터 연산을 수행하여 평활화 스팩트럼 중심 특징 파라미터값인 제2 구간 스팩트럼 중심 특징 파라미터값의 평활화 필터값: sp_center[0]= fac*sp_center[0]+(1-fac)*sp_center[2]을 얻는다.

시간영역 안전성 특징 파라미터는 진폭값 중첩값의 분산과 진폭값 중첩값의 평방의 이상적인 비율이고 또는 그 비율값에 하나의 계수를 곱셈한 것이다. 가장 새로운 N 프레임 신호의 프레임 에네르기 파라미터로부터 시간영역 안전성 특징 파라미터를 계산한다(단계S410). 제n 프레임의 프레임 에네르기frame_energy가 frame_energy[n]라고하면 그 진폭값은

이고, 여기서,

는 하나의 오프셋값이고 그 범위는 [0,0.1]이다.

현재 프레임으로부터 그전의 제N 프레임까지의 인접한 두개 프레임의 에네르기 진폭 값을 가산하여 N/2개 진폭값 중첩 값을 얻는다:

여기서,

일 경우,

[n]는 현재 프레임의 에네르기 진폭 값을 말하고

일 경우,

[n]는 현재 프레임으로부터 그전의 n 프레임의 에네르기 진폭 값을 말한다.

가장 가까운 N/2개 진폭값 중첩값의 분산과 평균 에네르기의 비율을 계산하여 시간영역 안전성 특징 파라미터ltd_stable_rate를 얻는다. 그 계산 방정식은

이다.

N가 서로다른 값이면 서로다른 시간영역의 안전성을 계산할 수 있다.

조성 특징 파라미터는 전후 두 프레임 신호의 프레임내의 스팩트럼 차분 계수의 관련 값을 계산하여 얻은 것이고, 또는 계속하여 그 관련 값에 평활화 필터 처리를 수행하여 얻은 것이다. 조성 특징 파라미터를 스팩트럼 진폭 값을 이용하여 계산한다(단계S412). 그 계산 단계는 하기와 같다:

a) 인접한 스팩트럼 진폭값에 차분 연산을 수행하여 차분 결과가 0미만인 값을 0으로 설정하여 음수가 아닌 1세트의 스팩트럼 차분 계수spec_low_dif[]를 얻는다.

b) 단계a에서 산출된 현재 프레임의 음수가 아닌 스팩트럼 차분 계수와 바로 앞 프레임의 음수가 아닌 스팩트럼 차분 계수의 관련 계수를 구하여 제1 조성 특징 파라미터 값을 얻는다. 그 계산 방정식은

이다.

여기서, pre_spec_low_dif는 바로 앞 프레임의 스팩트럼 차분 계수이다. 하기 식에 따라 각 유형의 조성 특징 파라미터를 계산할 수 있다:

f_tonality_rate[0] = f_tonality_rate;

f_tonality_rate[1] = pre_f_tonality_rate[1]*0.96f + f_tonality_rate *0.04f;

f_tonality_rate[2] = pre_f_tonality_rate[2]*0.90f + f_tonality_rate *0.1f;

여기서, pre_f_tonality_rate는 바로 앞 프레임의 조성 특징 파라미터이다.

스팩트럼 평탄도 특징 파라미터는 일부 스팩트럼 진폭값의 기하 평균값과 산술 평균값의 비율이고, 또는 그 비율에 하나의 계수를 곱셈한 것이다. 스팩트럼 진폭값spec_amp[]에 평활화 처리를 수행하여 평활화된 진폭 스팩트럼: smooth_spec_amp[i] = smooth_spec_amp[i]*fac + spec_amp[i]*(1-fac)을 얻고 여기서, 0<=i< SPEC_AMP_NUM이고, 평활화한 진폭 스팩트럼을 2개 밴드로 분할하고 이 3개 밴드의 스팩트럼 평탄도 특징을 계산한다(단계S414). 표3에 스팩트럼 평탄도 밴드 분할을 나타내였다.

표2 스팩트럼 평탄도 진폭 스팩트럼 밴드 분할

스팩트럼 평탄도는 스팩트럼 진폭 또는 평활화 스팩트럼 진폭의 기하 평균값 geo_mean[k]과 산술 평균값 ari_mean[k]의 비율이다. N[k]=spec_amp_end[k]- spec_amp_start[k]+1가 스팩트럼 평탄도SFF[k]를 계산하는 진폭 스팩트럼 수량이라고 한다.

SFF [k]= geo_mean[k]/ ari_mean[k]

현재 프레임의 스팩트럼 평탄도에 진일보로 평활화 처리를 수행하여 평활화된 스팩트럼 평탄도sSFM[k]= fac*sSFM[k]+(1-fac) SFF [k]를 얻는다.

바로 앞 프레임의 추정된 배경 노이즈 에네르기, 현재 프레임의 프레임 에네르기 파라미터 및 신호 대 잡음비 서브밴드 에네르기로부터 현재 프레임의 신호 대 잡음비 파라미터를 계산한다(단계S416). 주파수영역 신호 대 잡음비의 계산 단계는 하기와 같다:

바로 앞 프레임의 배경 노이즈 마크가 1일 경우, 서브밴드 배경 노이즈 에네르기를 갱신하고 갱신에 이용되는 의사코드는

sb_bg_energy[i] = sb_bg_energy[i]*0.90f + frame_sb_energy[i]*0.1f이다.

현재 프레임의 서브밴드 에네르기와 바로 앞 프레임의 추정된 서브밴드 배경 노이즈 에네르기로부터 각 서브밴드의 신호 대 잡음비를 계산하고 각 서브밴드의 신호 대 잡음비가 일정한 임계값 미만이면 0으로 설정하고 구체적으로는,

snr_sub[i]=log2((frame_sb_energy[i]+0.0001f)/(sb_bg_energy[i]+0.0001f))이고, snr_sub[i]가 -0.1 미만이면 0으로 설정한다.

모든 서브밴드의 신호 대 잡음비의 평균값이 주파수영역 신호 대 잡음비snr이다. 구체적으로는,

이다.

장시간 평활화 주파수영역 신호 대 잡음비와 장시간 신호 대 잡음비lt_snr_org에 근거하여 노이즈 타입 마크를 획득한다(단계S418).

장시간 신호 대 잡음비는 평균 장시간 활성화 음성 프레임 에네르기와 장시간 평균 배경 노이즈 에네르기의 비율이다. 바로 앞 프레임의 VAD 마크에 근거하여 평균 장시간 활성화 음성 프레임 에네르기와 장시간 평균 배경 노이즈 에네르기를 갱신하고 VAD 마크가 비 활성화 음성 프레임일 경우, 장시간 평균 배경 노이즈 에네르기를 갱신하며 VAD 마크가 활성화 음성 프레임일 경우, 평균 장시간 활성화 음성 프레임 에네르기를 갱신하고, 구체적으로는,

평균 장시간 활성화 음성 프레임 에네르기는 lt_active_eng= fg_energy/fg_energy_count이고,

장시간 평균 배경 노이즈 에네르기는 lt_inactive_eng= bg_energy/ bg_energy_count이고,

여기서,

이고, i는 활성화 음성 프레임 인덱스값이다.

이고, j는 비 활성화 음성 프레임 인덱스값이다.

장시간 신호 대 잡음비는 lt_snr_org=log10(lt_active_eng /lt_inactive_eng)이고,

노이즈 타입의 초기 값을 비 음소거로 설정하고, lf_snr_smooth가 설정된 임계값THR1을 초과하고 lt_snr_org가 설정된 임계값THR2을 초과하면 노이즈 타입을 음소거로 설정한다.

여기서, lf_snr_smooth의 계산 프로세스는 단계S420을 참조할 수 있다.

단계S418에 기재된 VAD의 선택은 두개 VAD중의 하나의 VAD를 선택하는 것이지만 두개 VAD중의 하나의 VAD를 선택하는 것에 한정되지 않고 연합 VAD를 선택할 수 도 있다.

하기 방법으로 장시간 평활화한 평균 주파수영역 신호 대 잡음비lf_snr_smooth를 계산한다(단계S420).

lf_snr_smooth= lf_snr_smooth*fac + (1-fac)*l_snr;

여기서, l_snr = l_speech_snr/l_speech_snr_count - l_silence_snr/l_silence_snr_count이고,

여기서, l_speech_snr과 l_speech_snr_count는 활성화 음성 프레임 주파수영역 신호 대 잡음비의 누산기와 카운터이고 l_silence_snr과 l_silence_snr_count는 비 활성화 음성 프레임 주파수영역 신호 대 잡음비의 누산기와 카운터이다. 현재 프레임이 초기 프레임일 경우, 초기화를 수행한다:

l_silence_snr = 0.5f;

l_speech_snr = 5.0f;

l_silence_snr_count = 1;

l_speech_snr_count = 1;

현재 프레임이 초기 프레임이 아니면, 어느한 VAD 판단 마크에 근거하여 상기한 4개 파라미터를 갱신한다. VAD 마크가 현재가 비 활성화 음성 프레임임을 지실할 경우, 하기 방식으로 갱신한다:

l_silence_snr = l_silence_snr + snr;

l_silence_snr_count = l_silence_snr_count + 1.

VAD 마크가 현재 프레임이 활성화 음성 프레임임을 지실할 경우,

l_speech_snr = l_speech_snr + snr;

l_speech_snr_count = l_speech_snr_count + 1이다.

단계S420에 기재된 VAD의 선택은 두개 VAD중의 하나의 VAD를 선택하는 것이지만 두개 VAD중의 하나의 VAD를 선택하는 것에 한정되지 않고 연합 VAD를 선택할 수 도 있다.

제1 프레임일 경우, 연속되는 노이즈 프레임 수량을 하나의 초기값으로 설정하고 본 실시예에 있어서는 0으로 설정한다. 제2 프레임 및 그 다음의 프레임일 경우, VAD에 의하여 비 활성화 음성 프레임으로 판단되었을 경우, 연속되는 노이즈 프레임 수량에 1을 더하고 그렇지 않으면 연속되는 노이즈 프레임 수량을 0으로 설정한다(단계S422).

단계S422에 기재된 VAD의 선택은 두개 VAD중의 하나의 VAD를 선택하는 것이지만 두개 VAD중의 하나의 VAD를 선택하는 것에 한정되지 않고 연합 VAD를 선택할 수도 있다.

현재 프레임의 프레임 에네르기 파라미터, 조성 특징 파라미터f_tonality_rate, 시간영역 안전성 특징 파라미터ltd_stable_rate, 스팩트럼 평탄도 특징 파라미터sSFM, 스팩트럼 중심 특징 파라미터sp_center로부터 현재 프레임의 조성 마크를 계산하고 현재 프레임이 조성 신호인가를 판단한다. 조성 신호로 판단되었을 경우, 음악 프레임이라고 인정한다(단계S424). 하기 작업을 수행한다:

a) 현재 프레임의 신호가 비 조성 신호이고 하나의 조성 프레임 마크music_background_frame로 현재 프레임이 조성 프레임인가를 지시한다고 가설한다. music_background_frame의 값이 1이면 현재 프레임이 조성 프레임임을 표시하고 0이면 현재 프레임이 비 조성 프레임임을 표시하며,

b) 조성 특징 파라미터f_tonality_rate[0] 또는 그 평활화 여과후의 f_tonality_rate[1]의 값이 대응되는 설정된 임계 값을 초과하는가를 판단하고 상기 조건중의 적어도 하나가 성립되면 단계c)를 수행하고 그렇지 않으면 단계d)를 수행하며,

c) 시간영역 안전성 특징 파라미터값ltd_stable_rate[5]이 설정된 임계값 미만이고 스팩트럼 중심 특징 파라미터값sp_center[0]이 설정된 임계 값을 초과하며 3개 스팩트럼 평탄도중의 하나가 대응되는 임계값 미만이면, 현재 프레임이 조성 프레임이라고 판단하고, 조성 프레임 마크music_background_frame의 값을 1로 설정하고 계속하여 단계d)를 수행하며,

d) 조성 프레임 마크music_background_frame에 근거하여 조성 정도 특징 파라미터music_background_rate를 갱신하고, 여기서, 조성 정도 파라미터music_background_rate의 초기값은 활성화 음성 검측 장치가 동작을 시작할 때 설정되고 그 범위는 [0，1]이고,

현재의 조성 프레임 마크가 현재 프레임이 조성 프레임임을 지시하면 하기 방정식에 따라 조성 정도 특징 파라미터music_background_rate를 갱신한다:

music_background_rate = music_background_rate*fac + (1-fac).

현재 프레임이 조성 프레임이 아니면 하기 식에 따라 music_background_rate를 갱신한다:

music_background_rate = music_background_rate*fac.

e) 갱신후의 조성 정도 특징 파라미터music_background_rate에 근거하여 현재 프레임이 조성 신호인가를 판단하고 조성 마크music_backgound_f의 값을 설정하며,

조성 정도 특징 파라미터music_background_rate가 어느한 설정된 임계값을 초과하면 현재 프레임이 조성 신호이라고 판단하고, 그렇지 않으면 현재 프레임이 비 조성 신호이라고 판단한다.

대역전체의 평균 신호 대 잡음비는 몇 프레임의 대역전체의 신호 대 잡음비의 평균값이다. 하기 방법에 따라 계산한다(단계S426).

바로 앞 프레임의 배경 노이즈 마크가 1일 경우, 현재 프레임의 에네르기를 대역전체의 배경 노이즈 에네르기의 누산기t_bg_energy_sum에 누산하고 대역전체의 배경 노이즈 에네르기의 카운터tbg_energy_count의 값에 1을 더한다.

대역전체의 배경 노이즈 에네르기t_bg_energy= t_bg_energy_sum/tbg_energy_count이다.

현재 프레임의 프레임 에네르기로부터 현재 프레임의 대역전체의 신호 대 잡음비를 계산한다:

tsnr= log2(frame_energy+0.0001f)/(t_bg_energy+0.0001f);

몇 프레임의 대역전체의 신호 대 잡음비의 평균을 구하여 대역전체의 평균 신호 대 잡음비를 얻는다.

여기서, N는 가장 가까운 N 프레임이고 tsnr[i]는 제i 프레임의 tsnr를 표시한다.

연속되는 활성화 음성 프레임 수량은 제1 프레임의 경우 초기값으로 설정한다. 본 실시예에 있어서 0으로 설정한다. 현재 프레임이 제2 프레임 및 제2 프레임 다음의 음성 프레임일 경우, VAD 판단결과로부터 현재의 연속되는 활성화 음성 프레임 수량을 계산하고(단계S428), 구체적으로는,

VAD 마크가 1일 경우, 연속되는 활성화 음성 프레임 수량에 1을 더하고 그렇지 않으면 연속되는 활성화 음성 프레임 수량을 0으로 설정한다.

단계S428에 기재된 VAD의 선택은 두개 VAD중의 하나의 VAD를 선택하는 것이지만 두개 VAD중의 하나의 VAD를 선택하는 것에 한정되지 않고 연합 VAD를 선택할 수 도 있다.

현재 프레임의 프레임 에네르기 파라미터, 스팩트럼 중심 특징 파라미터, 시간영역 안전성 특징 파라미터, 스팩트럼 평탄도 특징 파라미터, 조성 특징 파라미터로부터 현재 프레임의 초기 배경 노이즈 마크를 계산하고, 현재 프레임의 VAD 판단결과, 조성 특징 파라미터, 신호 대 잡음비 파라미터, 조성 마크, 시간영역 안전성 특징 파라미터에 근거하여 초기 배경 노이즈 마크를 수정하여 최종 배경 노이즈 마크를 얻고 배경 노이즈 마크에 근거하여 배경 노이즈 검측을 수행한다(단계S430).

배경 노이즈 마크는 배경 노이즈 에네르기의 갱신하는가를 지시하는 것으로 그 값은 1 또는 0이고, 1일 경우, 배경 노이즈 에네르기의 갱신을 수행하고 0일 경우 배경 노이즈 에네르기의 갱신을 수행하지 않는다.

우선, 현재 프레임이 배경 노이즈 프레임이라고 하면, 하기 조건중의 하나가 성립되면 현재 프레임이 노이즈 신호가 아니라고 판단한다:

a) 시간영역 안전성 파라미터ltd_stable_rate[5]가 설정된 임계값을 초과하고 그 임계값 범위는 0.05~0.30이다.

b) 스팩트럼 중심sp_center[0]과 시간영역 안전성ltd_stable_rate[5]이 각각 대응되는 임계값을 초과하고 sp_center[0]과 ltd_stable_rate[5]의 임계값 범위는 각각 2~6, 0.001~0.1이다.

c) 조성 특징 파라미터f_tonality_rate[1]와 시간영역 안전성ltd_stable_rate[5]이 각각 대응되는 임계값을 초과하고 f_tonality_rate[1]과 ltd_stable_rate[5]의 임계값 범위는 각각 0.4~0.6, 0.05~0.15이다.

d) 각 서브밴드의 스팩트럼 평탄도 특징 파라미터 또는 각각의 평활화 여과후의 값이 모두 각자에 대응되는 설정된 임계값 미만이고 그 임계값 범위는 0.70~0.92이다.

e) 현재 프레임의 에네르기frame_energy가 설정된 임계값을 초과하고 그 임계값 범위는 50~500이고, 또는 장시간 평균 에네르기를 사용하여 동적 임계 값을 설정한다.

f) 조성 특징 파라미터f_tonality_rate가 대응되는 임계값을 초과한다.

g) a)~f) 단계를 통하여 초기 배경 노이즈 마크를 얻고, 그 다음, 초기 배경 노이즈 마크를 수정하고 신호 대 잡음비 파라미터, 조성 특징 파라미터, 시간영역 안전성 특징 파라미터가 대응되는 임계값 미만이고 이와 동시에 vad_flag과 music_backgound_f가 0으로 설정되었으면 배경 노이즈 마크를 1로 갱신한다.

단계S430에 기재된 VAD의 선택은 두개 VAD중의 하나의 VAD를 선택하는 것이지만 두개 VAD중의 하나의 VAD를 선택하는 것에 한정되지 않고 연합 VAD를 선택할 수 도 있다.

특징군1중의 적어도 하나의 특징과, 특징군2중의 적어도 하나의 특징과, 2유형의 기존 활성화 음성 검측(VAD) 판단결과로부터 최종 연합 VAD 판단결과를 얻는다(단계S432).

VAD_A과 VAD_B의 두개 VAD가 있고 출력 마크는 vada_flag와 vadb_flag이고 연합 VAD의 출력 마크는 vad_flag이며 VAD 마크가 0이면 비 활성화 음성 프레임을 표시하고 1이면 활성화 음성 프레임을 표시한다고 한다. 구체적으로 하기와 같이 판단한다:

vadb_flag를 vad_flag 초기값으로하여 선택하고,

노이즈 타입이 음소거이고 주파수영역 신호 대 잡음비가 설정된 임계값인 예를 들어 0.2를 초과하며 연합 VAD의 초기값vad_flag이 0이면 vada_flag를 연합 VAD의 출력으로하여 선택하고 판단을 종료하며 그렇지 않으면 단계c)를 수행한다.

장시간 평활화한 평균 주파수영역 신호 대 잡음비가 설정된 임계값인 예를 들어 10.5 미만이면, 또는 노이즈 타입이 음소거가 아니면, 단계d)를 수행하며, 그렇지 않으면 단계a)에서 선택한 vad_flag 초기 값을 연합 VAD 판단결과로하고,

하기 조건중의 임의의 하나를 만족시킬 경우, 두개 VAD의 논리 OR 연산 결과를 연합 VAD의 출력으로하여 선택하고 판단을 종료하며, 그렇지 않으면 단계e)를 수행하며,

조건1: 대역전체의 평균 신호 대 잡음비가 임계값1, 예를 들어 2.2를 초과.

조건2: 대역전체의 평균 신호 대 잡음비가 임계값2, 예를 들어 1.5를 초과하고 연속되는 활성화 음성 프레임 수량이 임계값, 예를 들어 40을 초과.

조건3: 조성 신호 마크가 1임.

노이즈 타입이 음소거이면 vada_flag를 연합 VAD의 출력으로하여 선택하고 판단을 종료한다.

실시예2:

실시예1의 단계S432에서 하기 방식으로 실시할 수 있다:

특징군1중의 적어도 하나의 특징과, 특징군2중의 적어도 하나의 특징과, 2유형의 기존 활성화 음성 검측(VAD) 판단결과로부터 최종 연합 VAD 판단결과를 얻는다.

vadb_flag를 vad_flag 초기값으로하여 선택하고,

노이즈 타입이 음소거이고 주파수영역 신호 대 잡음비가 설정된 임계값인 예를 들어 0.2를 초과하며 연합 VAD의 초기값vad_flag이 0이면 vada_flag를 연합 VAD의 출력으로하여 선택하고 판단을 종료하고, 그렇지 않으면 단계c)를 수행하며,

장시간 평활화한 평균 주파수영역 신호 대 잡음비가 설정된 임계값인 예를 들어 10.5 미만이면, 또는 노이즈 타입이 음소거가 아니면, 단계d)를 수행하며, 그렇지 않으면 단계a)중의 vad_flag 초기 값을 연합 VAD 판단결과로하고,

하기 조건중의 임의의 하나를 만족시키면, 두개 VAD의 논리 OR 연산 결과를 연합 VAD의 출력으로하여 선택하고 판단을 종료하며, 그렇지 않으면 단계e)를 수행하며,

조건1: 대역전체의 평균 신호 대 잡음비가 임계값1, 예를 들어 2.0를 초과.

조건2: 대역전체의 평균 신호 대 잡음비가 임계값2, 예를 들어 1.5를 초과하고 연속되는 활성화 음성 프레임 수량이 임계값, 예를 들어 30을 초과.

조건3: 조성 신호 마크가 1임.

vada_flag를 연합 VAD의 출력으로하여 선택하고 판단을 종료한다.

실시예3:

실시예1의 단계S432에서 하기 방식으로 실시할 수 있다:

vadb_flag를 vad_flag 초기값으로하여 선택하고,

노이즈 타입이 음소거이면 단계c)를 수행하며 그렇지 않으면 단계d)를 수행하며,

장시간 평활화한 주파수영역 신호 대 잡음비가 12.5를 초과하고 music_backgound_f가 0이면 vad_flag를 vada_flag로 설정하고 그렇지 않으면 단계a)에서 선택한 vad_flag 초기 값을 연합 VAD 판단결과로하고,

대역전체의 평균 신호 대 잡음비가 2.0를 초과하면, 또는 대역전체의 평균 신호 대 잡음비가 1.5를 초과하고 연속되는 활성화 음성 프레임 수량이 30을 초과하면, 또는 조성 신호 마크가 1이면 두개 VAD의 논리 OR 연산OR(vada_flag, vadb_flag)을 연합 VAD의 출력으로하여 선택하고 그렇지 않으면 단계a)에서 선택한 vad_flag 초기 값을 연합 VAD 판단결과로 한다.

실시예4:

실시예1의 단계S432에서 하기 방식으로 실시할 수 있다:

VAD_A와 VAD_B의 두개 VAD가 있고 출력 마크는 vada_flag와 vadb_flag이고 연합 VAD의 출력 마크는 vad_flag이며 VAD 마크가 0이면 비 활성화 음성 프레임을 표시하고 1이면 활성화 음성 프레임을 표시한다고 한다. 구체적으로 하기와 같이 판단한다:

vadb_flag를 vad_flag 초기값으로하여 선택하고,

노이즈 타입이 음소거이면 단계c)를 수행하고 그렇지 않으면 단계d)를 수행하며,

장시간 평활화한 평균 주파수영역 신호 대 잡음비가 12.5를 초과하고 music_backgound_f가 0이면 vad_flag를 vada_flag로 설정하고 그렇지 않으면 단계e)를 수행하며,

대역전체의 평균 신호 대 잡음비가 1.5를 초과하면, 또는 대역전체의 평균 신호 대 잡음비가 1.0을 초과하고 연속되는 활성화 음성 프레임 수량이 30을 초과하면, 또는 조성 신호 마크가 1이면 두개 VAD의 논리 OR 연산OR(vada_flag, vadb_flag)을 연합 VAD의 출력으로하여 선택하고 그렇지 않으면 단계e)를 수행하며,

연속되는 노이즈 프레임 수량이 10을 초과하고 대역전체의 평균 신호 대 잡음비가 0.1 미만이면 두개 기존 VAD 출력 마크의 AND 연산AND(vada_flag, vadb_flag)을 연합 VAD의 출력으로하여 선택하고 그렇지 않으면 vadb_flag를 연합 VAD의 출력으로하여 선택한다.

실시예5:

실시예1의 단계S432에서 하기 방식으로 실시할 수 있다:

vadb_flag를 vad_flag 초기값으로하여 선택하고,

music_backgound_f가 0이면 두개 VAD의 논리 OR 연산OR(vada_flag, vadb_flag)을 연합 VAD의 출력으로하여 선택하고 그렇지 않으면 vada_flag를 연합 VAD의 출력으로하여 선택하고,

기타 실시예에 있어서, 상기 실시예 및 바람직한 실시형태에 기재된 기술방안을 실시하기 위한 소프트웨어를 제공한다.

또한 기타 실시예에 있어서, 상기 소프트웨어를 기억한 기억매체를 제공하는데 기억매체가 광디스크, 플로피 디스켓, 하드 드라이버, 쓰기 및 소거 가능한 메모리등을 포함하지만 이에 한정되는 것은 아니다.

당업자라면 상기한 본 발명의 각 수단 또는 각 단계를 범용 계산장치를 통하여 실현할 수 있고 단일 계산장치에 집중시키거나 또는 다수의 계산장치로 구성된 네트워크에 분포시킬수 있고, 또한 계산장치가 실행할 수 있는 프로그램 코드로 실현할 수 도 있으므로, 기억장치에 기억하여 계산장치에 실행시킬 수 있고, 때로는 여기서 설명한 순서와 다른 순서로 도시한 또는 설명한 단계를 수행할 수도 있고, 또는 각각 집적회로 수단으로 만들거나 또는 그중의 다수의 수단 또는 단계를 하나의 집적회로 수단으로 만들어 실현할 수 도 있음을 알수 있다. 따라서 본 발명은 특정된 하드웨어와 소프트웨어의 결합에 한정되지 않는다.

상기한 내용은 본 발명의 바람직한 실시예로, 본 발명을 한정하는 것이 아니다. 당업자라면 본 발명에 여러가지 변화를 가져올 수 있다. 본 발명의 정신과 원칙을 벗어나지 않는 범위내에서 수행하는 모든 수정, 동등교체, 개량 등은 본 발명의 보호 범위에 속한다.

[산업 이용 가능성]

본 발명의 실시예에서 제공하는 상기 기술방안에 의하면, 제1 특징세트중의 제1유형의 특징 파라미터와, 제2 특징세트중의 제2유형의 특징 파라미터와, 적어도 두개 기존 VAD 판단결과에 근거하여 연합 검측을 수행하는 기술수단을 이용하여 기존 기술에 있어서 VAD 방안의 검측이 정확하지 않은 등 기술문제를 해결하고 VAD의 정확성을 높이고 사용자 체험을 향상시킬 수 있다.

Claims

활성화 음성 검측(Voice Activity Detection; VAD) 방법으로서,
획득수단에 의해, 제1 특징세트(feature category) 중의 적어도 하나의 제1 유형의 특징 파라미터(class feature), 제2 특징세트 중의 적어도 하나의 제2 유형의 특징 파라미터 및 적어도 두개의 기존 VAD 판단결과들을 획득하는 단계(S102) - 상기 제1 유형의 특징 파라미터 및 상기 제2 유형의 특징 파라미터는 VAD 검측에 이용되는 특징 파라미터임 - ;
검측수단에 의해, 상기 제1 유형의 특징 파라미터, 상기 제2 유형의 특징 파라미터 및 상기 적어도 두개의 기존 VAD 판단결과들에 따라, 연합 VAD 판단결과를 얻도록 VAD를 수행하는 단계(S104)
를 포함하고,
상기 제2 특징세트 중의 상기 제2 유형의 특징 파라미터는 노이즈 타입 마크(flag of noise type), 장시간 평활화한 평균 주파수영역 신호 대 잡음비, 및 주파수영역 신호 대 잡음비를 포함하고,
상기 검측수단에 의해, 상기 제1 유형의 특징 파라미터, 상기 제2 유형의 특징 파라미터 및 상기 적어도 두개의 기존 VAD 판단결과들에 따라, VAD를 수행하는 단계(S104)는,
a) 상기 적어도 두개의 기존 VAD 판단결과들로부터 하나의 VAD 판단결과를 연합 VAD의 초기값으로서 선택하는 단계;
b) 상기 노이즈 타입 마크가 노이즈 타입은 음소거라고 지시하고, 상기 주파수영역 신호 대 잡음비가 기설정된 임계값을 초과하며, 상기 초기값이 비 활성화 음성 프레임(inactive frame)을 지시하는 경우, 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 다른 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하고, 그렇지 않으면 단계 c)를 수행하는 단계 - 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 상기 다른 VAD 판단결과는 VAD 판단 결과가 활성화 음성 프레임(active frame) 또는 비 활성화 음성 프레임이라고 지시하는데 이용됨 - ;
c) 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 기설정된 임계값 미만인 경우 또는 상기 노이즈 타입이 음소거가 아닌 경우, 단계 d)를 수행하고, 그렇지 않으면 단계 a)에서 선택된 상기 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하는 단계;
d) 기설정된 조건이 만족되면, 상기 적어도 두개의 기존 VAD 판단결과들에 논리 OR 연산을 수행하고 상기 논리 OR 연산의 결과를 상기 연합 VAD 판단결과로서 이용하고, 그렇지 않으면 단계 e)를 수행하는 단계; 및
e) 상기 노이즈 타입 마크가 상기 노이즈 타입은 음소거라고 지시하면, 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 다른 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하고, 그렇지 않으면 단계 a)에서 선택된 상기 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하는 단계
를 포함하는, VAD 방법.
제1항에 있어서,
상기 제1 특징세트 중의 상기 제1 유형의 특징 파라미터는, 연속되는 활성화 음성 프레임의 수량, 모든 서브밴드들의 평균 총 신호 대 잡음비, 또는 조성 신호 마크 중의 적어도 하나를 포함하고, 상기 모든 서브밴드들의 평균 총 신호 대 잡음비는 미리 결정된 수량의 프레임에 대한 모든 서브밴드들에 걸친 신호 대 잡음비의 평균값인 것인, VAD 방법.
제2항에 있어서,
상기 기설정된 조건은,
조건 1: 모든 서브밴드들의 평균 총 신호 대 잡음비가 제1 임계값을 초과;
조건 2: 상기 모든 서브밴드들의 평균 총 신호 대 잡음비가 제2 임계값을 초과하고, 상기 연속되는 활성화 음성 프레임의 수량이 기설정된 임계값을 초과; 또는
조건 3: 조성 신호 마크가 조성 신호를 지시
중 적어도 하나를 포함하는 것인, VAD 방법.
제1항에 있어서,
상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비 및 상기 노이즈 타입 마크는,
현재 프레임의 바로 앞 프레임의 연합 VAD 판단결과 또는 상기 바로 앞 프레임에 대응되는 적어도 두개의 기존 VAD 판단결과들 중의 임의의 하나의 VAD 판단결과, 상기 바로 앞 프레임의 제1 기설정된 시간 구간 내의 장시간 활성화 음성 프레임의 평균 에너지 및 상기 바로 앞 프레임의 장시간 배경 노이즈의 평균 에너지에 따라, 상기 현재 프레임의 장시간 활성화 음성 프레임의 평균 에너지 및 상기 현재 프레임의 장시간 배경 노이즈의 평균 에너지를 계산하는 방식;
상기 현재 프레임의 제2 기설정된 시간 구간 내의 장시간 활성화 음성 프레임의 평균 에너지 및 장시간 배경 노이즈의 평균 에너지에 따라, 상기 현재 프레임의 상기 제2 기설정된 시간 구간 내의 장시간 신호 대 잡음비를 계산하는 방식;
상기 현재 프레임의 상기 연합 VAD 판단결과 또는 상기 바로 앞 프레임에 대응되는 적어도 두개의 기존 VAD 판단결과들 중의 임의의 하나의 VAD 판단결과 및 상기 바로 앞 프레임의 평균 주파수영역 신호 대 잡음비에 따라, 상기 현재 프레임의 제3 기설정된 시간 구간 내의 장시간 평활화한 평균 주파수영역 신호 대 잡음비를 계산하는 방식; 및
상기 장시간 신호 대 잡음비 및 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비에 따라 상기 노이즈 타입 마크를 결정하는 방식
에 의해 결정되는 것인, VAD 방법.
제4항에 있어서,
상기 장시간 신호 대 잡음비 및 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비에 따라 상기 노이즈 타입 마크를 결정하는 것은,
상기 노이즈 타입 마크를 비 음소거로 설정하고, 상기 장시간 신호 대 잡음비가 제1 기설정된 임계값을 초과하고 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 제2 기설정된 임계값을 초과하는 경우, 상기 노이즈 타입 마크를 음소거로 설정하는 것을 포함하는 것인, VAD 방법.
활성화 음성 검측(Voice Activity Detection; VAD) 방법으로서,
획득수단에 의해, 제1 특징세트 중의 적어도 하나의 제1 유형의 특징 파라미터, 제2 특징세트 중의 적어도 하나의 제2 유형의 특징 파라미터 및 적어도 두개의 기존 VAD 판단결과들을 획득하는 단계(S102) - 상기 제1 유형의 특징 파라미터 및 상기 제2 유형의 특징 파라미터는 VAD 검측에 이용되는 특징 파라미터임 - ;
검측수단에 의해, 상기 제1 유형의 특징 파라미터, 상기 제2 유형의 특징 파라미터 및 상기 적어도 두개의 기존 VAD 판단결과들에 따라, 연합 VAD 판단결과를 얻도록 VAD를 수행하는 단계(S104)
를 포함하고,
상기 제2 특징세트 중의 상기 제2 유형의 특징 파라미터는 노이즈 타입 마크, 장시간 평활화한 평균 주파수영역 신호 대 잡음비, 및 주파수영역 신호 대 잡음비를 포함하고,
상기 검측수단에 의해, 상기 제1 유형의 특징 파라미터, 상기 제2 유형의 특징 파라미터 및 상기 적어도 두개의 기존 VAD 판단결과들에 따라, VAD를 수행하는 단계(S104)는,
a) 상기 적어도 두개의 기존 VAD 판단결과들로부터 하나의 VAD 판단결과를 연합 VAD의 초기값으로서 선택하는 단계;
b) 상기 노이즈 타입 마크가 노이즈 타입이 음소거라고 지시하고, 상기 주파수영역 신호 대 잡음비가 기설정된 임계값을 초과하며 상기 초기값이 비 활성화 음성 프레임을 지시하는 경우, 상기 초기값으로서 선택되지 않은 상기 적어도 두개의 기존 VAD 판단결과들 중 다른 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하고, 그렇지 않으면 단계 c)를 수행하는 단계 - 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 상기 다른 VAD 판단결과는 VAD 판단 결과가 활성화 음성 프레임 또는 비 활성화 음성 프레임이라고 지시하는데 이용됨 - ;
c) 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 기설정된 임계값 미만인 경우 또는 상기 노이즈 타입이 음소거가 아닌 경우, 단계 d)를 수행하고, 그렇지 않으면 단계 a)에서 선택된 상기 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하는 단계;
d) 기설정된 조건이 만족되면, 상기 적어도 두개의 기존 VAD 판단결과들에 논리 OR 연산을 수행하고 상기 논리 OR 연산의 결과를 상기 연합 VAD 판단결과로서 이용하고, 그렇지 않으면 단계 e)를 수행하는 단계; 및
e) 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 다른 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하는 단계
를 포함하는, VAD 방법.
제6항에 있어서,
상기 제1 특징세트 중의 상기 제1 유형의 특징 파라미터는, 연속되는 활성화 음성 프레임의 수량, 모든 서브밴드들의 평균 총 신호 대 잡음비, 또는 조성 신호 마크 중의 적어도 하나를 포함하고, 상기 모든 서브밴드들의 평균 총 신호 대 잡음비는 미리 결정된 수량의 프레임에 대한 모든 서브밴드들에 걸친 신호 대 잡음비의 평균값인 것인, VAD 방법.
제7항에 있어서,
상기 기설정된 조건은,
조건 1: 모든 서브밴드들의 평균 총 신호 대 잡음비가 제1 임계값을 초과;
조건 2: 상기 모든 서브밴드들의 평균 총 신호 대 잡음비가 제2 임계값을 초과하고, 상기 연속되는 활성화 음성 프레임의 수량이 기설정된 임계값을 초과; 또는
조건 3: 조성 신호 마크가 조성 신호를 지시
중 적어도 하나를 포함하는 것인, VAD 방법.
제6항에 있어서,
상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비 및 상기 노이즈 타입 마크는,
현재 프레임의 바로 앞 프레임의 연합 VAD 판단결과 또는 상기 바로 앞 프레임에 대응되는 적어도 두개의 기존 VAD 판단결과들 중의 임의의 하나의 VAD 판단결과, 상기 바로 앞 프레임의 제1 기설정된 시간 구간 내의 장시간 활성화 음성 프레임의 평균 에너지 및 상기 바로 앞 프레임의 장시간 배경 노이즈의 평균 에너지에 따라, 상기 현재 프레임의 장시간 활성화 음성 프레임의 평균 에너지 및 상기 현재 프레임의 장시간 배경 노이즈의 평균 에너지를 계산하는 방식;
상기 현재 프레임의 제2 기설정된 시간 구간 내의 장시간 활성화 음성 프레임의 평균 에너지 및 장시간 배경 노이즈의 평균 에너지에 따라, 상기 현재 프레임의 상기 제2 기설정된 시간 구간 내의 장시간 신호 대 잡음비를 계산하는 방식;
상기 현재 프레임의 상기 연합 VAD 판단결과 또는 상기 바로 앞 프레임에 대응되는 적어도 두개의 기존 VAD 판단결과들 중의 임의의 하나의 VAD 판단결과 및 상기 바로 앞 프레임의 평균 주파수영역 신호 대 잡음비에 따라, 상기 현재 프레임의 제3 기설정된 시간 구간 내의 장시간 평활화한 평균 주파수영역 신호 대 잡음비를 계산하는 방식; 및
상기 장시간 신호 대 잡음비 및 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비에 따라 상기 노이즈 타입 마크를 결정하는 방식
에 의해 결정되는 것인, VAD 방법.
제9항에 있어서,
상기 장시간 신호 대 잡음비 및 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비에 따라 상기 노이즈 타입 마크를 결정하는 것은,
상기 노이즈 타입 마크를 비 음소거로 설정하고, 상기 장시간 신호 대 잡음비가 제1 기설정된 임계값을 초과하고 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 제2 기설정된 임계값을 초과하는 경우, 상기 노이즈 타입 마크를 음소거로 설정하는 것을 포함하는 것인, VAD 방법.
활성화 음성 검측(Voice Activity Detection; VAD) 장치로서,
제1 특징세트 중의 적어도 하나의 제1 유형의 특징 파라미터, 제2 특징세트 중의 적어도 하나의 제2 유형의 특징 파라미터 및 적어도 두개의 기존 VAD 판단결과들을 획득하도록 구성되는 획득수단(20) - 상기 제1 유형의 특징 파라미터 및 상기 제2 유형의 특징 파라미터는 VAD 검측에 이용되는 특징 파라미터임 - ;
상기 제1 유형의 특징 파라미터, 상기 제2 유형의 특징 파라미터, 상기 적어도 두개의 기존 VAD 판단결과들에 따라, 연합 VAD 판단결과를 얻기 위해 VAD를 수행하도록 구성되는 검측수단(22)을
를 포함하고,
상기 제2 특징세트 중의 상기 제2 유형의 특징 파라미터는 노이즈 타입 마크, 장시간 평활화한 평균 주파수영역 신호 대 잡음비, 및 주파수영역 신호 대 잡음비를 포함하고,
상기 검측수단(22)은,
a) 상기 적어도 두개의 기존 VAD 판단결과들로부터 하나의 VAD 판단결과를 연합 VAD의 초기값으로서 선택하는 것;
b) 상기 노이즈 타입 마크가 노이즈 타입은 음소거라고 지시하고, 상기 주파수영역 신호 대 잡음비가 기설정된 임계값을 초과하며 상기 초기값이 비 활성화 음성 프레임을 지시하는 경우, 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 다른 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하고, 그렇지 않으면 단계 c)를 수행하는 것 - 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 상기 다른 VAD 판단결과는 VAD 판단 결과가 활성화 음성 프레임 또는 비 활성화 음성 프레임이라고 지시하는데 이용됨 - ;
c) 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 기설정된 임계값 미만인 경우 또는 상기 노이즈 타입이 음소거가 아닌 경우, 단계 d)를 수행하고, 그렇지 않으면 단계 a)에서 선택된 상기 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하는 것;
d) 기설정된 조건이 만족되면, 상기 적어도 두개의 기존 VAD 판단결과들에 논리 OR 연산을 수행하고 상기 논리 OR 연산의 결과를 상기 연합 VAD 판단결과로서 이용하고, 그렇지 않으면 단계 e)를 수행하는 것; 및
e) 상기 노이즈 타입 마크가 상기 노이즈 타입은 음소거라고 지시하면, 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 다른 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하고, 그렇지 않으면 단계 a)에서 선택된 상기 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하는 것
으로 VAD를 수행하도록 구성되는 것인, VAD 장치.
활성화 음성 검측(Voice Activity Detection; VAD) 장치로서,
제1 특징세트 중의 적어도 하나의 제1 유형의 특징 파라미터, 제2 특징세트 중의 적어도 하나의 제2 유형의 특징 파라미터 및 적어도 두개의 기존 VAD 판단결과들을 획득하도록 구성되는 획득수단(20) - 상기 제1 유형의 특징 파라미터 및 상기 제2 유형의 특징 파라미터는 VAD 검측에 이용되는 특징 파라미터임 - ;
상기 제1 유형의 특징 파라미터, 상기 제2 유형의 특징 파라미터, 상기 적어도 두개의 기존 VAD 판단결과들에 따라, 연합 VAD 판단결과를 얻기 위해 VAD를 수행하도록 구성되는 검측수단(22)을
를 포함하고,
상기 제2 특징세트 중의 상기 제2 유형의 특징 파라미터는 노이즈 타입 마크, 장시간 평활화한 평균 주파수영역 신호 대 잡음비, 및 주파수영역 신호 대 잡음비를 포함하고,
상기 검측수단(22)은,
a) 상기 적어도 두개의 기존 VAD 판단결과들로부터 하나의 VAD 판단결과를 연합 VAD의 초기값으로서 선택하는 것;
b) 상기 노이즈 타입 마크가 노이즈 타입은 음소거라고 지시하고, 상기 주파수영역 신호 대 잡음비가 기설정된 임계값을 초과하며 상기 초기값이 비 활성화 음성 프레임을 지시하는 경우, 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 다른 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하고, 그렇지 않으면 단계 c)를 수행하는 것 - 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 상기 다른 VAD 판단결과는 VAD 판단 결과가 활성화 음성 프레임 또는 비 활성화 음성 프레임이라고 지시하는데 이용됨 - ;
c) 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 기설정된 임계값 미만인 경우 또는 상기 노이즈 타입이 음소거가 아닌 경우, 단계 d)를 수행하고, 그렇지 않으면 단계 a)에서 선택된 상기 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하는 것;
d) 기설정된 조건이 만족되면, 상기 적어도 두개의 기존 VAD 판단결과들에 논리 OR 연산을 수행하고 상기 논리 OR 연산의 결과를 상기 연합 VAD 판단결과로서 이용하고, 그렇지 않으면 단계 e)를 수행하는 것; 및
e) 상기 적어도 두개의 기존 VAD 판단결과들 중 상기 초기값으로서 선택되지 않은 다른 VAD 판단결과를 상기 연합 VAD 판단결과로서 선택하는 것
으로 VAD를 수행하도록 구성되는 것인, VAD 장치.
제11항 또는 제12항에 있어서
상기 획득수단(20)은,
연속되는 활성화 음성 프레임의 수량, 모든 서브밴드들의 평균 총 신호 대 잡음비, 또는 조성 신호 마크 중의 적어도 하나를 포함하는 상기 제1 특징세트 중의 상기 제1 유형의 특징 파라미터를 획득하도록 구성되는 제1 획득유닛(200) - 상기 모든 서브밴드들의 평균 총 신호 대 잡음비는 미리 결정된 수량의 프레임에 대한 모든 서브밴드들에 걸친 신호 대 잡음비의 평균값임 - ; 및
노이즈 타입 마크, 장시간 평활화한 평균 주파수영역 신호 대 잡음비, 연속되는 노이즈 프레임의 수량, 또는 주파수영역 신호 대 잡음비 중의 적어도 하나를 포함하는 상기 제2 특징세트 중의 상기 제2 유형의 특징 파라미터를 획득하도록 구성되는 제2 획득유닛(202)을 포함하는 것인, VAD 장치.
제13항에 있어서
상기 기설정된 조건은,
조건 1: 모든 서브밴드들의 평균 총 신호 대 잡음비가 제1 임계값을 초과;
조건 2: 상기 모든 서브밴드들의 평균 총 신호 대 잡음비가 제2 임계값을 초과하고, 상기 연속되는 활성화 음성 프레임의 수량이 기설정된 임계값을 초과; 및
조건 3: 조성 신호 마크가 조성 신호를 지시
중 적어도 하나를 포함하는 것인, VAD 장치.
제13항에 있어서,
상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비 및 상기 노이즈 타입 마크는,
현재 프레임의 바로 앞 프레임의 연합 VAD 판단결과 또는 상기 바로 앞 프레임에 대응되는 적어도 두개의 기존 VAD 판단결과들 중의 임의의 하나의 VAD 판단결과, 상기 바로 앞 프레임의 제1 기설정된 시간 구간 내의 평균 활성화 음성 프레임 에너지 및 상기 바로 앞 프레임의 평균 배경 노이즈 에너지에 따라, 상기 현재 프레임의 평균 활성화 음성 프레임 에너지 및 상기 현재 프레임의 평균 배경 노이즈 에너지를 계산하는 방식;
상기 현재 프레임의 제2 기설정된 시간 구간 내의 평균 활성화 음성 프레임 에너지 및 평균 배경 노이즈 에너지에 따라, 상기 현재 프레임의 상기 제2 기설정된 시간 구간 내의 장시간 신호 대 잡음비를 계산하는 방식;
상기 현재 프레임의 상기 연합 VAD 판단결과 또는 상기 바로 앞 프레임에 대응되는 적어도 두개의 기존 VAD 판단결과들 중의 임의의 하나의 VAD 판단결과 및 상기 바로 앞 프레임의 주파수영역 신호 대 잡음비에 따라, 상기 현재 프레임의 제3 기설정된 시간 구간 내의 장시간 평활화한 평균 주파수영역 신호 대 잡음비를 계산하는 방식; 및
상기 장시간 신호 대 잡음비 및 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비에 따라 상기 노이즈 타입 마크를 결정하는 방식
에 의해 결정되는 것이고,
상기 장시간 신호 대 잡음비 및 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비에 따라 상기 노이즈 타입 마크를 결정하는 것은,
상기 노이즈 타입 마크를 비 음소거로 설정하고, 상기 장시간 신호 대 잡음비가 제1 기설정된 임계값을 초과하고 상기 장시간 평활화한 평균 주파수영역 신호 대 잡음비가 제2 기설정된 임계값을 초과하는 경우, 상기 노이즈 타입 마크를 음소거로 설정하는 것을 포함하는 것인, VAD 장치.