KR101831078B1

KR101831078B1 - 보이스 활성화 탐지 방법 및 장치

Info

Publication number: KR101831078B1
Application number: KR1020167005654A
Authority: KR
Inventors: 창바오 주; 하오 위안
Original assignee: 지티이 코포레이션
Priority date: 2013-08-30
Filing date: 2014-05-16
Publication date: 2018-04-04
Also published as: WO2014177084A1; JP6412132B2; CN104424956A; EP3040991A4; JP2016529555A; US9978398B2; CN104424956B9; PL3040991T3; KR20160039677A; CN104424956B; US20160203833A1; EP3040991A1; EP3040991B1

Abstract

본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공한다. 관련 VAD 탐지가 정확하지 않은 문제를 해결하였다. 상기 방법에는 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 표시와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 것이 포함된다. 본 발명의 실시예에서 제공하는 기술적 수단은 음성 서비스에 적용되며, 높은 정확성의 VAD 판단을 구현할 수 있다.

Description

보이스 활성화 탐지 방법 및 장치{Voice Activation Detection Method and Device}

본 발명은 통신 분야에 관한 것으로서, 특히 보이스 활성화 탐지 방법 및 장치에 관한 것이다.

정상적인 음성 통화에 있어서, 유저는 때로는 말을 하고 때로는 들으며, 이때 통화 과정에서 보이스 비활성화 단계가 나타나며, 정상적인 상황 하에서 통화 쌍방의 보이스 비활성화 단계는 통화 쌍방의 총 보이스 코딩 시간의 50% 이상을 차지한다. 보이스 비활성화 단계에는 단지 배경 노이즈만 존재하고, 배경 노이즈에는 일반적으로 아무런 유용한 정보가 포함되지 않는다. 이러한 사실을 이용하여, 보이스 주파수 신호 처리 과정에서, 보이스 활성화 탐지(VAD) 알고리즘을 통하여 보이스 활성화와 보이스 비활성화를 탐지하고, 또한 서로 다른 방법을 이용하여 각각 처리를 수행한다. 현재의 여러 가지 보이스 코딩 표준, 예를 들면 AMR, AMR-WB 등은 모두 VAD 기능을 지원한다. 효율 방면에서, 이러한 인코더의 VAD는 모든 전형적인 배경 노이즈 하에서 모두 아주 훌륭한 성능에 도달할 수 있는 것이 아니다. 특히 안정적이지 않은 노이즈 하에서, 이러한 인코더의 VAD 효율은 모두 아주 낮다. 그리고 음악 신호에 대하여, 이러한 VAD는 때로는 탐지 에러가 발생하여 상응한 처리 알고리즘의 품질을 현저하게 낮춘다. 그리고, 관련된 VAD 기술은 판단이 정확하지 않은 상황이 나타나는 바, 예를 들면 어떤 VAD 기술은 음성 단계 전의 몇 프레임에 대한 탐지가 정확하지 못하고, 어떤 것은 음성 단계 후의 몇 프레임에 대한 탐지가 정확하지 못하다.

본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공하여 관련 VAD 탐지가 정확하지 않은 문제를 해결하는 것을 목적으로 한다.

보이스 활성화 탐지 방법에 있어서,

연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 것이 포함된다.

바람직하게는, 상기 방법에는 또한,

현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 단계;

서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하는 단계;

주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하는 단계;

조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하는 단계;가 포함된다.

바람직하게는, 상기 방법에는 또한,

전 프레임에 의하여 추정한 배경 노이즈 에너지를 취득하는 단계;

상기 전 프레임에 의하여 추정한 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하는 단계;가 포함된다.

바람직하게는, 상기 전 프레임에 의하여 추정한 배경 노이즈 에너지를 취득하는 단계에는,

전 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 단계;

전 프레임 서브밴드 신호에 의하여 전 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터의 값을 산출하는 단계;

전 프레임 주파수 스펙트럼 진폭값에 의하여 전 프레임 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터를 산출하는 단계;

전 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 조성 특징 파라미터에 의하여 전 프레임의 배경 노이즈 아이디를 산출하는 단계;

전 프레임의 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 전 프레임의 조성 신호 아이디를 산출하는 단계;

전 프레임의 배경 노이즈 아이디, 프레임 에너지 파라미터, 조성 신호 아이디, 전 제2 프레임의 전 대역 배경 노이즈 에너지에 의하여 전 프레임 전 대역 배경 노이즈 에너지를 취득하는 단계;가 포함된다.

바람직하게는, 상기 프레임 에너지 파라미터는 각 서브밴드 신호 에너지의 가중 중첩 값 또는 직접 중첩 값이며;

상기 스펙트럼 무게중심 특징 파라미터는 전부 또는 일부 서브밴드 신호 에너지의 가중 누적 값과 비가중 누적 값의 비율, 또는 상기 비율에 대하여 평활 필터링을 진행하여 취득한 값이며;

상기 시간 도메인 안정도 특징 파라미터는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값의 분산 또는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값 평방의 원하는 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;

상기 스펙트럼 편평도 특징 파라미터는 하나 또는 다수 주파수 스펙트럼 진폭 값의 기하 평균수와 산술 평균수의 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;

조성 특징 파라미터는 전후 두 프레임 신호의 프레임 내 주파수 스펙트럼 차분 계수의 관련 계수를 계산하여 취득하거나, 또는 계속하여 상기 관련 계수에 대하여 평활 필터링을 진행하여 취득하는 것이다.

바람직하게는, 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하는 단계에는,

A) 현재 프레임 신호가 비조성 신호이고, 하나의 조성 프레임 아이디 tonality_ frame으로 현재 프레임이 조성 프레임인지 여부를 지시하는 단계;

B) 상기 조건 중의 하나를 만족시킬 때 C) 단계를 실행하고, 하기 두 조건을 모두 만족시키지 않을 때 D) 단계를 실행하는 단계;

조건 1: 조성 특징 파라미터

의 값이 대응되게 설정된 제1 조성 특징 파라미터 판단 역치보다 크며;

조건 2: 조성 특징 파라미터 평활 필터링 후

의 값이 대응되게 설정된 제2 조성 특징 파라미터 역치보다 크며;

C) 현재 프레임이 조성 프레임인지 여부를 판단하고, 또한 판단 결과에 의하여 상기 조성 프레임 아이디의 값을 설정하는 단계;

하기 전부 조건을 만족시킬 때 상기 현재 프레임을 조성 프레임으로 판단하고, 임의 하나 또는 다수의 하기 조건을 만족시키지 않을 때, 상기 현재 프레임을 비 조성 프레임으로 판단하고 D) 단계를 실행하는 바,

조건 1: 상기 시간 도메인 안정도 특징 파라미터 값이 하나의 설정된 제1 시간 도메인 안정도 판단 역치보다 작으며;

조건 2: 스펙트럼 무게중심 특징 파라미터 값이 하나의 설정된 제1 스펙트럼 무게중심 판단 역치보다 크며;

조건 3: 각 서브밴드의 스펙트럼 편평도 특징 파라미터가 모두 각각 대응되는 사전 설정된 스펙트럼 편평도 판단 역치보다 작을 때, 현재 프레임을 조성 프레임으로 판단하고, 상기 조성 프레임 아이디의 값을 설정하며;

D) 상기 조성 프레임 아이디에 의하여 조성 정도 특징 파라미터

에 대하여 업데이트를 수행하는 바, 그 중에서 조성 정도 파라미터

초기 값은 보이스 활성화 탐지가 시작될 때 설정되는 단계;

E) 업데이터된 상기 조성 정도 특징 파라미터

에 의하여 상기 현재 프레임이 조성 신호인지 여부를 판단하고, 또한 조성 아이디 tonality _flag의 값을 설정하는 단계;가 포함된다.

바람직하게는, 현재의 조성 프레임 아이디가 상기 현재 프레임이 조성 프레임이라는 것을 지시할 때, 하기 표현식을 이용하여 조성 정도 특징 파라미터

에 대하여 업데이트를 진행하는 바,

이며,

그 중에서,

은 전 프레임의 조성 정도 특징 파라미터이고, 이의 초기 값 범위는 [0，1]이며,

는 감쇄 계수이고,

는 누적 계수이다.

바람직하게는, 조성 정도 특징 파라미터

가 설정된 조성 정도 역치보다 클 때, 현재 프레임을 조성 신호로 판단하며;

조성 정도 특징 파라미터

가 설정된 조성 정도 역치보다 작거나 같을 때, 현재 프레임을 비조성 신호로 판단한다.

바람직하게는, 상기 방법에는 또한,

현재 프레임이 제2 프레임 및 제2 프레임 후의 음성 프레임일 때, 전 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하는 단계;

연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하는 단계;

vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하는 단계;가 포함된다.

바람직하게는, 현재 프레임이 제1 프레임일 때, 상기 연속 보이스 활성화 프레임 수량은 0이다.

바람직하게는, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시하며, 상기 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계에는,

하기 임의의 하나의 조건을 만족시킬 때, 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 연합 VAD 판단 결과로 하고, 하기 임의의 하나의 조건을 만족시키지 않을 때, 적어도 두 가지 기존의 VAD의 판단 결과 중의 하나의 기존의 VAD 판단 결과를 선택하여 연합 VAD 판단 결과로 하는 바, 그 중에서, 상기 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는 바,

조건 1: 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;

조건 2: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;

조건 3: 조성 신호 아이디가 1로 설정된다.

하기 임의의 하나의 조건을 만족시킬 때, 상기 연합 VAD 판단 결과는 1이리고, 하기 임의의 하나의 조건을 만족시키지 않을 때, 상기 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 출력으로 하며, 그 중에서, 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는 바,

조건 1: 적어도 두 개의 기존의 VAD 편단 결과가 모두 1이며;

조건 2: 적어도 두 개의 기존의 VAD 편단 결과의 합이 연합 판단 역치보다 크고, 또한 조성 신호 아이디가 1로 설정되며;

조건 3: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며, 조성 신호 아이디가 1으로 설정된다.

본 발명의 실시예에서는 또한 보이스 활성화 탐지 장치를 제공하는 바,

연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하도록 설정되는 연합 판단 모듈이 포함된다.

바람직하게는, 상기 장치에는 또한 파라미터 취득 모듈이 포함되고, 상기 파라미터 취득 모듈에는,

현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하도록 설정되는 제1 파라미터 취득 유닛;

서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하도록 설정되는 제2 파라미터 취득 유닛;

주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하도록 설정되는 제3 파라미터 취득 유닛;

조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하도록 설정되는 제4 파라미터 취득 유닛;이 포함된다.

바람직하게는, 상기 파라미터 취득 모듈에는 또한,

전 프레임에 의하여 추정한 배경 노이즈 에너지를 취득하도록 설정되는 제5 파라미터 취득 유닛;

상기 전 프레임에 의하여 추정한 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하도록 설정되는 제6 파라미터 취득 유닛;이 포함된다.

바람직하게는, 상기 파라미터 취득 모듈에는 또한,

현재 프레임이 제1 프레임일 때, 상기 연속 보이스 활성화 프레임 수량을 0으로 확정하며;

현재 프레임이 제2 프레임 및 제2 프레임 후의 음성 프레임일 때, 전 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하며;

연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하며;

vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하도록 설정되는 제7 파라미트 취득 유닛이 포함된다.

본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공하는 바, 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하여, 여러 가지 파라미터에 의하여 VAD 판단을 진행하는 것을 구현하고, VAD 판단의 정확성을 향상시키며, VAD 탐지가 정확하지 않은 문제를 해결하였다.

도1은 본 발명의 실시예1에서 제공되는 보이스 활성화 탐지 방법으 흐름도.
도2는 본 발명의 실시예2에서 제공되는 보이스 활성화 탐지 방법으 흐름도.
도3은 본 발명의 실시예4에서 제공되는 보이스 활성화 탐지 장치의 구조도.
도4는 도3 중의 파라미터 취득 모듈(302)의 구조도.

VAD 탐지가 정확하지 않은 문제를 해결하기 위하여, 본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공한다. 아래, 도면을 참조하여 본 발명의 실시예에 대하여 설명을 진행하도록 한다. 충돌되지 않는 상황 하에서, 본 출원의 실시예 및 실시예 중의 특징은 상호 결합될 수 있다.

아래, 도면을 참조하여 본 발명의 실시예에 대하여 설명을 진행하도록 한다.

본 발명의 실시예에서는 보이스 활성화 탐지 방법을 제공하여, 해당 방법을 이용하여 VAD를 완성하는 흐름은 도1에 도시된 바와 같으며, 하기 단계가 포함된다.

101 단계: 적어도 두 가지의 기존의 VAD 판단 결과를 취득하며;

102 단계: 현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하며;

본 발명의 실시예에서는 프레임 길이가 20ms, 샘플링 레이트가 32kHz인 오디오 스트림을 예로 들어 설명을 진행하도록 한다. 기타 프레임 길이와 샘플링 레이트 조건 하에서, 본 발명의 실시예에서 제공하는 보이스 활성화 탐지 방법은 마찬가지로 적용된다.

현재 프레임 시간 도메인 신호를 필터 뱅크 유닛에 입력하여 대역 필터링 계산을 진행하여 필터 뱅크 서브밴드 신호를 취득하였다.

본 발명의 실시예에서는 40 채널의 필터 뱅크를 사용하며, 본 발명의 실시예에서 제공되는 기술적 방안은 기타 채널 수량을 이용하는 필터 뱅크에도 마찬가지로 적용된다.

현재 프레임 시간 도메인 신호를 40 채널의 필터 뱅크에 입력하고 대역 필터링 계산을 진행하여 16개 타임 포인트 상의 40개 서브밴드의 필터 뱅크 서브밴드 신호

,

을 취득하는 바, 그 중에서, k는 필터 뱅크 서브밴드의 인텍스이고, 이의 값은 계수에 대응되는 서브밴드를 표시하며, l은 각 서브밴드의 타임 샘플링 포인트 인덱스로서, 이의 구현 단계는 하기와 같다.

1. 최근 640개 오디오 신호 샘플 값을 데이터 버퍼 중에 저장한다.

2. 데이터 버퍼 중의 데이터를 40개 위치 이동시켜, 가장 이른 40개 샘플링 값을 데이터 버퍼에서 제거하고, 또한 40개 새로운 샘플링 포인트를 0 내지 39의 위치에 저장한다.

버퍼 중의 데이터 x에 창 계수를 곱하여 어레이 z를 취득하는 바, 계산 표현식은 하기와 같다.

그 중에서,

는 필터 뱅크 창 계수이다.하기 의사코드 계산을 이용하여 하나의 80 포인트의 데이터 u를 취득한다.

for（n=0; n<80; n++)

{u[n] = 0;

for (j=0; j<8; j++)

{

}

하기 방정식을 이용하여 어레이 r과 i를 산출한다.

하기 방정식을 이용하여 첫번째 타임 샘플링 포인트 상의 40개 복수 서브밴드 샘플링 값을 산출하며,

, 그 중에서,

와

는 각각 필터 뱅크 서브밴드 신호 X의 제l번째 타임 샘플링 포인트 상 계수의 실수부와 허수부이고, 이의 계산 표현식은 하기와 같다.

3. 본 프레임의 모든 데이터가 모두 필터 뱅크의 필터링을 거치기까지 2의 계산 과정을 반복하며, 최종 출력 결과가 바로 필터 뱅크 서브밴드 신호

이다.

4. 상기 계산 과정을 마친 후, 40개 서브밴드의 16개 타임 샘플링 포인트의 필터 뱅크 서브밴드 신호

,

을 취득한다.

그 후 필터 뱅크 서브밴드 신호에 대하여 시간 주파수 변환을 진행하고, 주파수 스펙트럼 진폭값을 산출한다.

그 중에서, 전부 필터 뱅크 서브밴드 또는 일부 핑터 뱅크 서브밴드에 대하여 시간 주파수 변환을 진행하고 주파수 스펙트럼 진폭값을 진행하면, 모두 본 발명의 실시혜를 구현할 수 있다. 본 발명의 실시예의 상기 시간 주파수 변환 방법은 DFT, FFT, DCT 또는 DST일 수도 있다. 본 발명의 실시예가 DFT를 이용하는 것을 예로 들어 본 발명의 구현 방법을 설명하도록 한다. 계산 과정은 하기와 같다.

인덱스가 0 내지 9인 각 필터 뱅크 상의 16개 타임 샘플링 포인트에 대하여 16 포인트의 DFT 변환을 진행하여, 주파수 스펙트럼 해상도를 향상시키고, 또한 각 주파수 포인트의 진폭값을 계산하여 주파수 스펙트럼 진폭값

를 취득한다.

시간 주파수 변환 계산 표현식은 하기와 같다.

각 주파수 포인트의 진폭값을 계산하는 과정은 하기와 같다.

우선, 각 어레이

의 각 포인트 상의 에너지를 계산하는 바, 계산 표현식은 하기와 같다.

그 중에서

,

는 각각 주파수 스펙트럼 계수의

의 실수부와 허수부를 표시한다.

만일 k가 짝수이면, 하기 방정식을 이용하여 각 주파수 포인트 상의 주파수 스펙트럼 진폭값을 계산하는 바, 즉

만일 k가 홀수이면, 하기 방정식을 이용하여 각 주파수 포인트 상의 주파수 스펙트럼 진폭값을 계산하는 바, 즉

즉 시간 주파수 변환 후의 주파수 스펙트럼 진폭값이다.

103 단계: 서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하고, 주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하며;

프레임 에너지 파라미터는 종래 기술의 방법을 이용하여 취득할 수 있고, 바람직하게는, 각 파라미터는 하기 방법을 이용하여 취득하는 바, 즉

상기 프레임 에너지 파라미터는 각 서브밴드 신호 에너지의 가중 중첩 값 또는 직접 중첩 값이며;

1. 필터 뱅크 서브밴드 신호 X[ k,l ]에 의하여 각 필터 밴드 서브밴드의 에너지를 계산하는 바, 계산 표현식은 하기와 같다.

2. 일부 청각이 비교적 민감한 필터 뱅크 서브밴드 또는 모든 필터 뱅크 서브밴드의 에너지를 누적하여 프레임 에너지 파라미터를 취득한다.

그 중에서 심림 청각 모델에 의하면, 사람의 귀는 또 초저 주파수(예를 들면 100Hz 이하)와 높은 주파수(20kHz 이상)의 소리에 비교적 민감하지 않으며, 본 발명의 실시예에서는 주파수가 낮은델부터 높은데로 배열된 필터 뱅크 서브밴드에서, 두번째 서브밴드로부터 거꾸로 두번째까지 서브밴드가 청각이 비교적 민감한 주요한 필터 뱅크 서브밴드라고 여기고, 청각이 비교적 민감함 전부 또는 일부 필터 뱅크 서브밴드 에너지를 프레임 에너지 파라미터1에 누적하는 바, 계산 표현식은 하기와 같다.

그 중에서,

는 시작 서브밴드 인덱스이고, 이의 값 범위는 [0，6]이다.

서브밴드 인덱스를 종료하기 위해서는 이의 값이 6보다 크고, 서브밴드 총 수보다 작으면 된다.

프레임 에너지 파라미터1의 값에 프레임 에너지 프라미터1을 계산할 때 사용하지 않은 전부 또는 일부 필터 뱅크 서브밴드의 에너지의 가중치를 더하여 프레임 에너지 파라미터2를 취득하며, 이의 계산 표현식은 하기와 같다.

그 중에서

,

는 가중 비례 인자이고, 이의 값 범위는 각각 [0，1]이다. num _band는 서브밴드 총 수량이다.

상기 스펙트럼 무게중심 특징 파라미터는 전부 또는 일부 서브밴드 신호 에너지의 가중 누적 값과 비가중 누적 값의 비율이며;

각 필터 뱅크 서브밴드의 에너지에 의하여 스펙트럼 무게중심 특징 파라미터를 취득하며, 스펙트럼 무게중심 특징 파라미터는 필터 뱅크 서브밴드 에너지 가중하여 더한 합과 서브밴드 에니저의 직접 더한 합의 빌율을 구하거나 또는 기타 스펙트럼 무게중심 특징 파라미터 값에 대하여 평활 필터링을 진행하여 취득한다.

펙트럼 무게중심 특징 파라미터는 하기 서브 단계를 이용하여 구현할 수 있다.

1. 스펙트럼 무게중심 특징 파라미터 계산에 이용되는 서브 밴드 가군을 하기 표1과 같이 분할한다.

[표1]

2. 표1의 스펙트럼 무게중심 특징 파라미터 계산 구간 분할 방식과 하기 표현식을 이용하여, 두 개의 스펙트럼 무게중심 특징 파라미터 값을 순출하는 바, 각각 제1 구간 스펙트럼 무게중심 특징 파라미터와 제2 구간 스펙트럼 무게중심 특징 파라미터이다.

Delta1 , Delta2는 각각 하나의 작은 오프셋 값으로서, 값의 범위는 (0，1)이다. 그 중에서, k는 스펙트럼 무게중심 번호 인덱스이다.

3. 제1 구간의 스펙트럼 무게중심 특징 파라미터 sp _center[0]에 대하여 평활 필터링 연산을 진행하여 평활 스펙트럼 무게중심 특징 파라미터 값을 취득하는 바, 즉 제1 구간 스펙트럼 무게중심 특징 파라미터 값의 평활 필터링 갑이며, 계산 과정은 하기와 같다.

그 중에서, spc_sm_scale은 스펙트럼 무게중심 파라미터 평활 필터링 비례 인자로서, sp _center _- ₁[2]는 앞 프레임의 평활 스펙트럼 무게중심 특징 파라미터를 표시하는 바, 이의 초기 값은 1.6이다.

최신의 다수의 프레임 신호의 프레임 에너지 파라미터에 의하여 시간 도메인 안정도 특징 파라미터를 산출한다. 본 발명의 실시예에서는 최신의 40 프레임 신호의 프레임 에너지 파라미터에 의하여 시간 도메인 안정도 특징 파라미터를 산출한다. 계산 단계는 하기와 같다.

우선 최신 40 프레임 신호의 에너지 진폭값을 산출하는 바, 계산 방정식은 하기와 같다.

그 중에서, e_offset은 오프셋 값이고 이의 값 범위는 [0，0.1]이다.

그리고, 순차적으로 현재 프레임으로부터 앞 40 프레임의 인접된 두 프레임의 에너지 진폭값을 더하여 20개 진폭값 중첩값을 취득한다. 계산 방정식은 하기와 같다.

그 중에서, n=0일 때, Amp _t1 은 현재 프레임의 에너지 진폭값을 표시하고, n<0일 때, Amp _t1 은 현재 프레임 앞 n 프레임의 에너지 진폭값을 표시한다.

최종적으로, 최신 20개 진폭 중첩값의 변화 또는 평균 에너지의 비율을 계산하는 것을 통하여 시간 도메인 안정도 특징 파라미터

을 취득한다. 계산 표현식은 하기와 같다.

상기 스펙트럼 편평도 특징 파라미터는 일부 주파수 스펙트럼 진폭 값의 기하 평균수와 산술 평균수의 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;

주파수 스펙트럼 진폭값 X _DFT _{_AMP} 를 여러개의 주파수 대역으로 분할하고, 또한 현재 프레임 각 주파수 대역의 스펙트럼 편평도를 계산하여, 현재 프레임의 스펙트럼 편평도 특징 파라미터를 취득한다.

본 발명의 실시예에서는 주파수 스펙트럼 진폭값을 3개 주파수 대역으로 분할하고, 또한 이 3개 주파수 대역의 스펙트럼 편평도 특징을 계산하는 바, 이의 구현 단계는 하기와 같다.

우선, X _DFT _{_AMP} 를 하기 표2의 인덱스에 따라 3개의 주파수 대역으로 분할한다.

[표2]

그리고, 각 주파수 대역의 스펙트럼 편평도를 각각 계산하여, 현재 프레임의 스펙트럼 편평도 특징 파라미터를 취득한다. 현재 프레임의 각 스펙트럼 편평도 특징 파라미터 값의 계산 표현식은 하기와 같다.

최종적으로, 현재 프레임의 스펙트럼 편평도 특징 파라미터에 대하여 평활 필터링을 진행하여 현재 프레임의 최종 스펙트럼 편평도 특징 파라미터를 취득한다.

그 중에서, smr _scale은 평활 인자이고, 이의 값 범위는 [0.6, 1]이고, sSMR _-1 (k)는 앞 프레임의 제k번째 스펙트럼 편평도 특징 파라미터의 값이다.

조성 특징 파라미터는 전후 두 프레임 신호의 프레임 내 주파수 스펙트럼 차분 계수의 관련 값을 계산하여 취득하거나, 또는 계속하여 상기 관련 값에 대하여 평활 필터링을 진행하여 취득하는 것이다.

전후 두 프레임 신호의 프레임 내 주파수 스펙트럼 차분 계수의 관련 값의 계산 방법은 하기와 같다.

주파수 스펙트럼 진폭값에 의하여 조성 특징 파라미터를 산출하는 바, 그 중에서 조성 특징 파라미터는 전부 주파수 스펙트럼 진폭값 또는 일부 주파수 스펙트럼 진폭값에 의하여 산출할 수 있다.

이의 계산 단계는 하기와 같다.

1. 일부(8개 주파수 스펙트럼 계수 이상) 또는 전부 주파수 스펙트럼 진폭값과 인접된 주파수 스펙트럼 진폭값에 대하여 차분 연산을 진행하여, 차분 결과가 0보다 작은 위치 0에 의하여 한 그룹의 음이 아닌 주파수 스펙트럼 차분 계수를 취득한다.

본 발명의 실시예에서는 위치 인덱스가 3 내지 61인 주파수 포인트 계수를 예로 들어 조성 특징 파라미터를 계산한다. 과정은 하기와 같다.

주파수 포인트3 내지 주파수 포인트 61의 인접된 주파수 스펙트럼 진폭값에 대하여 차분 연산을 진행하는 바, 표현식은 하기와 같다.

spec_ dif 중의 0보다 작은 변수를 0으로 설정한다.

2. 1 단계에서 취득한 현재 프레임 음이 아닌 주파수 스펙트럼 차분 계수와 전 프레임 음이 아닌 주파수 스펙트럼 차분 계수의 관련 계수를 계산하여 제1 조성 특징 파라미터를 취득한다. 계산 표현식은 하기와 같다.

그 중에서, pre_spec_ dif는 전 프레임의 음이 아닌 주파수 스펙트럼 차분 계수이다.

3. 제2 조성 특징 파라미터 값에 대하여 평활 연산을 진행하여 제2 조성 특징 파라미터 값을 취득한다. 계산 방정식은 하기와 같다.

tonal_ scale은 조성 특징 파라미터 평활 인자이고, 이의 값 범위는 [0.1，1]이며, tonality_ rate2 _-1 은 전 프레임의 제2 조성 특징 파라미터 값으로서, 이의 초기 값 범위는 [0，1]이다.

104 단계: 조성 신호 아이디를 계산하는 바, 본 발명의 실시예3 중의 조성 신호 계산 과정을 참조하면 된다.

105 단계: 전 프레임에 의하여 추정한 전 대역 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 평균 전 대역 신호대잡음비를 산출한다.

전 프레임의 전 대역 배경 노이즈 에너지 취득 방법은 실시예2를 참조할 수 있다.

추정한 앞 프레임 전 대역 배경 노이즈 에너지(실시예2 참조)와 현재 프레임의 프레임 에너지 파라미터에 의하여 전 대역 신호대잡음비 SNR2를 산출한다.

그 중에서, Et_bg는 추정한 앞 프레임 전 대역 배경 노이즈 에너지이고, 앞 프레임 전 대역 배경 노이즈 에너지를 취득하는 원리와 현재 프레임의 전 대역 배경 노이즈 에너지를 취득하는 원리는 같다.

최신 다수의 프레임의 전 대역 신호대잡음비 SNR2의 평균치를 구하여 평균 전 대역 신호대잡음비 SNR2_lt_ave를 취득한다.

106 단계: 연속 보이스 활성화 프레임의 수량을 취득하며;

연속 보이스 활성화 프레임 수량 continuous_speech_num2는 VAD 판단 결과에 의하여 계산을 진행할 수 있고, 초기 값이 0으로 설정하고, VAD 아이디 vad_flag가 1로 설정될 때, continuous_speech_num2에 1을 더하며; vad_flag가 0으로 판단될 때, continuous_speech_num2를 0으로 설정한다.

107 단계: 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하며;

본 단계에서, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시한다. 설명하여야 할 것은, 1, 0 값으로 보이스 활성화와 보이스 비활성화를 표시하는 것은 단지 한 가지 표기 방식이고, 기타 값 또는 기타 방식으로 표기하여 VAD 판단의 다른 결과를 구분하는 방안은 모두 본 발명의 실시예의 보호 범위에 속한다.

아래, 두 가지 구현 방식을 예로 들어 설명하는 바, 실시 과정은 기타 연합 방법이 있을 수 있다.

하기 임의의 하나의 조건을 만족시킬 때, 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 연합 VAD 판단 결과로 하고, 하기 임의의 하나의 조건을 만족시키지 않을 때, 적어도 두 가지 기존의 VAD의 판단 결과 중의 하나의 기존의 VAD 판단 결과를 선택하여 연합 VAD 판단 결과로 하는 바, 그 중에서, 상기 논리 연산은 "OR" 연산 또는 "AND" 연산이며;

조건 3: 조성 신호 아이디가 1로 설정된다.

상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시하며, 상기 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계에는,

하기 임의의 하나의 조건을 만족시킬 때, 상기 연합 VAD 판단 결과는 1이리고, 하기 적어도 하나의 조건을 만족시키지 않을 때, 상기 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 출력으로 하며, 그 중에서, 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는 바,

조건 1: 적어도 두 개의 기존의 VAD 편단 결과가 모두 1이며;

본 발명의 실시예 중의 101 단계 내지 106 단계는 엄격한 시간 순서를 가지는 것이 아니며(그 중의 102, 103과 104 단계의 시간을 거꾸로되어서는 아니됨), 본 발명의 실시예에서 연합 VAD 판단을 수행할 때 필요한 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과를 취득할 수 있는 방안이기만 하면, 모두 본 발명의 실시예의 보호 범위에 속한다.

아래, 도면을 참조하여 본 발명의 실시예2에 대하여 설명을 진행하도록 한다.

도2에 도시된 바와 같이, 전 프레임 배경 노이즈 에너지의 계산 방법을 제공하는 바, 전 프레임의 배경 노이즈 에너지는 평균 전 대역 신호대잡음비의 계산에 이용된다. 전 프레임의 배견 노으지 에니저를 계산하는 과정과 현재 프레임의 배경 노이즈 에너지를 계산하는 과정이 동일하며, 본 실시예에서는 현재 프레임의 전 대역 배경 노이즈 에너지의 계산 방법을 제공한다.

201 단계: 현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 바, 계산 방법은 102 단계를 참조하면 된다.

202 단계: 서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하고, 주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하는 바, 계산 방법은 103 단계를 참조하면 된다.

203 단계: 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 조성 특징 파라미터에 의하여 현재 프레임의 배경 노이즈 아이디를 산출한다. 배경 노이즈 아이디는 현재 프레임이 노이즈 신호인지 여부를 표시하며, 만일 노이즈 신호라면 배경 노이즈 아이디를 1로 설정하고, 그렇지 않으면 0으로 설정한다.

바람직하게는, 현재가 배경 노이즈 신호이고, 다음 프레임을 판단하는 조건이 성림된다면, 현재 프레임이 노이즈 신호가 아니라고 판단한다.

조건 1: 상기 시간 도메인 안정도 특징 파라미터

이 하나의 설정된 시간 도메인 안정도 판단 역치보다 크며;

조건 2: 제1 구간 스펙트럼 무게중심 특징 파라미터 값의 평활 필터링 값이 하나의 설정된 스펙트럼 무게중심 역치보다 크거, 또한 시간 도메인 안정도 특징 파라미터 값도 설정된 시간 도메인 특징 역치보다 크며;

조건 3: 조성 특징 파라미터 또는 이의 평활 필터링 후의 값이 하나의 설정된 조성 특징 파라미터 역치보다 크거, 또한 시간 도메인 안정도 특징 파라미터

값이 설정된 시간 도메인 특징 역치보다 크며;

조건 4: 각 서브밴드의 스펙트럼 편평도 특징 파라미터 또는 각자 평활 펄터링 후의 값이 모두 각자에 대응되는 설정된 스펙트럼 편편도 역치보다 작으며;

조건 5: 프레임 에너지 파라미터 E_t1의 값이 설정된 프레임 에너지 역치 E_thr1보다 크다고 판단한다.

본 실시예에서는 하나의 배경 노이즈 아이디 background_flag를 통하여 현재 프레임이 배경 노이즈인지 여부를 지시하며, 또한 현재 프레임이 배경 노이즈라고 판단하면 배경 노이지 아이디 background_flag를 1로 설정하고, 그렇지 않으면 배경 노이즈 아이디 background_flag를 0으로 설정하도록 약정한다.

시간 도메인 안정도 특징 파라미터, 스펙트럼 무게중심 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 조성 특징 파라미터, 현재 프레임 에너지 파라미터에 의하여 현재 프레임의 배경 노이즈 신호인지 여부를 탐지한다. 만일 노이즈 신호가 아니라면, 배경 노이즈 아이디 background_flag를 0으로 설정한다.

과정은 하기와 같다.

조건 1에 대하여, 시간 도메인 안정도 특징 파라미터

이 하나의 설정된 시간 도메인 안정도 판단 역치

보다 큰지 여부를 판단한다. 만일 크다면, 현재 프레임이 노이즈 신호가 아니라고 판단하고, background_flag를 0으로 설정한다. 본 발명의 실시예에서, 제1 시간 도메인 안정도 역치

의 값 범위는 [0.8, 1.6]이며;

조건 2에 대하여, 제1 구간 평활 스펙트럼 무게중심 특징 파라미터 값이 하나의 설정된 제1 스펙트럼 무게중심 역치

보다 큰지, 또한 시간 도메인 안정도 특징 파라미터 값

도 설정된 제2 시간 도메인 특징 역치

보다 큰지 여부를 판단한다. 만일 크다면, 현재 프레임이 노이즈 신호가 아니라고 판단하고, background_flag를 0으로 설정한다.

의 값 범위는 [1.6，4]이며;

의 값 범위는 [0，0.1]이다.

조건 3에 대하여, 조성 특징 파라미터

의 값이 제1 조성 특징 파라미터 역치

보다 큰지, 시간 도메인 안정도 특징 파라미터

의 값이 설정된 제3 시간 도메인 안정도 역치

보다 큰지 여부를 판단하여, 만일 상기 조건이 동시에 성림된다면, 현재 프레임이 배경 노이즈가 아니라고 판단하고, background_flag에 0 값을 부여한다.

값 범위는 [0.4，0.66]이다.

의 값 범위는 [0.06，0.3]이다.

조건 4에 대하여, 제1 편평도 특징 파라미터

의 값이 설정된 제1 평탄도 역치

보다 작은지 여부를 판단하고, 제2 평단도 특징 파라미터

의 값이 제2 평탄도 역치

보다 작은지 여부를 판단하며, 제3 평단도 특징 파라미터

의 값이 설정된 제3 평단도 역치

보다 작은지 여부를 판단한다. 만일 상기 조건이 동시에 성립되면, 현재 프레임이 배경 노이즈가 아니라고 판단한다. background_flag에 0 값을 부여한다. 역치

,

의 값 범위는 [0.88，0.98]이다. 제1 편평도 특징 파라미터

의 값이 설정된 제4 평단도 역치

보다 작은지 여부를 판단하고, 제2 평단도 특징 파라미터

의 값이 제5 평탄도 역치

보다 작은지 여부를 판단하며, 제2 평단도 특징 파라미터

의 값이 설정된 제6 평단도 역치

보다 작은지 여부를 판단한다. 만일 상기 임의의 하나가 성립되면, 현재 프레임이 배경 노이즈가 아니라고 판단한다. background_flag에 0 값을 부여한다.

,

의 값 범위는 [0.80，0.92]이다.

조건 5에 대하여, 프레임 에너지 파라미터

의 값이 설정된 프레임 에너지 역치

보다 큰지 여부를 판단하며, 만일 상기 조건이 성립되면, 현재 프레임이 배경 노이즈가 아니라고 판단한다. background_flag에 0 값을 부여한다.

프레임 에너지 파라미테의 동적 범위에 의하여 값을 취한다.

204 단계: 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 조성 신호 아이디를 산출하며; 본 단계는 본 발명의 실시예3 중의 조선 신호 계산 과정을 참조하면 된다.

205 단계: 프레임 에너지 파라미터, 배경 노이즈 아이디, 조성 신호 아이디에 의하여 현재 프레임 배경 노이즈 에너지를 산출한다. 단계는 하기와 같다.

1. 만일 현재 프레임의 배경 노이즈가 1로 표시되었다면, 배경 노이즈 에너지 누적 값

과 배경 노이즈 에너지 누계 프레임 수

를 업데이트시키는 바, 계산 방정식은 하기와 같다.

그 중에서,

은 전 프레임의 배경 노이즈 에너지 누적 값이고,

은 전 프레임이 산출한 배경 노이즈 에너지 누계 프레임 수이다.

2. 전 대역 배경 노이즈 에너지는 배경 노이즈 에너지 누적 값

과 누계 프레임 수

의 비율에 의하여 취득한다.

가 64와 같은지 판단하여, 만일

가 64와 같다면, 배경 노이즈 에너지 누적 값

과 누계 프레임 수

에 각각 0.75를 곱한다.

3. 조성 신호 아이디, 프레임 에너지 파라미터, 전 대역 배경 노으지 에너지의 값에 의하여 배경 노이즈 에너지 누적 값을 조정한다. 계산 과정은 하기와 같다.

만일 조성 아이디 tonality _flag가 1과 같과 또한 프레임 에너지 파라미터

의 값이 배경 노이즈 에너지 특징 파라미터

의 값에 하나의 게인 계수

를 곱한 것보다 작다면,

그러면,

그 중에서,

의 값 범위는 [0.3，1]이다.

아래, 본 발명의 실시예3에 대하여 설명을 진행하도록 한다.

본 발명의 실시예에서는 보이스 활성화 탐지 방법을 제공하는 바, 본 발명의 실시예1 및 실시예2에서 제공하는 기술적 수단과 결합하여 조성 신호 아이디를 계산할 수 있는 바, 하기 단계를 포함한다.

조성 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 스펙트럼 무게중심 특징 파라미터에 의하여 현재 프레임이 조성 신호인지 여부를 판단한다.

조성 신호인지 여부를 판단할 때, 하기 조작을 실행한다.

1. 하나의 조성 프레임 아이디 tonality_ frame으로 현재 프레임이 조성 프레임인지 여부를 지시하며;

본 발명의 실시예에서, tonality_ frame의 값이 1일 때 현재 프레임이 조성 프레임임을 표시하고, 0일 때 현재 프레임이 비조성 프레임임을 표시하며;

2. 조성 특징 파라미터

의 값 또는 이의 평활 필터링 후의

의 값이 대응되게 설정된 제1 조성 특징 판단 역치

또는 제2 조성 특징 판단 역치

보다 큰지 여부를 판단하여, 만일 상기 조건 중의 하나가 성립되면 3 단계로 진행하고, 그렇지 않으면 4 단계로 진행하며;

그 중에서,

의 값 범위는 [0.5，0.7]이고,

의 값 범위는 [0.7，0.99]이다.

3. 만일 시간 도메인 안정도 특징 파라미터 값

이 하나의 설정된 제1 시간 도메인 안정도 판정 역치

보다 작으며; 스펙트럼 무게중심 특징 파라미터 값

가 하나의 설정된 제1 스펙트럼 무게중심 판정 역치

보다 크며, 또한 각 서브밴드의 스펙트럼 평탄도 특징 파라미터가 모두 각자 대응되는 사전 설정된 스펙트럼 평탄도 역치보다 작은 바, 즉 제1 스펙트럼 평탄도 특징 파라미터

가 하나의 설정된 제1 스펙트럼 평탄도 판단 역치

보다 작거나, 또는 제2 스펙트럼 평탄도 파라미터

가 하나의 설정된 스펙트럼 평탄도 판단 역치

보다 작거나, 또는 제3 스펙트럼 평탄도 파라미터

가 하나의 설정된 제3 스펙트럼 평탄도 판단 역치

보다 작으며; 그러면 현재 프레임을 조성 프레임으로 판단하고, 조성 프레임 아미디 tonality_ frame의 값을 1로 설정하며, 그렇지 않으면 현재 프레임을 비조성 프레임으로 판단하고, 조성 프레임 아이디 tonality_ frame의 값을 0으로 설정한다. 그리고 계속하여 4 단계로 진행한다.

그 중에서,

의 값 범위는 [0.01，0.25]이고,

은 [1.0，1.8]이며,

은 [0.6，0.9]이고,

는 [0.6，0.9]이며,

은 [0.7，0.98]이다.

4. 조성 프레임 아이디 tonality_ frame에 의하여 조성 정도 특징 파라미터

초기 값은 보이스 활성화 탐지가 시작될 때 설정되고, 값 범위는 [0，1]이다. 서로 다른 상황 하에서, 조성 정도 특징 파라미터

의 계산 방법은 다르다.

만일 현재의 조성 프레임 아이디가 현재 프레임이 조성 프레임이라는 것을 지시하면, 하기 표현식을 이용하여 조성 정도 특징 파라미터

에 대하여 업데이트를 진행하는 바, 즉

그 중에서,

은 전 프레임의 조성 정소 특징 파라미터이다. 이의 초기 값의 값 범위는 [0，1]이다.

는 감쇄 계수이고, 이의 값 범위는 [0，1]이며;

는 누적 계수이고, 이의 값 범위는 [0，1]이다.

5. 업데이트된 조성 정도 특징 파라미터

에 의하여 현재 프레임이 조성 신호인지 여부를 판단하고, 또한 조성 아이디 tonality _flag의 값을 설정하며;

만일 조성 정도 특징 파라미터

가 설정된 조성 정도 역치보다 크면, 현재 프레임을 조성 신호로 판단하고, 그렇지 않으면 현재 프레임을 비조성 신호로 판단한다.

아래, 도면을 참조하여 본 발명의 실시예4에 대하여 설명을 진행하도록 한다.

본 발명의 실시예에서는 또한 보이스 활성화 탐지 장치를 제공하는 바, 도3에 도시된 바와 같이, 해당 장치에는,

연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하도록 설정되는 연합 판단 모듈(301)이 포함된다.

바람직하게는, 상기 장치에는 또한 파라미터 취득 모듈(302)이 포함되고, 상기 파라미터 취득 모듈(302)의 구조는 도4에 도시된 바와 같으며,

현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하도록 설정되는 제1 파라미터 취득 유닛(3021);

서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하도록 설정되는 제2 파라미터 취득 유닛(3022);

주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하도록 설정되는 제3 파라미터 취득 유닛(3023)(계산 방법은 본 발명의 실시예3을 참조할 수 있음);

조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하도록 설정되는 제4 파라미터 취득 유닛(3024);이 포함된다.

바람직하게는, 상기 파라미터 취득 모듈(302)에는 또한,

전 프레임에 의하여 추정한 배경 노이즈 에너지를 취득하도록 설정되는 제5 파라미터 취득 유닛(3025)(계산 방법은 본 발명의 실시예2를 참조할 수 있음);

상기 전 프레임에 의하여 추정한 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하도록 설정되는 제6 파라미터 취득 유닛(3026);이 포함된다.

바람직하게는, 상기 파라미터 취득 모듈(302)에는 또한,

현재 프레임이 제2 프레임 및 제2 프레임 후의 음성 프레임일 때, 전 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하며; 연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하며;

vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하도록 설정되는 제7 파라미트 취득 유닛(3027)이 포함된다.

바람직하게는, 상기 파라미터 취득 모듈(302)에는 또한,

적어도 두 가지의 기존의 VAD 판단 결과를 취득하도록 설정되는 제8 파라미터 취득 유닛(3028)이 포함된다.

당업계의 기술자들은 상기 실시예의 전부 또는 일부 단계는 컴퓨터 프로그램의 형식으로 구현될 수 있음을 이해할 것이며, 상기 컴퓨터 프로그램은 컴퓨터 판독가능한 저장 매체에 저장될 수 있고, 상기 컴퓨터 프로그램은 상응한 하드웨어 플랫폼(예를 들면 시스템, 설비, 장치, 소자 등) 상에서 실행될 수 있고, 실행 시 방법 실시예의 한 단계 또는 이들의 조합을 포함할 수 있다.

선택적으로,상기 실시예의 모든 또는 일부 단계는 선택적으로 하나 또는 다수의 직접회로를 이용하여 구현할 수 있으며, 이러한 단계는 각각 하나 또는 다수의 집적 회로 모듈로 제작하거나, 또는 이들 중의 다수의 모듈 또는 단계를 단일 직접 회로 모듈로 제적하여 구현할 수 있다. 이로써 본 발명의 실시예는 어떠한 특정된 하드웨어와 소프웨어 결합의 제한을 받지 않는다.

상기 실시예 중의 여러 장치/ 기능 모듈/ 기능 유닛은 범용 컴퓨터 장치를 이용하여 구현할 수 있으며, 이들은 단일 컴퓨터 장치 상에 집중될 수도 있고, 또한 다수 컴퓨터 장치로 구성된 네트워크 상에 분산될 수도 있다.

상기 실시예 중의 여러 장치/ 기능 모듈/ 기능 유닛이 소프트웨어 기능 모듈의 형식으로 구현되고 또한 독립적인 제품으로 판매 또는 사용될 때, 하나의 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 상기 컴퓨터 판독가능한 저장 매체는 ROM, 디스크 또는 CD일 수 있다.

이상에서는 본 발명을 특정의 실시예에 대해서 도시하고 설명하였지만, 본 발명은 상술한 실시예만 한정되는 것은 아니다. 본 발명이 속하는 기술분야에서 속하는 기술분야에서 통상의 지식을 가진 자라면 이하의 청구범위에 기재된 본 발명의 기술적 사상의 요지를 벗어나지 않는 범위에서 얼마든지 다양하게 변경하여 실시할 수 있을 것이다.

산업상 활용성

Claims

보이스 활성화 탐지 방법에 있어서,
상기 방법에는
현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 단계;
서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하는 단계;
주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성(調性) 특징 파라미터의 값을 산출하는 단계;
조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 조성 신호 아이디를 산출하는 단계;
연속 보이스 활성화 프레임 수량, 평균 전(全) 대역 신호대잡음비, 상기 조성 신호 아이디와 적어도 두 가지 기존의 보이스 활성화 탐지(VAD) 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
삭제
제1항에 있어서, 상기 방법에는 또한,
전(前) 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지를 취득하는 단계;
상기 전 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하는 단계;가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
제3항에 있어서, 상기 전 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지를 취득하는 단계에는,
전 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 단계;
전 프레임 서브밴드 신호에 의하여 전 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터의 값을 산출하는 단계;
전 프레임 주파수 스펙트럼 진폭값에 의하여 전 프레임 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터를 산출하는 단계;
전 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 조성 특징 파라미터에 의하여 전 프레임의 배경 노이즈 아이디를 산출하는 단계;
전 프레임의 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 전 프레임의 조성 신호 아이디를 산출하는 단계;
전 프레임의 배경 노이즈 아이디, 프레임 에너지 파라미터, 조성 신호 아이디, 전 제2 프레임의 전 대역 배경 노이즈 에너지에 의하여 전 프레임 전 대역 배경 노이즈 에너지를 취득하는 단계;가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
제4항에 있어서,
상기 프레임 에너지 파라미터는 각 서브밴드 신호 에너지의 가중 중첩 값 또는 직접 중첩 값이며;
상기 스펙트럼 무게중심 특징 파라미터는 전부 또는 일부 서브밴드 신호 에너지의 가중 누적 값과 비가중 누적 값의 비율, 또는 상기 비율에 대하여 평활 필터링을 진행하여 취득한 값이며;
상기 시간 도메인 안정도 특징 파라미터는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값의 분산 또는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값 평방의 원하는 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;
상기 스펙트럼 편평도 특징 파라미터는 일부 주파수 스펙트럼 진폭 값의 기하 평균수와 산술 평균수의 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;
조성 특징 파라미터는 전후 두 프레임 신호의 프레임 내 주파수 스펙트럼 차분 계수의 관련 계수를 계산하여 취득하거나, 또는 계속하여 상기 관련 계수에 대하여 평활 필터링을 진행하여 취득하는 것인; 것을 특징으로 하는 보이스 활성화 탐지 방법.
제1항에 있어서, 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하는 단계에는,
A) 현재 프레임 신호가 비조성 신호이고, 하나의 조성 프레임 아이디 tonality_ frame으로 현재 프레임이 조성 프레임인지 여부를 지시하는 단계;
B) 조건 1: 조성 특징 파라미터
의 값이 대응되게 설정된 제1 조성 특징 파라미터 판단 역치보다 크며;
조건 2: 조성 특징 파라미터 평활 필터링 후
의 값이 대응되게 설정된 제2 조성 특징 파라미터 역치보다 크며;
와 같은 상기 조건 중의 하나를 만족시킬 때 C) 단계를 실행하고, 상기 두 조건을 모두 만족시키지 않을 때 D) 단계를 실행하는 단계;
C) 현재 프레임이 조성 프레임인지 여부를 판단하고, 또한 판단 결과에 의하여 상기 조성 프레임 아이디의 값을 설정하는 단계;
조건 1: 상기 시간 도메인 안정도 특징 파라미터 값이 하나의 설정된 제1 시간 도메인 안정도 판단 역치보다 작으며;
조건 2: 스펙트럼 무게중심 특징 파라미터 값이 하나의 설정된 제1 스펙트럼 무게중심 판단 역치보다 크며;
조건 3: 각 서브밴드의 스펙트럼 편평도 특징 파라미터가 모두 각각 대응되는 사전 설정된 스펙트럼 편평도 판단 역치보다 작을 때, 현재 프레임을 조성 프레임으로 판단하고, 상기 조성 프레임 아이디의 값을 설정하며;
와 같은 상기 조건중의 전부 조건을 만족시킬 때 상기 현재 프레임을 조성 프레임으로 판단하고, 임의 하나 또는 다수의 상기 조건을 만족시키지 않을 때, 상기 현재 프레임을 비조성 프레임으로 판단하고 D) 단계를 실행하며,
D) 상기 조성 프레임 아이디에 의하여 조성 정도 특징 파라미터
에 대하여 업데이트를 수행하는 바, 그 중에서 조성 정도 파라미터
초기 값은 보이스 활성화 탐지가 시작될 때 설정되는 단계;
E) 업데이트된 상기 조성 정도 특징 파라미터
에 의하여 상기 현재 프레임이 조성 신호인지 여부를 판단하고, 또한 조성 아이디 tonality _flag의 값을 설정하는 단계;가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
제6항에 있어서, 현재의 조성 프레임 아이디가 상기 현재 프레임이 조성 프레임이라는 것을 지시할 때, 하기 표현식을 이용하여 조성 정도 특징 파라미터
에 대하여 업데이트를 진행하는 바,

이며,
그 중에서,
은 전 프레임의 조성 정도 특징 파라미터이고, 이의 초기 값 범위는 [0，1]이며,
는 감쇄 계수이고,
는 누적 계수인 것을 특징으로 하는 보이스 활성화 탐지 방법.
제6항에 있어서,
조성 정도 특징 파라미터
가 설정된 조성 정도 역치보다 클 때, 현재 프레임을 조성 신호로 판단하며;
조성 정도 특징 파라미터
가 설정된 조성 정도 역치보다 작거나 같을 때, 현재 프레임을 비조성 신호로 판단하는; 것을 특징으로 하는 보이스 활성화 탐지 방법.
제1항에 있어서, 상기 방법에는 또한,
현재 프레임이 제2프레임 및 제2 프레임 후의 음성 프레임일 때, 전(前) 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하는 단계;
연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하는 단계;
vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하는 단계;가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
제9항에 있어서, 상기 방법에는 또한,
현재 프레임이 제1 프레임일 때, 상기 연속 보이스 활성화 프레임 수량은 0인 것을 포함하는 것을 특징으로 하는 보이스 활성화 탐지 방법.
제1항에 있어서, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시하며, 상기 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계에는,
조건 1: 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;
조건 2: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;
조건 3: 조성 신호 아이디가 1로 설정되는;
상기 조건중의 임의의 하나의 조건을 만족시킬 때, 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 연합 VAD 판단 결과로 하고, 상기 임의의 하나의 조건을 만족시키지 않을 때, 상기 적어도 두 가지 기존의 VAD의 판단 결과 중의 하나의 기존의 VAD 판단 결과를 선택하여 연합 VAD 판단 결과로 하는 바, 그 중에서, 상기 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는,
것을 특징으로 하는 보이스 활성화 탐지 방법.
제1항에 있어서, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시하며, 상기 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계에는,
조건 1: 적어도 두 개의 기존의 VAD 편단 결과가 모두 1이며;
조건 2: 적어도 두 개의 기존의 VAD 편단 결과의 합이 연합 판단 역치보다 크고, 또한 조성 신호 아이디가 1로 설정되며;
조건 3: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며, 조성 신호 아이디가 1로 설정되는;
상기 조건중의 임의의 하나의 조건을 만족시킬 때, 상기 연합 VAD 판단 결과는 1이리고, 상기 임의의 하나의 조건을 만족시키지 않을 때, 상기 적어도 두개의 기존의 VAD의 판단 결과의 논리 연산을 선택하여 출력으로 하며, 그 중에서, 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는,
것을 특징으로 하는 보이스 활성화 탐지 방법.
보이스 활성화 탐지 장치에 있어서,
현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하도록 설정되는 제1 파라미터 취득 유닛;
서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하도록 설정되는 제2 파라미터 취득 유닛;
주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하도록 설정되는 제3 파라미터 취득 유닛;
조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 조성 신호 아이디를 산출하도록 설정되는 제4 파라미터 취득 유닛;이 포함되는 파라미터 취득 모듈;
연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하도록 설정되는 연합 판단 모듈이 포함되는 것을 특징으로 하는 보이스 활성화 탐지 장치.
삭제
제13항에 있어서, 상기 파라미터 취득 모듈에는 또한,
전 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지를 취득하도록 설정되는 제5 파라미터 취득 유닛;
상기 전 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하도록 설정되는 제6 파라미터 취득 유닛;이 포함되는 것을 특징으로 하는 보이스 활성화 탐지 장치.
제13항에 있어서, 상기 파라미터 취득 모듈에는 또한,
현재 프레임이 제1 프레임일 때, 상기 연속 보이스 활성화 프레임 수량을 0으로 확정하며;
현재 프레임이 제2프레임 및 제2 프레임 후의 음성 프레임일 때, 전 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하며;
연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하며;
vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하도록 설정되는 제7 파라미트 취득 유닛이 포함되는 것을 특징으로 하는 보이스 활성화 탐지 장치.