KR101831078B1 - 보이스 활성화 탐지 방법 및 장치 - Google Patents

보이스 활성화 탐지 방법 및 장치 Download PDF

Info

Publication number
KR101831078B1
KR101831078B1 KR1020167005654A KR20167005654A KR101831078B1 KR 101831078 B1 KR101831078 B1 KR 101831078B1 KR 1020167005654 A KR1020167005654 A KR 1020167005654A KR 20167005654 A KR20167005654 A KR 20167005654A KR 101831078 B1 KR101831078 B1 KR 101831078B1
Authority
KR
South Korea
Prior art keywords
frame
composition
parameter
signal
value
Prior art date
Application number
KR1020167005654A
Other languages
English (en)
Other versions
KR20160039677A (ko
Inventor
창바오 주
하오 위안
Original Assignee
지티이 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51843162&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101831078(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 지티이 코포레이션 filed Critical 지티이 코포레이션
Publication of KR20160039677A publication Critical patent/KR20160039677A/ko
Application granted granted Critical
Publication of KR101831078B1 publication Critical patent/KR101831078B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공한다. 관련 VAD 탐지가 정확하지 않은 문제를 해결하였다. 상기 방법에는 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 표시와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 것이 포함된다. 본 발명의 실시예에서 제공하는 기술적 수단은 음성 서비스에 적용되며, 높은 정확성의 VAD 판단을 구현할 수 있다.

Description

보이스 활성화 탐지 방법 및 장치{Voice Activation Detection Method and Device}
본 발명은 통신 분야에 관한 것으로서, 특히 보이스 활성화 탐지 방법 및 장치에 관한 것이다.
정상적인 음성 통화에 있어서, 유저는 때로는 말을 하고 때로는 들으며, 이때 통화 과정에서 보이스 비활성화 단계가 나타나며, 정상적인 상황 하에서 통화 쌍방의 보이스 비활성화 단계는 통화 쌍방의 총 보이스 코딩 시간의 50% 이상을 차지한다. 보이스 비활성화 단계에는 단지 배경 노이즈만 존재하고, 배경 노이즈에는 일반적으로 아무런 유용한 정보가 포함되지 않는다. 이러한 사실을 이용하여, 보이스 주파수 신호 처리 과정에서, 보이스 활성화 탐지(VAD) 알고리즘을 통하여 보이스 활성화와 보이스 비활성화를 탐지하고, 또한 서로 다른 방법을 이용하여 각각 처리를 수행한다. 현재의 여러 가지 보이스 코딩 표준, 예를 들면 AMR, AMR-WB 등은 모두 VAD 기능을 지원한다. 효율 방면에서, 이러한 인코더의 VAD는 모든 전형적인 배경 노이즈 하에서 모두 아주 훌륭한 성능에 도달할 수 있는 것이 아니다. 특히 안정적이지 않은 노이즈 하에서, 이러한 인코더의 VAD 효율은 모두 아주 낮다. 그리고 음악 신호에 대하여, 이러한 VAD는 때로는 탐지 에러가 발생하여 상응한 처리 알고리즘의 품질을 현저하게 낮춘다. 그리고, 관련된 VAD 기술은 판단이 정확하지 않은 상황이 나타나는 바, 예를 들면 어떤 VAD 기술은 음성 단계 전의 몇 프레임에 대한 탐지가 정확하지 못하고, 어떤 것은 음성 단계 후의 몇 프레임에 대한 탐지가 정확하지 못하다.
본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공하여 관련 VAD 탐지가 정확하지 않은 문제를 해결하는 것을 목적으로 한다.
보이스 활성화 탐지 방법에 있어서,
연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 것이 포함된다.
바람직하게는, 상기 방법에는 또한,
현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 단계;
서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하는 단계;
주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하는 단계;
조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하는 단계;가 포함된다.
바람직하게는, 상기 방법에는 또한,
전 프레임에 의하여 추정한 배경 노이즈 에너지를 취득하는 단계;
상기 전 프레임에 의하여 추정한 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하는 단계;가 포함된다.
바람직하게는, 상기 전 프레임에 의하여 추정한 배경 노이즈 에너지를 취득하는 단계에는,
전 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 단계;
전 프레임 서브밴드 신호에 의하여 전 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터의 값을 산출하는 단계;
전 프레임 주파수 스펙트럼 진폭값에 의하여 전 프레임 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터를 산출하는 단계;
전 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 조성 특징 파라미터에 의하여 전 프레임의 배경 노이즈 아이디를 산출하는 단계;
전 프레임의 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 전 프레임의 조성 신호 아이디를 산출하는 단계;
전 프레임의 배경 노이즈 아이디, 프레임 에너지 파라미터, 조성 신호 아이디, 전 제2 프레임의 전 대역 배경 노이즈 에너지에 의하여 전 프레임 전 대역 배경 노이즈 에너지를 취득하는 단계;가 포함된다.
바람직하게는, 상기 프레임 에너지 파라미터는 각 서브밴드 신호 에너지의 가중 중첩 값 또는 직접 중첩 값이며;
상기 스펙트럼 무게중심 특징 파라미터는 전부 또는 일부 서브밴드 신호 에너지의 가중 누적 값과 비가중 누적 값의 비율, 또는 상기 비율에 대하여 평활 필터링을 진행하여 취득한 값이며;
상기 시간 도메인 안정도 특징 파라미터는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값의 분산 또는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값 평방의 원하는 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;
상기 스펙트럼 편평도 특징 파라미터는 하나 또는 다수 주파수 스펙트럼 진폭 값의 기하 평균수와 산술 평균수의 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;
조성 특징 파라미터는 전후 두 프레임 신호의 프레임 내 주파수 스펙트럼 차분 계수의 관련 계수를 계산하여 취득하거나, 또는 계속하여 상기 관련 계수에 대하여 평활 필터링을 진행하여 취득하는 것이다.
바람직하게는, 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하는 단계에는,
A) 현재 프레임 신호가 비조성 신호이고, 하나의 조성 프레임 아이디 tonality_ frame으로 현재 프레임이 조성 프레임인지 여부를 지시하는 단계;
B) 상기 조건 중의 하나를 만족시킬 때 C) 단계를 실행하고, 하기 두 조건을 모두 만족시키지 않을 때 D) 단계를 실행하는 단계;
조건 1: 조성 특징 파라미터
Figure 112017051280211-pct00001
의 값이 대응되게 설정된 제1 조성 특징 파라미터 판단 역치보다 크며;
조건 2: 조성 특징 파라미터 평활 필터링 후
Figure 112017051280211-pct00161
의 값이 대응되게 설정된 제2 조성 특징 파라미터 역치보다 크며;
C) 현재 프레임이 조성 프레임인지 여부를 판단하고, 또한 판단 결과에 의하여 상기 조성 프레임 아이디의 값을 설정하는 단계;
하기 전부 조건을 만족시킬 때 상기 현재 프레임을 조성 프레임으로 판단하고, 임의 하나 또는 다수의 하기 조건을 만족시키지 않을 때, 상기 현재 프레임을 비 조성 프레임으로 판단하고 D) 단계를 실행하는 바,
조건 1: 상기 시간 도메인 안정도 특징 파라미터 값이 하나의 설정된 제1 시간 도메인 안정도 판단 역치보다 작으며;
조건 2: 스펙트럼 무게중심 특징 파라미터 값이 하나의 설정된 제1 스펙트럼 무게중심 판단 역치보다 크며;
조건 3: 각 서브밴드의 스펙트럼 편평도 특징 파라미터가 모두 각각 대응되는 사전 설정된 스펙트럼 편평도 판단 역치보다 작을 때, 현재 프레임을 조성 프레임으로 판단하고, 상기 조성 프레임 아이디의 값을 설정하며;
D) 상기 조성 프레임 아이디에 의하여 조성 정도 특징 파라미터
Figure 112016020275434-pct00003
에 대하여 업데이트를 수행하는 바, 그 중에서 조성 정도 파라미터
Figure 112016020275434-pct00004
초기 값은 보이스 활성화 탐지가 시작될 때 설정되는 단계;
E) 업데이터된 상기 조성 정도 특징 파라미터
Figure 112016020275434-pct00005
에 의하여 상기 현재 프레임이 조성 신호인지 여부를 판단하고, 또한 조성 아이디 tonality _flag의 값을 설정하는 단계;가 포함된다.
바람직하게는, 현재의 조성 프레임 아이디가 상기 현재 프레임이 조성 프레임이라는 것을 지시할 때, 하기 표현식을 이용하여 조성 정도 특징 파라미터
Figure 112016020275434-pct00006
에 대하여 업데이트를 진행하는 바,
Figure 112016020275434-pct00007
이며,
그 중에서,
Figure 112016020275434-pct00008
은 전 프레임의 조성 정도 특징 파라미터이고, 이의 초기 값 범위는 [0,1]이며,
Figure 112016020275434-pct00009
는 감쇄 계수이고,
Figure 112016020275434-pct00010
는 누적 계수이다.
바람직하게는, 조성 정도 특징 파라미터
Figure 112016020275434-pct00011
가 설정된 조성 정도 역치보다 클 때, 현재 프레임을 조성 신호로 판단하며;
조성 정도 특징 파라미터
Figure 112016020275434-pct00012
가 설정된 조성 정도 역치보다 작거나 같을 때, 현재 프레임을 비조성 신호로 판단한다.
바람직하게는, 상기 방법에는 또한,
현재 프레임이 제2 프레임 및 제2 프레임 후의 음성 프레임일 때, 전 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하는 단계;
연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하는 단계;
vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하는 단계;가 포함된다.
바람직하게는, 현재 프레임이 제1 프레임일 때, 상기 연속 보이스 활성화 프레임 수량은 0이다.
바람직하게는, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시하며, 상기 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계에는,
하기 임의의 하나의 조건을 만족시킬 때, 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 연합 VAD 판단 결과로 하고, 하기 임의의 하나의 조건을 만족시키지 않을 때, 적어도 두 가지 기존의 VAD의 판단 결과 중의 하나의 기존의 VAD 판단 결과를 선택하여 연합 VAD 판단 결과로 하는 바, 그 중에서, 상기 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는 바,
조건 1: 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;
조건 2: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;
조건 3: 조성 신호 아이디가 1로 설정된다.
바람직하게는, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시하며, 상기 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계에는,
하기 임의의 하나의 조건을 만족시킬 때, 상기 연합 VAD 판단 결과는 1이리고, 하기 임의의 하나의 조건을 만족시키지 않을 때, 상기 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 출력으로 하며, 그 중에서, 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는 바,
조건 1: 적어도 두 개의 기존의 VAD 편단 결과가 모두 1이며;
조건 2: 적어도 두 개의 기존의 VAD 편단 결과의 합이 연합 판단 역치보다 크고, 또한 조성 신호 아이디가 1로 설정되며;
조건 3: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며, 조성 신호 아이디가 1으로 설정된다.
본 발명의 실시예에서는 또한 보이스 활성화 탐지 장치를 제공하는 바,
연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하도록 설정되는 연합 판단 모듈이 포함된다.
바람직하게는, 상기 장치에는 또한 파라미터 취득 모듈이 포함되고, 상기 파라미터 취득 모듈에는,
현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하도록 설정되는 제1 파라미터 취득 유닛;
서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하도록 설정되는 제2 파라미터 취득 유닛;
주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하도록 설정되는 제3 파라미터 취득 유닛;
조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하도록 설정되는 제4 파라미터 취득 유닛;이 포함된다.
바람직하게는, 상기 파라미터 취득 모듈에는 또한,
전 프레임에 의하여 추정한 배경 노이즈 에너지를 취득하도록 설정되는 제5 파라미터 취득 유닛;
상기 전 프레임에 의하여 추정한 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하도록 설정되는 제6 파라미터 취득 유닛;이 포함된다.
바람직하게는, 상기 파라미터 취득 모듈에는 또한,
현재 프레임이 제1 프레임일 때, 상기 연속 보이스 활성화 프레임 수량을 0으로 확정하며;
현재 프레임이 제2 프레임 및 제2 프레임 후의 음성 프레임일 때, 전 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하며;
연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하며;
vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하도록 설정되는 제7 파라미트 취득 유닛이 포함된다.
본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공하는 바, 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하여, 여러 가지 파라미터에 의하여 VAD 판단을 진행하는 것을 구현하고, VAD 판단의 정확성을 향상시키며, VAD 탐지가 정확하지 않은 문제를 해결하였다.
도1은 본 발명의 실시예1에서 제공되는 보이스 활성화 탐지 방법으 흐름도.
도2는 본 발명의 실시예2에서 제공되는 보이스 활성화 탐지 방법으 흐름도.
도3은 본 발명의 실시예4에서 제공되는 보이스 활성화 탐지 장치의 구조도.
도4는 도3 중의 파라미터 취득 모듈(302)의 구조도.
VAD 탐지가 정확하지 않은 문제를 해결하기 위하여, 본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공한다. 아래, 도면을 참조하여 본 발명의 실시예에 대하여 설명을 진행하도록 한다. 충돌되지 않는 상황 하에서, 본 출원의 실시예 및 실시예 중의 특징은 상호 결합될 수 있다.
아래, 도면을 참조하여 본 발명의 실시예에 대하여 설명을 진행하도록 한다.
본 발명의 실시예에서는 보이스 활성화 탐지 방법을 제공하여, 해당 방법을 이용하여 VAD를 완성하는 흐름은 도1에 도시된 바와 같으며, 하기 단계가 포함된다.
101 단계: 적어도 두 가지의 기존의 VAD 판단 결과를 취득하며;
102 단계: 현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하며;
본 발명의 실시예에서는 프레임 길이가 20ms, 샘플링 레이트가 32kHz인 오디오 스트림을 예로 들어 설명을 진행하도록 한다. 기타 프레임 길이와 샘플링 레이트 조건 하에서, 본 발명의 실시예에서 제공하는 보이스 활성화 탐지 방법은 마찬가지로 적용된다.
현재 프레임 시간 도메인 신호를 필터 뱅크 유닛에 입력하여 대역 필터링 계산을 진행하여 필터 뱅크 서브밴드 신호를 취득하였다.
본 발명의 실시예에서는 40 채널의 필터 뱅크를 사용하며, 본 발명의 실시예에서 제공되는 기술적 방안은 기타 채널 수량을 이용하는 필터 뱅크에도 마찬가지로 적용된다.
현재 프레임 시간 도메인 신호를 40 채널의 필터 뱅크에 입력하고 대역 필터링 계산을 진행하여 16개 타임 포인트 상의 40개 서브밴드의 필터 뱅크 서브밴드 신호
Figure 112016020275434-pct00013
,
Figure 112016020275434-pct00014
,
Figure 112016020275434-pct00015
을 취득하는 바, 그 중에서, k는 필터 뱅크 서브밴드의 인텍스이고, 이의 값은 계수에 대응되는 서브밴드를 표시하며, l은 각 서브밴드의 타임 샘플링 포인트 인덱스로서, 이의 구현 단계는 하기와 같다.
1. 최근 640개 오디오 신호 샘플 값을 데이터 버퍼 중에 저장한다.
2. 데이터 버퍼 중의 데이터를 40개 위치 이동시켜, 가장 이른 40개 샘플링 값을 데이터 버퍼에서 제거하고, 또한 40개 새로운 샘플링 포인트를 0 내지 39의 위치에 저장한다.
버퍼 중의 데이터 x에 창 계수를 곱하여 어레이 z를 취득하는 바, 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00016
그 중에서,
Figure 112016020275434-pct00017
는 필터 뱅크 창 계수이다.하기 의사코드 계산을 이용하여 하나의 80 포인트의 데이터 u를 취득한다.
for(n=0; n<80; n++)
{u[n] = 0;
for (j=0; j<8; j++)
{
Figure 112016020275434-pct00018
}
}
하기 방정식을 이용하여 어레이 r과 i를 산출한다.
Figure 112016020275434-pct00019
하기 방정식을 이용하여 첫번째 타임 샘플링 포인트 상의 40개 복수 서브밴드 샘플링 값을 산출하며,
Figure 112016020275434-pct00020
, 그 중에서,
Figure 112016020275434-pct00021
Figure 112016020275434-pct00022
는 각각 필터 뱅크 서브밴드 신호 X의 제l번째 타임 샘플링 포인트 상 계수의 실수부와 허수부이고, 이의 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00023
3. 본 프레임의 모든 데이터가 모두 필터 뱅크의 필터링을 거치기까지 2의 계산 과정을 반복하며, 최종 출력 결과가 바로 필터 뱅크 서브밴드 신호
Figure 112016020275434-pct00024
이다.
4. 상기 계산 과정을 마친 후, 40개 서브밴드의 16개 타임 샘플링 포인트의 필터 뱅크 서브밴드 신호
Figure 112016020275434-pct00025
,
Figure 112016020275434-pct00026
,
Figure 112016020275434-pct00027
을 취득한다.
그 후 필터 뱅크 서브밴드 신호에 대하여 시간 주파수 변환을 진행하고, 주파수 스펙트럼 진폭값을 산출한다.
그 중에서, 전부 필터 뱅크 서브밴드 또는 일부 핑터 뱅크 서브밴드에 대하여 시간 주파수 변환을 진행하고 주파수 스펙트럼 진폭값을 진행하면, 모두 본 발명의 실시혜를 구현할 수 있다. 본 발명의 실시예의 상기 시간 주파수 변환 방법은 DFT, FFT, DCT 또는 DST일 수도 있다. 본 발명의 실시예가 DFT를 이용하는 것을 예로 들어 본 발명의 구현 방법을 설명하도록 한다. 계산 과정은 하기와 같다.
인덱스가 0 내지 9인 각 필터 뱅크 상의 16개 타임 샘플링 포인트에 대하여 16 포인트의 DFT 변환을 진행하여, 주파수 스펙트럼 해상도를 향상시키고, 또한 각 주파수 포인트의 진폭값을 계산하여 주파수 스펙트럼 진폭값
Figure 112016020275434-pct00028
를 취득한다.
시간 주파수 변환 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00029
각 주파수 포인트의 진폭값을 계산하는 과정은 하기와 같다.
우선, 각 어레이
Figure 112016020275434-pct00030
의 각 포인트 상의 에너지를 계산하는 바, 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00031
그 중에서
Figure 112016020275434-pct00032
,
Figure 112016020275434-pct00033
는 각각 주파수 스펙트럼 계수의
Figure 112016020275434-pct00034
의 실수부와 허수부를 표시한다.
만일 k가 짝수이면, 하기 방정식을 이용하여 각 주파수 포인트 상의 주파수 스펙트럼 진폭값을 계산하는 바, 즉
Figure 112016020275434-pct00035
만일 k가 홀수이면, 하기 방정식을 이용하여 각 주파수 포인트 상의 주파수 스펙트럼 진폭값을 계산하는 바, 즉
Figure 112016020275434-pct00036
Figure 112016020275434-pct00037
즉 시간 주파수 변환 후의 주파수 스펙트럼 진폭값이다.
103 단계: 서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하고, 주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하며;
프레임 에너지 파라미터는 종래 기술의 방법을 이용하여 취득할 수 있고, 바람직하게는, 각 파라미터는 하기 방법을 이용하여 취득하는 바, 즉
상기 프레임 에너지 파라미터는 각 서브밴드 신호 에너지의 가중 중첩 값 또는 직접 중첩 값이며;
1. 필터 뱅크 서브밴드 신호 X[ k,l ]에 의하여 각 필터 밴드 서브밴드의 에너지를 계산하는 바, 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00038
2. 일부 청각이 비교적 민감한 필터 뱅크 서브밴드 또는 모든 필터 뱅크 서브밴드의 에너지를 누적하여 프레임 에너지 파라미터를 취득한다.
그 중에서 심림 청각 모델에 의하면, 사람의 귀는 또 초저 주파수(예를 들면 100Hz 이하)와 높은 주파수(20kHz 이상)의 소리에 비교적 민감하지 않으며, 본 발명의 실시예에서는 주파수가 낮은델부터 높은데로 배열된 필터 뱅크 서브밴드에서, 두번째 서브밴드로부터 거꾸로 두번째까지 서브밴드가 청각이 비교적 민감한 주요한 필터 뱅크 서브밴드라고 여기고, 청각이 비교적 민감함 전부 또는 일부 필터 뱅크 서브밴드 에너지를 프레임 에너지 파라미터1에 누적하는 바, 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00039
그 중에서,
Figure 112016020275434-pct00040
는 시작 서브밴드 인덱스이고, 이의 값 범위는 [0,6]이다.
Figure 112016020275434-pct00041
서브밴드 인덱스를 종료하기 위해서는 이의 값이 6보다 크고, 서브밴드 총 수보다 작으면 된다.
프레임 에너지 파라미터1의 값에 프레임 에너지 프라미터1을 계산할 때 사용하지 않은 전부 또는 일부 필터 뱅크 서브밴드의 에너지의 가중치를 더하여 프레임 에너지 파라미터2를 취득하며, 이의 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00042
그 중에서
Figure 112016020275434-pct00043
,
Figure 112016020275434-pct00044
는 가중 비례 인자이고, 이의 값 범위는 각각 [0,1]이다. num _band는 서브밴드 총 수량이다.
상기 스펙트럼 무게중심 특징 파라미터는 전부 또는 일부 서브밴드 신호 에너지의 가중 누적 값과 비가중 누적 값의 비율이며;
각 필터 뱅크 서브밴드의 에너지에 의하여 스펙트럼 무게중심 특징 파라미터를 취득하며, 스펙트럼 무게중심 특징 파라미터는 필터 뱅크 서브밴드 에너지 가중하여 더한 합과 서브밴드 에니저의 직접 더한 합의 빌율을 구하거나 또는 기타 스펙트럼 무게중심 특징 파라미터 값에 대하여 평활 필터링을 진행하여 취득한다.
펙트럼 무게중심 특징 파라미터는 하기 서브 단계를 이용하여 구현할 수 있다.
1. 스펙트럼 무게중심 특징 파라미터 계산에 이용되는 서브 밴드 가군을 하기 표1과 같이 분할한다.
[표1]
Figure 112016020275434-pct00045
2. 표1의 스펙트럼 무게중심 특징 파라미터 계산 구간 분할 방식과 하기 표현식을 이용하여, 두 개의 스펙트럼 무게중심 특징 파라미터 값을 순출하는 바, 각각 제1 구간 스펙트럼 무게중심 특징 파라미터와 제2 구간 스펙트럼 무게중심 특징 파라미터이다.
Figure 112016020275434-pct00046
Delta1 , Delta2는 각각 하나의 작은 오프셋 값으로서, 값의 범위는 (0,1)이다. 그 중에서, k는 스펙트럼 무게중심 번호 인덱스이다.
3. 제1 구간의 스펙트럼 무게중심 특징 파라미터 sp _center[0]에 대하여 평활 필터링 연산을 진행하여 평활 스펙트럼 무게중심 특징 파라미터 값을 취득하는 바, 즉 제1 구간 스펙트럼 무게중심 특징 파라미터 값의 평활 필터링 갑이며, 계산 과정은 하기와 같다.
Figure 112016020275434-pct00047
그 중에서, spc_sm_scale은 스펙트럼 무게중심 파라미터 평활 필터링 비례 인자로서, sp _center - 1[2]는 앞 프레임의 평활 스펙트럼 무게중심 특징 파라미터를 표시하는 바, 이의 초기 값은 1.6이다.
상기 시간 도메인 안정도 특징 파라미터는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값의 분산 또는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값 평방의 원하는 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;
최신의 다수의 프레임 신호의 프레임 에너지 파라미터에 의하여 시간 도메인 안정도 특징 파라미터를 산출한다. 본 발명의 실시예에서는 최신의 40 프레임 신호의 프레임 에너지 파라미터에 의하여 시간 도메인 안정도 특징 파라미터를 산출한다. 계산 단계는 하기와 같다.
우선 최신 40 프레임 신호의 에너지 진폭값을 산출하는 바, 계산 방정식은 하기와 같다.
Figure 112016020275434-pct00048
그 중에서, e_offset은 오프셋 값이고 이의 값 범위는 [0,0.1]이다.
그리고, 순차적으로 현재 프레임으로부터 앞 40 프레임의 인접된 두 프레임의 에너지 진폭값을 더하여 20개 진폭값 중첩값을 취득한다. 계산 방정식은 하기와 같다.
Figure 112016020275434-pct00049
그 중에서, n=0일 때, Amp t1 은 현재 프레임의 에너지 진폭값을 표시하고, n<0일 때, Amp t1 은 현재 프레임 앞 n 프레임의 에너지 진폭값을 표시한다.
최종적으로, 최신 20개 진폭 중첩값의 변화 또는 평균 에너지의 비율을 계산하는 것을 통하여 시간 도메인 안정도 특징 파라미터
Figure 112016020275434-pct00050
을 취득한다. 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00051
상기 스펙트럼 편평도 특징 파라미터는 일부 주파수 스펙트럼 진폭 값의 기하 평균수와 산술 평균수의 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;
주파수 스펙트럼 진폭값 X DFT _AMP 를 여러개의 주파수 대역으로 분할하고, 또한 현재 프레임 각 주파수 대역의 스펙트럼 편평도를 계산하여, 현재 프레임의 스펙트럼 편평도 특징 파라미터를 취득한다.
본 발명의 실시예에서는 주파수 스펙트럼 진폭값을 3개 주파수 대역으로 분할하고, 또한 이 3개 주파수 대역의 스펙트럼 편평도 특징을 계산하는 바, 이의 구현 단계는 하기와 같다.
우선, X DFT _AMP 를 하기 표2의 인덱스에 따라 3개의 주파수 대역으로 분할한다.
[표2]
Figure 112016020275434-pct00052
그리고, 각 주파수 대역의 스펙트럼 편평도를 각각 계산하여, 현재 프레임의 스펙트럼 편평도 특징 파라미터를 취득한다. 현재 프레임의 각 스펙트럼 편평도 특징 파라미터 값의 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00053
최종적으로, 현재 프레임의 스펙트럼 편평도 특징 파라미터에 대하여 평활 필터링을 진행하여 현재 프레임의 최종 스펙트럼 편평도 특징 파라미터를 취득한다.
Figure 112016020275434-pct00054
그 중에서, smr _scale은 평활 인자이고, 이의 값 범위는 [0.6, 1]이고, sSMR -1 (k)는 앞 프레임의 제k번째 스펙트럼 편평도 특징 파라미터의 값이다.
조성 특징 파라미터는 전후 두 프레임 신호의 프레임 내 주파수 스펙트럼 차분 계수의 관련 값을 계산하여 취득하거나, 또는 계속하여 상기 관련 값에 대하여 평활 필터링을 진행하여 취득하는 것이다.
전후 두 프레임 신호의 프레임 내 주파수 스펙트럼 차분 계수의 관련 값의 계산 방법은 하기와 같다.
주파수 스펙트럼 진폭값에 의하여 조성 특징 파라미터를 산출하는 바, 그 중에서 조성 특징 파라미터는 전부 주파수 스펙트럼 진폭값 또는 일부 주파수 스펙트럼 진폭값에 의하여 산출할 수 있다.
이의 계산 단계는 하기와 같다.
1. 일부(8개 주파수 스펙트럼 계수 이상) 또는 전부 주파수 스펙트럼 진폭값과 인접된 주파수 스펙트럼 진폭값에 대하여 차분 연산을 진행하여, 차분 결과가 0보다 작은 위치 0에 의하여 한 그룹의 음이 아닌 주파수 스펙트럼 차분 계수를 취득한다.
본 발명의 실시예에서는 위치 인덱스가 3 내지 61인 주파수 포인트 계수를 예로 들어 조성 특징 파라미터를 계산한다. 과정은 하기와 같다.
주파수 포인트3 내지 주파수 포인트 61의 인접된 주파수 스펙트럼 진폭값에 대하여 차분 연산을 진행하는 바, 표현식은 하기와 같다.
Figure 112016020275434-pct00055
spec_ dif 중의 0보다 작은 변수를 0으로 설정한다.
2. 1 단계에서 취득한 현재 프레임 음이 아닌 주파수 스펙트럼 차분 계수와 전 프레임 음이 아닌 주파수 스펙트럼 차분 계수의 관련 계수를 계산하여 제1 조성 특징 파라미터를 취득한다. 계산 표현식은 하기와 같다.
Figure 112016020275434-pct00056
그 중에서, pre_spec_ dif는 전 프레임의 음이 아닌 주파수 스펙트럼 차분 계수이다.
3. 제2 조성 특징 파라미터 값에 대하여 평활 연산을 진행하여 제2 조성 특징 파라미터 값을 취득한다. 계산 방정식은 하기와 같다.
Figure 112016020275434-pct00057
tonal_ scale은 조성 특징 파라미터 평활 인자이고, 이의 값 범위는 [0.1,1]이며, tonality_ rate2 -1 은 전 프레임의 제2 조성 특징 파라미터 값으로서, 이의 초기 값 범위는 [0,1]이다.
104 단계: 조성 신호 아이디를 계산하는 바, 본 발명의 실시예3 중의 조성 신호 계산 과정을 참조하면 된다.
105 단계: 전 프레임에 의하여 추정한 전 대역 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 평균 전 대역 신호대잡음비를 산출한다.
전 프레임의 전 대역 배경 노이즈 에너지 취득 방법은 실시예2를 참조할 수 있다.
추정한 앞 프레임 전 대역 배경 노이즈 에너지(실시예2 참조)와 현재 프레임의 프레임 에너지 파라미터에 의하여 전 대역 신호대잡음비 SNR2를 산출한다.
Figure 112016020275434-pct00058
그 중에서, Et_bg는 추정한 앞 프레임 전 대역 배경 노이즈 에너지이고, 앞 프레임 전 대역 배경 노이즈 에너지를 취득하는 원리와 현재 프레임의 전 대역 배경 노이즈 에너지를 취득하는 원리는 같다.
최신 다수의 프레임의 전 대역 신호대잡음비 SNR2의 평균치를 구하여 평균 전 대역 신호대잡음비 SNR2_lt_ave를 취득한다.
106 단계: 연속 보이스 활성화 프레임의 수량을 취득하며;
연속 보이스 활성화 프레임 수량 continuous_speech_num2는 VAD 판단 결과에 의하여 계산을 진행할 수 있고, 초기 값이 0으로 설정하고, VAD 아이디 vad_flag가 1로 설정될 때, continuous_speech_num2에 1을 더하며; vad_flag가 0으로 판단될 때, continuous_speech_num2를 0으로 설정한다.
107 단계: 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하며;
본 단계에서, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시한다. 설명하여야 할 것은, 1, 0 값으로 보이스 활성화와 보이스 비활성화를 표시하는 것은 단지 한 가지 표기 방식이고, 기타 값 또는 기타 방식으로 표기하여 VAD 판단의 다른 결과를 구분하는 방안은 모두 본 발명의 실시예의 보호 범위에 속한다.
아래, 두 가지 구현 방식을 예로 들어 설명하는 바, 실시 과정은 기타 연합 방법이 있을 수 있다.
하기 임의의 하나의 조건을 만족시킬 때, 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 연합 VAD 판단 결과로 하고, 하기 임의의 하나의 조건을 만족시키지 않을 때, 적어도 두 가지 기존의 VAD의 판단 결과 중의 하나의 기존의 VAD 판단 결과를 선택하여 연합 VAD 판단 결과로 하는 바, 그 중에서, 상기 논리 연산은 "OR" 연산 또는 "AND" 연산이며;
조건 1: 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;
조건 2: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;
조건 3: 조성 신호 아이디가 1로 설정된다.
상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시하며, 상기 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계에는,
하기 임의의 하나의 조건을 만족시킬 때, 상기 연합 VAD 판단 결과는 1이리고, 하기 적어도 하나의 조건을 만족시키지 않을 때, 상기 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 출력으로 하며, 그 중에서, 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는 바,
조건 1: 적어도 두 개의 기존의 VAD 편단 결과가 모두 1이며;
조건 2: 적어도 두 개의 기존의 VAD 편단 결과의 합이 연합 판단 역치보다 크고, 또한 조성 신호 아이디가 1로 설정되며;
조건 3: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며, 조성 신호 아이디가 1으로 설정된다.
본 발명의 실시예 중의 101 단계 내지 106 단계는 엄격한 시간 순서를 가지는 것이 아니며(그 중의 102, 103과 104 단계의 시간을 거꾸로되어서는 아니됨), 본 발명의 실시예에서 연합 VAD 판단을 수행할 때 필요한 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과를 취득할 수 있는 방안이기만 하면, 모두 본 발명의 실시예의 보호 범위에 속한다.
아래, 도면을 참조하여 본 발명의 실시예2에 대하여 설명을 진행하도록 한다.
도2에 도시된 바와 같이, 전 프레임 배경 노이즈 에너지의 계산 방법을 제공하는 바, 전 프레임의 배경 노이즈 에너지는 평균 전 대역 신호대잡음비의 계산에 이용된다. 전 프레임의 배견 노으지 에니저를 계산하는 과정과 현재 프레임의 배경 노이즈 에너지를 계산하는 과정이 동일하며, 본 실시예에서는 현재 프레임의 전 대역 배경 노이즈 에너지의 계산 방법을 제공한다.
201 단계: 현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 바, 계산 방법은 102 단계를 참조하면 된다.
202 단계: 서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하고, 주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하는 바, 계산 방법은 103 단계를 참조하면 된다.
203 단계: 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 조성 특징 파라미터에 의하여 현재 프레임의 배경 노이즈 아이디를 산출한다. 배경 노이즈 아이디는 현재 프레임이 노이즈 신호인지 여부를 표시하며, 만일 노이즈 신호라면 배경 노이즈 아이디를 1로 설정하고, 그렇지 않으면 0으로 설정한다.
바람직하게는, 현재가 배경 노이즈 신호이고, 다음 프레임을 판단하는 조건이 성림된다면, 현재 프레임이 노이즈 신호가 아니라고 판단한다.
조건 1: 상기 시간 도메인 안정도 특징 파라미터
Figure 112016020275434-pct00059
이 하나의 설정된 시간 도메인 안정도 판단 역치보다 크며;
조건 2: 제1 구간 스펙트럼 무게중심 특징 파라미터 값의 평활 필터링 값이 하나의 설정된 스펙트럼 무게중심 역치보다 크거, 또한 시간 도메인 안정도 특징 파라미터 값도 설정된 시간 도메인 특징 역치보다 크며;
조건 3: 조성 특징 파라미터 또는 이의 평활 필터링 후의 값이 하나의 설정된 조성 특징 파라미터 역치보다 크거, 또한 시간 도메인 안정도 특징 파라미터
Figure 112016020275434-pct00060
값이 설정된 시간 도메인 특징 역치보다 크며;
조건 4: 각 서브밴드의 스펙트럼 편평도 특징 파라미터 또는 각자 평활 펄터링 후의 값이 모두 각자에 대응되는 설정된 스펙트럼 편편도 역치보다 작으며;
조건 5: 프레임 에너지 파라미터 Et1의 값이 설정된 프레임 에너지 역치 E_thr1보다 크다고 판단한다.
본 실시예에서는 하나의 배경 노이즈 아이디 background_flag를 통하여 현재 프레임이 배경 노이즈인지 여부를 지시하며, 또한 현재 프레임이 배경 노이즈라고 판단하면 배경 노이지 아이디 background_flag를 1로 설정하고, 그렇지 않으면 배경 노이즈 아이디 background_flag를 0으로 설정하도록 약정한다.
시간 도메인 안정도 특징 파라미터, 스펙트럼 무게중심 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 조성 특징 파라미터, 현재 프레임 에너지 파라미터에 의하여 현재 프레임의 배경 노이즈 신호인지 여부를 탐지한다. 만일 노이즈 신호가 아니라면, 배경 노이즈 아이디 background_flag를 0으로 설정한다.
과정은 하기와 같다.
조건 1에 대하여, 시간 도메인 안정도 특징 파라미터
Figure 112016020275434-pct00061
이 하나의 설정된 시간 도메인 안정도 판단 역치
Figure 112016020275434-pct00062
보다 큰지 여부를 판단한다. 만일 크다면, 현재 프레임이 노이즈 신호가 아니라고 판단하고, background_flag를 0으로 설정한다. 본 발명의 실시예에서, 제1 시간 도메인 안정도 역치
Figure 112016020275434-pct00063
의 값 범위는 [0.8, 1.6]이며;
조건 2에 대하여, 제1 구간 평활 스펙트럼 무게중심 특징 파라미터 값이 하나의 설정된 제1 스펙트럼 무게중심 역치
Figure 112016020275434-pct00064
보다 큰지, 또한 시간 도메인 안정도 특징 파라미터 값
Figure 112016020275434-pct00065
도 설정된 제2 시간 도메인 특징 역치
Figure 112016020275434-pct00066
보다 큰지 여부를 판단한다. 만일 크다면, 현재 프레임이 노이즈 신호가 아니라고 판단하고, background_flag를 0으로 설정한다.
Figure 112016020275434-pct00067
의 값 범위는 [1.6,4]이며;
Figure 112016020275434-pct00068
의 값 범위는 [0,0.1]이다.
조건 3에 대하여, 조성 특징 파라미터
Figure 112016020275434-pct00069
의 값이 제1 조성 특징 파라미터 역치
Figure 112016020275434-pct00070
보다 큰지, 시간 도메인 안정도 특징 파라미터
Figure 112016020275434-pct00071
의 값이 설정된 제3 시간 도메인 안정도 역치
Figure 112016020275434-pct00072
보다 큰지 여부를 판단하여, 만일 상기 조건이 동시에 성림된다면, 현재 프레임이 배경 노이즈가 아니라고 판단하고, background_flag에 0 값을 부여한다.
Figure 112016020275434-pct00073
값 범위는 [0.4,0.66]이다.
Figure 112016020275434-pct00074
의 값 범위는 [0.06,0.3]이다.
조건 4에 대하여, 제1 편평도 특징 파라미터
Figure 112016020275434-pct00075
의 값이 설정된 제1 평탄도 역치
Figure 112016020275434-pct00076
보다 작은지 여부를 판단하고, 제2 평단도 특징 파라미터
Figure 112016020275434-pct00077
의 값이 제2 평탄도 역치
Figure 112016020275434-pct00078
보다 작은지 여부를 판단하며, 제3 평단도 특징 파라미터
Figure 112016020275434-pct00079
의 값이 설정된 제3 평단도 역치
Figure 112016020275434-pct00080
보다 작은지 여부를 판단한다. 만일 상기 조건이 동시에 성립되면, 현재 프레임이 배경 노이즈가 아니라고 판단한다. background_flag에 0 값을 부여한다. 역치
Figure 112016020275434-pct00081
,
Figure 112016020275434-pct00082
,
Figure 112016020275434-pct00083
의 값 범위는 [0.88,0.98]이다. 제1 편평도 특징 파라미터
Figure 112016020275434-pct00084
의 값이 설정된 제4 평단도 역치
Figure 112016020275434-pct00085
보다 작은지 여부를 판단하고, 제2 평단도 특징 파라미터
Figure 112016020275434-pct00086
의 값이 제5 평탄도 역치
Figure 112016020275434-pct00087
보다 작은지 여부를 판단하며, 제2 평단도 특징 파라미터
Figure 112016020275434-pct00088
의 값이 설정된 제6 평단도 역치
Figure 112016020275434-pct00089
보다 작은지 여부를 판단한다. 만일 상기 임의의 하나가 성립되면, 현재 프레임이 배경 노이즈가 아니라고 판단한다. background_flag에 0 값을 부여한다.
Figure 112016020275434-pct00090
,
Figure 112016020275434-pct00091
,
Figure 112016020275434-pct00092
의 값 범위는 [0.80,0.92]이다.
조건 5에 대하여, 프레임 에너지 파라미터
Figure 112016020275434-pct00093
의 값이 설정된 프레임 에너지 역치
Figure 112016020275434-pct00094
보다 큰지 여부를 판단하며, 만일 상기 조건이 성립되면, 현재 프레임이 배경 노이즈가 아니라고 판단한다. background_flag에 0 값을 부여한다.
Figure 112016020275434-pct00095
프레임 에너지 파라미테의 동적 범위에 의하여 값을 취한다.
204 단계: 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 조성 신호 아이디를 산출하며; 본 단계는 본 발명의 실시예3 중의 조선 신호 계산 과정을 참조하면 된다.
205 단계: 프레임 에너지 파라미터, 배경 노이즈 아이디, 조성 신호 아이디에 의하여 현재 프레임 배경 노이즈 에너지를 산출한다. 단계는 하기와 같다.
1. 만일 현재 프레임의 배경 노이즈가 1로 표시되었다면, 배경 노이즈 에너지 누적 값
Figure 112016020275434-pct00096
과 배경 노이즈 에너지 누계 프레임 수
Figure 112016020275434-pct00097
를 업데이트시키는 바, 계산 방정식은 하기와 같다.
Figure 112016020275434-pct00098
Figure 112016020275434-pct00099
그 중에서,
Figure 112016020275434-pct00100
은 전 프레임의 배경 노이즈 에너지 누적 값이고,
Figure 112016020275434-pct00101
은 전 프레임이 산출한 배경 노이즈 에너지 누계 프레임 수이다.
2. 전 대역 배경 노이즈 에너지는 배경 노이즈 에너지 누적 값
Figure 112016020275434-pct00102
과 누계 프레임 수
Figure 112016020275434-pct00103
의 비율에 의하여 취득한다.
Figure 112016020275434-pct00104
Figure 112016020275434-pct00105
가 64와 같은지 판단하여, 만일
Figure 112016020275434-pct00106
가 64와 같다면, 배경 노이즈 에너지 누적 값
Figure 112016020275434-pct00107
과 누계 프레임 수
Figure 112016020275434-pct00108
에 각각 0.75를 곱한다.
3. 조성 신호 아이디, 프레임 에너지 파라미터, 전 대역 배경 노으지 에너지의 값에 의하여 배경 노이즈 에너지 누적 값을 조정한다. 계산 과정은 하기와 같다.
만일 조성 아이디 tonality _flag가 1과 같과 또한 프레임 에너지 파라미터
Figure 112016020275434-pct00109
의 값이 배경 노이즈 에너지 특징 파라미터
Figure 112016020275434-pct00110
의 값에 하나의 게인 계수
Figure 112016020275434-pct00111
를 곱한 것보다 작다면,
그러면,
Figure 112016020275434-pct00112
그 중에서,
Figure 112016020275434-pct00113
의 값 범위는 [0.3,1]이다.
아래, 본 발명의 실시예3에 대하여 설명을 진행하도록 한다.
본 발명의 실시예에서는 보이스 활성화 탐지 방법을 제공하는 바, 본 발명의 실시예1 및 실시예2에서 제공하는 기술적 수단과 결합하여 조성 신호 아이디를 계산할 수 있는 바, 하기 단계를 포함한다.
조성 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 스펙트럼 무게중심 특징 파라미터에 의하여 현재 프레임이 조성 신호인지 여부를 판단한다.
조성 신호인지 여부를 판단할 때, 하기 조작을 실행한다.
1. 하나의 조성 프레임 아이디 tonality_ frame으로 현재 프레임이 조성 프레임인지 여부를 지시하며;
본 발명의 실시예에서, tonality_ frame의 값이 1일 때 현재 프레임이 조성 프레임임을 표시하고, 0일 때 현재 프레임이 비조성 프레임임을 표시하며;
2. 조성 특징 파라미터
Figure 112016020275434-pct00114
의 값 또는 이의 평활 필터링 후의
Figure 112016020275434-pct00115
의 값이 대응되게 설정된 제1 조성 특징 판단 역치
Figure 112016020275434-pct00116
또는 제2 조성 특징 판단 역치
Figure 112016020275434-pct00117
보다 큰지 여부를 판단하여, 만일 상기 조건 중의 하나가 성립되면 3 단계로 진행하고, 그렇지 않으면 4 단계로 진행하며;
그 중에서,
Figure 112017051280211-pct00118
의 값 범위는 [0.5,0.7]이고,
Figure 112017051280211-pct00162
의 값 범위는 [0.7,0.99]이다.
3. 만일 시간 도메인 안정도 특징 파라미터 값
Figure 112016020275434-pct00120
이 하나의 설정된 제1 시간 도메인 안정도 판정 역치
Figure 112016020275434-pct00121
보다 작으며; 스펙트럼 무게중심 특징 파라미터 값
Figure 112016020275434-pct00122
가 하나의 설정된 제1 스펙트럼 무게중심 판정 역치
Figure 112016020275434-pct00123
보다 크며, 또한 각 서브밴드의 스펙트럼 평탄도 특징 파라미터가 모두 각자 대응되는 사전 설정된 스펙트럼 평탄도 역치보다 작은 바, 즉 제1 스펙트럼 평탄도 특징 파라미터
Figure 112016020275434-pct00124
가 하나의 설정된 제1 스펙트럼 평탄도 판단 역치
Figure 112016020275434-pct00125
보다 작거나, 또는 제2 스펙트럼 평탄도 파라미터
Figure 112016020275434-pct00126
가 하나의 설정된 스펙트럼 평탄도 판단 역치
Figure 112016020275434-pct00127
보다 작거나, 또는 제3 스펙트럼 평탄도 파라미터
Figure 112016020275434-pct00128
가 하나의 설정된 제3 스펙트럼 평탄도 판단 역치
Figure 112016020275434-pct00129
보다 작으며; 그러면 현재 프레임을 조성 프레임으로 판단하고, 조성 프레임 아미디 tonality_ frame의 값을 1로 설정하며, 그렇지 않으면 현재 프레임을 비조성 프레임으로 판단하고, 조성 프레임 아이디 tonality_ frame의 값을 0으로 설정한다. 그리고 계속하여 4 단계로 진행한다.
그 중에서,
Figure 112016020275434-pct00130
의 값 범위는 [0.01,0.25]이고,
Figure 112016020275434-pct00131
은 [1.0,1.8]이며,
Figure 112016020275434-pct00132
은 [0.6,0.9]이고,
Figure 112016020275434-pct00133
는 [0.6,0.9]이며,
Figure 112016020275434-pct00134
은 [0.7,0.98]이다.
4. 조성 프레임 아이디 tonality_ frame에 의하여 조성 정도 특징 파라미터
Figure 112016020275434-pct00135
에 대하여 업데이트를 수행하는 바, 그 중에서 조성 정도 파라미터
Figure 112016020275434-pct00136
초기 값은 보이스 활성화 탐지가 시작될 때 설정되고, 값 범위는 [0,1]이다. 서로 다른 상황 하에서, 조성 정도 특징 파라미터
Figure 112016020275434-pct00137
의 계산 방법은 다르다.
만일 현재의 조성 프레임 아이디가 현재 프레임이 조성 프레임이라는 것을 지시하면, 하기 표현식을 이용하여 조성 정도 특징 파라미터
Figure 112016020275434-pct00138
에 대하여 업데이트를 진행하는 바, 즉
Figure 112016020275434-pct00139
그 중에서,
Figure 112016020275434-pct00140
은 전 프레임의 조성 정소 특징 파라미터이다. 이의 초기 값의 값 범위는 [0,1]이다.
Figure 112016020275434-pct00141
는 감쇄 계수이고, 이의 값 범위는 [0,1]이며;
Figure 112016020275434-pct00142
는 누적 계수이고, 이의 값 범위는 [0,1]이다.
5. 업데이트된 조성 정도 특징 파라미터
Figure 112016020275434-pct00143
에 의하여 현재 프레임이 조성 신호인지 여부를 판단하고, 또한 조성 아이디 tonality _flag의 값을 설정하며;
만일 조성 정도 특징 파라미터
Figure 112016020275434-pct00144
가 설정된 조성 정도 역치보다 크면, 현재 프레임을 조성 신호로 판단하고, 그렇지 않으면 현재 프레임을 비조성 신호로 판단한다.
아래, 도면을 참조하여 본 발명의 실시예4에 대하여 설명을 진행하도록 한다.
본 발명의 실시예에서는 또한 보이스 활성화 탐지 장치를 제공하는 바, 도3에 도시된 바와 같이, 해당 장치에는,
연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하도록 설정되는 연합 판단 모듈(301)이 포함된다.
바람직하게는, 상기 장치에는 또한 파라미터 취득 모듈(302)이 포함되고, 상기 파라미터 취득 모듈(302)의 구조는 도4에 도시된 바와 같으며,
현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하도록 설정되는 제1 파라미터 취득 유닛(3021);
서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하도록 설정되는 제2 파라미터 취득 유닛(3022);
주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하도록 설정되는 제3 파라미터 취득 유닛(3023)(계산 방법은 본 발명의 실시예3을 참조할 수 있음);
조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하도록 설정되는 제4 파라미터 취득 유닛(3024);이 포함된다.
바람직하게는, 상기 파라미터 취득 모듈(302)에는 또한,
전 프레임에 의하여 추정한 배경 노이즈 에너지를 취득하도록 설정되는 제5 파라미터 취득 유닛(3025)(계산 방법은 본 발명의 실시예2를 참조할 수 있음);
상기 전 프레임에 의하여 추정한 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하도록 설정되는 제6 파라미터 취득 유닛(3026);이 포함된다.
바람직하게는, 상기 파라미터 취득 모듈(302)에는 또한,
현재 프레임이 제1 프레임일 때, 상기 연속 보이스 활성화 프레임 수량을 0으로 확정하며;
현재 프레임이 제2 프레임 및 제2 프레임 후의 음성 프레임일 때, 전 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하며; 연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하며;
vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하도록 설정되는 제7 파라미트 취득 유닛(3027)이 포함된다.
바람직하게는, 상기 파라미터 취득 모듈(302)에는 또한,
적어도 두 가지의 기존의 VAD 판단 결과를 취득하도록 설정되는 제8 파라미터 취득 유닛(3028)이 포함된다.
본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공하는 바, 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하여, 여러 가지 파라미터에 의하여 VAD 판단을 진행하는 것을 구현하고, VAD 판단의 정확성을 향상시키며, VAD 탐지가 정확하지 않은 문제를 해결하였다.
당업계의 기술자들은 상기 실시예의 전부 또는 일부 단계는 컴퓨터 프로그램의 형식으로 구현될 수 있음을 이해할 것이며, 상기 컴퓨터 프로그램은 컴퓨터 판독가능한 저장 매체에 저장될 수 있고, 상기 컴퓨터 프로그램은 상응한 하드웨어 플랫폼(예를 들면 시스템, 설비, 장치, 소자 등) 상에서 실행될 수 있고, 실행 시 방법 실시예의 한 단계 또는 이들의 조합을 포함할 수 있다.
선택적으로,상기 실시예의 모든 또는 일부 단계는 선택적으로 하나 또는 다수의 직접회로를 이용하여 구현할 수 있으며, 이러한 단계는 각각 하나 또는 다수의 집적 회로 모듈로 제작하거나, 또는 이들 중의 다수의 모듈 또는 단계를 단일 직접 회로 모듈로 제적하여 구현할 수 있다. 이로써 본 발명의 실시예는 어떠한 특정된 하드웨어와 소프웨어 결합의 제한을 받지 않는다.
상기 실시예 중의 여러 장치/ 기능 모듈/ 기능 유닛은 범용 컴퓨터 장치를 이용하여 구현할 수 있으며, 이들은 단일 컴퓨터 장치 상에 집중될 수도 있고, 또한 다수 컴퓨터 장치로 구성된 네트워크 상에 분산될 수도 있다.
상기 실시예 중의 여러 장치/ 기능 모듈/ 기능 유닛이 소프트웨어 기능 모듈의 형식으로 구현되고 또한 독립적인 제품으로 판매 또는 사용될 때, 하나의 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 상기 컴퓨터 판독가능한 저장 매체는 ROM, 디스크 또는 CD일 수 있다.
이상에서는 본 발명을 특정의 실시예에 대해서 도시하고 설명하였지만, 본 발명은 상술한 실시예만 한정되는 것은 아니다. 본 발명이 속하는 기술분야에서 속하는 기술분야에서 통상의 지식을 가진 자라면 이하의 청구범위에 기재된 본 발명의 기술적 사상의 요지를 벗어나지 않는 범위에서 얼마든지 다양하게 변경하여 실시할 수 있을 것이다.
산업상 활용성
본 발명의 실시예에서는 보이스 활성화 탐지 방법 및 장치를 제공하는 바, 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하여, 여러 가지 파라미터에 의하여 VAD 판단을 진행하는 것을 구현하고, VAD 판단의 정확성을 향상시키며, VAD 탐지가 정확하지 않은 문제를 해결하였다.

Claims (16)

  1. 보이스 활성화 탐지 방법에 있어서,
    상기 방법에는
    현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 단계;
    서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하는 단계;
    주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성(調性) 특징 파라미터의 값을 산출하는 단계;
    조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 조성 신호 아이디를 산출하는 단계;
    연속 보이스 활성화 프레임 수량, 평균 전(全) 대역 신호대잡음비, 상기 조성 신호 아이디와 적어도 두 가지 기존의 보이스 활성화 탐지(VAD) 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 방법에는 또한,
    전(前) 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지를 취득하는 단계;
    상기 전 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하는 단계;가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
  4. 제3항에 있어서, 상기 전 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지를 취득하는 단계에는,
    전 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하는 단계;
    전 프레임 서브밴드 신호에 의하여 전 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터의 값을 산출하는 단계;
    전 프레임 주파수 스펙트럼 진폭값에 의하여 전 프레임 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터를 산출하는 단계;
    전 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터, 조성 특징 파라미터에 의하여 전 프레임의 배경 노이즈 아이디를 산출하는 단계;
    전 프레임의 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 전 프레임의 조성 신호 아이디를 산출하는 단계;
    전 프레임의 배경 노이즈 아이디, 프레임 에너지 파라미터, 조성 신호 아이디, 전 제2 프레임의 전 대역 배경 노이즈 에너지에 의하여 전 프레임 전 대역 배경 노이즈 에너지를 취득하는 단계;가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
  5. 제4항에 있어서,
    상기 프레임 에너지 파라미터는 각 서브밴드 신호 에너지의 가중 중첩 값 또는 직접 중첩 값이며;
    상기 스펙트럼 무게중심 특징 파라미터는 전부 또는 일부 서브밴드 신호 에너지의 가중 누적 값과 비가중 누적 값의 비율, 또는 상기 비율에 대하여 평활 필터링을 진행하여 취득한 값이며;
    상기 시간 도메인 안정도 특징 파라미터는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값의 분산 또는 다수의 인접된 두 프레임 에너지 진폭 값 중첩 값 평방의 원하는 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;
    상기 스펙트럼 편평도 특징 파라미터는 일부 주파수 스펙트럼 진폭 값의 기하 평균수와 산술 평균수의 비율, 또는 상기 비율에 하나의 계수를 곱한 것이며;
    조성 특징 파라미터는 전후 두 프레임 신호의 프레임 내 주파수 스펙트럼 차분 계수의 관련 계수를 계산하여 취득하거나, 또는 계속하여 상기 관련 계수에 대하여 평활 필터링을 진행하여 취득하는 것인; 것을 특징으로 하는 보이스 활성화 탐지 방법.
  6. 제1항에 있어서, 조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 상기 조성 신호 아이디를 산출하는 단계에는,
    A) 현재 프레임 신호가 비조성 신호이고, 하나의 조성 프레임 아이디 tonality_ frame으로 현재 프레임이 조성 프레임인지 여부를 지시하는 단계;
    B) 조건 1: 조성 특징 파라미터
    Figure 112017105634113-pct00145
    의 값이 대응되게 설정된 제1 조성 특징 파라미터 판단 역치보다 크며;
    조건 2: 조성 특징 파라미터 평활 필터링 후
    Figure 112017105634113-pct00163
    의 값이 대응되게 설정된 제2 조성 특징 파라미터 역치보다 크며;
    와 같은 상기 조건 중의 하나를 만족시킬 때 C) 단계를 실행하고, 상기 두 조건을 모두 만족시키지 않을 때 D) 단계를 실행하는 단계;
    C) 현재 프레임이 조성 프레임인지 여부를 판단하고, 또한 판단 결과에 의하여 상기 조성 프레임 아이디의 값을 설정하는 단계;
    조건 1: 상기 시간 도메인 안정도 특징 파라미터 값이 하나의 설정된 제1 시간 도메인 안정도 판단 역치보다 작으며;
    조건 2: 스펙트럼 무게중심 특징 파라미터 값이 하나의 설정된 제1 스펙트럼 무게중심 판단 역치보다 크며;
    조건 3: 각 서브밴드의 스펙트럼 편평도 특징 파라미터가 모두 각각 대응되는 사전 설정된 스펙트럼 편평도 판단 역치보다 작을 때, 현재 프레임을 조성 프레임으로 판단하고, 상기 조성 프레임 아이디의 값을 설정하며;
    와 같은 상기 조건중의 전부 조건을 만족시킬 때 상기 현재 프레임을 조성 프레임으로 판단하고, 임의 하나 또는 다수의 상기 조건을 만족시키지 않을 때, 상기 현재 프레임을 비조성 프레임으로 판단하고 D) 단계를 실행하며,
    D) 상기 조성 프레임 아이디에 의하여 조성 정도 특징 파라미터
    Figure 112017105634113-pct00147
    에 대하여 업데이트를 수행하는 바, 그 중에서 조성 정도 파라미터
    Figure 112017105634113-pct00148
    초기 값은 보이스 활성화 탐지가 시작될 때 설정되는 단계;
    E) 업데이트된 상기 조성 정도 특징 파라미터
    Figure 112017105634113-pct00149
    에 의하여 상기 현재 프레임이 조성 신호인지 여부를 판단하고, 또한 조성 아이디 tonality _flag의 값을 설정하는 단계;가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
  7. 제6항에 있어서, 현재의 조성 프레임 아이디가 상기 현재 프레임이 조성 프레임이라는 것을 지시할 때, 하기 표현식을 이용하여 조성 정도 특징 파라미터
    Figure 112016020275434-pct00150
    에 대하여 업데이트를 진행하는 바,
    Figure 112016020275434-pct00151
    이며,
    그 중에서,
    Figure 112016020275434-pct00152
    은 전 프레임의 조성 정도 특징 파라미터이고, 이의 초기 값 범위는 [0,1]이며,
    Figure 112016020275434-pct00153
    는 감쇄 계수이고,
    Figure 112016020275434-pct00154
    는 누적 계수인 것을 특징으로 하는 보이스 활성화 탐지 방법.
  8. 제6항에 있어서,
    조성 정도 특징 파라미터
    Figure 112016020275434-pct00155
    가 설정된 조성 정도 역치보다 클 때, 현재 프레임을 조성 신호로 판단하며;
    조성 정도 특징 파라미터
    Figure 112016020275434-pct00156
    가 설정된 조성 정도 역치보다 작거나 같을 때, 현재 프레임을 비조성 신호로 판단하는; 것을 특징으로 하는 보이스 활성화 탐지 방법.
  9. 제1항에 있어서, 상기 방법에는 또한,
    현재 프레임이 제2프레임 및 제2 프레임 후의 음성 프레임일 때, 전(前) 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하는 단계;
    연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하는 단계;
    vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하는 단계;가 포함되는 것을 특징으로 하는 보이스 활성화 탐지 방법.
  10. 제9항에 있어서, 상기 방법에는 또한,
    현재 프레임이 제1 프레임일 때, 상기 연속 보이스 활성화 프레임 수량은 0인 것을 포함하는 것을 특징으로 하는 보이스 활성화 탐지 방법.
  11. 제1항에 있어서, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시하며, 상기 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계에는,
    조건 1: 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;
    조건 2: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며;
    조건 3: 조성 신호 아이디가 1로 설정되는;
    상기 조건중의 임의의 하나의 조건을 만족시킬 때, 적어도 두 가지 기존의 VAD의 판단 결과의 논리 연산을 선택하여 연합 VAD 판단 결과로 하고, 상기 임의의 하나의 조건을 만족시키지 않을 때, 상기 적어도 두 가지 기존의 VAD의 판단 결과 중의 하나의 기존의 VAD 판단 결과를 선택하여 연합 VAD 판단 결과로 하는 바, 그 중에서, 상기 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는,
    것을 특징으로 하는 보이스 활성화 탐지 방법.
  12. 제1항에 있어서, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 1일 때 보이스 활성화 프레임으로 표시하고, 상기 기존의 VAD 판단 결과 또는 연합 VAD 판단 결과가 0일 때 보이스 비활성화 프레임으로 표시하며, 상기 연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하는 단계에는,
    조건 1: 적어도 두 개의 기존의 VAD 편단 결과가 모두 1이며;
    조건 2: 적어도 두 개의 기존의 VAD 편단 결과의 합이 연합 판단 역치보다 크고, 또한 조성 신호 아이디가 1로 설정되며;
    조건 3: continuous_speech_num2가 연속 보이스 활성화 프레임 수량 역치보다 크고 또한 평균 전 대역 신호대잡음비가 신호대잡음비 역치보다 크며, 조성 신호 아이디가 1로 설정되는;
    상기 조건중의 임의의 하나의 조건을 만족시킬 때, 상기 연합 VAD 판단 결과는 1이리고, 상기 임의의 하나의 조건을 만족시키지 않을 때, 상기 적어도 두개의 기존의 VAD의 판단 결과의 논리 연산을 선택하여 출력으로 하며, 그 중에서, 논리 연산은 "OR" 연산 또는 "AND" 연산인 단계가 포함되는,
    것을 특징으로 하는 보이스 활성화 탐지 방법.
  13. 보이스 활성화 탐지 장치에 있어서,
    현재 프레임의 서브밴드 신호 및 주파수 스펙트럼 진폭값을 취득하도록 설정되는 제1 파라미터 취득 유닛;
    서브밴드 신호에 의하여 현재 프레임의 프레임 에너지 파라미터, 스펙트럼 무게중심 특징 파라미터 및 시간 도메인 안정도 특징 파라미터의 값을 산출하도록 설정되는 제2 파라미터 취득 유닛;
    주파수 스펙트럼 진폭값에 의하여 스펙트럼 편평도 특징 파라미터 및 조성 특징 파라미터의 값을 산출하도록 설정되는 제3 파라미터 취득 유닛;
    조성 특징 파라미터, 스펙트림 무게중심 특징 파라미터, 시간 도메인 안정도 특징 파라미터, 스펙트럼 편평도 특징 파라미터에 의하여 조성 신호 아이디를 산출하도록 설정되는 제4 파라미터 취득 유닛;이 포함되는 파라미터 취득 모듈;
    연속 보이스 활성화 프레임 수량, 평균 전 대역 신호대잡음비, 조성 신호 아이디와 적어도 두 가지 기존의 VAD 판단 결과에 의하여 최종 연합 VAD 판단 결과를 취득하도록 설정되는 연합 판단 모듈이 포함되는 것을 특징으로 하는 보이스 활성화 탐지 장치.
  14. 삭제
  15. 제13항에 있어서, 상기 파라미터 취득 모듈에는 또한,
    전 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지를 취득하도록 설정되는 제5 파라미터 취득 유닛;
    상기 전 프레임에 의하여 추정하여 얻은 배경 노이즈 에너지, 현재 프레임의 프레임 에너지 파라미터에 의하여 상기 평균 전 대역 신호대잡음비를 산출하도록 설정되는 제6 파라미터 취득 유닛;이 포함되는 것을 특징으로 하는 보이스 활성화 탐지 장치.
  16. 제13항에 있어서, 상기 파라미터 취득 모듈에는 또한,
    현재 프레임이 제1 프레임일 때, 상기 연속 보이스 활성화 프레임 수량을 0으로 확정하며;
    현재 프레임이 제2프레임 및 제2 프레임 후의 음성 프레임일 때, 전 연합 VAD 판단 결과에 의하여 현재의 연속 보이스 활성화 프레임 수량 continuous_speech_num2를 산출하며;
    연합 VAD 아이디 vad_flag 아이디가 1일 때, continuous_speech_num2에 1을 더하며;
    vad_flag가 0으로 판단되면, continuous_speech_num2를 0으로 설정하도록 설정되는 제7 파라미트 취득 유닛이 포함되는 것을 특징으로 하는 보이스 활성화 탐지 장치.
KR1020167005654A 2013-08-30 2014-05-16 보이스 활성화 탐지 방법 및 장치 KR101831078B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310390795.7 2013-08-30
CN201310390795.7A CN104424956B9 (zh) 2013-08-30 2013-08-30 激活音检测方法和装置
PCT/CN2014/077704 WO2014177084A1 (zh) 2013-08-30 2014-05-16 激活音检测方法和装置

Publications (2)

Publication Number Publication Date
KR20160039677A KR20160039677A (ko) 2016-04-11
KR101831078B1 true KR101831078B1 (ko) 2018-04-04

Family

ID=51843162

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167005654A KR101831078B1 (ko) 2013-08-30 2014-05-16 보이스 활성화 탐지 방법 및 장치

Country Status (7)

Country Link
US (1) US9978398B2 (ko)
EP (1) EP3040991B1 (ko)
JP (1) JP6412132B2 (ko)
KR (1) KR101831078B1 (ko)
CN (1) CN104424956B9 (ko)
PL (1) PL3040991T3 (ko)
WO (1) WO2014177084A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200114019A (ko) 2019-03-27 2020-10-07 주식회사 공훈 음성의 피치 정보에 기초한 화자 식별 방법 및 그 장치

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
CN105261375B (zh) 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
CN105654947B (zh) * 2015-12-30 2019-12-31 中国科学院自动化研究所 一种获取交通广播语音中路况信息的方法及系统
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
WO2018106971A1 (en) * 2016-12-07 2018-06-14 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
IT201700044093A1 (it) * 2017-04-21 2018-10-21 Telecom Italia Spa Metodo e sistema di riconoscimento del parlatore
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
CN109427345B (zh) * 2017-08-29 2022-12-02 杭州海康威视数字技术股份有限公司 一种风噪检测方法、装置及系统
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN109285563B (zh) * 2018-10-15 2022-05-06 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN111292758B (zh) * 2019-03-12 2022-10-25 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
CN110431625B (zh) * 2019-06-21 2023-06-23 深圳市汇顶科技股份有限公司 语音检测方法、语音检测装置、语音处理芯片以及电子设备
US11823706B1 (en) * 2019-10-14 2023-11-21 Meta Platforms, Inc. Voice activity detection in audio signal
CN111739562B (zh) * 2020-07-22 2022-12-23 上海大学 一种基于数据选择性和高斯混合模型的语音活动检测方法
CN112908350B (zh) * 2021-01-29 2022-08-26 展讯通信(上海)有限公司 一种音频处理方法、通信装置、芯片及其模组设备
CN115862685B (zh) * 2023-02-27 2023-09-15 全时云商务服务股份有限公司 一种实时语音活动的检测方法、装置和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884255A (en) 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
JP4123835B2 (ja) 2002-06-13 2008-07-23 松下電器産業株式会社 雑音抑圧装置および雑音抑圧方法
US7860718B2 (en) 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN102044242B (zh) * 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
KR20120091068A (ko) 2009-10-19 2012-08-17 텔레폰악티에볼라겟엘엠에릭슨(펍) 음성 활성 검출을 위한 검출기 및 방법
US8626498B2 (en) 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
WO2012083554A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
JP5737808B2 (ja) 2011-08-31 2015-06-17 日本放送協会 音響処理装置およびそのプログラム
US9111531B2 (en) 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
CN103117067B (zh) * 2013-01-19 2015-07-15 渤海大学 一种低信噪比下语音端点检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Digital Cellular telecommunications system(Phase 2+): ‘Voice Activity Detector(VAD) for Adaptive Multi-Rate(AMR) speech traffic channels’, ETSI EN 301 708, V7.1.0, July 1999.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200114019A (ko) 2019-03-27 2020-10-07 주식회사 공훈 음성의 피치 정보에 기초한 화자 식별 방법 및 그 장치

Also Published As

Publication number Publication date
WO2014177084A1 (zh) 2014-11-06
JP6412132B2 (ja) 2018-10-24
CN104424956A (zh) 2015-03-18
EP3040991A4 (en) 2016-09-14
JP2016529555A (ja) 2016-09-23
US9978398B2 (en) 2018-05-22
CN104424956B9 (zh) 2022-11-25
PL3040991T3 (pl) 2021-08-02
KR20160039677A (ko) 2016-04-11
CN104424956B (zh) 2018-09-21
US20160203833A1 (en) 2016-07-14
EP3040991A1 (en) 2016-07-06
EP3040991B1 (en) 2021-04-14

Similar Documents

Publication Publication Date Title
KR101831078B1 (ko) 보이스 활성화 탐지 방법 및 장치
CN105261375B (zh) 激活音检测的方法及装置
CA2990328C (en) Voice activity modification frame acquiring method, and voice activity detection method and apparatus
US9672841B2 (en) Voice activity detection method and method used for voice activity detection and apparatus thereof
US9959886B2 (en) Spectral comb voice activity detection
CN103903634B (zh) 激活音检测及用于激活音检测的方法和装置
CN103026407A (zh) 带宽扩展器
CN106816157A (zh) 语音识别方法及装置
CN112530450A (zh) 频域中的样本精度延迟识别
JP2021015137A (ja) 情報処理装置、プログラム及び情報処理方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant