KR20000022285A - 음성 액티비티 검출기 및 검출 방법 - Google Patents

음성 액티비티 검출기 및 검출 방법 Download PDF

Info

Publication number
KR20000022285A
KR20000022285A KR1019980710706A KR19980710706A KR20000022285A KR 20000022285 A KR20000022285 A KR 20000022285A KR 1019980710706 A KR1019980710706 A KR 1019980710706A KR 19980710706 A KR19980710706 A KR 19980710706A KR 20000022285 A KR20000022285 A KR 20000022285A
Authority
KR
South Korea
Prior art keywords
spectral
value
signal
spectrum
noise
Prior art date
Application number
KR1019980710706A
Other languages
English (en)
Inventor
네일 로버트 가너
폴 알렉산더 바래트
Original Assignee
내쉬 로저 윌리엄
브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 내쉬 로저 윌리엄, 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 filed Critical 내쉬 로저 윌리엄
Publication of KR20000022285A publication Critical patent/KR20000022285A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

본 발명은 음성 액티비티 검출기에 관한 것으로서, 본 검출기는 이동 전화기에 적용하기에 적합하고, 입력 신호(19)가 잡음(전송되길 원하지 않는)으로 구성되었는지 또는 음성이나 정보 톤(전송되길 원하는)으로 구성되었는지에 대한 결정(79)을 더 좋게 제공할 수 있는 장점, 특히 잡음 환경에서의 장점을 가지고 있고, 다수의 구성성분들, 특히 보조 음성 액티비티 검출기(3)를 구비하고 있는데, 이 보조 음성 액티비티 검출기(3)는 잡음의 스펙트럼보다도 더욱 빠르게 음성 변화의 스펙트럼에 기초하여 잡음과 음성을 구별하고, 이 결과 상기 보조 검출기(3)는 음성 신호를 잡음 신호로 잘못 인식하는 경우가 거의 없어서 매우 안정적인 잡음 템플릿(421)이 얻어지는데, 이러한 이유로 상기 보조 검출기(3)는 잡음 감소 애플리케이션에도 유용하며, 본 음성 액티비티 검출기도 신경망 분류기(7)로도 사용되는 것을 특징으로 한다.

Description

음성 액티비티 검출기 및 검출 방법
본 발명은 음성 액티비티 검출기(voice activity detector)에 관한 것이다. 특히 메인 음성 액티비티 검출기에 포함되어 있는 보조 음성 액티비티 검출기 및 잡음 감소 장치에도 포함되어 있는 경우의 보조 음성 액티비티 검출기에 관한 특정 유틸리티에 관한 것이다. 그러한 보조 음성 액티비티 검출기를 포함하고 있는 메인 음성 액티비티 검출기는 잡음 환경에서 동작하는 것이 요구되기도 하는 이동 전화에 특히 적합하다.
셀룰러 무선 시스템에서는 사용 가능한 전자기 스펙트럼의 영역이 제한되었기 때문에, 지난 십여년 이상 이동전화 이용자들의 상당한 증가는 셀룰러 무선 장비 공급자들에게 사용가능한 전자기 스펙트럼의 사용 효율성을 증가시키는 방법을 찾도록 만들었다.
이 목적을 달성하기 위한 한 방법으로 셀룰러 무선 시스템 내의 셀의 크기를 줄이는 것이 있다. 그러나, 셀 크기는 인접 셀과의 간섭(공동-채널 간섭) 레벨이 허용될 수 없이 높은 경우에 감소될 수 있을 뿐이라는 것이 알려졌다. 공동-간섭을 줄이기 위해, 불연속 전송(discontinuous transmission) 이라는 기술이 사용된다. 이 기술은 이동전화 이용자가 말하고 있을 때에만 음성-표현 신호를 전송하도록 그 관찰, 즉 주어진 대화에 기초하여 이동전화를 배치하는 것이 포함되어 있는데, 이것은 어느 시간에서 화자 중 한 사람을 위해서만 유용하다. 반대로, 이것은 시스템내의 셀 크기가 감소할 수 있어서 시스템이 더욱 많은 가입자를 지원할 수 있음을 의미한다.
이동전화 이용자가 말하고 있을 때 음성-표현 신호를 전송하기만 하는 기술의 더 다른 장점은 이동전화 핸드셋 내의 전기배터리의 수명이 늘어난다는 것이다.
음성 액티비티 검출기는 불연속 전송을 가능하게 하는데 사용된다. 그러한 검출기의 목적은 주어진 신호가 잡음으로만 이루어져 있느냐, 또는 음성을 포함하는 신호로 이루어졌는냐를 나타내는 것이다. 만약 상기 음성 액티비티 검출기가 전송될 상기 신호가 잡음으로만 구성되었음을 나타낸다면, 이 신호는 전송되지 않는다.
오늘날 많은 이동전화에는 유럽 특허출원 제335521호에 기재된 것과 유사한 음성 액티비티 검출기가 사용되고 있다. 상기 명세서에 기재된 음성 액티비티 검출기에서는, 입력 음성-표현 신호의 스펙트럼과 잡음 신호의 스펙트럼간의 유사성을 측정한다. 이 비교에서 사용될 상기 잡음 스펙트럼은 잡음으로 측정된 입력 신호의 앞 부분에서 얻어진다. 이 판단은 상기 메인 음성 액티비티 검출기의 구성요소를 이루는 보조 음성 액티비티 검출기가 행한다. 음성으로 이루어진 신호가 상기 이동전화에 의해 전송되었다는 것이 중요하고 및 상기 메인 음성 액티비티 검출기의 결정이 상기 보조 음성 액티비티 검출기에 의해 잡음으로 인식되는 신호에 기초하기 때문에, 상기 보조 음성 액티비티 검출기가, 좀 더 확장된 상황에서, 상기 신호가 음성으로 구성되었다는 것으로 결정하는 것이 바람직하다. 대화 부분중에서 음성 액티비티 검출기가 음성으로 식별하는 부분은 음성 액티비티 성분(또는 간단히 "액티비티")이라고 부른다. 실제 음성으로 구성되는 대화 부분은 보통 35% 내지 40% 범위가 된다. 그래서, 이론상으로는, 메인 액티비티 검출기가 그 범위 또는 그 범위를 약간 상회하는 범위 내에 있게되는 액티비티를 가지게 되는데, 반면에 보조 액티비티 검출기는 상당량 더 많은 액티비티를 가질 수 있다.
비록 상기 공지된 음성 액티비티 검출기가 여러 환경에서 좋은 실행능력을 보이고 있긴 하지만, 이 능력은 잡음 환경에서는 떨어지는 것이 알려졌다. 이동전화는 자동차 안에서, 도시의 거리에서, 바쁜 사무실에서, 기차역에서 또는 공항 등에서 사용되기도 한다. 따라서 잡음 환경에서 신뢰성있게 동작할 수 있는 음성 액티비티 검출기가 요구된다.
본 발명의 한 측면에 따르면, 다음을 구비하는 음성 액티비티 검출기가 제공된다:
신호의 시간 세그먼트 한 쌍내의 스펙트럼 유사성 정도를 나타내는 적어도 하나의 제1 스펙트럼 차이 치수를 계산하기위해 동작중에 배열된 수단;
신호의 시간 세그먼트 한 쌍내의 스펙트럼 유사성 정도를 나타내는 적어도 하나의 제2 스펙트럼 차이 치수를 계산하기 위해 동작중에 배열된 수단;
상기 제1 및 제2 스펙트럼 차이 치수 중 적어도 하나에 기초하여 스펙트럼 불규칙 치수를 계산하기 위해 동작중에 배열된 수단; 및
상기 스펙트럼 불규칙 치수를 임계 치수와 비교하기 위해 동작중에 배열된 수단.
본 음성 액티비티 검출기는 입력 신호가 잡음으로 구성되는 경우 안정적인 결정을 제공하는 장점을 가지고 있다. 앞서 언급한 바와 같이, 이것은 장치내에서 수행되는 다른 처리내에서 잡음 템플릿(noise template)으로 사용되는 신호를 식별하는데 사용되는 보조 음성 액티비티 검출기를 위해 요구되는 특성이다. 또한, 다른 시간 간격에서 도출된 스펙트럼 차이 치수를 결합함으로서, 본 발명에 따른 음성 액티비티 검출기는 다른 시간 간격상에서 상기 신호의 정체성(stationarity) 정도를 고려한다. 예를들어, 만일 첫번째 스펙트럼 차이 치수가 첫번째의 상대적으로 긴 시간 간격에서 계산되고 두번째 스펙트럼 차이 치수가 상대적으로 짧은 시간 간격에서 계산된다면, 상기 신호의 짧은-구간 및 긴-구간의 정체성 모두 상기 첫번째 및 두번째 스펙트럼 차이 치수를 결합하는 스펙트럼 불규칙 치수에 영향을 줄 것이다. 음성과 달리 잡음 스펙트럼은 적어도 80ms 내지 1s 범위의 시간 간격상에서 정체되므로, 본 발명의 상기 음성 액티비티 검출기는 잡음 환경에서 상당한 수행능력을 제공한다.
적절하게는, 미리결정된 시간 길이는 400ms 내지 1s 범위이다. 이것은 음성 스펙트럼의 상대적으로 빠른 시간-변화 특성이 음성 스펙트럼의 상대적으로 느린 시간-변화 특성과 가장 구별될 수 있다는 장점이 있다.
적절하게는, 상기 스펙트럼 불규칙 치수 계산 수단은 상기 스펙트럼 차이 치수의 웨이티드 합(weighted sum)을 계산하기 위해 동작중에 배열된다. 이것은 음성/잡음 결정을 하는데 있어서, 음성 스펙트럼과 잡음 스펙트럼 사이의 정체성의 차이가 가장 현저한 시간 간격에서 도출된 스펙트럼 차이 치수에 더 많은 웨이트(weight)가 주어질 수 있다는 장점을 가진다.
본 발명의 제2 측면에 따르면: 상기 본 발명의 제1 측면에 따른 음성 액티비티 검출기가 보조 음성 액티비티 검출기로 동작 가능한 음성 액티비티 검출기를 제공한다.
상기 보조 잡음 검출기는 높은 액티비티를 가지기 때문에, 입력 신호가 잡음으로 이루어진다는 결정은 수정될 신호에 의존할 수 있다. 더욱이, 상기 메인 음성 액티비티 검출기의 수정 기능이 잡음 신호를 올바르게 식별하는 상기 보조 음성 액티비티 검출기에 의존하기 때문에, 본 발명의 제2 측면에 따른 음성 액티비티 검출기는 신호가 음성으로 구성되었는지 잡음으로만 구성되었는지를 안정적으로 결정한다.
본 발명의 제3 측면에 따르면 잡음 감소 장치가 제공되는데, 상기 장치는:
상기 본 발명의 제1 측면에 따른 음성 액비비티 검출기;
상기 음성 액티비티 검출기에 의해 잡음으로 구성된 것으로 결정된 각 각의 시간 세그먼트로부터 얻은 하나 또는 그 이상의 스펙트럼에 기초하여 추정 잡음 스펙트럼을 제공하기 위해 동작중에 배열된 수단; 및
상기 신호의 연속 시간 세그먼트에서 얻은 스펙트럼으로부터 상기 추정 잡음 스펙트럼을 빼내기 위해 동작중에 배열된 수단을 구비하고 있다.
향상될 상기 신호에서 빠지게 될 잡음이 그 특성에서 정체되면 상기 스펙트럼 공제 기술이 잘 이루어진다는 사실은 당 기술분야의 통상의 지식을 가진 자에게는 널리 알려져 있다. 이것은 스펙트럼 공제 장치와 상기 본 발명의 제1 측면에 따른 음성 액티비티 검출기의 조합이 잡음 감소 장치에 특히 효과적임을 의미하는데, 상기 본 발명의 제1 측면에 따른 음성 액티비티 검출기의 동작이 만일 잡음 신호가 미리 결정된 시간 길이 내에서 대부분 정체되는 경우에만 입력 신호가 잡음으로 이루어졌다는 것을 의미하기 때문이다.
일반적으로, 안정적인 잡음 템플릿을 요구하는 모든 장치들은 본 발명의 제1 측면에 따른 음성 액티비티 검출기를 통해 이익을 갖게 될 것이다.
본 발명의 제4 측면에 따르면, 입력 신호로부터 특성 값을 추출하기 위해 동작중에 배열된 수단 및 상기 다수의 특성 값들을 처리하여 상기 입력 신호가 잡음으로 이루어졌는지를 표시하는 값을 출력하기 위해 동작중에 배열된 신경망 수단(neural net means)을 구비하는 음성 액티비티 검출기가 제공된다.
이 장치의 장점은 신경망이, 일단 훈련이 되기만 하면, 분석적으로는 쉽게 결정될 수 없는 상기 입력 변수와 출력 결정 사이의 관계를 모델화 할 수 있다는 것이다. 비록 상기 신경망을 훈련시키는 절차가 상당한 노동이긴 하지만, 일단 이 신경망이 훈련되고 나면, 알고리즘의 계산 복잡성은 공지된 알고리즘에서 알려진 것 보다 덜하다. 이것은 물론 많은 수로 나타나게 되는 음성 액티비티 검출기 등을 생산하는데 있어서의 장점도 된다.
적절하게는, 상기 신경망으로의 입력 변수들에는 전송될 신호로부터 도출된 켑스트럴 계수(cepstral coefficient)가 포함되어 있다. 이것은 음성과 잡음을 구별하는 유용한 변수임이 알려져 있다.
본원의 제5 측면에 따르면, 음성 액티비티 검출 방법이 제공되는데, 이 방법은:
한 쌍의 시간 세그먼트 중 하나가 제1 시간 간격에 의해 다른 세그먼트보다 뒤쳐져 있는 신호의 시간 세그먼트 한 쌍 내의 스펙트럼 유사성 정도를 나타내는 적어도 하나의 제1 스펙트럼 차이 치수를 계산하는 단계;
적어도 상기 제1 및 제2 스펙트럼 차이 치수에 기초하여 스펙트럼 불규칙 치수를 계산하는 단계;
상기 스펙트럼 불규칙 치수와 임계치를 비교하는 단계; 및
이 비교에 기초하여 상기 신호가 잡음으로 이루어졌는지를 결정하는 단계를 구비하고 있다.
이 방법은 잡음과 음성 신호 사이의 판별력이 강하다는 장점이 있다.
본 발명의 제6 측면에 따르면, 연속되는 미리 결정된 주파수에서 스펙트럼 특성 값을 나타내는 스펙트럼을 향상시키는 방법이 제공되는데, 상기 향상은:
상기 미리 결정된 주파수 각 각을 위해, 상기 주파수에서의 상기 스펙트럼 특성의 값 및 이웃하는 주파수에서의 상기 특성 값을 비교하고 상기 미리 결정된 주파수 스펙트럼 값으로 조정값을 계산하는 단계; 및
상기 계산된 조정값에 따라 상기 스펙트럼 내부의 상기 스펙트럼 값 각 각을 조정하는 단계를 구비하고,
상기 계산은 상기 조정값이 상기 이웃하는 주파수 스펙트럼 값 보다 큰 상기 미리 결정된 주파수 스펙트럼 값상에서 증가하고 상기 이웃하는 주파수 스펙트럼 값 보다 작은 상기 미리 결정된 주파수 스펙트럼 값상에서 감소하는 것을 특징으로 한다.
지금부터 첨부한 도면을 참고하여 본 발명의 특정 실시예를 단지 예의 방법으로 설명하도록 하겠다.
도 1은 제1 실시예를 구성하는 음성 액티비티 검출기의 동작을 설명하는 블럭 다이어그램;
도 2는 도 1의 음성 액티비티 검출기의 구성성분을 이루는 보조 음성 액티비티 검출기의 동작을 설명하는 블럭 다이어그램;
도 3은 스펙트럼 뺄셈 성분의 동작을 설명하는 블럭 다이어그램;
도 4는 분류기 성분의 동작을 설명하는 다이어그램; 및
도 5는 공지된 음성 액티비티 검출기의 블럭 다이어그램이다.
도 1에 설명된 음성 액티비티 검출기는 이동 전화기 사용용으로 배열되어 있으며 신호(19)가 입력되고 상기 입력 신호가 잡음으로만 이루어졌는지 여부가 결정(79)에 도달하도록 신호상의 일련의 절차(2,3,4,5,6,7 : 각 각은 사각형으로 표현되어 있음)가 수행된다. 각 절차(2,3,4,5,6,7)의 끝에서는 결과 변수 또는 변수 세트(29,39,49,59,69,79 : 각 각은 타원으로 표시되어 있음)가 만들어진다. 이 절차(2,3,4,5,6,7) 각 각은 적절한 디지털 신호처리 집적회로, 예를들어 AT&T 사의 SDP32C 부동소숫점 32-비트 프로세서 등에 의해 수행될 수 있다.
음성 액티비티 검출기로의 입력은 음성/정보 톤 및/또는 잡음을 나타내는 디지털 신호(19)이다. 이 신호(19)는 8㎑의 레이트에서 아날로그 신호에서 추출되며 각 샘플은 13비트로 표시된다. 이 신호(19)는 20ms 프레임으로 상기 음성 액티비티 검출기로 입력되는데, 각 각은 160 샘플로 구성되어 있다.
상기 신호(19)는 각 입력 프레임상에서 256-포인트 패스트 푸리에 변환을 수행하는 필터뱅크 프로세스(filterbank process)(2)로 입력된다. 이 프로세스(2)의 출력은 상기 입력 신호 프레임내의 전력 부분을 표시하는 32개 주파수 대역 에너지(29)이고 상기 입력 신호 프레임은 다음과 같은 값(주파수는 ㎐ 임)을 경계로 갖는 32개 주파수 대역 각 각 내부에 놓여있다:
100, 143, 188, 236, 286, 340, 397, 457, 520, 588, 659, 735, 815, 900, 990, 1085, 1186, 1292, 1405, 1525, 1625, 1786, 1928, 2078, 2237, 2406, 2584, 2774, 2974, 3186, 3410, 3648, 3900.
따라서 상기 첫번째 주파수 대역은 100㎐ 에서 143㎐까지 늘어나며, 두번째 주파수 대역은 143㎐ 에서 188㎐ 로 늘어나며 이하 같다. 하위 주파수 대역이 상위 주파수 대역에 비해 상대적으로 좁다는 것을 알 수 있을 것이다.
상기 필터뱅크(2)에서 출력된 상기 주파수 대역 에너지(29)는 보조 음성 액티비티 검출기(3) 및 스펙트럼 뺄셈 프로세스(4)로 입력된다.
이제 도 2를 참고하면, 상기 보조 음성 액티비티 검출기(3)는 상기 주파수 대역 에너지(29)를 입력하고 일련의 절차(31,32,33,34)를 수행하여 상기 신호 프레임(19)이 잡음으로만 이루어졌는지 여부인 보조 결정(39)을 제공한다.
상기 보조 결정(39)에서 사용된 첫번째 절차는 프로세스 "31"이다. 이 프로세스(31)에는 상기 주파수 대역 에너지(29) 각 각의 베이스 10에 로그값을 취하고 그 결과에 10을 곱하여 32 개의 주파수 대역 로그 에너지(311)를 만든다. 상기 앞서의 32개 입력 신호 프레임에서 얻은 상기 로그 에너지는 DSP IC 상에 제공된 메모리의 적절한 영역내에 저장된다.
스펙트럼 불규칙 계산 절차(32)는 먼저 현재의 입력 신호 프레임(19)에서 상기 로그 에너지(311)를 각 각 상기 현재 입력 신호 프레임에 앞서 30 프레임(즉, 600ms), 20 프레임(즉,400ms), 10 프레임(즉,200ms) 크기의 상기 첫번째, 두번째 및 세번째 신호 프레임에서 얻은 로그 에너지(314,313,312)와 함께 입력한다. 그러면 상기 현재 프레임용 주파수 대역 각 각의 로그 에너지(311)와 상기 세번째 프레임내의 해당 주파수 대역내의 로그 에너지(312)사이에 어느정도 차이가 있는지를 알 수 있다. 그러므로 상기 32개의 차이량이 얻어지고 합해져서 제1 스펙트럼 차리 치수가 얻어진다. 비슷한 방법으로, 두번째, 세번째 및 네번째 스펙트럼 차이 치수는 상기 두번째 및 세번째 프레임에서 얻은 로그 에너지(313,312)간의 차이, 상기 첫번째 및 두번째 프레임에서 얻은 로그 에너지(314,313)와 상기 첫번째 및 현제 프레임으로부터 각 각 얻은 로그 에너지(314,311)로 표시된다. 상기 첫번째, 두번째 및 세번째 스펙트럼 차이 치수는 200ms 떨어져 있는 프레임 간의 차이의 측정치이다. 상기 네번째 스펙트럼 차이 치수는 600ms 떨어져 있는 프레임간 차이의 측정치이다. 따라서 상기 첫번째 내지 네번째 스펙트럼 차이 치수는 서로 더해져서 스펙트럼 불규칙 치수(321)을 만들어낸다. 그러므로 이 스펙트럼 불규칙 치수는 200ms 간격상의 신호의 정체성과 600ms 신호상의 신호의 정체성 모두를 반영하는 것이다.
비록, 본 실시예에서는, 상기 스펙트럼 불규칙 치수가 네 개의 스펙트럼 차이 치수의 단순한 합으로 이루어지는 것으로 되어있으나, 대신 웨이티드 합이 수행되는 것으로 실현되어야 한다. 예를들어, 상기 첫번째, 두번째 및 세번째 스펙트럼 차이 치수는 상기 네번째 스펙트럼 차이 치수보다 더 큰 웨이팅(weighting)으로 주어질 수 있고 그 반대도 가능하다. 당 기술분야의 통상의 지식을 가진 자는 200ms 간격에 대해서 및 단지 600ms 간격에 대해서만 세 개의 치수의 효과가 더 짧은 간격에서 발생하는 스펙트럼 차이상에 더 많은 웨이트가 놓이게 되는 스펙트럼 불규칙 치수를 제공할 수 있을 것이다.
그러면 상기 스펙트럼 불규칙 치수(321)는 이 치수(321)가 미리 결정된 상수(K)를 초과하는지를 결정하는 임계 처리(33)로 입력된다. 이 처리의 출력은 만일 상기 치수(321)가 미리 결정된 상수 이하이면 참이고 그렇지 않으면 거짓인 잡음 상태를 나타낸다. 이 잡음 상태는 앞서의 두 프레임에 기초하여 얻어지고 DSP IC 상에 제공된 메모리의 적절한 위치에 저장된다. 이 잡음 상태는 행오버 처리(hangover process)(34)로 입력되어 여기서 잡음 상태가 참이되는 것으로 발견되는 경우에만 그리고 상기 잡음 상태가 앞서의 두 프레임으로부터 도출되는 경우도 참이되는 경우에 현재 신호 프레임이 잡음으로 이루어져 있다는 것을 나타내는 보조 결정(39)을 출력된다. 그렇지 않은 경우에는 상기 보조 결정은 현재 프레임이 음성으로 구성되었음을 표시한다.
본 발명의 발명자들은 음성으로 이루어진 신호의 스펙트럼 특성보다 잡음으로 이루어진 신호의 스펙트럼 특성이 더 느리게 변화한다는 것을 발견하였다. 특히, 400ms 에서 1s 간격에서의 잡음 신호의 스펙트럼 특성의 차이가 비슷한 간격상에서의 음성 신호에 관한 해당 차이보다 상당히 적다. 상기 보조 음성 액티비티 검출기(도 2)는 이 차리를 이용해서 잡음으로 이루어진 입력 신호와 음성으로 이루어진 입력 신호를 판별한다. 그러한 음성 액티비티 검출기가 여러 애플리케이션에서 사용될 수 있다는 것이 예상되는데, 특히 입력 신호로부터 연속 뺄셈을 위해 잡음 신호의 현재 추정량을 형성하기 위해 필요하기도 한 현재 잡음인 신호를 나타내는 잡음 감소 기술에 대해 사용될 수 있다.
도 1로 돌아가서, 상기 보조 음성 액티비티 검출기(도 2)에서 출력된 상기 보조 결정(39)은 주파수 대역 에너지(29)와 함께 스펙트럼 뺄셈 처리(4)로 입력된다. 이 스펙트럼 뺄셈 처리가 도 3에 자세히 나타나 있다. 먼저, 주파수 대역 에너지(29)가 압축 처리(41)에서 5/7 전력으로 압축된다. 이 압축된 주파수 대역 에너지는 잡음 템플릿 처리(42)로 입력된다. 이 압축된 주파수 대역 에너지는 현재 입력 신호 프레임(N1)으로부터 도출되고 압축된 주파수 대역 에너지(N2,N3,N4)는 상기 DSP IC상의 메모리내의 4 필드내의 프레임에 대한 보조 결정과 함께, 앞서의 저장된 3 프레임으로부터 도출된다. 만일 현재 및 과거의 3 개의 입력 신호 프레임이 잡음으로 표시된다면, 상기 네 개의 압축된 주파수 대역 에너지(N1,N2,N3,N4)는 평균이 되어 잡음 템플릿(421)을 제공하게 된다.
각 시간에서 상기 잡음 템플릿(421)은 업데이트 되고, 스펙트럼 향상 처리(43)로 입력된다. 이 스펙트럼 향상 처리는 여러 향상 단계로 이루어져 있다. n 번째 향상 단계는 n 배 향상된 스펙트럼이 된다. 그러므로, 첫번째 향상 단계는 초기 잡음 템플릿을 한번 향상된 잡음 템플릿으로 변환하는데, 이것은 두번 향상된 잡음 템플릿을 제공하는 두번째 단계로 입력되고, 8번째의 끝까지 계속되어 마지막 단계에서는 8번 향상된 잡음 템플릿이 된다. 각 각의 향상 단계 처리는 다음과 같다.
먼저, 최하위(첫번째) 주파수 대역에 대한 압축된 에너지 값과 두번째 주파수 대역에 대한 압축된 에너지 값간의 차이를 계산한다. 그 다음에, 상기 두번째 주파수 대역과 세번째 주파수 대역에 대한 압축된 에너지 값간의 차이를 계산한다. 각 해당 차이값은 31번째 주파수 대역 및 32번째 주파수 대역 차이까지 계속 계산된다. 이 차이들은 DSP IC 상의 메모리내의 적절한 위치에 저장된다.
각 향상 단계에서, 입력 잡음 템플릿의 각 주파수 대역의 입력 에너지 값은 조정되어 그 에너지 값과 이웃하는 주파수 대역에 관련된 에너지 값간의 차이를 증가시킨다. 이 계산에서 사용된 차이값은 현재 향상 단계동안 만들어진 조정된 값 보다 상기 입력 에너지 값에 기초한 값이된다.
보다 자세하게는, 각 향상 단계에서, 조정된 첫번째 주파수 대역 에너지 값은 상기 입력 첫번째 주파수 대역 에너지를 상기 입력 첫번째 주파수 에너지 값과 상기 입력 두번째 주파수 대역 에너지 값간의 차이의 양의 5% 조정하여 만들어진다. 이 조정은 상기 두 에너지 대역 값의 차이를 증가시키기 위해 효과적이 되도록 증가 또는 감소시키는 것으로 선택된다. 상기 입력 두번째 주파수 대역 에니버 값으로의 조정이 이웃하는 두 개의 주파수 대역 에너지 값에 따라 달라지기 때문에, 조정은 두 단계로 계산된다. 먼저, 상기 두번째 및 세번째 주파수 대역 에너지 값간의 차이에 기초하여 5% 조정을 수행함으로서 부분적으로 조정된 두번째 주파수 대역 에너지 값을 만든다. 다음에 상기 두번째 주파수 대역 에너지 값의 조정의 두번째 부분은 상기 두번째 및 세번째 주파수 대역 에너지 값간의 차이에 기초하여 비슷하게 수행된다. 이 절차는 오직 이웃하는 주파수 대역 에너지 값이 하나 뿐인 32번째 주파수 대역 에너지 값을 세이브하는 다른 주파수 대역 각 각에서 반복된다. 이 케이스에서의 조정은 상기 첫번째 주파수 대역 에너지 값의 조정과 비슷하다.
만일 이웃하는 주파수 대역 에너지 값의 하나가 조정되는 주파수 대역 값보다 높은 경우, 즉 다른 것이 더 낮은 경우에는, 상기 조정의 두 부분은 서로 중화될 것이라는 것을 알수있을 것이다.
상기 스펙트럼 향상 처리(43)의 두번째 단계에서는, 유사한 조정 처리가 발생되어 상기 한번 향상된 잡음 템플릿에 기초하여 두번 향상된 잡음 템플릿이 만들어진다. 8개의 향상 단계 모두가 수행되고 나면, 주파수 대역 에너지 값 각 각은 스케일링 계수, 예를들어 0.9 가 곱해진다. 본 발명의 발명자들은 상기 스펙트럼 향상 처리(43)의 도입이 상기 스케일링 계수가 '음악적인' 스펙트럼 뺄셈 잡음을 인도하지 않고 잡음 감소 애플리케이션을 위한 일반적인 값(예를들어, 1.1)으로부터 감소될 수 있음을 의미한다는 것을 발견하였다.
상기 스펙트럼 향상 처리(43)에서 출력된 조정된 잡음 템플릿(431)은 수정되지 않은 잡음 템플릿(421)에서 볼 수 있는 것 보다 더욱 현저한 하모닉스(harmonics)를 나타낸다. 이 방법에서, 상기 스펙트럼 향상 처리(43)는 상기 알려진 처리를 사람 뇌의 청각 피질에서 발생하는 '측음 억제(lateral inhibition)'처럼 모델화 한다. 이 조정은 신호-대-기본-잡음 비를 10㏈ 이상이 되는 상황에서 메인 음성 액티비티 검출기(도 1)의 수행능력을 향상시키는 것으로 알려져있다.
뺄셈 처리(44)에서, 조정된 잡음 템플릿 값(431)은 현재 입력 신호 프레임에서 추출된 상기 주파수 대역 압축된 에너지(411)내의 해당 값에서 빼져서 압축된 수정된 에너지(441)을 제공한다.
그리고 상기 압축된 수정된 에너지(441)는 1 보다 작은 어느 압축된 수정된 에너지 값을 1로 간단히 설정하는 제한 처리(45)로 입력된다. 이러한 방식으로 하위 제한이 인도되고 나면, 상기 압축된 수정된 에너지 값 각 각은 확장 단계(46)로 전력 1.4까지(예를들어 단계 "41"의 압축 성분의 역수) 올라가서 수정된 주파수 대역 에너지(49)를 제공한다.
도 1을 다시 참고하면, 상기 수정된 주파수 대역 에너지(49)는 현재 입력 신호 프레임을 위해 상기 수정된 주파수 대역 에너지(49)에 기초하여 현재 입력 신호 프레임용 16개의 Mel 주파수 켑스트럴 계수를 계산하는 Mel 주파수 켑스트럴 계수 계산 처리(5)로 입력된다.
로그값 처리(6)에서, 비슷한 동작이 상기 처리(31)에 대해 수행되고 이 처리는 상기 수정된 주파수 대역 에너지(49)상에서 수행되어 로그값이 취해진 수정된 주파수 대역 에너지(69)를 만든다.
분류 처리(7)가 완전히 연결된 다중층 인식 알고리즘을 사용하여 수행된다. 이 알고리즘에서 사용될 웨이트들은 반은 잡음이고 반은 음성인 6546 프레임을 사용하는 요소(α=100, ε=0.05)를 가지고 역-진행 알고리즘을 사용하는 알고리즘을 훈련시킴으로서 얻어진다. 각 각의 웨이트 업데이트 전의 훈련 데이터의 100개 샘플이 나타나 있고 상기 훈련 데이터는 200번 통과된다.
도 4를 참고하면, 상기 다중층 인식에는 48개의 입력 노드(71)가 있다. 16개의 Mel 주파수 켑스트럴 계수(59) 및 32개의 로그값이 취해진 수정된 주파수 대역 에너지(69)는 도시되지 않은 수단에 의해 정규화(nomalised)되어 각 각의 입력 노드로 입력되기 전 0 과 1 사이에 놓이게 한다. 상기 입력 노드(71) 각 각은 20개의 주 노드(73)(도면에서는 하나만이 번호가 붙어있음) 각 각과 접속(72)을 통해 연결되어 있다(다시 말하면, 도면에서는 오직 하나만 번호를 붙였음). 상기 접속(72) 각 각은 상기 훈련 처리에 의해 설정된 관련된 웨이팅 성분(x)이 있다. 주 노드 각 각에서의 값은 상기 입력 노드 값 각 각의 출력 및 상기 관련된 웨이팅 성분을 합함으로서 얻어진다. 상기 주 노드에서 출력된 값은 상기 주 노드 값상의 비-선형 기능을 수행함으로서 얻어진다. 이 경우에서는 이 비-선형 기능은 S자 형이다.
상기 주 노드(73) 각 각에서의 출력은 접속(74)를 통해 8개의 이차 노드(75) 중 하나와 연결된다(다시 말하면, 각 각에는 관련 웨이팅 성분이 있다). 상기 이차 노드 값은 상기 입력 노드 값에 기초하여 상기 주 노드 값을 계산할 때 사용된 것과 비슷한 방법을 사용하여 상기 주 노드 값에 기초하여 계산된다. 상기 이차 노드의 출력은 다시 S자형 기능을 사용하여 수정된다. 상기 8개의 이차 노드(75) 각 각은 각 각의 연결(76)을 통해 출력 노드(77)와 연결된다. 상기 출력 노드에서의 값은 상기 이차 노드 값이 상기 주 노드에서의 출력에 기초하여 계산된 방법과 비슷한 방식으로 상기 이차 노드(75)의 출력에 기초하여 계산된다. 상기 출력 노드에서의 값은 0 과 1 사이의 단일 부동소숫점 값이다. 만일 이 값이 0,5보다 크면 상기 음성 액티비티 검출기에서 출력되는 결정(79)은 현재 입력 신호 프레임이 음성으로 구성되어 있음을 나타내고, 그렇지 않으면 결정(79)은 입력 신호 프레임이 잡음으로만 구성되어 있음을 나탄낸다. 이 결정(79)이 상기 메인 음성 액티비티 검출기(도 1)의 출력을 형성한다는 것을 알 수 있을 것이다.
선택적 실시예에서, 상기 다중층 인식이 두번째 출력 노드에 장착되어 입력 신호 프레임이 정보 톤(다이얼 톤, 예정된 톤 또는 DTMF 시그널링 톤 등의)을 구비하고 있는지 여부를 표시한다.
음성 클리핑(speech clipping)을 감소시키기 위해, 상기 출력 결정은 입력 신호 프레임이 만일 상기 출력 노드값이 현재 입력 신호 프레임에서 0.5를 초과하고 앞서의 입력 신호 프레임에서 0.5를 초과하는 경우 잡음으로 구성되어 있음을 표시하기만 할 수도 있다.
몇 몇 실시에에서는, 상기 음성 액티비티 검출기는 입력 신호 프레임이 짧은 초기 주기(예를들어 1초)에서 잡음으로 구성되는 효과로 결정을 출력하는 것으로부터 디스에이블(disable) 되기도 한다.
본 발명의 제2 실시예에서는 표준 문서: '유럽 디지털 셀룰러 전기통신(2장); 음성 액티비티 검출기(VAD)(GSM 06.32) ETS 300 580-6'에 정의된 보조 음성 검출기의 향상된 버젼을 제공한다. 이것은 도 5에 설명되어 있는 유럽 특허출원 0 335 521 호에 기재된 음성 액티비티 검출기에 해당한다.
시끄러운 음성 신호가 입력(601)에 수신된다. 저장기(602)에는 잡음의 주파수 스펙트럼의 예상치 또는 모델을 정의하는 데이터가 포함되어 있고; 이것과 현재 신호의 스펙트럼을 비교하여(603) 임계값과의 비교치(604)의 간단한 치수가 얻어진다. 상기 잡음 성분내의 트랙 변화를 위해, 상기 잡음 모델은 음성이 없는 경우에만 상기 입력으로부터 업데이트된다. 또한, 상기 임계값은 (어댑터(606)에서) 채택될 수 있다.
잘못된 결정 후 부정확한 채택으로 진행되는 위험이 없이 잡음만 있는 주기동안에서만 채택이 있도록 보장하기 위해, 이 채택은 보조 검출기(607)의 제어하에 수행되는데, 이 보조 검출기는 비음성 검출기(608) 및 음성 검출기(609)로 구성되어 있는데; 상기 검출기(607)는 음성을 인식하는 검출기 중 하나인 경우 표현되는 음성으로 여기고, 상기 메인 검출기의 업데이팅 및 임계값 채택을 억압한다. 상기 비음성 검출기(608)은 신호용 LPC 계수의 세트를 얻고 이어지는 프레임 주기 사이의 이 계수들의 자기상관 함수를 비교하고, 반면에 상기 음성 검출기(609)는 상기 LPC 나머지의 자기상관 변화를 검사한다.
상기 비음성 검출기(608)에서, 신호의 스펙트럼 정체성의 치수는 상기 입력 신호가 비음성으로 구성되었는지 여부의 결정을 하는데 사용된다. 보다 특별하게는, 입력 신호의 인접하는 80ms 블럭 사이의 스펙트럼 차이의 치수내의 프레임간 변화가 임계값과 비교되어 부울 정체성 결정(Boolean stationarity decision)을 만든다. 상기 사용된 스펙트럼 차이 치수는 이타쿠라-사이토(Itakura-Saito) 왜곡 치수의 변형이며, 각 80ms 블럭의 스펙트럼 표현은 이어지는 20ms 프레임의 상기 자기상관 함수의 평균에서 얻어진다. 본 발명의 제2 실시예는 이러한 결정의 안정성을 개선시킨다.
본 발명의 제2 실시예에 따르면, 분석될 신호 블럭은 다수의 서브-블럭으로 나뉘는데, 예를들어 160ms 블럭이 8개의 20ms 서브-블럭으로 나뉜다. 그러면 상기 비음성/잡음 결정은 모든 서브-블럭 쌍의 조합 사이의 스펙트럼 거리 치수를 계산함으로서(이 예에서는8C2=28 비교), 그리고 단일 거리를 형성하기 위한 각 각의 거리를 합함으로서 결정된다. 결과 거리는 분석되는 블럭의 스펙트럼 정체성의 치수이다. 이 정체성의 치수는 앞서 언급한 GSM 표준에 서술된 하나보다 더 정확한데, 그 이유는 이것이 서브-블럭의 쌍 사이의 스펙트럼 유사성으로 고려되고, 인접하는 블럭 사이의 유사성 보다만 다른 간격(20ms, 40ms, 60ms...140ms)에서 놓인 구성물로 고려되기 때문이다. 이 방법은 앞서의 GSM VAD 로 쉽게 통합될 수 있고, 이타쿠라-사이토 왜곡 치수의 변형이 각 각의 20ms 신호 프레임에 사용가능한 자기상관 함수로부터 계산될 수 있다. 이것은 당 기술분야의 통상의 지식을 가진 자는 FFT 기반 방법등과 같은 사용될 수 있는 다른 스펙트럼 치수 이상으로 사용될 수 있다는 것을 알 수 있을 것이다. 또한, 상기 왜곡 치수의 웨이티드된 조합이 앞서 언급한 단일 치수를 유도해 내는데 사용될 수 있다. 예를들어, 왜곡 치수는 그것들의 미분에서 사용된 상기 서브-블럭간의 공간에 비례하여 웨이티드 될 수 있다.

Claims (24)

  1. 제1 시간 간격에 의해 신호의 시간 세그먼트의 쌍 중 하나가 다른 것보다 늦어지는 상기 쌍에서의 스펙트럼 유사성 정도를 나타내는 적어도 하나의 제1 스펙트럼 차이 치수를 계산하기 위해 동작중에 배열되는 수단;
    상기 제1 시간 간격과는 다른 제2 시간 간격에 의해 신호의 시간 세그먼트 쌍 중 하나가 다른 것보다 늦어지는 상기 쌍에서의 스펙트럼 유사성 정도를 나타내는 적어도 하나의 제2 스펙트럼 차이 치수를 계산하기 위해 동작중에 배열되는 수단;
    상기 제1 및 제2 스펙트럼 차이 치수 중 적어도 하나에 기초하여 스펙트럼 불규칙 치수를 계산하기 위해 동작중에 배열되는 수단; 및
    상기 스펙트럼 불규칙 치수와 임계값을 비교하기 위해 동작중에 배열되는 수단을 구비하는 것을 특징으로 하는 음성 액티비티 검출기.
  2. 제 1 항에 있어서,
    상기 미리 결정된 시간 길이는 80ms 내지 1초 범위인 것을 특징으로 하는 음성 액티비티 검출기.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 스펙트럼 불규칙 치수 계산 수단은 상기 스펙트럼 차이 치수의 웨이티드된 합을 계산하기 위해 동작중에 배열되는 것을 특징으로 하는 음성 액비티비 검출기.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    보조 음성 액티비티 검출기로서 동작가능한 것을 특징으로 하는 음성 액비티비 검출기.
  5. 제 4 항에 있어서,
    상기 보조 음성 액티비티 검출기에 의해 잡음으로 구성된 것으로 결정된 각 각의 시간 세그먼트로부터 얻어진 하나 또는 그 이상의 스펙트럼에 기초하여 예상된 잡음 스펙트럼을 제공하기 위해 동작중에 배열되는 수단; 및
    상기 신호의 연속되는 시간 세그먼트로부터 얻어진 스펙트럼으로부터 상기 예상된 잡음 스펙트럼을 빼내기 위해 동작중에 배열되는 수단을 더 구비하는 것을 특징으로 하는 음성 액비티비 검출기.
  6. 제 1 항 내지 제 3 항 중 어느 한 항에 따른 음성 액티비티 검출기;
    상기 음성 액티비티 검출기에 의해 잡음으로 구성된 것으로 결정된 각 각의 시간 세그먼트로부터 얻어진 하나 또는 그 이상의 스펙트럼에 기초하여 예상된 잡음 스펙트럼을 제공하기 위해 배열된 수단; 및
    상기 신호의 연속하는 시간 세그먼트로부터 얻어진 스펙트럼으로부터 상기 예상된 잡음 스펙트럼을 빼기 위해 동작중에 배열되는 수단을 구비하는 것을 특징으로 하는 잡음 억압 장치.
  7. 입력 신호로부터 특징 값을 추출하기 위해 동작중에 배열되는 수단; 및
    상기 다수의 특징 값을 처리하여 상기 입력 신호가 잡음으로 구성되었는지 여부를 나타내는 값을 출력하기 위해 동작중에 배열되는 신경망 수단을 구비하는 것을 특징으로 하는 음성 액티비티 검출기.
  8. 제 7 항에 있어서,
    상기 추출 수단은 상기 신호 스펙트럼 내부의 다수의 주파수 대역 각 각의 전력을 표현하는 필터뱅크 값을 제공하기 위해 동작중에 배열된 필터뱅크를 구비하는 것을 특징으로 하는 음성 액티비티 검출기.
  9. 제 8 항에 있어서,
    상기 추출 수단은 상기 필터뱅크 값을 처리하여 켑스트럴 계수로 구성된 특징 값을 얻기 위해 동작중에 배열되는 수단을 더 구비하는 것을 특징으로 하는 음성 액티비티 검출기.
  10. 제 8 항 또는 제 9 항에 있어서,
    상기 추출 수단은 상기 필터뱅크 값을 처리하여 상기 필터뱅크 값의 로그값으로 구성되는 특징 값을 얻기 위해 동작중에 배열되는 수단을 더 구비하는 것을 특징으로 하는 음성 액티비티 검출기.
  11. 제 7 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 신경망 수단에는 더 다른 출력 및 상기 신호가 정보 톤인지를 나타내는 값이 있는 것을 특징으로 하는 음성 액비비티 검출기.
  12. 제 7 항 내지 제 11 항 중 어느 한 항에 있어서,
    보조 액티비티 검출기로서 동작가능한 제 1 항 내지 제 3 항 중 어느 한 항에 따른 음성 액비티기 검출기; 및
    상기 음성 액티비티 검출기에 의해 잡음으로 구성된 것으로 결정된 각 각의 시간 세그먼트로부터 얻어진 하나 또는 그 이상의 스펙트럼에 기초하여 예상된 잡음 스펙트럼을 제공하기 위해 동작중에 배열되는 수단; 및
    상기 신호의 연속 시간 세그먼트로부터 얻어진 스펙트럼으로부터 상기 예상된 잡음 스펙트럼을 빼내기 위해 동작중에 배열되는 수단을 더 구비하는 것을 특징으로 하는 음성 액티비티 검출기.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 따른 음성 액티비티 검출기를 포함하는 것을 특징으로 하는 이동 라디오 장치.
  14. 시간 세그먼트 쌍 중 하나는 제1 시간 간격에 의해 다른 것보다 늦어지는 상기 쌍에서의 스펙트럼 유사성 정도를 나타내는 적어도 하나의 제1 스펙트럼 차이 치수를 계산하는 단계;
    상기 제1 시간 간격과는 다른 제2 시간 간격에 의해 신호의 시간 세그먼트의 쌍 중 하나가 다른 것에 늦어지는 상기 쌍에서의 스펙트럼 유사성 정도를 나타내는 적어도 하나의 제2 스펙트럼 차이 치수를 계산하는 단계;
    적어도 상기 제1 및 제2 스펙트럼 차이 치수에 기초하여 스펙트럼 불규칙 치수를 계산하는 단계; 및
    상기 스펙트럼 불규칙 치수를 임계값 치수와 비교하는 단계; 및
    상기 비교에 기초하여 상기 신호가 잡음으로 구성되었는지를 결정하는 단계를 구비하는 것을 특징으로 하는 음성 액티비티 검출 방법.
  15. 제 14 항에 있어서,
    상기 시간의 미리 결정된 길이는 80ms 내지 1초 범위인 것을 특징으로 하는 방법.
  16. 제 14 항 또는 제 15 항에 있어서,
    상기 스펙트럼 불규칙 치수 계산 단계에 상기 스펙트럼 차이 치수의 웨이티드 합을 형성하는 것이 포함되는 것을 특징으로 하는 방법.
  17. 미리 결정된 연속 주파수에서의 미리 결정된 스펙트럼 특성의 값을 나타내는 스펙트럼을 향상시키는 방법에 있어서,
    상기 미리 결정된 주파수 각 각을 위해, 상기 주파수에서의 상기 스펙트럼 특성의 값과 이웃하는 주파수에서의 상기 특성의 값을 비교하고 상기 미리 결정된 주파수 스펙트럼 값으로 조정을 계산하는 단계; 및
    상기 계산된 조정에 따라 스펙트럼 내부의 상기 스펙트럼 값 각 각을 조정하는 단계를 구비하고,
    상기 계산은 상기 조정이 상기 이웃하는 주파수 스펙트럼 값 중 어느 하나보다 큰 상기 미리 결정된 주파수 스펙트럼 값으로 증가하고 그리고 상기 이웃하는 주파수 스펙트럼 값의 어느 하나보다 작은 상기 미리 결정된 주파수 스펙트럼 값으로 감소하도록 되는 것을 특징으로 하는 방법.
  18. 제 17 항에 있어서,
    상기 비교는:
    상기 미리 결정된 주파수 스펙트럼 값을 얻는 단계;
    인접하는 하위 주파수에서 상기 특성의 값을 얻는 단계;
    인접하는 상위 주파수에서 상기 특성의 값을 얻는 단계;
    상기 하위 주파수 스펙트럼 값을 초과하는 상기 미리 결정된 주파수 스펙트럼 값상에서 아래로 향하는 감소량을 계산하는 단계;
    상기 상위 주파수 스펙트럼 값을 초과하는 상기 미리 결정된 주파수 스펙트럼 값상에서 위로 향하는 감소량을 계산하는 단계;
    상기 하위 주파수 스펙트럼 값보다 작은 상기 미리 결정된 주파수 스펙트럼 값상에서 아래로 향하는 증가량을 계산하는 단계;
    상기 상위 주파수 스펙트럼 값보다 작은 상기 미리 결정된 주파수 스펙트럼 값상에서 위로 향하는 증가량을 계산하는 단계를 구비하고,
    상기 조정 계산은 상기 조정이 계산된 어느 감소량에 기초하여 증가 및/또는 계산된 어느 증가량 기초하여 감소하도록 되는 것을 특징으로 하는 방법.
  19. 제 18 항에 있어서,
    상기 조정 단계는:
    계산된 어느 증가량에 선형적으로 비례하는 양에 의해 상기 미리 결정된 주파수 값을 증가시키는 단계; 및/또는
    계산된 어느 증가량에 선형적으로 비례하는 양에 의헤 상기 미리 결정된 주파수 값을 감소시키는 단계를 구비하는 것을 특징으로 하는 방법.
  20. 제 17 항 내지 제 19 항 중 어느 한 항에 있어서,
    제 17 항, 제 18 항 또는 제 19 항의 방법을 여러번 반복하는 단계를 구비하는 것을 특징으로 하는 방법.
  21. 제 17 항 내지 제 20 항의 어느 한 항에 따른 스펙트럼의 향상을 구비하는 것을 특징으로 하는 음성 액티비티 검출 방법.
  22. 신호의 시간 세그먼트에 기초하여 스펙트럼을 계산하고 신호의 제1 시간 세그먼트에 기초하여 제1 스펙트럼을 계산하기 위해 그리고 미리 결정된 시간 길이에 의해 상기 제1 세그먼트보다 늦어지는 신호의 제2 시간 세그먼트에 기초하여 제2 스펙트럼을 계산하기 위해 동작중에 배열되는 수단;
    스펙트럼간의 스펙트럼 차이 치수를 계산하고 상기 제1 및 제2 스펙트럼간의 스펙트럼 차이를 나타내는 스펙트럼 차이 치수를 계산하기 위해 동작중에 배열되는 수단;
    적어도 상기 스펙트럼 차이 치수에 기초하여 스펙트럼 불규칙 치수를 계산하기 위해 동작중에 배열되는 스펙트럼 불규칙 치수 계산 수단;
    상기 스펙트럼 불규칙 치수와 임계값 치수를 비교하는 수단; 및
    상기 비교에 기초하여 상기 신호가 잡음으로 구성되었는지를 결정하는 수단을 구비하고,
    상기 시간의 미리 결정된 길이는 음성 신호 스펙트럼의 시간-변화 특성을 드러내기에 충분히 크고;
    상기 스펙트럼 계산 수단은 상기 미리 결정된 시간 길이 안에서 상기 신호 하락의 시간 세그먼트에 기초하여 하나 또는 그 이상의 중간 스펙트럼을 계산하기 위해 동작중에 더 배열되고;
    상기 스펙트럼 차이 계산 수단은 상기 중간 스펙트럼의 일부 또는 모두와 상기 제1 및 제2 스펙트럼간의 중간 스펙트럼 차이 치수를 계산하기 위해 동작중에 더 배열되며; 그리고
    상기 스펙트럼 불규칙 치수 계산 수단은 상기 스펙트럼 차이 치수 및 상기 중간 스펙트럼 차이 치수에 기초하여 상기 스펙트럼 불규칙 치수를 계산하기 위해 동작중에 더 배열되는 것을 특징으로 하는 음성 액티비티 검출기.
  23. 도 1을 참고로 본 명세서에서 충분히 설명된 것을 특징으로 하는 음성 액티비티 검출기.
  24. 본 명세서에서 충분히 설명된 것을 특징으로 하는 음성 액티비티 검출 방법.
KR1019980710706A 1996-07-03 1997-07-02 음성 액티비티 검출기 및 검출 방법 KR20000022285A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96304920.0 1996-07-03
EP96304920 1996-07-03

Publications (1)

Publication Number Publication Date
KR20000022285A true KR20000022285A (ko) 2000-04-25

Family

ID=8224997

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980710706A KR20000022285A (ko) 1996-07-03 1997-07-02 음성 액티비티 검출기 및 검출 방법

Country Status (8)

Country Link
US (1) US6427134B1 (ko)
EP (1) EP0909442B1 (ko)
JP (1) JP4307557B2 (ko)
KR (1) KR20000022285A (ko)
CN (1) CN1225736A (ko)
AU (1) AU3352997A (ko)
DE (1) DE69716266T2 (ko)
WO (1) WO1998001847A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100853681B1 (ko) * 2002-05-24 2008-08-25 엘지전자 주식회사 냉장고의 홈바히터 제어방법
KR20220035271A (ko) * 2014-02-07 2022-03-21 코닌클리케 필립스 엔.브이. 오디오 신호 디코더에서의 개선된 주파수 대역 확장

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243003B1 (en) 1999-08-25 2001-06-05 Donnelly Corporation Accessory module for vehicle
US6278377B1 (en) 1999-08-25 2001-08-21 Donnelly Corporation Indicator for vehicle accessory
US7440498B2 (en) 2002-12-17 2008-10-21 Tellabs Operations, Inc. Time domain equalization for discrete multi-tone systems
DK1068704T3 (da) 1998-04-03 2012-09-17 Tellabs Operations Inc Filter til impulssvarforkortning, med yderligere spektrale begrænsninger, til multibærebølgeoverførsel
US6420975B1 (en) 1999-08-25 2002-07-16 Donnelly Corporation Interior rearview mirror sound processing system
US6795424B1 (en) 1998-06-30 2004-09-21 Tellabs Operations, Inc. Method and apparatus for interference suppression in orthogonal frequency division multiplexed (OFDM) wireless communication systems
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
GB9928011D0 (en) * 1999-11-27 2000-01-26 Ibm Voice processing system
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
DE10026872A1 (de) 2000-04-28 2001-10-31 Deutsche Telekom Ag Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)
EP1279164A1 (de) * 2000-04-28 2003-01-29 Deutsche Telekom AG Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US20030110029A1 (en) * 2001-12-07 2003-06-12 Masoud Ahmadi Noise detection and cancellation in communications systems
US6847930B2 (en) * 2002-01-25 2005-01-25 Acoustic Technologies, Inc. Analog voice activity detector for telephone
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
CN1815550A (zh) 2005-02-01 2006-08-09 松下电器产业株式会社 可识别环境中的语音与非语音的方法及系统
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
US20070198251A1 (en) * 2006-02-07 2007-08-23 Jaber Associates, L.L.C. Voice activity detection method and apparatus for voiced/unvoiced decision and pitch estimation in a noisy speech feature extraction
JP4749925B2 (ja) 2006-04-21 2011-08-17 株式会社リコー 画像形成装置、画像形成方法、及びプロセスカートリッジ
US7892718B2 (en) 2006-04-21 2011-02-22 Ricoh Company, Ltd. Image forming apparatus, image forming method and process cartridge
EP2028551B1 (en) 2006-06-02 2014-07-23 Kao Corporation Toner for electrophotography
CN101622668B (zh) * 2007-03-02 2012-05-30 艾利森电话股份有限公司 电信网络中的方法和装置
EP2162881B1 (en) * 2007-05-22 2013-01-23 Telefonaktiebolaget LM Ericsson (publ) Voice activity detection with improved music detection
JP5054443B2 (ja) 2007-06-20 2012-10-24 株式会社リコー 画像形成装置、画像形成方法、及びプロセスカートリッジ
US8329370B2 (en) 2007-10-19 2012-12-11 Ricoh Company, Ltd. Toner, image forming apparatus, image forming method, and process cartridge
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
JP5369691B2 (ja) 2008-11-28 2013-12-18 株式会社リコー トナー及び現像剤
FR2943875A1 (fr) * 2009-03-31 2010-10-01 France Telecom Procede et dispositif de classification du bruit de fond contenu dans un signal audio.
US8509398B2 (en) * 2009-04-02 2013-08-13 Microsoft Corporation Voice scratchpad
CN102804260B (zh) * 2009-06-19 2014-10-08 富士通株式会社 声音信号处理装置以及声音信号处理方法
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
EP2816560A1 (en) * 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Method and background estimator for voice activity detection
WO2011133924A1 (en) 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP5561195B2 (ja) * 2011-02-07 2014-07-30 株式会社Jvcケンウッド ノイズ除去装置およびノイズ除去方法
US9070374B2 (en) * 2012-02-20 2015-06-30 JVC Kenwood Corporation Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
HUE038398T2 (hu) * 2012-08-31 2018-10-29 Ericsson Telefon Ab L M Eljárás és eszköz hang aktivitás észlelésére
JP2014085609A (ja) * 2012-10-26 2014-05-12 Sony Corp 信号処理装置および方法、並びに、プログラム
US9542933B2 (en) 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
US9570093B2 (en) 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
WO2015072059A1 (ja) * 2013-11-13 2015-05-21 日本電気株式会社 ネットワーク図描画システム、ネットワーク図描画方法およびネットワーク図描画プログラム
CN110556128B (zh) * 2019-10-15 2021-02-09 出门问问信息科技有限公司 一种语音活动性检测方法、设备及计算机可读存储介质
JP7221335B2 (ja) * 2021-06-21 2023-02-13 アルインコ株式会社 無線通信装置
CN117711419B (zh) * 2024-02-05 2024-04-26 卓世智星(成都)科技有限公司 用于数据中台的数据智能清洗方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4357491A (en) 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
EP0127718B1 (fr) 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
KR0161258B1 (ko) 1988-03-11 1999-03-20 프레드릭 제이 비스코 음성활동 검출 방법 및 장치
JP2573352B2 (ja) 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
JP2643593B2 (ja) * 1989-11-28 1997-08-20 日本電気株式会社 音声・モデム信号識別回路
US5195138A (en) * 1990-01-18 1993-03-16 Matsushita Electric Industrial Co., Ltd. Voice signal processing device
EP0538536A1 (en) * 1991-10-25 1993-04-28 International Business Machines Corporation Method for detecting voice presence on a communication line
US5410632A (en) 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US5369791A (en) 1992-05-22 1994-11-29 Advanced Micro Devices, Inc. Apparatus and method for discriminating and suppressing noise within an incoming signal
US5890104A (en) * 1992-06-24 1999-03-30 British Telecommunications Public Limited Company Method and apparatus for testing telecommunications equipment using a reduced redundancy test signal
GB9213459D0 (en) * 1992-06-24 1992-08-05 British Telecomm Characterisation of communications systems using a speech-like test stimulus
IN184794B (ko) * 1993-09-14 2000-09-30 British Telecomm
JPH09505701A (ja) * 1993-11-25 1997-06-03 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 電気通信装置の試験
EP0681730A4 (en) * 1993-11-30 1997-12-17 At & T Corp REDUCTION OF TRANSMISSION NOISE IN COMMUNICATION SYSTEMS.
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
GB2317084B (en) 1995-04-28 2000-01-19 Northern Telecom Ltd Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100853681B1 (ko) * 2002-05-24 2008-08-25 엘지전자 주식회사 냉장고의 홈바히터 제어방법
KR20220035271A (ko) * 2014-02-07 2022-03-21 코닌클리케 필립스 엔.브이. 오디오 신호 디코더에서의 개선된 주파수 대역 확장

Also Published As

Publication number Publication date
JP4307557B2 (ja) 2009-08-05
US6427134B1 (en) 2002-07-30
CN1225736A (zh) 1999-08-11
JP2000515987A (ja) 2000-11-28
EP0909442A1 (en) 1999-04-21
DE69716266T2 (de) 2003-06-12
DE69716266D1 (de) 2002-11-14
EP0909442B1 (en) 2002-10-09
WO1998001847A1 (en) 1998-01-15
AU3352997A (en) 1998-02-02

Similar Documents

Publication Publication Date Title
US6427134B1 (en) Voice activity detector for calculating spectral irregularity measure on the basis of spectral difference measurements
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US11430461B2 (en) Method and apparatus for detecting a voice activity in an input audio signal
Aneeja et al. Single frequency filtering approach for discriminating speech and nonspeech
CN1985304B (zh) 用于增强型人工带宽扩展的系统和方法
EP1973104B1 (en) Method and apparatus for estimating noise by using harmonics of a voice signal
EP1083542A2 (en) A method and apparatus for speech detection
HU219994B (hu) Beszédérzékelő
US9183846B2 (en) Method and device for adaptively adjusting sound effect
KR101148671B1 (ko) 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템
US20060100866A1 (en) Influencing automatic speech recognition signal-to-noise levels
CN101354889A (zh) 一种语音变调方法及装置
Meduri et al. A survey and evaluation of voice activity detection algorithms
CA2305652A1 (en) Method for instrumental voice quality evaluation
JP2019061129A (ja) 音声処理プログラム、音声処理方法および音声処理装置
Fraile et al. Mfcc-based remote pathology detection on speech transmitted through the telephone channel-impact of linear distortions: Band limitation, frequency response and noise
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
US20050267745A1 (en) System and method for babble noise detection
EP3748636A1 (en) Voice processing device and voice processing method
Geravanchizadeh et al. Improving the noise-robustness of Mel-Frequency Cepstral Coefficients for speaker verification
CN117854501A (zh) 音频检测方法和装置
Webster Relations between Speech‐Interference Contours and Idealized Articulation‐Index Contours
Speech Transmission and Music Acoustics PREDICTED SPEECH INTELLIGIBILITY AND LOUDNESS IN MODEL-BASED PRELIMINARY HEARING-AID FITTING

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid