KR0161258B1 - 음성활동 검출 방법 및 장치 - Google Patents
음성활동 검출 방법 및 장치 Download PDFInfo
- Publication number
- KR0161258B1 KR0161258B1 KR1019890702099A KR890702099A KR0161258B1 KR 0161258 B1 KR0161258 B1 KR 0161258B1 KR 1019890702099 A KR1019890702099 A KR 1019890702099A KR 890702099 A KR890702099 A KR 890702099A KR 0161258 B1 KR0161258 B1 KR 0161258B1
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- voice
- input signal
- voice activity
- activity detection
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims description 53
- 238000001514 detection method Methods 0.000 title claims description 39
- 238000001228 spectrum Methods 0.000 claims description 31
- 230000003595 spectral effect Effects 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 2
- 206010002953 Aphonia Diseases 0.000 claims 1
- 230000005236 sound signal Effects 0.000 claims 1
- 239000013598 vector Substances 0.000 description 12
- 230000008859 change Effects 0.000 description 6
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 4
- 206010019133 Hangover Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 101710096660 Probable acetoacetate decarboxylase 2 Proteins 0.000 description 1
- 102100026827 Protein associated with UVRAG as autophagy enhancer Human genes 0.000 description 1
- 101710102978 Protein associated with UVRAG as autophagy enhancer Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
- Noise Elimination (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
내용 없음
Description
본 발명은 음성구간 또는 단지 잡음만 있는 구간을 검출하려는 목적으로 신호를 제공하는 음성활동 검출 방법 및 장치에 관한 것이다.
본 발명은 그곳에만 제한되지는 않으며 본 검출기의 특별한 이점을 응용한 것으로는 라디오 스펙트럼의 효과적인 활용으로 개선된 음성 부호기에 의해 음성의 존재여부에 대한 지각이 가능하며, 또한 잡음 레벨이(차량에 장착된 것으로부터) 높은 이동용 무선전화 시스템이 있다.
음성활동 검출에 있어서 핵심은 음성구간 및 비음성 구간을 감지할 수 있도록 구별되어 나타나는 메져(measure)를 파악하는데 있다.
음성부호기를 갖춘 장치에서 많은 수의 파라미터들이 부호기의 하나 또는 다른 단으로부터 쉽게 이용될 수 있다.
그러므로 그러한 몇몇의 파라미터를 이용하여 필요한 과정을 줄이는 것이 바람직하다.
많은 경우에 있어서, 주요 잡음원은 알려진바 주파수 스펙트럼의 정의된 영역에서 발생한다.
예를들면 움직이는 자동차에서 많은 잡음(엔진소음)은 스펙트럼의 저주파수 영역에 집중되어 있다.
여기서 잡음의 스펙트럼 영역을 아는 것이 유용하며, 상대적으로 잡음이 없는 스펙트럼 영역으로부터의 메져를 근거로 음성이 존재하는가 여부를 결정하는 것이 바람직하다.
물론, 음성활동을 검출하는 분석 이전에 그 신호를 프리필터링하는 것이 실제적으로 가능하다.
그러나 프리필터링은 부호화된 음성신호를 일그러뜨릴 수도 있기 때문에 음성활동 검출기는 음성코우더의 출력단뒤에 설치된다.
본 발명의 첫번째 측면에 따르면, 입력신호 수신장치, 입력신호중의 잡음신호 성분을 판단하는 장치, 입력신호의 부분과 잡음신호의 성분 사이의 스펙트럼 유사성 메져(M)를 계속적으로 형성하는 장치, 및 메져(M)로부터 뽑아낸 파라미터가 스레숄드값을 초과했는가 여부에 따라 음성의 존재여부를 지시하는 출력을 산출하기 위해 메져로부터 뽑아낸 파라미터를 스레숄드값과 비교하는 장치로 구성된 음성활동 검출장치를 제공하는데 있다.
본 발명의 두번째 측면에 따르면, 입력신호의 한 부분과 입력신호의 이전부분 사이의 유사성에 대한 스펙트럼 왜곡 메져를 계속적으로 형성하는 장치와, 그 메져의 계속되는 값 사이의 변화정도가 스레숄드값을 초과했는가 여부에 따라 음성의 존재여부를 지시하기 위한 출력을 산출하기 위하여, 메져의 계속되는 값 사이의 변화정도를 스레숄드값과 비교하는 장치를 포함하는 음성활동 검출장치를 제공하는데 있다.
바람직하기로는 그 메져는 이따꾸라-사이또 왜곡 메져(Itakura-Saito distortion measure)이다.
본 발명의 다른 측면들은 특허청구의 범위에서 명시된다.
이제, 본 발명의 몇가지 구체적 실시예들을 첨부도면을 참조하여 그 실시예로서 기술하기로 한다.
제1도는 본 발명의 제1구체적 실시예의 블록도이며,
제2도는 본 발명의 제2구체적 실시예를 도시한 것이며,
제3도는 본 발명의 개선된 제3의 구체적 실시예를 도시한 것이다.
제2구체적 실시예에 따른 첫번째 음성활동검출장치의 기초가 되는 일반적인 원리는 다음과 같다.
n개의 신호샘플로 된 한 프레임(S0,S1,S2,S3,S4,…Sn-1)은 임펄스응답(1,h0,h1,h2,h3)의 4개 노셔널 유한임펄스응답(FIR); 디지탈 필터를 통과할때, 필터링된 신호(이전의 프레임으로부터의 샘플은 무시한다).
이 된다.
제0계의 자기상관계수(autocorrelation coefficient)는 각항의 제곱의 합이며, 그것은 정규화, 즉 각항의 총수로 나뉘어질 수 있다(일정한 프레임의 길이에 대하여 나눗셈을 생략하는 것이 더쉽다). 그러므로 필터링된 신호는 다음과 같다.
따라서 이것은 노셔널 필터링된 신호(S'), 다시말하면, 노셔널 필터의 패스밴드에 떨어지는 신호(S)의 거듭제곱의 메져이다.
처음의 4항을 무시하고 전개하면, 다음과 같다.
여기서, R'0은 자기상관계수 Ri의 조합으로부터 얻어지며, R'0의 값이 응답하는 주파수 범위를 결정하는 괄호안의 상수들에 의해 가중된다.
실재로는, 괄호안의 항들은 노셔널 필터의 임펄스 응답에 대한 자기상관계수이며, 그 결과 상기된 표현은
로 단순화될 수 있다.
여기서 N은 필터차수이며 Hi는 (정규화 되지않은)필터의 임펄스응답에 대한 자기상관계수이다.
다시말하면, 신호를 필터링하는 신호자기상관계수에 대한 효과는 필요한 필터가 가질 수 있는 임펄스응답을 사용하여(필터링되지 않은) 신호의 자기상관계수의 가중된 합을 산출함으로써 시뮬레이트될 수 있다.
그러므로 적은 횟수의 곱셈을 포함하는 상대적으로 단순한 알고리듬이 백번의 곱셈을 필요로 하는 디지탈 필터의 효과를 시뮬레이트 할 수 있다.
이 필터링 동작은 기준스펙트럼(노셔널 필터응답의 역으로)에 대해 매칭되는 신호스펙트럼과의 스펙트럼 비교의 형태로 보일 수 있다.
본 출원에서의 노셔널 필터는 잡음 스펙트럼의 역에 근사하도록 하기 위해 선택되어지므로 이 작동은 음성스펙트럼과 잡음스펙트럼 사이의 스펙트럼 비교로 보일 수 있으며, 제0번째 자기상관계수는 그 스펙트럼들간의 상이성의 메져로 생성된다(즉, 인버스 필터링된 신호의 에너지로).
여기서 A0등은 LPC 파라미터 세트의 자기상관계수이다.
이 식은 앞서 유도한 관게와 아주 밀접히 유사하다는 것을 보여준다.
또한 LPC 계수가 입력신호의 역 스펙트럼 응답을 갖는 FIR 필터의 탭이어서 LPC 계수 세트는 역 LPC 필터의 임펄스 응답이라는 것을 기억해 볼때, 이따꾸라-사이또 왜곡 메져는 단지 식(1)의 형태라는 것이 명백하다.
여기서 필터응답(H)는 입력신호의 올폴모델(all-pole model)의 스펙트럼 형태의 역이다.
사실, 또한 스펙트럼의 유사성의 다른 메져를 얻기 위하여 테스트 스펙트럼과 기준 스펙트럼의 자기상관계수를 사용함으로써 스펙트럼을 바꿔놓을 수 있다.
이따꾸라-사이또 왜곡 메져는 1980년 10월의 ASSP에 대한 IEEE 회보, VOl ASSP-28, NO5에서 에이 부조, 에이 에이취 그레이, 알 엘 그레이 그리고 제이 디 마이켈에 의해 벡터 양자화에 기초한 음성 코우딩에서 깊게 논의되었다.
신호의 프레임은 단지 한정된 길이를 갖으며, 항의수(N, 여기서 N은 필터의 차수)는 무시되기 때문에 위의 결과는 단지 근사치에 불과하다; 그러나 그 값은 음성의 존재 및 부재 상태를 지시하는 매우 훌륭한 지시값이며, 그러므로 음성 검출에서 메져(M)로 사용되어질 수 있다.
잡음 스펙트럼이 잘 알려져 있고 불변인 상태에서, 역 잡음 필터를 모델하기 위하여 고정된 h0, h1등의 계수를 간단히 사용할 수 있다.
그러나, 상이한 잡음 상태에 적합한 장치는 널리 유용하다.
제1구체적 실시예인 제1도를 참고하면, 마이크로폰(이는 표시되지 않았음)으로부터의 신호는 입력부(1)로 수신되어 아날로그/디지탈 변환기(2)에 의해서 적당한 샘플링율에서 디지탈 샘플(S)로 변환된다.
그 다음 LPC 분석기(3)는 n(예를들면 160) 샘플의 계속적인 프레임에 대해 입력음성을 표현하기 위해 전달되는 N(예를 들면 8 또는 12) LPC 필터계수(Li)의 세트를 출력한다.
음성신호(S)는 역시 상관기(correlator)(4)로도 입력된다(비록 분리된 상관기가 제공될 수 있다는 것이 명백하다 할지라도 LPC 분석기내의 어느 단계로서 음성의 자기상관 벡터 Ri 역시 산출될 수 있으므로 일반적으로 LPC 코우더(3)의 한 부분으로 되어 있다).
상관기(4)는 0차의 상관계수 R0와 적어도 2개의 자기상관계수 R1, R2, R3를 포함하는 자기상관벡터 Ri를 만들어낸다.
다음으로 이들은 곱셈기(5)에 입력된다.
두번째 입력단(11)은 단지 주변 잡음만을 수신하기 위해 스피커로 부터 먼 위치에 있는 두번째의 마이크로폰에 연결되어 있다.
이 마이크로폰에서의 입력은 A/D 변환기(12)에 의해 일련의 디지탈 입력샘플로 되며, 제2의 LPC 분석기(13)에 의해 LPC 분석된다.
LPC 분석기(13)에서 산출된 잡음의 LPC 계수는 상관기(14)를 거치며, 산출된 자기상관벡터는 식(1)에 따라 곱셈기(5)에서 음성 마이크로폰으로부터의 입력신호의 자기상관계수 Ri와 한항씩 차례로 곱해지며, 생성된 가중계수는 덧셈기(6)에서 결합된다. 이 과정은 잡음만의 마이크로폰으로부터의 잡음 스펙트럼의 역형태(그것은 신호 +잡음 마이크로폰에서의 잡음 스펙트럼의 모양과 같다)를 갖는 필터를 적용하기 위함이며, 그리하여 잡음의 대부분을 제거해 내기 위함이다.
최종적인 메져(M)는 음성신호가 존재하는가 부재하는가를 지시하는 논리출력(8)을 내오기 위하여, 스레숄더(7)에 의해 스레숄드된다. 만약 M이 하이(high)이면 음성은 존재한다면 생각되어진다.
그러나, 이 구체적 실시예는 두개의 마이크로폰과 두개의 LPC 분석기를 필요로 한다.
그것은 비용을 증가시키고 설비를 복잡하게한다.
이에 대한 대안으로, 또다른 구체적 실시예는 잡음 마이크로폰(11)로부터의 자기상관 및 주 마이크로폰(1)로부터의 LPC 계수를 사용하여 형성된 해당메져를 사용한다.
그래서 LPC 분석기 보다는 특별한 자기 상관기(auto correlator)가 필요하다.
그러므로 이러한 구체적 실시예들은 다른 주파수에서 잡음을 갖는 다른 환경에서, 또는 주어진 환경에서 변화하는 잡음 스펙트럼내에서 작동시킬 수 있다.
본 발명의 일보 진전된 구체적 실시예인 제2도를 참고하면, 비음성(잡음)구간으로 식별된 구간에서 마이크로폰 입력(1)으로부터 뽑아낸 LPC 계수의 세트(또는 그 세트의 자기상관벡터)를 기억하는 버퍼(15)가 설치되어 있다.
이 계수들은 식(1)을 사용하여 메져를 뽑아내는데 사용된다.
여기서 식(1)은 LPC 계수의 현 프레임 보다는 역 잡음 스펙트럼의 근사치에 해당되는 LPC 계수의 단일하게 기억된 프레임이 사용된다는 것을 제외하고는 물론 이따꾸라-사이또 왜곡 메져에 해당된다.
LPC 분석기(3)에 의해 출력된 LPC 계수 벡터 Li도 LPC 계수벡터의 자기상관벡터를 산출하는 상관기(14)로 입력된다.
버퍼 메모리(15)는 스레숄더(7)의 음성/비음성 출력에 의해 제어되며, 그 방법은 '음성' 프레임 동안에는 버퍼가 '잡음' 자기 상관계수를 보유하며, '잡음'프레임 동안에는 LPC 계수의 새로운 세트가 버퍼를 갱신하는데 사용되는 것이며, 이 동작은 예를 들면, 상관기(14)의 출력을 받아 각각의 자기상관계수를 전하며, 버퍼(15)에 연결되어 있는 멀티풀 스위치(16)에 의한다.
상관기(14)는 버퍼(15)의 다음 위치에 설치될 수도 있다.
또한 계수를 갱신하기 위한 음성/비음성 결정은 출력(8)에 근거할 필요는 없으며, (바람직하기로는)다른 곳으로부터 신호를 수신할 수도 있다.
음성 신호가 없는 시간이 종종 발생하기 때문에 버퍼에 기억된 LPC 계수가 때때로 갱신될 수 있으며, 그래서 이 장치는 잡음 스펙트럼에서의 변화를 추적할 수 있다.
만약 잡음 스펙트럼이 상대적으로 오랜기간 고정된 상태라면(이는 종종 발생한다), 버퍼를 갱신하는 것은 때때로 필요할 수도 있으며, 검출기의 동작 시간 때만 딱 한번 발생할 수도 있다.
그러나 이동용 라디오의 경우에는 자주 갱신하는 것이 바람직하다.
본 실시안이 수정에 있어서, 시스템은 초기에는 간단히 고정된 하이패스필터에 해당하는 계수항을 갖는 식(1)을 사용한다.
그리고 계속해서 '잡음구간'의 LPC 계수를 사용하는데 대한 스위칭에 의해서 적응하기 시작한다.
만약에 어떤 이유로 음성 검출에 실패할때 시스템은 다시 간단한 하이패스필터를 사용할 수 있다.
상기의 측정법은 R0로 나눔으로써 정규화 할 수 있으며 스레숄드된 표현은 다음과 같다.
이 메져는 한 프레임에서의 총 신호에너지에 영향받지 않으며, 따라서 그래서 총 신호레벨 변화에 의해 보상된다.
그러나, 잡음 및 음성레벨간의 좀 덜 뚜렷한 대조를 주며, 그래서 고 잡음 환경에서는 사용하지 않는것이 바람직하다.
잡음신호(상술한 다양한 실시에에서 처럼, 잡음 마이크로폰 또는 잡음만 있는 구간으로 부터의)의 인버스 필터계수를 뽑아내는 LPC 분석기를 사용하는 대신, 알려진 형태의 어댑터 필터를 사용하는 역 잡음 스펙트럼을 모델하는 것이 가능하다; 그 잡음 스펙트럼은 그러한 필터들이 받아들일 수 있도록 상대적 저속인 계수 적응률을 천천히(이하 설명처럼) 변화시키기 때문이다.
제1도에 해당하는 제1구체적 실시예에서 LPC 분석기(13)는 단순히 어댑터 필터(예를들면, 횡 FIR(transversal FIR)이나 격자 필터)에 의해 대치되며, 인버스 필터를 모델링 함으로써 잡음입력을 백색화 시킬 목적으로 연결되고, 그 계수는 자기상관기(14)에 공급된다.
제2도에 해당하는 두번째의 구체적 실시예에서, LPC 분석기(3)는 어댑터 필터에 의해 대체되며, 버퍼(15)는 생략된다.
그러나 스위치(16)는 어댑터 필터가 음성 구간에서 그 계수를 어댑팅 하는 것을 막는 동작을 한다.
본 발명의 또다른 측면에 따른 제2의음성활동검출장치를 설명해 보도록 하자.
전술한 바로부터, LPC 계수 벡터는 단순히 입력신호의 역스펙트럼 형태에 근접하는 응답을 갖는 FIR 필터의 임펄스응답이라는 것은 명백하다.
근접하는 프레임 사이의 이따쿠라-사이또 왜곡 메져가 형성될때, 사실 이것은 LPC 필터에 의해 이전의 프레임을 필터하는 것처럼 신호의 거듭제곱과 같다.
그래서 만약 근접한 프레임의 스펙트럼이 거의 다르지 않다면, 프레임의 스펙트럼 거듭제곱의 작은양은 필터링 되지 않을 것이며, 메져는 낮을 것이다.
같은 방법으로 프레임 사이의 커다란 스펙트럼 차이는 이따꾸라-사이또 왜곡 메져를 높게 산출하며, 그 메져는 근접한 프레임의 스펙트럼 유사성 정도를 반영한다.
음성 코우더에 있어서, 데이타율을 최소화하는 것이 바람직하다. 그래서 프레임의 길이는 가능한한 길게 만들어진다; 달리말하면, 만약 프레임의 길이가 충분히 길다면, 음성 신호는 프레임에서 프레임까지의 중대한 스펙트럼 변화를 보여줄 것이다(그렇지 않다면 코우딩은 지체된다).
다른 한편으로, 잡음은 프레임에서 프레임까지의 천천히 변화하는 스펙트럼 형태를 갖는다.
그래서 신호속에 음성이 없는 구간에서는 이따꾸라-사이또 왜곡 메져가 같은 방법으로 낮아질 것이다.
이는 이전 프레임으로부터의 인버스 LPC 필터를 이용하여 잡음 역수의 대부분을 필터링하여 없애기 때문이다.
단속적인 음성을 포함하는 잡음 신호의 근접한 프레임 사이의 이따꾸라-사이또 왜곡 메져는 잡음구간에서보다 음성구간에서 더 높다;
변화도(표준 편차에 의해 설명되는 것처럼)은 크고, 덜 단속적으로 변한다.
M의 표준편차의 표준편차, 역시 믿을만한 메져라는 사실이 주목된다;
각각의 표준편차를 얻는 효과는 필수적으로 그 메져를 매끄럽게 한다.
음성활동 검출기의 이 두번째 형태에서 음성의 존재여부를 결정하는데 사용되는 측정된 파라미터는 바람직하게도 이따꾸라-사이또 왜곡 메져의 표준편차이다.
그러나, 분산(variance)이 다른 메져들 및 다른 스펙트럼 왜곡 메져들(예를들면 FFT 분석에 기초한 것)이 사용될 수 있다.
음성활동 검출에 있어서 어댑티브 스레숄드를 적용하는 것은 유용하다.
음성구간, 또는 음성 신호가 스레숄드 되는 동안 스레숄드가 조정되어서는 안된다.
이에따라, 음성/비음성 제어신호를 사용하는 스레숄드 어댑터를 제어할 필요가 있으며, 바람직하기로는, 이 제어신호는 스레숄드 어댑터의 출력에 영향을 받지 않아야 한다.
스레숄드(T)는 잡음만이 있는때 메져(M)의 레벨 바로 위에서 스레숄드값이 유지되도록 하기 위하여 적절하게 조정된다.
일반적으로 잡음이 있을때 메져는 무작위 변화할 수 있기 때문에, 스레숄드는 블록의 수에 대해 평균 높이를 결정함으로써 변화되며, 이 평균에 비례하는 높이에서 스레숄드를 세팅한다.
그러나, 잡음환경에서 이것으로는 불충분하며, 그래서 몇몇 블록에 대한 파라미터의 변화도의 평가가 역시 고려된다.
그러므로, 스레숄드값(T)는 T=M'+K.d에 따라 바람직하게 계산된다.
여기서 M'은 연속적인 프레임의 수에 대한 메져의 평균치이며, d는 그 프레임에 대한 메져의 표준 편차이며, K는 상수이다(일반적으로 2일 수 있다).
실제상으로, 음성이 존재하지 않음이 지시된 이후 즉각적으로 재적응시키지 말고, 하강이 안정되 있다는 것을 확신할때까지 기다리는 것이 바람직하다(이는 적응 및 비적응 상태 사이의 빠른 반복되는 스위칭을 피하기 위해서이다).
상기한 각 측면들을 결합한 본 발명의 바람직한 구체적 실시예인 제3도에 따르면, 입력단(1)은 신호를 수신하며 그 신호는 아날로그/디지탈 변환기(ADC)(2)에 의해 샘플링되고, 디지탈화되며, 인버스필터 분석기(3)의 입력단에 공급된다.
이때 인버스필터 분석기(3)는 실제로는 음성 활동 검출기로 작동하고, 또한 입력신호 스펙트럼의 역에 해당하는 필터의 계수 Li(전형적으로 8)를 발생시키는 음성코우더의 한 부분이다.
이 디지탈 신호는 또한 자기상관기(4)(분석단(3)의 부분이다)에 공급되어 입력신호의 자기상관 벡터 Ri(또는, 적어도 LPC 계수가 있는 것만큼의 낮은 차수의 항)를 발생시킨다.
본 장치의 이 부분에 대한 동작은 제1도 및 제2도에서 설명된 바와 같다.
바람직하기로는, 이때의 자기상관계수 Ri는 그 신뢰도를 높이기 위해, 몇몇의 계속되는 프레임에 대해 평균화된다(전형적으로 5-20ms).
이것은 버퍼(4a)에서 자기상관기(4)에 의해 출력된 자기상관계수의 각 세트를 기억시키고, 현재의 자기상관계수(Ri)와 버퍼(4a)에 잠시 저장되었다 공급되는 이전의프레임으로부터의 Ri의 가중된 합을 산출하는 평균계(4b)를 사용함으로써 이루어질 수 있다.
그러므로 그 평균화된 자기상관계수 Rai는 버퍼(15)를 경유하여 자기상관기(14)로부터 받은 저장된 잡음 구간의 인버스필터 계수 Li의 자기상관벡터 Ai와 함께 가중 및 합산 장치(5),(6)에 공급되며, Rai및 Ai로부터 다음처럼 정의되는 메져(M)을 형성한다.
이 메져는 다음으로 스레숄더(7)에 의해 스레숄드값에 맞게 스레숄드되며, 출력(8)에서 음성의 존재 여부가 지시된다.
한쌍에 해당하는 역 필너 계수 Li가 잡음스펙트럼의 역을 판단하기 위해서, 잡음구간 동안 이 계수를 갱신하는 것이 바람직하다(물론 음성 구간에서는 갱신되지 않는다).
그러나, 갱신할것인가 여부를 정하는 근거가 되는 음성/비음성 결정이 갱신의 결과에 영향받지 않는것이 바람직하며, 또는 그밖의 신호의 잘못확인된 단일 프레임으로해서 음성활동 검출기가 계속해서 록킹할 수 없는 상태로 진행하게되고, 뒤따르는 프레임들을 잘못 확인하게되는 결과를 일으킨다.
그러므로, 따로 분리되어 있는 음성활동검출기인 제어신호 발생회로(20)가 설치되어 있으며, 이것은 인버스필터 분석기(3)(또는 버퍼(15))을 제어하기 위해 음성의 존재여부를 지시하는 독립적인 제어신호를 만들어, 메져(M)를 만드는데 쓰이는 인버쓰 인버스필터 자기상관계수 Ai가 단지 잡음구간에서만 갱신될 수 있도록 하는 것이 바람직하다.
제어신호 발생회로(20)은 입력신호에 해당되는 LPC 계수 Mi의 세트를 산출하는 LPC 분석기(21)를 포함하며(이는 음성 코우더의 일부분일 수 있으며, 더 자세히는 분석기(3)에 의해 그 기능이 행해질 수 있다), Mi의 자기상관계수인 Bi를 만드는 자기상관기(21a)를 포함한다.
만약 분석기(21)가 분석기(3)에 의해 형성된다면, 그때 Mi=Li이고 Bi=Ai가 된다.
다음으로 이 자기상관계수들은 자기상관기(4)로부터 받은 입력신호의 자기상관벡터(Ri)와 함께 가중 및 합산장치(22),(23)((5),(6)과 대등한 것이다)에 공급된다.
그러므로, 입력음성프레임과 이전의 음성 프레임 사이의 스펙트럼 유사성의 메져는 계산되어진다; 이 계산은 상술한 것처럼 현재의 프레임 Ri와 이전의 프레임 Bi 사이의 이따꾸라-사이또 왜곡 메져일수 있으며, 또는 현 프레임의 Ri 및 Bi에 대한 이따꾸라-사이또 왜곡 메져를 계산하고, 스펙트럼 차이신호를 생성하기 위하여, 버퍼(24)에 저장된 이전 프레임에 대한 메져를 감산한다(감산기 25에서)(다른 방법으로, 그 메져는 R0로 나눔으로써 에너지 정규화 되는 것이 바람직하다).
물론 그 다음, 버퍼(24)는 갱신된다.
상술한 것처럼 이 스펙트럼 차이신호는 스레숄더(26)에 의해 스레숄드될때, 음성의 존재 여부를 지시하는 값이 된다.
그러나, 우리는 비록 이 메져가 비음성 신호에서 잡음을 구분하는 용도로는 훌륭하나(선행의 기술 시스템은 일반적으로 할 수 없었던 일이다), 음성 신호에서 잡음을 구분하는데는 일반적으로 덜 효과적이라는 것을 알 수 있다.
이에따라, 피치 분석기(27)(이는 사실상 음성 코우더의 한 부분으로 작동하며, 특히, 멀티펄스 LPC 코우더에서 산출된 장시간 예측 지체값을 측정한다)를 포함하는 음성 신호검출회로가 제어신호 발생회로(20) 내부에 설치되는 것이 바람직하다.
피치 분석기(27)은 음성신호가 검출될때 true라는 논리신호를 산출하며, 이 신호는 스레숄더(26)(일반적으로 비음성 신호가 존재할때 true다)로부터의 스레숄드된 메져와 함께 NOR 게이트(28)에 입력값으로 공급되어 음성이 존재할때는 false, 잡음이 존재할때는 true라는 신호를 발생한다.
이 신호는 버퍼 15에 공급되며(또는 인버스필터 분석기(3)에), 그 결과 인버스필터 계수 Li는 단지 잡음구간에서만 갱신된다. 스레숄드 어댑터(29)는 제어신호발생회로(20)의 출력인 비음성 신호제어를 수신하기 위해 연결되어 있다.
스레숄드 어댑터(29)의 출력은 스레숄더(7)에 공급된다. 스레숄드 어댑터는 스레숄드가 잡음에 근접할때까지(이는, 예를들면, 가중 및 합산회로(22),(23)으로부터 끌어오는 것이 편리할 것이다), 순시 스레숄드값에 비례하는 단계에서 스레숄드를 증가 또는 감소시키는 동작을 한다.
입력신호가 매우 낮을때는, 낮은 신호 레벨에서 ADC(2)에 의해 산출된 신호양자화의 효과가 믿을만하지 못한 결과를 산출할 수 있기 때문에 스레숄드가 고정된, 낮은 레벨에 자동적으로 세트되는 것이 바람직하다.
또한, 행오버발생장치(30)가 설치되어 있으며, 이 장치는 스레숄더(7)의 다음에 설치되어 음성 지시 기간을 측정하는 동작을 하고, 음성의 존재가 소정의 시상수가 경과하는 기간동안 지시될때 출력은 짧은 행오버기간동안 'high'상태를 유지한다.
이러한 방법으로, 낮은 레벨 음성의 중앙부가 생략되는 경우를 피하고, 시상수의 적절한 선택은 음성으로 잘못 인식된 잡음의 짧은 스파이크에 의해 행오버 발생기(30)기의 트리거가 발생하는 것을 방지한다.
물론 상기한 기능의 모든것은 디지탈 신호 프로세싱(DSP)칩, 또는 이행되는 LPC 코덱의 한 부분, 또는 메모리장치가 결부되었고 마이크로컴퓨터나 마이크로컨트롤러 같은 단일하게 적절히 프로그램된 디지탈 프로세싱 장치에 의해 수행된다.
상술한 바와같이 음성검출장치는 LPC 코덱의 부분으로서 수행될 수 있다.
또한 신호의 자기 상관계수 또는 관련된 메져(부분적상관 또는 파코어(pacor)계수)가 멀리있는 장소로 전송되므로 코덱(codec)으로부터 떨어져서 음성검출을 할 수 있다.
Claims (37)
- 입력 신호에서 음성을 나타내는 신호의 존재 여부를 검출하는 음성활동 검출장치에 있어서, 상기 입력 신호를 수신하는 수신 장치(1); 상기 입력 신호로부터 상기 입력 신호의 예측되는 잡음 신호 성분을 나타내는 제2신호를 주기적으로 적응 생성하는 제2신호 생성 장치(14,15); 상기 입력 신호의 일부분과 상기 제2신호로부터 입력 신호의 상기 일부분과 상기 예측되는 잡음 신호 성분 사이의 스펙트럼 유사성의 메져(M)를 주기적으로 형성하는 메져 형성 장치(4,5,6); 및 상기 입력 신호에서 음성의 존재 여부를 나타내는 출력을 산출하기 위해 메져(M)와 스레숄드값(T)을 비교하는 스레숄드 장치(7)으로 이루어지고, 상기 제2신호의 주파수 스펙트럼의 역인 스펙트럼 응답을 갖는 필터 계수를 산출하도록 동작가능한 분석 장치(13,3)를 포함하며, 메져 형성 장치(4,5,6)는 상기 계수를 갖는 필터에 의해 입력 신호의 상기 부분을 필터하여 얻어진 신호의 영차(zero-order) 자기상관(R'0)에 비례하는 메져(M)를 산출하도록 동작가능한 것을 특징으로 하는 음성활동 검출장치.
- 제1항에 있어서, 분석 장치(13,3)는 적응(adaptive) 필터를 포함하는 것을 특징으로 하는 음성활동 검출장치.
- 제1항에 있어서, 제2신호 생성장치(14,15)는 상기 계수의 임펄스 응답의 자기상관 계수(Ai)를 계산하도록 동작가능하고, 메져 형성 장치(4,5,6)는 상기 제2신호의 자기상관계수(Ri)를 계산하는 장치, 및 Ri 및 Ai를 수신하고 그로부터 메져(M)를 연산하도록 연결되는 장치(5,6)로 이루어지는 것을 특징으로 하는 음성활동 검출장치.
- 제3항에 있어서, 상기 입력 신호 부분의 자기상관 계수(Ri)를 계산하는 상기 자기상관 계산 장치(4)는 신호의 일부 연속 부분의 자기상관 계수에 종속적으로 동작하도록 배치(4a,4b)되는 것을 특징으로 하는 음성활동 검출장치.
- 제3항 또는 제4항에 있어서, M=R0A0+2ΣRiAi이고, 여기서 Ai는 상기 필터의 임펄스 응답의 i번째 자기상관 계수를 나타내는 것을 특징으로 하는 음성활동 검출장치.
- 제1항 내지 제4항 중 어느 한 항에 있어서, 음성이 존재하지 않는, 잡음에 가까운 제2입력 신호를 수신하도록 배치되는 입력(11)을 구비하고, 생성 장치는 제2입력 신호로부터 Ai값을 획득하는 LPC 분석장치(13)를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 필터 응답의 자기상관 계수(Ai)가 얻어질 수 있는 데이터를 저장하도록 연결되는 버퍼(15)를 구비하고, 상기 필터 응답은 LPC 분석 장치(3)에 의해 신호로 부터 주기적으로 연산되며, 메져(M)가 상기 저장된 데이터를 이용하여 연산되도록 연결되고 제어되며, 상기 저장된 데이터는 음성이 존재하지 않는 것으로 나타나는 주기에서만 갱신되는 것을 특징으로 하는 음성활동 검출장치.
- 제8항에 있어서, 저장된 데이터의 갱신을 제어하기 위해 음성이 존재하지 않는 것을 나타내는 장치(20)를 구비하고, 음성이 존재하지 않는 것을 나타내는 장치(20)는 제2음성 활동 검출장치가 되는 것을 특징으로 하는 음성활동 검출장치.
- 제1항 내지 제4항 중 어느 한 항에 있어서, 음성이 존재하지 않는 것으로 나타나는 주기 동안 상기 스레숄드값(T)을 조정하는 장치(29)를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 제10항에 있어서, 음성이 존재하는 경우 스레숄드값의 조정을 방지하도록 배치되는 제2음성활동 검출장치(20)를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 제9항에 있어서, 음성이 존재하지 않는 것으로 나타나는 주기 동안 상기 스레숄드값(T)을 조정하는 장치(20)를 구비하고, 상기 제2음성활동 검출장치(20)는 음성이 존재하는 경우 스레숄드값의 조정을 방지하도록 배치되는 것을 특징으로 하는 음성활동 검출장치.
- 제7항에 있어서, 스레숄드값(T)은 조정되는 경우 메져의 표준편차의 분수가 되는 항과 메져의 합의 평균과 동일하게 조정되는 것을 특징으로 하는 음성활동 검출장치.
- 입력 신호에서 음성을 나타내는 신호의 존재 여부를 검출하는 방법에 있어서, 상기 입력 신호의 예측되는 잡음 신호 성분을 나타내는 제2신호를 주기적으로 적합하게 생성하는 단계; 입력 신호 부분 및 상기 제2신호로부터 상기 입력 신호 부분과 상기 예측되는 잡음 신호 성분 사이의 스펙트럼 유사성의 메져(M)를 주기적으로 형성하는 단계; 및 상기 입력 신호에서 음성의 존재 여부를 나타내는 출력을 산출하기 위해 메져(M)와 스레숄드값(T)을 비교하는 단계로 이루어지고, 상기 제2신호의 주파수 스펙트럼의 역인 스펙트럼 응답을 갖는 필터의 계수를 산출하는 단계를 구비하며, 메져(M)는 상기 계수를 갖는 필터에 의해 상기 입력 신호 부분을 필터하여 얻어진 신호의 영차 자기상관(R'0)에 비례하는 것을 특징으로 하는 방법.
- 제1항 내지 제4항 중 어느 한 항에 따른 장치를 포함하는 음성신호 엔코딩 장치.
- 제1항 내지 제4항 중 어느 한 항에 따른 장치를 포함하는 이동 전화 장치.
- 입력 신호에서 음성을 나타내는 신호의 존재 여부를 검출하는 방법에 있어서, 상기 입력 신호의 예측되는 잡음 신호 성분을 나타내는 제2신호를 주기적으로 적합하게 생성하는 단계; 상기 입력 신호 부분 및 상기 제2신호로부터 상기 입력 신호 부분과 상기 예측 되는 잡음 신호 성분 사이의 스펙트럼 유사성의 메져(M)를 주기적으로 형성하는 단계; 및 입력 신호에서 음성의 존재 여부를 나타내는 출력을 산출하기 위해 메져(M)와 스레숄드값(T)을 비교하는 단계로 이루어지고, 상기 입력 신호 부분의 주파수 스펙트럼의 역인 스펙트럼 응답을 갖는 필터의 계수를 산출하는 단계를 구비하며, 메져(M)는 상기 계수를 갖는 필터에 의해 상기 제2신호를 필터하여 얻어진 신호의 영차 자기상관(R'0)에 비례하는 것을 특징으로 하는 방법.
- 입력 신호에서 음성의 존재 여부를 나타내는 출력 신호를 산출하기 위해 입력신호 부분과 음성이 없는 것으로 간주되는 입력 신호의 일부분 사이의 스펙트럼 유사성의 메져를 형성하여 동작하는 제1음성활동 검출기(3 내지 6,14); 상기 음성이 없는 부분으로부터 획득된 데이터를 저장하는 기억장치(15); 및 보조 음성활동 검출기(20)로 이루어지고, 보조 음성활동 검출기(20)는 홀로 기억장치(15)의 갱신을 제어하며, 입력 신호의 현재의 일부분과 입력 신호의 앞선 부분 사이의 스펙트럼 유사성의 메져를 생성하는 유사성 메져 생성장치(4,21,21a,22,23,24,25,26)를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 제18항에 있어서, 상기 유사성 메져 생성장치는 입력 신호의 현재 부분과 관련되는 LPC 필터 데이터로부터 현재 왜곡 메져를 제공하는 장치(4,21,22,23); 입력 신호의 앞선 부분에 대응하는 동등한 이전 프레임 왜곡 메져를 제공하는 장치(24); 및 음성 존재 여부의 표시기로서 그 사이의 유사성 정도를 나타내는 신호를 생성하는 장치(25,26)로 이루어지는 것을 특징으로 하는 음성활동 검출장치.
- 입력 신호를 수신하는 장치(1); 잡음을 나타내는 신호를 저장하는 기억장치(15); 입력 신호 및 상기 잡음을 나타내는 신호로부터 입력 신호의 일부분과 상기 입력신호의 잡음 신호 성분 예측 사이의 스펙트럼 유사선의 메져를 주기적으로 형성하는 장치(3 내지 6,14); 입력 신호에서 음성의 존재 여부를 나타내는 출력을 산출하기 위해 메져와 스레숄드값을 비교하는 장치(7); 보조 음성활동 검출기(20); 및 입력 신호로부터 기억장치를 갱신하는 기억장치 갱신 장치으로 이루어지고, 보조 음성활동 검출기는 음성의 존재 여부를 나타내는 제어 신호를 산출하기 위해 입력 신호의 현재의 부분과 입력 신호의 앞선 부분 사이의 스펙트럼 유사성의 메져에 종속적으로 동작가능하며, 상기 제어 신호가 음성이 없다고 나타나는 경우에만 기억장치 갱신 장치가 입력 신호로부터 기억장치를 갱신하도록 동작가능한 것을 특징으로 하는 음성활동 검출장치.
- 제18항 또는 제19항에 있어서, 상기 제어 신호에 의해 음성이 없는 것으로 나타나는 경우의 주기 동안 상기 스레숄드값을 조정하는 장치를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 제21항에 있어서, 상기 보조 음성활동 검출기는 보조 음성활동 검출기(20)에 의해 산출된 제어 신호 또한 종속되는, 음성의 존재 여부를 나타내는 신호를 생성하는 피치 분석장치를 구비하는 음성 검출장치(27)를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 제20항에 있어서, 상기 제어 신호에 의해 음성이 없는 것으로 나타나는 경우의 주기 동안 상기 스레숄드값을 조정하는 장치를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 제23항에 있어서, 상기 보조 음성활동 검출기는 보조 음성활동 검출기(20)에 의해 산출된 제어 신호 또한 종속되는, 음성의 존재 여부를 나타내는 신호를 생성하는 피치 분석장치를 구비하는 음성 검출장치(27)를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 입력 신호에서 음성을 나타내는 신호의 존재 여부를 검출하는 음성활동 검출장치에 있어서, 상기 입력 신호를 수신하는 수신 장치(1); 상기 입력 신호로부터 상기 입력 신호의 예측되는 잡음 신호 성분을 나타내는 제2신호를 주기적으로 생성하는 제2신호 생성 장치(14,15); 상기 제2신호 및 입력 신호 부분으로부터 상기 입력 신호 부분과 상기 예측되는 잡음 신호 성분 사이의 스펙트럼 유사성의 메져(M)를 주기적으로 적합하게 형성하는 메져 형성 장치(4,5,6); 및 상기 입력 신호에서 음성의 존재 여부를 나타내는 출력을 산출하기 위해 메져(M)와 스레숄드값(T)을 비교하는 스레숄드 장치(7)으로 이루어지고, 상기 입력 신호 부분의 역 주파수 스펙트럼인 스펙트럼 응답을 갖는 필터 계수를 산출하도록 동작가능한 분석 장치(13,3)를 포함하며, 메져 형성 장치(4,5,6)는 상기 계수를 갖는 필터에 의해 상기 제2신호를 필터하여 얻어진 신호의 영차(zero-order) 자기상관(R'0)에 비례하는 메져(M)를 산출하도록 동작가능한 것을 특징으로 하는 음성활동 검출장치.
- 제25항에 있어서, 분석 장치(13,3)는 적응(adaptive) 필터를 포함하는 것을 특징으로 하는 음성활동 검출장치.
- 제25항에 있어서, 제2신호 생성장치(14,15)는 상기 계수의 임펄스 응답의 자기상관 계수(Ai)를 계산하도록 동작가능하고, 메져 형성 장치(4,5,6)는 상기 제2신호의 자기상관계수(Ri)를 계산하는 장치, 및 Ri 및 Ai를 수신하고 그로부터 메져(M)를 연산하도록 연결되는 장치(5,6)로 이루어지는 것을 특징으로 하는 음성활동 검출장치.
- 제27항에 있어서, 상기 제2신호의 자기상관 계수(Ri)를 계산하는 상기 자기상관 계산 장치(4)는 신호의 일부 연속 부분의 자기상관 계수에 종속적으로 동작하도록 배치(4a,4b)되는 것을 특징으로 하는 음성활동 검출장치.
- 제27항 또는 제28항에 있어서, M=R0A0+2ΣRiAi이고, 여기서 Ai는 상기 필터의 임펄스 응답의 i번째 자기상관 계수를 나타내는 것을 특징으로 하는 음성활동 검출장치.
- 제25항 내지 제28항 중 어느 한 항에 있어서, 상기 필터 응답의 자기상관 계수(Ai)가 얻어질 수 있는 데이터를 저장하도록 연결되는 버퍼(15)를 구비하고, 상기 필터 응답은 LPC 분석 장치(3)에 의해 신호로 부터 주기적으로 연산되며, 메져(M)가 상기 저장된 데이터를 이용하여 연산되도록 연결되고 제어되며, 상기 저장된 데이터는 음성이 존재하지 않는 것으로 나타나는 주기에서만 갱신되는 것을 특징으로 하는 음성활동 검출장치.
- 제31항에 있어서, 저장된 데이터의 갱신을 제어하기 위해 음성이 존재하지 않는 것을 나타내는 장치(20)를 구비하고, 음성니 존재하지 않는 것을 나타내는 장치(20)는 제2음성활동 검출장치가 되는 것을 특징으로 하는 음성활동 검출장치.
- 제25항 내지 제28항 중 어느 한 항에 있어서, 음성이 존재하지 않는 것으로 나타나는 주기 동안 상기 스레숄드값(T)을 조정하는 장치(29)를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 제33항에 있어서, 음성이 존재하는 경우 스레숄드값의 조정을 방지하도록 배치되는 제2음성활동 검출장치(20)를 구비하는 것을 특징으로 하는 음성활동 검출장치.
- 제32항에 있어서, 음성이 존재하지 않는 것을 나타나는 주기 동안 상기 스레숄드값(T)을 조정하는 장치(20)를 구비하고, 상기 제2음성활동 검출장치(20)는 음성이 존재하는 경우 스레숄드값의 조정을 방지하도록 배치되는 것을 특징으로 하는 음성활동 검출장치.
- 제25항 내지 제28항 중 어느 한 항에 따른 장치를 포함하는 음성신호 엔코딩 장치.
- 제25항 내지 제28항 중 어느 한 항에 따른 장치를 포함하는 이동 전화 장치.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB888805795A GB8805795D0 (en) | 1988-03-11 | 1988-03-11 | Voice activity detector |
GB8805795 | 1988-03-11 | ||
GB8813346.7 | 1988-06-06 | ||
GB888813346A GB8813346D0 (en) | 1988-06-06 | 1988-06-06 | Voice activity detection |
GB888820105A GB8820105D0 (en) | 1988-08-24 | 1988-08-24 | Voice activity detection |
GB8820105.8 | 1988-08-24 | ||
PCT/GB1989/000247 WO1989008910A1 (en) | 1988-03-11 | 1989-03-10 | Voice activity detection |
Publications (2)
Publication Number | Publication Date |
---|---|
KR900700993A KR900700993A (ko) | 1990-08-17 |
KR0161258B1 true KR0161258B1 (ko) | 1999-03-20 |
Family
ID=27263821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019890702099A KR0161258B1 (ko) | 1988-03-11 | 1989-03-10 | 음성활동 검출 방법 및 장치 |
Country Status (16)
Country | Link |
---|---|
EP (2) | EP0548054B1 (ko) |
JP (2) | JP3321156B2 (ko) |
KR (1) | KR0161258B1 (ko) |
AU (1) | AU608432B2 (ko) |
BR (1) | BR8907308A (ko) |
CA (1) | CA1335003C (ko) |
DE (2) | DE68929442T2 (ko) |
DK (1) | DK175478B1 (ko) |
ES (2) | ES2188588T3 (ko) |
FI (2) | FI110726B (ko) |
HK (1) | HK135896A (ko) |
IE (1) | IE61863B1 (ko) |
NO (2) | NO304858B1 (ko) |
NZ (1) | NZ228290A (ko) |
PT (1) | PT89978B (ko) |
WO (1) | WO1989008910A1 (ko) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2643593B2 (ja) * | 1989-11-28 | 1997-08-20 | 日本電気株式会社 | 音声・モデム信号識別回路 |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
US5241692A (en) * | 1991-02-19 | 1993-08-31 | Motorola, Inc. | Interference reduction system for a speech recognition device |
FR2697101B1 (fr) * | 1992-10-21 | 1994-11-25 | Sextant Avionique | Procédé de détection de la parole. |
SE470577B (sv) * | 1993-01-29 | 1994-09-19 | Ericsson Telefon Ab L M | Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
SE501305C2 (sv) * | 1993-05-26 | 1995-01-09 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
EP0633658A3 (en) * | 1993-07-06 | 1996-01-17 | Hughes Aircraft Co | Automatic gain control circuit coupled to the transmission and activated by speech. |
IN184794B (ko) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
SE501981C2 (sv) * | 1993-11-02 | 1995-07-03 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
FR2727236B1 (fr) * | 1994-11-22 | 1996-12-27 | Alcatel Mobile Comm France | Detection d'activite vocale |
GB2317084B (en) * | 1995-04-28 | 2000-01-19 | Northern Telecom Ltd | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
GB2306010A (en) * | 1995-10-04 | 1997-04-23 | Univ Wales Medicine | A method of classifying signals |
FR2739995B1 (fr) * | 1995-10-13 | 1997-12-12 | Massaloux Dominique | Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole |
US5794199A (en) * | 1996-01-29 | 1998-08-11 | Texas Instruments Incorporated | Method and system for improved discontinuous speech transmission |
DE69716266T2 (de) | 1996-07-03 | 2003-06-12 | British Telecommunications P.L.C., London | Sprachaktivitätsdetektor |
US6618701B2 (en) | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
DE10052626A1 (de) * | 2000-10-24 | 2002-05-02 | Alcatel Sa | Adaptiver Geräuschpegelschätzer |
CN1617606A (zh) * | 2003-11-12 | 2005-05-18 | 皇家飞利浦电子股份有限公司 | 一种在语音信道传输非语音数据的方法及装置 |
US7155388B2 (en) * | 2004-06-30 | 2006-12-26 | Motorola, Inc. | Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization |
US7139701B2 (en) * | 2004-06-30 | 2006-11-21 | Motorola, Inc. | Method for detecting and attenuating inhalation noise in a communication system |
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
US8708702B2 (en) * | 2004-09-16 | 2014-04-29 | Lena Foundation | Systems and methods for learning using contextual feedback |
US8775168B2 (en) | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
US8175871B2 (en) | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8954324B2 (en) | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8223988B2 (en) | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
US8611556B2 (en) | 2008-04-25 | 2013-12-17 | Nokia Corporation | Calibrating multiple microphones |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
EP2491549A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
CN108985277B (zh) * | 2018-08-24 | 2020-11-10 | 广东石油化工学院 | 一种功率信号中背景噪声滤除方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3509281A (en) * | 1966-09-29 | 1970-04-28 | Ibm | Voicing detection system |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4358738A (en) * | 1976-06-07 | 1982-11-09 | Kahn Leonard R | Signal presence determination method for use in a contaminated medium |
JPS5636246A (en) * | 1979-08-31 | 1981-04-09 | Nec Corp | Stereo signal demodulating circuit |
JPS59115625A (ja) * | 1982-12-22 | 1984-07-04 | Nec Corp | 音声検出器 |
EP0127718B1 (fr) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
JPS6196817A (ja) * | 1984-10-17 | 1986-05-15 | Sharp Corp | フイルタ− |
-
1989
- 1989-03-10 IE IE77489A patent/IE61863B1/en not_active IP Right Cessation
- 1989-03-10 PT PT89978A patent/PT89978B/pt not_active IP Right Cessation
- 1989-03-10 NZ NZ228290A patent/NZ228290A/en unknown
- 1989-03-10 ES ES93200015T patent/ES2188588T3/es not_active Expired - Lifetime
- 1989-03-10 DE DE68929442T patent/DE68929442T2/de not_active Expired - Lifetime
- 1989-03-10 AU AU33554/89A patent/AU608432B2/en not_active Expired
- 1989-03-10 KR KR1019890702099A patent/KR0161258B1/ko not_active IP Right Cessation
- 1989-03-10 DE DE68910859T patent/DE68910859T2/de not_active Expired - Lifetime
- 1989-03-10 JP JP50377289A patent/JP3321156B2/ja not_active Expired - Lifetime
- 1989-03-10 ES ES89302422T patent/ES2047664T3/es not_active Expired - Lifetime
- 1989-03-10 EP EP93200015A patent/EP0548054B1/en not_active Expired - Lifetime
- 1989-03-10 BR BR898907308A patent/BR8907308A/pt not_active IP Right Cessation
- 1989-03-10 WO PCT/GB1989/000247 patent/WO1989008910A1/en active IP Right Grant
- 1989-03-10 EP EP89302422A patent/EP0335521B1/en not_active Expired - Lifetime
- 1989-03-10 CA CA000593386A patent/CA1335003C/en not_active Expired - Lifetime
-
1990
- 1990-09-07 DK DK199002156A patent/DK175478B1/da not_active IP Right Cessation
- 1990-09-07 FI FI904410A patent/FI110726B/fi not_active IP Right Cessation
- 1990-09-10 NO NO903936A patent/NO304858B1/no not_active IP Right Cessation
-
1996
- 1996-07-25 HK HK135896A patent/HK135896A/xx not_active IP Right Cessation
-
1998
- 1998-06-04 NO NO982568A patent/NO316610B1/no not_active IP Right Cessation
-
1999
- 1999-11-18 JP JP32819899A patent/JP3423906B2/ja not_active Expired - Lifetime
-
2001
- 2001-05-04 FI FI20010933A patent/FI115328B/fi not_active IP Right Cessation
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR0161258B1 (ko) | 음성활동 검출 방법 및 장치 | |
US5276765A (en) | Voice activity detection | |
KR100363309B1 (ko) | 음성액티비티검출기 | |
JPH09212195A (ja) | 音声活性検出装置及び移動局並びに音声活性検出方法 | |
KR100278423B1 (ko) | 정상신호 및 비정상신호의 판별 | |
KR102012325B1 (ko) | 오디오 신호의 배경 잡음 추정 | |
GB1533337A (en) | Speech analysis and synthesis system | |
KR20010075343A (ko) | 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치 | |
EP0235181A1 (en) | BASIC FREQUENCY DETECTOR USING PARALLEL PROCESSING. | |
US5579432A (en) | Discriminating between stationary and non-stationary signals | |
GB2380644A (en) | Speech detection | |
Vahatalo et al. | Voice activity detection for GSM adaptive multi-rate codec | |
JPH08221097A (ja) | 音声成分の検出法 | |
Jiao et al. | Speech enhancement based on the wiener filter and wavelet entropy | |
KR100312334B1 (ko) | 에너지와 lsp 파라메타를 이용한 음성신호처리부호화기에서의 음성 활동 검출 방법 | |
WO2022139730A1 (en) | Method enabling the detection of the speech signal activity regions | |
Yaodu et al. | A real-time noise energy estimation method | |
Dai et al. | Microphone Sensitivity Matching Based on Optimal Smoothing and Minimum Statistics | |
SOVKA et al. | THE STUDY OF SPEECH/PAUSE DETECTORS FOR SPEECH | |
JPH0934495A (ja) | 有音検出方式 | |
NZ286953A (en) | Speech encoder/decoder: discriminating between speech and background sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Publication of correction | ||
FPAY | Annual fee payment |
Payment date: 20120727 Year of fee payment: 15 |
|
EXPY | Expiration of term |