KR100992656B1 - 음향 및 비음향 센서를 이용한 유성음 및 무성음 감지시스템 및 방법 - Google Patents

음향 및 비음향 센서를 이용한 유성음 및 무성음 감지시스템 및 방법 Download PDF

Info

Publication number
KR100992656B1
KR100992656B1 KR1020037015511A KR20037015511A KR100992656B1 KR 100992656 B1 KR100992656 B1 KR 100992656B1 KR 1020037015511 A KR1020037015511 A KR 1020037015511A KR 20037015511 A KR20037015511 A KR 20037015511A KR 100992656 B1 KR100992656 B1 KR 100992656B1
Authority
KR
South Korea
Prior art keywords
speech
noise
acoustic
acoustic signal
voiced
Prior art date
Application number
KR1020037015511A
Other languages
English (en)
Other versions
KR20040030638A (ko
Inventor
그레고리씨. 버넷
Original Assignee
앨리프컴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/905,361 external-priority patent/US20020039425A1/en
Priority claimed from US09/990,847 external-priority patent/US20020099541A1/en
Application filed by 앨리프컴 filed Critical 앨리프컴
Priority claimed from PCT/US2002/017251 external-priority patent/WO2002098169A1/en
Publication of KR20040030638A publication Critical patent/KR20040030638A/ko
Application granted granted Critical
Publication of KR100992656B1 publication Critical patent/KR100992656B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

여러 레벨의 배경 잡음을 가진 음향 신호에서 유성음 및 무성음 스피치를 감지하기 위한 시스템 및 방법이 제공된다. 이 시스템(도 3)은 두개의 마이크로폰(Mic1, Mic2)에서 음향 신호들을 수신하여, 두 마이크로폰(Mic1, Mic2) 각각에서 수신한 음향 신호들간에서 차이 매개변수를 발생시킨다. 차이 매개변수는 수신 음향 신호의 일부분들간 신호 이득의 상대적 차이를 나타낸다. 상기 차이 매개변수가 제 1 한도를 넘을 때 시스템은 음향 신호 정보를 무성음 스피치로 분류하고, 상기 차이 매개변수가 제 2 한도를 넘을 때 시스템은 음향 신호 정보를 유성음 스피치로 분류한다. 더욱이, 발명에 따른 시스템의 실시예들은 유성음 스피치 분류를 돕기 위해 생리학적 정보를 수신하는 비-음향 센서(20)를 포함한다.

Description

음향 및 비음향 센서를 이용한 유성음 및 무성음 감지 시스템 및 방법{DETECTING VOICED AND UNVOICED SPEECH USING BOTH ACOUSTIC AND NONACOUSTIC SENSORS}
본 발명은 스피치 신호(speech signals) 처리에 관한 것이다.
유성음 스피치와 무성음 스피치를 정확하게 구분하는 능력은 스피치 인지, 화자 확인, 잡음 억제, 등을 포함한 여러 스피치 응용프로그램에 있어 중요하다. 전형적인 음향 장치에서, 화자로부터의 스피치가 캡처되어, 또다른 위치의 수신기에 전송된다. 스피치 신호나 관심대상 신호를 불필요한 음향 잡음으로 오염시키는 한개 이상이 잡음원이 화자 환경에 존재할 수 있다. 이로 인해, 수신자나 수신기가 사용자 스피치를 알아내기 어렵거나 불가능할 수 있다.
유성음 및 무성음 스피치를 분류하는 전형적인 방법은 마이크로폰 데이터의 음향 콘텐트에 주로 의존하고 있다. 이 방식은 잡음으로 인한 문제점에 시달리고 있으며, 이에 따라 신호 콘텐트에 불확실성이 존재한다. 이는 셀방식 전화와 PDA같은 이동 통신 장치들이 폭넓게 보급되면서 더욱 문제가 되고 있다. 왜냐하면, 대부분의 경우에, 이 장치들에 의해 제공되는 서비스 품질이 이 장치에 의해 제공되는 음성 서비스 품질에 따라 좌우되기 때문이다. 스피치 신호에 존재하는 잡음을 억제 하는 방법이 당 분야에 공지되어 있으나, 이 방법들은 성능상의 단점을 가진다. 즉, 연산시간이 길고, 신호 처리 수행에 성가신 하드웨어를 필요로하며, 관심 대상 신호를 왜곡시키는 등의 단점이 있다.
도 1은 발명의 한 실시예에 따른 NAVSAD 시스템의 블록도표.
도 2는 발명의 한 실시예에 따른 PSAD 시스템의 블록도표.
도 3은 발명의 한 실시예에 따른, 패스파인더(Pathfinder system)이라 불리는 잡음제거 시스템의 블록도표.
도 4는 발명의 한 실시예에 따라, 유성음 및 무성음 스피치를 감지하는 데 사용하기 위한 감지 알고리즘의 순서도.
도 5A는 발화에 대한 수신 GEMS 신호(502)를, GEMS 신호와 Mic1 신호간 평균 상관(504)과, 유성음 스피치 감지에 사용되는 한도 T1과 함께 도시하는 그래프.
도 5B는 발화에 대한 수신 GEMS 신호(502)를, GEMS 신호의 표준 편차(506)와, 유성음 스피치 감지에 사용된 한도 T2와 함께 도시하는 그래프.
도 6은 음향 또는 오디오 신호(608)로부터 감지되는 유성음 스피치(602)를 GEMS 신호(604) 및 음향 잡음(606)과 함께 도시하는 그래프.
도 7은 PSAD 시스템의 한 실시예 하에서 이용하기 위한 마이크로폰 어레이 도면.
도 8은 한 실시예 하에서 여러 Δd 값에 대해 d1에 대한 ΔM의 그래프.
도 9는 마이크로폰(1)으로부터의 음향 데이터나 오디오와 H1(z)의 절대값의 합계로 이득 매개변수의 그래프.
도 10은 도 9에 제시된 음향 데이터의 대안의 그래프.
배경 잡음으로부터 유성음 및 무성음 스피치를 구분하기 위한 시스템 및 방법이 아래에 제공된다. 즉, NAVSAD(Non-Acoustic Sensor Voiced Speech Activity Detection) 시스템과 PSAD(Pathfinder Speech Activity Detection) 시스템이 제공된다. 여기서 제공되는 잡음 제거 및 감소 방법은, 배경 잡음으로부터 무성음 및 유성음 스피치를 구분하고 분류하면서도, 왜곡없이 관심있는 음향 신호를 클리닝함으로서 당 분야에 전형적인 시스템의 단점을 극복한다.
도 1은 발명의 한 실시예에 따른 NAVSAD 시스템(100)의 블록도표이다. NAVSAD 시스템은 마이크로폰(10)과 센서(20)를 한개 이상의 프로세서(30)에 연결한다. 한 실시예의 센서(20)는 발성 활동 감지기나 무성음 센서를 포함한다. 프로세서(30)는 감지 알고리즘이라 불리는 감지 서브시스템(50)과, 잡음제거 서브시스템(40)을 포함하는 서브시스템들을 제어한다. 잡음제거 서브시스템(40)의 동작은 관련 장치 단락에서 상세하게 설명된다. NAVSAD 시스템은 어떤 배경 음향 잡음 환경에서도 매우 잘 동작한다.
도 2는 발명의 한 실시예에 따른 PSAD 시스템(200)의 블록도표이다. PSAD 시스템은 마이크로폰(10)을 한개 이상의 프로세서(30)에 연결한다. 프로세서(30)는 감지 알고리즘이라 불리는 감지 서브시스템(50)과, 잡음제거 서브시스템(40)을 포함한다. PSAD 시스템은 저음향 잡음 환경에서 매우 민감하며, 고음향 잡음 환경에 서 비교적 덜 민감하다. PSAD는 독립적으로, 또는, NAVSAD에 대한 백업으로 동작할 수 있다. 상기 백업 기능은 NAVSAD가 실패할 경우 유성음 스피치를 감지하는 기능이다.
발명의 한 실시예에 따른 NAVSAD와 PSAD 시스템의 감지 서브시스템(50)과 잡음제거 서브시스템(50)은 프로세서(30)에 의해 제어되는 알고리즘이지만 이에 제한되지는 않는다. NAVSAD와 PSAD 시스템의 대안의 실시예들은 추가적인 하드웨어, 펌웨어, 그리고 소프트웨어, 및 이들의 조합으로 구성되는 감지 서브시스템(50)이나 잡음제거 서브시스템(40)을 포함할 수 있다. 더욱이, 감지 서브시스템(50)과 잡음제거 서브시스템(40)의 기능들은 NAVSAD 및 PSAD 시스템의 여러 구성요소들 사이에 분포될 수 있다.
도 3은 발명의 한 실시예에 따른 패스파인더(Pathfinder)라 불리는 잡음제거 서브시스템(300)의 블록도표이다. 패스파인더 시스템은 아래에 간략하게 설명되며, 관련 장치 단락에서 상세하게 설명된다. 두개의 마이크로폰 Mic1과 Mic2가 패스파인더 시스템에 사용되며, Mic1은 "신호" 마이크로폰으로 간주된다. 도 1을 참고할 때, 발성 활동 감지기(VAD)(320)가 비음향 유성음 센서(20)이고 잡음 제거 서브시스템(340)이 감지 서브시스템(50)과 잡음제거 서브시스템(40)을 포함할 때, 패스파인더 시스템(300)이 NAVSAD 시스템(100)과 대등하다. 도 2를 참고할 때, VAD(320)가 없고 잡음 제거 서브시스템(340)이 감지 서브시스템(50)과 잡음제거 서브시스템(40)을 포함할 때, 패스파인더 시스템(300)이 PSAD 시스템(200)과 대등하다.
NAVSAD와 PSAD 시스템은 두가지의 상용 접근법을 지원한다. 즉, 비교적 저렴한 PSAD 시스템은 가장 낮은 잡음 환경에서부터 중간 잡음 환경에서 기능하는 음향 접근법을 지원하며, NAVSAD 시스템은 어떤 환경에서도 유성음 스피치를 감지할 수 있도록 비-음향 센서를 추가한다. 일반적으로 무성음 스피치는 상기 센서를 이용하여 감지되지 않는다. 왜냐하면, 무성음 스피치는 사람의 조직을 충분히 진동시키지 않기 때문이다. 그러나 고잡음 환경에서는 무성음 스피치를 감지하는 것이 중요하지 않다. 왜냐하면, 무성음 스피치의 에너지가 매우 작으며 잡음에 의해 쉽게 씻겨나가기 때문이다. 따라서 고잡음 환경에서는 무성음 스피치가 유성음 스피치 잡음제거에 영향을 거의 미치지 않는다. 따라서, 무성음 스피치 정보는 거의 잡음이 없는 상황에서 가장 중요하며, 따라서, 무성음 감지는 저잡음 환경에서 매우 민감하여야 할 것이며 고잡음 상황에서는 둔감하여야 할 것이다. 이는 쉽게 달성되지 않으며, 당 분야에 공지된 비교가능한 음향 무성음 감지기들은 이러한 환경적 제약 하에서 동작할 수 없다.
NAVSAD와 PSAD 시스템들은 두 마이크로폰의 신호들간 관계를 연산하기 위해 두 마이크로폰간 주파수 콘텐트 차이를 이용하는 스피치 감지에 대한 어레이 알고리즘을 포함한다. 이는 "감도 영역" 외부의 잡음을 제거하기 위해 각 마이크로폰의 시간/위상 차를 이용하려 시도하는 기존 어레이들과 대조를 이룬다. 여기서 소개되는 방법들은 신호에 대한 어레이의 특정 방향을 필요로하지 않음에 따라 상당한 장점을 제공한다.
더욱이, 기존의 어레이들은 특정 잡음 방향에만 의존함에 반해, 여기서 소개 되는 시스템들은 모든 종류, 모든 방향의 잡음에 민감하다. 결과적으로, 여기서 제시되는 주파수-기반 어레이는 독자적이다. 왜냐하면, 마이크로폰에 대한 잡음 및 신호의 방향에 전혀 의존하지 않으면서, 두 마이크로폰의 상대적 방향에만 의존하기 때문이다. 이로 인해, 잡음 종류, 마이크로폰, 잡음원/신호원과 마이크로폰간의 방향에 대해 견고한 신호 처리 시스템을 얻을 수 있다.
여기서 소개되는 시스템들은 입력 신호의 발성 상태 결정을 위해 관련 장치 단락에 설명되는 비-음향 센서나 패스파인더 잡음 억제 시스템으로부터 얻은 정보를 이용한다. 발성 상태(voicing state)는 침묵, 유성음, 무성음 상태를 포함한다. 예를 들어 NAVSAD 시스템은 스피치에 관련된 인체 조직의 진동을 감지하기 위해 비음향 센서를 포함한다. 한 실시예에 따른 비음향 센서는 GEMS(General Electromagnetic Movement Sensor)로서, 이에 제한되지는 않는다. 그러나 대안의 실시예는 스피치에 관련된 인체 조직 움직임을 감지할 수 있으면서 환경적 음향 잡음에 영향받지 않는 어떤 센서도 사용할 수 있다. 가령, 인체 발성 활동에 관련된 생리학적 정보를 RF 소자, 전자식발성그래프(electroglottographs), 초음파 장치, 음향 인후부 마이크로폰(acoustic throat micorphones), 또는 유체흐름 감지기(airflow detectors) 등을 이용하여 수신할 수 있다.
GEMS는 RF 소자(2.4GHz)로서, 인체 조직의 유전체 인터페이스 움직임을 감지할 수 있다. GEMS는 타겟 움직임에 관련된 작은 위상 편위를 감지하기 위해 호모다인 믹싱(homodyne mixing)을 이용하는 RF 간섭계이다. 본질적으로는, 센서가 센서 주변에 무엇이든 반사하는 약한 전자기파(1밀리와트 미만)를 내보낸다. 반사파는 원 송신파와 믹싱되고, 타겟 위치 변화에 대해 그 결과가 분석된다. 센서 주변에서 움직이는 어떤 것도 반사파의 위상에 변화를 일으킬 것이고, 이는 센서로부터의 전압 출력으로 증폭되어 디스플레이될 것이다. 유사한 센서가 Gregory C. Burnett의 1999년 University of California, Davis에서의 박사논문, "The Physiological Basis of Glottal Electromagnetic Micropower Sensors(GEMS) and Their Use in Defining an Excitation Function for the Human Vocal Tract"에 소개되어 있다.
도 4는 발명의 한 실시예에 따라 유성음 및 무성음 스피치를 감지하는 데 사용하기 위한 감지 알고리즘(50)의 순서도다. 도 1 및 2를 참고할 때, NAVSAD와 PSAD 시스템은 감지 서브시스템(50)으로 감지 알고리즘(50)을 포함한다. 이 감지 알고리즘(50)은 실시간으로 동작하며, 한 실시예에서, 20 밀리초 윈도로 동작하고 한번에 10밀리초씩 계단화되지만 이에 제한되지는 않는다. 발성 활동 결정은 처음 10밀로초동안 레코딩되고, 다음의 10밀리초는 "룩-어헤드(look-ahead)" 버퍼로 기능한다. 한 실시예가 20/10 윈도를 이용하지만, 대안의 실시예는 다른 수많은 조합의 윈도 값을 이용할 수 있다.
감지 알고리즘(50)을 발전시키는 데 있어, 다수의 다차원 요소를 고려할 수 있다. 관련 기술 단락에서 설명되는 패스파인더 잡음제거 기술의 효과를 유지하는 데 가장 고심하여야 한다. 패스파인더 성능은 적응성 필터 트레이닝이 잡음에 대해서보다 스피치에 대해 수행될 경우 절충될 수 있다. 따라서, 이러한 혼란을 최소한으로 유지하면서 VAD(발성 활동 결정)로부터 상당한 양의 스피치를 배제하지 않는 것이 중요하다.
유성음 및 무성음 스피치 신호간 특성화의 정확도와, 잡음 신호로부터 이들 각 스피치 신호를 구분하는 것에 또한 고심하여야 한다. 이 종류의 특성화는 스피치 인지와 화자 확인같은 장치에 유용할 수 있다.
더욱이, 발명의 한 실시예에 따른 감지 알고리즘을 이용한 시스템들은 변화하는 양의 배경 음향 잡음을 포함한 환경에서 기능한다. 비음향 센서가 가용할 경우, 외부 잡음은 유성음 스피치에 대해 문제가 되지 않는다. 그러나, 무성음 스피치의 경우, (그리고 비음향 센서가 가용하지 않거나 오기능할 경우 유성음 스피치의 경우), 무성음 스피치로부터 잡음을 분리해내기 위해 음향 데이터 자체에 의존도가 놓인다. 패스파인더 잡음 억제 시스템의 한 실시예에서 두 마이크로폰을 이용할 때 장점이 생기며, 마이크로폰간 공간적 관계가 무성음 스피치 감지를 돕는 데 사용된다. 그러나, 스피치가 거의 감지불가능하고 음향만의 방식(acoustic-only method)이 실패하기에 충분할만큼 큰 잡음 수준이 존재하는 경우가 자주 있을 수 있다. 이 상황에서, 우수한 성능 보장을 위해 비음향 센서(차후로는 그냥 "센서")가 요구될 것이다.
2-마이크로폰 시스템에서, 스피치원은 한 마이크로폰에서보다 다른 한 마이크로폰에서 상대적으로 소리가 커야만한다. 어떤 잡음도 단위값 수준의 이득을 가진 H1을 유발하여야 함에 따라, 마이크로폰이 머리에 놓일 때 기존 마이크로폰으로도 이 요건에 쉽게 부합함을 테스트를 통해 알 수 있었다.
NAVSAD 시스템과 도 1 및 3을 참고할 때, NAVSAD는 유성음 스피치 감지를 위해 두개의 매개변수에 의존한다. 이 두 매개변수들은 표준 편차(SD)에 의해 한 실시예에서 결정되는 관심 윈도의 센서 에너지와, 부가적으로, 마이크로폰(1)과 센서 데이터로부터의 음향 신호와 센서 데이터간 교차상관(XCORR)을 포함한다. 센서 에너지는 다수의 방식 중 한가지로 결정될 수 있고, SD는 에너지 결정을 위한 단 한 가지 편리한 방식이다.
센서의 경우, 표준 편차(SD)는 발성 상태에 어느정도 정확하게 대응하는 신호 에너지에 가깝지만, 움직임 잡음(사용자에 대한 센서의 상대적 움직임)과 전자기파 잡음에 빠지기 쉽다. 조직 움직임으로부터 센서 잡음을 추가적으로 분리하기 위해, XCORR 이 사용될 수 있다. XCORR은 15회 지연으로 계산되며, 이는 8000 Hz에서 2밀리초 하의 연산에 해당한다.
XCORR은 센서 신호가 어떤 방식으로 왜곡되거나 변조될 때 유용할 수도 있다. 예를 들어, 스피치 생성이 감지될 수 있으나 신호가 부정확하거나 왜곡된 시간-기반 정보를 가질 수 있는 센서 위치(가령, 턱이나 목 뒤편)가 존재한다. 즉, 음향 파형과 부합되는(시간상 잘 형성된) 특징, 형태들을 가지지 못할 수 있다. 그러나, XCORR은 음향 잡음으로부터의 오류에 빠지기 더욱 쉬우며, 음향 잡음이 높은 환경에서는 XCORR이 거의 소용없다. 따라서, XCORR이 발성 정보의 유일한 소스가 되어서는 안된다.
센서는 발성부(vocal fold)의 폐쇄에 연계된 인체 조직 움직임을 감지하고, 그래서, 발성부 폐쇄에 의해 생성되는 음향 신호가 폐쇄에 크게 상관된다. 따라서, 음향 신호에 크게 상관된 센서 데이터가 스피치로 분류되고, 크게 상관되지 않은 센서 데이터는 잡음으로 분류된다. 음속이 비교적 느리기 때문에(330m/s) 발생하는 지연 시간의 결과로 음향 데이터는 0.1~0.8 밀리초(또는 약 1~7개의 샘플)만큼 센서 데이터 뒤에 처질 것으로 예상된다. 그러나, 음향파 파형이 생성되는 소리에 크게 좌우되어 변하기 때문에 한 실시예는 15 샘플 상관을 이용하며, 감지를 보장하 기 위해선 더 큰 상관 폭이 필요하다.
표준편차 및 XCORR 신호가 관련되지만, 유성음 스피치 감지가 신뢰도가 높도록 이들은 서로 충분히 다르다. 그럼에도 불구하고 단순화를 위해, 둘 중 어떤 매개변수도 사용될 수 있다. 표준편차 및 XCORR에 대한 값들은 실험치 한도와 비교되고, 두 값이 한도보다 클 경우, 유성음 스피치로 분류된다. 일례의 데이터가 제시되며 아래에 소개된다.
도 5A, 5B와 6은 한 실시예에 따른 어구 "팝 판(pop pan)"을 대상이 두 번 소리내는 예의 그래프이다. 도 5A는 이 발화(utterance)에 대한 수신 GEMS 신호(502)를, GEMS 신호와 Mic1 신호간 평균 상관(504)과, 유성음 스피치 감지에 사용되는 한도 T1과 함께 도시하는 그래프이다. 도 5B는 이 발화에 대한 수신 GEMS 신호(502)를, GEMS 신호의 표준 편차(506)와, 유성음 스피치 감지에 사용된 한도 T2와 함께 도시하는 그래프이다. 도 6은 음향 또는 오디오 신호(608)로부터 감지되는 유성음 스피치(602)를 GEMS 신호(604) 및 음향 잡음(606)과 함께 도시하는 그래프이다. 이때, 엄청난 배경 혼선 잡음(606)으로 인해 본 예에서 어떤 무성음 스피치도 감지되지 않는다. 한도들은 오류 음의 값이 전혀 없도록 그리고 오류 양의 값만 간헐적으로 존재하도록 설정된다. 어떤 음향 배경 잡음 조건에서도 99% 이상의 유성음 스피치 활동 감지 정확도를 얻는다.
NAVSAD는 비음향 센서 데이터로 인한 높은 수준의 정확도로 유성음 스피치가 발생되고 있는 시기를 결정할 수 있다. 그러나, 센서는 잡음으로부터 무성음 스피치를 분리하는 데 거의 도움이 되지 않는다. 왜냐하면, 무성음 스피치가 대부분의 비음향 센서에서 감지가능한 신호를 유발시키지 않기 때문이다. 감지가능한 신호가 있을 경우 NAVSAD가 사용될 수 있지만, 무성음 스피치의 상관 정도가 불량하기 때문에 표준 편차 방법의 이용이 지시된다. 감지가능한 신호가 없을 경우, 무성음 스피치가 발생하고 있는 시기를 결정함에 있어 패스파인더 잡음 제거 알고리즘의 시스템 및 방법을 이용한다. 패스파인더 알고리즘이 간단하게 아래에 소개되며, 상세한 설명은 관련 장치 단락에서 제공된다.
도 3을 참고할 때, 마이크로폰(1)에 유입되는 음향 정보는 m1(n)으로 표시되고, 마이크로폰(2)에 유입되는 정보는 m2(n)으로 표시되며, GEMS 센서는 유성음 스피치 영역을 결정하는 데 가용한 것으로 가정된다. z(디지털 주파수) 도메인에서, 이 신호들은 M1(z)와 M2(z)로 표시된다. 이어서,
M1(z) = S(z) + N2(Z)
M2(z) = N(z) + S2(Z)
이때, N2(z) = N(z)H1(z)
S2(z) = S(z)H2(z)
따라서, M1(z) = S(z) + N(z)H1(z)
N2(z) = N(z) + S(z)H2(z) (1)
이는 2-마이크로폰 시스템에 대한 일반적인 경우이다. Mic1 으로 일부 잡음 누출이 있고, Mic2로 일부 신호 누출이 항상 있다. 방정식 1은 네 개의 미지수와 두개의 관계만을 자기며, 따라서 해를 얻을 수 없다.
그러나, 방정식 1의 미지수 일부의 해를 얻는 방식이 또한가지 있다. 신호가 발생되고 있지 않은 경우를 조사해보자. 즉, GEMS 신호가 발성이 발생하지 않고 있음을 표시할 때를 고려해보자. 이 경우에, s(n) = S(z) = 0이고, 방정식 1은
M1n(z) = N(z)H1(z)
N2n(z) = N(z)
로 축소된다. 이때, M 변수에서의 n 첨자는 잡음만이 수신되고 있음을 표시한다. 이로 인해,
M1n(z) = M2n(z)H1(z)
H1(z) = M1n(z)/M2n(z) (2)
H1(z) 는 잡음만이 수신되고 있을 때 마이크로폰 출력과 가용 시스템 식별 알고리즘을 이용하여 연산될 수 있다. 이 연산은 적응식으로 이루어질 수 있어서, 잡음이 크게 변화할 경우, H1(z)가 신속하게 재연산될 수 있다.
방정식 1의 미지수 중 하나에 대한 해로, GEMS나 유사장치의 진폭을 두 마이크로폰의 진폭과 함께 이용하여, 또다른 값 H2(z)에 대한 해를 구할 수 있다. GEMS가 발성을 표시하지만 마이크로폰의 최근(1초 미만) 히스토리가 낮은 수준의 잡음을 표시하면, n(s) = N(z) ~ 0이라고 가정한다. 방정식 1은 다음과 같이 축소될 수 있다.
M1s(z) = S(z)
M2s(z) = S(z)H2(z)
그 결과,
M2s(z) = M1s(z)H2(z)
H2(z) = M2s(z)/M1s(z)
이는 H1(z) 연산값의 역이다. 그러나, 여러 다른 입력들이 사용되고 있음에 주목해야 한다.
H1(z)와 H2(z)의 상기 연산 후, 신호로부터 잡음 제거를 위해 이들이 사용된다. 방정식 1을 다음과 같이 다시 쓸 수 있다.
S(z) = M1(z) - N(z)H1(z)
N(z) = M2(z) - S(z)H2(z)
S(z) = M1(z) - [M2(z) - S(z)H2(z)]H1(z)
S(z)[1-H2(z)H1(z)] = M1(z) - M2(z)H1(z)
S(z)에 대하여 풀면 아래의 결과를 얻을 수 있다.
S(z) = (M1(z) - M2(z)H1(z)) / (1 - H2(z)H1(z))
실제로, H2(z)는 매우 작기 때문에, H2(z)H1(z) << 0, 따라서,
S(z) = M1(z) - M2(z)H1(z)
도 2와 도 3을 참고하여 PSAD 시스템이 설명된다. 음파가 전파할 때, 음파는 회절과 산란으로 인해 에너지를 잃는다. 음파가 점소스로부터 발생하여 등방성으로 방사된다고 가정하면, 그 진폭은 1/r의 함수로 감소할 것이며, 이때, r은 점소스로부터의 거리이다. 작은 면적에 제한될 경우 축소가 작아질 것이므로, 진폭에 1/r로 비례하는 이 함수는 최악의 경우이다. 그러나, 이는 사용자의 머리 위 어딘가에 위치하는 마이크로폰으로의 잡음 및 스피치 전파(propagation) 구조에 대한 적절한 모델이다.
도 7은 PSAD 시스템의 한 실시예에 따르는 마이크로폰 어레이의 도면이다. 입과 선형 어레이로 마이크로폰 Mic1, Mic2를 어레이 중간선 상에 위치시킴으로서, Mic1과 Mic2의 신호 강도차는 d1과 Δd에 비례할 것이다. 1/r 관계(또는 이 경우에 1/d)를 가정할 때, 다음의 결과를 얻을 수 있다.
ΔM = |Mic1| / |Mic2| = ΔH1(z) ∝ (d1+Δd)/d1
이때, ΔM은 Mic1과 Mic2간 이득차이며, 따라서, 방정식 2의 H1(z)이다. 변수 d1은 Mic1으로부터 스피치나 잡음 소스까지의 거리이다.
도 8은 발명의 한 실시예에 따르는 여러 Δd 값에 대한 d1 대 ΔM의 그래프(800)이다. Δ가 커지고 잡음 소스가 가까워질수록 ΔM이 커진다. 변수 Δd는 어레이 중간선 상의 최대값으로부터 어레이 중간선에 수직인 0까지 스피치/잡음 소스에 대한 방위각에 따라 변화할 것이다. Δd가 작고 대략 30cm 이상의 거리에 대하여, ΔM이 단위값에 가깝다는 것을 그래프(800)로부터 알 수 있다. 대부분의 잡음 소스가 30cm보다 멀리 위치하고 어레이의 중간선 상에 놓이지 않기 때문에, H1(z)를 방정식 2에서처럼 연산할 때, ΔM(또는 H1(z)의 이득)은 단위값에 가까울 것이다. 역으로, 가까운 잡음 소스의 경우(몇 센티미터 이내), 마이크로폰이 잡음에 더 가까운 지에 따라 이득 차이가 나타날 수 있다.
"잡음"이 화자의 스피치이고 Mic1이 Mic2보다 입에 가깝다면, 이득이 증가한다. 환경적 잡음은 통상적으로 스피치보다 사용자 머리에서부터 더 멀리서 발원하기 때문에, 잡음은 H1(z)의 이득이 단위값이나 어떤 고정값 근처일 때 발견될 것이며, 스피치는 이득의 날카로운 증가 후 발견될 수 있다. 스피치는 주변 잡음에 비 해 충분한 볼륨을 가지는 한 무성음이거나 유성음일 수 있다. 이득은 스피치 부분동안 어느정도 높게 유지될 것이며, 스피치가 중단된 후 급속하게 감소된다. H1(z) 이득의 급속한 증가 및 감소는 거의 어떤 상황 하에서도 스피치를 감지할만큼 충분하여야 한다. 본 예의 이득은 필터 계수의 절대값의 합에 의해 연산된다. 이 합은 이득과 같지 않으나, 두 값은 절대값 합의 상승이 이득의 상승을 반영하는 관계를 가진다.
이 거동의 한 예로서, 도 9는 H1(z)의 절대값의 합으로 이득 매개변수(902)와, 마이크로폰(1)으로부터의 음향 데이터(904)나 오디오의 그래프(900)를 도시한다. 스피치 신호는 어구 "팝 판(pop pan)"을 두 번 반복한 경우의 발화(utterance)이다. 대역폭은 2500~3500 Hz의 주파수 범위를 포함하며, 1500~2500 Hz의 대역폭이 추가적으로 사용되었다. 무성음 스피치가 먼저 나타날 경우 이득이 급속하게 증가하였고, 스피치가 종료될 때 정상값으로 신속하게 회귀하였다. 잡음 및 스피치 간의 전이로부터 생기는 상당한 이득 변화는 표준 신호 처리 기술에 의해 감지될 수 있다. 마지막 몇가지 이득 연산의 표준 편차가 사용되며, 표준 편차 잡음 플로어(standard deviation noise floor)와 표준 편차의 동작 평균에 의해 한도가 규정된다. 유성음 스피치에 대한 나중의 이득 변화는 단순화를 위해 이 그래프(900)에서 억제된다.
도 10은 도 9에 제시된 음향 데이터의 대안의 그래프(1000)이다. 그래프(900) 형성에 사용되는 데이터는 이 그래프(1000)에 다시 제시되며, 무성음 스피치가 나타나도록 잡음없이 음향 데이터(1004)와 GEMS 데이터(1006)과 함께 제 시된다. 발성 신호(1002)는 세가지 값을 가질 수 있다. 잡음은 0, 무성음은 1, 유성음은 2이다. 잡음제거는 V=0일 때만 달성된다. 각각의 "팝(pop)"의 끝 근처에서 무성음 감지의 두 단일 드롭아웃과는 별도로, 무성음 스피치가 쉽게 캡처된다는 것은 확실하다. 그러나, 이 단일-윈도 드롭아웃은 흔하지 않으며, 잡음제거 알고리즘에 크게 영향을 미치지 않는다. 이들은 표준 스무딩(standard smoothing) 기술을 이용하여 쉽게 제거될 수 있다.
그래프(1000)로부터 분명하지 않은 것은 PSAD 시스템이 NAVSAD 시스템에 대한 자동 백업으로 기능하는 점이다. 이는 센서나 NAVSAD 시스템이 어떤 이유로 실패할 경우 유성음 스피치(마이크에 대해 무성음과 동일한 관계를 가지기 때문에)가 무성음으로 감지될 것이기 때문이다. 유성음 스피치는 무성음으로 오분류될 것이나, 잡음제거는 여전히 일어나지 않아 스피치 신호의 품질을 보존할 것이다.
그러나, NAVSAD 시스템이 이 자동 백업은 저잡음 환경(대략 10+dB SNR)에서 최적으로 기능한다. 왜냐하면, 높은 양의 음향 잡음(10dB SNR 이하)이 PSAD를 포함한 어떤 음향-전용 무성음 감지기(acoustic only unvoiced detector)를 바로 압도하기 때문이다. 이는 도 6과 10의 그래프(600, 1000)에 도시되는 발성 신호 데이터(602, 1002)의 차이에서 명백하며, 이때, 동일한 발화(utterance)가 일어나지만 그래프(600) 데이터는 어떤 무성음 스피치도 보여주지 않는다. 왜냐하면, 무성음 스피치를 감지할 수 없기 때문이다. 이는 잡음제거 실행시 요망 거동이다. 무성음 스피치가 감지될 수 없을 경우 잡음제거 과정에 크게 영향을 미치지 못할 것이기 때문이다. 패스파인더 시스템을 이용하여 무성음 스피치를 감지하는 것은 잡 음제거를 왜곡시킬만큼 충분히 큰 무성음 스피치의 감지를 보장한다.
도 7을 참고하여 하드웨어 고려사항을 살펴보면, 마이크로폰의 구조는 스피치 감지에 필요한 한도와 스피치에 관련된 이득 변화에 대한 효과를 가질 수 있다. 일반적으로 각각의 구조는 적절한 한도 결정을 위한 테스트를 필요로할 것이나, 두개의 매우 다른 마이크로폰 구조를 이용한 테스트는 동일한 한도와, 다른 매개변수로 정상적으로 작업이 이루어짐을 보여주었다. 제 1 마이크로폰 세트는 귀에서 몇센티미터 떨어진 잡음 마이크로폰과 입근처의 신호 마이크로폰을 가진다. 또한 제 2 구조는 입에서 몇센티미터 내에 등을 맞댄 잡음 및 신호 마이크로폰을 위치시킨다. 여기서 제시되는 결과는 제 1 마이크로폰 구조를 이용하여 도출되었으나, 나머지 세트를 이용한 결과도 실질적으로 동일하여, 마이크로폰 배치에 대해 감지 알고리즘이 상대적으로 견고하다.
유성음 및 무성음 스피치를 감지하기 위해 NAVSAD 및 PSAD 시스템을 이용하여 다수의 구조가 가능하다. 한개의 구조는 무성음 스피치 감지를 위한 PSAD 시스템과 함께 유성음 스피치 감지를 위한 NAVSAD 시스템을 이용한다. PSAD는 유성음 스피치 감지를 위한 NAVSAD 시스템에 대한 백업으로도 기능한다. 대안의 구조는 무성음 스피치 감지를 위한 PSAD 시스템과 함께 유성음 스피치 감지를 위한 NAVSAD 시스템을 이용한다. PSAD는 유성음 스피치 감지를 위한 NAVSAD 시스템에 대한 백업으로도 기능한다. 또하나의 대안의 구조는 PSAD 시스템을 이용하여 유성음 및 무성음 스피치를 감지할 수 있다.
상술한 시스템들이 배경 음향 잡음으로부터 유성음 및 무성음 스피치를 구분 하는 것을 들어 설명되었으나, 보다 복잡한 분류가 이루어지지 못할 이유는 아무것도없다. 스피치를 좀 더 깊이있게 특성화할 때, 시스템은 Mic1과 Mic2로부터의 정보를 대역통과시킬 수 있어서, Mic1 데이터의 어느 대역이 보다 많은 잡음으로 구성되고 어느 대역이 보다 많은 스피치로 구성되는 지를 알 수 있다. 이 지식을 이용하여, 기존 음향 방법과 유사한 스펙트럼 특성에 의해 발화를 그룹형성하는 것이 가능하다. 이 방법은 잡음 환경에서 더 잘 동작한다.
한 예로, "킥(kick)"의 "케이(k)"는 500~4000 Hz 사이의 주파수 콘텐트를 가지지만, "she"의 "sh"는 1700~4000 Hz로부터의 에너지만을 가진다. 유성음 스피치도 유사한 방식으로 분류될 수 있다. 가령, /i/("ee")는 300~2500 Hz 의 에너지를 가지며, /a/("ah")는 900~1200 Hz의 에너지를 가진다. 따라서, 잡음이 존재하는 하에서 유성음 및 무성음 스피치를 구분하는 이러한 능력은 매우 유용하다.
여기서 제시되는 순서도에 묘사된 단계들 각각은 여기서 소개될 필요가 없는 일련의 동작들을 자체적으로 포함할 수 있다. 당 분야의 통상의 지식을 가진 자라면, 루틴, 알고리즘, 소스 코드, 마이크로코드, 프로그램 로직 어레이를 생성할 수 있을 것이며, 여기서 소개된 순서도와 상세한 설명을 바탕으로 발명을 구현할 수 있을 것이다. 여기서 소개되는 루틴들에는 다음 중 한가지 이상이, 또는 다음 중 한가지 이상의 조합이 제공될 수 있다. 즉, 관련 프로세서의 일부를 형성하는 비휘발성 메모리에 저장되고, 또는 기존 프로그램식 로직 어레이나 회로 요소를 이용하여 구현되며, 또는 디스크같은 탈착식 매체에 저장되고, 또는 서버로부터 다운로드되어 클라이언트에 국부적으로 저장되며, 또는 EEPROM 반도체 칩, ASIC, 또는 DSP 집적 회로같은 칩에 배선되거나 사전프로그래밍되는, 이들 중 한가지 이상, 또는 이들 중 한가지 이상의 조합이 제공될 수 있다.
여기서 소개되는 정보는 공지되어 있거나 관련 장치 단락에 상세하게 설명되어 있다. 게다가, 여기서 제공되는 상세한 설명의 상당부분은 관련 장치 단락에 명백하게 공개되어 있다. 발명의 태양의 추가적 사항들 대부분이나 모두가 이러한 관련 장치 단락에서 제공되는 상세한 설명에 내재된 것으로 당 분야의 통상의 지식을 가진 자에게 이해될 것이며, 또는 당 분야에 공지된 것으로 인식될 것이다. 당 분야의 통상의 지식을 가진 자는 관련 장치에 제공되는 상세한 설명과 여기서 제시되는 사항을 바탕으로 발명의 태양들을 구현할 수 있다.
여기서 제공되는 발명의 가르침은 상술한 스피치 신호 처리에만 국한되는 것이 아니라 신호 처리 시스템에 적용될 수 있다. 더욱이, 상술한 여러 실시예들의 요소들과 단계들이 조합되어 추가적인 실시예들을 제공할 수 있다.

Claims (7)

  1. 여러 레벨의 배경 잡음을 가진 음향 신호에서 유성음 및 무성음 스피치를 감지하기 위한 시스템으로서, 상기 시스템은,
    - 음향 신호들을 수신하는 두개 이상의 마이크로폰,
    - 인체 발성 활동에 관련된 생리학적 정보를 수신하는 한개 이상의 발성 센서, 그리고
    - 상기 마이크로폰과 상기 발성 센서에 연결되는 한개 이상의 프로세서
    를 포함하며, 이때, 상기 한개 이상의 프로세서는,
    - 두 마이크로폰 중 하나에서 수신된 음향 신호와 생리학적 정보 사이에서 교차상관 데이터를 발생시키고,
    - 한 수신기에서 수신된 음향 신호의 일부분에 해당하는 교차 상관 데이터가 상관 한도를 넘을 때 음향 신호 정보를 유성음 스피치로 분류하며,
    - 두 수신기 각각에서 수신된 음향 신호간의 차이 매개변수를 발생시키고, 이때, 차이 매개변수는 수신 음향 신호의 일부분간 신호 이득의 상대적 차이를 나타내며,
    - 상기 차이 매개변수가 이득 한도를 넘을 때 음향 신호 정보를 무성음 스피치로 분류하고, 그리고
    - 상기 차이 매개변수가 이득 한도보다 작을 때 음향 신호 정보를 잡음으로 분류하는,
    것을 특징으로 하는 유성음 및 무성음 스피치를 감지하기 위한 시스템.
  2. 음향 신호의 잡음 제거 방법으로서, 이 방법은,
    - 두 수신기에서 음향 신호들을 수신하고, 발성 센서에서 인체 발성 활동에 관련된 생리학적 정보를 수신하며,
    - 두 수신기 중 하나에서 수신한 음향 신호와 생리학적 정보 사이에서 교차 상관 데이터를 발생시키며,
    - 한 수신기에서 수신한 음향 신호의 일부분에 해당하는 교차 상관 데이터가 상관 한도를 넘을 때 음향 신호 정보를 유성음 스피치로 분류하고,
    - 두 수신기 각각에서 수신된 음향 신호간의 차이 매개변수를 발생시키고, 이때, 차이 매개변수는 수신 음향 신호의 일부분간 신호 이득의 상대적 차이를 나타내며,
    - 상기 차이 매개변수가 이득 한도를 넘을 때 음향 신호 정보를 무성음 스피치로 분류하고, 그리고
    - 상기 차이 매개변수가 이득 한도보다 작을 때 음향 신호 정보를 잡음으로 분류하는,
    이상의 단계를 포함하는 것을 특징으로 하는 음향 신호의 잡음 제거 방법.
  3. 제 2 항에 있어서,
    - 상기 차이 매개변수 발생에 상응하는 표준 편차를 이용하여 상기 이득 한도를 발생시키는
    단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 잡음 제거 방법.
  4. 제 2 항에 있어서,
    - 상기 분류된 잡음에 대해 잡음을 제거하는,
    단계를 추가로 포함하는 것을 특징으로 하는 음향 신호의 잡음 제거 방법.
  5. 제 2 항에 있어서, 상기 생리학적 정보는 RF 소자, 전자식발성그래프(electroglottographs), 초음파 장치, 음향 인후부 마이크로폰(acoustic throat micorphones), 그리고 유체흐름 감지기(airflow detectors) 중에서 선택된 한개 이상의 감지기를 이용하여 수신되는 것을 특징으로 하는 음향 신호의 잡음 제거 방법.
  6. 삭제
  7. 삭제
KR1020037015511A 2001-05-30 2002-05-30 음향 및 비음향 센서를 이용한 유성음 및 무성음 감지시스템 및 방법 KR100992656B1 (ko)

Applications Claiming Priority (27)

Application Number Priority Date Filing Date Title
US29438301P 2001-05-30 2001-05-30
US60/294,383 2001-05-30
US09/905,361 US20020039425A1 (en) 2000-07-19 2001-07-12 Method and apparatus for removing noise from electronic signals
US09/905,361 2001-07-12
US33510001P 2001-10-30 2001-10-30
US60/335,100 2001-10-30
US33220201P 2001-11-21 2001-11-21
US60/332,202 2001-11-21
US09/990,847 2001-11-21
US09/990,847 US20020099541A1 (en) 2000-11-21 2001-11-21 Method and apparatus for voiced speech excitation function determination and non-acoustic assisted feature extraction
US36198102P 2002-03-05 2002-03-05
US36210302P 2002-03-05 2002-03-05
US36216102P 2002-03-05 2002-03-05
US36217002P 2002-03-05 2002-03-05
US36216202P 2002-03-05 2002-03-05
US60/362,170 2002-03-05
US60/362,162 2002-03-05
US60/361,981 2002-03-05
US60/362,103 2002-03-05
US60/362,161 2002-03-05
US36834302P 2002-03-27 2002-03-27
US36820902P 2002-03-27 2002-03-27
US36820802P 2002-03-27 2002-03-27
US60/368,208 2002-03-27
US60/368,343 2002-03-27
US60/368,209 2002-03-27
PCT/US2002/017251 WO2002098169A1 (en) 2001-05-30 2002-05-30 Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors

Publications (2)

Publication Number Publication Date
KR20040030638A KR20040030638A (ko) 2004-04-09
KR100992656B1 true KR100992656B1 (ko) 2010-11-05

Family

ID=31499757

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037015511A KR100992656B1 (ko) 2001-05-30 2002-05-30 음향 및 비음향 센서를 이용한 유성음 및 무성음 감지시스템 및 방법

Country Status (5)

Country Link
EP (1) EP1415505A1 (ko)
JP (1) JP2005503579A (ko)
KR (1) KR100992656B1 (ko)
CN (1) CN1513278A (ko)
CA (1) CA2448669A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320559B (zh) 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
CN101527756B (zh) * 2008-03-04 2012-03-07 联想(北京)有限公司 一种电话会议的方法及系统
US8554556B2 (en) * 2008-06-30 2013-10-08 Dolby Laboratories Corporation Multi-microphone voice activity detector
KR101451844B1 (ko) * 2013-03-27 2014-10-16 주식회사 시그테크 음성활동감지방법 및 그 방법을 채택한 통신장치
KR101396873B1 (ko) 2013-04-03 2014-05-19 주식회사 크린컴 두 개의 마이크로폰을 포함하는 통신장치에서의 잡음제거방법 및 장치
CN107371079B (zh) * 2017-04-17 2019-10-11 恒玄科技(上海)有限公司 一种耳机的双麦克降噪系统及降噪方法
CN110999317A (zh) * 2017-08-10 2020-04-10 三菱电机株式会社 杂音去除装置以及杂音去除方法
CN110931027A (zh) * 2018-09-18 2020-03-27 北京三星通信技术研究有限公司 音频处理方法、装置、电子设备及计算机可读存储介质
CN109192209A (zh) * 2018-10-23 2019-01-11 珠海格力电器股份有限公司 一种语音识别方法及装置
CN113724694B (zh) * 2021-11-01 2022-03-08 深圳市北科瑞声科技股份有限公司 语音转换模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN1513278A (zh) 2004-07-14
JP2005503579A (ja) 2005-02-03
KR20040030638A (ko) 2004-04-09
EP1415505A1 (en) 2004-05-06
CA2448669A1 (en) 2002-12-05

Similar Documents

Publication Publication Date Title
US7246058B2 (en) Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US20070233479A1 (en) Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8321213B2 (en) Acoustic voice activity detection (AVAD) for electronic systems
US8326611B2 (en) Acoustic voice activity detection (AVAD) for electronic systems
US8503686B2 (en) Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US10230346B2 (en) Acoustic voice activity detection
US8942383B2 (en) Wind suppression/replacement component for use with electronic systems
US8898058B2 (en) Systems, methods, and apparatus for voice activity detection
US8488803B2 (en) Wind suppression/replacement component for use with electronic systems
US7372770B2 (en) Ultrasonic Doppler sensor for speech-based user interface
US20140126743A1 (en) Acoustic voice activity detection (avad) for electronic systems
US20030179888A1 (en) Voice activity detection (VAD) devices and methods for use with noise suppression systems
US11627413B2 (en) Acoustic voice activity detection (AVAD) for electronic systems
AU2016202314A1 (en) Acoustic Voice Activity Detection (AVAD) for electronic systems
KR100992656B1 (ko) 음향 및 비음향 센서를 이용한 유성음 및 무성음 감지시스템 및 방법
WO2002098169A1 (en) Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
Kalgaonkar et al. Ultrasonic doppler sensor for voice activity detection
US20230379621A1 (en) Acoustic voice activity detection (avad) for electronic systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131104

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee