KR20110100652A - 음성 신호 프로세싱 - Google Patents

음성 신호 프로세싱 Download PDF

Info

Publication number
KR20110100652A
KR20110100652A KR1020117016304A KR20117016304A KR20110100652A KR 20110100652 A KR20110100652 A KR 20110100652A KR 1020117016304 A KR1020117016304 A KR 1020117016304A KR 20117016304 A KR20117016304 A KR 20117016304A KR 20110100652 A KR20110100652 A KR 20110100652A
Authority
KR
South Korea
Prior art keywords
signal
processing
voice
speech
emg
Prior art date
Application number
KR1020117016304A
Other languages
English (en)
Inventor
스리램 스리니바산
아시시 브이. 판다리판데
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20110100652A publication Critical patent/KR20110100652A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/389Electromyography [EMG]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

음성 신호 프로세싱 시스템은 화자의 음향 음성 신호를 나타내는 제 1 신호를 제공하는 오디오 프로세서(103)를 포함한다. EMG 프로세서(109)는 음향 음성 신호와 동시에 캡처되는 화자에 대한 근전도 신호를 나타내는 제 2 신호를 제공한다. 음성 프로세서(105)는 제 2 신호에 응답하여 제 1 신호를 프로세싱하여 변형된 음성 신호를 생성하도록 구성된다. 프로세싱은 예를 들어 빔 포밍, 잡음 보상, 또는 음성 인코딩일 수 있다. 개선된 음성 프로세싱은 특히 청각적으로 시끄러운 환경에서 달성될 수 있다.

Description

음성 신호 프로세싱{SPEECH SIGNAL PROCESSING}
본 발명은 예를 들어 음성 인코딩 또는 음성 향상과 같은 음성 신호 프로세싱에 관한 것이다.
음성의 프로세싱은 중요도가 증가하여 왔으며 예를 들어 음성 신호들의 진보된 인코딩 및 향상이 확산되고 있다.
전형적으로, 화자(speaker)로부터의 음향 음성 신호는 캡처(capture)되고 디지털 도메인(domain)으로 변환되고 여기서 진보된 알고리즘들이 신호를 프로세싱하는데 적용될 수 있다. 예를 들어, 진보된 음성 인코딩 또는 음성 명료성(intelligibility) 향상 기술들이 캡처된 신호에 적용될 수 있다.
그러나, 많은 그와 같은 종래의 프로세싱 알고리즘들의 문제는 이 알고리즘들이 모든 시나리오들에 최적화되지 않는 경향이 있다는 점이다. 예를 들어, 많은 시나리오들에서 챕처된 마이크로폰 신호는 화자에 의해 발생되는 실제 음성의 차선의 표현일 수 있다. 이는 예를 들어 음향 경로 또는 마이크로폰에 의한 캡처링에서의 왜곡들로 인해 발생할 수 있다. 이와 같은 왜곡들은 잠재적으로 캡처된 음성 신호의 충실도(fidelity)를 감소시킬 수 있다. 특정 예로서, 음성 신호의 주파수 응답이 변형될 수 있다. 다른 예로, 음향 환경은 상당한 잡음 및 간섭을 포함하여 음성 신호를 바로 나타내지 않으면서 오히려 결합된 음성 및 잡음/간섭 신호를 발생시킨다. 그와 같은 잡음은 실질적으로 결과적인 음성 신호의 프로세싱에 영향을 미칠 수 있고 생성된 음성 신호의 품질 및 명료성을 실질적으로 감소시킬 수 있다.
예를 들어, 종래의 음성 향상의 방법들은, 원하는 신호 대 잡음 비(Signal-to-Noise Ratio: SNR)를 개선하기 위하여, 대체로 음향 신호 프로세싱 기술들을 입력 음성 신호들에 적용하는 것에 기초하여 왔다. 그러나, 그와 같은 방법들은 기본적으로 SNR 및 동작 환경 상태들에 의해 제한되므로, 항상 양호한 성능을 제공할 수 있는 건 아니다.
다른 에어리어(area)들에서 턱 아래의 후두 및 혀 하부 영역들에 가까이 있는 영역들에서 화자(speaker)의 발성 시스템의 움직임을 나타내는 신호들을 측정하는 것이 제안되었다. 화자의 발성 시스템의 소자들의 그와 같은 측정들은 음성들로 변환될 수 있으므로 언어 장애자들을 위한 음성 신호들을 생성하는데 이용될 수 있어서, 언어 장애자들이 음성을 이용하여 통신하도록 한다. 이 방법들은 상기 신호들이 입, 입술, 혀 및 비강을 포함하는 최종 하위시스템에서 음향 신호들로 최종 변환하기 전에 인간의 음성 시스템의 하위시스템들에서 발생된다는 근거에 기초한다. 그러나, 이 방법은 그 효과면에서 제한되고 그 자체에 의해 효율적으로 음성을 재생할 수 없다.
미국 특허 US 5 729 694에서 전자기파를 후두와 같이 화자의 음성 기관들로 지향시키는 것이 제안되었다. 그리고나서 센서는 음성 기관들에 의해 산란되는 전자기 방사를 검출하고 이 신호는 음향 신호의 완성된 수학 코딩을 수행하는데 이용되는 동시 기록 음향 음성 정보와 결합된다. 그러나, 기술된 방식은 구현하는데 복잡하고 다루기 어려운 경향이 있어서 전자기 신호들을 측정하는데 비현실적으로 전형적으로 비싼 장치를 요구한다. 더욱이, 전자기 신호들의 측정들은 상대적으로 부정확한 경향이 있으므로 따라서 결과적인 음성 인코딩은 차선인 경향이 있고 특히 그 결과에 따른 인코딩된 음성 품질은 차선인 경향이 있다.
그러므로, 개선된 음성 신호 프로세싱이 유용하며 특히 증가된 유연성, 감소된 복잡성, 증가된 이용자 편의성, 개선된 품질, 감소된 비용 및/또는 개선된 성능을 가능하게 하는 것이 유용할 것이다.
따라서, 본 발명은 상술한 단점들 중 하나 이상을 단독으로 또는 임의의 결합으로 바람직하게 경감하거나, 완화하거나 또는 제거하고자 한다.
본 발명의 양태에 따르면, 화자에 대한 음향 음성 신호를 나타내는 제 1 신호를 제공하기 위한 제 1 수단; 음향 음성 신호와 동시에 캡처되는 화자에 대한 근전도 신호(electromyographic signal)를 나타내는 제 2 신호를 제공하기 위한 제 2 수단; 및 제 2 신호에 응답하여 제 1 신호를 프로세싱하여 변형된 음성 신호를 생성하기 위한 프로세싱 수단을 포함하는 음성 신호 프로세싱 시스템이 제공된다.
본 발명은 개선된 음성 프로세싱 시스템을 제공할 수 있다. 특히, 서브 보컬(sub vocal) 신호는 복잡도 및/또는 비용을 낮게 유지하면서도 음성 프로세싱을 향상시키는데 이용될 수 있다. 더욱이, 이용자에게 불편한 점이 많은 실시예들에서 감소할 수 있다. 근전도 신호를 이용하면 다른 유형들의 서브 보컬 신호들에 편리하게 이용 가능하지 않은 정보를 제공할 수 있다. 예를 들어, 근전도 신호는 실제로 개시한 말하기에 앞서 음성 관련된 데이터가 검출되도록 할 수 있다.
본 발명은 많은 시나리오들에서 개선된 음성 품질을 제공할 수 있고 추가로 또는 대안으로 비용 및/또는 복잡성 및/또는 자원 요건들을 감소시킬 수 있다.
제 1 및 제 2 신호들은 동기화될 수 있거나 그러하지 않을 수 있으나(예를 들어 하나는 다른 것에 비해 지연될 수 있다), 동시의 음향 음성 신호 및 근전도 신호를 나타낼 수 있다. 특히, 제 1 신호는 제 1 시간 간격 내에 음향 음성 신호를 나타낼 수 있고 제 2 신호는 제 2 시간 간격 내에 근전도 시간을 나타낼 수 있고 여기서 제 1 시간 간격 및 제 2 시간 간격은 시간 간격들을 오버랩(overlap)하고 있다. 제 1 신호 및 제 2 신호는 특히 적어도 하나의 시간 간격 내의 화자로부터 동일한 음성의 정보를 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 음성 신호 프로세싱 시스템은 화자의 피부 표면 전도성의 측정에 응답하여 근전도 신호를 생성하도록 배열되는 근전도 센서를 추가로 포함한다.
이는 고품질 제 2 신호를 제공하면서도 이용자 친화적이며 덜 거슬리는 센서 동작을 제공하는, 근전도 신호의 결정을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 프로세싱 수단은 제 2 신호에 응답하여 화자 활동 검출을 수행하도록 구성되고 프로세싱 수단은 음성 활동 검출에 응답하여 제 1 신호의 프로세싱을 변경하도록 구성된다.
이는 많은 실시예들에서 개선되고/되거나 용이한 음성 동작을 제공할 수 있다. 특히, 이것은 예를 들어 잡음이 많은 환경들에서와 같은, 많은 시나리오들에서, 개선된 검출 및 음성 활동 의존 프로세싱을 가능하게 할 수 있다. 다른 예로, 그것은 음성 검출이 복수의 화자들이 동시에 말하고 있는 환경에서 단일 화자로 표적화(target)되도록 할 수 있다.
음성 활동 검출은 예를 들어 음성이 존재하는지의 여부에 대한 간단한 2진 검출일 수 있다.
본 발명의 선택적인 특징에 따르면, 음성 활동 검출은 사전-음성 활동 검출이다.
이는 많은 실시예들에서 개선된/되거나 용이한 음성 동작을 제공한다. 실제로, 상기 방식은 스피킹을 실제로 시작하기 전에 음성 활동이 검출되도록 함으로써, 적응형 동작들의 사전-초기화 및 더 신속한 수렴이 가능하다.
본 발명의 선택적인 특징에 따르면, 상기 프로세싱은 제 1 신호의 적응형 프로세싱을 포함하고, 프로세싱 수단은 음성 활동 검출이 기준을 만족할 때에만 적응형 프로세싱을 적응시키도록 구성된다.
본 발명은 적응형 음성 프로세싱의 개선된 적응을 가능하게 할 수 있고, 특히 적응이 수행되어야만 할 때의 개선된 검출에 기초하여 개선된 적응을 가능하게 할 수 있다. 특히, 일부 적응성 프로세싱은 음성이 있을 때에만 유용하게 적응되고 음성이 없을 때에만 유용하게 적응된다. 그러므로, 개선된 적응, 그에 따른 그 결과의 음성 프로세싱 및 품질은 많은 시나리오들에서 근전도 신호에 기초하여 적응성 프로세싱을 언제 적응시킬지를 선택함으로써 달성될 수 있다.
상기 기준은 예를 들어 일부 애플리케이션들의 경우 음성 활동이 검출될 것을 요구하고, 다른 애플리케이션들의 경우 음성 활동이 검출되지 않기를 요구할 수 있다.
본 발명의 선택적인 특징에 따르면, 적응성 프로세싱은 적응성 오디오 빔 포밍 프로세싱(adaptive audio beam forming processing)을 포함한다.
본 발명은 일부 실시예들에서 개선된 오디오 빔 포밍을 제공할 수 있다. 특히, 더 정확한 적응 및 빔포밍 트랙킹(tracking)이 달성될 수 있다. 예를 들어, 상기 적응은 이용자가 말하고 있는 시간 간격들에 더욱 초점을 맞출 수 있다.
본 발명의 선택적인 특징에 따르면, 적응성 프로세싱은 적응성 잡음 보상 프로세싱을 포함한다.
본 발명은 일부 실시예들에서 잡음 보상 프로세싱을 제공한다. 특히, 예를 들어 이용자가 말하고 있지 않은 시간 간격들에 대한 잡음 보상 적응의 개선된 초점에 의해 더욱 정확한 잡음 보상의 적응이 달성될 수 있다.
잡음 보상 프로세싱은 예를 들어 잡음 억제 프로세싱 또는 간섭 제거/감소 프로세싱일 수 있다.
본 발명의 선택적인 특징에 따르면, 프로세싱 수단은 제 2 신호에 응답하여 음성 특징을 결정하고, 상기 음성 특성에 응답하여 제 1 신호의 프로세싱을 변경하도록 구성된다.
이는 많은 실시예들에서 개선된 음성 프로세싱을 제공할 수 있다. 많은 실시예들에서, 이는 음성의 특정 속성들에 음성 프로세싱의 개선된 적응을 제공할 수 있다. 더욱이, 많은 시나리오들에서 근전도 신호는 음성 신호가 수신되기 전에 음성 프로세싱이 적응되도록 할 수 있다.
본 발명의 선택적인 특징에 따르면, 음성 특성은 발성 특성(voicing characteristic)이고 제 1 신호의 프로세싱은 발성 특성에 의해 표시되는 발성의 현재 정도에 따라 변한다.
이는 음성 프로세싱의 특히 유용한 적응을 가능하게 할 수 있다. 특히, 상이한 음소(phoneme)들과 연관되는 특성들이 실질적으로 변할 수 있고(예를 들어 발성되거나 발성되지 않은 신호들) 따라서 근전도 신호에 기초하는 발성 특성의 개선된 검출로 인해 실질적으로 개선된 음성 프로세싱 및 그 결과에 따른 음성 품질이 발생할 수 있다.
본 발명의 선택적인 특징에 따르면, 변경된 음성 신호는 인코딩된 음성 신호이고 프로세싱 수단은 음성 특성에 응답하여 제 1 신호를 인코딩하기 위한 인코딩 파라미터들의 세트를 선택하도록 구성된다.
이는 음성 신호의 개선된 인코딩을 가능하게 할 것이다. 예를 들어, 인코딩은 음성 신호가 현저하게 정현파 신호 또는 잡음-유사(noise-like) 신호인지를 반영하도록 적응됨으로써 인코딩이 이 특성을 반영하도록 적응될 수 있도록 할 수 있다.
본 발명의 선택적인 특징에 따르면, 변형된 음성 신호는 인코딩된 음성 신호이고, 제 1 신호의 프로세싱은 제 1 신호의 음성 인코딩을 포함한다.
본 발명은 일부 실시예들에서 개선된 음성 인코딩을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 상기 시스템은 제 1 및 제 2 수단을 포함하는 제 1 디바이스 및 제 1 디바이스와 원격이며 프로세싱 디바이스를 포함하는 제 2 디바이스를 포함하고, 제 1 디바이스는 제 1 신호 및 제 2 신호를 제 2 디바이스로 통신하기 위한 수단을 추가로 포함한다.
이는 많은 실시예들에서 개선된 음성 신호 분배 및 프로세싱을 제공할 수 있다. 특히, 이는 필요한 기능의 분배 및/또는 집중화 프로세싱을 가능하게 하면서도 개별 화자들에 대한 근전도 신호의 장점들이 이용되도록 할 수 있다.
본 발명의 선택적인 특징에 따르면, 제 2 디바이스는 음성 신호를 음성 전용 통신 접속을 통해 제 3 디바이스로 송신하기 위한 수단을 추가로 포함한다.
이는 많은 실시예들에서 개선된 음성 신호 분배 및 프로세싱을 제공할 수 있다. 특히, 이는 필요한 기능의 분배 및/또는 집중화 프로세싱을 가능하게 하면서도 개별 화자들에 대한 근전도 신호의 장점들이 이용되도록 할 수 있다. 더욱이, 이는 단 대 단 데이터 통신을 요구하지 않고 상기 장점들이 이용되도록 할 수 있다. 상기 특징은 특히 예를 들어 모바일 또는 고정된 네트워크 전화 시스템들을 포함하는 많은 기존의 통신 시스템들에 대한 개선된 역 호환성을 제공할 수 있다.
본 발명의 양태에 따르면, 음성 신호 프로세싱 시스템을 위한 동작의 방법이 제공되고, 상기 방법은 : 화자의 음향 음성 신호를 나타내는 제 1 신호를 제공하는 단계; 음향 음성 신호와 동시에 캡처되는 화자에 대한 근전도 신호를 나타내는 제 2 신호를 제공하는 단계; 및 제 2 신호에 응답하여 제 1 신호를 프로세싱하여 변형된 음성 신호를 생성하는 단계를 포함한다.
본 발명의 양태에 따르면 상기 방법으로부터의 실행을 인에이블하는 컴퓨터 프로그램 제품이 제공된다.
본 발명의 상기 및 다른 양태들, 및 장점들이 이후에 기술되는 실시예(들)로부터 명확하며 상기 실시예들을 참조하여 명료해질 것이다.
상술한 바와 같이 본 발명에 의해 개선된 음성 신호 프로세싱이 제공되어 유연성이 증가하고, 복잡성이 감소하고, 이용자 편의성이 증가하고 품질이 개선되고, 비용 및/또는 성능이 개선된다.
도 1은 본 발명의 일부 실시예들에 따른 음성 신호 프로세싱 시스템의 예를 도시한 도면.
도 2는 본 발명의 일부 실시예들에 따른 음성 신호 프로세싱 시스템의 예를 도시한 도면.
도 3은 본 발명의 일부 실시예들에 따른 음성 신호 프로세싱 시스템의 예를 도시한 도면.
도 4는 본 발명의 일부 실시예들에 따른 음성 신호 프로세싱 시스템을 포함하는 통신 시스템의 예를 도시한 도면.
본 발명의 실시예들은, 도면들을 참조하여 단지 예에 의해서만, 설명될 것이다.
도 1은 본 발명의 일부 실시예들에 따른 음성 신호 프로세싱 시스템의 예를 도시한다.
음성 신호 프로세싱 시스템은 특히 마이크로폰(101)인 기록 요소를 포함한다. 마이크로폰(101)은 화자의 입 근처에 위치되고 화자의 음향 음성 신호를 캡처한다. 마이크로폰(101)은 오디오 신호를 프로세싱할 수 있는 오디오 프로세서(103)에 연결된다. 예를 들어, 오디오 프로세서(103)는 예를 들어 필터링, 증폭, 및 신호를 아날로그로부터 디지털 도메인으로 변환하기 위한 기능을 포함할 수 있다.
오디오 프로세서(103)는 음성 프로세싱을 수행하도록 구성되는 음성 프로세서(105)에 연결된다. 그러므로, 오디오 프로세서(103)는 캡처된 음향 음성 신호를 나타내는 신호를 음성 프로세서(105)에 제공하고나서 음성 프로세서(105)는 계속해서 상기 신호를 프로세싱하여 변경된 음성 신호를 생성한다. 변경된 음성 신호를 예를 들어 잡음 보상된, 빔포밍된, 음성 향상된 그리고/또는 인코딩된 음성 신호일 수 있다.
더욱이 상기 시스템은 근전도(EMG) 센서(107)를 포함하고, 근전도 센서는 화자에 대한 근전도 신호를 캡처할 수 있다. 화자의 하나 이상의 근육들의 전기적 활동을 나타내는 근전도 신호가 캡처된다.
특히, EMG 센서(107)는 근육 세포들이 수축될 때, 그리고 세포들이 정지해 있을 때 근육 세포들에 의해 발생되는 전위를 반영하는 신호를 측정할 수 있다. 전원은 전형적으로 약 70mV의 근육 멤브레인(membrane) 전위이다. 측정된 EMG 전위들은 관찰 중인 근육에 따라, 전형적으로 50㎶ 미만 및 최대 20 내지 30mV 사이의 범위에 위치된다.
정지 중인 근육 조직은 통상적으로 전기적으로 비활성이다. 그러나, 근육이 자체적으로 수축될 때, 활동 전위들이 나타나기 시작한다. 근육 수축의 강도가 증가할수록, 더 많은 근섬유들이 활동 전위들을 발생시킨다. 근육이 완전히 수축되면, 다양한 레이트들 및 크기들의 무질서한 활동 전위들의 그룹이 등장해야 한다(완전 동원(recruitment) 및 간섭 패턴). 도 1의 시스템에서, 이와 같은 전위의 변화들이 EMG 센서(107)에 의해 검출되고 수신된 EMG 신호를 계속해서 프로세싱하는 EMG 프로세서(109)에 공급된다.
전위들의 측정은 피부 표면 전도성 측정에 의해 수행되는 특정한 예에 해당한다. 특히, 전극들은 인간의 음성의 발생에 수단이 되는 후두 및 다른 부분들 주위의 영역들에서 화자에 부착될 수 있다. 피부 전도성 검출 방식은 일부 시나리오들에서 측정된 EMG 신호의 정확성을 감소시키지만 발명자들은 이것이 EMG 신호에 단지 부분적으로 의존하는 많은 음성 애플리케이션들(의료용 애플리케이션들과는 대조적인)에 전형적으로 허용 가능하다는 것을 인식하였다. 표면 측정들의 이용으로 이용자에게 많은 불편한 것들이 감소할 수 있고 특히 이용자가 자유로이 움직이도록 한다.
다른 실시예들에서, 더욱 정확한 침입형 측정들은 EMG 신호를 캡처하는데 이용될 수 있다. 예를 들어, 바늘들이 근육 조직들에 삽입될 수 있고 전위들이 측정될 수 있다.
EMG 프로세서(109)는 특히 EMG 신호를 증폭하고, 필터링하고, 아날로그로부터 디지털 도메인으로 변환할 수 있다.
EMG 프로세서(109)는 음성 프로세서(105)에 추가로 연결되고 음성 프로세서(105)에 캡처된 EMG 신호를 나타내는 신호를 제공한다. 상기 시스템에서, 음성 프로세서(105)는 EMG 프로세서(109)에 의해 제공되고 측정된 EMG 신호를 나타내는 제 2 신호에 따라 제 1 신호(음향 신호에 대응한다)를 프로세싱하도록 구성된다.
그러므로, 상기 시스템에서 근전도 신호 및 음향 신호들은 동시에 캡처되는, 즉 상기 신호들은 적어도 시간 간격 내에 화자에 의해 생성되는 동일한 음성과 관련된다. 그러므로, 제 1 및 제 2 신호들은 동일한 음성과 관련되는 대응하는 음향 및 근전도 신호들을 반영한다. 따라서, 음성 프로세서(105)의 프로세싱은 제 1 및 제 2 신호들 모두에 의해 제공되는 정보를 함께 고려할 수 있다.
그러나, 제 1 및 제 2 신호들은 동기화될 필요는 없고 예를 들어 하나의 신호는 이용자에 의해 생성되는 음성을 참조하여 다른 신호에 비해 지연될 수 있는 것이 인식될 것이다. 그와 같은 두 경로들의 지연의 차는 예를 들어 음향 도메인, 아날로그 도메인, 및/또는 디지털 도메인에서 발생할 수 있다.
간소화 및 간결성을 위해, 캡처된 오디오 신호를 나타내는 신호들은 이후에 오디오 신호들로 칭해질 수 있고 캡처된 근전도 신호를 나타내는 신호들은 이후에 근전도(또는 EMC) 신호들로 칭해질 것이다.
그러므로, 도 1의 시스템에서, 음향 신호는 마이크로폰(101)을 이용하여 종래의 시스템들에서와 같이 캡처된다. 더욱이, 비음향 서브-보컬 EMG 신호는 예를 들어 후두 부근의 피부에 배치되는 적절한 센서를 이용하여 캡처된다. 그 후에 두 신호들은 모두 음성 신호를 생성하는데 이용된다. 특히, 두 신호들은 향상된 음성 신호를 생성하도록 결합될 수 있다.
예를 들어, 시끄러운 환경 내에 있는 인간 화자는 전체적으로 단지 음성 내용에 관심이 있고 오디오 환경에 관심이 없는 다른 사람과 통신하려고 할 수 있다. 그와 같은 예에서, 청취하는 이용자는 음성 향상을 수행하는 개인용 사운드 디바이스를 지녀서 더 알기 쉬운 음성 신호를 생성할 수 있다. 이 예에서, 화자는 구두로(입에 의한 음성) 통신하고 게다가 말하고자 의도되는 내용의 정보를 포함하는 EMG 신호를 검출할 수 있는 피부 전도성 센서를 착용한다. 상기 예에서, 검출된 EMG 신호는 화자로부터 수신자의 개인용 사운드 디바이스(예를 들어 무선 송신을 이용하는)로 통신되고 반면에 음향 음성 신호는 개인용 사운드 디바이스 자체의 마이크로폰에 의해 캡처된다. 그러므로, 개인용 사운드 디바이스는 주변 잡음에 의해 변질되고 화자 및 마이크로폰 등의 사이의 음향 채널로부터 발생하는 반향(reverberation)들에 의해 왜곡되는 음향 신호를 수신한다. 게다가, 음성을 나타내는 서브-보컬 EMG 신호가 수신된다. 그러나, EMG 신호는 음향 환경에 의해 영향을 받지 않고 특히 음향 잡음 및/또는 음향 전달 함수들에 의해 영향을 받지 않는다. 따라서, 음성 향상 프로세스는 음향 신호에 적용될 수 있고 이때 상기 프로세싱은 EMG 신호에 좌우된다. 예를 들어, 프로세싱은 음향 신호 및 EMG 신호의 결합된 프로세싱에 의해 음향 신호의 음성 부분의 향상된 추정을 생성하도록 시도할 수 있다.
상이한 실시예들에서, 상이한 음성 프로세싱이 적용될 수 있음이 인식될 것이다.
일부 실시예들에서, 음향 신호의 프로세싱은 EMG 신호에 응답하여 적응되는 적응성 프로세싱이다. 특히, 적응성 프로세싱의 적응을 적용할 때는 EMG 신호에 기초하는 음성 활동 검출에 기초할 수 있다.
그와 같은 적응성 음성 신호 프로세싱 시스템의 예가 도 2에 도시된다.
상기 예에서, 적응성 음성 신호 프로세싱 시스템은 두 개(201, 203)가 도시된 복수의 마이크로폰들을 포함한다. 마이크로폰들(201, 203)은 마이크로폰 신호들을 증폭하고, 필터링하고, 디지털화할 수 있는 오디오 프로세서(205)에 연결된다.
그 후에 디지털화된 음향 신호들은 오디오 빔포밍을 실행하도록 배열되는 빔포머(beamformer)(207)에 공급된다. 그러므로, 빔포머(207)는 마이크로폰 어레이의 개별 마이크로폰들(201, 203)로부터의 신호들을 결합할 수 있어 전체 오디오 방향성이 달성되도록 한다. 특히, 빔포머(207)는 주 오디오 빔을 생성하고 이것을 화자에 지향하도록 할 수 있다.
많은 상이한 오디오 빔포밍 알고리즘들은 당업자에게 공지될 것이며 임의의 적절한 빔포밍 알고리즘이 본 발명을 손상시키지 않고 이용될 수 있음이 인식될 것이다. 적절한 빔포밍 알고리즘의 예는 예를 들어 미국 특허 US 6774934에 개시된다. 상기 예에서, 마이크로폰으로부터의 각각의 오디오 신호는 필터링되어(또는 단지 복소수 값에 의해 가중되어) 화자로부터 상이한 마이크로폰들(201, 203)로의 오디오 신호들이 일관되게 추가되도록 한다. 빔포머(207)는 마이크로폰 어레이(201)에 대한 화자의 움직임을 추적함으로써 개별 신호들에 적용되는 필터들(가중치들)을 적응시킨다.
상기 시스템에서, 빔포머(207)의 적응 동작은 빔포머(207)에 연결되는 빔폼 적응 프로세서(209)에 의해 제어된다.
빔포머(211)는 상이한 마이크로폰들(201, 203)로부터 결합된 신호들에 대응하는 단일 출력 신호를 제공한다(빔 필터링/가중 이후에). 그러므로, 빔포머(207)의 출력은 방향성 마이크로폰에 의해 수신될 출력에 대응하고 오디도 빔이 화자에 지향될 때 전형적으로 개선된 음성 신호를 제공할 것이다.
상기 예에서, 빔포머(207)는 잡음 보상 프로세싱을 수행하도록 구성되는 간섭 제거 프로세서(211)에 연결된다. 특히, 간섭 제거 프로세서(211)는 오디오 신호 내의 현저한 간섭들을 검출하고 이것들을 제거하고자 하는 적응성 간섭 제거 프로세스를 구현한다. 예를 들어, 음성 신호와 관련되지 않는 강한 정현파들의 존재하는지가 검출되고 보상될 수 있다.
많은 상이한 오디오 잡음 보상 알고리즘들이 당업계에 공지될 것이고 임의의 적절한 알고리즘은 본 발명을 손상시키지 않고 이용될 수 있음이 인식될 것이다. 적절한 간섭 제거 알고리즘의 예는 미국 특허 US 5740256에 개시된다.
그러므로, 간섭 제거 프로세서(211)는 프로세싱 및 잡음 보상을 현재 신호의 특성들에 적응시킨다. 간섭 제거 프로세서(211)는 간섭 제거 프로세서(211)에 의해 수행되는 간섭 제거 프로세싱의 적응을 제어하는 제거 적응 프로세서(213)에 추가로 연결된다.
도 2의 시스템이 음성 품질을 개선하기 위해 빔포밍 및 간섭 제거 이 둘을 이용할지라도, 이 프로세스들 각각은 다른 것과 독립적으로 이용될 수 있고 음성 향상 시스템은 종종 이들 중 단 하나만을 이용할 수 있는 것이 인식될 것이다.
도 2의 시스템은 EMG 센서(217)(도 1의 EMG 센서(107)에 대응할 수 있는)에 연결되는 EMG 프로세서(215)를 추가로 포함한다. EMG 프로세서(215)는 빔포밍 적응 프로세서(209) 및 제거 적응 프로세서(213)에 연결되고 EMG 신호를 적응 프로세서들(209, 213)에 공급하기 전에 특히 상기 EMG 신호를 증폭하고, 필터링하고 디지털화할 수 있다.
상기 예에서, 빔포밍 적응 프로세서(209)는 EMG 프로세서(215)로부터 수신되는 EMG 신호 상에 음성 활동 검출을 수행한다. 특히, 빔포밍 적응 프로세서(209)는 화자가 말하고 있는지의 여부를 나타내는 이진 음성 활동 검출을 수행할 수 있다. 빔포머는 원하는 신호가 활성일 때 적응되고 간섭 제거기는 원하는 신호가 활성이 아닐 때 적응된다. 그와 같은 활동 검출은 그것이 원하는 신호를 캡처하고 음향 교란들이 없을 때 EMG 신호를 이용하여 로버스트(robust)한 방식으로 수행될 수 있다.
그러므로, 로버스트한 활동 검출은 이 신호를 이용하여 수행될 수 있다. 예를 들어, 원하는 신호는 캡처된 EMG 신호의 평균 에너지가 특정한 제 1 임계치 위에 있는 경우 활성으로 검출될 수 있고 특정 제 2 임계치 아래에 있는 경우 비활성으로 검출될 수 있다.
상기 예에서, 빔폼 적응 프로세서(209)는 단지 빔포머(207)를 제어함으로써, 음성이 실제로 화자에 의해 생성되었음을 음성 활성 검출이 표시할 때, 빔포밍 필터들 또는 가중치들의 적응이 단지 시간 간격들 동안 수신되는 오디오 신호들에만 기초하도록 한다. 그러나, 어떠한 음성도 이용자에 의해 생성되지 않음을 음성 활동 검출이 표시하지 않은 시간 간격들 동안, 오디오 신호들은 적응에 대해 무시된다.
이 방법은 빔포머(207)의 출력에서 개선된 빔포밍 및 그에 따른 음성 신호의 개선된 품질을 제공할 수 있다. 서브 보컬 EMG 신호에 기초하는 음성 활동 검출을 이용함으로써 개선된 적응이 제공될 수 있는데 왜냐하면 이것은 이용자가 실제로 말하고 있는 시간 가격들에 집중할 가능성이 더 크기 때문이다. 예를 들어, 종래의 오디오 기반 음성 검출기들은 시끄러운 환경들에서 부정확한 결과들을 제공하는 경향이 있는데 왜냐하면 음성 및 다른 오디오 소스들 사이를 구별하는 것이 통상적으로 어렵기 때문이다. 더욱이, 감소한 복잡도 프로세싱은 더 단순한 음성 활동 검출이 이용될 수 있으므로 달성될 수 있다. 더욱이, 적응은 음성 활동 검출이 특정한 원하는 화자에 대해 도출되는 서브 보컬 신호들에 배타적으로 기초하고 음향 환경 내의 다른 활성 화자들의 존재에 의해 영향을 받거나 열화되지 않기 때문에 특정 화자에 더 집중될 수 있을 수 있다.
일부 실시예들에서, 음성 활동 검출은 EMG 신호 및 오디오 신호 이 둘 모두에 기초할 수 있음이 인식될 것이다. 예를 들어, EMG 기반 음성 활동 알고리즘은 종래의 오디오 기반 음성 검출에 의해 보강될 수 있다. 그와 같은 경우에, 두 방식들은, 예를 들어 양 알고리즘들이 음성 활동을 독자적으로 표시해야만 할 것을 요구함으로써, 또는 예를 들어 다른 측정에 응답하여 하나의 측정에 대한 음성 활동 임계를 적응시킴으로써 결합될 수 있다.
유사하게, 제거 적응 프로세서(213)는 음성 활동 검출을 수행할 수 있고 간섭 제거 프로세서(211)에 의해 신호에 적용되는 프로세싱의 적응을 제거할 수 있다.
특히, 제거 적응 프로세서(213)는 간단한 이진 음성 활동 표시를 생성하기 위해 동일한 음성 활동 검출을 빔포밍 적응 프로세서(209)로 수행할 수 있다. 그리고나서 제거 적응 프로세서(213)는 잡음 보상/간섭 제거의 적응을 제어하여 이 적응이 단지 음성 활동 표시가 제공된 기준을 만족할 때만 발행하도록 할 수 있다. 특히, 상기 적응은 음성 활동이 검출되지 않는 상황으로 제한될 수 있다. 그러므로, 빔포밍이 음성 신호에 적응되는데 반해, 간섭 제거는 이용자에 의해 음성이 생성되지 않을 때 측정되는 특성들 및 그러므로 오디오 환경에서 잡음에 의해 캡처된 음향 신호들이 지배되는 시나리오에 적응된다.
이 방식은 개선된 잡음 보상/간섭 제거를 제공할 수 있는데 왜냐하면 그것은 개선된 잡음 및 간섭의 특성들의 개선된 결정을 가능하게 하여 더 효율적인 보상/제거가 가능하기 때문이다. 서브 보컬 EMG 신호에 기초하여 음성 활동 검출을 이용하는 것은 개선된 적응을 제공할 수 있는데 왜냐하면 이것은 이용자가 말하고 있지 않은 시간 간격들에 집중되어 음성 신호의 요소들이 잡음/간섭으로 고려될 수 있는 위험성이 감소할 가능성이 더 높기 때문이다. 특히, 시끄러운 환경들에서의 그리고/또는 오디오 환경에서 복수의 화자들 중에서 특정한 화자로 표적화되는 더욱 정확한 적응이 달성될 수 있다.
도 2의 시스템과 같은 결합된 시스템에서, 동일한 음성 활동 검출이 빔포머(207) 및 간섭 제거 프로세서(211) 이 둘에 대해 이용될 수 있음이 인식될 것이다.
음성 활동 검출은 특히 이전 음성 활동 검출일 수 있다. 실제로, EMG 기반 음성 활동 검출의 상당한 장점은 그것이 개선되고 화자 표적화 음성 활동 검출을 가능하게 할 뿐만 아니라 그것이 음성 이전 활동 검출을 추가로 가능하게 할 수 있다.
실제로, 발명자들은 개선된 성능이 음성이 막 시작하려고 하는 것을 검출하기 위해 EMB 신호를 이용하는 것에 기초하여 음성 프로세싱을 적응시킴으로써 달성될 수 있다. 특히, 음성 활동 검출은 음성 발생 바로 직전에 뇌에 의해 생성되는 EMG 신호들을 측정하는 것에 기초할 수 있다. 상기 신호들은 들을 수 있는 음성 신호를 실제로 발생시키는 음성 기관들을 자극하는 일을 하고 단지 말하고자 하는 의도만이 있을 때, 그러나 단지 미세하게 또는 들을 수 있는 사운드가 발생되지 않을 때, 예를 들어 사람이 묵독할 때 검출되고 측정될 수 있다.
그러므로, 발성 활동 검출을 위한 EMG 신호들의 사용은 상당한 이점들을 제공한다. 예를 들어, 그것은 음성 신호로의 적응 시에 지연들을 감소시킬 수 있고 예를 들어 음성 프로세싱이 음성에 대해 미리 초기화되도록 할 수 있다.
일부 실시예들에서, 음성 프로세싱은 음성 신호의 인코딩일 수 있다. 도 3은 음성 신호를 인코딩하기 위한 음성 신호 프로세싱 시스템의 예를 도시한다.
상기 시스템은 인코딩될 음성을 포함하는 오디오 신호를 캡처하는 마이크로폰(301)을 포함한다. 마이크로폰(301)은 예를 들어 캡처된 오디오 신호를 증폭하고, 필터링하고, 디지털화하기 위한 기능을 포함할 수 있다. 오디오 프로세서(303)는 오디오 프로세서(303)로부터 수신되는 오디오 신호에 음성 인코딩 알고리즘을 적용함으로써 인코딩된 음성 신호를 생성하도록 구성되는 음성 인코더(305)에 결합된다.
도 3의 시스템은 EMG 센서(309)(도 1의 EMG 센서(107)에 대응할 수 있다)에 결합되는 EMG 프로세서(307)를 추가로 포함한다. EMG 프로세서(307)는 EMG 신호를 수신하고 이 신호를 계속해서 증폭하고, 필터링하고, 디지털화할 수 있다. EMG 프로세서(307)는 부가적으로 인코더(305)에 연결되는 인코딩 제어기(311)에 추가로 연결된다. 인코딩 제어기(311)는 EMG 신호에 따라 인코딩 프로세싱을 변경하도록 구성된다.
특히, 인코딩 제어기(311)는 화자로부터 수신되는 음향 음성 신호와 관련되는 음성 특성 표시를 결정하기 위한 기능을 포함한다. 음성 특성은 EMG 신호에 기초하여 결정되고 그 후에 인코더(305)에 의해 적용되는 인코딩 프로세스를 적응시키거나 수정하는데 이용된다.
특정한 예에서, 인코딩 제어기(311)는 EMG 신호로부터의 음성 신호 내의 발성의 정도를 검출하기 위한 기능을 포함한다. 발성된 음성은 보다 주기적인데 반해 발성되지 않은 음성은 더 잡음에 유사하다. 현대의 음성 코더(coder)들은 일반적으로 신호를 발성되거나 발성되지 않은 음성으로 하드 분류(hard classification)를 방지한다. 대신, 더 적절한 측정은 발성의 정도인데, 이는 또한 EMG 신호로부터 추정될 수 있다. 예를 들어 제로 크로싱(zero crossing)들의 수는 신호가 발성되거나 발성되지 않는지의 여부에 대한 단순 표시이다. 발성되지 않은 신호들은 자신들의 잡음 유사 특성으로 인해 더 많은 제로 크로싱들을 가지는 경향이 있다. EMG 신호가 음향 배경 잡음으로부터 자유롭기 때문에, 발성/무발성 검출들이 더욱 로버스트하다.
따라서, 도 3의 시스템에서, 인코딩 제어기(311)는 인코더(305)를 제어하여 발성의 정도에 따라 인코딩 파라미터들을 선택한다. 특히, 연방 표준 MELP(Mixed Excitation Linear Prediction) 코더와 같은 음성 코더의 파라미터들은 발성의 정도에 따라 설정될 수 있다.
도 4는 분배된 음성 프로세싱 시스템을 포함하는 통신 시스템의 예를 도시한다. 상기 시스템은 특히 도 1을 참조하여 설명되는 요소들을 포함할 수 있다. 그러나, 상기 예에서, 도 1의 시스템은 통신 시스템에서 분배되고 분배를 지원하는 통신 기능에 의해 향상된다.
상기 시스템에서, 음성 소스 유닛(401)은 도 1을 참조하여 기술되는 마이크로폰(101), 오디오 프로세서(103), EMG 센서(107), 및 EMG 프로세서(109)를 포함한다.
그러나, 음성 프로세서(105)는 음성 소스 유닛(401) 내에 위치되지 않고, 오히려 원격으로 위치되고 제 1 통신 시스템/네트워크(403)를 통해 음성 소스 유닛(401)에 연결된다. 상기 예에서, 제 1 통신 네트워크(403)는 예를 들어 인터넷과 같은 데이터 네트워크이다.
더욱이, 사운드 소스 유닛(401)은 제 1 및 제 2 데이터 송수신기들(405, 407)을 포함하고, 이 송수신기들은 제 1 통신 네트워크(403)를 통해 데이터를 음성 프로세서(105)(데이터를 수신하기 위한 데이터 수신기를 포함하는)에 송신할 수 있다. 제 1 데이터 송수신기(405)는 오디오 프로세서(103)에 연결되고 오디오 신호를 나타내는 데이터를 음성 프로세서(105)에 송신하도록 구성된다. 유사하게, 제 2 데이터 송수신기(407)는 EMG 프로세서(109)에 연결되고 EMG신호를 나타내는 데이터를 음성 프로세서(105)에 송신하도록 구성된다. 그러므로, 음성 프로세서(105)는 EMG 신호에 기초하여 음향 음성 신호의 음성 향상을 계속해서 수행할 수 있다.
도 4의 예에서, 음성 프로세서(105)는 더욱이 단지 음성 통신 시스템인 제 2 통신 시스템/네트워크(409)에 연결된다. 예를 들어, 제 2 통신 시스템(409)은 종래의 유선 전화 시스템일 수 있다.
더욱이 상기 시스템은 제 2 통신 시스템(409)에 연결되는 원격 디바이스(411)를 포함한다. 음성 프로세서(105)는 부가적으로 수신된 EMG 신호에 기초하여 향상된 음성 신호를 생성하고 제 2 통신 시스템(409)의 표준 음성 통신 기능을 이용하여 향상된 음성 신호를 원격 디바이스(411)에 통신하도록 구성된다. 그러므로, 상기 시스템은 단지 표준화된 음성 통신 시스템을 이용하여 향상된 음성 신호를 원격 디바이스(409)에 제공할 수 있다. 더욱이, 향상 프로세싱이 집중화하여 수행될 때, 동일한 향상 기능은 복수의 사운드 소스 유닛들에 이용될 수 있어서 더 효율적인 그리고/또는 더 낮은 복잡도 시스템 해법이 가능하다.
명료성을 위한 상술한 설명은 상이한 기능 유닛들 및 프로세서들을 참조하여 본 발명의 실시예들을 기술하였음이 인식될 것이다. 그러나, 상이한 기능 유닛들 또는 프로세서들 사이의 기능의 임의의 적절한 분배가 본 발명을 손상시키지 않고 이용될 수 있음이 명확할 것이다. 예를 들어, 개별 프로세서들 또는 제어기들에 의해 수행되는 것으로 설명되는 기능은 동일한 프로세서 또는 제어기들에 의해 실행될 수 있다. 그러므로, 특정한 기능 유닛들을 언급하는 것은 엄격한 논리 또는 물리 구조 또는 조직을 표시하기보다는 단지 기술된 기능을 제공하기 위한 적절한 수단을 언급하는 것으로 이해되어야만 한다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 결합을 포함하는 임의의 적절한 형태로 구현될 수 있다. 본 발명은 선택적으로, 하나 이상의 데이터 프로세서들 및/또는 디지털 신호 프로세서들에서 운영되는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소들 및 구성요소들은 물리, 기능, 논리적으로 임의의 방식으로 구현될 수 있다. 실제로, 상기 기능은 단일 유닛으로, 복수의 유닛들로, 또는 다른 기능 유닛들의 일부로 구현될 수 있다. 이와 같으므로, 본 발명은 단일 유닛으로 구현될 수 있고, 상이한 유닛들 및 프로세서들 사이에 물리 및 기능적으로 분배될 수 있다.
본 발명이 일부 실시예들과 관련하여 설명되었을지라도, 본 발명은 본원에 진술된 특정 형태로 제한되도록 의도되지 않는다. 오히려, 본 발명의 범위는 청부 청구항들에 의해서만 제한된다. 추가적으로, 특징이 특정 실시예들과 관련하여 기술되는 것으로 보일 수 있지라도, 당업자는 기술된 실시예들의 다양한 특징들이 본 발명에 따라 결합될 수 있음을 인식할 것이다. 청구항들에서, 용어 comprising은 다른 요소들 또는 단계들의 존재를 배제하지 않는다.
더욱이, 개별적으로 기재될지라도, 복수의 수단들, 요소들, 또는 방법 단계들은 예를 들어 단일 유닛 또는 프로세서에 의해 구현될 수 있다. 추가적으로, 개별 특징들이 상이한 청구항들에 포함될 수 있을지라도, 상기 특징들은 아마도 유용하게 결합될 수 있고 상이한 청구항들 내에 포함되는 것이 특징들의 결합이 실현 가능하지 않고/않거나 유용하지 않음을 의미하지 않는다. 또한 청구항들의 하나의 범주 내의 특징이 포함되는 것은 이 범주로의 제한을 의미하지 않고 오히려 상기 특징이 적절할 때 다른 청구항 카테고리들에 마찬가지로 적용 가능함을 나타낸다. 더욱이, 청구항들 내의 특징들의 순서는 특징들이 작동되어야 하는 임의의 특정한 순서를 의미하지 않고 특히 방법 청구항에서의 개별 단계들의 순서는 상기 단계들이 이 순서로 수행되어야 함을 의미하지 않는다. 오히려, 상기 단계들은 임의의 적절한 순서로 수행될 수 있다. 게다가, 단수의 언급들이 복수를 배제하지 않는다. 그러므로 "a", "an", "first", "second" 등의 언급은 복수를 제외하지 않는다. 청구항들 내의 참조 부호들은 단지, 명확한 예가 어떤 방식으로도 청구항들의 범위를 제한하는 것으로 해석되어서는 안 되는 것으로, 제공된다.
101 : 마이크로폰 103 : 오디오 프로세서
311 : 인코딩 제어기 401 : 음성 소스 유닛

Claims (15)

  1. 음성 신호 프로세싱 시스템에 있어서:
    화자에 대한 음향 음성 신호를 나타내는 제 1 신호를 제공하기 위한 제 1 수단(103);
    상기 음향 음성 신호와 동시에 캡처되는 상기 화자에 대한 근전도 신호(electromyographic signal)를 나타내는 제 2 신호를 제공하기 위한 제 2 수단(109); 및
    상기 제 2 신호에 응답하여 상기 제 1 신호를 프로세싱하여 변형된 음성 신호를 생성하기 위한 프로세싱 수단(105)을 포함하는, 음성 신호 프로세싱 시스템.
  2. 제 1 항에 있어서,
    상기 화자의 피부 표면 전도성의 측정에 응답하여 근전도 신호를 생성하도록 구성되는 근전도 센서(107)를 추가로 포함하는, 음성 신호 프로세싱 시스템.
  3. 제 1 항에 있어서,
    프로세싱 수단(105, 209, 213)은 상기 제 2 신호에 응답하여 음성 활성 검출을 수행하도록 구성되고 프로세싱 수단(105, 207, 211)은 음성 활성 검출에 응답하여 상기 제 1 신호의 프로세싱을 변경하도록 구성되는, 음성 신호 프로세싱 시스템.
  4. 제 3 항에 있어서,
    상기 음성 활성 검출은 사전-음성 활성 검출인, 음성 신호 프로세싱 시스템.
  5. 제 3 항에 있어서,
    상기 프로세싱은 상기 제 1 신호의 적응형 프로세싱을 포함하고, 상기 프로세싱 수단(105, 207, 209, 211, 213)은 상기 음성 활성 검출이 기준을 만족할 때에만 상기 적응형 프로세싱을 적응시키도록 구성되는, 음성 신호 프로세싱 시스템.
  6. 제 5 항에 있어서,
    상기 적응성 프로세싱은 적응성 오디오 빔 포밍 프로세싱(adaptive audio beam forming processing)을 포함하는, 음성 신호 프로세싱 시스템.
  7. 제 5 항에 있어서,
    상기 적응성 프로세싱은 적응성 잡음 보상 프로세싱을 포함하는, 음성 신호 프로세싱 시스템.
  8. 제 1 항에 있어서,
    상기 프로세싱 수단(105, 311)은 상기 제 2 신호에 응답하여 음성 특징을 결정하고, 상기 음성 특성에 응답하여 상기 제 1 신호의 프로세싱을 변경하도록 구성되는, 음성 신호 프로세싱 시스템.
  9. 제 8 항에 있어서,
    상기 음성 특성은 발성 특성이고 상기 제 1 신호의 프로세싱은 상기 발성 특성에 의해 표시되는 발성의 현재 정도에 따라 변하는, 음성 신호 프로세싱 시스템.
  10. 제 8 항에 있어서,
    상기 변경된 음성 신호는 인코딩된 음성 신호이고, 상기 프로세싱 수단(105, 311)은 상기 음성 특성에 응답하여 상기 제 1 신호를 인코딩하기 위한 인코딩 파라미터들의 세트를 선택하도록 구성되는, 음성 신호 프로세싱 시스템.
  11. 제 1 항에 있어서,
    상기 변형된 음성 신호는 인코딩된 음성 신호이고, 상기 제 1 신호의 프로세싱은 상기 제 1 신호의 인코딩을 포함하는, 음성 신호 프로세싱 시스템.
  12. 제 1 항에 있어서,
    상기 음성 신호 프로세싱 시스템은 제 1 수단 및 제 2 수단(103, 109)을 포함하는 제 1 디바이스(401) 및 상기 제 1 디바이스와 원격이며 상기 프로세싱 디바이스(105)를 포함하는 제 2 디바이스를 포함하고, 상기 제 1 디바이스(401)는 상기 제 1 신호 및 제 2 신호를 상기 제 2 디바이스로 통신하기 위한 수단(405, 407)을 추가로 포함하는, 음성 신호 프로세싱 시스템.
  13. 제 12 항에 있어서,
    상기 제 2 디바이스는 상기 음성 신호를 음성 전용 통신 접속을 통해 제 3 디바이스(411)로 송신하기 위한 수단을 추가로 포함하는, 음성 신호 프로세싱 시스템.
  14. 음성 신호 프로세싱 시스템을 위한 동작의 방법에 있어서:
    화자의 음향 음성 신호를 나타내는 제 1 신호를 제공하는 단계;
    상기 음향 음성 신호와 동시에 캡처되는 상기 화자에 대한 근전도 신호를 나타내는 제 2 신호를 제공하는 단계; 및
    상기 제 2 신호에 응답하여 상기 제 1 신호를 프로세싱하여 변형된 음성 신호를 생성하는 단계를 포함하는, 음성 신호 프로세싱 시스템을 위한 동작의 방법.
  15. 제 14 항에 따른 방법으로부터 실행하는 것을 인에이블(enable)하는, 컴퓨터 프로그램 제품.
KR1020117016304A 2008-12-16 2009-12-10 음성 신호 프로세싱 KR20110100652A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP08171842 2008-12-16
EP08171842.1 2008-12-16

Publications (1)

Publication Number Publication Date
KR20110100652A true KR20110100652A (ko) 2011-09-14

Family

ID=41653329

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117016304A KR20110100652A (ko) 2008-12-16 2009-12-10 음성 신호 프로세싱

Country Status (7)

Country Link
US (1) US20110246187A1 (ko)
EP (1) EP2380164A1 (ko)
JP (1) JP2012512425A (ko)
KR (1) KR20110100652A (ko)
CN (1) CN102257561A (ko)
RU (1) RU2011129606A (ko)
WO (1) WO2010070552A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014119835A1 (ko) * 2013-01-31 2014-08-07 엘지전자 주식회사 이동 단말기, 및 그 동작방법

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999154B (zh) * 2011-09-09 2015-07-08 中国科学院声学研究所 一种基于肌电信号的辅助发声方法及装置
US9564128B2 (en) 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
KR20150104345A (ko) * 2014-03-05 2015-09-15 삼성전자주식회사 음성 합성 장치 및 음성 합성 방법
TWI576826B (zh) * 2014-07-28 2017-04-01 jing-feng Liu Discourse Recognition System and Unit
KR20180055661A (ko) 2016-11-16 2018-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
US11039242B2 (en) * 2017-01-03 2021-06-15 Koninklijke Philips N.V. Audio capture using beamforming
DE102017214164B3 (de) * 2017-08-14 2019-01-17 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörgeräts und Hörgerät
CN109460144A (zh) * 2018-09-18 2019-03-12 逻腾(杭州)科技有限公司 一种基于发声神经电位的脑机接口控制系统及方法
US11373653B2 (en) * 2019-01-19 2022-06-28 Joseph Alan Epstein Portable speech recognition and assistance using non-audio or distorted-audio techniques
CN110960214B (zh) * 2019-12-20 2022-07-19 首都医科大学附属北京同仁医院 一种表面肌电图同步音频信号采集方法及设备
CN110960215A (zh) * 2019-12-20 2020-04-07 首都医科大学附属北京同仁医院 一种喉肌电图同步音频信号采集方法及设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
DE4212907A1 (de) * 1992-04-05 1993-10-07 Drescher Ruediger Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w.
US5794203A (en) * 1994-03-22 1998-08-11 Kehoe; Thomas David Biofeedback system for speech disorders
US6001065A (en) * 1995-08-02 1999-12-14 Ibva Technologies, Inc. Method and apparatus for measuring and analyzing physiological signals for active or passive control of physical and virtual spaces and the contents therein
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6801887B1 (en) * 2000-09-20 2004-10-05 Nokia Mobile Phones Ltd. Speech coding exploiting the power ratio of different speech signal components
ATE391986T1 (de) * 2000-11-23 2008-04-15 Ibm Sprachnavigation in webanwendungen
US20020072916A1 (en) * 2000-12-08 2002-06-13 Philips Electronics North America Corporation Distributed speech recognition for internet access
US20020143373A1 (en) * 2001-01-25 2002-10-03 Courtnage Peter A. System and method for therapeutic application of energy
EP1229519A1 (en) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Speech analyzing stage and method for analyzing a speech signal
US6944594B2 (en) * 2001-05-30 2005-09-13 Bellsouth Intellectual Property Corporation Multi-context conversational environment system and method
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP2004016658A (ja) * 2002-06-19 2004-01-22 Ntt Docomo Inc 生体信号測定可能な携帯型端末および測定方法
US7613310B2 (en) * 2003-08-27 2009-11-03 Sony Computer Entertainment Inc. Audio input system
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
US8200486B1 (en) * 2003-06-05 2012-06-12 The United States of America as represented by the Administrator of the National Aeronautics & Space Administration (NASA) Sub-audible speech recognition based upon electromyographic signals
JP4713111B2 (ja) * 2003-09-19 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
US7574357B1 (en) * 2005-06-24 2009-08-11 The United States Of America As Represented By The Admimnistrator Of The National Aeronautics And Space Administration (Nasa) Applications of sub-audible speech recognition based upon electromyographic signals
US8082149B2 (en) * 2006-10-26 2011-12-20 Biosensic, Llc Methods and apparatuses for myoelectric-based speech processing
US8271262B1 (en) * 2008-09-22 2012-09-18 ISC8 Inc. Portable lip reading sensor system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014119835A1 (ko) * 2013-01-31 2014-08-07 엘지전자 주식회사 이동 단말기, 및 그 동작방법
US9380262B2 (en) 2013-01-31 2016-06-28 Lg Electronics Inc. Mobile terminal and method for operating same

Also Published As

Publication number Publication date
JP2012512425A (ja) 2012-05-31
RU2011129606A (ru) 2013-01-27
WO2010070552A1 (en) 2010-06-24
CN102257561A (zh) 2011-11-23
US20110246187A1 (en) 2011-10-06
EP2380164A1 (en) 2011-10-26

Similar Documents

Publication Publication Date Title
KR20110100652A (ko) 음성 신호 프로세싱
Jeub et al. Model-based dereverberation preserving binaural cues
JP6034793B2 (ja) オーディオ信号生成システム及び方法
KR101470262B1 (ko) 다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체
KR101532153B1 (ko) 음성 활동 검출 시스템, 방법, 및 장치
TWI281354B (en) Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression
JP6031041B2 (ja) 複数のオーディオセンサを有する装置とその動作方法
CN103986995B (zh) 减少音频处理装置中的不相关噪声的方法
CN106507258B (zh) 一种听力装置及其运行方法
CN102543095B (zh) 用于减少音频处理算法中的非自然信号的方法和装置
US11510019B2 (en) Hearing aid system for estimating acoustic transfer functions
DK3147904T3 (en) PROCEDURE FOR DETERMINING OBJECTIVE PERCEPTUAL QUANTITIES OF NOISE SPEECH SIGNALS
Nogueira et al. Spectral contrast enhancement improves speech intelligibility in noise for cochlear implants
US10547956B2 (en) Method of operating a hearing aid, and hearing aid
CN105491495B (zh) 基于确定性序列的反馈估计
KR20110008333A (ko) 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법
KR20150104345A (ko) 음성 합성 장치 및 음성 합성 방법
JP5903921B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム
US9020818B2 (en) Format based speech reconstruction from noisy signals
CN115086849A (zh) 确定感兴趣的讲话者的助听器
CN105554663B (zh) 用于估计听力装置的反馈通路的听力系统
US20220406295A1 (en) Multi-encoder end-to-end automatic speech recognition (asr) for joint modeling of multiple input devices
WO2020208926A1 (ja) 信号処理装置、信号処理方法及びプログラム
JP2006086877A (ja) ピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法
EP4075829B1 (en) A hearing device or system comprising a communication interface

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid