KR20230015513A - 음성인식 오디오 시스템 및 방법 - Google Patents

음성인식 오디오 시스템 및 방법 Download PDF

Info

Publication number
KR20230015513A
KR20230015513A KR1020237001944A KR20237001944A KR20230015513A KR 20230015513 A KR20230015513 A KR 20230015513A KR 1020237001944 A KR1020237001944 A KR 1020237001944A KR 20237001944 A KR20237001944 A KR 20237001944A KR 20230015513 A KR20230015513 A KR 20230015513A
Authority
KR
South Korea
Prior art keywords
signal
external sound
external
interest
sound wave
Prior art date
Application number
KR1020237001944A
Other languages
English (en)
Inventor
티모시 디그레이
릴란 휴게
Original Assignee
헤드 테크놀로지 에스아에르엘
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 헤드 테크놀로지 에스아에르엘 filed Critical 헤드 테크놀로지 에스아에르엘
Priority to KR1020247006481A priority Critical patent/KR20240033108A/ko
Priority claimed from PCT/IB2018/001503 external-priority patent/WO2019111050A2/en
Publication of KR20230015513A publication Critical patent/KR20230015513A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/002Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1058Manufacture or assembly
    • H04R1/1075Mountings of transducers in earphones or headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication

Abstract

본 발명에 따르면, 음악 또는 임의의 다른 오디오 소스를 듣는 동안 헤드셋을 착용한 사용자가 외부 사운드 환경을 인식하는 음성 인식 오디오 시스템 및 방법이 개시된다. 조절 가능한 사운드 인식 영역은 사용자가 멀리있는 음성을 듣는 것을 방지하기 위한 유연성을 제공한다. 외부 사운드는 주파수 도메인에서 발진 주파수 후보를 선택하고 시간 도메인에서 발진 주파수 후보가 관심 신호인지를 결정하기 위해 분석될 수 있다. 외부 사운드로 향하는 신호가 관심 신호인 것으로 결정되면, 외부 사운드는 오디오 소스로부터의 오디오와 믹싱된다.

Description

음성인식 오디오 시스템 및 방법{Voice Aware Audio System and Method}
본 발명은 헤드셋을 착용한 사용자가 음악 또는 임의의 다른 오디오 소스를 듣는 동안 외부 사운드 환경을 인식하기 위한 시스템 및 방법에 관한 것이다.
음성 유무 감지 또는 음성 감지로도 알려진 VAD(Voice Activity Detection)는 인간 음성의 유무가 감지되는 음성 처리에 사용되는 기술이다. 다양한 VAD 알고리즘이 알려져 있다. VAD에 사용되는 종래의 알고리즘 방안은 입력 신호에 노이즈가 있을 때 감지 스코어가 열악하다는 문제점을 안고 있다.
VAD는 음성 인식, 음성 압축 및 노이즈 감소 시스템을 포함한 많은 음성 처리 응용 프로그램에서 중요한 역할을 한다. 도 1에서, 프레임 입력 신호로부터 특징을 추출한 다음, 마지막 몇 프레임으로부터 포착된 정보에 기초하여, 다차원 임계값을 적응시키고, 프레임이 음성인지 노이즈인지를 결정하기 위해 이 임계값을 갖는 특징들의 비교를 진행하는 것으로 구성된 종래의 VAD의 기본 원리가 도시되어 있다. 일반적으로, 결정 행오버(decision hangover)의 마지막 단계는 대표적으로 문장에서 발생하는 통상적인 짧은 침묵 기간을 포함하는 연속적인 음성 스트림을 보장하는 것이다. 프레임 길이는 일반적으로 음성이 통계적으로 변동없는 것으로 간주될 수 있는 시간 윈도우에 대응하기 때문에 10 내지 40ms 지속 기간으로 선택된다.
음성을 감지하는 기준은 유성음 부분을 찾는 것인데, 이는 유성음 부분이 주기적이며 음성 알고리즘에 사용될 수 있는 수학적으로 잘 정의된 구조를 가지기 때문이다. 또 다른 방법은 음성에 대한 통계 모델을 사용해, 획득된 데이터 샘플에서 해당 파라미터를 추정하고, 결정 이론의 고전적인 결과를 사용하여 프레임 음성/노이즈 분류에 도달하는 것이다.
도 2는 음성을 감지하기 위해 시간 도메인 방법에서 사용된 기술을 도시한다. 이 기술에는 단시간 에너지, 제로-크로싱 레이트(zero-crossing rate), 교차 상관(cross-correlation), 주기성 측정, 선형 예측 분석 및 피치 추정이 포함된다. 도 3은 음성을 감지하기 위해 주파수 도메인 방법에서 사용된 기술을 도시한다. 이 기술에는 부대역 에너지, 위너 엔트로피(Weiner entropy), 캡스트럼(Cepstrum), 에너지 엔트로피, 고조파 비율 및 스펙트럼 피크 분석이 포함된다. 종래 VAD 알고리즘은 시간 또는 주파수 도메인 피처를 사용하거나 통계 또는 기타 특정 알고리즘 메커니즘을 사용한다. 일부 종래의 VAD는 시간 도메인 또는 주파수 도메인에서 장기 스펙트럼 발산, 캡스트럼 피크, MEL-필터링 스펙트럼 및 분광-시간 변조를 포함하는 일련의 피처들을 사용한다.
노이즈 량이 증가하면 VAD 성능이 저하되는 것으로 알려져 있다. 기존 방안은 VAD 시스템 앞에 노이즈 감소(NR) 모듈이 있어야 한다. NR(Noise Reduction)로 음성 신호를 전처리할 때 알려진 한 가지 알려진 제한 사항은 입력 신호에 추가된 음악적 노이즈가 VAD 모듈을 잘못 인도하여 오감지를 유발할 수 있다는 잠재적 외형이다.
기존의 NR 모듈을 사용하는 데 따른 또 다른 단점은 시스템이 다른 노이즈 레벨 및 카테고리에 대해 올바르게 작동할 수 있도록 내부 파라미터를 설정하는 것이 어렵고 심지어 불가능하다는 것이다. 예로써, 매우 시끄러운 환경을 다루기 위해 내부 파라미터 세트를 선택하면, 소리 없는 조용한 환경에서 상대적으로 중요한 왜곡이 나타난다.
오디오 품질에 영향을 줄뿐만 아니라 심지어 VAD 모듈 성능에 해를 줄 수 있는 상기 단점을 극복하기 위해, 노이즈 레벨 환경을 감지하기 위한 개선된 메커니즘을 제공하고 NR 내부 파라미터의 동적 설정을 허용하는 것이 바람직하다.
음악 또는 임의의 다른 오디오 소스를 듣는 동안 사용자가 외부 사운드 환경을 인식할 수 있도록 개선된 노이즈에 강한 VAD 방법 및 시스템을 제공하는 것이 바람직하다.
본 발명은 음성 인식 오디오 시스템 및 헤드셋을 착용한 사용자가 음악 또는 임의의 다른 오디오 소스를 듣는 동안 외부 사운드 환경을 인식하는 방법에 관한 것이다. 본 발명은 사용자가 멀리있는 음성을 듣지 않도록 유연성을 제공하는 조절 가능한 음성 인식 구역의 개념에 관한 것이다. 본 발명의 시스템은 본원에 참고로 포함된 미국 특허 공개 번호 2016/0241947에 기재된 바와 같은 헤드폰의 특징을 사용할 수 있다. 일 실시예에서, 헤드폰은 4 개의 입력 마이크로폰을 갖는 마이크로폰 어레이를 포함한다. 이는 공간적 사운드 획득 선택성을 제공하고 관심 방향을 향한 마이크로폰 어레이의 스티어링을 허용한다. 빔 형성 방법을 사용하고 본 발명의 노이즈 감소 시스템, 분수 지연 처리 및 VAD(Voice Activity Detection) 알고리즘과 같은 다른 기술과 결합한, 새로운 오디오 아키텍처가 시끄러운 환경에서 향상된 성능을 제공한다.
본 발명은 노이즈 감소 및 어레이 처리를 포함하는 상이한 신호 처리 모듈을 포함한다. 특히, 노이즈 감지(NS)라고 하는 노이즈 레벨을 추정하는 절차가 제공된다. 이 절차는 출력 음질이 최적화되도록 노이즈 감소 파라미터를 조정한다. 음성이 감지되면, 사용자가 듣고 있는 음악이나 기타 오디오 소스를 방해하지 않고 헤드폰 신호를 통해 사용자에게 경보를 발할 수 있다. 이는 외부 음성과 헤드폰 리드 신호를 믹싱하여 수행된다. 심리음향학적 특성을 고려하고 동시에 음악 명료도를 최대화하면서 음악 신호의 볼륨을 줄이지 않고 최종 믹싱을 허용할 수 있는 믹싱 메커니즘이 사용된다.
본 발명의 음성 인식 오디오 시스템의 전형적인 응용은 다음과 같은 시나리오 내에서 나타날 수 있다: 음성, 예를 들어 소리를 지르거나 말하거나 부르는 사람, 아기 울음 소리, 대중 교통 안내 방송; 벨 및 알람 예를 들어 누군가 울리는 도어 벨, 택배 배달을 위해 동작된 도어 벨, 집, 자동차 및 기타 알람; 및 기타, 예를 들어, 자동차 경적, 경찰 및 구급차 경보 사이렌 및 휘파람. 본 발명은 하기 도면을 참조하여 보다 상세히 설명될 것이다.
본 발명의 내용에 포함됨.
도 1은 VAD(Voice Activity Detection)의 종래 기술 원리의 개략도이다.
도 2는 예시적인 종래 기술의 시간 도메인 음성 감지 기술의 개략도이다.
도 3은 예시적인 종래 기술의 주파수 도메인 음성 감지 기술의 개략도이다.
도 4는 본 발명의 교시에 따라 관심있는 외부 음성이 사용자 음악과 믹싱되는 음성 인식 오디오 시스템의 개략도이다.
도 5는 본 발명의 음성 인식 오디오 시스템에서 사용되는 조절 가능한 사운드 인식 구역의 개략도이다.
도 6은 본 발명의 헤드폰에 사용된 마이크로폰 어레이의 개략도이다.
도 7은 본 발명의 교시에 따른 음성 유무 감지 방법의 흐름도이다.
도 8a는 음성 신호의 개략도이다.
도 8b는 로그 위너 엔트로피의 개략도이다.
도 8c는 단순화된 로그 위너 엔트로피의 개략도이다.
도 9는 노이즈 감소(NR) 및 음성 유무 감지(VAD) 모듈 주위의 데이터 버퍼 구성을 포함하는 음성 유무 감지 아키텍처 시스템의 개략도이다.
도 10은 행오버 절차의 상태 머신 다이어그램의 개략도이다.
도 11a는 128 버퍼 길이의 음성 신호의 개략도이다.
도 11b는 도 11a에 도시된 신호의 로그 위너 엔트로피의 개략도이다.
도 11c는 도 11a에 도시된 신호를 단순화한 로그 위너 엔트로피의 개략도이다.
도 12a는 258 버퍼 길이의 음성 신호의 개략도이다.
도 12b는 도 12a에 도시된 신호의 로그 위너 엔트로피의 개략도이다.
도 12c는 도 12a에 도시된 신호를 단순화 한 로그 위너 엔트로피의 개략도이다.
도 13a는 128 버퍼 길이의 음성 신호의 개략도이다.
도 13b는 도 13a에 도시된 신호의 로그 위너 엔트로피의 개략도이다.
도 13c는 도 13a에 도시된 신호를 단순화한 로그 위너 엔트로피의 개략도이다.
도 14는 본 발명의 교시에 따른 적응성 노이즈 감소 모듈의 개략도이다.
도 15a는 노이즈를 포함하는 입력 신호의 개략도이다.
도 15b는 마이크로폰 좌측 전방과 마이크로폰 우측 전방의 위상차의 개략도이다.
도 15c는 마이크로폰 우측 전방 및 마이크로폰 우측 후방의 개략도이다.
도 16은 마이크로 프로세서 어레이를 이용한 로컬라이제이션 및 빔 포밍을 포함하는 VAD(Voice Activity Detection) 출력 품질을 개선하는 방법의 흐름도이다.
도 17은 확산 노이즈에 대한 VAD(Voice Activity Detection)의 강건성을 개선하기 위한 개략도이다.
도 18은 인식 영역에 원치 않는 음성에 대한 VAD(Voice Activity Detection)의 강건성을 증가시키는 방법의 흐름도이다.
도 19는 적응 스펙트럼 이퀄라이제이션을 포함하는 음성 인식 오디오 시스템을 구현하기 위한 방법의 흐름도이다.
도 20a는 음성의 명료도가 나쁜 음악의 그래프이다.
도 20b는 적응형 EQ 개념을 사용하여 음성의 명료도가 우수한 음악 그래프이다.
도 21a는 나쁜 음성 명료도의 개략도이다.
도 21b는 HRTF 기반의 명료도 개선 개념을 사용하여 달성된 우수한 음성 명료도의 개략도이다.
도 22는 압축 기반 처리를 이용한 애드혹 처리 방법의 흐름도이다.
도 23a는 명료도가 나쁜 처리의 개략도이다.
도 23b는 양호한 명료도를 제공하기 위해 압축 기반 처리를 사용하는 애드혹 처리의 구현의 개략도이다.
이제 본 발명의 바람직한 실시예를 보다 상세하게 참조할 것이며, 그 예가 첨부 도면에 도시되어 있다. 가능하다면, 동일한 참조 번호는 도면 및 상세한 설명 전반에 걸쳐 동일하거나 유사한 부분을 지칭하기 위해 사용될 것이다.
본 발명의 음성 인식 오디오 시스템은 헤드폰을 착용한 임의의 사용자가 음악 또는 임의의 다른 오디오 소스를 듣는 동안 외부 사운드 환경을 인식할 수 있게한다. 일 실시예에서, 음성 인식 오디오 시스템은 예를 들어 미국 특허 공개 번호 2016-0241947에 기재된 바와 같이 4 개의 입력 마이크로폰을 갖는 헤드폰으로서 구현될 수 있다. 헤드폰 마이크로폰에서 나오는 신호가 원하는 신호로 인식되면 사용자에게 음성 또는 정의된 관심있는 사운드 세트를 듣게 촉구될 것이다. 마이크로폰에서 나오는 신호가 음성 또는 임의의 관심 신호로 분석되지 않으면, 청취자는 마이크르폰 신호에 의해 방해받지 않고 리드 신호(lead signal)만 들을 수 있다.
도 4는 사람(B)이 헤드폰(12)을 착용하고 오디오 출력으로 음악을 듣거나 텔레비전 화면 등을 시청하는 사람(A)을 향해 올 때 음성 인식 오디오 시스템(10)에 대한 가능한 시나리오를 도시한다. 사람(B)가 사람(A)와 대화하는 즉시, 이어 패드(14)에 배열된 하나 이상의 마이크로폰(15)을 통해 음성이 감지되고 리드 신호와 믹싱되어 사람(A)는 사람(B)가 말한 음성 메시지를 인식할 것이다. 교란되지 않도록 하기 위해, 외부 사운드는 상기 외부 사운드가 사람의 목소리와 같이 바람직할 때만 음악과 믹싱되어야 한다. 음성 인식 시스템(10)은 또한 다른 전형적인 사운드, 예를 들어 알람, 벨소리, 경적, 경보, 사이렌, 벨 및 휘파람을 감지할 수 있다.
ASAZ(Adjustable Sound Awareness Zone)라는 서브 시스템은 도 5와 같이 음성 인식 오디오 시스템(10)과 함께 사용할 수 있다. 사용자는 헤드폰(12)과 관련된 API(Application Program Interface)를 통해 머리 주위에 가변 구 반경을 정의할 능력을 가지므로 음성 인식 시스템(10)은 속삭이는 듯한 소리 없이 정의된 구 반경 내에 있는 정상적인 음성에만 반응한다. 정의된 구 외부에 위치한 다른 정상적인 음성은 내지르는 듯한 소리 없이 감지되지 않는다. 음성 인식 시스템(12)의 3 가지 레벨의 튜닝은 대, 중 및 소로 정의될 수 있다. 큰 튜닝은 길이가 큰 반경(RL)에 해당하고, 중간 튜닝은 반경(RL)보다 작은 중간 길이를 갖는 반경(RM)에 해당하며, 작은 튜닝은 반경(RM)보다 작은 길이를 갖는 반경(RS)에 해당한다. 예를 들어, 반경(RL)은 약 75 피트 내지 약 30 피트 범위의 길이를 가질 수 있고, 반경(RM)은 약 50 피트 내지 약 20 피트 범위의 길이를 가질 수 있으며, 반경(RS)는 약 25 피트에서 약 1 피트 범위의 길이를 가질 수 있다.
도 4를 참조하면, 음성 인식 오디오 시스템(10)은 노이즈 레벨을 추정하기 위한 노이즈 감소(NR) 방법 또는 노이즈 감소(NR) 알고리즘을 포함하여 음성 인식 오디오 시스템(10)이 노이즈 감소(NR) 알고리즘의 임의의 내부 파라미터에 신속하게 튜닝될 수 있도록 한다. 이는 광범위한 노이즈 레벨에 가장 적합한 오디오 품질을 제공한다. NS(Noise Sensing)라고 하는이 절차는 동적으로 민감한 임계값 또는 기타 내부 파라미터를 튜닝하고 더 나은 성능을 달성하는 데에도 사용된다.
일 실시예에서, 헤드폰(12)은 이어 패드(14)에 위치한 하나 이상의 무지향성 마이크로폰(15)을 갖는다. 헤드폰(12)은 도 6에 도시된 바와 같이 4 개의 무지향성 마이크로폰(15)을 포함할 수 있다. 헤드폰(12)에는 4 개의 무지향성 마이크로폰(15) 직사각형 또는 사다리꼴 어레이가 장착된다. 이 구성을 통해 한 라인에 또는 심지어 대각선 상에 요소들을 결합하여 쌍으로 서로 다른 가상 지향성/카디오이드 마이크로폰(cardioid microphones)을 사용할 수 있다. 무지향성 마이크로폰(15)은 사용자 주변 환경의 360°오디오 이미지를 달성하기 위해 특정 위치에 장착된 이어 패드(14)의 하부(16)에 위치된다. 어레이 처리 알고리즘을 사용하여, 화자의 위치와 같은 관심 로컬라이제이션이 결정된다. 로컬라이제이션이 수행되면, 사용자는 등가의 안테나 방사 패턴을 해당 방향으로 쉽게 가리킬 수 있다. 그렇게 하면, 무지향성 마이크로폰(들)(15)에서의 노이즈 에너지가 감소될 수 있고 외부 음성이 향상될 수 있다. 빔 포밍의 영향은 다음과 같이 노이즈 감소 성능에 긍정적인 영향을 줄 수 있다. 하나 이상의 스피커(17)가 마이크로폰(15)과 연결될 수 있다. 대안적인 실시예에서, 헤드폰(12)은 임의의 타입의 구조와 관련된 임의의 타입의 스피커 어레이를 포함할 수 있다.
도 7은 음성 인식 오디오 시스템(10)에서 구현될 수 있는 음성 유무 감지 방법(20)의 개략도이다. 본 발명의 구현은 주파수 및 시간 도메인을 모두 사용하는 것이다. 블록(22)에서, 주기적 패턴을 검출하기 위해 주파수 도메인이 사용될 수 있다. 블록(22)을 제 1 추측 단계라 한다. 블록(22)은 잠재적인 발진 주파수 후보를 선택하는 것이 목표인 대략적인 결정 프로세스이다. 블록(22) 후에, 블록(24)이 수행될 수 있다. 블록(24)은 선택된 발진 주파수 후보가 확인되었는지를 확인하기 위한 시간 도메인 절차일 수 있다. 블록(22)의 주파수 도메인 추측 단계에 대해, 그리고 노이즈 방지를 위해, 거짓 부정(false negative) 결정율을 최소화하기 위해 큰 버퍼와 비교적 낮은 임계값이 사용될 수 있다. 검출된 발진 주파수 후보가 거짓이면, 블록(24)의 제 2 및 최종 결정 프로세스는 주파수 도메인 제 1 단계 분석에 사용된 프레임 내의 서브 프레임상에서 실행되는 시간 도메인 알고리즘 분석의 결과를 되풀이해 사용하여 시간 도메인에서 수행된다.
블록(22)의 구현에서, 두 개의 연속적인 절차의 계산 부담을 감소시키기 위해 위너 엔트로피 또는 스펙트럼 평탄도가 사용된다. 입력 버퍼의 FFT는 다음과 같이 노이즈 감소에도 사용할 수 있다.
블록(24)의 구현에서, 피치 추정 알고리즘이 사용된다. 일 실시예에서, 피치 추정 알고리즘은 강건한 YIN 알고리즘에 기초한다. 추정 프로세스는 검출 전용 프로세스로 단순화될 수 있거나, 완전한 알고리즘이 연속적인 프레임들 사이에서 추정된 피치 값의 연속성을 보장하여 에러에 대해 알고리즘을 더욱 강건하게 만드는 데 사용될 수 있다.
프레임의 서브 프레임에 대한 연속적인 결정과 큰 프레임 사이의 중첩은 WEYIN(Wiener Entropy YIN) 알고리즘이라고하는 알고리즘의 정확도를 향상시킨다.
VAD에 대한 일 실시예에서, 방법은 블록(24)에서 시간-도메인에서 재분석될 잠재적인 피치 유성 프레임 후보를 검출하기 위해 블록(22)의 주파수 도메인에서 피처의 상이한 조합으로 수행될 수 있다.
위너 엔트로피는 다음과 같이 주어지며:
Figure pat00001
하기 관계를 이용해 계산될 수 있다:
Figure pat00002
를 이용해 계산될 수 있다.
이는 하기의 식에 이른다:
Figure pat00003
위너 엔트로피는 상이한 대역 Bi(i = 1, …, L)에서 계산될 수 있다. 따라서 후보 선택 프로세스는 L 스칼라량의 계산을 통해 수행된다:
Figure pat00004
, i = 1, …, L
상기 스칼라량은 임계값 결정 단계 후에 선택 프로세스로 전송된다.
Figure pat00005
일단 프레임이 음성 존재에 대한 후보로서 설계되면, 시간 도메인 검사가 블록(24)에서 시작된다. YIN 알고리즘은 길이(M)의 K 서브 프레임에 걸쳐 사용될 수 있어:
N = KM이 된다.
여기서,
N = 2L은 FFT를 사용할 수 있도록 스펙트럼 도메인에서 사용되며 2의 거듭 제곱이도록 선택된 프레임 길이다.
YIN 알고리즘은 피치 추정 알고리즘에서 피치 검출 알고리즘으로 바뀐다. 이를 위해, 주파수 대역[FP min , FP max ]은 시간 값 간격[τmin, τmax]으로 이어지는 최소 및 최대 예상 피치 주파수 값에 대응하여 정의된다:
Figure pat00006
Figure pat00007
여기서 Fs는 주파수 도메인에서 처리에 사용된 원래 샘플링 주파수의 일부일 수 있는 샘플링 주파수이며,
Figure pat00008
Figure pat00009
는 각각 바닥 및 천장 라운딩 연산자이다. 예를 들어 [FP min , FP max ] = [70, 400] Hz이고 Fs = 8 kHz인 경우 [τmin, τmax] = [20, 115]이다.
다음과 같은 시간 지연 래그의 매트릭스가 정의된다:
Figure pat00010
여기서 < >는 가장 가까운 정수 연산자로 반올림하고 (0 : m) =(0 1 2 … m-1 m)이다. 위의 예가 다시 고려된다:
Δ =
Figure pat00011
이 선택에 의해, YIN 차분 함수의 계산은 행렬 Δ의 제 1 및 제 2 행의 래그 값에 따라 수행될 것이다. 이 행렬의 첫 번째 열은 차분 함수 계산이 출발하는 상대 인덱스를 제공한다.
현재 프레임에서 일련의 차분 함수 값은 길이(H)의 연속 간격에 걸쳐 정의된다. 이들은 다음과 같이 정의된 행과 열의 수를 갖는 행렬로 구성된다:
Figure pat00012
YIN 계차행렬(dd)은 다음과 같은 일반 요소로 정의된다:
Figure pat00013
다음을 고려하라:
Figure pat00014
그리고 등식은 다음과 같다:
Figure pat00015
알고리즘은 다음과 같이 계산에 의해 재개된다:
Figure pat00016
그리고 최소값을 찾는다:
Figure pat00017
이는 하기의 임계치와 비교된다:
Figure pat00018
이 최소값이 임계값보다 작은 경우, 서브 프레임 i에 대한 스피치 프레즌스 βi = 1의 결정이 취해진다.
현재 프레임에서 연속적인 K 서브 프레임들에 대한 결정이 이루어지면, 과반수 투표로 진행하여 전체 프레임에 걸쳐 음성 존재를 결정한다:
K
Figure pat00019
여기서 Q는 K/2로 선택될 수 있지만 이에 국한되지 않는다.
일 실시예에서, 위너 엔트로피 단순화가 블록(22)에서 사용될 수 있다.
비용이 많이 들 수 있는 제곱근 벡터 연산
Figure pat00020
k)을 피하기 위해, 다음을 사용하도록 선택된다:
Figure pat00021
여기서,
Figure pat00022
이다.
도 8a는 음성 신호를 도시한다. 도 8b는 위너 엔트로피의 로그를 도시한다. 도 8c는 단순화된 위너 엔트로피의 로그를 도시한다. 결과는 단순화된 위너 엔트로피가 유성음의 유효한 지표임을 나타낸다.
일 실시예에서, Yin 단순화가 블록(24)에서 사용될 수 있다.
시간 도메인 부분의 경우, 다음 YIN 버전을 사용할 수 있다:
Figure pat00023
이 마지막 방정식에서, 제곱 차분 함수는 연산 수를 줄이기 위해 절대값으로 대체된다.
두 개의 연속 프레임 간에 J 샘플이 겹친다(음성 존재의 결정은 J 첫 번째 샘플에만 유효한다).
rk(i + 1)이 i + 1 시간에 행렬 ddi+i의 k 번째 행이면, 다음과 같다:
Figure pat00024
여기서 rm(i + 1)은 행렬 ddi+i의 m번째 행이고 ddi(2 : nRows, :)는 현재 프레임 i와 연관된 dd에서 2행에서 nRows까지 추출된 행렬이다.
이전 방정식에서 다음을 쉽게 추론할 수 있다:
Figure pat00025
또는
Ddi+1 = Ddi - r1(i) + rnRows(i+1).
따라서, 행의 합을 계산하기 전에 행렬(dd)의 모든 요소를 계산할 필요는 없다. 대신, 벡터 Dd(i)는 rnRows(i) 및 nnRows(i)를 계산하여 업데이트된다.
도 9는 노이즈 감지 아키텍처 시스템(50)과 결합된 음성 유무 탐지 아키텍처 시스템(30)에서의 방법(20) 구현의 개략도이다. 도 1에 도시된 바와 같이, 노이즈에 강한 음성 유무 감지(VAD)을 제공하기 위해, VAD(Voice Activity Detection) 아키텍처 시스템(30) 및 노이즈 감지 아키텍처 시스템(NS)(50)이 음성 인식 오디오 시스템(10)에 구현될 수 있다. 도 9를 참조하면, 입력 버퍼(31)는 입력 신호(29)를 수신한다. FFT(Fast Fourier Transform) 및 입력 버퍼(31)에서의 입력 신호(29)의 연결이 프레임(32)을 결정한다. 프레임(32)은 후보를 검출하기 위해 위너 엔트로피 모듈(33)에서 사용될 수 있다. 위너 엔트로피 모듈(33)은 도 7에 도시된 바와 같이 블록(22)를 수행한다.
도 9를 참조하면, 프레임(32)은 또한 연속적인 K 서브 프레임들(34)로 분할될 수 있다. 다운 샘플링 프로세스(35)는 YIN 피치 검출 모듈(36) 전에 서브 프레임들(34)에서 사용될 수 있다. YIN 피치 검출 모듈(36)은 도 7에 도시된 바와 같이 블록(24)을 수행한다. 도 9를 참조하면, 위너 엔트로피 모듈(33) 및 YIN 검출 모듈(36)은 결정 서브 프레임(37)을 결정한다. 결정 서브 프레임(37) 및 다른 서브 프레임(38)으로부터의 결정은 음성 존재 모듈(40)을 를 결정하기 전에 행오버 모듈(39)에 도입될 수 있다. 문장 내에서, 낮은 에너지를 갖는 영역을 찾을 수 있고 본 발명의 방법(20)은 이들을 비음성 프레임으로 간주할 수 있다. 방해가 너무 많으면 출력에서 청취가 성가실 수 있다. 행오버 모듈(39)을 사용함으로써 파열이 제거될 수 있다. 프레임(32)은 또한 노이즈 감지(NS) 아키텍처(50)로 전달될 수 있다.
도 10은 행오버 모듈(39)에서 사용될 수 있는 상태 머신(60)의 개략도이다. 행오버 모듈 출력에서 음성 존재를 나타내는 영구 상태(1)는 원(61)으로 도시되고 행오버 모듈 출력에서 음성 부재를 나타내는 영구 상태(0)는 원(63)으로 도시되어 있다. 원(61) 및 박스(64)와 원(63) 및 박스(65)로부터 나오는 각각의 화살표 결정(0 또는 1)은 프레임을 처리 한 후에 나온다. 결정이 이전의 결정과 동일한 경우, XY 또는 XN은 각각 음성 존재 또는 부재에 대해 누적된다. 그렇지 않은 경우, 초기값 0으로 재설정된다. 이러한 변수 중 하나가 NY 또는 NN과 같으면, 한 상태에서 다른 상태로 전환된다.
이 방법 또는 알고리즘에서 decVad는 도 9에 도시된 스피치 결정 모듈(40)에서 나오는 입력 결정으로 표시된다. 도 10의 상태 머신에서 위치 인덱스(idx)를 정의하고, 그 상태에 관련된 출력 결정(decHov) 값을 정의하면 state [0] = 0 및 state [l] = 1이 된다.
도 11 내지 도 13은 입력 버퍼 데이터가 위너 엔트로피 값에 미치는 영향을 도시한다. 도 11a, 12a 및 13a는 각각 128, 256 및 512의 버퍼 길이에서의 음성 신호를 도시한다. 도 11b, 12b 및 13b는 각각 128, 256 및 512의 버퍼 길이에서의 로그 위너 엔트로피를 도시한다. 도 11c, 12c 및 13c는 각각 128, 256 및 512의 버퍼 길이에서 단순화된 로그 위너 엔트로피를 도시한다. 입력 데이터 버퍼 길이를 증가시키는 것은 위너 엔트로피 곡선을 매끄럽게 하는 효과가 있음을 나타낸다.
일 실시예에서, 노이즈 감지(NS) 아키텍처(50)는 가능한 모든 노이즈 레벨에 대해 최적화되어 음악 노이즈의 발생을 가능한 많이 방지하면서 노이즈 감소(NR) 오디오 품질 출력을 제공한다. 노이즈 감지(NS)의 출력(51)은 도 14에 도시된 바와 같이 적응형 노이즈 감소(NR) 모듈(70)에 사용될 수 있다. 노이즈 에너지 감지 아키텍처 시스템(72)은 출력이 컴바이너(75)에 결합된 모듈(73) 및 노이즈 감소 모듈(74)로 노이즈를 추정하기 위해 사용된다. 노이즈의 양은 노이즈 감소(NR) 알고리즘 파라미터의 선택을 유도하는 노이즈 감소 모듈(74)에 의해 추정된다. 거리 계산 모듈(76)이 감지된 노이즈과 헤드폰(12) 사이의 거리를 결정할 수 있다.
거리 계산 모듈(76)로부터의 출력은 행오버 결정 모듈(77)에 사용된다. 노이즈 레벨 상태들 사이의 스위칭 주파수를 제어하기 위해, 3 개의 노이즈 레벨 상태를 노이즈, 중간 노이즈 및 노이즈 없음으로 정의했다. 음성 인식 오디오 시스템(10)은 갑작스럽거나 충동적인 노이즈로 전환되지 않는다. 적응형 노이즈 감소 모듈(78)은 노이즈를 감소시키기 위해 행오버 결정 모듈(77)로부터의 신호를 처리한다. 로우(raw) 신호(G1 80) 및 처리된 신호(82 G2) 모두가 믹서(84)에서 믹싱되어 깨끗한 신호(85)를 제공하고 적응형 볼록 선형 조합:
y = Gl xl + (1-G1)x2
으로 음성 유무 결정(VAD) 아키텍처 시스템(30)으로 전송된다.
여기서 xl은 로우 마이크로폰 입력이고 x2는 NR 모듈 출력이고 y는 VAD 모듈의 입력이다.
G1은 시간 또는 주파수 도메인에서 계산될 수 있는 RMS(root mean square) 값 ξ에 의존한다.
주변 노이즈를 최대로 줄이면서 음악 노이즈 및 오디오 아티팩트를 최소로 제한하기 위해 대상과 NR 알고리즘과 해당 내부 설정 파라미터를 조정할 수 있다.
일 실시예에서, 음성 인식 오디오 시스템(10)은 마이크로폰 어레이 및 예를 들어 4 채널 절차를 갖는 헤드폰(12)을 포함할 수 있다. 다중 채널 절차의 장점은 효율성을 높이는 혁신적인 피처를 제공한다는 것이다. 스피커가 공간에 국한되어 있기 때문에, 마이크로폰 어레이로의 음성 사운드의 전파는 확산 노이즈와 반대로 일관된 경로를 따른다. 일반적으로 한 마이크로폰에서 픽업된 음성은 두 번째 마이크로폰에 녹음된 음성의 지연 복제본이다. 도 15a-15c는 위상차 패턴을 도시한다. 이 신호는 4 채널 녹음용 마이크로폰 어레이의 첫 번째 트랙으로, 타이밍은 한 화자가 전면(약 2 초에서 약 6 초)에 있고 두 명의 화자는 전면과 후면에서 하나씩(약 6 초에서 약 10 초)있는 것으로 도시되어 있다. 도 15a와 같이, 입력 신호에 노이즈가 인위적으로 추가되었다. MLF와 MLB(브로드사이드)의 위상차는 도 15b에, MRF와 MRB(엔드-파이어) I의 위상차는 도 15c에 도시되어 있다. 화자가 존재하거나 부재할 때 위상차 패턴이 유사하게 보이지 않는 것이 두 어레이 모두에 도시되어 있다.
마이크로폰 어레이는 원하지 않는 방향에서 나오는 소리를 약화시키는 반면 선택된 방향에서 나오는 소리를 강화시키는 공간 필터 역할을 할 수 있다. 마이크로폰 어레이를 사용하면 음질을 개선하고 VAD 노이즈 강건성과 감지 정확도를 높일 수 있다.
도 16은 노이즈 신호를 수신하고 깨끗한 신호를 결정하는 노이즈 감지 아키텍처 시스템(50)을 포함하는 음성 인식 오디오 시스템(10)의 구현을 도시한다. 깨끗한 신호는 음성 유무 감지 아키텍처 시스템(30)에서 사용된다. 마이크로폰 어레이(100)는 로컬라이제이션 모듈(102) 및 빔 형성 모듈(104)과 함께 사용될 수 있다.
일단 마이크로폰 어레이(100)의 마이크로폰(15) 중 하나에서 음성이 한 방향으로 감지되면, 로컬라이제이션 모듈(102)은 화자의 도착 방향을 로컬화한다. 빔 포밍 모듈(104)은 마이크로폰이 결정된 방향으로 음성을 감지하도록 조정하고, 결과적으로 다른 방향으로부터 오는 노이즈를 감쇠시킨다. 빔 포밍 모듈(104)은 통계적으로 그리고 공간적으로 감쇠된 외부 노이즈과 함께, 도 6에 도시된 바와 같이, 헤드폰(12)의 스피커(17)에 전달되는 강화된 음성 신호를 제공한다.
다른 실시예에서, 노이즈는 모든 방향에서 나오고 있다. 예를 들어, 노이즈는 기차, 비행기, 보트 등 모든 방향에서 발생할 수 있으며, 여기서 노이즈는 주로 객실내 사운드 잔향으로 인해 정확한 도착 방향이 없는 모터 엔진에 주로 기인한다. 반대로, 관심있는 화자는 항상 공간의 단일 지점에 위치한다. 예를 들어 최대 몇 미터와 같은 화자의 근접성 때문에 잔향은 거의 문제가 되지 않는다.
도 17은 노이즈 신호를 수신하고 깨끗한 신호를 결정하는 노이즈 감지 아키텍처 시스템(50)을 포함하고 노이즈과 신호 간의 차이를 이용하기 위해 마이크로폰 어레이를 사용하는 음성 인식 오디오 시스템(10)의 구현을 도시한다. 노이즈 감소(NR) 모듈(70) 및 음성 유무 감지 아키텍처 시스템(30)과 병행하여, 예를 들어 전방 및 후방과 같은 다른 방향으로부터 오는 유입 신호가 빔 포밍 모듈(104)에서 수신되고 유사성 모듈(106)에서 비교된다. 화자가 존재하면, 화자를 동시에 여러 위치에 배치할 수 없다는 점을 고려하여 두 스펙트럼 간의 차이를 관찰해야 한다. 음성이 없으면, 헤드폰이 지향하는 방향에 상관없이 노이즈가 거의 동일하다는 것을 고려하여 스펙트럼들 간의 차가 낮은 것이 관찰될 수 있다. 유사성 모듈(106)에서 결정된 신호는 믹서(107)에서 유성 신호 및 음성 유무 감지 아키텍처 시스템(30)으로부터의 가능한 아티팩트와 결합될 수 있다. 이러한 유사성 기반 특징을 사용하는 것은 노이즈에 대한 강건성을 증가하기 위해 음성 유무 감지 아키텍처 시스템의 오경보를 제거하는데 도움을 줄 수 있다.
도 18은 다수의 화자가 사용자 주위에 배치되는 경우 원하지 않는 음성을 소거하는 것을 포함하는 음성 인식 오디오 시스템(10)의 구현을 도시한다. 사용자는 특정 방향(예를 들어, 정면)에서 한 명의 스피커와 대화하려고 한다. 마이크로폰 어레이(100)는 인식 영역(108)에 사용될 수 있어 단지 노이즈 감소(NR) 모듈(70)과 음성 유무 감지 아키텍처 시스템(30)으로 들어가기 전에 인식 영역에서 나오는 노이즈 신호로 신호를 전처리하기 위해 빔 형성 모듈(104)에서 바람직하지 않은 방향으로부터 오는 모든 신호를 제거한다.
음성 인식 오디오 시스템(10)은 높은 명료도를 보장하는 것이 바람직하다. 사용자가 외부 음성에 의해 방해됨에 따라, 음악 레벨을 일정하게 유지하고 외부 음성을 추가하는 동시에 사용자가 음성 메시지를 명확하게 들을 수 있도록 하는 것이 바람직한다. 이 장점은 음성 오경보 감지와 청취 조건을 모두 제어함으로써 달성할 수 있다. 음성 오경보는 음성 유무 감지 아키텍처 시스템(30)에 결정될 수 있다. 일 실시예에서, 본 발명은 음성 유무 감지 아키텍처 시스템(30)에 의해 감지된 외부 음성을 도 6에 도시된 바와 같이 헤드폰(12)으로부터 오는 음악과 믹싱을 제공한다.
헤드폰(12)에 의해 전달되는 화자 음성이 사용자에 의해 잘 이해되도록 하는 것이 바람직하다. 일 실시예에서, 음성이 감지되고 전송되는 동안 음악 사운드 레벨을 음소거하거나 적어도 감소시킨다. 음성 명료도를 향상시키기 위한 믹싱 전략은 적응형 스펙트럼 등화; 공간적 해리; 개별적으로 또는 함께 처리될 수 있는 공유 스튜디오 애드혹 처리를 포함할 수 있다.
음악과 믹싱된 음성 신호를 듣는 것은 특히 음악에 이미 음성 신호가 포함된 경우 명료도를 현저하게 떨어 뜨린다. 음성 기본 주파수에 대한 신호 대 노이즈비(SNR)를 증가시키면 음성 이해가 증가한다는 많은 출처들로부터 증거가 있다. 확장하여, 모든 고조파에 대한 SNR이 높을수록 더 좋다.
본 발명에서는 VAD(Voice Activity Detection) 아키텍처 시스템(30)으로부터 오는 음성 및 헤드폰(12)에서 사용자에 의해 재생되는 음악 모두에 대한 스펙트럼 및 시간 정보가 이용 가능하다. 일 실시예에서, 특히 기본 주파수 및 관련 고조파 대역에서 두 신호의 에너지가 비교될 수 있고, 음악과 비교시, 음성 유무 감지(VAD) 아키텍처 시스템(30)으로부터의 신호가 비교적 낮으면 상기 신호가 증가된다.
도 19는 적응형 스펙트럼 등화 방법(200)을 포함하는 음성 인식 오디오 시스템(10)의 구현을 도시한다. 음성이 감지될 때마다, 적응형 스펙트럼 등화 방법(200)이 수행될 수 있다. 블록(201)에서, 추정은 음악의 스펙트럼 밀도 출력으로 결정된다. 블록(202)에서, 추정은 화자의 스펙트럼 밀도 전력의 결정이다. 블록(203)에서, 블록(202)으로부터 화자의 기본 주파수 및 포먼트(formants)의 추정이 결정된다. 블록(204)에서, 각각의 스펙트럼 대역에 대한 음성 대 음악 비(VMR)를 결정하기 위해 블록(203)으로부터의 음성 포먼트와 음악 폼 블록(201) 사이에서 에너지 비가 계산된다. 블록(205)에서, FFT 기반 이퀄라이저(EQ)는 블록(204)에서 결정된 낮은 VMR을 갖는 대역에 적용된다.
도 20a는 명료도가 나쁜 음악 스펙트럼(302)과 비교하여 음성 스펙트럼(301)에 대한 출력 및 주파수의 그래프(300)를 도시한다. 음성 포먼트의 에너지가 블록(204)에 의해 결정된 음악에 비해 낮은 대역(304)에 대해, FFT 기반 이퀄라이저가 그것들을 향상시키기 위해 블록(205)에 적용된다. 도 20b는 개선 후 양호한 명료도를 갖는 음악 스펙트럼(302)과 비교하여 스피치 스펙트럼(301)에 대한 출력 및 주파수의 그래프(300)를 도시한다.
도 21a-21b는 공간적 해리(400)를 포함하는 음성 인식 오디오 시스템(10)의 구현을 도시한다. 이 전략은 일단 관심 신호가 감지되면, 이 신호는 내장된 마이크로폰 어레이를 사용하여 로컬화될 수 있다고 가정한다. 예를 들어, 교차상관 기반 방법을 통해, 도 21a는 위치(402)에서의 모노 음성 및 위치(403)에서의 스테레오 음악에 있어서의 명료도가 좋지 않다는 것을 도시한다. 화자 도착 방향에 따라, HRTF 기반 필터는 음성 유무 감지(VAD)(30)에 의해 전달된 신호에 적용되어 실제 화자 위치에 따라 이를 외부화한다(3D 효과).
이는 사용자(401)가 공간에서 사운드 신호를 분리할 수 있게 한다. 도 20b에 도시된 바와 같이, 양호한 명료도를 나타내는 음악은 위치(406)에서 헤드의 중심에서 인식되는 반면, 음성은 위치(404)에서 헤드의 외부에서 인식될 것이다. 동시에, 음악은 일시적으로 스테레오에서 모노로 전환될 수 있다. 공간적 청력을 회복시킴으로써 음성의 명료도가 크게 증가되는 것으로 알려져 있다.
도 22는 음악과 믹싱시 음성의 존재를 높이기 위해 압축 기반 처리(500)를 포함하고, 애드혹 처리 알고리즘이 사용될 수 있는 음성 인식 오디오 시스템(10)의 구현을 도시한다. 블록(501)에서, 음성 신호가 복제되고 압축된 다음, 압축된 신호가 원래의 음성 신호로 복제된다. 블록(502)에서, 광 포화가 결과 신호에 적용된다. 블록(503)에서, 애드혹 이퀄라이저가 적용된다.
블록(501)에서, 압축은 음소 간 강도 차이를 감소시켜, 시간적 마스킹이 감소되고 음성 음량이 증가된다. 압축된 음성 신호와 원래 음성 신호를 모두 합쳐서 음성이 여전히 자연스럽게 들립니다. 블록(502)은 더 많은 고조파를 제공한다. 예를 들어, 기본 주파수(F0) 뿐만 아니라 Fl 및 F2 고조파 정보는 모음 식별 및 자음 인식에 매우 중요하다. 블록(503)은 저주파 노이즈를 제거하고 관심 주파수 대역, 예를 들어, -18dB 로우 컷/최대 70Hz까지 옥타브, 약 250Hz에서 -3dB, 약 500Hz에서 -2dB, 약 3.3kHzB에서 +2.5dB, 약 10kHz에서 + 7dB을 증가시켜 음성 신호를 소거하는 것을 목표로 한다.
도 23a는 음성 신호(601)의 이득(602)이 드라이버에게 입력(606)을 제공하기 위해 믹서(605)에서 음악 신호(604)와 결합된 나쁜 명료도를 도시한다. 도 23b는 압축 기반 처리(500)를 구현하는 시스템(600)을 도시한다. 음성 신호(601)는 압축 신호를 제공하기 위해 압축 모듈(607)에 적용된다. 압축 신호는 믹서(608)에서 음성 신호(601)의 이득(602)과 결합된다. 믹서(608)의 출력이 포화 모듈(609)에 적용되어 블록(502) 및 등화 모듈(610)의 광 포화를 수행하여 애드혹 이퀄라이저에 적용한다. 등화 모듈(610)의 출력은 믹서(612)에서 음악 신호(604)와 결합되어 입력(614)을 드라이버에 제공한다.
본 발명의 노이즈에 강한 VAD 방법 또는 알고리즘은 선택 후 검사 전략 접근법을 사용한다. 첫 번째 단계는 노이즈의 영향을 줄일 수 있는 비교적 큰 입력 버퍼를 사용하여 주파수 도메인에서 수행된다. 유성 음성 신호 존재는 다중 대역 위너 엔트로피 특징을 통해 감지되고 고전적 위너 엔트로피의 특성을 손상시키지 않으면서 계산 복잡성을 줄일 수 있는 방법을 보여준다.
알고리즘의 두 번째 부분은 피치 추정이 간단한 검출로 대체된 YIN 알고리즘의 단순화된 버전으로 시간 도메인에서 수행된다. 계산 복잡성을 더욱 감소시키기 위해, 전통적인 제곱 차 대신에 절대값 차가 사용된다. 이 알고리즘은 전체 입력 프레임을 따라 연속적인 서브 프레임에서 실행된다.
본 발명은 조절 가능한 사운드 인식 구역 시스템의 유도를 제공한다: 입력 신호의 진폭 및 사용자와 먼 외부 음성을 구별하는 것을 돕는 일부 특징을 사용하여, 시스템은 사용자가 사용자의 머리 주위에 구 영역을 정의할 수 있게 하고, 상기 영역에서 VAD 알고리즘에 의해 정상 음성이 취해질 수 있다. 사용자가 이 구 외부에서 정상적인 음성 볼륨으로 이야기하는 경우, 시스템은 이를 거부할 것이다.
본 발명은 노이즈 감지 시스템의 유도를 제공한다.
VAD 및 어레이 처리 알고리즘과 같은 다른 주요 모듈뿐만 아니라 노이즈 감소 방법 또는 알고리즘은 이들의 내부 설정이 조용한 상황에서 매우 시끄러운 상황에 이르기까지 가능한 모든 노이즈 레벨을 쉽게 처리할 수 없다는 사실로 인해 어려움을 겪을 수 있다. 본 시스템의 성능을 향상시키기 위해, 본 발명의 노이즈 감지 메커니즘이 도출되고, 본 발명의 시스템에서의 통합이 노이즈 감소 및 VAD 알고리즘의 성능을 크게 개선시키는 방법이 도시되어 있다. 실제로, 노이즈 감지는 다음과 같이 상호 활발히 관련있는 모듈을 포함하여 자체 조절 가능한 내부 파라미터로 재구성 가능한 알고리즘 아키텍처를 허용한다: VAD; 노이즈 감소; 마이크로폰 어레이 시스템을 이용한 음성 로컬리제이션과 빔 포밍; 및 다른 알고리즘의 계산 복잡도 감소.
본 발명은 계산 복잡성 부담이 어떻게 현저하게 감소될 수 있는지를 보여준다. 이는 전력 소비를 줄이거나 추가 처리를 위한 더 많은 공간을 제공한다. 본 발명은 음성 명료도를 증가시키면서 음악 볼륨을 일정하게 유지하는 제약 조건 하에서 수행되는 오디오 믹싱 방식의 도출을 제공한다.
본 발명의 대안적인 실시예는 사전 프로그램된 하드웨어 요소, 다른 관련 구성요소, 또는 하드웨어 프로세서를 포함하는 하드웨어 및 소프트웨어 구성요소의 조합으로서 구현될 수 있다. 본 발명의 실시예는 하드웨어 및/또는 소프트웨어 구성요소 둘 다, 또는 처리 능력을 갖도록 적응된 특수용 또는 범용 컴퓨터를 포함하는 특수용 또는 범용 프로세서 장치와 관련하여 구현될 수 있다.
실시예는 또한 컴퓨터 실행 가능 명령어, 데이터 구조 및/또는 그 위에 저장된 데이터 신호를 수록하거나 갖는 물리적 컴퓨터 판독 가능 매체 및/또는 무형 컴퓨터 판독 가능 매체를 포함할 수 있다. 이러한 물리적 컴퓨터 판독 가능 매체 및/또는 무형 컴퓨터 판독 가능 매체는 범용 또는 특수용 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있다. 예로서, 비제한적으로, 이러한 물리적 컴퓨터 판독 가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 저장 장치, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 다른 반도체 저장 매체 또는 컴퓨터 실행 가능 명령어, 데이터 구조 및/또는 데이터 신호의 형태로 원하는 데이터를 저장하는데 사용될 수 있고, 범용 또는 특수용 컴퓨터에 의해 액세스될 수 있는 임의의 다른 물리적 장치를 포함할 수 있다. 범용 또는 특수용 컴퓨터 내에서, 무형 컴퓨터 판독 가능 매체는 예를 들어 컴퓨터에 상주하는 회로를 통해 컴퓨터의 한 부분으로부터 다른 부분으로 데이터 신호를 전달하기 위한 전자기 수단을 포함할 수 있다.
정보가 네트워크를 통해 또는 다른 통신 연결(유선, 무선 또는 유선이나 무선의 조합)을 통해 컴퓨터로 전송되거나 제공될 경우, 컴퓨터 실행 가능 명령어, 데이터 구조 및/또는 데이터 신호를 송수신하기 위한 하드와이어드 장치(예를 들어, 와이어, 케이블, 광섬유, 전자회로, 화학 물질 등)는 물리적 컴퓨터 판독 가능 매체로 적절하게 보아야 하지만, 컴퓨터 실행 가능 명령어, 데이터 구조, 및/또는 데이터 신호(예를 들어, 무선 통신, 위성 통신, 적외선 통신 등)를 송수신하기 위한 무선 캐리어 또는 무선 매체는 무형의 컴퓨터 판독 가능 매체로서 적절하게 보여야 한다. 상기의 조합은 또한 컴퓨터 판독 가능 매체의 범위 내에 포함되어야 한다.
컴퓨터 실행 가능 명령어는 예를 들어, 범용 컴퓨터, 특수용 컴퓨터 또는 특수용 처리 장치로 하여금 특정 기능 또는 기능 그룹을 수행하게 하는 명령어, 데이터 및/또는 데이터 신호를 포함한다. 필요하지는 않지만, 본 발명의 태양이 네트워크 환경 및/또는 비네트워크 환경에서 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행 가능 명령어와 관련해 본 명세서에 설명되었다. 일반적으로, 프로그램 모듈에는 특정 작업을 수행하거나 특정 추상 컨텐트 유형을 구현하는 루틴, 프로그램, 객체, 구성요소 및 컨텐츠 구조가 포함된다. 컴퓨터 실행 가능 명령어, 관련 컨텐츠 구조 및 프로그램 모듈은 본 명세서에 개시된 방법의 태양을 실행하기 위한 프로그램 코드의 예를 나타낸다.
실시예는 또한 본 발명의 시스템에서 사용하기 위한 컴퓨터 프로그램 제품을 포함할 수 있고, 컴퓨터 프로그램 제품은 컴퓨터 판독 가능 프로그램 코드가 저장된 물리적 컴퓨터 판독가능 매체를 가지며, 컴퓨터 판독 가능 프로그램 코드는 프로세서에 의한 실행시 시스템이 본 발명의 방법을 수행하게 하는 컴퓨터 실행 가능 명령어를 포함한다.
상술한 실시예는 본 발명의 원리의 응용을 나타낼 수 있는 많은 가능한 특정 실시예 중 일부만을 예시하는 것으로 이해되어야 한다. 본 발명의 기술사상 및 범위를 벗어나지 않고 당업자에 의해 이들 원리에 따라 다수의 다양한 다른 구성이 용이하게 고안될 수 있다.

Claims (18)

  1. 오디오 소스로부터 오디오 데이터를 수신하도록 구성된 헤드폰;
    외부 사운드 환경에서 외부 음파를 감지하고 외부 음파에 대한 외부 사운드 신호를 생성하도록 구성되는 마이크로폰 어레이;
    외부 음파에 대한 외부 사운드 신호가 관심 신호인지를 결정하도록 구성되는 분석기 모듈;
    외부 음파에 대한 외부 사운드 신호가 관심 신호인 것으로 결정되면, 믹싱된 신호를 생성하기 위하여 오디오 소스로부터의 오디오 데이터에 기반하여 외부 음파에 대한 외부 사운드 신호를 오디오 신호와 믹싱하도록 구성되는 믹서; 및
    믹싱된 신호에 기반하여 출력 사운드를 생성하도록 구성되는 하나 이상의 스피커를 포함하고,
    분석기 모듈은 적어도 관심 신호가 음성 신호를 포함하는 것으로 결정되는 경우, 외부 음파에 대한 외부 사운드 신호에 적응 스펙트럼 이퀄라이제이션을 사용하도록 더 구성되고,
    조절 가능한 사운드 인식 구역이 헤드폰 주위에 정의되고, 분석기 모듈은 외부 음파가 원하는 방향 내에 있을 때 외부 음파에 대한 외부 사운드 신호가 관심 신호인 것으로 결정하도록 더 구성되고, 음성 인식 시스템은 원하지 않은 방향에서 나오는 원치 않는 음파를 제거하고 원하는 방향에서 나오는 원하는 음파를 캡처하도록 구성되고,
    분석기 모듈은 발진 주파수 후보를 선택하기 위하여 주파수 도메인에서 및 발진 주파수 후보가 관심 신호인지를 결정하기 위해 시간 도메인에서 외부 음파에 대한 외부 사운드 신호를 분석하도록 더 구성되고,
    분석기 모듈은 외부 음파에 대한 외부 사운드 신호를 수신하고, 입력 프레임을 생성하기 위해 주파수 도메인에서 외부 음파에 대한 외부 사운드 신호의 FFT를 사용하며, 시간 도메인에서 입력 프레임과 함께 서브 프레임을 재귀적으로 사용하도록 더 구성되는 음성 인식 오디오 시스템.
  2. 제 1 항에 있어서,
    분석기 모듈은 주파수 도메인에서, 위너 엔트로피 또는 단순화된 위너 엔트로피를 사용하도록 더 구성되는 음성 인식 오디오 시스템.
  3. 제 1 항에 있어서,
    분석기 모듈은 시간 도메인에서, 피치 추정 또는 YIN 알고리즘을 사용하도록 더 구성되는 음성 인식 오디오 시스템.
  4. 제 1 항에 있어서,
    분석기 모듈은 주파수 도메인에서, 외부 사운드 환경에서의 노이즈 레벨을 추정하고 노이즈 레벨에 기반하여 음성 인식 오디오 시스템을 튜닝하기 위해 노이즈 감소 알고리즘을 사용하도록 더 구성되는 음성 인식 오디오 시스템.
  5. 제 1 항에 있어서,
    분석기 모듈은 시간 도메인에서 결정된 관심 신호에서 음성 존재 또는 음성 부재를 결정하도록 구성되는 행오버 모듈을 더 포함하는 음성 인식 오디오 시스템.
  6. 제 1 항에 있어서,
    조절 가능한 사운드 인식 구역이 헤드폰 주위에 정의되고, 조절 가능한 사운드 인식 구역은 하나 이상의 튜닝 영역들을 가지며,
    분석기 모듈은 외부 음파가 하나 이상의 튜닝 영역들 중 미리 결정된 하나 내에 있을 때 외부 음파에 대한 외부 사운드 신호가 관심 신호인 것으로 결정하도록 더 구성되는 음성 인식 오디오 시스템.
  7. 제 1 항에 있어서,
    오디오 신호는 음악 신호를 포함하는 음성 인식 오디오 시스템.
  8. 제 1 항에 있어서,
    마이크로폰 어레이는 선택된 방향으로부터 나오는 오디오 음파를 감쇠 또는 증폭시키도록 스티어링되며, 마이크로폰 어레이의 마이크로폰은 외부 사운드 환경의 360°오디오 이미지를 달성하도록 다양한 방향으로 물리적으로 지향되는 음성 인식 오디오 시스템.
  9. 오디오 소스로부터 오디오 데이터를 수신하는 단계;
    마이크로폰 어레이로 외부 사운드 환경에서 외부 음파를 감지하는 단계;
    외부 음파에 대한 외부 사운드 신호를 생성하는 단계;
    외부 음파에 대한 외부 사운드 신호가 관심 신호인지를 결정하는 단계;
    적어도 관심 신호가 음성 신호를 포함하는 것으로 결정되는 경우, 외부 음파에 대한 외부 사운드 신호에 적응 스펙트럼 이퀄라이제이션을 사용하는 단계;
    외부 음파에 대한 외부 사운드 신호가 관심 신호인 것으로 결정되는 경우, 믹싱된 신호를 생성하기 위하여 오디오 소스로부터의 오디오 데이터에 기반하여 외부 음파에 대한 외부 사운드 신호를 오디오 신호와 믹싱하는 단계; 및
    믹싱된 신호에 기반하여 출력 사운드를 생성하는 단계를 포함하고,
    조절 가능한 사운드 인식 구역이 헤드폰 주위에 정의되고, 외부 음파에 대한 외부 사운드 신호가 관심 신호인지를 결정하는 단계는 외부 음파가 원하는 방향 내에 있을 때 외부 음파에 대한 외부 사운드 신호가 관심 신호인지 여부를 결정하는 단계를 포함하고, 원하지 않은 방향에서 나오는 원치 않는 음파를 제거하는 단계 및 원하는 방향에서 나오는 원하는 음파를 캡처하는 단계를 더 포함하고,
    방법은 발진 주파수 후보를 선택하기 위하여 주파수 도메인에서 및 발진 주파수 후보가 관심 신호인지를 결정하기 위해 시간 도메인에서 외부 음파에 대한 외부 사운드 신호를 분석하는 단계를 더 포함하고,
    주파수 도메인에서 분석하는 단계는 위너 엔트로피 또는 단순화된 위너 엔트로피를 사용하는 단계를 포함하는 방법.
  10. 제 9 항에 있어서,
    시간 도메인에서 분석하는 단계는 피치 추정 또는 YIN 알고리즘을 사용하는 단계를 포함하는 방법.
  11. 제 9 항에 있어서,
    시간 도메인에서 결정된 관심 신호에서 음성 존재 또는 음성 부재를 결정하는 단계를 더 포함하는 방법.
  12. 제 9 항에 있어서,
    외부 사운드 환경에서 노이즈 레벨을 추정하는 단계; 및
    외부 음파에 대한 외부 사운드 신호가 관심 신호인지 여부를 결정하기 위해 노이즈 레벨에 기반하여 튜닝하는 단계를 더 포함하는 방법.
  13. 제 9 항에 있어서,
    조절 가능한 사운드 인식 구역을 헤드폰 주위에 정의하는 단계;
    외부 음파가 하나 이상의 튜닝 영역들 중 미리 결정된 하나 내에 있을 때 외부 음파에 대한 외부 사운드 신호가 관심 신호인 것으로 결정하는 단계를 더 포함하고,
    조절 가능한 사운드 인식 구역은 하나 이상의 튜닝 영역들을 가지는 방법.
  14. 제 9 항에 있어서,
    적어도 하나의 마이크로폰은 마이크로폰 어레이이고,
    사운드의 방향을 로컬화하고 로컬화된 방향을 향하여 마이크로폰 어레이를 스티어링하는 단계를 더 포함하는 방법.
  15. 제 9 항에 있어서,
    마이크로폰 어레이 중 제1 마이크로폰으로부터의 외부 음파에 대한 외부 사운드 신호의 제1 인스턴스를 캡처하고 마이크로폰 어레이 중 제2 마이크로폰으로부터의 외부 음파에 대한 외부 사운드 신호의 제2 인스턴스를 캡처하는 단계; 및
    제1 마이크로폰으로부터의 외부 음파에 대한 외부 사운드 신호의 제1 인스턴스와 제2 마이크로폰으로부터의 외부 음파에 대한 외부 사운드 신호의 제2 인스턴스를 비교하는 단계를 더 포함하고,
    비교가 조건을 충족하는 경우 신호를 믹싱하는 단계를 수행하는 방법.
  16. 제 9 항에 있어서,
    조절 가능한 사운드 인식 구역에서 원하지 않은 방향으로부터 오는 원치 않는 외부 음파에 대한 원치 않는 사운드 신호를 제거하는 단계를 더 포함하는 방법.
  17. 제 9 항에 있어서,
    오디오 신호는 음악 신호를 포함하고,
    외부 음파에 대한 외부 사운드 신호의 스펙트럼 밀도 출력을 추정하는 단계;
    음성 포먼트를 결정하기 위하여 음성의 기본 주파수를 추정하는 단계;
    복수의 스펙트럼 대역 각각에 대한 VMR(voice-to-music ratio)을 결정하기 위하여 음성 포먼트와 음악 신호의 스펙트럼 밀도 출력 간의 에너지 비율을 계산하는 단계; 및
    미리 결정된 VMR으로 복수의 스펙트럼 대역에 FFT 기반 이퀄라이저(EQ)를 적용하는 단계를 더 포함하는 방법.
  18. 프로세서로 하여금 외부 사운드 환경의 사운드를 오디오 소스로부터의 오디오와 믹싱하도록 야기하기 위한 프로그램 명령어를 저장하는 비일시적 컴퓨터 판독가능한 저장 매체로서, 프로그램 명령어는:
    오디오 소스로부터 오디오 데이터를 수신하기 위한 프로그램 코드;
    마이크로폰 어레이로 외부 사운드 환경에서 외부 음파를 감지하기 위한 프로그램 코드;
    외부 음파에 대한 외부 사운드 신호를 생성하기 위한 프로그램 코드;
    외부 음파에 대한 외부 사운드 신호가 관심 신호인지를 결정하기 위한 프로그램 코드;
    원치 않는 방향에서 나오는 원치 않는 음파를 제거하기 위한 프로그램 코드;
    원하는 방향에서 나오는 원하는 음파를 캡처하기 위한 프로그램 코드;
    적어도 관심 신호가 음성 신호를 포함하는 것으로 결정되는 경우, 외부 음파에 대한 외부 사운드 신호에 적응 스펙트럼 이퀄라이제이션을 사용하기 위한 프로그램 코드; 및
    외부 음파에 대한 외부 사운드 신호가 관심 신호인 것으로 결정될 때 믹싱된 신호를 생성하기 위하여 오디오 소스로부터의 오디오 데이터에 기반하여 외부 음파에 대한 외부 사운드 신호를 오디오 신호와 믹싱하기 위한 프로그램 코드를 포함하고,
    조절 가능한 사운드 인식 구역이 헤드폰 주위에 정의되고, 외부 음파에 대한 외부 사운드 신호가 관심 신호인지를 결정하기 위한 프로그램 코드는 외부 음파가 원하는 방향 내에 있을 때를 결정하기 위한 프로그램 코드를 포함하고,
    프로그램 명령어는 발진 주파수 후보를 선택하기 위하여 주파수 도메인에서 및 발진 주파수 후보가 관심 신호인지를 결정하기 위해 시간 도메인에서 외부 음파에 대한 외부 사운드 신호를 분석하기 위한 프로그램 코드를 더 포함하고,
    주파수 도메인에서 분석하는 것은 위너 엔트로피 또는 단순화된 위너 엔트로피를 사용하는 것을 포함하는 비일시적 컴퓨터 판독가능한 저장 매체.
KR1020237001944A 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법 KR20230015513A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247006481A KR20240033108A (ko) 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201762595627P 2017-12-07 2017-12-07
US62/595,627 2017-12-07
US16/213,469 2018-12-07
US16/213,469 US11074906B2 (en) 2017-12-07 2018-12-07 Voice aware audio system and method
PCT/IB2018/001503 WO2019111050A2 (en) 2017-12-07 2018-12-07 Voice aware audio system and method
KR1020207019207A KR102491417B1 (ko) 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020207019207A Division KR102491417B1 (ko) 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247006481A Division KR20240033108A (ko) 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20230015513A true KR20230015513A (ko) 2023-01-31

Family

ID=67542364

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020207019207A KR102491417B1 (ko) 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법
KR1020237001944A KR20230015513A (ko) 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법
KR1020247006481A KR20240033108A (ko) 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020207019207A KR102491417B1 (ko) 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020247006481A KR20240033108A (ko) 2017-12-07 2018-12-07 음성인식 오디오 시스템 및 방법

Country Status (4)

Country Link
US (2) US11074906B2 (ko)
EP (1) EP3721429A2 (ko)
KR (3) KR102491417B1 (ko)
CN (1) CN112424863B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102579909B1 (ko) * 2017-12-29 2023-09-18 하만인터내셔날인더스트리스인코포레이티드 원단 원격통신을 위한 승객실 내 음향 잡음 소거 시스템
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
US11252497B2 (en) * 2019-08-09 2022-02-15 Nanjing Zgmicro Company Limited Headphones providing fully natural interfaces
US11482236B2 (en) * 2020-08-17 2022-10-25 Bose Corporation Audio systems and methods for voice activity detection
US11783809B2 (en) * 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier
EP4324216A1 (en) * 2021-04-15 2024-02-21 Acezone ApS Gaming headset with active noise cancellation
CN113270106B (zh) * 2021-05-07 2024-03-15 深圳市友杰智新科技有限公司 双麦克风的风噪声抑制方法、装置、设备及存储介质
US11553286B2 (en) * 2021-05-17 2023-01-10 Bose Corporation Wearable hearing assist device with artifact remediation
CN114363770B (zh) * 2021-12-17 2024-03-26 北京小米移动软件有限公司 通透模式下的滤波方法、装置、耳机以及可读存储介质
CN117644870B (zh) * 2024-01-30 2024-03-26 吉林大学 一种基于情景感知的驾驶焦虑检测与车辆控制方法及系统

Family Cites Families (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5257420A (en) 1992-07-31 1993-11-02 Hearz, Inc. Earmuffs for use with headphones
AU748113B2 (en) * 1998-11-16 2002-05-30 Board Of Trustees Of The University Of Illinois, The Binaural signal processing techniques
CN2528177Y (zh) 2001-05-16 2002-12-25 明碁电通股份有限公司 具有随身听与通信功能的耳机
JP2003023479A (ja) 2001-07-10 2003-01-24 Sharp Corp 携帯無線端末
US7680665B2 (en) * 2001-08-24 2010-03-16 Kabushiki Kaisha Kenwood Device and method for interpolating frequency components of signal adaptively
US6888950B2 (en) 2002-07-02 2005-05-03 Jovid Designs, Llc Ear warming article including electronic device and easily interchangeable advertising areas
WO2004012477A2 (en) 2002-07-26 2004-02-05 Oakley, Inc. Wireless interactive headset
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
AU2003283892A1 (en) * 2002-11-27 2004-06-18 Visual Pronunciation Software Limited A method, system and software for teaching pronunciation
US7212645B2 (en) 2003-08-12 2007-05-01 180S, Inc. Ear warmer with a speaker system
US7099821B2 (en) 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US7412070B2 (en) 2004-03-29 2008-08-12 Bose Corporation Headphoning
EP1619793B1 (en) * 2004-07-20 2015-06-17 Harman Becker Automotive Systems GmbH Audio enhancement system and method
CN101057291B (zh) 2004-11-12 2012-05-09 皇家飞利浦电子股份有限公司 经过耳机装置用于共享内容的设备和方法
US20060205349A1 (en) 2005-03-08 2006-09-14 Enq Semiconductor, Inc. Apparatus and method for wireless audio network management
US7742758B2 (en) 2005-08-19 2010-06-22 Callpod, Inc. Mobile conferencing and audio sharing technology
WO2007098793A1 (en) 2006-03-03 2007-09-07 Sony Ericsson Mobile Communications Ab Headset for use with a communication and/or multimedia device
GB2452184A (en) 2006-05-29 2009-02-25 Bitwave Pte Ltd Wireless hybrid headset
KR100782083B1 (ko) 2006-10-11 2007-12-04 삼성전자주식회사 휴대 단말기의 소리 재생 시스템 및 그 운용 방법
US7697922B2 (en) 2006-10-18 2010-04-13 At&T Intellectual Property I., L.P. Event notification systems and related methods
US8660040B1 (en) 2006-12-27 2014-02-25 Rockstar Consortium Us Lp Bifurcated conferencing functions
US20080157991A1 (en) 2007-01-03 2008-07-03 International Business Machines Corporation Remote monitor device with sensor to control multimedia playback
US7949300B2 (en) 2007-01-22 2011-05-24 Jook, Inc. Wireless sharing of audio files and related information
US7817960B2 (en) 2007-01-22 2010-10-19 Jook, Inc. Wireless audio sharing
WO2008091874A2 (en) 2007-01-22 2008-07-31 Personics Holdings Inc. Method and device for acute sound detection and reproduction
US20080177765A1 (en) 2007-01-22 2008-07-24 Jook, Inc. Profile management method and system
US7908442B2 (en) 2007-01-22 2011-03-15 Jook, Inc. Memory management method and system
US8094046B2 (en) * 2007-03-02 2012-01-10 Sony Corporation Signal processing apparatus and signal processing method
US8098842B2 (en) * 2007-03-29 2012-01-17 Microsoft Corp. Enhanced beamforming for arrays of directional microphones
EP2208071B1 (en) 2007-10-05 2012-08-01 Becton, Dickinson and Company Method for diagnosing diseases
US8340058B2 (en) 2007-10-29 2012-12-25 Nvidia Corporation Headphone with enhanced voice communication
WO2009086599A1 (en) 2008-01-07 2009-07-16 Avega Systems Pty Ltd A user interface for managing the operation of networked media playback devices
US8055307B2 (en) 2008-01-18 2011-11-08 Aliphcom, Inc. Wireless handsfree headset method and system with handsfree applications
US8103029B2 (en) * 2008-02-20 2012-01-24 Think-A-Move, Ltd. Earset assembly using acoustic waveguide
US20090257615A1 (en) 2008-04-15 2009-10-15 Bayer Jr Lawrence J Headwear
EP2321981A1 (en) * 2008-08-04 2011-05-18 Audigence, Inc. Automatic performance optimization for perceptual devices
US8811629B1 (en) 2013-09-09 2014-08-19 Voyetra Turtle Beach, Inc. Automatic volume control for combined game and chat audio
US8498426B2 (en) 2008-08-18 2013-07-30 Voyetra Turtle Beach, Inc Headphone system for computer gaming
US20100048134A1 (en) 2008-08-19 2010-02-25 Mccarthy Randall T Wireless communication system and communication method with wireless headset
AU2009287421B2 (en) * 2008-08-29 2015-09-17 Biamp Systems, LLC A microphone array system and method for sound acquisition
JP4883103B2 (ja) * 2009-02-06 2012-02-22 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
CN101640552A (zh) 2009-04-30 2010-02-03 旭丽电子(广州)有限公司 蓝牙装置
KR101689339B1 (ko) * 2009-06-02 2016-12-23 코닌클리케 필립스 엔.브이. 이어폰 구조체 및 그 작동 방법
US20100308999A1 (en) 2009-06-05 2010-12-09 Chornenky Todd E Security and monitoring apparatus
JP2011199387A (ja) * 2010-03-17 2011-10-06 Sony Corp データ処理装置、及び、データ処理方法
WO2011131823A1 (en) 2010-04-23 2011-10-27 Nokia Corporation An apparatus and a method for causing a change in the state of a headset
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
KR101492751B1 (ko) 2010-08-27 2015-02-11 노키아 코포레이션 원치 않는 사운드들을 제거하는 마이크로폰 장치 및 방법
WO2012040386A1 (en) 2010-09-21 2012-03-29 4Iiii Innovations Inc. Head-mounted peripheral vision display systems and methods
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US8879748B2 (en) 2011-03-15 2014-11-04 Microsoft Corporation Multi-protocol wireless audio client device
EP3419258A1 (en) 2011-09-28 2018-12-26 Sony Ericsson Mobile Communications AB Controlling power for a headset
US9661442B2 (en) 2011-11-01 2017-05-23 Ko-Chang Hung Method and apparatus for transmitting digital contents
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
WO2013085499A1 (en) * 2011-12-06 2013-06-13 Intel Corporation Low power voice detection
US8995679B2 (en) 2011-12-13 2015-03-31 Bose Corporation Power supply voltage-based headset function control
US9548854B2 (en) 2012-04-13 2017-01-17 Dominant Technologies, LLC Combined in-ear speaker and microphone for radio communication
US9143309B2 (en) 2012-04-13 2015-09-22 Dominant Technologies, LLC Hopping master in wireless conference
US10497381B2 (en) * 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
US9949205B2 (en) 2012-05-26 2018-04-17 Qualcomm Incorporated Smart battery wear leveling for audio devices
US20130339859A1 (en) 2012-06-15 2013-12-19 Muzik LLC Interactive networked headphones
CN104704560B (zh) * 2012-09-04 2018-06-05 纽昂斯通讯公司 共振峰依赖的语音信号增强
US9020160B2 (en) 2012-11-02 2015-04-28 Bose Corporation Reducing occlusion effect in ANR headphones
US9391580B2 (en) 2012-12-31 2016-07-12 Cellco Paternership Ambient audio injection
US9270244B2 (en) * 2013-03-13 2016-02-23 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness
US9414145B2 (en) 2013-03-15 2016-08-09 Skullcandy, Inc. Customizable headphone audio driver assembly, headphone including such an audio driver assembly, and related methods
US20140273851A1 (en) 2013-03-15 2014-09-18 Aliphcom Non-contact vad with an accelerometer, algorithmically grouped microphone arrays, and multi-use bluetooth hands-free visor and headset
US9219647B2 (en) 2013-03-15 2015-12-22 Eyecam, LLC Modular device and data management system and gateway for a communications network
CN103414982B (zh) 2013-07-31 2018-02-13 小米科技有限责任公司 一种提供声音的方法和装置
US9180055B2 (en) 2013-10-25 2015-11-10 Harman International Industries, Incorporated Electronic hearing protector with quadrant sound localization
CN103686516A (zh) 2013-12-11 2014-03-26 乐视致新电子科技(天津)有限公司 一种可共享音频的蓝牙耳机及其控制方法
US9681246B2 (en) 2014-02-28 2017-06-13 Harman International Industries, Incorporated Bionic hearing headset
US9674599B2 (en) 2014-03-07 2017-06-06 Wearhaus, Inc. Headphones for receiving and transmitting audio signals
US20150294662A1 (en) 2014-04-11 2015-10-15 Ahmed Ibrahim Selective Noise-Cancelling Earphone
CN104038860A (zh) * 2014-07-01 2014-09-10 深圳智我科技有限公司 一种免摘除收听近距离语音的方法和耳机
CN104053253A (zh) 2014-07-21 2014-09-17 深圳奇沃智联科技有限公司 可互连之Wi-Fi智能耳机组件及其所架构之互连网络
US10497353B2 (en) 2014-11-05 2019-12-03 Voyetra Turtle Beach, Inc. Headset with user configurable noise cancellation vs ambient noise pickup
US9693375B2 (en) 2014-11-24 2017-06-27 Apple Inc. Point-to-point ad hoc voice communication
US9622013B2 (en) 2014-12-08 2017-04-11 Harman International Industries, Inc. Directional sound modification
ES2910023T3 (es) 2014-12-23 2022-05-11 Timothy Degraye Método y sistema para compartir audio
KR102331233B1 (ko) 2015-06-26 2021-11-25 하만인터내셔날인더스트리스인코포레이티드 상황 인식력을 갖는 스포츠 헤드폰
US9936297B2 (en) * 2015-11-16 2018-04-03 Tv Ears, Inc. Headphone audio and ambient sound mixer
US11140551B2 (en) 2019-03-29 2021-10-05 Mitsubishi Heavy Industries, Ltd. Aircraft smart cabin headset and method for establishing secure wireless communication with aircraft cabin audio system

Also Published As

Publication number Publication date
US11074906B2 (en) 2021-07-27
CN112424863B (zh) 2024-04-09
US20210358482A1 (en) 2021-11-18
KR20210019985A (ko) 2021-02-23
US20190251955A1 (en) 2019-08-15
CN112424863A (zh) 2021-02-26
KR102491417B1 (ko) 2023-01-27
EP3721429A2 (en) 2020-10-14
US11631398B2 (en) 2023-04-18
KR20240033108A (ko) 2024-03-12

Similar Documents

Publication Publication Date Title
KR102491417B1 (ko) 음성인식 오디오 시스템 및 방법
US10685638B2 (en) Audio scene apparatus
US10251009B2 (en) Audio scene apparatus
JP2023159381A (ja) 音声認識オーディオシステムおよび方法
JP6637014B2 (ja) 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法
KR101171494B1 (ko) 강인한 두 마이크로폰 잡음 억제 시스템
US9037458B2 (en) Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US20130259254A1 (en) Systems, methods, and apparatus for producing a directional sound field
JP2018528479A (ja) スーパー広帯域音楽のための適応雑音抑圧
US9408010B2 (en) Audio system and method therefor
CN110447069B (zh) 自适应噪声环境的语音信号处理的方法和装置
US20170287499A1 (en) Method and apparatus for enhancing sound sources
JP2009522942A (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
US11016721B2 (en) Media-compensated pass-through and mode-switching
CN112333602B (zh) 信号处理方法、信号处理设备、计算机可读存储介质及室内用播放系统

Legal Events

Date Code Title Description
A107 Divisional application of patent
E601 Decision to refuse application