KR20180045035A - 협력적 오디오 프로세싱 - Google Patents

협력적 오디오 프로세싱 Download PDF

Info

Publication number
KR20180045035A
KR20180045035A KR1020187010714A KR20187010714A KR20180045035A KR 20180045035 A KR20180045035 A KR 20180045035A KR 1020187010714 A KR1020187010714 A KR 1020187010714A KR 20187010714 A KR20187010714 A KR 20187010714A KR 20180045035 A KR20180045035 A KR 20180045035A
Authority
KR
South Korea
Prior art keywords
audio
audio signal
user device
signal
capture device
Prior art date
Application number
KR1020187010714A
Other languages
English (en)
Other versions
KR101923357B1 (ko
Inventor
래훈 김
에릭 비제르
라구베르 페리
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20180045035A publication Critical patent/KR20180045035A/ko
Application granted granted Critical
Publication of KR101923357B1 publication Critical patent/KR101923357B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/023Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)

Abstract

오디오 출력을 생성하는 방법은 사용자 디바이스 (810) 에서 그래픽 사용자 인터페이스 (GUI) (800) 를 디스플레이하는 단계를 포함한다. GUI 는 다수의 영역들 (801 내지 809) 을 갖는 에어리어를 표현하고 다수의 오디오 캡처 디바이스들 (810, 820, 830) 은 에어리어에 로케이트된다. 방법은 또한, 다수의 오디오 캡처 디바이스들로부터 오디오 데이터를 수신하는 단계를 포함한다. 방법은 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하는 단계를 더 포함한다. 방법은 또한, 사용자 디바이스에서, 다수의 오디오 캡처 디바이스들의 서브세트로부터의 오디오 데이터에 기초하여 오디오 출력을 생성하는 단계를 포함한다. 그 서브세트에서의 각각의 오디오 캡처 디바이스는 선택된 영역에 로케이트된다.

Description

협력적 오디오 프로세싱
우선권 주장
본 출원은 2015년 9월 18일자로 출원된 공동 소유된 미국 정규특허출원 제14/859,128호로부터 우선권을 주장하고, 그 내용은 본 명세서에 전부 참조로 분명히 통합된다.
분야
본 개시는 일반적으로 오디오 프로세싱에 관련된다.
관련 기술의 설명
기술의 진보는 더 작고 더 강력한 컴퓨팅 디바이스들을 초래하였다. 예를 들어, 현재, 작고, 경량이며, 사용자들이 휴대하기 용이한 무선 컴퓨팅 디바이스들, 이를 테면 휴대용 무선 전화기들, 개인 휴대 정보 단말기들 (PDA들), 및 페이징 디바이스들을 포함하는, 다양한 휴대용 개인 컴퓨팅 디바이스들이 존재한다. 보다 구체적으로, 휴대용 무선 전화기들, 이를 테면 셀룰러 전화기들 및 인터넷 프로토콜 (IP) 전화기들은 무선 네트워크들을 통해 보이스 및 데이터 패킷들을 통신할 수 있다. 게다가, 많은 이러한 무선 전화기들은 본 명세서에서 통합되는 다른 타입들의 디바이스들을 포함한다. 예를 들어, 무선 전화기는 또한, 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어를 포함할 수 있다. 또한, 이러한 무선 전화기들은, 인터넷에 액세스하는데 이용될 수 있는, 웹 브라우저 애플리케이션과 같은 소프트웨어 애플리케이션들을 포함하는, 실행가능 명령들을 프로세싱할 수 있다. 이로써, 이들 무선 전화기들은 상당한 컴퓨팅 능력들을 포함할 수 있다.
일부 전자 디바이스들 (예를 들어, 무선 전화기들) 은 다수의 마이크로폰들을 가질 수도 있다. 타겟 사운드, 이를 테면 사용자의 스피치 (speech) 가 제 1 마이크로폰에 의해 검출되면, 다른 마이크로폰에 의해 캡처된 신호가 제 1 마이크로폰에 의해 캡처된 신호에 대해 잡음 억제 (noise suppression) 를 수행하는데 이용될 수도 있다. 단일 디바이스 상의 다수의 마이크로폰들 간의 음향 지오메트리 (acoustic geometry) 는 고정되기 때문에, 다른 마이크로폰의 신호는 잡음 억제를 위해 이용될 수도 있다. 다른 디바이스들로부터의 오디오 신호들이 또한 이용될 수도 있다; 그러나, 종래의 멀티-마이크로폰 프로세싱 알고리즘들은 마이크로폰들 간의 거리 또는 하나의 마이크로폰의 다른 마이크로폰에 대한 로케이션과 같은 지오메트릭 정보에 대한 액세스를 요구한다.
본 명세서에서 개시된 기법들의 하나의 예에 따르면, 잡음 감소를 수행하는 방법은 제 1 디바이스의 제 1 마이크로폰에서 제 1 오디오 신호를 캡처하는 단계를 포함한다. 방법은 또한, 제 1 디바이스에서, 제 2 디바이스로부터 제 2 오디오 신호를 나타내는 오디오 데이터를 수신하는 단계를 포함한다. 제 2 오디오 신호는 제 2 디바이스의 제 2 마이크로폰에 의해 캡처된다. 방법은 제 2 오디오 신호를 나타내는 오디오 데이터에 적어도 부분적으로 기초하여 제 1 오디오 신호에 대해 잡음 감소를 수행하는 단계를 더 포함한다.
본 명세서에서 개시된 기법들의 다른 예에 다르면, 제 1 디바이스는 제 1 오디오 신호를 캡처하도록 구성된 제 1 마이크로폰을 포함한다. 제 1 디바이스는 또한, 제 2 디바이스로부터 제 2 오디오 신호를 나타내는 오디오 데이터를 수신하도록 구성된 수신기를 포함한다. 제 2 오디오 신호는 제 2 디바이스의 제 2 마이크로폰에 의해 캡처된다. 제 1 디바이스는 제 2 오디오 신호를 나타내는 오디오 데이터에 적어도 부분적으로 기초하여 제 1 오디오 신호에 대해 잡음 감소를 수행하도록 구성된 프로세서를 더 포함한다.
본 명세서에서 개시된 기법들의 다른 예에 다르면, 비일시적 컴퓨터 판독가능 매체는 잡음 감소를 수행하기 위한 명령들을 포함한다. 명령들은, 제 1 디바이스의 프로세서에 의해 실행될 때, 프로세서로 하여금, 제 1 디바이스의 제 1 마이크로폰에서 캡처된 제 1 오디오 신호를 수신하는 것을 포함하는 동작들을 수행하게 한다. 동작들은 또한, 제 2 디바이스로부터 제 2 오디오 신호를 나타내는 오디오 데이터를 수신하는 것을 포함한다. 제 2 오디오 신호는 제 2 디바이스의 제 2 마이크로폰에 의해 캡처된다. 동작들은 제 2 오디오 신호를 나타내는 오디오 데이터에 적어도 부분적으로 기초하여 제 1 오디오 신호에 대해 잡음 감소를 수행하는 것을 더 포함한다.
본 명세서에서 개시된 기법들의 다른 예에 따르면, 제 1 디바이스는 제 1 오디오 신호를 캡처하기 위한 수단을 포함한다. 제 1 디바이스는 또한, 제 2 디바이스로부터 제 2 오디오 신호를 나타내는 오디오 데이터를 수신하기 위한 수단을 포함한다. 제 2 오디오 신호는 제 2 디바이스의 마이크로폰에 의해 캡처된다. 제 1 디바이스는 또한, 제 2 오디오 신호를 나타내는 오디오 데이터에 적어도 부분적으로 기초하여 제 1 오디오 신호에 대해 잡음 감소를 수행하기 위한 수단을 포함한다.
본 명세서에서 개시된 기법들의 다른 예에 따르면, 디바이스를 동작시키는 방법은 제 1 사용자 디바이스에서 제 2 사용자 디바이스로부터 오디오 데이터를 수신하는 단계를 포함한다. 오디오 데이터는 제 2 사용자 디바이스의 마이크로폰에서 캡처된 오디오 신호에 기초한다. 방법은 또한, 오디오 데이터에 의해 표현된 보이스가 특정한 보이스에 매칭할 가능성을 표시하는 우도 값 (likelihood value) 을 결정하기 위해 오디오 데이터에 기초하여 화자 검증 기능을 수행하는 단계를 포함한다. 방법은 우도 값이 임계치를 초과하는 것에 응답하여 제 1 사용자 디바이스의 하나 이상의 기능들을 인에이블하는 단계를 더 포함한다.
본 명세서에서 개시된 기법들의 다른 예에 따르면, 장치는 프로세서, 및 동작들을 수행하도록 프로세서에 의해 실행가능한 명령들을 저장하는 메모리를 포함한다. 동작들은 제 1 사용자 디바이스에서 제 2 사용자 디바이스로부터 오디오 데이터를 수신하는 것을 포함한다. 오디오 데이터는 제 2 사용자 디바이스의 마이크로폰에서 캡처된 오디오 신호에 기초한다. 동작들은 또한, 오디오 데이터에 의해 표현된 보이스가 특정한 보이스에 매칭할 가능성을 표시하는 우도 값을 결정하기 위해 오디오 데이터에 기초하여 화자 검증 기능을 수행하는 것을 포함한다. 동작들은 우도 값이 임계치를 초과하는 것에 응답하여 제 1 사용자 디바이스의 하나 이상의 기능들을 인에이블하는 것을 더 포함한다,
본 명세서에서 개시된 기법들의 다른 예에 다르면, 비일시적 컴퓨터 판독가능 매체는 디바이스를 동작시키기 위한 명령들을 포함한다. 명령들은, 프로세서에 의해 실행될 때, 프로세서로 하여금, 제 1 사용자 디바이스에서 제 2 사용자 디바이스로부터 오디오 데이터를 수신하는 것을 포함하는 동작들을 수행하게 한다. 오디오 데이터는 제 2 사용자 디바이스의 마이크로폰에서 캡처된 오디오 신호에 기초한다. 동작들은 또한, 오디오 데이터에 의해 표현된 보이스가 특정한 보이스에 매칭할 가능성을 표시하는 우도 값을 결정하기 위해 오디오 데이터에 기초하여 화자 검증 기능을 수행하는 것을 포함한다. 동작들은 우도 값이 임계치를 초과하는 것에 응답하여 제 1 사용자 디바이스의 하나 이상의 기능들을 인에이블하는 것을 더 포함한다.
본 명세서에서 개시된 기법들의 다른 예에 따르면, 장치는 제 1 사용자 디바이스에서 제 2 사용자 디바이스로부터 오디오 데이터를 수신하기 위한 수단을 포함한다. 오디오 데이터는 제 2 사용자 디바이스의 마이크로폰에서 캡처된 오디오 신호에 기초한다. 장치는 또한, 오디오 데이터에 의해 표현된 보이스가 특정한 보이스에 매칭할 가능성을 표시하는 우도 값을 결정하기 위해 오디오 데이터에 기초하여 화자 검증 기능을 수행하기 위한 수단을 포함한다. 장치는 우도 값이 임계치를 초과하는 것에 응답하여 제 1 사용자 디바이스의 하나 이상의 기능들을 인에이블하기 위한 수단을 더 포함한다.
본 명세서에서 개시된 기법들의 다른 예에 따르면, 오디오 출력을 생성하는 방법은 사용자 디바이스에서 그래픽 사용자 인터페이스 (GUI) 를 디스플레이하는 단계를 포함한다. GUI 는 다수의 영역 (region) 들을 갖는 에어리어 (area) 를 표현하고 다수의 오디오 캡처 디바이스들은 에어리어에 로케이트된다. 방법은 또한, 다수의 오디오 캡처 디바이스들 중 적어도 하나로부터 오디오 데이터를 수신하는 단계를 포함한다. 방법은 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하는 단계를 더 포함한다. 방법은 또한, 사용자 디바이스에서, 다수의 오디오 캡처 디바이스들의 서브세트로부터의 오디오 데이터에 기초하여 오디오 출력을 생성하는 단계를 포함한다. 그 서브세트에서의 각각의 오디오 캡처 디바이스는 선택된 영역에 로케이트된다.
본 명세서에서 개시된 기법들의 다른 예에 따르면, 장치는 프로세서, 및 동작들을 수행하도록 프로세서에 의해 실행가능한 명령들을 저장하는 메모리를 포함한다. 동작들은 사용자 디바이스에서 그래픽 사용자 인터페이스 (GUI) 를 디스플레이하는 것을 포함한다. GUI 는 다수의 영역들을 갖는 에어리어를 표현하고 다수의 오디오 캡처 디바이스들은 에어리어에 로케이트된다. 동작들은 또한, 다수의 오디오 캡처 디바이스들 중 적어도 하나로부터 오디오 데이터를 수신하는 것을 포함한다. 동작들은 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하는 것을 더 포함한다. 동작들은 또한, 사용자 디바이스에서, 다수의 오디오 캡처 디바이스들의 서브세트로부터의 오디오 데이터에 기초하여 오디오 출력을 생성하는 것을 포함한다. 그 서브세트에서의 각각의 오디오 캡처 디바이스는 선택된 영역에 로케이트된다.
본 명세서에서 개시된 기법들의 다른 예에 따르면, 비일시적 컴퓨터 판독가능 매체는, 프로세서에 의해 실행될 때, 프로세서로 하여금, 사용자 디바이스에서 그래픽 사용자 인터페이스 (GUI) 를 디스플레이하는 것을 포함하는 동작들을 수행하게 하는 명령들을 포함한다. GUI 는 다수의 영역들을 갖는 에어리어를 표현하고 다수의 오디오 캡처 디바이스들은 에어리어에 로케이트된다. 동작들은 또한, 다수의 오디오 캡처 디바이스들 중 적어도 하나로부터 오디오 데이터를 수신하는 것을 포함한다. 동작들은 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하는 것을 더 포함한다. 동작들은 또한, 사용자 디바이스에서, 다수의 오디오 캡처 디바이스들의 서브세트로부터의 오디오 데이터에 기초하여 오디오 출력을 생성하는 것을 포함한다. 그 서브세트에서의 각각의 오디오 캡처 디바이스는 선택된 영역에 로케이트된다.
본 명세서에서 개시된 기법들의 다른 예에 따르면, 장치는 사용자 디바이스에서 그래픽 사용자 인터페이스 (GUI) 를 디스플레이하기 위한 수단을 포함한다. GUI 는 다수의 영역들을 갖는 에어리어를 표현하고, 다수의 오디오 캡처 디바이스들은 에어리어에 로케이트된다. 장치는 또한, 다수의 오디오 캡처 디바이스들 중 적어도 하나로부터 오디오 데이터를 수신하기 위한 수단을 포함한다. 장치는 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하기 위한 수단을 더 포함한다. 장치는 또한, 다수의 오디오 캡처 디바이스들의 서브세트로부터의 오디오 데이터에 기초하여 사용자 디바이스에서 오디오 출력을 생성하기 위한 수단을 포함한다. 그 서브세트에서의 각각의 오디오 캡처 디바이스는 선택된 영역에 로케이트된다.
도 1 은 다수의 디바이스들로부터 캡처된 오디오 신호들을 이용하여 잡음을 억제하도록 동작가능한 시스템이다;
도 2 는 다수의 디바이스들로부터 캡처된 오디오 신호들을 이용하여 잡음을 억제하도록 동작가능한 잡음 감소 회로부의 다이어그램이다;
도 3 은 다수의 디바이스들로부터 캡처된 오디오 신호들을 이용하여 잡음을 억제하도록 동작가능한 다른 시스템이다;
도 4 는 다수의 디바이스들로부터 캡처된 오디오 신호들을 이용하여 잡음 감소를 수행하기 위한 방법이다;
도 5 는 오디오 데이터를 이용하여 화자 검증 및 화자 인식을 수행하도록 동작가능한 시스템이다;
도 6 은 오디오 데이터를 이용하여 화자 검증 및 화자 인식을 위한 프로세스를 플로우 다이어그램이다;
도 7 은 오디오 데이터를 이용하여 화자 검증 및 화자 인식을 수행하기 위한 방법이다;
도 8 은 사용자 디바이스의 그래픽 사용자 인터페이스 (GUI) 이다;
도 9 는 에어리어의 하나 이상의 선택된 영역들에 기초하여 오디오 출력을 생성하기 위한 방법이다; 그리고
도 10 은 본 명세서에서 개시된 하나 이상의 방법들, 시스템들, 장치들, 및/또는 컴퓨터 판독가능 매체들의 다양한 양태들을 지원하도록 동작가능한 사용자 디바이스의 다이어그램이다.
상세한 설명
본 개시의 특정한 구현들은 도면들을 참조하여 설명된다. 설명에서, 공통 피처들은 도면들 전반에 걸쳐 공통 참조 번호들로 지정된다.
도 1 을 참조하면, 다수의 디바이스들로부터 캡처된 오디오 신호들을 이용하여 잡음을 억제하도록 동작가능한 시스템 (100) 이 도시된다. 시스템 (100) 은 제 1 디바이스 (110), 제 2 디바이스 (120), 제 3 디바이스 (130), 및 제 4 디바이스 (140) 를 포함한다. 각각의 디바이스 (110, 120, 130, 140) 는 마이크로폰을 통해 서라운딩 오디오 사운드들을 캡처하도록 동작가능한 전자 디바이스일 수도 있다. 4 개의 디바이스들 (110, 120, 130, 140) 이 시스템 (100) 에서 묘사되지만, 다른 구현들에서, 본 명세서에서 설명된 잡음 억제 기법들은 추가적인 (또는 더 적은) 디바이스들을 이용하여 구현될 수도 있다. 비제한적 예들로서, 본 명세서에서 설명된 잡음 억제 기법들은 10 개의 디바이스들 또는 2 개의 디바이스들을 이용하여 구현될 수도 있다.
하나의 구현에 따르면, 디바이스들 (110, 120, 130, 140) 중 하나 이상은 무선 통신 디바이스 (예를 들어, 모바일 폰) 일 수도 있다. 그러나, 다른 구현들에서, 디바이스들 (110, 120, 130, 140) 중 하나 이상은 오디오 신호들을 캡처하도록 동작가능하고 캡처된 오디오 신호들을 송신하도록 동작가능한 다른 전자 디바이스들일 수도 있다. 비제한적 예들로서, 디바이스들 (110, 120, 130, 140) 중 하나 이상은 태블릿, 개인 휴대 정보 단말기 (PDA), 랩톱 컴퓨터, 컴퓨터, 디스플레이 디바이스, 게이밍 콘솔, 뮤직 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 튜너, 카메라, 내비게이션 디바이스, 셋-톱 박스, 텔레비전, 세탁기 등일 수도 있다.
제 1 디바이스 (110) 는 트랜시버 (112), 마이크로폰 (114), 및 프로세서 (116) 를 포함한다. 하나의 구현에 다르면, 트랜시버 (112) 대신에, 제 1 디바이스 (110) 는 수신기 및 송신기를 포함할 수도 있다. 제 2 디바이스 (120) 는 트랜시버 (122), 마이크로폰 (124), 및 프로세서 (126) 를 포함한다. 하나의 구현에 따르면, 트랜시버 (122) 대신에, 제 2 디바이스 (120) 는 수신기 및 송신기를 포함할 수도 있다. 제 3 디바이스 (130) 는 트랜시버 (132), 마이크로폰 (134), 및 프로세서 (136) 를 포함한다. 하나의 구현에 따르면, 트랜시버 (132) 대신에, 제 3 디바이스 (130) 는 수신기 및 송신기를 포함할 수도 있다. 제 4 디바이스 (140) 는 트랜시버 (142), 마이크로폰 (144), 및 프로세서 (146) 를 포함한다. 하나의 구현에 따르면, 트랜시버 (142) 대신에, 제 4 디바이스 (140) 는 수신기 및 송신기를 포함할 수도 있다.
각각의 디바이스 (110, 120, 130, 140) 의 마이크로폰들 (114, 124, 134, 144) 은 서라운딩 오디오 신호들을 캡처하도록 구성될 수도 있다. 예를 들어, 마이크로폰 (114) 은 제 1 오디오 신호 (102) 를 캡처하도록 구성될 수도 있고, 마이크로폰 (124) 은 제 2 오디오 신호 (104) 를 캡처하도록 구성될 수도 있고, 마이크로폰 (134) 은 제 3 오디오 신호 (106) 를 캡처하도록 구성될 수도 있고, 마이크로폰 (144) 은 제 4 오디오 신호 (108) 를 캡처하도록 구성될 수도 있다. 제 1 오디오 신호 (102) 는 "프라이머리" 성분 (예를 들어, 스피치 (S) 성분 또는 타겟 성분) 및 세컨더리 성분들 (예를 들어, 잡음 성분들) 을 포함할 수도 있다. 제 1 오디오 신호 (102) 의 세컨더리 성분들은 다른 오디오 신호들 (104, 106, 108) 로부터 비롯될 수도 있다 (또는 이로부터 생성될 수도 있다). 비제한적 예로서, 제 1 오디오 신호 (102) 의 제 1 오디오 레벨 (A1) (또는 에너지 레벨) 은
Figure pct00001
로서 표현될 수도 있고, 여기서 S 는 스피치 성분 (또는 "타겟" 성분) 이고, N2 는 제 2 오디오 신호 (104) 와 연관된 잡음 성분이고, N3 은 제 3 오디오 신호 (106) 와 연관된 잡음 성분이고, N4 는 제 4 오디오 신호 (108) 와 연관된 잡음 성분이고, D2 는 제 1 및 제 2 디바이스들 (110, 120) 간의 거리이고, D3 은 제 1 및 제 3 디바이스들 (110, 130) 간의 거리이고, D4 는 제 1 및 제 4 디바이스들 (110, 140) 간의 거리이다.
스피치 성분 (S) 및 각각의 잡음 성분 (N2, N3, N4) 은 상이한 주파수를 가질 수도 있다. 예를 들어, 스피치 성분 (S) 은 주파수 (f1) 를 가질 수도 있고, 잡음 성분 (N2) 은 주파수 (f2) 를 가질 수도 있고, 잡음 성분 (N3) 은 주파수 (f3) 를 가질 수도 있고, 잡음 성분 (N4) 은 주파수 (f4) 를 가질 수도 있다. 아래에 설명되는 바와 같이, 각각의 잡음 성분의 주파수들은 제 1 디바이스 (110) 에서 제 1 오디오 신호 (102) 에 대해 잡음 감소를 수행하는데 이용되는 비-타겟 참조 신호를 생성하기 위해 최대-풀링 동작 동안 프로세서 (116) 에 의해 이용될 수도 있다. 잡음 성분 (N2) 은 제 2 디바이스 (120) 에 의해 생성되거나 또는 제 2 디바이스 (120) 와 상대적으로 아주 근접한 곳에서 생성될 수도 있다. 잡음 성분 (N3) 은 제 3 디바이스 (130) 에 의해 생성되거나 또는 제 3 디바이스 (130) 와 상대적으로 아주 근접한 곳에서 생성될 수도 있다. 잡음 성분 (N4) 은 제 4 디바이스 (140) 에 의해 생성되거나 또는 제 4 디바이스 (140) 와 상대적으로 아주 근접한 곳에서 생성될 수도 있다. 그러나, 잡음 성분들 (N2 내지 N4) 중 하나 이상은 제 1 디바이스 (110) 의 마이크로폰 (114) 에 의해 캡처될 수도 있다. 잡음 성분들 (N2 내지 N4) 은 마이크로폰 (114) 에서 캡처되기 때문에, 제 1 오디오 레벨 (A1) 은 상기 식에서 표시한 바와 같이, 잡음 성분들 (N2 내지 N4) 에 적어도 부분적으로 기초할 수도 있다.
제 2 오디오 신호 (104) 의 제 2 오디오 레벨 (A2) 은
Figure pct00002
로서 표현될 수도 있다. 제 3 오디오 신호 (106) 의 제 3 오디오 레벨 (A3) 은
Figure pct00003
으로서 표현될 수도 있다. 제 4 오디오 신호 (108) 의 제 4 오디오 레벨 (A4) 은
Figure pct00004
로서 표현될 수도 있다. 오디오 신호들 (102, 104, 106, 108) 의 오디오 레벨들에 대한 표현들 (예를 들어, 수식들) 은 단지 예들일 뿐이며 제한하는 것으로 해석되어서는 안된다는 것이 이해되어야 한다. 예를 들어, 오디오 레벨들 (A1 내지 A4) 이 상기 식들에 기초하여 표현될 필요는 없지만, 잡음의 소스가 마이크로폰에 대해 더 멀리 떨어져 있을수록, 마이크로폰에서의 잡음의 오디오 레벨은 더 작아진다는 것이 이해되어야 한다.
제 1 디바이스 (110) 는 제 1 오디오 신호 (102) 의 프라이머리 성분 (예를 들어, 스피치 (S)) 을 향상시키기 위해 제 1 오디오 신호 (102) 에 대해 잡음 감소 동작을 수행하도록 구성될 수도 있다. 잡음 감소 동작을 수행하기 이전에, 다른 디바이스들 (120, 130, 140) 은, 각각, 대응하는 오디오 신호들 (104, 106, 108) 을 나타내는 오디오 데이터 (154, 156, 158) 를 제 1 디바이스 (110) 에 송신할 수도 있다. 예를 들어, 마이크로폰 (124) 으로 제 2 오디오 신호 (104) 를 캡처한 후에, 제 2 디바이스 (120) 는 제 2 오디오 신호 (104) 를 나타내는 제 2 오디오 데이터 (154) 를 트랜시버 (122) 를 이용하여 제 1 디바이스 (110) 에 송신할 수도 있다. 마이크로폰 (134) 으로 제 3 오디오 신호 (106) 를 캡처한 후에, 제 3 디바이스 (130) 는 제 3 오디오 신호 (106) 를 나타내는 제 3 오디오 데이터 (156) 를 트랜시버 (132) 를 이용하여 제 1 디바이스 (110) 에 송신할 수도 있다. 마이크로폰 (144) 으로 제 4 오디오 신호 (108) 를 캡처한 후에, 제 4 디바이스 (140) 는 제 4 오디오 신호 (108) 를 나타내는 제 4 오디오 데이터 (158) 를 트랜시버 (142) 를 이용하여 제 1 디바이스 (110) 에 송신할 수도 있다.
오디오 데이터 (154, 156, 158) 는, 각각, 대응하는 오디오 신호 (104, 106, 108) 의 실질적으로 유사한 속성들을 가질 수도 있다. 비제한적 예로서, 오디오 데이터 (154, 156, 158) 는, 각각, 캡처된 오디오 신호들 (104, 106, 108) 의 카피를 포함할 수도 있다. 따라서, 설명 및 예시의 용이함을 위해, 제 2 오디오 데이터 (154) 는 제 2 오디오 신호 (104) 와 상호교환가능하게 이용될 수도 있고, 제 3 오디오 데이터 (156) 는 제 3 오디오 신호 (106) 와 상호교환가능하게 이용될 수도 있고, 제 4 오디오 데이터 (156) 는 제 4 오디오 신호 (108) 와 상호교환가능하게 이용될 수도 있다. 그러나, 각각의 트랜시버 (122, 132, 142) 는, 각각, 캡처된 오디오 신호 (104, 106, 108) 의 중복 카피 또는 표현 (representation) 을 송신한다는 것이 이해되어야 한다.
대응하는 트랜시버들 (122, 132, 142) 로부터 오디오 신호들 (104, 106, 108) 을 수신한 후에, 프로세서 (116) 의 잡음 감소 회로부 (118) 는 오디오 신호들 (104, 106, 108) 에 대해 이득 프리-컨디셔닝 동작 (gain pre-conditioning operation) 을 수행할 수도 있다. 이득 프리-컨디셔닝 동작은 각각의 오디오 신호 (104, 106, 108) 의 레벨을 정규화할 수도 있다. 이득 프리-컨디셔닝 동작을 수행하기 위해, 잡음 감소 회로부 (118) 는 제 1 오디오 신호 (102) (예를 들어, "메인 입력" 신호) 와 다른 오디오 신호들 (104, 106, 108) (예를 들어, "서브-입력" 신호들) 간의 전력 (레벨) 차이를 추적할 수도 있고 각각의 오디오 신호 (104, 106, 108) 의 레벨을 정규화하기 위해 각각의 오디오 신호 (104, 106, 108) 에 적용된 이득 컨디셔닝 팩터 (gain conditioning factor) 들을 회귀적으로 업데이트할 수도 있다. 본 명세서에서 사용한 바와 같이, "서브-입력" 신호는 마이크로폰에서 캡처된 메인 신호에 대하여 백그라운드 잡음인 마이크로폰에서 캡처된 임의의 오디오 신호를 포함한다.
예시하기 위해, 잡음 감소 회로부 (118) 는 제 2 이득-조정된 오디오 신호 (미도시) 를 생성하기 위해 제 2 디바이스 (120) 에 의해 제공된 제 2 오디오 신호 (104) 에 이득 컨디셔닝 팩터 (G2) 를 적용할 수도 있고, 제 3 이득-조정된 오디오 신호 (미도시) 를 생성하기 위해 제 3 디바이스 (130) 에 의해 제공된 제 3 오디오 신호 (106) 에 이득 컨디셔닝 팩터 (G3) 를 적용할 수도 있고, 제 4 이득-조정된 오디오 신호 (미도시) 를 생성하기 위해 제 4 디바이스 (140) 에 의해 제공된 제 4 오디오 신호 (108) 에 이득 컨디셔닝 팩터 (G4) 를 적용할 수도 있다. 본 명세서에서 사용한 바와 같이, 이득 팩터를 적용하는 것은 대응하는 신호의 오디오 레벨을 증가 (또는 감소) 시키는 것을 포함할 수도 있다. 제 2 오디오 신호 (104) 에 적용된 이득 컨디셔닝 팩터 (G2) 는, 제 2 이득-조정된 오디오 신호의 오디오 레벨이 제 1 오디오 신호 (102) 의 스피치 (S) 레벨 미만이도록 및 제 2 이득-조정된 오디오 신호의 오디오 레벨이 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00005
) 을 초과하도록 하는 값일 수도 있다. 제 3 오디오 신호 (106) 에 적용된 이득 컨디셔닝 팩터 (G3) 는, 제 3 이득-조정된 오디오 신호의 오디오 레벨이 제 1 오디오 신호 (102) 의 스피치 (S) 레벨 미만이도록 및 제 3 이득-조정된 오디오 신호의 오디오 레벨이 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00006
) 을 초과하도록 하는 값일 수도 있다. 제 4 오디오 신호 (108) 에 적용된 이득 컨디셔닝 팩터 (D4) 는, 제 4 이득-조정된 오디오 신호의 오디오 레벨이 제 1 오디오 신호 (102) 의 스피치 (S) 레벨 미만이도록 및 제 4 이득-조정된 오디오 신호의 오디오 레벨이 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00007
) 을 초과하도록 하는 값일 수도 있다.
이득 프리-컨디셔닝 동작을 수행하기 위해, 잡음 감소 회로부 (118) 는 각각의 오디오 신호 (102, 104, 106, 108) 가 주변의 고정 잡음 (stationary noise) 에 대해 실질적으로 유사한 오디오 레벨을 갖도록 채널들 간의 에너지 정규화를 감소시키기 위해 최소 통계 추적 (minimum statistics tracking) 을 이용할 수도 있다. 예를 들어, 메인 전력 (예를 들어, 제 1 오디오 신호 (102) 의 제 1 오디오 레벨 (A1)) 이 서브-전력 (예를 들어, 다른 신호들 (104, 106, 108) 의 오디오 레벨들) 보다 상당히 더 높은 경우, 잡음 감소 회로부 (118) 는 잡음의 과대추정 (overestimation) 을 감소시키기 위해 메인 전력 (일부 마진을 포함함) 미만인 이득-조정된 서브-전력을 제공할 수도 있다. 서브-전력이 메인 전력보다 상당히 더 높은 경우, 잡음 감소 회로부 (118) 는 잡음의 과대추정을 보장하기 위해 메인 전력 (일부 마진을 포함함) 보다 더 높은 이득-조정된 서브-전력을 제공할 수도 있다.
이득 컨디셔닝 팩터들이 이득-조정된 오디오 신호들을 생성하기 위해 잡음 감소 회로부 (118) 에 의해 오디오 신호들 (104, 106, 108) 에 적용된 후에, 잡음 감소 회로부 (118) 는 비-타겟 참조 신호 (미도시) 를 생성하기 위해 이득-조정된 오디오 신호들에 대해 최대-풀링 동작을 수행할 수도 있다. 도 2 에 대하여 더 상세히 설명되는 바와 같이, 최대-풀링 동작은 비-타겟 참조 신호를 생성하기 위해 이득-조정된 오디오 신호들과는 상이한 잡음 성분들을 선택 (예를 들어, "풀링") 할 수도 있다. 예를 들어, 최대-풀링 동작은 최대 이득을 갖는 각각의 주파수에서 잡음 성분을 선택할 수도 있고 비-타겟 참조 신호를 생성하기 위해 선택된 잡음 성분들을 결합할 수도 있다. 잡음 감소 회로부 (118) 는 비-타겟 참조 신호를 이용하여 제 1 오디오 신호 (102) 에 대해 잡음 감소를 수행하도록 구성될 수도 있다. 예를 들어, 잡음 감소 회로부 (118) 는 비-타겟 참조 신호를 제 1 오디오 신호 (102) 와 결합함으로써 제 1 오디오 신호 (102) 의 잡음 성분들 (
Figure pct00008
) 을 "감소" 시킬 수도 있다. 비-타겟 참조 신호를 제 1 오디오 신호 (102) 와 결합하는 결과로서, 잡음 감소 회로부 (118) 는 제 1 오디오 신호 (102) 에서의 잡음을 감소시킴으로써 제 1 오디오 신호 (102) 의 스피치 (S) 성분을 향상시킬 수도 있다.
도 1 의 시스템 (100) 은 제 1 디바이스 (110) 가 다른 디바이스들 (120, 130, 140) 의 마이크로폰들 (124, 134, 144) 에 의해 캡처된 오디오 신호들 (104, 106, 108) 을 이용하여 제 1 오디오 신호 (102) 의 잡음 성분들을 감소시키는 것을 인에이블할 수도 있다. 예를 들어, 비-타겟 소스 억제 (예를 들어, 잡음 억제) 는 마이크로폰 (114) 에 의해 캡처된 타겟 오디오 (예를 들어, 제 1 오디오 신호 (102) 의 스피치 (S) 성분) 를 향상시키는데 이용되는 비-타겟 참조 신호로서 마이크로폰들 (124, 134, 144) 의 응답들을 집성시키기 위해 잡음 감소 회로부 (118) 에 의해 이용될 수도 있다. 도 1 에 대하여 설명된 기법들은 마이크로폰들 (114, 124, 134, 144) 간의 거리들과 같은, 지오메트리 정보를 이용하지 않고 비-타겟 참조 신호의 생성을 인에이블할 수도 있다. 예를 들어, 이득 프리-컨디셔닝 동작은 오디오 신호들 (104, 106, 108) 의 이득을 조정함으로써 각각의 마이크로폰 (114, 124, 134, 144) 으로부터의 잡음을 잡음 억제 회로부 (118) 가 정규화하는 것을 인에이블할 수도 있다. 최대-풀링 동작은 제 1 오디오 신호 (102) 의 잡음을 감소시키는 정규화된 잡음으로부터의 잡음 성분들을 잡음 억제 회로부 (118) 가 풀링하는 것을 인에이블할 수도 있다. 예를 들어, 최대-풀링 동작은 최고 이득 (예를 들어, 최고 에너지 레벨) 을 갖는 각각의 주파수에서 잡음 성분을 풀링함으로써 제 1 오디오 신호 (102) 로부터의 잡음을 실질적으로 캔슬하기 위한 신호를 생성할 수도 있다.
도 2 를 참조하면, 도 1 의 잡음 감소 회로부 (118) 의 다이어그램이 도시된다. 잡음 감소 회로부 (118) 는 이득 조정 회로부 (210), 최대-풀링 회로부 (220), 및 잡음 억제 회로부 (230) 를 포함한다.
이득 조정 회로부 (210) 는 제 1 오디오 신호 (102), 제 2 오디오 신호 (104), 제 3 오디오 신호 (106), 및 제 4 오디오 신호 (108) 를 수신하도록 구성될 수도 있다. 도 1 에 대하여 설명한 바와 같이, 제 1 오디오 신호 (102) 는 잡음 감소 회로부 (118) 와 연관된 디바이스 (예를 들어, 도 1 의 제 1 디바이스 (110)) 에 의해 캡처될 수도 있고 다른 오디오 신호들 (104, 106, 108) 은 원격 디바이스들 (예를 들어, 도 1 의 디바이스들 (120, 130, 140)) 에 의해 잡음 감소 회로부 (118) 에 캡처 및 송신될 수도 있다.
이득 조정 회로부 (210) 는 제 2 이득-조정된 오디오 신호 (204) 를 생성하기 위해 제 2 오디오 신호 (104) 에 이득 컨디셔닝 팩터 (G2) 를 적용하도록 구성될 수도 있다. 이득 컨디셔닝 팩터 (G2) 를 결정하기 위해, 이득 조정 회로부 (210) 는 제 1 오디오 신호 (102) 의 스피치 (S) 레벨과 제 2 오디오 신호 (104) 의 제 2 오디오 레벨 (A2) 을 비교하고 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00009
) 의 오디오 레벨과 제 2 오디오 신호 (104) 의 제 2 오디오 레벨 (A2) 을 비교할 수도 있다. 이득 컨디셔닝 팩터 (G2) 는, 제 2 오디오 신호 (104) 에 적용될 때, 제 2 이득-조정된 오디오 신호 (204) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 스피치 (S) 레벨 미만이 되게 하고 제 2 이득-조정된 오디오 신호 (204) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00010
) 의 오디오 레벨을 초과하게 하는 값일 수도 있다. 제 2 이득-조정된 오디오 신호 (204) 는 최대-풀링 회로부 (220) 에 제공될 수도 있다. 제 2 이득-조정된 오디오 신호 (204) 는 제 2 오디오 신호 (104) 에 기초하기 때문에, 제 2 이득-조정된 오디오 신호 (204) 는 주파수 (f2) 를 갖는 프라이머리 성분을 가질 수도 있다.
이득 조정 회로부 (210) 는 각각의 마이크로폰 채널이 백그라운드 주변 잡음에 대해 실질적으로 유사한 감도 이득을 가질 수도 있도록 이득 컨디셔닝 팩터 (G2) 를 결정하기 위해 마이크로폰 이득 캘리브레이션 스킴을 이용할 수도 있다. 하나의 구현에 따르면, 이득 조정 회로부 (210) 는 다음의 의사코드에 기초하여 동작할 수도 있다:
Figure pct00011
Figure pct00012
의사코드에 기초하여,
Figure pct00013
은 타겟에서의 신호 에너지 (예를 들어, 제 1 오디오 신호 (102) 의 제 1 오디오 레벨 (A1)) 나누기 서브-디바이스에서의 신호 에너지 (예를 들어, 제 2 오디오 신호 (104) 의 제 2 오디오 레벨 (A2)) 에 대응할 수도 있고 바이어스 팩터 (
Figure pct00014
) 와 비교될 수도 있다.
Figure pct00015
이 바이어스 팩터 (
Figure pct00016
) 를 초과하면, 제 2 이득 팩터 (G2) 의 상한치 (upper margin) 는
Figure pct00017
곱하기 마진 (margin) 미만일 수도 있다. 추가적으로,
Figure pct00018
는 또한 타겟에서의 신호 에너지 나누기 서브-디바이스에서의 신호 에너지에 대응할 수도 있다.
Figure pct00019
가 바이어스 팩터 (
Figure pct00020
) 미만이면, 제 2 이득 팩터 (G2) 의 하한치 (lower margin) 는 제 2 오디오 신호 (104) 의 잡음 레벨의 과대추정 나누기 바이어스 팩터 (
Figure pct00021
) 를 초과할 수도 있다.
이득 조정 회로부 (210) 는 또한, 제 3 이득-조정된 오디오 신호 (206) 를 생성하기 위해 제 3 오디오 신호 (106) 에 이득 컨디셔닝 팩터 (G3) 를 적용하도록 구성될 수도 있다. 이득 컨디셔닝 팩터 (G3) 를 결정하기 위해, 이득 조정 회로부 (210) 는 제 1 오디오 신호 (102) 의 스피치 (S) 레벨과 제 3 오디오 신호 (106) 의 제 3 오디오 레벨 (A3) 을 비교하고 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00022
) 의 오디오 레벨과 제 3 오디오 신호 (106) 의 제 3 오디오 레벨 (A3) 을 비교할 수도 있다. 이득 컨디셔닝 팩터 (G3) 는, 제 3 오디오 신호 (106) 에 적용될 때, 제 3 이득-조정된 오디오 신호 (206) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 스피치 (S) 레벨 미만이 되게 하고 제 3 이득-조정된 오디오 신호 (206) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00023
) 의 오디오 레벨을 초과하게 하는 값일 수도 있다. 제 3 이득-조정된 오디오 신호 (206) 는 최대-풀링 회로부 (220) 에 제공될 수도 있다. 제 3 이득-조정된 오디오 신호 (206) 는 제 3 오디오 신호 (106) 에 기초하기 때문에, 제 3 이득-조정된 오디오 신호 (206) 는 주파수 (f3) 를 갖는 프라이머리 성분을 가질 수도 있다. 하나의 구현에 따르면, 이득 조정 회로부 (210) 는 이득 컨디셔닝 팩터 (G3) 를 결정하기 위해 상기 의사코드를 이용할 수도 있다.
이득 조정 회로부 (210) 는 또한 제 4 이득-조정된 오디오 신호 (208) 를 생성하기 위해 제 4 오디오 신호 (108) 에 이득 컨디셔닝 팩터 (G4) 를 적용하도록 구성될 수도 있다. 이득 컨디셔닝 팩터 (G4) 를 결정하기 위해, 이득 조정 회로부 (210) 는 제 1 오디오 신호 (102) 의 스피치 (S) 레벨과 제 4 오디오 신호 (108) 의 제 4 오디오 레벨 (A4) 을 비교하고 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00024
) 의 오디오 레벨과 제 4 오디오 신호 (108) 의 제 4 오디오 레벨 (A4) 을 비교할 수도 있다. 이득 컨디셔닝 팩터 (G4) 는, 제 4 오디오 신호 (108) 에 적용될 때, 제 4 이득-조정된 오디오 신호 (208) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 스피치 (S) 레벨 미만이 되게 하고 제 4 이득-조정된 오디오 신호 (208) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00025
) 의 오디오 레벨을 초과하게 하는 값일 수도 있다. 제 4 이득-조정된 오디오 신호 (208) 는 최대-풀링 회로부 (220) 에 제공될 수도 있다. 제 4 이득-조정된 오디오 신호 (208) 는 제 4 오디오 신호 (108) 에 기초하기 때문에, 제 4 이득-조정된 오디오 신호 (208) 는 주파수 (f4) 를 갖는 프라이머리 성분을 가질 수도 있다. 하나의 구현에 따르면, 이득 조정 회로부 (210) 는 이득 컨디셔닝 팩터 (G4) 를 결정하기 위해 상기 의사코드를 이용할 수도 있다.
최대-풀링 회로부 (220) 는 비-타겟 참조 신호 (222) 를 생성하기 위해 이득-조정된 오디오 신호들 (204, 206, 208) 에 대해 최대-풀링 동작을 수행하도록 구성될 수도 있다. 예를 들어, 최대-풀링 회로부 (220) 는 각각의 주파수 (f2 내지 f4) 에 대한 "최대" 이득을 결정하기 위해 이득-조정된 오디오 신호들 (204, 206, 208) 을 "풀링" 할 수도 있다. 예를 들어, 제 2 이득-조정된 신호 (204) 가 다른 이득-조정된 신호들 (206, 208) 에 대한 주파수 (f2) 에서의 신호 성분들의 이득을 초과하는 이득을 갖는 주파수 (f2) 에서의 신호 성분을 포함한다고 가정하면, 최대-풀링 회로부 (220) 는 비-타겟 참조 신호 (222) 에 포함할 주파수 (f2) 에서의 제 2 이득-조정된 신호 (204) 의 신호 성분을 선택할 수도 있다. 제 3 이득-조정된 신호 (206) 가 다른 이득-조정된 신호들 (204, 208) 에 대한 주파수 (f3) 에서의 신호 성분들의 이득을 초과하는 이득을 갖는 주파수 (f3) 에서의 신호 성분을 포함한다고 가정하면, 최대-풀링 회로부 (220) 는 비-타겟 참조 신호 (222) 에 포함할 주파수 (f3) 에서의 제 3 이득-조정된 신호 (206) 의 신호 성분을 선택할 수도 있다. 제 4 이득-조정된 신호 (208) 가 다른 이득-조정된 신호들 (204, 206) 에 대한 주파수 (f4) 에서의 신호 성분들의 이득을 초과하는 이득을 갖는 주파수 (f4) 에서의 신호 성분을 포함한다고 가정하면, 최대-풀링 회로부 (220) 는 비-타겟 참조 신호 (222) 에 포함할 주파수 (f4) 에서의 제 4 이득-조정된 신호 (208) 의 신호 성분을 선택할 수도 있다.
최대-풀링 회로부 (220) 는 비-타겟 참조 신호 (222) 를 생성하기 위해 각각의 주파수 (f2 내지 f4) 에 대한 선택된 신호 성분을 결합할 수도 있다. 비-타겟 참조 신호 (222) 는 잡음 억제 회로부 (230) 에 제공될 수도 있다. 잡음 억제 회로부 (230) 는 비-타겟 참조 신호 (222) 를 제 1 오디오 신호 (102) 와 결합하여 타겟 신호 (232) 를 생성할 수도 있다. 타겟 신호 (232) 는 제 1 오디오 신호 (102) 에서의 상당한 양의 스피치 (S) 및 제 1 오디오 신호 (102) 에서의 감소된 양의 잡음을 포함할 수도 있다. 예를 들어, 비-타겟 참조 신호 (222) 에서의 주파수 (f2) 에서의 제 2 이득-조정된 신호 (204) 의 신호 성분은 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00026
) 을 실질적으로 억제할 수도 있다. 비-타겟 참조 신호 (222) 에서의 주파수 (f3) 에서의 제 3 이득-조정된 신호 (206) 의 신호 성분은 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00027
) 을 실질적으로 억제할 수도 있다. 비-타겟 참조 신호 (222) 에서의 주파수 (f4) 에서의 제 4 이득-조정된 신호 (208) 의 신호 성분은 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00028
) 을 실질적으로 억제할 수도 있다.
도 2 의 잡음 감소 회로부 (118) 는 다른 디바이스들 (120, 130, 140) 의 마이크로폰들 (124, 134, 144) 에 의해 캡처된 오디오 신호들 (104, 106, 108) 을 이용하여 제 1 오디오 신호 (102) 의 잡음 성분들 (
Figure pct00029
) 을 감소시킬 수도 있다. 예를 들어, 비-타겟 소스 억제 (예를 들어, 잡음 억제) 는 마이크로폰 (114) 에 의해 캡처된 타겟 오디오 이벤트 (예를 들어, 제 1 오디오 신호 (102) 의 스피치 (S) 성분) 를 향상시키는데 이용되는 비-타겟 참조 신호 (222) 로서 마이크로폰들 (124, 134, 144) 의 응답들을 집성시키기 위해 잡음 감소 회로부 (118) 에 의해 이용될 수도 있다.
도 3 을 참조하면, 도 1 및 도 2 의 기법들과 함께 다수의 디바이스들로부터 캡처된 오디오 신호들을 이용하여 잡음을 억제하도록 동작가능한 시스템 (300) 이 도시된다. 시스템 (300) 은 오디오 레벨 추정기 (302), 오디오 레벨 추정기 (304), 오디오 레벨 추정기 (308), 이득 프리-컨디셔너 (314), 이득 프리-컨디셔너 (316), 이득 프리-컨디셔너 (318), 최대-풀링 회로부 (220), 및 잡음 억제 회로부 (230) 를 포함한다. 하나의 구현에 따르면, 시스템 (300) 에서의 컴포넌트들의 일부 (또는 전부) 는 도 1 의 잡음 감소 회로부 (118) 에 통합될 수도 있다.
제 1 오디오 신호 (102) 는 오디오 레벨 추정기 (302) 에 제공될 수도 있다. 오디오 레벨 추정기 (302) 는 제 1 오디오 신호 (102) 의 제 1 오디오 레벨 (A1) 을 측정할 수도 있고 제 1 오디오 레벨 (A1) 을 표시하는 신호 (322) 를 생성할 수도 있다. 신호 (322) 는 이득 프리-컨디셔너들 (314, 316, 318) 에 제공될 수도 있다.
제 2 오디오 신호 (104) 는 오디오 레벨 추정기 (304) 에 그리고 이득 프리-컨디셔너 (314) 에 제공될 수도 있다. 오디오 레벨 추정기 (304) 는 제 2 오디오 신호 (104) 의 제 2 오디오 레벨 (A2) 을 측정할 수도 있고 제 2 오디오 레벨 (A2) 을 표시하는 신호 (324) 를 생성할 수도 있다. 신호 (324) 는 이득 프리-컨디셔너 (314) 에 제공될 수도 있다. 이득 프리-컨디셔너 (314) 는 제 2 이득-조정된 오디오 신호 (204) 를 생성하기 위해 제 2 오디오 신호 (104) 에 이득 컨디셔닝 팩터 (G2) 를 적용하도록 구성될 수도 있다. 이득 컨디셔닝 팩터 (G2) 를 결정하기 위해, 이득 프리-컨디셔너 (314) 는 제 1 오디오 신호 (102) 의 스피치 (S) 레벨과 제 2 오디오 신호 (104) 의 제 2 오디오 레벨 (A2) 을 비교하고 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00030
) 의 오디오 레벨과 제 2 오디오 신호 (104) 의 제 2 오디오 레벨 (A2) 을 비교할 수도 있다. 이득 컨디셔닝 팩터 (G2) 는, 제 2 오디오 신호 (104) 에 적용될 때, 제 2 이득-조정된 오디오 신호 (204) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 스피치 (S) 레벨 미만이 되게 하고 제 2 이득-조정된 오디오 신호 (204) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00031
) 의 오디오 레벨을 초과하게 하는 값일 수도 있다. 제 2 이득-조정된 신호 (204) 는 최대-풀링 회로부 (220) 에 제공될 수도 있다.
제 3 오디오 신호 (106) 는 오디오 레벨 추정기 (306) 에 그리고 이득 프리-컨디셔너 (316) 에 제공될 수도 있다. 오디오 레벨 추정기 (306) 는 제 3 오디오 신호 (106) 의 제 3 오디오 레벨 (A3) 을 측정할 수도 있고 제 3 오디오 레벨 (A3) 을 표시하는 신호 (326) 를 생성할 수도 있다. 신호 (326) 는 이득 프리-컨디셔너 (316) 에 제공될 수도 있다. 이득 프리-컨디셔너 (316) 는 제 3 이득-조정된 오디오 신호 (206) 를 생성하기 위해 제 3 오디오 신호 (106) 에 이득 컨디셔닝 팩터 (G3) 를 적용하도록 구성될 수도 있다. 이득 컨디셔닝 팩터 (G3) 를 결정하기 위해, 이득 프리-컨디셔너 (316) 는 제 1 오디오 신호 (102) 의 스피치 (S) 레벨과 제 3 오디오 신호 (106) 의 제 3 오디오 레벨 (A3) 을 비교하고 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00032
) 의 오디오 레벨과 제 3 오디오 신호 (106) 의 제 3 오디오 레벨 (A3) 을 비교할 수도 있다. 이득 컨디셔닝 팩터 (G3) 는, 제 3 오디오 신호 (106) 에 적용될 대, 제 3 이득-조정된 오디오 신호 (206) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 스피치 (S) 레벨 미만이 되게 하고 제 3 이득-조정된 오디오 신호 (206) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00033
) 의 오디오 레벨을 초과하게 하는 값일 수도 있다. 제 3 이득-조정된 신호 (206) 는 최대-풀링 회로부 (220) 에 제공될 수도 있다.
제 4 오디오 신호 (108) 는 오디오 레벨 추정기 (308) 에 그리고 이득 프리-컨디셔너 (318) 에 제공될 수도 있다. 오디오 레벨 추정기 (308) 는 제 4 오디오 신호 (108) 의 제 4 오디오 레벨 (A4) 을 측정할 수도 있고 제 4 오디오 레벨 (A4) 을 표시하는 신호 (328) 를 생성할 수도 있다. 신호 (238) 는 이득 프리-컨디셔너 (318) 에 제공될 수도 있다. 이득 프리-컨디셔너 (318) 는 제 4 이득-조정된 오디오 신호 (208) 를 생성하기 위해 제 4 오디오 신호 (108) 에 이득 컨디셔닝 팩터 (G4) 를 적용하도록 구성될 수도 있다. 이득 컨디셔닝 팩터 (G4) 를 결정하기 위해, 이득 프리-컨디셔너 (318) 는 제 1 오디오 신호 (102) 의 스피치 (S) 레벨과 제 4 오디오 신호 (108) 의 제 4 오디오 레벨 (A4) 을 비교하고 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00034
) 의 오디오 레벨과 제 4 오디오 신호 (108) 의 제 4 오디오 레벨 (A4) 을 비교할 수도 있다. 이득 컨디셔닝 팩터 (G4) 는, 제 4 오디오 신호 (108) 에 적용될 때, 제 4 이득-조정된 오디오 신호 (208) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 스피치 (S) 레벨 미만이 되게 하고 제 4 이득-조정된 오디오 신호 (208) 의 오디오 레벨이 제 1 오디오 신호 (102) 의 세컨더리 성분 (
Figure pct00035
) 의 오디오 레벨을 초과하게 하는 값일 수도 있다. 제 4 이득-조정된 신호 (208) 는 최대-풀링 회로부 (220) 에 제공될 수도 있다.
최대-풀링 회로부 (220) 는 도 2 에 대하여 설명된 바와 실질적으로 유사한 방식으로 동작할 수도 있다. 예를 들어, 최대-풀링 회로부 (220) 는 이득-조정된 오디오 신호들 (204, 206, 208) 에 기초하여 비-타겟 참조 신호 (222) 를 생성할 수도 있다. 비-타겟 참조 신호 (222) 는 잡음 억제 회로부 (230) 에 제공될 수도 있다. 잡음 억제 회로부 (230) 는 도 2 에 대하여 설명된 바와 실질적으로 유사한 방식으로 동작할 수도 있다. 예를 들어, 잡음 억제 회로부 (230) 는 비-타겟 참조 신호 (222) 및 제 1 오디오 신호 (102) 에 기초하여 타겟 신호 (232) 를 생성할 수도 있다.
도 3 의 시스템 (300) 은 다른 디바이스들 (120, 130, 140) 의 마이크로폰들 (124, 134, 144) 에 의해 캡처된 오디오 신호들 (104, 106, 108) 을 이용하여 제 1 오디오 신호 (102) 의 잡음 성분들 (
Figure pct00036
) 을 감소시킬 수도 있다. 예를 들어, 비-타겟 소스 억제 (예를 들어, 잡음 억제) 는 마이크로폰 (114) 에 의해 캡처된 타겟 오디오 이벤트 (예를 들어, 제 1 오디오 신호 (102) 의 스피치 (S) 성분) 을 향상시키는데 이용되는 비-타겟 참조 신호 (222) 로서 마이크로폰들 (124, 134, 144) 의 응답들을 집성시키기 위해 잡음 감소 회로부 (118) 에 의해 이용될 수도 있다.
도 4 를 참조하면, 다수의 디바이스들로부터 캡처된 오디오 신호들을 이용하여 잡음 감소를 수행하기 위한 방법 (400) 이 도시된다. 방법 (400) 은 도 1 의 제 1 디바이스 (110), 도 1 및 도 2 의 잡음 감소 회로부 (118), 도 3 의 시스템 (300), 또는 그 조합을 이용하여 수행될 수도 있다.
방법 (400) 은 402 에서, 제 1 디바이스의 제 1 마이크로폰에서 제 1 오디오 신호를 캡처하는 단계를 포함한다. 예를 들어, 도 1 을 참조하면, 마이크로폰 (114) 은 제 1 오디오 신호 (102) 를 캡처할 수도 있다.
404 에서, 제 2 오디오 신호를 나타내는 오디오 데이터는 제 1 디바이스에서 제 2 디바이스로부터 수신될 수도 있다. 제 2 오디오 신호는 제 2 디바이스의 제 2 마이크로폰에 의해 캡처될 수도 있다. 예를 들어, 도 1 을 참조하면, 마이크로폰 (124) 은 제 2 오디오 신호 (104) 를 캡처할 수도 있다. 제 1 디바이스 (110) 의 트랜시버 (112) 는 제 2 디바이스 (120) 로부터 제 2 오디오 신호 (104) 를 나타내는 오디오 데이터 (154) 를 수신할 수도 있다. 하나의 구현에 따르면, 방법 (400) 은 또한, 제 3 디바이스로부터 제 3 오디오 신호를 나타내는 오디오 데이터를 수신하는 단계를 포함할 수도 있다. 제 3 오디오 신호는 제 3 디바이스의 제 3 마이크로폰에 의해 캡처될 수도 있다. 예를 들어, 도 1 을 참조하면, 마이크로폰 (134) 은 제 3 오디오 신호 (106) 를 캡처할 수도 있다. 트랜시버 (112) 는 제 3 디바이스 (130) 로부터 제 3 오디오 신호 (106) 를 나타내는 오디오 데이터 (156) 를 수신할 수도 있다.
406 에서, 잡음 감소는 제 2 오디오 신호를 나타내는 오디오 데이터에 적어도 부분적으로 기초하여 제 1 오디오 신호에 대해 수행될 수도 있다. 예를 들어, 도 1 및 도 2 를 참조하면, 잡음 감소 회로부 (118) 는 제 2 오디오 신호 (104) 를 나타내는 오디오 데이터 (154) 에 적어도 부분적으로 기초하여 타겟 신호 (232) 를 생성할 수도 있다. 예시하기 위해, 이득 조정 회로부 (210) 는 제 2 이득-조정된 오디오 신호 (204) 를 생성하기 위해 제 2 오디오 신호 (104) 를 나타내는 오디오 데이터 (154) 에 이득 컨디셔닝 팩터 (G2) 를 적용할 수도 있다. 최대-풀링 회로부 (220) 는 제 2 이득-조정된 오디오 신호 (204) 에 적어도 부분적으로 기초하여 비-타겟 참조 신호 (222) 를 생성할 수도 있고, 잡음 억제 회로부 (230) 는 비-타겟 참조 신호 (222) 에 기초하여 타겟 신호 (232) 를 생성 (예를 들어, 제 1 오디오 신호 (102) 에 대해 잡음 억제를 수행) 할 수도 있다. 따라서, 방법 (400) 은 제 1 디바이스에서, 제 2 오디오 신호를 나타내는 오디오 데이터에 적어도 부분적으로 기초하여 제 1 오디오 신호에 대해 잡음 감소를 수행하는 단계를 포함할 수도 있다. 방법 (400) 의 하나의 구현에 따르면, 제 1 오디오 신호에 대해 잡음 감소를 수행하는 단계는 또한, 제 3 오디오 신호를 나타내는 오디오 데이터에 기초할 수도 있다. 예시하기 위해, 이득 조정 회로부 (210) 는 제 3 이득-조정된 오디오 신호 (206) 를 생성하기 위해 제 3 오디오 신호 (106) 를 나타내는 오디오 데이터 (156) 에 이득 컨디셔닝 팩터 (G3) 를 적용할 수도 있다. 비-타겟 참조 신호 (222) 는 또한 제 3 이득-조정된 오디오 신호 (206) 에 기초할 수도 있다.
하나의 구현에 따르면, 방법 (400) 은 제 1 이득-조정된 오디오 신호를 생성하기 위해 제 2 오디오 신호에 대해 제 1 이득 프리-컨디셔닝을 수행하는 단계 및 제 2 이득-조정된 오디오 신호를 생성하기 위해 제 3 오디오 신호에 대해 제 2 이득 프리-컨디셔닝을 수행하는 단계를 포함할 수도 있다. 방법 (400) 에 따른 "제 1 이득-조정된 오디오 신호" 는 도 2 의 제 2 이득-조정된 오디오 신호 (204) 에 대응할 수도 있고, 방법 (400) 에 따른 "제 2 이득-조정된 오디오 신호" 는 도 2 의 제 3 이득-조정된 오디오 신호 (206) 에 대응할 수도 있다. 제 2 오디오 신호에 대해 제 1 이득 프리-컨디셔닝을 수행하는 단계는 제 2 오디오 신호에 이득 컨디셔닝 팩터를 적용하는 단계를 포함할 수도 있다. 하나의 구현에 따르면, 제 1 이득 프리-컨디셔닝은 제 1 오디오 신호 및 제 2 오디오 신호의 에너지 레벨들에 기초하여 수행될 수도 있다.
하나의 구현에 따르면, 방법 (400) 은 제 1 이득-조정된 오디오 신호 및 제 2 이득-조정된 오디오 신호에 기초하여 비-타겟 참조 신호를 생성하는 단계를 포함할 수도 있다. 비-타겟 참조 신호는 최대-풀링 동작을 이용하여 생성될 수도 있고, 잡음 감소를 수행하는 단계는 제 1 오디오 신호를 비-타겟 참조 신호와 결합하는 단계를 포함할 수도 있다.
도 4 의 방법 (400) 은 다른 디바이스들 (120, 130, 140) 의 마이크로폰들 (124, 134, 144) 에 의해 캡처된 오디오 신호들 (104, 106, 108) 을 이용하여 제 1 오디오 신호 (102) 의 잡음 성분들 (
Figure pct00037
) 을 감소시킬 수도 있다. 예를 들어, 비-타겟 소스 억제 (예를 들어, 잡음 억제) 는 마이크로폰 (114) 에 의해 캡처된 타겟 오디오 이벤트 (예를 들어, 제 1 오디오 신호 (102) 의 스피치 (S) 성분) 를 향상시키는데 이용되는 비-타겟 참조 신호 (222) 로서 마이크로폰들 (124, 134, 144) 의 응답들을 집성시키기 위해 잡음 감소 회로부 (118) 에 의해 이용될 수도 있다. 향상된 타겟 오디오 이벤트는 보이스-활성화된 기능들을 제 1 디바이스 (110) 내의 오디오 프로세싱 회로부가 수행하는 것을 인에이블할 수도 있다. 예를 들어, 제 1 오디오 신호 (102) 는 제 1 디바이스 (110) 의 사용자로부터의 스피치를 포함할 수도 있다. 스피치는 제 1 디바이스 (110) 에서 보이스-활성화된 기능을 개시하는 하나 이상의 커맨드들을 포함할 수도 있다. 비-타겟 소스들을 억제하는 것에 의해 타겟 오디오 이벤트를 향상 (예를 들어, 스피치를 향상) 시키는 것은 보이스-활성화된 기능들을 수행하기 위해 오디오 프로세싱 회로부가 스피치를 더 정확하게 검출하는 것을 인에이블할 수도 있다.
도 5 를 참조하면, 오디오 데이터를 이용하여 화자 검증 및 화자 인식을 수행하도록 동작가능한 시스템 (500) 이 도시된다. 시스템 (500) 은 제 1 사용자 디바이스 (510) 및 제 2 사용자 디바이스 (520) 를 포함한다. 각각의 사용자 디바이스 (510, 520) 는 마이크로폰을 통해 서라운딩 오디오 사운드들을 캡처하도록 동작가능한 전자 디바이스일 수도 있다. 2 개의 사용자 디바이스들 (510, 520) 이 시스템 (500) 에서 묘사되지만, 다른 구현들에서, 본 명세서에서 설명된 보이스 인식 기법들은 추가적인 사용자 디바이스들을 이용하여 구현될 수도 있다. 비제한적 예들로서, 본 명세서에서 설명된 보이스 인식 기법들은 8 개의 사용자 디바이스들을 이용하여 구현될 수도 있다. 하나의 구현에 따르면, 제 1 사용자 디바이스 (510) 는 도 1 의 제 1 디바이스 (110) 에 대응할 수도 있고 도 1 내지 도 4 에 대하여 설명된 잡음 억제 기법들을 수행하도록 동작가능할 수도 있다.
하나의 구현에 따르면, 사용자 디바이스들 (510, 520) 중 하나 이상은 무선 통신 디바이스 (예를 들어, 모바일 폰) 일 수도 있다. 그러나, 다른 구현들에서, 사용자 디바이스들 (510, 520) 중 하나 이상은 보이스 인식 기법들을 수행하도록 동작가능한 다른 전자 디바이스들일 수도 있다. 비제한적 예들로서, 사용자 디바이스들 (510, 520) 중 하나 이상은 랩톱 컴퓨터, 컴퓨터, 태블릿, PDA 등일 수도 있다. 제 1 사용자 디바이스 (510) 는 제 1 보이스를 갖는 제 1 화자 (A) 와 연관될 수도 있고, 제 2 사용자 디바이스 (520) 는 제 2 보이스를 갖는 제 2 화자 (B) 와 연관될 수도 있다. 예를 들어, 제 1 사용자 디바이스 (510) 에는 제 1 화자 (A) 가 등록될 수도 있고, 제 2 사용자 디바이스 (520) 에는 제 2 화자 (B) 가 등록될 수도 있다.
제 1 사용자 디바이스 (510) 는 트랜시버 (512), 마이크로폰 (513), 프로세서 (514), 및 메모리 (515) 를 포함한다. 하나의 구현에 따르면, 트랜시버 (512) 대신에, 제 1 사용자 디바이스 (510) 는 수신기 및 송신기를 포함할 수도 있다. 프로세서 (514) 는 화자 검증 회로부 (516) 및 피처 벡터 생성 회로부 (517) 를 포함한다. 메모리 (515) 는 스피치 모델 (518) 을 포함한다. 아래에 설명되는 바와 같이, 스피치 모델 (518) 은 제 1 화자 (A) 의 제 1 보이스의 오디오 속성들을 표시하는 데이터를 포함한다.
제 2 사용자 디바이스 (520) 는 트랜시버 (522), 마이크로폰 (523), 프로세서 (524), 및 메모리 (525) 를 포함한다. 하나의 구현에 따르면, 트랜시버 (522) 대신에, 제 2 사용자 디바이스 (520) 는 수신기 및 송신기를 포함할 수도 있다. 프로세서 (524) 는 화자 검증 회로부 (526) 및 피처 벡터 생성 회로부 (527) 를 포함한다. 메모리 (525) 는 스피치 모델 (528) 을 포함한다. 아래에 설명되는 바와 같이, 스피치 모델 (528) 은 제 2 화자 (B) 의 제 2 보이스의 오디오 속성들을 표시하는 데이터를 포함한다.
제 1 화자 (A) 는 말을 하여 제 1 보이스를 포함하는 제 1 오디오 신호 (502) 를 생성할 수도 있다. 시스템 (500) 의 레이아웃에 따르면, 제 1 화자 (A) 는 제 2 사용자 디바이스 (520) 에 상대적으로 아주 근접하여 있을 수도 있다. 따라서, 제 2 사용자 디바이스 (520) 의 마이크로폰 (523) 은 제 1 보이스를 포함하는 제 1 오디오 신호 (502) 를 캡처할 수도 있다. 제 1 오디오 신호 (502) 를 캡처 시에, 피처 벡터 생성 회로부 (527) 는 제 1 오디오 신호 (502) 에 기초하여 하나 이상의 모델들 (예를 들어, 스피치 모델들) 을 생성하도록 구성될 수도 있다. 피처 벡터 생성 회로부 (527) 는 하나 이상의 모델들에 기초하여 제 1 오디오 데이터 (506) (예를 들어, 하나 이상의 피처 벡터들) 를 생성할 수도 있다. 제 1 오디오 데이터 (506) 의 생성 시에, 트랜시버 (522) 는 제 1 사용자 디바이스 (510) 에 제 1 오디오 데이터 (506) 를 송신할 수도 있다. 제 1 오디오 데이터 (506) 는 제 1 사용자 디바이스 (510) 에 직접 송신되거나 또는 제 1 사용자 디바이스 (510) 에 간접 송신될 수도 있다. 직접 송신의 비제한적 예들은 IEEE 802.11 (예를 들어, "Wi-Fi") 피어-투-피어 송신들, 적외선 송신들 등을 포함한다. 간접 송신의 비제한적 예들은 셀룰러 송신들, 네트워크-기반 송신들, 클라우드-기반 송신들 등을 포함한다.
다른 구현에 따르면, 제 2 사용자 디바이스 (520) 는 제 1 사용자 디바이스 (510) 에 제 1 오디오 신호 (502) (또는 제 1 오디오 신호 (502) 의 카피) 를 송신할 수도 있다. 제 2 사용자 디바이스 (520) 로부터 제 1 오디오 신호 (502) 를 수신 시에, 제 1 사용자 디바이스 (510) 의 피처 벡터 생성 회로부 (517) 는 제 1 오디오 신호 (502) 에 기초하여 하나 이상의 모델들 (예를 들어, 스피치 모델들) 을 생성하도록 구성될 수도 있다. 예를 들어, 제 1 오디오 데이터 (506) 는, 제 2 사용자 디바이스 (502) 에서 생성되어 제 1 사용자 디바이스 (510) 에 송신되는 것이 아니라 제 1 사용자 디바이스 (510) 에서 생성될 수도 있다.
제 1 사용자 디바이스 (510) 는 제 2 사용자 디바이스 (520) 로부터 제 1 오디오 데이터 (506) 를 수신하고 (또는 제 2 사용자 디바이스 (520) 에 의해 제공된 제 1 오디오 신호 (502) 의 카피로부터 제 1 오디오 데이터 (506) 를 생성) 할 수도 있고 말을 하는 사람 (예를 들어, 제 1 화자 (A)) 을 제 1 사용자 디바이스 (510) 에서의 보이스-활성화된 커맨드들과 연관된 한 명 이상의 사람들에 매칭시키기 위해 제 1 오디오 데이터 (506) 에 기초하여 화자 검증 기능 및/또는 화자 인식 기능을 수행할 수도 있다. 예를 들어, 트랜시버 (512) 는 제 1 오디오 데이터 (506) 를 수신하도록 구성될 수도 있고, 화자 검증 회로부 (516) 는 제 1 오디오 데이터 (506) 와 연관된 보이스가 제 1 화자 (A) 에 속하는지 여부를 결정하기 위해 제 1 오디오 데이터 (506) 에 기초하여 화자 검증 기능을 수행할 수도 있다.
예시하기 위해, 화자 검증 회로부 (516) 는 제 1 오디오 데이터 (506) 에서의 하나 이상의 피처 벡터들에 기초하여 제 1 화자 (A) 가 제 1 사용자 디바이스 (510) 에서의 보이스-활성화된 커맨드들과 연관되는지 여부를 표시하는 우도 값 (예를 들어, 스코어 또는 "최대 우도") 를 결정하도록 구성될 수도 있다. 예를 들어, 화자 검증 회로부 (516) 는 메모리 (515) 로부터 스피치 모델 (518) 을 취출할 수도 있다. 스피치 모델 (518) 은 제 1 사용자 디바이스 (510) 에서의 보이스-활성화된 커맨드들과 연관된 한 명 이상의 사람들의 오디오 속성들 (예를 들어, 주파수들, 피치 (pitch) 등) 을 표시할 수도 있다. 예를 들어, 스피치 모델 (518) 에서의 제 1 보이스의 오디오 속성들은 보이스 모델들 및/또는 오디오 모델들을 이용하여 표시될 수도 있다. 스피치 모델 (518) 을 취출 시에, 화자 검증 회로부 (516) 는 제 1 오디오 데이터 (506) 에서의 하나 이상의 피처 벡터들과 스피치 모델 (518) 에서의 보이스/오디오 모델들을 비교할 수도 있다.
화자 검증 회로부 (516) 는 그 비교에 기초하여 (제 1 화자 (A) 가 제 1 사용자 디바이스 (510) 에서의 보이스-활성화된 커맨드들과 연관되는) 우도 값을 결정할 수도 있다. 예를 들어, 화자 검증 회로부 (516) 는 하나 이상의 피처 벡터들의 주파수, 피치, 또는 그 조합과, 스피치 모델 (518) 에서의 보이스/오디오 모델들의 주파수, 피치, 또는 그 조합을 비교할 수도 있다. 주파수/피치가 실질적으로 동일하다면, 우도 값은 상대적으로 높을 수도 있다 (예를 들어, 임계치를 충족할 수도 있다). 주파수/피치가 실질적으로 동일하지 않으면, 우도 값은 상대적으로 낮을 수도 있다 (예를 들어, 임계치를 충족하지 않을 수도 있다). 우도 값을 결정 시에, 화자 검증 회로부 (516) 는 우도 값이 임계치를 충족하는지 여부를 결정할 수도 있다. 우도 값이 임계치를 충족하면, 프로세서 (514) 는 제 1 사용자 디바이스 (510) 에서 하나 이상의 기능들을 인에이블할 수도 있다. 예를 들어, 프로세서 (514) 는 전화를 거는 것, 정보를 제공하는 것 등과 같은 하나 이상의 보이스-활성화된 기능들을 인에이블할 수도 있다. 하나의 구현에 따르면, 제 1 오디오 데이터 (506) 는 제 1 오디오 신호 (502) 의 카피를 포함할 수도 있고, 보이스-활성화된 기능들은 제 1 오디오 신호 (502) 의 카피에서의 스피치에 기초할 수도 있다.
제 2 화자 (B) 는 말을 하여 제 2 보이스를 포함하는 제 2 오디오 신호 (504) 를 생성할 수도 있다. 제 2 화자 (B) 는 제 1 사용자 디바이스 (510) 에 상대적으로 아주 근접하여 있을 수도 있다. 따라서, 제 1 사용자 디바이스 (510) 의 마이크로폰 (513) 은 제 2 보이스를 포함하는 제 2 오디오 신호 (504) 를 캡처할 수도 있다. 제 2 오디오 신호 (504) 를 캡처 시에, 피처 벡터 생성 회로부 (517) 는 제 2 오디오 신호 (504) 에 기초하여 하나 이상의 모델들 (예를 들어, 스피치 모델들) 을 생성하도록 구성될 수도 있다. 피처 벡터 생성 회로부 (517) 는 하나 이상의 모델들에 기초하여 제 2 오디오 데이터 (508) (예를 들어, 하나 이상의 피처 벡터들) 를 생성할 수도 있다. 제 2 오디오 데이터 (508) 의 생성 시에, 트랜시버 (512) 는 제 2 사용자 디바이스 (520) 에 제 2 오디오 데이터 (508) 를 송신할 수도 있다.
제 2 사용자 디바이스 (520) 는 제 2 오디오 데이터 (508) 를 수신할 수도 있고 말을 하는 사람 (예를 들어, 제 2 화자 (B)) 을 제 2 사용자 디바이스 (520) 에서의 보이스-활성화된 커맨드들과 연관된 한 명 이상의 사람들에 매칭시키기 위해 제 2 오디오 데이터 (508) 에 기초하여 화자 검증 기능 및/또는 화자 인식 기능을 수행할 수도 있다. 예를 들어, 트랜시버 (522) 는 제 2 오디오 데이터 (508) 를 수신하도록 구성될 수도 있고, 화자 검증 회로부 (526) 는 제 2 오디오 데이터 (508) 와 연관된 보이스가 제 2 화자 (B) 에 속하는지 여부를 결정하기 위해 제 2 오디오 데이터 (508) 에 기초하여 화자 검증 기능을 수행할 수도 있다.
예시하기 위해, 화자 검증 회로부 (526) 는, 제 2 오디오 데이터 (508) 에서의 하나 이상의 피처 벡터들에 기초하여 제 2 화자 (B) 가 제 2 사용자 디바이스 (520) 에서의 보이스-활성화된 커맨드들과 연관되는지 여부를 표시하는 우도 값 (예를 들어, 스코어 또는 "최대 우도") 을 결정하도록 구성될 수도 있다. 예를 들어, 화자 검증 회로부 (526) 는 메모리 (525) 로부터 스피치 모델 (528) 을 취출할 수도 있다. 스피치 모델 (528) 은 제 2 사용자 디바이스 (520) 에서의 보이스-활성화된 커맨드들과 연관된 한 명 이상의 사람들의 오디오 속성들을 표시할 수도 있다. 예를 들어, 스피치 모델 (528) 에서의 제 2 보이스의 오디오 속성들은 보이스 모델들 및/또는 오디오 모델들을 이용하여 표시될 수도 있다. 스피치 모델 (528) 을 취출 시에, 화자 검증 회로부 (526) 는 제 2 오디오 데이터 (508) 에서의 하나 이상의 피처 벡터들과 스피치 모델 (528) 에서의 보이스/오디오 모델들을 비교할 수도 있다.
화자 검증 회로부 (526) 는 그 비교에 기초하여 (제 2 화자 (B) 가 제 2 사용자 디바이스 (520) 에서의 보이스-활성화된 커맨드들과 연관되는) 우도 값을 결정할 수도 있다. 우도 값을 결정 시에, 화자 검증 회로부 (526) 는 우도 값이 임계치를 충족하는지 여부를 결정할 수도 있다. 우도 값이 임계치를 충족하면, 프로세서 (524) 는 제 2 사용자 디바이스 (520) 에서 하나 이상의 기능들을 인에이블할 수도 있다. 예를 들어, 프로세서 (524) 는 전화를 거는 것, 정보를 제공하는 것 등과 같은 하나 이상의 보이스-활성화된 기능들을 인에이블할 수도 있다. 하나의 구현에 따르면, 제 2 오디오 데이터 (508) 는 제 2 오디오 신호 (504) 의 카피를 포함할 수도 있고, 보이스-활성화된 기능들은 제 2 오디오 신호 (504) 의 카피에서의 스피치에 기초할 수도 있다.
도 5 의 시스템 (500) 은 사용자 (예를 들어, 제 1 화자 (A) 및/또는 제 2 화자 (B)) 가 그 사용자 자신의 디바이스가 아닌 사용자 디바이스 근처에서 말을 하는 것을 인에이블하고 사용자 자신의 디바이스에서 보이스-활성화된 기능성을 인에이블할 수도 있다. 예를 들어, 제 1 화자 (A) 는 제 2 화자 (B) 의 디바이스 (예를 들어, 제 2 사용자 디바이스 (520)) 근처에서 말을 할 수도 있고 보이스-활성화된 기능성이 제 1 화자 (A) 의 디바이스 (예를 들어, 제 1 사용자 디바이스 (510)) 에서 인에이블될 수도 있다. 사용자 디바이스들 (510, 520) 은 피처 벡터들 (예를 들어, 오디오 데이터 (506, 508)) 을 공유하고 보이스 또는 오디오 모델들 (예를 들어, 스피치 모델들 (518, 528)) 을 공유하지 않기 때문에, 독점적인 보이스 또는 오디오 모델들은 다른 사용자 디바이스들과 공유되지 않는다.
도 6 을 참조하면, 오디오 데이터를 이용하여 화자 검증 및 화자 인식을 위한 프로세스 플로우 다이어그램 (600) 이 도시된다. 프로세스 플로우 다이어그램 (600) 에서의 단계들은 도 1 의 제 1 디바이스 (110), 도 5 의 제 1 사용자 디바이스 (510), 도 5 의 제 2 사용자 디바이스 (520), 또는 그 조합을 이용하여 수행될 수도 있다. 예시의 용이함을 위해, 프로세스 플로우 다이어그램 (600) 은 다르게 언급하지 않는 한, 도 5 의 시스템 (500) 에 대하여 설명된다.
제 1 사용자 디바이스 (510) 는 제 1 사용자 디바이스 입력 (610) 을 수신할 수도 있다. 예를 들어, 제 1 사용자 디바이스 (510) 는 도 5 의 제 2 오디오 신호 (504) 를 수신할 수도 있다. 제 1 사용자 디바이스 (510) 는 또한, 아래에 설명되는 바와 같이, 협력적 잡음 억제를 위해 제 1 사용자 디바이스 입력 (610) 을 제 2 사용자 디바이스 (520) 에 제공할 수도 있다. 제 2 사용자 디바이스 (520) 는 제 2 사용자 디바이스 입력 (620) 을 수신할 수도 있다. 예를 들어, 제 2 사용자 디바이스 (520) 는 도 5 의 제 1 오디오 신호 (502) 를 수신할 수도 있다. 제 2 사용자 디바이스 (520) 는, 아래에 설명되는 바와 같이, 협력적 잡음 억제를 위해 제 2 사용자 디바이스 입력 (620) 을 제 1 사용자 디바이스 (510) 에 제공할 수도 있다.
611 에서, 제 1 사용자 디바이스 (510) 는 제 2 사용자 디바이스 입력 (620) 과 연관된 잡음을 실질적으로 감소 또는 억제하기 위해 협력적 잡음 억제를 수행할 수도 있다. 제 1 사용자 디바이스 (510) 는 제 1 사용자 디바이스 (510) 에 의해 캡처된 (제 2 사용자 디바이스 입력 (620) 과 연관된) 잡음을 억제하기 위해 도 1 에 대하여 설명된 잡음 억제 기법들을 이용할 수도 있다. 예를 들어, 제 2 사용자 디바이스 (520) 는 잡음 간섭 및 잔향을 억제하기 위해 제 2 사용자 디바이스 입력 (620) 을 제 1 사용자 디바이스 (510) 에 제공 (예를 들어, "공유") 할 수도 있다. 제 1 사용자 디바이스 (510) 는 제 1 사용자 디바이스 입력 (610) 을 실질적으로 구분하기 위해 디바이스 입력들 (610, 620) 에 대해 이득 프리-컨디셔닝 동작 및 최대-풀링 동작을 수행할 수도 있다. 621 에서, 제 2 사용자 디바이스 (520) 는 제 1 사용자 디바이스 입력 (610) 과 연관된 잡음을 실질적으로 감소 또는 억제하기 위해 협력적 잡음 억제를 수행할 수도 있다. 제 2 사용자 디바이스 (520) 는 제 2 사용자 디바이스 (520) 에 의해 캡처된 (제 1 사용자 디바이스 입력 (610) 과 연관된) 잡음을 억제하기 위해 도 1 에 대하여 설명된 잡음 억제 기법들을 이용할 수도 있다. 예를 들어, 제 1 사용자 디바이스 (510) 는 잡음 간섭 및 잔향을 억제하기 위해 제 1 사용자 디바이스 입력 (610) 을 제 2 사용자 디바이스 (520) 에 제공할 수도 있다. 제 2 사용자 디바이스 (520) 는 제 2 사용자 디바이스 입력 (620) 을 실질적으로 구분하기 위해 디바이스 입력들 (610, 620) 에 대해 이득 프리-컨디셔닝 동작 및 최대-풀링 동작을 수행할 수도 있다.
612 에서, 제 1 사용자 디바이스 (510) 는 제 2 사용자 디바이스 입력 (620) 과 연관된 잡음이 억제된 후에 제 1 사용자 디바이스 입력 (610) 에 기초하여 피처들 (예를 들어, 하나 이상의 피처 벡터들) 을 생성할 수도 있다. 614 에서, 제 2 사용자 디바이스 (520) 는 제 1 사용자 디바이스 입력 (610) 과 연관된 잡음이 억제된 후에 제 2 사용자 디바이스 입력 (620) 에 기초하여 피처들을 생성할 수도 있다. 제 1 사용자 디바이스 (510) 는 제 2 사용자 디바이스 (520) 에 생성된 피처들 (예를 들어, 도 5 의 제 1 오디오 데이터 (506)) 을 제공할 수도 있고, 제 2 사용자 디바이스 (520) 는 제 1 사용자 디바이스 (510) 에 생성된 피처들 (예를 들어, 도 5 의 제 2 오디오 데이터 (508)) 을 제공할 수도 있다. 생성된 피처들을 공유하는 것은 개개의 스피치 모델들 (예를 들어, 도 5 의 스피치 모델들 (518, 528)) 을 공유하지 않고, 아래에 설명되는 바와 같이, 화자 검증 기능을 각각의 사용자 디바이스 (510, 520) 가 수행하는 것을 인에이블할 수도 있다.
613 에서, 제 1 사용자 디바이스 (510) 는 제 1 사용자 디바이스 (510) 에서 생성된 피처 벡터들에 대해 및 제 2 사용자 디바이스 (520) 에서 생성된 피처 벡터들에 대해 화자 식별/검증 및 최대 값 선택을 수행할 수도 있다. 예를 들어, 주어진 프레임에 대해, 제 1 사용자 디바이스 (510) 는 피처 벡터들의 최대 값을 선정할 수도 있다. 614 에서, 제 1 사용자 디바이스 (510) 는 제 1 사용자 디바이스 (510) 에서 생성된 피처 벡터의 최대 값이, 제 1 사용자 디바이스 입력 (610) 이 제 1 사용자 디바이스 (510) 의 화자와 연관된다는 것을 표시할 가능성을 결정할 수도 있다. 제 1 사용자 디바이스 (510) 는 또한, 제 2 사용자 디바이스 (520) 에서 생성된 피처 벡터의 최대 값이, 제 2 사용자 디바이스 입력 (620) 이 제 1 사용자 디바이스 (510) 의 화자와 연관된다는 것을 표시할 가능성을 결정할 수도 있다.
615 에서, 제 1 사용자 디바이스 (510) 는 화자 검증에 기초하여 식별된 액션 (예를 들어, 보이스-활성화된 기능) 을 수행할 수도 있다. 예를 들어, 제 1 사용자 디바이스 (510) 는 제 1 사용자 디바이스 입력 (610) 이 제 1 사용자 디바이스 (510) 의 인가된 사용자로부터의 스피치와 연관된다는 것을 검증 시에 제 1 사용자 디바이스 입력 (610) 에 기초하여 기능을 수행할 수도 있다. 비제한적 예로서, 제 1 사용자 디바이스 입력 (610) 이 "오늘 샌디에고의 날씨는 어떤가요?" 라고 말하는 사용자 스피치에 대응한다면, 제 1 사용자 디바이스 (510) 는 "높게는 80 도이고 낮게는 65 도로 오늘도 평상시처럼 매우 화창합니다" 를 말하는 메시지를 출력할 수도 있다. 제 1 사용자 디바이스 (510) 는 제 2 사용자 디바이스 입력 (620) 이 제 1 사용자 디바이스 (510) 의 인가된 사용자로부터의 스피치와 연관된다는 것을 검증 시에 제 2 사용자 디바이스 입력 (620) 에 기초하여 유사한 기능을 수행할 수도 있다. 하나의 구현에 따르면, 제 1 사용자 디바이스 (510) 는 제 2 사용자 디바이스 (520) (또는 다른 디바이스) 에게, 메시지를 출력할 것을 명령 (예를 들어, 명령하는 메시지를 전송) 할 수도 있다.
623 에서, 제 2 사용자 디바이스 (520) 는 제 1 사용자 디바이스 (510) 에서 생성된 피처 벡터들에 대해 그리고 제 2 사용자 디바이스 (520) 에서 생성된 피처 벡터들에 대해 화자 식별/검증 및 최대 값 선택을 수행할 수도 있다. 예를 들어, 주어진 프레임에 대해, 제 2 사용자 디바이스 (520) 는 피처 벡터들의 최대 값을 선정할 수도 있다. 624 에서, 제 2 사용자 디바이스 (520) 는 제 1 사용자 디바이스 (510) 에서 생성된 피처 벡터의 최대 값이, 제 1 사용자 디바이스 입력 (610) 이 제 2 사용자 디바이스 (520) 의 화자와 연관된다는 것을 표시할 가능성을 결정할 수도 있다. 제 2 사용자 디바이스 (520) 는 또한, 제 2 사용자 디바이스 (520) 에서 생성된 피처 벡터의 최대 값이, 제 2 사용자 디바이스 입력 (620) 이 제 2 사용자 디바이스 (520) 의 화자와 연관된다는 것을 표시할 가능성을 결정할 수도 있다.
625 에서, 제 2 사용자 디바이스 (520) 는 화자 검증에 기초하여 식별된 액션 (예를 들어, 보이스-활성화된 기능) 을 수행할 수도 있다. 예를 들어, 제 2 사용자 디바이스 (520) 는 제 1 사용자 디바이스 입력 (610) 이 제 2 사용자 디바이스 (520) 의 인가된 사용자로부터의 스피치와 연관된다는 것을 검증 시에 제 1 사용자 디바이스 입력 (610) 에 기초하여 기능을 수행할 수도 있다. 대안적으로, 제 2 사용자 디바이스 (520) 는 제 2 사용자 디바이스 입력 (620) 이 제 2 사용자 디바이스 (520) 의 인가된 사용자로부터의 스피치와 연관된다는 것을 검증 시에 제 2 사용자 디바이스 입력 (620) 에 기초하여 유사한 기능을 수행할 수도 있다.
도 6 의 프로세스 플로우 다이어그램 (600) 은 사용자 자신의 디바이스가 아닌 사용자 디바이스 근처에서 사용자가 말을 하는 것을 인에이블하고 사용자 자신의 디바이스에서 보이스-활성화된 기능성을 인에이블할 수도 있다. 예를 들어, 사용자 디바이스들 (510, 520) 에서 캡처된 입력들 (610, 620) 로부터의 피처 벡터들은 화자 검증을 위해 각각의 사용자 디바이스 (510, 520) 에 제공될 수도 있다. 입력이 디바이스의 인가된 사용자로부터의 스피치와 연관된다는 것을 검증 시에, 디바이스는 입력과 연관된 액션을 수행할 수도 있다.
도 7 을 참조하면, 오디오 데이터를 이용하여 화자 검증 및 화자 인식을 수행하기 위한 방법 (700) 이 도시된다. 방법 (700) 은 도 1 의 제 1 디바이스 (110), 도 5 의 제 1 사용자 디바이스 (510), 또는 도 5 의 제 2 사용자 디바이스 (520) 를 이용하여 수행될 수도 있다.
방법 (700) 은 702 에서, 제 1 사용자 디바이스에서 제 2 사용자 디바이스로부터 오디오 데이터를 수신하는 단계를 포함한다. 오디오 데이터는 제 2 사용자 디바이스의 마이크로폰에서 캡처된 오디오 신호에 기초할 수도 있다. 예를 들어, 도 5 를 참조하면, 제 1 사용자 디바이스 (510) 는 제 2 사용자 디바이스 (520) 로부터 제 1 오디오 데이터를 수신할 수도 있다. 제 1 오디오 데이터 (506) 는 제 2 사용자 디바이스 (520) 의 마이크로폰 (523) 에서 캡처된 제 1 오디오 신호 (502) 에 기초할 수도 있다.
704 에서, 화자 검증 기능은 오디오 데이터에 의해 표현된 보이스가 특정한 보이스에 매칭할 가능성을 표시하는 우도 값을 결정하기 위해 오디오 데이터에 기초하여 수행될 수도 있다. 예를 들어, 도 5 를 참조하면, 화자 검증 회로부 (516) 는 제 1 오디오 데이터 (506) 에서의 하나 이상의 피처 벡터들에 기초하여 제 1 화자 (A) 가 제 1 사용자 디바이스 (510) 에서의 보이스-활성화된 커맨드들과 연관되는지 여부를 표시하는 우도 값을 결정할 수도 있다. 예를 들어, 화자 검증 회로부 (516) 는 메모리 (515) 로부터 스피치 모델 (518) 을 취출할 수도 있다. 스피치 모델 (518) 을 취출 시에, 화자 검증 회로부 (516) 는 제 1 오디오 데이터 (506) 에서의 하나 이상의 피처 벡터들과 스피치 모델 (518) 에서의 보이스/오디오 모델들을 비교할 수도 있다. 화자 검증 회로부 (516) 는 그 비교에 기초하여 우도 값을 결정할 수도 있다.
706 에서, 제 1 사용자 디바이스의 하나 이상의 기능들은 우도 값이 임계치를 초과하는 것에 응답하여 인에이블될 수도 있다. 예를 들어, 도 5 를 참조하면, 화자 검증 회로부 (516) 는 우도 값이 임계치를 충족하는지 여부를 결정할 수도 있다. 우도 값이 임계치를 충족하면, 프로세서 (514) 는 제 1 사용자 디바이스 (510) 에서 하나 이상의 기능들을 인에이블할 수도 있다. 예를 들어, 프로세서 (514) 는 전화를 거는 것, 정보를 제공하는 것 등과 같은 하나 이상의 보이스-활성화된 기능들을 인에이블할 수도 있다.
방법 (700) 의 하나의 구현에 따르면, 오디오 데이터는 오디오 신호에 기초한 하나 이상의 피처 벡터들을 포함한다. 화자 검증 기능을 수행하는 단계는 하나 이상의 피처 벡터들과 제 1 사용자 디바이스에 저장된 스피치 모델을 비교하는 단계 및 그 비교에 기초하여 우도 값을 결정하는 단계를 포함할 수도 있다. 스피치 모델은 특정한 보이스의 오디오 속성들 및 하나 이상의 추가적인 보이스들에 대한 오디오 속성들을 표시할 수도 있다. 특정한 보이스는 제 1 사용자 디바이스와 연관될 수도 있다. 방법 (700) 의 하나의 구현에 따르면, 하나 이상의 기능들은 보이스-활성화된 기능 (예를 들어, 오디오 통화) 을 포함할 수도 있다.
도 7 의 방법 (700) 은 사용자 자신의 디바이스가 아닌 사용자 디바이스 근처에서 사용자 (예를 들어, 제 1 화자 (A) 및/또는 제 2 화자 (B)) 가 말을 하는 것을 인에이블하고 사용자 자신의 디바이스에서 보이스-활성화된 기능성을 인에이블할 수도 있다. 예를 들어, 제 1 화자 (A) 는 제 2 화자 (B) 의 디바이스 (예를 들어, 제 2 사용자 디바이스 (520)) 근처에서 말을 할 수도 있고 보이스-활성화된 기능성이 제 1 화자 (A) 의 디바이스 (예를 들어, 제 1 사용자 디바이스 (510)) 에서 인에이블될 수도 있다. 사용자 디바이스들 (510, 520) 은 피처 벡터들 (예를 들어, 오디오 데이터 (506, 508)) 을 공유하고 보이스 또는 오디오 모델들 (예를 들어, 스피치 모델들 (518, 528)) 을 공유하지 않기 때문에, 독점적인 보이스 또는 오디오 모델들은 다른 사용자 디바이스들과 공유되지 않는다.
도 8 을 참조하면, 사용자 디바이스의 그래픽 사용자 인터페이스 (GUI) (800) 가 도시된다. 하나의 구현에 따르면, GUI (800) 는 도 1 의 제 1 디바이스 (110), 도 5 의 제 1 사용자 디바이스 (510), 또는 도 5 의 제 2 사용자 디바이스 (520) 의 GUI 일 수도 있다.
GUI (800) 는 다수의 영역들을 갖는 에어리어의 표현을 디스플레이할 수도 있다. 에어리어의 비제한적 예들은 방, 건물의 부분, 옥외 공간 등을 포함할 수도 있다. 하나 이상의 오디오 캡처 디바이스들 (810, 820, 830) 은 에어리어에 로케이트될 수도 있다. 도 8 을 참조하면, 제 1 오디오 캡처 디바이스 (810) 는 에어리어에 로케이트될 수도 있고, 제 2 오디오 캡처 디바이스 (820) 는 에어리어에 로케이트될 수도 있고, 제 3 오디오 캡처 디바이스 (830) 는 에어리어에 로케이트될 수도 있다. 도 8 의 구현에서, GUI (800) 는 제 1 오디오 캡처 디바이스 (810) 의 GUI 일 수도 있다. 따라서, 제 1 오디오 캡처 디바이스 (810) 는 GUI (800) 를 디스플레이하고 있는 디바이스를 표현할 수도 있다. 특정한 구현에 따르면, 제 1 오디오 캡처 디바이스 (810) 는 도 1 의 제 1 디바이스 (110), 도 5 의 제 1 사용자 디바이스 (510), 또는 도 5 의 제 2 사용자 디바이스 (520) 에 대응할 수도 있다.
제 1 오디오 캡처 디바이스 (810) 는 제 1 오디오 신호 (812) 를 캡처하도록 구성될 수도 있고, 제 2 오디오 캡처 디바이스 (820) 는 제 2 오디오 신호 (822) 를 캡처하도록 구성될 수도 있고, 제 3 오디오 캡처 디바이스 (830) 는 제 3 오디오 신호 (832) 를 캡처하도록 구성될 수도 있다. 각각의 오디오 캡처 디바이스 (810, 820, 830) 는 도 1 에 대하여 설명된 잡음 억제 기법들 및 도 5 에 대하여 설명된 화자 검증 기법들을 수행하도록 동작가능할 수도 있다. 비제한적 에로서, 제 2 및 제 3 오디오 캡처 디바이스들 (820, 830) 은 제 2 및 제 3 오디오 신호 (822, 832) 를, 각각, 제 1 오디오 캡처 디바이스 (810) 로 전송하도록 구성될 수도 있다. 제 1 오디오 캡처 디바이스 (810) 는 제 1 오디오 신호 (812) 를 실질적으로 구분하기 위해 오디오 신호들 (812, 822, 832) 에 대해 이득 프리-컨디셔닝 동작 및 최대-풀링 동작을 수행할 수도 있다.
상기 설명한 바와 같이, GUI (800) 는 오디오 캡처 디바이스들 (810, 820, 830) 을 포함하는 에어리어의 표현을 디스플레이할 수도 있다. 예를 들어, GUI (800) 는 에어리어의 제 1 영역 (801), 에어리어의 제 2 영역 (802), 에어리어의 제 3 영역 (803), 에어리어의 제 4 영역 (804), 에어리어의 제 5 영역 (805), 에어리어의 제 6 영역 (806), 에어리어의 제 7 영역 (807), 에어리어의 제 8 영역 (808), 및 에어리어의 제 9 영역 (809) 의 표현을 디스플레이할 수도 있다. GUI (800) 에 따르면, 제 1 오디오 캡처 디바이스 (810) 는 제 5 영역 (805) 에 로케이트될 수도 있고, 제 2 오디오 캡처 디바이스 (820) 는 제 1 영역 (801) 에 로케이트될 수도 있고, 제 3 오디오 캡처 디바이스 (830) 는 제 9 영역 (809) 에 로케이트될 수도 있다. 하나의 구현에 따르면, 각각의 오디오 캡처 디바이스 (810, 820, 830) 에 대한 로케이션은 실내 내비게이션 툴을 이용하여 획득될 수도 있다. 제 1 오디오 캡처 디바이스 (810) 와 제 2 오디오 캡처 디바이스 (820) 간의 거리 (D1) 가 실내 내비게이션 툴을 이용하여 결정될 수도 있고, 제 1 오디오 캡처 디바이스 (810) 와 제 3 오디오 캡처 디바이스 (830) 간의 거리 (D2) 가 또한 실내 내비게이션 툴을 이용하여 결정될 수도 있다. 추가적으로, 거리들 (D1, D2) 은 3 차원적 효과를 갖는 그리드 (미도시) 를 이용하여 예시될 수도 있다. 비제한적 예로서, 제 2 오디오 캡처 디바이스 (820) 가 제 3 오디오 캡처 디바이스 (830) 보다 제 1 오디오 캡처 디바이스 (810) 로부터 더 멀리 떨어져 있다면, 제 2 오디오 캡처 디바이스 (820) 는 제 3 오디오 캡처 디바이스 (830) 보다 "더 작게" 나타날 수도 있다. 다른 구현에 따르면, 각각의 오디오 캡처 디바이스 (810, 820, 830) 의 로케이션은 GUI (800) 의 사용자에 의해 수동으로 입력될 수도 있다.
제 1 오디오 캡처 디바이스 (810) 는 제 2 오디오 캡처 디바이스 (820) 로부터의 오디오 데이터 및 제 3 오디오 캡처 디바이스 (830) 로부터의 오디오 데이터를 수신하도록 구성될 수도 있다. 예를 들어, 제 2 오디오 캡처 디바이스 (820) 는 제 1 오디오 캡처 디바이스 (810) 에 제 2 오디오 신호 (822) 를 송신할 수도 있고, 제 3 오디오 캡처 디바이스 (830) 는 제 1 오디오 캡처 디바이스 (810) 에 제 3 오디오 신호 (832) 를 송신할 수도 있다. 제 1 오디오 캡처 디바이스 (810) 는 제 2 오디오 캡처 디바이스 (820) 로부터의 오디오 데이터 및 제 3 오디오 캡처 디바이스 (830) 로부터의 오디오 데이터를 수신하도록 구성된 수신기를 포함할 수도 있다. 제 2 및 제 3 오디오 캡처 디바이스들 (820, 830) 은 모바일 폰, 태블릿, 개인 휴대 정보 단말기 (PDA), 랩톱 컴퓨터, 컴퓨터, 디스플레이 디바이스, 게이밍 콘솔, 뮤직 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 튜너, 카메라, 내비게이션 디바이스, 셋-톱 박스, 텔레비전, 세탁기 등일 수도 있다.
제 1 오디오 캡처 디바이스 (810) 는 GUI (800) 의 하나 이상의 선택된 영역들 (801 내지 809) 을 표시하는 사용자 입력을 수신할 수도 있다. 비제한적 예로서, 사용자 입력은 제 1 영역 (801) (예를 들어, 제 2 오디오 캡처 디바이스 (820) 를 포함하는 영역) 이 선택되었다는 것을 표시할 수도 있다. 제 1 오디오 디바이스 (810) 는 입력을 수신하도록 구성된 인터페이스를 포함할 수도 있다. 사용자 입력에 기초하여, 제 1 오디오 캡처 디바이스 (810) 는 제 2 오디오 캡처 디바이스 (820) 로부터의 오디오 데이터에 기초하여 오디오 출력을 생성할 수도 있다. 예를 들어, 제 1 오디오 캡처 디바이스 (810) 는 사용자 입력이 제 1 영역 (801) 이 선택된다는 것을 표시하면 제 2 오디오 신호 (822) 에 대응하는 오디오 출력을 생성할 수도 있다. 제 1 오디오 캡처 디바이스 (810) 는 제 2 오디오 신호 (822) 에 대응하는 오디오 출력을 프로젝팅하도록 구성된 스피커를 포함할 수도 있다. 표시된 예에서, 다른 영역들 (802 내지 809) (예를 들어, 미선택된 영역들) 로부터의 오디오 데이터에 기초한 오디오 출력은 제 1 오디오 캡처 디바이스 (810) 에서 억제될 수도 있다. 제 1 오디오 캡처 디바이스 (810) 는 다른 영역들 (802 내지 809) 로부터의 오디오 출력을 억제하기 위해 도 1 에 대하여 설명된 오디오 억제 기법들을 이용할 수도 있다. 일부 구현들에 따르면, 억제는 완전한 억제 (표시자 0 을 가짐) 에서 억제 없음 (표시자 100 을 가짐) 까지 스케일링될 수도 있다. 다른 구현들에 따르면, 억제는 바이너리일 수도 있다. 예를 들어, 다른 영역들 (802 내지 809) 로부터의 오디오 출력은 억제되거나 또는 억제되지 않을 수도 있다.
다른 구현들에 따르면, 다수의 오디오 캡처 디바이스들로부터 캡처된 오디오 데이터는 사용자 입력에 기초하여 제 1 오디오 캡처 디바이스 (810) 에서 생성될 수도 있다. 예를 들어, 사용자 입력은 제 1 영역 (801), 제 5 영역 (805), 및 제 9 영역 (809) 이 선택되었다는 것을 표시할 수도 있다. 사용자 입력에 기초하여, 제 1 오디오 캡처 디바이스 (810) 는, 각각, 제 2 오디오 캡처 디바이스 (820), 제 1 오디오 캡처 디바이스 (810), 및 제 3 오디오 캡처 디바이스 (830) 로부터의 오디오 데이터에 기초하여 오디오 출력을 생성할 수도 있다. 예를 들어, 제 1 오디오 캡처 디바이스 (810) 는, 사용자 입력이 제 1, 제 5, 제 9 영역들 (801, 805, 809) 이 각각 선택된다는 것을 표시하면 제 2 오디오 신호 (822), 제 1 오디오 신호 (810), 및 제 3 오디오 신호 (832) 에 대응하는 오디오 출력을 생성할 수도 있다. 다수의 캡처 디바이스들 (810, 820, 830) 로부터의 오디오 출력은 단일의 채널 출력으로서 혼합될 수도 있거나 또는 다수의 채널 출력과 같은 다수의 채널들의 형태의 출력으로서 인코딩될 수도 있다. 제 1 오디오 캡처 디바이스 (810) 에 의해 출력될 오디오를 선택하는 것에 더하여, GUI (800) 는 사용자가 선택된 영역들에서의 오디오 캡처 디바이스들에 오디오 효과들, 필터링, 특정 프로세싱, 또는 다른 옵션들을 적용하는 것을 인에이블할 수도 있다.
GUI (800) 는 에어리어의 상이한 영역들 (801 내지 809) 로부터 캡처된 오디오를 제 1 오디오 캡처 디바이스 (810) 의 사용자가 선택적으로 출력하는 것을 인에이블할 수도 있다. 예를 들어, GUI (800) 는 사용자 디바이스가 에어리어의 소정의 영역들로부터의 오디오를 억제하고 에어리어의 다른 영역들로부터의 오디오를 출력하는 것을 인에이블할 수도 있다.
도 9 를 참조하면, 에어리어의 하나 이상의 선택된 영역들에 기초하여 오디오 출력을 생성하기 위한 방법 (900) 이 도시된다. 방법 (900) 은 도 1 의 제 1 디바이스 (110), 도 5 의 제 1 사용자 디바이스 (510), 도 5 의 제 2 사용자 디바이스 (520), 도 8 의 제 1 오디오 캡처 디바이스 (810), 제 8 의 제 2 오디오 캡처 디바이스 (820), 또는 제 8 의 제 3 오디오 캡처 디바이스 (830) 를 이용하여 수행될 수도 있다.
방법 (900) 은 902 에서, 사용자 디바이스에서 GUI 를 디스플레이하는 단계를 포함한다. GUI 는 다수의 영역들을 갖는 에어리어를 표현할 수도 있고 다수의 오디오 캡처 디바이스들이 에어리어에 로케이트될 수도 있다. 예를 들어, 도 8 을 참조하면, 제 1 오디오 캡처 디바이스 (810) (예를 들어, 방법 (900) 에 따른 사용자 디바이스) 는 GUI (800) 를 디스플레이할 수도 있다. GUI (800) 는 다수의 영역들 (801 내지 809) 을 갖는 에어리어를 표현할 수도 있다. 다수의 오디오 캡처 디바이스들이 에어리어에 로케이트될 수도 있다. 예를 들어, 제 2 오디오 캡처 디바이스 (820) 는 에어리어의 제 1 영역 (801) 에 로케이트될 수도 있고, 제 1 오디오 캡처 디바이스 (810) 는 제 5 영역 (805) 에 로케이트될 수도 있고, 제 3 오디오 캡처 디바이스 (830) 는 제 9 영역 (809) 에 로케이트될 수도 있다.
904 에서, 다수의 오디오 캡처 디바이스들 중 적어도 하나로부터의 오디오 데이터가 수신될 수도 있다. 예를 들어, 도 8 을 참조하면, 제 2 오디오 캡처 디바이스 (820) 는 제 1 오디오 캡처 디바이스 (810) 에 제 2 오디오 신호 (822) 를 송신할 수도 있고, 제 3 오디오 캡처 디바이스 (830) 는 제 1 오디오 캡처 디바이스 (810) 에 제 3 오디오 신호 (832) 를 송신할 수도 있다. 제 1 오디오 캡처 디바이스 (810) 는 제 2 오디오 캡처 디바이스 (820) 로부터의 오디오 데이터 (예를 들어, 제 2 오디오 신호 (822)) 및 제 3 오디오 캡처 디바이스 (830) 로부터의 오디오 데이터 (예를 들어, 제 3 오디오 신호 (832)) 를 수신할 수도 있다. 추가적으로, 제 1 오디오 캡처 디바이스 (810) 는 제 1 오디오 신호 (812) 를 캡처할 수도 있다.
906 에서, 다수의 영역들 중 선택된 영역을 표시하는 입력이 수신될 수도 있다. 예를 들어, 도 8 을 참조하면, 제 1 오디오 캡처 디바이스 (810) 는 GUI (800) 의 하나 이상의 선택된 영역들 (801 내지 809) 을 표시하는 사용자 입력을 수신할 수도 있다. 비제한적 예로서, 사용자 입력은 제 1 영역 (801) (예를 들어, 제 2 오디오 캡처 디바이스 (820) 를 표시하는 영역) 이 선택되었다는 것을 표시할 수도 있다.
908 에서, 오디오 출력이 다수의 오디오 캡처 디바이스들의 서브세트로부터의 오디오 데이터에 기초하여 생성될 수도 있다. 그 서브세트에서의 각각의 오디오 캡처 디바이스는 선택된 영역에 로케이트될 수도 있다. 예를 들어, 도 8 을 참조하면, 사용자 입력에 기초하여, 제 1 오디오 캡처 디바이스 (810) 는 제 2 오디오 캡처 디바이스 (820) 로부터의 오디오 데이터에 기초하여 오디오 출력을 생성할 수도 있다. 예를 들어, 제 1 오디오 캡처 디바이스 (810) 는 사용자 입력이 제 1 영역 (801) 이 선택된다는 것을 표시하면 제 2 오디오 신호 (822) 에 대응하는 오디오 출력을 생성할 수도 있다. 오디오 출력을 생성하는 것은 제 1 오디오 캡처 디바이스 (810) 에 제 2 오디오 신호 (822) 에 대응하는 오디오를 저장하는 것, 다른 디바이스에 제 2 오디오 신호 (822) 에 대응하는 오디오를 저장하는 것, 제 1 오디오 캡처 디바이스 (810) 에서 제 2 오디오 신호 (822) 에 대응하는 오디오를 렌더링하는 것, 제 1 오디오 캡처 디바이스 (810) 에서 제 2 오디오 신호 (822) 의 표현을 생성하는 것 등을 포함할 수도 있다. 표시된 예에서, 다른 영역들 (802 내지 809) (예를 들어, 미선택된 영역들) 로부터의 오디오 데이터에 기초한 오디오 출력은 제 1 오디오 캡처 디바이스 (810) 에서 억제될 수도 있다. 예를 들어, 방법 (900) 은 다른 영역들 (802 내지 809) 로부터의 오디오의 오디오 레벨들을 감소시키는 것을 포함할 수도 있다. 제 1 오디오 캡처 디바이스 (810) 는 다른 영역들 (802 내지 809) 로부터의 오디오 출력을 억제하기 위해 도 1 에 대하여 설명된 오디오 억제 기법들을 이용할 수도 있다. 방법 (900) 은 또한 GUI 에서 각각의 오디오 캡처된 디바이스의 로케이션을 디스플레이하는 단계를 포함할 수도 있다.
방법 (900) 은 GUI 에서 에어리어의 이미지를 생성하는 단계 및 GUI 에서 이미지 내에 다수의 영역들을 묘사하는 단계를 포함할 수도 있다. 도 8 의 영역들 (801 내지 809) 은 에어리어에 기초하여, 에어리어의 콘텐츠 (예를 들어, 에어리어의 사이즈, 에어리어에서의 오디오 캡처 디바이스들의 수, 이미지의 복잡도 등) 에 기초하여, 사용자 선호도들에 기초하여, 그 조합으로 정의될 수도 있다.
도 9 의 방법 (900) 은 사용자 디바이스 (예를 들어, 제 1 오디오 캡처 디바이스 (810)) 의 사용자가 GUI (800) 를 이용하여 에어리어의 상이한 영역들 (801 내지 809) 로부터 캡처된 오디오를 선택적으로 출력하는 것을 인에이블할 수도 있다. 예를 들어, 방법 (900) 은 사용자 디바이스가 에어리어의 소정의 영역들로부터의 오디오를 억제하고 에어리어의 다른 영역들로부터의 오디오를 출력하는 것을 인에이블할 수도 있다.
도 10 을 참조하면, 사용자 디바이스 (1000) 가 도시된다. 사용자 디바이스 (1000) 는 메모리 (1054) 에 커플링된, 프로세서 (1010), 이를 테면 디지털 신호 프로세서를 포함한다. 프로세서 (1010) 는 도 1 의 잡음 감소 회로부 (118), 도 5 의 화자 검증 회로부 (516), 및 도 5 의 피처 벡터 생성 회로부 (517) 를 포함한다. 메모리 (1054) 는 도 5 의 스피치 모델 (518) 을 포함한다.
프로세서 (1010) 는 메모리 (1054) 에 저장된 소프트웨어 (예를 들어, 하나 이상의 명령들 (1068) 의 프로그램) 를 실행하도록 구성될 수도 있다. 프로세서 (1010) 는 도 4 의 방법 (400), 도 6 의 방법 (600), 및/또는 도 9 의 방법 (900) 에 따라 동작하도록 구성될 수도 있다. 예를 들어, 프로세서 (1010) 는 도 1 내지 도 4 에 대하여 설명된 잡음 억제 기법들, 도 5 내지 도 7 에 대하여 설명된 보이스 인식 기법들, 및/또는 도 8 및 도 9 에 대하여 설명된 기법들을 수행할 수도 있다.
무선 인터페이스 (1040) 는 프로세서 (1010) 에 및 안테나 (1043) 에 커플링될 수도 있다. 예를 들어, 무선 인터페이스 (1040) 는, 안테나 (1043) 를 통해 수신된 무선 데이터가 프로세서 (1010) 에 제공될 수도 있도록, 트랜시버 (1042) 를 통해 안테나 (1043) 에 커플링될 수도 있다.
코더/디코더 (CODEC) (1034) 는 또한, 프로세서 (1010) 에 커플링될 수 있다. 스피커 (1036) 및 마이크로폰 (1038) 은 CODEC (1034) 에 커플링될 수 있다. 디스플레이 제어기 (1026) 는 프로세서 (1010) 에 및 디스플레이 디바이스 (1028) 에 커플링될 수 있다. 하나의 구현에 따르면, 디스플레이 디바이스 (1028) 는 도 8 의 GUI (800) 를 디스플레이할 수도 있다. 특정한 구현에서, 프로세서 (1010), 디스플레이 제어기 (1026), 메모리 (1054), CODEC (1034), 및 무선 인터페이스 (1040) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (1022) 에 포함된다. 특정한 구현에서, 입력 디바이스 (1030) 및 전력 공급기 (1044) 는 시스템-온-칩 디바이스 (1022) 에 커플링된다. 더욱이, 특정한 구현에서, 도 10 에 예시한 바와 같이, 디스플레이 디바이스 (1028), 입력 디바이스 (1030), 스피커 (1036), 마이크로폰 (1038), 안테나 (1043), 및 전력 공급기 (1044) 는 시스템-온-칩 디바이스 (1022) 의 외부에 있다. 그러나, 디스플레이 디바이스 (1028), 입력 디바이스 (1030), 스피커 (1036), 마이크로폰 (1038), 안테나 (1043), 및 전력 공급기 (1044) 의 각각은 하나 이상의 인터페이스들 또는 제어기들과 같은, 시스템-온-칩 디바이스 (1022) 의 하나 이상의 컴포넌트들에 커플링될 수 있다.
설명된 구현들과 함께, 제 1 장치는 제 1 오디오 신호를 캡처하기 위한 수단을 포함한다. 예를 들어, 제 1 오디오 신호를 캡처하기 위한 수단은 도 1 의 마이크로폰 (114), 도 5 의 마이크로폰 (513), 도 5 의 마이크로폰 (523), 도 10 의 마이크로폰 (1038), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
제 1 장치는 또한, 제 2 디바이스로부터 제 2 오디오 신호를 수신하기 위한 수단을 포함할 수도 있다. 제 2 오디오 신호는 제 2 디바이스의 마이크로폰에 의해 캡처될 수도 있다. 예를 들어, 제 2 오디오 신호를 수신하기 위한 수단은 도 1 의 트랜시버 (112), 도 5 의 트랜시버 (512), 도 5 의 트랜시버 (522), 도 10 의 트랜시버 (1042), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
제 1 장치는 또한, 제 2 오디오 신호에 적어도 부분적으로 기초하여 제 1 오디오 신호에 대해 잡음 감소를 수행하기 위한 수단을 포함할 수도 있다. 예를 들어, 잡음 감소를 수행하기 위한 수단은 도 1 의 프로세서 (116), 도 1, 도 2, 및 도 7 의 잡음 감소 회로부 (118), 도 3 의 시스템 (300), 도 10 의 프로세서 (1010), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
설명된 구현들과 함께, 제 2 장치는 제 1 사용자 디바이스에서 제 2 사용자 디바이스로부터 오디오 데이터를 수신하기 위한 수단을 포함하고, 그 오디오 데이터는 제 2 사용자 디바이스의 마이크로폰에서 캡처된 오디오 신호에 기초한다. 예를 들어, 오디오 데이터를 수신하기 위한 수단은 도 5 의 트랜시버 (512), 도 10 의 트랜시버 (1042), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
제 2 장치는 또한, 오디오 데이터에 의해 표현된 보이스가 특정한 보이스에 매칭할 가능성을 표시하는 우도 값을 결정하기 위해 오디오 데이터에 기초하여 보이스 인식 기능을 수행하기 위한 수단을 포함할 수도 있다. 예를 들어, 보이스 인식 기능을 수행하기 위한 수단은 도 5 및 도 10 의 화자 검증 회로부 (516), 도 10 의 프로세서 (1010), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
제 2 장치는 또한, 우도 값이 임계치를 초과하는 것에 응답하여 제 1 사용자 디바이스의 하나 이상의 기능들을 인에이블하기 위한 수단을 포함할 수도 있다. 예를 들어, 하나 이상의 기능들을 인에이블하기 위한 수단은 도 5 의 프로세서 (514), 도 10 의 프로세서 (1010), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
설명된 구현들과 함께, 제 3 장치는 사용자 디바이스에서 그래픽 사용자 인터페이스 (GUI) 를 디스플레이하기 위한 수단을 포함한다. GUI 는 다수의 영역들을 갖는 에어리어를 표현할 수도 있고 다수의 오디오 캡처 디바이스들은 에어리어에 로케이트될 수도 있다. 예를 들어, GUI 를 디스플레이하기 위한 수단은 도 1 의 프로세서 (116), 도 5 의 프로세서 (514), 제 5 의 프로세서 (524), 도 8 의 제 1 오디오 캡처 디바이스 (810) 의 프로세서, 도 8 의 제 2 오디오 캡처 디바이스 (820) 의 프로세서, 도 8 의 제 3 오디오 캡처 디바이스 (830) 의 프로세서, 도 10 의 프로세서 (1010), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
제 3 장치는 또한, 다수의 오디오 캡처 디바이스들로부터 오디오 데이터를 수신하기 위한 수단을 포함할 수도 있다. 예를 들어, 오디오 데이터를 수신하기 위한 수단은 도 1 의 트랜시버 (112), 도 5 의 트랜시버 (512), 도 5 의 트랜시버 (522), 도 8 의 제 1 오디오 캡처 디바이스 (810) 의 트랜시버, 도 8 의 제 2 오디오 캡처 디바이스 (820) 의 트랜시버, 도 8 의 제 3 오디오 캡처 디바이스 (830) 의 트랜시버, 도 10 의 트랜시버 (1042), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
제 3 장치는 또한, 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하기 위한 수단을 포함할 수도 있다. 예를 들어, 입력을 수신하기 위한 수단은 도 1 의 프로세서 (116), 도 5 의 프로세서 (514), 제 5 의 프로세서 (524), 도 8 의 제 1 오디오 캡처 디바이스 (810) 의 프로세서, 도 8 의 제 2 오디오 캡처 디바이스 (820) 의 프로세서, 도 8 의 제 3 오디오 캡처 디바이스 (830) 의 프로세서, 도 10 의 프로세서 (1010), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
제 3 장치는 또한, 다수의 오디오 캡처 디바이스들의 서브세트로부터의 오디오 데이터에 기초하여 오디오 출력을 생성하기 위한 수단을 포함할 수도 있다. 그 서브세트에서의 각각의 오디오 캡처 디바이스는 선택된 영역에 로케이트될 수도 있다. 예를 들어, 오디오 출력을 생성하기 위한 수단은 도 1 의 프로세서 (116), 도 5 의 프로세서 (514), 도 5 의 프로세서 (524), 도 8 의 제 1 오디오 캡처 디바이스 (810) 의 프로세서, 도 8 의 제 2 오디오 캡처 디바이스 (820) 의 프로세서, 도 8 의 제 3 오디오 캡처 디바이스 (830) 의 프로세서, 도 10 의 프로세서 (1010), 하나 이상의 다른 디바이스들, 회로들, 모듈들, 명령들, 또는 그 임의의 조합을 포함할 수도 있다.
당업자들은 본 명세서에서 개시된 양태들과 관련하여 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 프로세서에 의해 실행된 컴퓨터 소프트웨어, 또는 양자의 조합들로서 구현될 수도 있다는 것을 추가로 인식할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 일반적으로 그들의 기능성의 관점에서 상기 설명되었다. 이러한 기능성이 하드웨어 또는 프로세서 실행가능 명령들로서 구현되는지 여부는 전체 시스템에 부과된 설계 제약들 및 특정한 애플리케이션에 의존한다. 당업자들은 각각의 특정한 애플리케이션에 대해 다양한 방식들로 설명된 기능성을 구현할 수도 있지만, 이러한 구현 판정들은 본 개시의 범위로부터 벗어남을 야기하는 것으로 해석되어서는 안된다.
본 명세서에서 개시된 양태들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 직접 하드웨어로, 프로세서에 의해 실행된 소프트웨어 모듈로, 또는 이 둘의 조합으로 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 콤팩트 디스크 판독 전용 메모리 (CD-ROM), 또는 당업계에 알려진 임의의 다른 형태의 비-트랜지언트 (non-transient) (예를 들어, 비일시적) 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기록할 수 있도록 프로세서에 커플링된다. 대안으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적 회로 (application-specific integrated circuit; ASIC) 에 상주할 수도 있다. ASIC 은 컴퓨팅 디바이스 또는 사용자 디바이스에 상주할 수도 있다. 대안으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에 별개의 컴포넌트들로서 상주할 수도 있다.
개시된 양태들의 이전의 설명은 당업자가 개시된 양태들을 제조 또는 이용하는 것을 가능하게 하기 위해 제공된다. 이들 양태들에 대한 다양한 변경들은 당업자들에게 용이하게 명백할 것이며, 본 명세서에서 정의된 원리들은 본 개시의 범위로부터 벗어남 없이 다른 양태들에 적용될 수도 있다. 따라서, 본 개시는 본 명세서에서 도시된 양태들에 제한되도록 의도되지 않고 다음의 청구항들에 의해 정의되는 바와 같은 원리들 및 신규한 피처들에 부합하는 가능한 최광의 범위를 부여받게 하려는 것이다.

Claims (30)

  1. 오디오 출력을 생성하는 방법으로서,
    사용자 디바이스에서 그래픽 사용자 인터페이스 (GUI) 를 디스플레이하는 단계로서, 상기 GUI 는 다수의 영역 (region) 들을 갖는 에어리어 (area) 를 표현하고, 다수의 오디오 캡처 디바이스들은 상기 에어리어에 로케이트되는, 상기 GUI 를 디스플레이하는 단계;
    상기 다수의 오디오 캡처 디바이스들 중 적어도 하나로부터 오디오 데이터를 수신하는 단계;
    상기 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하는 단계; 및
    상기 사용자 디바이스에서, 상기 다수의 오디오 캡처 디바이스들의 서브세트로부터의 데이터에 기초하여 상기 오디오 출력을 생성하는 단계로서, 상기 서브세트에서의 각각의 오디오 캡처 디바이스는 상기 선택된 영역에 로케이트되는, 상기 오디오 출력을 생성하는 단계
    를 포함하는, 오디오 출력을 생성하는 방법.
  2. 제 1 항에 있어서,
    상기 선택된 영역에 로케이트되지 않는 각각의 오디오 캡처 디바이스로부터의 오디오의 오디오 레벨들을 감소시키는 단계를 더 포함하는, 오디오 출력을 생성하는 방법.
  3. 제 1 항에 있어서,
    상기 다수의 오디오 캡처 디바이스들로부터 오디오 데이터를 수신하는 단계는,
    상기 다수의 영역들 중 제 1 영역에 로케이트된 제 1 오디오 캡처 디바이스로부터 제 1 오디오 신호를 무선으로 수신하는 단계; 및
    상기 다수의 영역들 중 제 2 영역에 로케이트된 제 2 오디오 캡처 디바이스로부터 제 2 오디오 신호를 무선으로 수신하는 단계
    를 포함하는, 오디오 출력을 생성하는 방법.
  4. 제 3 항에 있어서,
    상기 선택된 영역은 상기 제 1 영역을 포함하고, 상기 오디오 출력을 생성하는 단계는 상기 사용자 디바이스에서 상기 제 1 오디오 신호의 표현 (representation) 을 생성하는 단계를 포함하는, 오디오 출력을 생성하는 방법.
  5. 제 3 항에 있어서,
    상기 사용자 디바이스에서 상기 제 2 오디오 신호를 억제하는 단계를 더 포함하는, 오디오 출력을 생성하는 방법.
  6. 제 1 항에 있어서,
    각각의 오디오 캡처 디바이스의 로케이션은 실내 내비게이션 툴 (indoor navigation tool) 에 기초하여 결정되는, 오디오 출력을 생성하는 방법.
  7. 제 1 항에 있어서,
    각각의 오디오 캡처 디바이스의 로케이션은 사용자 입력에 기초하여 결정되는, 오디오 출력을 생성하는 방법.
  8. 제 1 항에 있어서,
    상기 오디오 출력은 단일의 채널 출력 또는 다수의 채널 출력을 포함하는, 오디오 출력을 생성하는 방법.
  9. 제 1 항에 있어서,
    상기 GUI 에서 각각의 오디오 캡처 디바이스의 로케이션을 디스플레이하는 단계를 더 포함하는, 오디오 출력을 생성하는 방법.
  10. 제 1 항에 있어서,
    상기 GUI 에서 상기 에어리어의 이미지를 생성하는 단계; 및
    상기 GUI 에서 상기 이미지 내에 상기 다수의 영역들을 묘사하는 단계
    를 더 포함하는, 오디오 출력을 생성하는 방법.
  11. 프로세서; 및
    명령들을 저장하는 메모리
    를 포함하고,
    상기 명령들은, 상기 프로세서로 하여금,
    사용자 디바이스에서 그래픽 사용자 인터페이스 (GUI) 를 디스플레이하는 것으로서, 상기 GUI 는 다수의 영역들을 갖는 에어리어를 표현하고, 다수의 오디오 캡처 디바이스들은 상기 에어리어에 로케이트되는, 상기 GUI 를 디스플레이하는 것;
    상기 다수의 오디오 캡처 디바이스들 중 적어도 하나로부터 오디오 데이터를 수신하는 것;
    상기 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하는 것; 및
    상기 사용자 디바이스에서, 상기 다수의 오디오 캡처 디바이스들의 서브세트로부터의 데이터에 기초하여 오디오 출력을 생성하는 것으로서, 상기 서브세트에서의 각각의 오디오 캡처 디바이스는 상기 선택된 영역에 로케이트되는, 상기 오디오 출력을 생성하는 것
    을 포함하는 동작들을 수행하게 하도록 실행가능한, 장치.
  12. 제 11 항에 있어서,
    상기 동작들은 상기 선택된 영역에 로케이트되지 않는 각각의 오디오 캡처 디바이스로부터의 오디오의 오디오 레벨들을 감소시키는 것을 더 포함하는, 장치.
  13. 제 11 항에 있어서,
    상기 다수의 오디오 캡처 디바이스들로부터 오디오 데이터를 수신하는 것은,
    상기 다수의 영역들 중 제 1 영역에 로케이트된 제 1 오디오 캡처 디바이스로부터 제 1 오디오 신호를 무선으로 수신하는 것; 및
    상기 다수의 영역들 중 제 2 영역에 로케이트된 제 2 오디오 캡처 디바이스로부터 제 2 오디오 신호를 무선으로 수신하는 것
    을 포함하는, 장치.
  14. 제 13 항에 있어서,
    상기 선택된 영역은 상기 제 1 영역을 포함하고, 상기 오디오 출력을 생성하는 것은 상기 사용자 디바이스에서 상기 제 1 오디오 신호의 표현을 생성하는 것을 포함하는, 장치.
  15. 제 13 항에 있어서,
    상기 동작들은 상기 사용자 디바이스에서 상기 제 2 오디오 신호를 억제하는 것을 더 포함하는, 장치.
  16. 제 11 항에 있어서,
    각각의 오디오 캡처 디바이스의 로케이션은 실내 내비게이션 툴에 기초하여 결정되는, 장치.
  17. 제 11 항에 있어서,
    각각의 오디오 캡처 디바이스의 로케이션은 사용자 입력에 기초하여 결정되는, 장치.
  18. 제 11 항에 있어서,
    상기 오디오 출력은 단일의 채널 출력 또는 다수의 채널 출력을 포함하는, 장치.
  19. 제 11 항에 있어서,
    상기 동작들은 상기 GUI 에서 각각의 오디오 캡처 디바이스의 로케이션을 디스플레이하는 것을 더 포함하는, 장치.
  20. 제 11 항에 있어서,
    상기 오디오 데이터를 수신하도록 구성된 수신기;
    상기 입력을 수신하도록 구성된 인터페이스; 및
    상기 오디오 출력을 프로젝팅하도록 구성된 스피커
    를 더 포함하는, 장치.
  21. 오디오 출력을 생성하기 위한 명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    사용자 디바이스에서 그래픽 사용자 인터페이스 (GUI) 를 디스플레이하는 것으로서, 상기 GUI 는 다수의 영역들을 갖는 에어리어를 표현하고, 다수의 오디오 캡처 디바이스들은 상기 에어리어에 로케이트되는, 상기 GUI 를 디스플레이하는 것;
    상기 다수의 오디오 캡처 디바이스들 중 적어도 하나로부터 오디오 데이터를 수신하는 것;
    상기 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하는 것; 및
    상기 사용자 디바이스에서, 상기 다수의 오디오 캡처 디바이스들의 서브세트로부터의 데이터에 기초하여 상기 오디오 출력을 생성하는 것으로서, 상기 서브세트에서의 각각의 오디오 캡처 디바이스는 상기 선택된 영역에 로케이트되는, 상기 오디오 출력을 생성하는 것
    을 포함하는 동작들을 수행하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
  22. 제 21 항에 있어서,
    상기 동작들은 상기 선택된 영역에 로케이트되지 않는 각각의 오디오 캡처 디바이스로부터의 오디오의 오디오 레벨들을 감소시키는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  23. 제 21 항에 있어서,
    상기 다수의 오디오 캡처 디바이스들로부터 오디오 데이터를 수신하는 것은,
    상기 다수의 영역들 중 제 1 영역에 로케이트된 제 1 오디오 캡처 디바이스로부터 제 1 오디오 신호를 무선으로 수신하는 것; 및
    상기 다수의 영역들 중 제 2 영역에 로케이트된 제 2 오디오 캡처 디바이스로부터 제 2 오디오 신호를 무선으로 수신하는 것
    을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  24. 제 23 항에 있어서,
    상기 선택된 영역은 상기 제 1 영역을 포함하고, 상기 오디오 출력을 생성하는 것은 상기 사용자 디바이스에서 상기 제 1 오디오 신호의 표현을 생성하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  25. 제 23 항에 있어서,
    상기 동작들은 상기 사용자 디바이스에서 상기 제 2 오디오 신호를 억제하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  26. 제 21 항에 있어서,
    각각의 오디오 캡처 디바이스의 로케이션은 실내 내비게이션 툴에 기초하여 결정되는, 비일시적 컴퓨터 판독가능 저장 매체.
  27. 제 21 항에 있어서,
    각각의 오디오 캡처 디바이스의 로케이션은 사용자 입력에 기초하여 결정되는, 비일시적 컴퓨터 판독가능 저장 매체.
  28. 사용자 디바이스에서 그래픽 사용자 인터페이스 (GUI) 를 디스플레이하기 위한 수단으로서, 상기 GUI 는 다수의 영역들을 갖는 에어리어를 표현하고, 다수의 오디오 캡처 디바이스들은 상기 에어리어에 로케이트되는, 상기 GUI 를 디스플레이하기 위한 수단;
    상기 다수의 오디오 캡처 디바이스들 중 적어도 하나로부터 오디오 데이터를 수신하기 위한 수단;
    상기 다수의 영역들 중 선택된 영역을 표시하는 입력을 수신하기 위한 수단; 및
    상기 다수의 오디오 캡처 디바이스들의 서브세트로부터의 데이터에 기초하여 상기 사용자 디바이스에서 오디오 출력을 생성하기 위한 수단으로서, 상기 서브세트에서의 각각의 오디오 캡처 디바이스는 상기 선택된 영역에 로케이트되는, 상기 오디오 출력을 생성하기 위한 수단
    을 포함하는, 장치.
  29. 제 28 항에 있어서,
    상기 오디오 출력은 단일의 채널 출력 또는 다수의 채널 출력을 포함하는, 장치.
  30. 제 28 항에 있어서,
    상기 GUI 에서 각각의 오디오 캡처 디바이스의 로케이션을 디스플레이하기 위한 수단을 더 포함하는, 장치.
KR1020187010714A 2015-09-18 2016-07-28 협력적 오디오 프로세싱 KR101923357B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/859,128 2015-09-18
US14/859,128 US9706300B2 (en) 2015-09-18 2015-09-18 Collaborative audio processing
PCT/US2016/044563 WO2017048376A1 (en) 2015-09-18 2016-07-28 Collaborative audio processing

Publications (2)

Publication Number Publication Date
KR20180045035A true KR20180045035A (ko) 2018-05-03
KR101923357B1 KR101923357B1 (ko) 2018-11-28

Family

ID=56853793

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187010714A KR101923357B1 (ko) 2015-09-18 2016-07-28 협력적 오디오 프로세싱

Country Status (7)

Country Link
US (1) US9706300B2 (ko)
EP (1) EP3351014B1 (ko)
JP (1) JP6397158B1 (ko)
KR (1) KR101923357B1 (ko)
CN (1) CN108028979B (ko)
TW (1) TWI607373B (ko)
WO (1) WO2017048376A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013996B2 (en) 2015-09-18 2018-07-03 Qualcomm Incorporated Collaborative audio processing
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9928848B2 (en) * 2015-12-24 2018-03-27 Intel Corporation Audio signal noise reduction in noisy environments
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US9860644B1 (en) 2017-04-05 2018-01-02 Sonos, Inc. Limiter for bass enhancement
US10482904B1 (en) * 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10341762B2 (en) * 2017-10-11 2019-07-02 Sony Corporation Dynamic generation and distribution of multi-channel audio from the perspective of a specific subject of interest
US11343374B1 (en) * 2017-12-14 2022-05-24 Amazon Technologies, Inc. Message aggregation and comparing
US10715470B1 (en) * 2017-12-14 2020-07-14 Amazon Technologies, Inc. Communication account contact ingestion and aggregation
WO2019134894A1 (en) * 2018-01-03 2019-07-11 Signify Holding B.V. System and methods for reducing noise in sensor measurements in connected lighting systems
JP7404664B2 (ja) * 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法
KR20210009189A (ko) * 2019-07-16 2021-01-26 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
US20230282224A1 (en) * 2022-02-23 2023-09-07 Qualcomm Incorporated Systems and methods for improved group communication sessions

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6674451B1 (en) * 1999-02-25 2004-01-06 International Business Machines Corporation Preventing audio feedback
US20020049979A1 (en) * 2000-05-18 2002-04-25 Patrick White Multiple camera video system which displays selected images
US7653550B2 (en) * 2003-04-04 2010-01-26 Apple Inc. Interface for providing modeless timeline based selection of an audio or video file
WO2006066618A1 (en) 2004-12-21 2006-06-29 Freescale Semiconductor, Inc. Local area network, communication unit and method for cancelling noise therein
US8411880B2 (en) 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
US9113240B2 (en) 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US8861739B2 (en) * 2008-11-10 2014-10-14 Nokia Corporation Apparatus and method for generating a multichannel signal
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
US8144633B2 (en) * 2009-09-22 2012-03-27 Avaya Inc. Method and system for controlling audio in a collaboration environment
US8831761B2 (en) * 2010-06-02 2014-09-09 Sony Corporation Method for determining a processed audio signal and a handheld device
WO2012042295A1 (en) * 2010-09-27 2012-04-05 Nokia Corporation Audio scene apparatuses and methods
JP6012621B2 (ja) 2010-12-15 2016-10-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. リモートノイズ検知器を使用したノイズ削減システム
US10045321B2 (en) * 2010-12-30 2018-08-07 Staton Techiya, Llc Information processing using a population of data acquisition devices
WO2013079993A1 (en) 2011-11-30 2013-06-06 Nokia Corporation Signal processing for audio scene rendering
US9408011B2 (en) 2011-12-19 2016-08-02 Qualcomm Incorporated Automated user/sensor location recognition to customize audio performance in a distributed multi-sensor environment
KR101253451B1 (ko) * 2012-02-29 2013-04-11 주식회사 팬택 음원의 위치를 감지할 수 있는 모바일 디바이스 및 그 제어 방법
US9064503B2 (en) 2012-03-23 2015-06-23 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
US9966067B2 (en) 2012-06-08 2018-05-08 Apple Inc. Audio noise estimation and audio noise reduction using multiple microphones
US9173023B2 (en) 2012-09-25 2015-10-27 Intel Corporation Multiple device noise reduction microphone array
US9286898B2 (en) * 2012-11-14 2016-03-15 Qualcomm Incorporated Methods and apparatuses for providing tangible control of sound
WO2014096900A1 (en) 2012-12-18 2014-06-26 Nokia Corporation Spatial audio apparatus
JP5958717B2 (ja) * 2013-07-19 2016-08-02 パナソニックIpマネジメント株式会社 指向性制御システム、指向性制御方法、収音システム及び収音制御方法
GB2517690B (en) 2013-08-26 2017-02-08 Canon Kk Method and device for localizing sound sources placed within a sound environment comprising ambient noise
JP6206003B2 (ja) * 2013-08-30 2017-10-04 沖電気工業株式会社 音源分離装置、音源分離プログラム、収音装置及び収音プログラム
US9560466B2 (en) 2013-09-05 2017-01-31 AmOS DM, LLC Systems and methods for simulation of mixing in air of recorded sounds
US9343068B2 (en) 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US9888317B2 (en) * 2013-10-22 2018-02-06 Nokia Technologies Oy Audio capture with multiple microphones
US9253527B2 (en) 2013-11-14 2016-02-02 Smiletime Inc Social multi-camera interactive live engagement system
JP2015106655A (ja) * 2013-11-29 2015-06-08 富士通株式会社 積層基板製造方法及び積層基板
US10051364B2 (en) * 2014-07-03 2018-08-14 Qualcomm Incorporated Single channel or multi-channel audio control interface
CN104702787A (zh) * 2015-03-12 2015-06-10 深圳市欧珀通信软件有限公司 一种应用于移动终端的声音采集方法和移动终端
US10013996B2 (en) 2015-09-18 2018-07-03 Qualcomm Incorporated Collaborative audio processing

Also Published As

Publication number Publication date
US20170085985A1 (en) 2017-03-23
WO2017048376A1 (en) 2017-03-23
TWI607373B (zh) 2017-12-01
JP2018530778A (ja) 2018-10-18
CN108028979B (zh) 2021-03-30
TW201723802A (zh) 2017-07-01
EP3351014B1 (en) 2020-03-25
JP6397158B1 (ja) 2018-09-26
CN108028979A (zh) 2018-05-11
US9706300B2 (en) 2017-07-11
EP3351014A1 (en) 2018-07-25
KR101923357B1 (ko) 2018-11-28

Similar Documents

Publication Publication Date Title
KR101923357B1 (ko) 협력적 오디오 프로세싱
KR20180054742A (ko) 협력적 오디오 프로세싱
KR102471499B1 (ko) 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
US9955263B2 (en) Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones
US9047054B1 (en) User location-based management of content presentation
US10733970B2 (en) Noise control method and device
JP2017515395A5 (ko)
JP2017530396A (ja) 音源を強調するための方法及び機器
CN110970057A (zh) 一种声音处理方法、装置与设备
US20180343517A1 (en) Method and system to determine a sound source direction using small microphone arrays
WO2016123901A1 (zh) 终端及其定向播放音频信号的方法
US9118292B2 (en) Bell sound outputting apparatus and method thereof
US11783809B2 (en) User voice activity detection using dynamic classifier
US12003673B2 (en) Acoustic echo cancellation control for distributed audio devices
US20230319190A1 (en) Acoustic echo cancellation control for distributed audio devices
US11646046B2 (en) Psychoacoustic enhancement based on audio source directivity
BR112018005437B1 (pt) Processamento de áudio colaborativo

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant