KR101279276B1

KR101279276B1 - 자동 이득 제어

Info

Publication number: KR101279276B1
Application number: KR1020120129022A
Authority: KR
Inventors: 세르쥐 라샤펠르; 알렉산더 키엘다스
Original assignee: 구글 잉크.
Priority date: 2011-11-14
Filing date: 2012-11-14
Publication date: 2013-06-26
Also published as: JP2013109346A; CA2795189A1; AU2012247088A1; AU2012247088B2; KR20130054195A; US8185387B1; EP2592546B1; CN103124165A; CN103124165B; CA2795189C; EP2592546A1; US8392180B1

Abstract

일반적으로, 다수의 화자 오디오에 대한 오디오 이득 레벨들을 조정하기 위한 기술들이 설명된다. 일 예로, 오디오 시스템은 새로운 화자의 존재에 대한 오디오 스트림을 모니터링한다. 새로운 화자를 식별할 때, 시스템은 새로운 화자가 첫 번째 화자인지 여부를 결정한다. 첫 번째 화자에 대해, 시스템은 신속-어택/디케이 자동 이득 제어 (AGC) 알고리즘을 실행하여 첫 번째 화자에 대한 이득 값을 신속하게 결정한다. 시스템은 또한, 표준 AGC 기술들을 실행하여 첫 번째 화자가 계속해서 말하는 동안 첫 번째 화자에 대한 이득을 리파이닝한다. 첫 번째 화자에 대해 표준 AGC 를 이용하여 데시벨 임계 내의 안정 상태가 획득되는 경우, 시스템은 첫 번째 화자에 대한 안정 상태 이득을 스토리지에 저장한다. 미리 식별된 화자를 식별할 때, 시스템은 화자에 대한 안정 상태 이득을 스토리지로부터 취출하고 이 안정 상태 이득을 오디오 스트림에 적용한다.

Description

자동 이득 제어{AUTOMATIC GAIN CONTROL}

본 개시는 오디오 스트림에 적용된 이득을 조정하는 것에 관한 것이다.

로 (raw) 오디오 신호들은 마이크로폰에서 수신되고 오디오 신호로 변환된 모든 주파수들의 콘볼루션이다. 다수의 화자 환경에서, 이 주파수들의 콘볼루션은, 오디오 신호를 프로세싱하고 현재 화자에 대한 연관된 보이스 패턴을 식별함으로써 오디오 시스템이 현재 화자를 식별하게 할 수 있는, 화자들 각각에 대한 보이스 패턴들을 포함한다.

일 예에서, 방법은 오디오 시스템으로 오디오 신호를 프로세싱하여 제 1 화자를 식별하는 단계를 포함한다. 방법은 또한, 오디오 시스템이 제 1 화자와 이득 간의 연관을 저장하는지 여부를 결정하고, 오디오 시스템이 제 1 화자와 이득 간의 연관을 저장하지 않은 경우, 오디오 시스템으로 어택 또는 디케이 레이트 (attack or decay rate) 중 적어도 하나를 증가시키도록 자동 이득 제어 (AGC) 알고리즘을 변경하고 이 변경된 AGC 알고리즘을 오디오 신호에 적용하여 제 1 화자에 대한 이득을 결정하는 단계를 포함한다. 방법은 또한, 오디오 시스템으로, 제 1 화자에 대한 이득을 오디오 신호의 표현에 적용하여 출력 오디오 신호를 생성하고, 오디오 시스템으로부터 출력 오디오 신호를 출력하는 단계를 포함한다.

다른 예에서, 오디오 시스템은, 오디오 시스템으로 오디오 신호를 프로세싱하여 제 1 화자를 식별하기 위한 수단을 포함한다. 오디오 시스템은 또한, 오디오 시스템이 제 1 화자와 이득 간의 연관을 저장하는지 여부를 결정하는 화자 식별 모듈을 포함한다. 오디오 시스템은 또한, 자동 이득 제어 (AGC) 모듈을 포함하는데, 화자 식별 모듈은 오디오 시스템이 제 1 화자와 이득 간의 연관을 저장하지 않은 경우 어택 또는 디케이 레이트 중 적어도 하나를 증가시키도록 AGC 모듈을 변경하고, AGC 모듈은 변경된 AGC 알고리즘을 오디오 신호에 적용하여 제 1 화자에 대한 이득을 결정하고, AGC 모듈은 제 1 화자에 대한 이득을 오디오 신호의 표현에 적용하여 출력 오디오 신호를 생성하며, 오디오 시스템은 출력 오디오 신호를 출력한다.

다른 예에서, 컴퓨터 판독가능 저장 매체는 명령들을 포함하는데, 이 명령들은 실행되는 경우, 오디오 시스템으로 오디오 신호를 프로세싱하여 제 1 화자를 식별하는 동작, 오디오 시스템이 제 1 화자와 이득 간의 연관을 저장하는지 여부를 결정하는 동작, 및 오디오 시스템이 제 1 화자와 이득 간의 연관을 저장하지 않은 경우 오디오 시스템으로 어택 또는 디케이 레이트 중 적어도 하나를 증가시키도록 자동 이득 제어 (AGC) 알고리즘을 변경하고 변경된 AGC 알고리즘을 오디오 신호에 적용하여 제 1 화자에 대한 이득을 결정하는 동작을 포함하는 동작들을 수행한다. 명령들은 실행되는 경우, 오디오 시스템으로 제 1 화자에 대한 이득을 오디오 신호의 표현에 적용하여 출력 오디오 신호를 생성하는 동작, 및 오디오 시스템으로부터 출력 오디오 신호를 출력하는 동작을 포함하는 동작을 또한 수행한다.

하나 이상의 실시형태들의 상세들은 이하의 상세한 설명 및 첨부한 도면들에서 설명된다. 다른 피처들, 목적들, 및 이점들이 상세한 설명 및 도면들로부터, 그리고 청구범위로부터 명백해질 것이다.

도 1 은 본 개시에 설명된 보이스-프린트 매칭 및 고속-어택 이득 제어 기술들을 이용하여 전기 신호에 적용된 이득을 조정하는 오디오 시스템을 나타내는 블록도이다.
도 2 는 도 1 의 오디오 시스템의 예시의 인스턴스를 더 상세히 나타내는 블록도이다.
도 3 은 본원에 설명된 기술들에 따라, 오디오 시스템의 의해 수신된 오디오 스트림에서 새로운 화자의 도입에 반응하는 이득을 신속하게 조정하기 위한 오디오 시스템의 동작 예를 나타내는 플로우차트이다.
도 4 는 설명된 기술들에 따라, 오디오 시스템에 의해 수신된 오디오 스트림에서 새로운 화자의 도입에 반응하는 결합된 이득을 적용하기 위한 오디오 시스템의 동작 모드 예를 나타내는 플로우차트이다.

다수의 화자 환경에서 대화가, 공유되는 마이크로폰에서 멀리 떨어진 화자와 같은 소프트 화자로부터 공유되는 마이크로폰에 더 인접한 화자와 같은 라우드 화자로 (또는 그 반대로) 천이할 경우, 수 초 정도에 출력 이득을 변경하는 시간-평균 자동 이득 제어 (AGC) 알고리즘은 일관된 볼륨을 제공하기에 충분한 속도로 조정되지 않을 수도 있다. 그 결과, AGC 알고리즘의 동작 동안 라우드 화자는 불충분하게 감쇠될 수도 있고 및/또는 소프트 화자는 불충분하게 증폭될 수도 있다.

일반적으로, 다수의 화자 오디오에 대한 오디오 이득 레벨들을 조정하기 위한 기술들이 설명된다. 일 예에서, 다수의 화자 환경에서 동작하는 오디오 시스템은 새로운 화자의 존재에 대해 오디오 스트림을 계속해서 모니터링한다. 새로운 화자를 식별할 때, 오디오 시스템은 새로운 화자가 그 보이스 프린트가 시스템에 생소한 첫 번째 화자인지 여부를 결정한다. 새로운 화자가 첫 번째 화자인 경우, 오디오 시스템은 그 화자에 대하여 미리 결정된 오디오 이득 레벨과 연관된 보이스 프린트의 기록을 가지지 않는다. 첫 번째 화자에 대하여, 오디오 시스템은 하기에서 더 상세히 설명되는 것과 같은 고속-어택/디케이 AGC 알고리즘을 실행하여 첫 번째 화자에 대한 이득 값을 신속하게 결정하고, 이러한 이득 값을 오디오 출력에 적용한다. 오디오 시스템은 추가로 첫 번째 화자가 계속해서 말하는 동안 첫 번째 화자에 대한 이득을 리파이닝하기 위해 표준 AGC 기술들을 실행한다.

첫 번째 화자에 대해 표준 AGC 를 이용하여 데시벨 범위 내에서의 안정 상태가 획득될 경우, 오디오 시스템은 첫 번째 화자에 대한 보이스 프린트와 공동으로 첫 번째 화자에 대한 안정 상태 이득을 스토리지에 저장한다. 이전에 식별된 화자를 식별할 때, 시스템은 그 화자에 대하여 미리 결정된 안정 상태 이득을 스토리지로부터 취출하고, 안정 상태 이득을 오디오 스트림에 적용한다. 결과적으로, 오디오 시스템은 다수의 화자 오디오에 대한 이득을 신속하게 결정하기 위해 다수의 화자들에 대하여 각각의 미리 결정된 이득들을 이용하고, 식별되지 않은 화자들에 대하여 고속-어택 AGC 알고리즘들을 이용한다.

본 개시의 기술들은 하나 이상의 장점들을 제공할 수도 있다. 예를 들면, 본 개시의 기술들을 이용하여, 오디오 시스템은 다수의 화자 환경에서 식별된 화자와 식별되지 않은 화자 양자에 적용되는 이득을 신속하게 천이시킬 수도 있다.

도 1 은 오디오 시스템 (10), 즉 본 개시에서 설명되는 보이스-프린트 매칭 및 고속-어택 이득 제어 기술들을 이용하여 전기 신호에 적용된 이득을 조정하는 이득 제어 시스템의 일 예를 나타내는 블록도이다. 마이크로폰 (14) 은 순차적으로 및/또는 동시에 (크로스-토크) 말하는 복수의 화자들 (12A - 12N; 총괄하여 "화자들 (12)" ) 중 하나 이상에 의해 생성되는 스피치 사운드를 포함하여 그 부근에서의 주변 사운드를 캡처한다. 화자들 (12) 각각은 (예컨대, 수십 밀리초 정도 내지 수 시간 정도 사이와 같은) 임의의 시간량의 버스트들에서 말할 수도 있다. 마이크로폰 (14) 은 주변 사운드를 오디오 시스템 (10) 에 의해 수신되는 전기 신호 (17) 로 변환한다. 본 개시에서는 인간에 대하여 설명되지만, 화자들 (12) 은 임의의 오디오 소스 또는 그 레코딩들을 나타낼 수도 있다.

일부 양태들에서, 전기 신호 (17) 는 화자들 (12) 의 사운드 또는 임의의 다른 오디오 소스에 의해 제공된 사운드로부터 인코딩되거나, 저장 매체 (예컨대, CD, 하드디스크, 레코드, 테이프, 또는 플래시 메모리) 에 이전에 레코딩된 데이터를 이용하여 플레이백 디바이스 (예컨대, 콤팩트 디스크 (CD) 플레이어, 컴퓨터 프로그램, 또는 테이프 플레이어) 에 의해 재생되는 전기 신호를 나타낸다.

오디오 시스템 (10) 은 전기 신호 (17) 를 프로세싱하여 변경된 전기 신호 (18) 를 출력하며, 이 전기 신호 (18) 는 화자들 (12) 이 말하는 동안 스피커 (16) 가 더 일관된 볼륨을 갖는 (예컨대, 허용가능한 데시벨 (dB) 범위 내에 있는) 오디오를 출력하게 한다. 오디오 시스템 (10) 은 예컨대, 휴대용 오디오 플레이어, 믹싱 보드, 스마트폰, PA (public address) 시스템, 또는 전화 회의 또는 화상 회의 시스템을 나타낼 수도 있다. 허용가능한 dB 범위는 전화 회의나 화상 회의, 콘서트나 PA, 또는 휴대용 오디오 플레이어를 이용한 청취와 같이 오디오 시스템 (10) 이 동작중인 환경에 대하여 오디오 시스템 (10) 을 모니터링하는 사운드 엔지니어, 임의의 화자들 (12) 이나 이용자, 또는 관리자에 의해 이용자 구성 가능할 수도 있다. 일부 양태들에서, 마이크로폰 (14) 과 스피커 (16) 중 하나 또는 이들 양자는 섀시 또는 오디오 시스템 (10) 을 포함하는 다른 타입의 케이스 내에 내장될 수도 있거나, 유선 커넥터들을 통해 오디오 시스템 (10) 에 직접 접속될 수도 있다. 일부 양태들에서, 마이크로폰 (14) 및 스피커 (16) 중 하나 또는 이들 양자는 오디오 시스템 (10) 으로부터 멀리 떨어져 있을 수도 있지만, 예컨대, PSTN (public switched telephone network), PLMN (public land mobile network), VPN (enterprise virtual private network), 인터넷, Wi-Fi 접속, 또는 3GPP (3^rd Generation Partnership Project) 셀룰러 무선 네트워크와 같은 네트워크를 통해 통신적으로 결합될 수도 있다. 일부 양태들에서, 마이크로폰 (14) 및 스피커 (16) 중 하나 또는 이들 양자는 무선일 수도 있다. 일부 양태들에서, 마이크로폰 (14) 은 화자들 (12) 사이에 다양한 조합들로 배열된 복수의 마이크로폰들일 수도 있다. 추가로, 화자들 (12) 각각은 일부 양태들에서, 오디오 시스템 (10) 의 상이한 인스턴스 (instance) 와 연관될 수도 있다.

전기 신호 (17) 를 프로세싱하여 허용가능한 dB 범위 내에서 변경된 전기 신호 (18) 를 출력하고 화자들 (12) 에 대한 사운드 충실도를 유지하기 위해, 오디오 시스템 (10) 은 화자 (12) 마다 자동 이득 제어 (AGC) 기술들을 적용한다. 화자들 (12) 각각에 의해 생성된 사운드 (예컨대, 스피치, 기침소리, 고함소리, 노랫소리 등등) 는 화자의 식별 및 마이크로폰 (15) 으로부터 화자의 거리에 의존하는 상이한 특징들을 가질 수도 있다. 예를 들어, 소프트 화자 또는 마이크로폰 (14) 으로부터 멀리 떨어진 화자는 라우드 화자 또는 마이크로폰 (14) 에 더 인접한 화자에 의해 생성된 사운드보다 더 낮은 진폭을 갖는 사운드를 마이크로폰 (14) 에서 생성하는 경향이 있다.

오디오 시스템 (10) 은 매 화자 마다 AGC 기술들을 적용하기 위해 화자들 (12) 중에서 개별 화자들에 대한 전기 신호 (17) 를 모니터링한다. 화자들 (12) 각각은 임의의 순간에 마이크로폰 (14) 의해 수신되어 변환되는 사운드를 전기 신호 (17) 에 끼워넣을 수도 있다. 따라서, 상이한 조합의 화자들 (12) 이 임의의 특정 시간에 대화에 참여한 새로운 화자들과 말할 수도 있고 (즉, 전체 사운드가 화자들 (12) 에 의해 생성되고 마이크로폰 (14) 에 의해 수신됨), 현재 화자는 대화를 중단할 수도 있다. 여기서, "새로운" 화자는 현재 대화에 참여하거나 재참여한 화자들 (12) 중 하나를 지칭한다.

화자들 (12) 중에서 새로운 화자의 오디오 존재를 식별하기 위해, 오디오 시스템 (10) 은 스피커 검출 및 식별 기술들을 이용하여 전기 신호 (17) 를 프로세싱한다. 새로운 화자를 검출한 후에, 오디오 시스템 (10) 은 새로운 화자가 첫 번째 화자인지 여부를 결정하도록 화자를 식별할 수도 있다. 각종 인스턴스들에서, "첫 번째" 또는 "식별되지 않은" 화자는 오디오 시스템 (10) 이 이전에 인식하지 않았거나 시스템의 이전 인식 기록을 삭제한 화자들 (12) 중 하나, 또는 오디오 시스템 (10) 이 이전 인식 기록을 갖지만 더 이상 화자를 인식할 수 없도록 보이스를 변경한 화자들 (12) 중 하나를 지칭한다. 전기 신호 (17) 에서 검출된 새로운 화자가 첫 번째 화자라는 결정에 응답하여, 오디오 시스템 (10) 은 첫 번째 화자에 대한 이득 값을 신속하게 결정하기 위해 고속 어택/디케이 AGC 알고리즘을 실행할 수도 있고, 오디오 시스템 (10) 은 이러한 결정된 이득 값을 전기 신호 (17) 에 적용하여 변경된 전기 신호 (18) 를 생성할 수도 있다. 고속-어택/디케이 AGC 알고리즘은 표준 AGC 에 대하여 요구되는 시간 (예컨대, 수백 마이크로초 또는 밀리초 정도) 미만의 시간에 첫 번째 화자에 대한 이득 값으로 수렴 (대안적으로, "안정화") 할 수도 있다. 오디오 시스템 (10) 은 첫 번째 화자가 계속해서 말하는 동안 동시에 및/또는 이후에 표준 AGC 를 실행하여 첫 번째 화자에 대한 이득을 리파이닝하고 적용할 수도 있다.

오디오 시스템 (10) 이 표준 AGC 를 이용하여 첫 번째 화자에 대한 데시벨 임계치 내의 안정 상태에 도달할 경우, 오디오 시스템 (10) 은 이러한 안정 상태를 달성하는 이득 또는 안정 상태 이득을 첫 번째 화자와 연관시킬 수도 있다. 전기 신호 (17) 에 표시된 화자들 (12) 중에서 이전에 식별된 화자를 검출하고 식별할 때, 오디오 시스템 (10) 은 저장 매체로부터 이전에 식별된 화자에 대한 사전 결합된 안정 상태 이득을 리콜할 수도 있고, 변경된 전기 신호 (18) 를 생성하기 위해 사전 결합된 안정 상태 이득을 전기 신호 (17) 에 적용할 수도 있다. 오디오 시스템 (10) 이 동시에 표준 AGC 를 실행하여 이득을 리파이닝하고 이전에 식별된 화자에 의해 생성된 사운드들에 기초하여 마이크로폰 (14) 에 의해 생성된 전기 신호 (17) 에 이득을 적용할 수도 있지만, 각종 인스턴스들에서, 오디오 시스템 (10) 은 이전에 식별된 화자에 대하여 적용된 이득으로 더 신속하게 수렴하기 위해 적어도 초기에 사전 결합된 안정 상태 이득을 적용시킨다. 표준 AGC 는 AGC 피드백 메커니즘에 기초하여 안정 상태 이득 값에 도달하는데 수 초 정도가 필요할 수도 있기 때문에, 식별되지 않은 새로운 화자들 (12) 에 대한 고속-어택/디케이 AGC 기술들의 적용과 이전에 식별된 새로운 화자들 (12) 에 대한 각각의 미리 결정된 이득들의 적용의 조합은, 오디오 시스템 (10) 이 전기 신호 (17) 에 적용할 적절한 이득을 신속하게 결정하여 새로운 화자인 화자들 (12) 중 특정 화자에 상관없이 허용가능한 dB 범위 내에서 스피커 (16) 에 의해 변환된 것과 같이 사운드를 생성하는 변경된 전기 신호 (18) 를 생성할 수도 있다. 추가로, 이전에 식별된 새로운 화자들 (12) 에 대하여 미리 결정된 이득들을 적용하는 것은 고속-어택/디케이 AGC 단독으로 보다 상기 화자들에 대한 사운드의 dB 범위의 일관성을 개선시킬 수 있다.

도 2 는 도 1 의 오디오 시스템 (10) 의 예시적인 경우를 더 상세히 예시하는 블록 다이어그램이다. 유사한 도면부호들이 도 1 의 유사한 컴포넌트를 식별하는데 이용된다. 오디오 시스템 (10) 은 전기 신호 (17) 를 수신하고, 화자 식별 모듈 (20) 과 ("AGC 모듈 (26)" 로 도시되는) 자동 이득 제어 (AGC) 모듈 (26) 에 의한 수신을 위해 디지털 신호 (34), 즉 전기 신호 (17) 의 디지털 표현을 출력하는 아날로그-디지털 (A/D) 컨버터 (24) 를 포함한다. 일부 경우에, 오디오 시스템 (10) 은 추가로 전기 신호 (17) 를, 디지털 신호 (34) 로서의 출력을 위해 펄스 코드 변조 (PCM) 인코딩된 디지털 오디오 신호와 같은 디지털 오디오 신호로 컨버팅하는 오디오 밴드 인코더/디코더 (CODEC) 를 포함한다. 일부 양태들에서, 전기 신호 (17) 는 디지털 신호이고, 따라서 A/D 컨버터 (24) 는 오디오 시스템 (10) 으로부터 생략될 수도 있다.

화자 식별 모듈 (20) 은 화자들을 식별하는 보이스 프린트들을 추출하기 위해 디지털 신호 (34) 를 샘플링하고 분석한다. 일부 양태들에서, 화자 식별 모듈 (20) 은 보이스 프린트들을 추출하고 새로운 화자들을 검출 및 식별하기 위해 내부 또는 외부 세그먼테이션을 갖는 GMM-UBM (Gaussian mixture model, universal background model) 을 이용한다. 다른 양태들에서, 화자 식별 모듈 (20) 은 주파수 추정, 패턴 매칭 알고리즘들, 벡터 양자화, 결정 트리들, 은닉 마르코브 (Markov) 모델들, 또는 다른 기술들을 이용할 수도 있다. 화자 식별 모듈 (20) 은 새로운 화자들 (즉, 디지털 신호 (34) 내에 표시된 대화로의 화자의 도입 또는 재도입) 을 식별하기 위해 디지털 신호 (34) 를 계속해서 모니터링할 수도 있다. 오디오 시스템 (10) 의 보이스 프린트들 (22) 은 화자 식별 모듈 (20) 에 의해 이전에 식별된 개별 화자들에 대한 하나 이상의 보이스 프린트들을 저장하는 컴퓨터 판독가능 매체 상에 저장된 데이터 베이스 또는 다른 데이터 구조를 포함한다. 각각의 보이스 프린트는 화자들에 대한 차별되는 신호 파라미터들, 화자들의 보이스 신호의 연속 샘플, 켑스트럼 또는 스펙트럼 특징 벡터들, 또는 보이스 프린트와 대응하는 화자를 매칭하기 위해 화자 식별 모듈 (20) 에 의해 이용될 수도 있는 임의의 다른 정보를 포함할 수도 있다. 화자 식별 모듈 (20) 은 보이스 프린트들 (22) 로의 저장을 위한 보이스 프린트 파라미터를 학습하기 위해 트레이닝 기술들을 수행할 수도 있다. 보이스 프린트들 (22) 각각은 하기에서 더 상세히 설명되는 것과 같이, 보이스 프린트에 매칭하는 화자에 대한 오디오 신호를 포함하는 디지털 신호 (34) 에 AGC 모듈 (26) 에 의해 적용될 연관된 이득을 포함한다.

디지털 신호 (34) 에서 새로운 화자에 대한 보이스 프린트를 추출할 때, 화자 식별 모듈 (20) 은 그 보이스 프린트를 보이스 프린트들 (22) 에 의해 저장된 보이스 프린트와 비교한다. 보이스 프린트들 (22) 에서 보이스 프린트의 매칭은 새로운 화자가 이전에 식별되었음을 나타내며, 화자 식별 모듈 (20) 은 제어 채널 (38) 을 이용하여 매칭 보이스 프린트의 화자 아이덴티티를 AGC 에 제공한다. 보이스 프린트들 (22) 이 새롭게 식별된 보이스 프린트에 대한 매칭을 포함하지 않는 경우, 화자 식별 모듈은 디지털 신호 (34) 에서 식별되지 않은 화자의 발생률을 AGC 모듈 (26) 에 나타낸다. 일부 양태들에서, 화자 식별 모듈 (20) 은 복수의 보이스 프린트들 (22) 이 현재 화자에 대한 개별 매칭 확률을 가지는지 결정할 수도 있다. 이러한 양태들에서, 화자 식별 모듈 (20) 은 보이스 프린트들 (22) 로부터 복수의 보이스 프린트들 (22) 에 대하여 연관된 개별 이득들뿐만 아니라 결정된 개별 매칭 확률을 제공한다. 예를 들어, 새로운 화자가 보이스 프린트들 (22) 중 보이스 프린트 "A" 의 매칭 확률 0.7 및 보이스 프린트들 (22) 중 보이스 프린트 "B" 의 매칭 확률 0.3 을 갖는다고 결정할 때, 화자 식별 모듈 (20) 은 보이스 프린트들 "A" 및 "B" 에 대한 확률들과 함께 연관된 이득들을 판독하여 AGC 모듈 (26) 에 제공한다. 보이스 프린트들을 이용하여 화자들을 식별하는 것으로 설명되지만, 화자 식별 모듈 (20) 은 복수의 오디오 소스들을 구별하는 오디오 프린트들을 이용하여 오디오 소스들을 식별하는 오디오 소스 식별 모듈을 지칭할 수도 있다.

AGC 모듈 (26) 은, 자동 이득 제어 기술들을 적용하여 디지털 신호 (34) 를 변환함으로써, 스피커 또는 다른 적합한 디바이스에 의해 오디오로 변환될 때, 허용가능한 dB 범위 내에 남는 디지털 출력 신호 (36) 에 대한 신호 진폭을 가능하게 한다. 다수의 적합한 AGC 알고리즘들 중 임의의 것이 허용가능한 dB 범위를 가능하게 하도록 디지털 신호 (34) 의 진폭을 적응시키기 위해 적용될 수도 있다. AGC 알고리즘들은 통상적으로 입력 양에 기초하여 이전에 적용된 이득 레벨의 결과를 모니터하는 피드백 루프에 의존한다. 그 결과에 기초하여, 통상적인 AGC 알고리즘들은, 원하는 양에 더 가까이 근사하는 나중의 입력 양을 초래하는 출력 양으로 입력 량을 변환시키도록 이득 레벨을 변경한다. 본 기술들에 대한 적절한 양은 디지털 출력 신호 (36) 에 대한 신호 진폭이다. 몇몇 양태들에서, 오디오 시스템 (10) 은, 디지털 출력 신호 (36) 또는 변경된 전기 신호 (18) 를 생성하기 위하여 증폭기가 전기 신호 (17) 또는 디지털 신호 (34) 중 하나에 적용하는 이득 신호를 AGC 모듈 (26) 로부터 수신하는 아날로그 또는 디지털 증폭기를 포함한다. 몇몇 양태들에서, 변경된 전기 신호 (18) 를 생성하기 위하여 전기 신호 (17) 를 증폭, 디케이 또는 그렇지 않으면 변경하기 위한 오디오 필터 또는 다른 디바이스 또는 값(들)로서 이득이 계산, 저장 및 적용될 수도 있다.

AGC 모듈 (26) 은 실질적으로 일관된 볼륨으로 말하는 화자에 대한 이득에 수초 정도로 수렴하는 표준 AGC 를 적용한다. AGC 모듈 (26) 은 제어 채널 (38) 을 이용하여 화자 식별 모듈 (20) 에 결과적인 이득을 제공한다. 화자 식별 모듈 (20) 은 화자에 대한 연관된 보이스 프린트와 함께 결과적인 이득을 보이스 프린트들 (22) 에 저장한다. 몇몇 경우들에서, 화자 식별 모듈 (20) 은 보이스 프린트들 (22) 내에서, 연관된 보이스 프린트에 대한 이미 저장된 이득을 AGC 모듈 (26) 로부터 수신된 새로운 결과적인 이득으로 교체한다.

AGC 모듈 (26) 의 ("고속 (28)"으로서 예시된) 고속 AGC 모듈 (28) 및 ("맵 (30)"으로서 예시된) 맵핑 모듈 (30) 은 본 개시와 일관되는 기술들을 수행하여, AGC 모듈 (26) 이 디지털 출력 신호 (36) 을 생성하는 속도를 향상시키고 이는 현재 허용가능한 dB 범위를 갖는 볼륨을 생성한다. 특히, 디지털 신호 (34) 의 현재 화자가 식별되지 않은 화자라는 화자 식별 모듈 (20) 로부터 신호를 수신할 때, 고속 AGC 모듈 (28) 은 AGC 모듈 (26) 에 의해 디지털 신호 (34) 에 적용된 표준 AGC를 변경하여 (AGC 기술들이 라우드 (loud) 신호에 응답하여 이득을 감소시키는 속도에 대응하는) 어택 레이트 (attack rate) 및/또는 (AGC 기술들이 라우드 신호의 철회 (withdrawal) 에 응답하여 이득을 증가시키는) 디케이 레이트 (decay rate) 를 증가시킨다. 결과적으로, AGC 모듈 (26) 은, AGC 모듈 (26) 이 그렇지 않으면 표준 AGC에 따라 이득을 변경하는 속력에 대해 디지털 신호 (34) 에 적용된 이득을 신속하게 변경하며, 따라서 허용가능한 볼륨을 초래하는 디지털 출력 신호 (36) 를 신속하게 생성한다. 고속 AGC 모듈 (28) 은 AGC 모듈 (26) 에 의해 수행된 표준 AGC 대신에, 시그널링될 때 고속 어택/디케이 AGC 기술들을 수행하는 분리된 집적 회로 또는 프로세서를 나타낼 수도 있다.

고속 어택/디케이 AGC 기술들은 이득 안정성에 관한 결함을 가지기 때문에 (예를 들면, 입력 진폭에서의 일시적, 약간의 변조는 큰 이득 적응을 초래할 수 있음), 맵핑 모듈 (30) 은 이전의 식별된 화자들에 대하여 화자 식별 모듈 (20) 로부터 수신된 미리결정된 이득 값을 적용한다. 위에 설명된 바처럼, 화자 식별 모듈 (20) 이 디지털 신호 (34) 에 대한 보이스 프린트들 (22) 중 매칭되는 하나를 식별할 때, 화자 식별 모듈 (20) 은 매칭되는 보이스 프린트에 대해 연관된 이득을 AGC 모듈 (26) 에 제공한다. AGC 모듈 (26) 이 연관된 이득을 결정하는 동안 식별된 화자에 대한 오디오 신호를 수신하는 이전 어커런스 (occurrence) 에 실질적으로 일관된 볼륨의 사운드를 식별된 화자가 생성하면, 맵핑 모듈 (30) 은 연관된 이득을 디지털 신호 (34) 에 적용하여 오디오 시스템 (10) 에 대한 허용가능한 dB 범위를 충족하는 디지털 출력 신호 (36) 를 생성한다.

몇몇 양태들에서, 오디오 시스템 (10) 은 식별된 화자들에 대한 저장, 연관된 이득들로 식별된 화자들에 대한 계산된 이득들에서의 차이들에 기초하여 마이크로폰 이동을 검출한다. 예를 들면, 화자 식별 모듈 (20) 은, 새로운 화자에 대한 디지털 신호 (34) 에 대해 보이스 프린트들 (22) 중 매칭하는 하나를 식별할 수도 있으며, 이를 맵핑 모듈 (30) 이 초기에 디지털 신호 (34) 에 적용한다. 후속하여, AGC 모듈 (26) 은 디지털 신호 (34) 의 진폭의 차이에 기인하여 화자에 대한 새로운 이득을 계산할 수도 있다. AGC 모듈 (26) 은 제어 채널 (38) 을 통하여 화자 식별 모듈 (20) 에 새로운 이득을 제공한다. 화자 식별 모듈 (20) 은 보이스 프린트들 (22) 에서의 화자에 대해 이전에 저장된 이득에 새로운 이득을 비교한다. 그 차이가 구성 가능한 (configurable) 임계를 초과하면, 마이크로폰이 이동했을 수도 있고, 이는 각 화자 (12) 로 하여금 마이크로폰 이동 전에 마이크로폰에서 생성된 사운드로부터 진폭이 발산하는 마이크로폰에서의 사운드를 생성하게 한다. 결과적으로, 화자 식별 모듈 (20) 은 보이스 프린트들 (22) 과 연관된 이득들 각각에 이미 저장된 이득과 새로운 이득 간의, 예를 들면, 상대 또는 절대, 차이를 적용할 수도 있다. 이런 방식으로, 보이스 프린트들 (22) 과 연관된 각 화자는 그들의 다음 말하는 차례 (speaking turn) 를 준비하여 조정된 각각의 저장된 이득들을 갖는다.

몇몇 양태들에서, 오디오 시스템 (10) 은, 가속도계, 카메라, 적외선 로케이터, 또는 디바이스의 이동을 추적하는 다른 컴포넌트를 더 포함하는, 스마튼 폰과 같은 디바이스를 나타낼 수도 있다. 그러한 양태들에서, 오디오 시스템 (10) 은 추적 컴포넌트로부터 수신된 디바이스에 대한 이동 정보에 기초하여 이득 변경을 계산할 수도 있다. 예를 들면, 이동 정보는 화자들 (12) 중 하나가 공유된 마이크로폰으로부터 더 멀리 이동하고 있다는 것을 표시할 수도 있다. 결과적으로, 오디오 시스템 (10) 은 디지털 신호 (34) 에 적용된 이득을 증가시키는 이득 변경을 계산할 수도 있다. 몇몇 양태들에서, 오디오 시스템 (10) 은, 카메라 또는 화자들 (12) 의 이동을 추적하는 다른 디바이스를 포함하거나 또는 그로부터 위치 데이터를 수신하는, 스마튼 폰과 같은 디바이스를 나타낼 수도 있다. 이들 양태들에서, 오디오 시스템은 추적 컴포넌트로부터 수신된 스피커들에 대한 이동 정보에 기초하여 스피커 마다 (per-speaker basis) 이득 변경을 계산할 수도 있다.

오디오 시스템 (10) 의 D/A (Digital to audio) 변환기 (32) 는 디지털 출력 신호 (36) 를 변경된 전기 신호 (18) 로 변환하고, 이는 아날로그 신호를 나타낼 수도 있다. 몇몇 경우들에서, 오디오 시스템 (10) 은 디지털 출력 신호 (36) 를 변경된 전기 신호 (18) 로 변환하는 오디오 대역 CODEC 을 또한 포함한다. 몇몇 양태들에서, 변경된 전기 신호 (18) 는 디지털 신호이고, 따라서 D/A 변환기 (32) 는 오디오 시스템 (10) 으로부터 생략될 수도 있다.

오디오 시스템 (10) 의 하나 이상의 프로세서들 (40) 은 오디오 시스템 (10) 의 다양한 모듈들의 기능성을 수행하도록 실행한다. 프로세서 (40) 는 마이크로프로세서, 제어기, DSP (digital signal processor), 보이스 대역 오디오 프로세서, ASIC (application specific integrated circuit), FPGA (field-programmable gate array), 또는 동등한 이산 또는 집적 로직 회로 중 어느 하나 이상을 포함할 수도 있다. 또한, 본 개시에서, 프로세서들 (40) 에 기인한 기능들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 임의의 조합으로 구현될 수도 있다. 프로세서들 (40) 은 오디오 시스템 (10) 의 저장 디바이스 (42) 에 의해 저장된 명령들을 실행할 수도 있고, 이는 하나 이상의 프로세서들, 예를 들면 프로세서 (40) 로 하여금 다양한 기능들을 수행하도록 하는 명령들을 포함하는 컴퓨터 판독가능, 머신 판독가능, 또는 프로세서 판독가능 저장 매체를 포함할 수도 있다. 저장 디바이스 (42) 는 임의의 유형 또는 비일시적 컴퓨터 판독가능 저장 매체, 이를테면 RAM (random access memory), ROM (read only memory), PROM (programmable read only memory), EPROM (erasable programmable read only memory), EEPROM (electronically erasable programmable read only memory), 플래시 메모리, 하드 디스크, CD-ROM, 플로피 디스크, 카세트, 자기 매체, 광학 매체 또는 다른 컴퓨터 판독가능 저장 매체를 포함할 수도 있다. 보이스 프린트들 (22) 은 저장 디바이스 (42) 에 의해 저장될 수도 있다.

도 3 은 본원에 설명된 기술들에 따라, 오디오 시스템에 의해 수신된 오디오 스트림에서 새로운 화자의 도입에 응답하여 이득을 신속하게 조정하기 위한 도 2 의 오디오 시스템 (10) 의 동작 예를 나타내는 플로우차트이다. 오디오 시스템 (10) 은 오디오 신호 파형을 포함하는 전기 신호 (17) 를 수신한다 (100). 화자 식별 모듈 (20) 은 파형 내의 새로운 화자를 식별하기 위하여 오디오 신호 파형의 표현을 샘플링 및 분석한다 (102). 화자가, 화자 식별 모듈 (20) 이 보이스 프린트들 (22) 중 하나와 매칭할 수 없는 첫 번째 화자이면 (104의 예 분기), 화자 식별 모듈 (20) 은 AGC 모듈 (26) 에게 새로운 화자에 대한 이득을 신속하게 조정하기 위해 고속 AGC 모듈 (28) 을 적용하도록 지시한다 (108). 또한, AGC 모듈 (26) 은 후속하여 그리고/또는 동시에, 새로운 화자에 대한 결과적인 이득에 수렴하도록 표준 AGC를 적용한다 (110). AGC 모듈 (26) 은 이 결과적인 이득을 화자 식별 모듈 (20) 에 제공하고, 이는 새로운 화자에 대한 보이스 프린트와 결과적인 이득을 연관시키고 그 연관을 보이스 프린트들 (22) 에 저장한다 (112).

화자 식별 모듈 (20) 이 화자를 보이스 프린트들 (22) 중 하나에 매칭할 수 있으면 (즉, 화자가 오디오 시스템 (10) 에 의해 이전에 식별되었으면) (104 의 아니오 분기), 화자 식별 모듈 (20) 은 보이스 프린트들 (22) 로부터 판독하고 매칭된 보이스 프린트에 대해 연관된 이득을 AGC 모듈 (26) 에 제공한다. 맵핑 모듈 (30) 은 새로운 화자 (106) 에 대한 이득을 신속하게 조정하기 위해 연관된 이득을 적용한다 (106). 오디오 시스템 (10) 은 전기 신호 (17) 의 오디오 신호 파형에 적용된 이득에 의해 변경된 오디오 신호 파형을 포함하는 변경된 전기 신호 (18) 를 연속적으로 출력한다 (114). 맵핑 모듈 (30) 은 전술된 기술들의 적용을 위해 추가적인 새로운 화자들이 검출됨에 따라 새로운 화자들에 대해 연관된 이득의 적용을 계속할 수도 있다.

이 동작의 몇몇 양태들에서, 화자 식별 모듈 (20) 은 보이스 프린트들 (22) 중 하나를 갖는 입력 오디오 신호 파형의 확률 (probability) 을 결정한다. 화자 식별 모듈 (20) 내의 구성 가능하거나 또는 미리 프로그램된 임계 확률은 매칭되는 보이스 프린트에 대한 식별을 확립한다. 즉, 추정적으로 매칭된 보이스 프린트가 임계 확률을 초과하는 확률의 경우에, 화자 식별 모듈 (20) 은 매칭된 보이스 프린트에 대한 연관된 이득을 적용하도록 AGC 모듈 (26) 에 지시한다. 그렇지 않으면, 화자 식별 모듈 (20) 은 AGC 모듈 (26) 에 고속 AGC 모듈 (28) 을 적용하도록 지시한다.

도 4 는 여기에 설명된 기술들에 따라, 오디오 시스템에 의해 수신된 오디오 스트림에서 새로운 화자의 도입에 응답하여 결합된 이득을 적용하기 위한 오디오 시스템 (10) 의 동작 모드 예를 나타내는 플로우차트이다. 오디오 시스템 (10) 은 화자에 대한 오디오 신호 파형을 포함하는 전기 신호 (17) 를 수신한다 (120). 화자 식별 모듈 (20) 은, 보이스 프린트들 (22) 로 오디오 신호 파형의 표현을 샘플링 및 매칭하며, 파형 내의 복수의 가능한 화자들은 각각 화자에 대한 매칭 확률과 연관된다 (122). 예를 들면, 화자 식별 모듈 (20) 은, 0.7 의 매칭 확률로 제 1 화자를 매칭할 수도 있고 또한 0.3 의 매칭 확률로 제 2 화자를 매칭할 수도 있다.

가능한 매칭된 화자들은 각각의 이득들과 보이스 프린트들 (22) 에서 연관되고, 이 각각의 이득들을 결합된 이득을 생성하기 위해 각각의 매칭 확률들에 기초하여 화자 식별 모듈 (20) 이 결합한다 (124). 예를 들면, 화자 식별 모듈 (20) 은, 대응하는 보이스 프린트의 매칭 확률에 의해 이득들을 가중시키고, 가중된 이득들을 합산하여 결합된 이득을 생성할 수도 있다. 화자 식별 모듈 (20) 은 결합된 이득을 AGC 모듈 (26) 에 제공하고, 맵핑 모듈 (30) 은 새로운 화자에 대한 이득을 신속하게 조정하기 위해 연관된 이득을 적용한다 (126). 오디오 시스템 (10) 은 전기 신호 (17) 의 오디오 신호 파형에 적용된 이득에 의해 변경된 오디오 신호 파형을 포함하는 변경된 전기 신호 (18) 를 연속적으로 출력한다 (128).

다양한 실시형태들이 설명되었다. 이들 및 다른 실시형태들은 다음의 청구항 범위 내에 있다.

Claims

오디오 시스템으로 오디오 신호를 프로세싱하여 제 1 오디오 소스를 식별하는 단계;
상기 오디오 시스템이 상기 제 1 오디오 소스와 이득 간의 연관을 저장하는지 여부를 결정하는 단계;
상기 오디오 시스템이 상기 제 1 오디오 소스와 상기 이득 간의 상기 연관을 저장하지 않은 경우, 상기 오디오 시스템으로 어택 또는 디케이 레이트 중 적어도 하나를 증가시키도록 자동 이득 제어 알고리즘을 변경하고, 상기 변경된 자동 이득 제어 알고리즘을 상기 오디오 신호에 적용하여 상기 제 1 오디오 소스에 대한 상기 이득을 결정하는 단계;
상기 오디오 시스템으로, 상기 제 1 오디오 소스에 대한 상기 이득을 상기 오디오 신호의 표현에 적용하여 출력 오디오 신호를 생성하는 단계;
상기 오디오 신호의 상기 표현에 상기 이득을 적용한 후에, 상기 오디오 시스템으로 상기 어택 또는 디케이 레이트 중 적어도 하나를 감소시키도록 상기 자동 이득 제어 알고리즘을 복구하는 단계;
상기 오디오 시스템으로, 상기 복구된 자동 이득 제어 알고리즘을 상기 오디오 신호의 상기 표현에 적용하여 상기 제 1 오디오 소스에 대한 결과적인 이득을 결정하는 단계;
상기 결과적인 이득과 제 1 보이스 프린트를 연관시키는 단계;
상기 결과적인 이득과 상기 제 1 보이스 프린트의 상기 연관을 상기 제 1 오디오 소스와 상기 결과적인 이득 간의 연관으로서 저장 매체에 저장하는 단계; 및
상기 오디오 시스템으로부터 상기 출력 오디오 신호를 출력하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템으로, 상기 결과적인 이득을 상기 오디오 신호의 상기 표현에 적용하여 상기 출력 오디오 신호를 생성하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 제 1 오디오 소스를 상기 결과적인 이득과 연관시키는 단계; 및
상기 결과적인 이득과 상기 제 1 오디오 소스의 상기 연관을 저장 매체에 저장하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템은 스마트 폰, 전화 회의 시스템, 및 화상 회의 시스템 중 하나를 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템은 상기 오디오 신호로 표현된 하나 이상의 오디오 소스들에 대해 각각의 보이스 프린트들로서 저장하기 위한 각각의 보이스 프린트 파라미터들을 학습하기 위해 상기 오디오 신호의 상기 표현으로 트레이닝하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템이 상기 제 1 오디오 소스와 상기 이득 간의 상기 연관을 저장하는 경우, 상기 제 1 오디오 소스에 대한 상기 이득을 판독하는 단계; 및
상기 오디오 시스템으로, 상기 제 1 오디오 소스에 대한 상기 이득을 적용하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템은 상기 제 1 오디오 스스와 상기 이득 간의 상기 연관을 저장하고,
상기 방법은,
상기 오디오 시스템으로, 상기 제 1 오디오 소스에 대한 매칭 보이스 프린트의 확률를 결정하는 단계; 및
상기 확률이 임계 확률을 충족하지 않는 경우, 상기 오디오 시스템으로 상기 어택 또는 디케이 레이트 중 적어도 하나를 증가시키도록 상기 자동 이득 제어 알고리즘을 변경하고 상기 변경된 자동 이득 제어 알고리즘을 상기 오디오 신호의 상기 표현에 적용하여 상기 제 1 오디오 소스에 대한 상기 이득을 결정하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템은 상기 제 1 오디오 소스와 상기 이득 간의 상기 연관을 저장하고,
상기 방법은,
상기 오디오 시스템으로, 상기 제 1 오디오 소스에 대한 매칭 보이스 프린트의 확률을 결정하는 단계;
상기 확률이 임계 확률을 충족하는 경우, 상기 제 1 오디오 소스에 대한 상기 이득을 판독하는 단계; 및
상기 오디오 시스템으로, 상기 제 1 오디오 소스에 대해 상기 판독된 이득을 적용하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템이 상기 제 1 오디오 소스와 상기 이득 간의 상기 연관을 저장하는 경우, 상기 오디오 시스템으로 상기 제 1 오디오 소스에 대한 매칭 보이스 프린트의 넌-제로 확률을 결정하는 단계;
상기 오디오 시스템으로, 제 2 오디오 소스에 대한 매칭 보이스 프린트의 넌-제로 확률을 결정하는 단계;
상기 제 1 오디오 소스에 대한 상기 이득 및 상기 제 2 오디오 소스에 대한 이득을 판독하는 단계; 및
상기 제 1 오디오 소스에 대한 상기 이득 및 상기 제 2 오디오 소스에 대한 상기 이득의 결합을 적용하는 단계를 더 포함하는, 방법.
제 9 항에 있어서,
상기 제 1 오디오 소스에 대한 상기 이득을 상기 제 1 오디오 소스에 대한 상기 매칭 보이스 프린트의 상기 넌-제로 확률에 의해, 그리고 상기 제 2 오디오 소스에 대한 상기 이득을 상기 제 2 오디오 소스에 대한 상기 매칭 보이스 프린트의 상기 넌-제로 확률에 의해 가중시키는 단계; 및
상기 제 1 오디오 소스에 대한 상기 가중된 이득 및 상기 제 2 오디오 소스에 대한 상기 가중된 이득을 합산하여 상기 결합을 생성하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템으로 어택 또는 디케이 레이트 중 적어도 하나를 증가시키도록 자동 이득 제어 알고리즘을 변경하는 단계는 상기 어택 또는 디케이 레이트 중 적어도 하나를 증가시켜 서브-제 2 자동 이득 제어 수렴을 제공하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템으로, 상기 제 1 오디오 소스로부터 상기 오디오 신호를 생성하는 마이크로폰까지의 거리에서의 변화를 결정하는 단계;
적어도 상기 거리에서의 상기 변화에 기초하여 이득 변경을 결정하는 단계; 및
상기 제 1 오디오 소스에 대한 상기 이득에 상기 이득 변경을 적용하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템이 상기 제 1 오디오 소스와 상기 이득 간의 상기 연관을 저장하는 경우, 상기 오디오 시스템으로, 상기 자동 이득 제어 알고리즘을 적용하여 상기 제 1 오디오 소스에 대한 새로운 이득을 계산하는 단계;
상기 제 1 오디오 소스에 대한 상기 이득과 상기 제 1 오디오 소스에 대한 상기 새로운 이득 간의 차이를 결정하는 단계; 및
상기 오디오 시스템에 의해 저장되고 제 2 오디오 소스와 연관된 이득에 상기 차이를 적용하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템으로, 상기 변경된 자동 이득 제어 알고리즘을 적용하는 단계와 동시에 상기 오디오 신호의 상기 표현에 변경되지 않은 어택 및 디케이 레이트를 갖는 상기 자동 이득 제어 알고리즘의 제 2 인스턴스를 적용하여 결과적인 이득을 생성하는 단계; 및
상기 오디오 시스템으로, 상기 결과적인 이득을 상기 오디오 신호의 상기 표현에 적용하여 상기 출력 오디오 신호를 생성하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 오디오 시스템으로 상기 오디오 신호의 상기 표현을 프로세싱하여 제 2 오디오 소스를 식별하는 단계;
상기 오디오 시스템이 상기 제 2 오디오 소스와 상기 제 2 오디오 소스에 대한 이득 간의 연관을 저장하는지 여부를 결정하는 단계;
상기 오디오 시스템이 상기 제 2 오디오 소스와 상기 제 2 오디오 소스에 대한 상기 이득 간의 상기 연관을 저장하지 않은 경우, 상기 오디오 시스템으로 상기 어택 또는 디케이 레이트 중 적어도 하나를 증가시키도록 상기 자동 이득 제어 알고리즘을 변경하고 상기 오디오 신호의 상기 표현에 상기 변경된 자동 이득 제어 알고리즘을 적용하여 상기 제 2 오디오 소스에 대한 상기 이득을 결정하는 단계;
상기 오디오 시스템으로, 상기 오디오 신호의 상기 표현에 상기 제 2 오디오 소스에 대한 상기 이득을 적용하여 출력 오디오 신호를 생성하는 단계를 더 포함하는, 방법.
오디오 시스템으로서,
오디오 신호를 프로세싱하여 제 1 오디오 소스를 식별하고 상기 오디오 시스템이 상기 제 1 오디오 소스와 이득 간의 연관을 저장하는지 여부를 결정하는 화자 식별 모듈; 및
자동 이득 제어 모듈을 포함하고,
상기 화자 식별 모듈은, 상기 오디오 시스템이 상기 제 1 오디오 소스와 상기 이득 간의 상기 연관을 저장하지 않은 경우 어택 또는 디케이 레이트 중 적어도 하나를 증가시키도록 상기 자동 이득 제어 모듈을 변경하고,
상기 자동 이득 제어 모듈은 상기 변경된 자동 이득 제어 알고리즘을 상기 오디오 신호에 적용하여 상기 제 1 오디오 소스에 대한 상기 이득을 결정하고,
상기 자동 이득 제어 모듈은 상기 제 1 오디오 소스에 대한 상기 이득을 상기 오디오 신호의 표현에 적용하여 출력 오디오 신호를 생성하고,
상기 자동 이득 제어 모듈은, 상기 오디오 신호의 상기 표현에 상기 이득을 적용한 후에, 상기 오디오 시스템으로 상기 어택 또는 디케이 레이트 중 적어도 하나를 감소시키도록 상기 자동 이득 제어 알고리즘을 복구하고,
상기 자동 이득 제어 모듈은 상기 복구된 자동 이득 제어 알고리즘을 상기 오디오 신호의 상기 표현에 적용하여 상기 제 1 오디오 소스에 대한 결과적인 이득을 결정하고,
상기 화자 식별 모듈은 제 1 보이스 프린트를 상기 결과적인 이득과 연관시키고,
상기 화자 식별 모듈은 상기 결과적인 이득과 상기 제 1 보이스 프린트의 상기 연관을 상기 제 1 오디오 소스와 상기 결과적인 이득 간의 상기 연관으로서 저장 매체에 저장하며,
상기 오디오 시스템은 상기 출력 오디오 신호를 출력하는, 오디오 시스템.
명령들을 포함하는 컴퓨터 판독가능 저장 디바이스로서,
상기 명령들은 실행되는 경우,
오디오 시스템으로 오디오 신호를 프로세싱하여 제 1 오디오 소스를 식별하는 동작;
상기 오디오 시스템이 상기 제 1 오디오 소스와 이득 간의 연관을 저장하는지 여부를 결정하는 동작;
상기 오디오 시스템이 상기 제 1 오디오 소스와 상기 이득 간의 상기 연관을 저장하지 않은 경우, 상기 오디오 시스템으로 어택 또는 디케이 레이트 중 적어도 하나를 증가시키도록 자동 이득 제어 알고리즘을 변경하고, 상기 변경된 자동 이득 제어 알고리즘을 상기 오디오 신호에 적용하여 상기 제 1 오디오 소스에 대한 상기 이득을 결정하는 동작;
상기 오디오 시스템으로, 상기 제 1 오디오 소스에 대한 상기 이득을 상기 오디오 신호의 표현에 적용하여 출력 오디오 신호를 생성하는 동작;
상기 오디오 신호의 상기 표현에 상기 이득을 적용한 후에, 상기 오디오 시스템으로 상기 어택 또는 디케이 레이트 중 적어도 하나를 감소시키도록 상기 자동 이득 제어 알고리즘을 복구하는 동작;
상기 오디오 시스템으로, 상기 복구된 자동 이득 제어 알고리즘을 상기 오디오 신호의 상기 표현에 적용하여 상기 제 1 오디오 소스에 대한 결과적인 이득을 결정하는 동작;
상기 결과적인 이득과 제 1 보이스 프린트를 연관시키는 동작;
상기 결과적인 이득과 상기 제 1 보이스 프린트의 상기 연관을 상기 제 1 오디오 소스와 상기 결과적인 이득 간의 연관으로서 저장 매체에 저장하는 동작; 및
상기 오디오 시스템으로부터 상기 출력 오디오 신호를 출력하는 동작을 포함하는 동작들을 수행하는, 컴퓨터 판독가능 저장 디바이스.