KR101501183B1

KR101501183B1 - 단일 및 다수 발언자용 이중 모드 ａｇｃ

Info

Publication number: KR101501183B1
Application number: KR1020130013870A
Authority: KR
Inventors: 니클라스 엔붐; 얀 스코글룬드; 앤드류 존 맥도널드; 비욘 볼켈
Original assignee: 구글 인코포레이티드
Priority date: 2012-02-07
Filing date: 2013-02-07
Publication date: 2015-03-10
Also published as: CA2803615A1; JP2014158310A; JP5837646B2; EP2627083A3; EP2627083A2; CN103247297B; CN103247297A; JP5559898B2; AU2013200366A1; US20130201272A1; KR20130091278A; JP2013162525A

Abstract

본 발명은 오디오 신호 및 비디오 신호를 수신하는 수신 유닛, 오디오 신호 또는 비디오 신호 중 하나를 인식하여 판별된 발언자의 수를 판별하는 판별 유닛, 및 상기 판별된 발언자의 수를 기초로 오디오 신호의 이득을 조정하는 이득 조정 유닛을 포함하는, 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템에 관한 것이다.

Description

단일 및 다수 발언자용 이중 모드 ＡＧＣ{Two Mode AGC for Single and Multiple Speakers}

본 출원은 2012년 2월 7일에 출원된 미국출원 No. 13/368,173에 관한 우선권을 주장하며, 그 전체 내용이 본 명세서에 참조로 통합된다.

본 발명은 일반적으로 단일 발언자 모드 및 다수 발언자 모드를 이용하는 (이중-모드) 회의 시스템(conferencing system)용 자동 이득 제어(AGC) 메커니즘에 관한 것이다.

자동 이득 제어(AGC) 메커니즘은 한 개인의 발언(individual speaking)이 적절한 레벨로 기록되도록 마이크로폰 이득(디지털 또는 아날로그)을 설정하기 위한 것이다. 그러나, 마이크로폰(microphone)이 발언 중인 한 개인(단일 발언자) 또는 발언 중인 개인들(다수 발언자들)에 의해 사용되는 경우, 발언 중인 개인들의 수를 제대로 판별하지 못하면 AGC 메커니즘은 발언 중인 각각의 개인의 이득을 적절히 조정할 수 없다.

또한, 회의 중에 한 개인이 (예컨대, 헤드셋을 착용한 채) 발언 중이고, 배후에서 발언하는 다른 사람들(비-회의 참가자들)이 존재하는 경우에는 이득 변화에 따른 부작용이 있을 수 있다. 더 상세하게, 시스템(예컨대, 마이크로폰 시스템)은 발언 중인 복수의 개인들이 있다라고 판별하고, 실제로 단 한 명의 실질적인/의도된(actual/intended) 발언자가 있는 경우에도 발언 중인 복수의 개인들이 있다는 것을 기반으로 하여 이득을 변경할 수 있다. 따라서, 단지 하나 이상의 검출된 발언자들이 있다는 것이 아니라, 하나 이상의 실질적이거나 의도된 발언자들이 있는지 여부를 제대로 판단할 수 있는 AGC 메커니즘이 필요하다.

본 요약은 본 발명의 일부 태양의 기본적인 이해를 제공하기 위해 간소한 형태로 기술 개념의 선택을 제공한다. 본 요약은 본 명세서에 관한 폭넓은 개요가 아니며, 본 발명의 핵심적인 또는 중요한 구성요소를 판별하거나 본 발명의 범위를 정확히 서술하기 위한 것이 아니다. 본 요약은 단지 하기의 발명의 상세한 설명의 서두로서 본 발명의 일부 개념을 제시한다.

본 발명의 태양들은 오디오 신호 및 비디오 신호를 수신하는 적어도 하나의 수신 유닛, 오디오 신호 또는 비디오 신호 중 하나를 인식하여 발언자의 수를 판별하는 판별 유닛, 및 상기 판별된 발언자의 수를 기초로 오디오 신호의 이득을 조정하는 이득 조정 유닛을 포함하는, 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템을 제공한다.

본 발명의 한 실시예에 따르면, 인식은 발언자의 수를 판별하기 위해 얼굴 인식 또는 음성 분석 중 하나를 행함으로써 수행된다.

본 발명의 또 다른 실시예에 따르면, 인식은 발언자의 수를 판별하기 위해 오디오 신호에 대한 음성 분석을 행함으로써 수행된다.

본 발명의 또 다른 실시예에 따르면, 인식은 비디오 신호에 대한 얼굴 인식을 행함으로써 수행된다.

본 발명의 부가된 실시예에 따르면, 제어 시스템은 상기 검출된 발언자의 수를 기초로 단일 발언자 모드와 다수 발언자 모드 사이를 전환하는 스위치 유닛을 더 포함한다.

본 발명의 또 다른 실시예에 따르면, 얼굴 인식은 하나의 얼굴 또는 복수의 얼굴들 중 하나를 검출하도록 수행된다.

본 발명의 또 다른 실시예에 따르면, 제어 시스템은 검출된 얼굴의 수를 기초로 단일 발언자 모드와 다수 발언자 모드 사이를 전환하는 스위치 유닛을 더 포함한다.

본 발명의 부가된 실시예에 따르면, 복수의 얼굴들이 검출되면 스위치 유닛은 단일 발언자 모드에서 다수 발언자 모드로 전환하고, 이득 조정 유닛은 다수 발언자 모드에서 제 1 비율로 오디오 신호의 이득을 조정하며, 하나의 얼굴이 검출되면 스위치 유닛은 다수 발언자 모드에서 단일 발언자 모드로 전환하고, 이득 조정 유닛은 단일 발언자 모드에서 제 1 비율과 다른 제 2 비율로 오디오 신호의 이득을 조정한다.

본 발명의 또 다른 실시예에 따르면, 제 1 비율은 상기 제 2 비율보다 크다.

본 발명의 또 다른 실시예에 따르면, 검출 유닛은 검출된 음성의 음량을 적어도 하나의 임계치와 비교하여, 검출된 음성의 음량이 소정의 음량 범위 밖에 있는지를 판별하며, 검출 유닛은 검출된 음성의 음량이 소정의 음량 범위 밖에 있을 때를 기초로, 검출된 음성의 음량이 특정 시간 동안 소정의 음량 범위 밖에 있는지를 판별하고, 검출 유닛은 검출된 음성의 음량을 기초로 제 1 비율을 판별하며,검출 유닛은 검출된 음성의 음량을 기초로 제 2 비율을 판별한다.

본 발명의 부가된 실시예에 따르면, 적어도 하나의 수신 유닛은 오디오 신호와 비디오 신호 모두를 갖는 데이터 스트림을 수신한다.

본 발명의 또 다른 실시예에 따르면, 적어도 하나의 수신 유닛은 오디오 신호를 수신하는 제 1 수신 유닛을 포함하며, 적어도 하나의 수신 유닛은 비디오 신호를 수신하는 제 2 수신 유닛을 포함한다.

본 발명의 또 다른 실시예에 따르면, 제 1 수신 유닛은 마이크로폰이며, 제 2 수신 유닛은 카메라이다.

또한, 본 발명의 태양들은 오디오 신호를 수신하는 단계, 비디오 신호를 수신하는 단계, 비디오 신호 또는 오디오 신호 중 하나를 인식하여, 발언자의 수를 판별하는 단계, 및 상기 판별된 발언자의 수를 기초로 오디오 신호의 이득을 조정하는 단계를 포함하는, 통신 시스템에서 오디오 레벨을 변경하는 제어 방법을 제공한다.

또한, 본 발명의 태양들은 비디오 신호를 캡처링하는 단계, 오디오 신호를 캡처링하는 단계, 오디오 신호에서 적어도 하나의 사용자의 음성을 검출하는 단계, 비디오 신호에 대한 얼굴 인식을 수행하여 하나의 얼굴 또는 복수의 얼굴들 중 하나를 검출하는 단계, 검출된 얼굴 또는 얼굴들의 수를 기초로 발언자의 수를 판별하는 단계, 검출된 발언자의 수를 기초로, 단일 발언자 모드와 다수 발언자 모드 사이를 전환하는 단계, 복수의 얼굴들이 검출되면 단일 발언자 모드에서 다수 발언자 모드로 전환하는 단계, 단일의 얼굴만이 검출되면 다수 발언자 모드에서 단일 발언자 모드로 전환하는 단계, 다수 발언자 모드에서 제 1 비율로 오디오 신호의 이득을 조정하는 단계, 및 단일 발언자 모드에서 제 2 비율로 오디오 신호의 이득을 조정하는 단계를 포함하며, 상기 제 1 비율은 상기 제 2 비율보다 큰, 통신 시스템에서 오디오 레벨을 변경하는 제어 방법을 제공한다.

본 발명의 또 다른 실시예에 따르면, 제어 방법은 검출된 음성의 음량을 적어도 하나의 임계치와 비교하여, 검출된 음성의 음량이 소정의 음량 범위 밖에 있는지를 판별하는 단계, 검출된 음성의 음량이 소정의 음량 범위 밖에 있을 때를 기초로, 검출된 음성의 음량이 특정 시간 동안 소정의 음량 범위 밖에 있는지를 판별하는 단계, 검출 유닛은 검출된 음성의 음량을 기초로 제 1 비율을 판별하는 단계, 및 검출 유닛은 검출된 음성의 음량을 기초로 제 2 비율을 판별하는 단계를 더 포함한다.

본 발명의 적용가능한 추가적인 기술 범위가 하기에 제공된 발명의 상세한 설명을 통해 명백해질 것이다. 그러나, 당업자에게는 발명의 기술적 사상 및 범위 내에서의 다양한 변경과 변형들이 발명의 상세한 설명을 통해 명백해지기 때문에, 발명의 상세한 설명 및 본 발명의 바람직한 실시예로 명시되는 구체적인 예들은 단지 실례로써 제공된다는 점을 알아야 한다.

본 발명의 내용 중에 포함되어 있다.

본 발명의 이들 및 다른 목적, 특징 및 특성은 본 명세서의 일부를 형성하는 첨부된 청구항 및 도면과 함께, 하기의 상세한 설명을 검토함으로써 당업자에게 더 명백해질 것이다.
도 1은 본 명세서에 기술되는 하나 이상의 실시예에 따른 회의 시스템의 일 태양의 회로 구성도이다.
도 2는 본 명세서에 기술되는 하나 이상의 실시예에 따른 비디오 분석 방법의 일 태양을 나타내는 흐름도이다.
도 3은 본 명세서에 기술되는 하나 이상의 실시예에 따른 오디오 분석 방법의 일 태양을 나타내는 흐름도이다.
도 4는 본 명세서에 기술되는 하나 이상의 실시예에 따른 회의 시스템의 제어장치(예, 이득 제어장치(150))의 일 태양에 관한 회로 구성도이다.

본 명세서에서 제목은 단지 편의상 제공되며, 청구하고자 하는 발명의 범위 또는 의미에 반드시 영향을 미치는 것은 아니다.

도면에서, 동일한 참조번호 및 임의의 약어는 동일하거나 유사한 구성 또는 기능을 갖는 구성요소 또는 작용을 식별한다. 도면은 하기의 상세한 설명 내에서 상세히 기술될 것이다.

지금부터 본 발명의 다양한 예들이 기술될 것이다. 하기의 상세한 설명은 완전한 이해를 위한 특정한 내용들을 제공하며 이러한 예들의 설명을 가능하게 한다. 그러나, 당업자는 본 발명이 이러한 많은 내용 없이도 실시될 수 있다는 점을 이해할 것이다. 마찬가지로, 당업자는 또한 본 발명이 본 명세서에 기술되지 않은 많은 다른 자명한 특징들을 포함할 수 있다는 점을 이해할 것이다. 또한, 본 설명을 불필요하게 모호하게 하는 것을 피하기 위해, 일부 널리 공지된 구성 또는 기능은 하기에 상세히 제시되거나 기술되지 않을 수 있다.

도 1은 본 발명의 하나 이상의 실시예에 따른 회의 시스템(100)의 일 태양에 관한 회로 구성도이다. 도 1에서, 회의 시스템은 이미지 캡처 유닛(110)(또는 이미지 캡처 회로/회로부(110)), 음성 캡처 유닛(speech capture unit)(120)(또는 음성 캡처 회로/회로부(120)), 얼굴 검출 유닛(face detection unit)(130)(또는 얼굴 검출 회로/회로부(130)), 음성 검출 유닛(140)(또는 음성 검출 회로/회로부(140)), (모드 사이를 전환하는 스위치 유닛을 내부 또는 외부에 포함할 수 있는) 이득 제어장치(150), 비디오 인코더(160), 오디오 인코더(170) 및 네트워크(180)를 포함한다.

이미지 캡처 유닛(110)은 이미지를 캡처, 검출 및/또는 감지(sensing)하는 이미지 캡처, 이미지 검출 및/또는 이미지 감지 장치(예컨대, 카메라 또는 이와 유사한 임의의 다른 장치)이다. 또한, 이미지 캡처 유닛(110)은 이미지 센서를 포함할 수 있는데, 예컨대 이미지 캡처 유닛(110)은 CCD(전하 결합 소자, charge coupled device) 이미지 센서, CMOS(상보성 금속 산화막 반도체, complementary metal oxide semiconductor) 이미지 센서 또는 임의의 다른 유사한 이미지 센서들과 같은 임의의 유형의 이미지 센서일 수 있다.

이미지 캡처 유닛(110)은 카메라를 통해 이미지를 캡처, 검출 및/또는 감지하거나, 입력 또는 수신된 신호로부터 이미지 데이터를 수신, 캡처, 검출, 감지 및/또는 추출할 수 있다. 캡처, 검출, 감지 및/또는 추출된 이미지는 얼굴 검출 유닛(130)에 제공된다. 상기 이미지는 유선 또는 무선 전송을 통해 얼굴 검출 유닛(130)에 제공될 수 있다.

음성 캡처 유닛 또는 장치(120)는 오디오 또는 음성을 캡처 및/또는 감지하기 위한 오디오 또는 음성 캡처 장치 및/또는 오디오 또는 음성 감지 장치(예컨대, 마이크로폰 또는 이와 유사한 임의의 다른 장치)이다.

음성 캡처 유닛(120)은 마이크로폰을 통해 오디오 또는 음성(데이터 또는 신호)을 캡처 및/또는 감지하거나, 입력 또는 수신된 신호로부터 오디오 데이터/신호 또는 음성 데이터/신호를 수신, 캡처, 감지 및/또는 추출할 수 있다. 캡처, 감지 및/또는 추출된 오디오 또는 음성(이하, 오디오 데이터 또는 오디오 신호라고 함)은 유선 또는 무선 전송을 통해 음성 검출 유닛(140)에 제공된다.

이미지 캡처 유닛(110) 및 음성 캡처 유닛(120)은 2개의 별도의 유닛 또는 장치로 개시되나, 이미지 캡처 유닛(110)(예컨대, 카메라)과 음성 캡처 유닛(120)(예컨대, 마이크로폰)이 (임의의 또는 모든 개시된 실시예에서) 단일 장치로 일체화되거나 서로 결합될 수 있음을 유의해야 한다.

또한, 이미지 및 오디오/음성은 단일 장치로 동시에 캡처, 검출, 감지 및/또는 추출되거나, 복수의 장치로 동시에 캡처, 검출, 감지 및/또는 추출될 수 있다.

또한, 이미지 및 오디오/음성은 (즉, 단일 신호로서 함께) 회의 시스템(100)으로 전송될 수 있다. 이미지 및 오디오/음성이 단일 신호로서 함께 전송(또는 별개의 신호로서 전송)되면, 이미지 캡처 유닛(110) 및 음성 캡처 유닛(120)은 수신된 신호로부터 이미지 데이터를 추출하는 단일 이미지 추출 유닛 또는 장치(110)(또는 별개의 신호로서 전송되면 2개의 이미지 추출 유닛(110, 120)) 및 수신된 신호로부터 오디오 또는 음성을 추출하는 오디오 또는 음성 추출 유닛 또는 장치(120)로 각각 대체될 수 있다. 따라서, 이미지 추출 유닛(110)은 수신된 신호로부터 이미지 데이터를 추출하고 추출된 이미지를 얼굴 검출 유닛(130)에 제공하며, 오디오 또는 음성 추출 유닛(120)은 수신된 신호로부터 오디오 또는 음성을 추출하고 추출된 오디오 또는 음성을 음성 검출 유닛(140)에 제공한다.

이미지 캡처/추출 유닛(110) 및 음성 캡처/추출 유닛(120)은 2개의 별개의 유닛 또는 장치로서 개시되지만, 이미지 캡처/추출 유닛(110) 및 오디오 또는 음성 캡처/추출 유닛(120)이 (임의의 또는 모든 개시된 실시예에서) 단일 장치로 일체화되거나 서로 결합될 수 있음을 유의해야 한다.

또한, 하기의 단계 210에 기술된 내용들은 전체적 또는 부분적으로 이미지 캡처 유닛(110)에 해당할 수 있으므로, 단계 210의 내용들이 여기에 포함(단계 210에 관하여 기술된 내용들이 전체적 또는 부분적으로 이미지 캡처 유닛(110)에 포함)됨을 유의해야 한다.

또한, 하기의 단계 310에 기술된 내용들은 전체적 또는 부분적으로 오디오 또는 음성 캡처/추출 유닛(120)에 해당할 수 있으므로, 단계 310의 내용들이 여기에 포함(단계 310에 관하여 기술된 내용들이 전체적 또는 부분적으로 오디오 또는 음성 캡처/추출 유닛(120)에 포함)됨을 유의해야 한다.

얼굴 검출 유닛(130)(또는 얼굴 검출 회로/회로부(130))은 이미지 캡처 유닛(110)에 의해 캡처된 발언자의 수를 판별하기 위해 상기 이미지 내의 사람의 수를 검출한다. 예컨대, 얼굴 검출 유닛(130)은 이미지 캡처 유닛(110)에 의해 캡처된 사람의 얼굴을 검출한다. 그러나, 얼굴 검출 유닛(130)은 그 대신에 이미지 캡처 유닛(110)에 의해 캡처된 사람의 머리(또는 인체들 - 사람들)를 검출할 수 있다. 얼굴 검출 유닛(130)은 이득 제어장치(150)에 검출된 얼굴, 머리, 사람들 등의 수를 제공한다.

하기의 단계 220 및/또는 단계 230에 기술된 내용들은 전체적 또는 부분적으로 얼굴 검출 유닛(130)에 해당할 수 있으므로, 단계 220 및/또는 단계 230의 내용들이 여기에 포함(단계 220 및/또는 단계 230에 관하여 기술된 내용들이 전체적 또는 부분적으로 얼굴 검출 유닛(130)에 포함)됨을 유의해야 한다.

또한, 이미지 캡처 유닛(110)에 의해 얼굴 검출 유닛(130)에 제공되는 비디오(또는 이미지) 데이터 또는 비디오(또는 이미지) 신호는 얼굴 검출 유닛(130)에 의해 비디오 인코더(160)로 전송된다.

음성 검출 유닛(140)(또는 음성 검출 회로/회로부(140))은 상기 캡처된 오디오 또는 음성 신호 또는 데이터 내의 음성을 검출한다. 음성 검출 유닛(140)은 검출된 음성 또는 오디오를 이득 제어장치(150)에 제공한다. 또한, 음성 검출 유닛(140)은 활성 음성(active speech)으로 간주되는 것을 유지(그리고 이득 제어장치(150)로 전달)하면서, 활성 음성으로 간주되지 않는 것을 무시할 수 있다. 예컨대, 모든 음성이 이득 제어장치(150)로 통과되나, 모든 잡음은 제거된다. 마지막으로, 음성 검출 유닛(140)은 신호 내의 다른 목소리의 수를 검출하는데 사용될 수 있다.

또한, 하기의 단계 320 및/또는 단계 330에 기술된 내용들은 전체적 또는 부분적으로 오디오 또는 음성 검출 유닛(140)에 해당할 수 있으므로, 단계 320 및/또는 단계 330의 내용들이 여기에 포함(단계 320 및/또는 단계 330에 관하여 기술된 내용들이 전체적 또는 부분적으로 오디오 또는 음성 검출 유닛(140)에 포함)됨을 유의해야 한다.

이득 제어장치(150)는 얼굴 검출 유닛(130)으로부터 검출된 얼굴 또는 머리의 수를 수신하며, 음성 검출 유닛(140)으로부터 검출된 음성/오디오 신호 또는 데이터를 수신한다. 수신된 정보(예컨대, 검출된 얼굴 또는 머리의 수 그리고 검출된 음성/오디오 데이터/신호)를 기초로, 이득 제어장치(150)는 수신된(음성 캡처 유닛(120) 또는 음성 검출 유닛(140)으로부터 수신된) 오디오의 이득을 조정하며, 이득 조정 오디오 신호(gain adjusted audio signal)를 오디오 인코더(170)로 출력한다.

하기의 단계 220, 단계 230, 단계 240, 단계 250, 단계 330, 단계 340 및/또는 단계 350에 기술된 내용들은 전체적 또는 부분적으로 이득 제어장치(150)에 해당할 수 있으므로, 단계 220, 단계 230, 단계 240, 단계 250, 단계 330, 단계 340 및/또는 단계 350의 내용들이 여기에 포함(단계 220, 단계 230, 단계 240, 단계 250, 단계 330, 단계 340 및/또는 단계 350에 관하여 기술된 내용들이 전체적 또는 부분적으로 이득 제어장치(150)에 포함)됨을 유의해야 한다.

비디오 인코더(160)는 얼굴 검출 유닛(130)으로부터 비디오 신호를 수신하며, 비디오 신호를 인코딩하여 인코딩된 비디오 신호를 제공한다. 비디오 인코더(160)는 디지털 비디오용 비디오 압축(compression) 및/또는 복원(decompression)을 가능하게 하는 장치이다. 비디오 인코더(160)는 수신된 비디오 신호의 인코딩을 수행하여 비디오 인코딩된 신호를 생성하고 네트워크(180)로 제공한다.

오디오 인코더(170)는 이득 제어장치(150)로부터 이득 조정 오디오 신호를 수신하며, 이득 조정 오디오 신호를 인코딩하여 인코딩된 오디오 신호를 제공한다. 오디오 인코더(170)는 데이터(오디오) 압축을 가능하게 하는 장치이다. 오디오 인코더(170)는 이득 조정 오디오 신호의 인코딩을 수행하여 오디오 인코딩된 신호를 생성하고 네트워크(180)로 제공한다.

도 2는 상술한 회의 시스템의 적어도 하나에 의해 수행될 수 있는 비디오 분석 방법의 예를 나타내는 흐름도이다. 도 2에서, 비디오 분석 방법은 비디오 신호를 수신하는 단계(단계 210), 비디오 분석 단계(단계 220), 비교 단계(반복형 단계일 수 있는 단계 230) 및/또는 AGC-T 값을 설정하는 단계(단계 240 및/또는 250)를 포함할 수 있다.

단계 210에서, 회의 시스템(100)은 이미지 캡처 유닛(110)과 관련하여 적어도 상세히 기술된 바와 같이 비디오 신호를 수신하므로, 이미지 캡처 유닛(110)에 대하여 기술된 내용들이 여기에 포함된다.

단계 220에서, 회의 시스템(100)은 얼굴 검출 유닛(130)과 관련하여 적어도 상세히 기술된 바와 같이 수신된 비디오 신호에 관한 비디오 분석을 수행하므로, 얼굴 검출 유닛(130)에 대하여 기술된 내용들이 여기에 포함(얼굴 검출 유닛(130)에 관하여 기술된 내용들이 전체적 또는 부분적으로 단계 220에 포함)된다. 더 상세하게는, 단계 220에서, 상기 이미지 내 사람의 수가 단계 210에서 (예컨대, 이미지 캡처 유닛(110)에 의해) 캡처된 발언자의 수를 판별하기 위해 (예컨대, 얼굴 검출 유닛(130)에 의해) 검출된다.

단계 220에서, (디지털) 이미지 내 사람 얼굴(또는 머리, 또는 몸체 등)의 위치 및 크기를 판별하여 얼굴(또는 머리, 또는 몸체 등) 검출이 수행된다. 예컨대, 얼굴 검출에서는 얼굴 특징(facial feature)이 검출되는 반면에, 얼굴 특징으로 간주되지 않는 것들(몸체, 의자, 책상, 나무 등)은 무시된다. 또한, 단계 220에서는 검출이 종래 방법에 의해 이루어질 수 있다.

단계 230에서, 특정 시간 구간 (초과) 동안 비디오 내 다수의 얼굴이 있는지 및/또는 특정 시간 구간(이는 1초, 2초, 3초 등일 수 있음) (이상) 동안 하나의 얼굴이 있는지에 관하여 판별이 행해진다. 단계 230은 AGC 임계(AGC-T) 값이 단계 240 및/또는 250에서 출력될 수 있도록 수행될 수 있으며, 이로써 레벨 분석 유닛, 음성 검출 유닛(140) 및/또는 이득 제어장치(150)에 하나의 얼굴이 검출되는지(예컨대, 단지 단일 발언자를 검출하는지) 또는 복수의 얼굴이 검출되는지(예컨대, 복수의 발언자를 검출하는지)에 대한 판별을 알리는 수단을 제공한다.

AGC-T 값은 2개의 값들(예컨대, 이진/논리 값들), 복수의 개인이 발언 중이라는 판별(또는 검출)을 나타내는(또는 다-발언자 모드로 전환하는 판별/명령을 나타내는) "True" 값(예컨대, 0 또는 1의 값)인 제 1 AGC-T 값 및 하나의 개인이 발언 중이라는 판별(또는 검출)을 나타내는(또는 단일 발언자 모드로 전환하는 판별/명령을 나타내는) "False" 값(예컨대, 1 또는 0의 값)인 제 2 AGC-T 값을 포함할 수 있음을 유의해야 한다. 또한, AGC-T 값은 얼굴 검출 유닛(130)(예컨대, 단계 230)으로부터의 단일 출력 또는 2개의 다른 출력으로써 레벨 분석 유닛(음성 검출 유닛(140) 및/또는 이득 제어장치(150))의 단일 입력 또는 2개의 다른 입력으로 제공될 수 있음을 유의해야 한다.

다시 말하면, 단계 230에서는 특정 시간 구간 (이상) 동안 비디오 내에 하나의 얼굴 또는 복수의 얼굴이 검출되는지 여부의 판별을 기초로, 레벨 분석 유닛, 음성 검출 유닛(140) 및/또는 이득 제어장치(150)에 출력되고 제공되는(예컨대, 레벨 분석 단계 330으로 입력되는) AGC-T 값에 기반하여, 단일 발언자 모드 또는 다-발언자 모드(또한 다수 발언자 모드라고 할 수 있음)로 전환할 것인지에 관한 판별이 행해질 수 있다.

회의 시스템(100)은 자동적으로 단일 발언자 모드 또는 다-발언자 모드에서 시작할 수 있다. 대안으로, 회의 시스템(100)은 초기화 모드(즉, 자동적으로 특정 모드에서 시작하도록 설정되지 않은 경우)에서 시작할 수 있다. 예컨대, 단계 230에서는, (현재 단일 발언자 모드도 다수 발언자 모드도 아닌) 초기화 중이라도, 특정 시간 구간(예컨대, 1초, 2초, 3초 등과 같은 초기화 기간) (이상) 동안 비디오 내에 하나의 얼굴 또는 다수의 얼굴이 검출되는지에 관한 판별이 행해질 수 있다. 초기화 기간 중 비디오 내에 다수의 얼굴이 있다고 판별(또는 하나의 얼굴만 검출되지는 않는다고 판별)되면, 이득 제어장치는 (예컨대, 다수 발언자 모드 값에 해당하는 AGC-T 값을 수신한 것을 기초로) 시스템을 다수 발언자 모드로 설정한다. 그러나, 초기화 기간 중 비디오 내에 단지 하나의 얼굴만이 검출된다고 판별(또는 복수의 얼굴이 검출되지 않는다거나 복수의 얼굴보다 적은 수로 검출된다고 판별)되면, 이득 제어장치는 (예컨대, 단일 발언자 모드 값에 해당하는 AGC-T 값을 수신한 것을 기초로) 시스템을 단일 발언자 모드로 설정한다.

단계 230에서, 초기화 기간 후라도, 현재 모드가 (단일 발언자 모드에서 다-발언자 모드로, 및 그 반대로) 전환될 수 있도록 하기 위해, 특정 시간 구간(예컨대, 1초, 2초, 3초 등) (이상) 동안 비디오 내에 하나의 얼굴 또는 다수의 얼굴(또는 복수의 얼굴보다 적은 수)이 검출되는지에 관한 판별이 행해질 수 있다.

비디오 내에 단지 하나의 얼굴만이 검출된다고 판별(또는 복수의 얼굴이 검출되지 않는다거나 복수의 얼굴보다 적은 수로 검출된다고 판별)되는 경우, 이득 제어장치는 (예컨대, 단일 발언자 모드 값에 해당하는 AGC-T 값을 수신한 것을 기초로) 시스템을 단일 발언자 모드로 전환한다.

비디오 내에 다수의 얼굴이 있다고 판별(또는 하나의 얼굴만 검출되지는 않는다고 판별)되는 경우, 이득 제어장치는 (예컨대, 다수 발언자 모드 값에 해당하는 AGC-T 값을 수신한 것을 기초로) 시스템을 다수 발언자 모드로 전환한다.

또한, 이득 제어장치는 어느 한 모드 중에 음성 신호의 이득을 조정(변경)할 수 있다. 이득 제어장치가 어느 한 모드에서 음성의 이득을 조정할 수 있는 비율은 동일한 비율로 수행될 수 있다. 그러나, 대안의 실시예에서는, 실제 입력 신호 음량이 복수의 얼굴이 검출되는 경우에 비해 하나의 얼굴이 검출되는 경우에 빠르게 변화할 가능성이 낮기 때문에, 단일 발언자 모드에서 검출된 음성 신호로 제공되는 이득 변경(gain changes)은 다-발언자 모드에서 검출된 음성 신호로 제공되는 이득 변경에 비해 더 낮은 비율로 제공될 수 있다. 예컨대, 이득 제어장치가 단일 발언자 모드에서 음성 신호의 이득을 변경하는 비율은 0.5초마다 한 번일 수 있는 반면에, 다-발언자 모드에서 이득 제어장치는 0.1초마다 음성 신호의 이득을 변경한다. 따라서, 이득 제어장치가 다-발언자 모드에서 훨씬 더 빠르게 반응하도록 함으로써, 복수의 발언자의 음량이 (거의) 동일한 레벨로 더 빠르게 이득 제어될 수 있다. 복수의 발언자에 빠른 이득 변화를 제공하고 그 결과 복수의 개인이 (거의) 동일한 레벨로 듣게 됨으로써, 전체 시스템은 한 개인이 마이크로폰에 가까이 있도록 하면서 또 다른 발언자는 그 마이크로폰에서 상당히 멀리 떨어져 있도록 하는데에 적어도 유용할 수 있다.

대안의 실시예로, AGC-T 값을 단일 발언자 모드로 설정하도록 판별된 경우, 자동 이득 제어는 (이득 제어장치(150)를 통해) 유일한 발언자에 "고정(lock)"(증가된 이득 제어를 선택/검출된 유일한 발언자에 제공)될 수 있으며, 발언자의 신호에 (증가된) 이득의 양을 제공할 수 있다(발언자의 이득을 단지 변경/증가시키거나, 발언자의 이득을 증가시키면서 검출/고정된 발언자를 제외한 모든 것, 검출된 임의의 다른 발언자들 및/또는 검출된 잡음의 이득을 감소시킬 수 있다).

(상기 문단에 기술된 대안의 실시예와) 마찬가지로, AGC-T 값을 다-발언자 모드로 설정하도록 판별된 경우, 자동 이득 제어는 (이득 제어장치(150)를 통해) 검출된 복수의 발언자에 "고정(lock)"(증가된 이득 제어를 검출된 복수의 발언자에 유지)될 수 있으며, 목소리(또는 오디오)로 간주되는 임의의 모든 신호에 대해 이득의 양(an amount(s) of gain)을 제공한다. (예컨대, "특정 시간 구간"과 같이, 제공된 예들 모두에서) 개시된 시간 구간 모두는 임의의 실행 수단에 의해, 예컨대 사용자에 의해 언제든지 설정될 수 있고, 장치에 의해 기결정되거나 기설정될 수 있으며, 또는 사전 판별 시간(previous times of determinations)을 사용하는 적응형 알고리즘(adaptive algorithm)을 기초로 판별될 수 있음을 유의해야 한다.

단계 230에서, 특정 시간 구간 동안 비디오 내에 다수의 얼굴(또는 하나의 얼굴 등)이 있는지 여부의 판별은 얼굴 검출 유닛(130) 및/또는 이득 제어장치(150)에 의해 수행될 수 있으므로, 얼굴 검출 유닛(130) 및/또는 이득 제어장치에 관하여 기술된 내용들이 여기에 포함(얼굴 검출 유닛(130) 및/또는 이득 제어장치에 관하여 기술된 내용들이 전체적 또는 부분적으로 단계 230에 포함)된다. 도 3은 상술한 회의 시스템의 적어도 하나에 의해 수행될 수 있는 오디오 분석 방법의 예를 나타내는 흐름도이다.

단계 310에서, 회의 시스템(100)은 음성 캡처 유닛(120)과 관련하여 적어도 상세히 기술된 바와 같이 오디오 신호를 수신하므로, 음성 캡처 유닛(120)에 관하여 기술된 내용들이 여기에 포함된다.

단계 320에서, 회의 시스템(100)은 음성 검출 유닛(140)과 관련하여 적어도 상세히 기술된 바와 같이 수신된 오디오 신호에 관한 음성 분석을 수행하므로, 음성 검출 유닛(140)에 관하여 기술된 내용들이 여기에 포함(음성 검출 유닛(140)에 관하여 기술된 내용들이 전체적 또는 부분적으로 단계 320에 포함)된다. 더 상세하게, 단계 320에서는 단계 310에서 (예컨대, 음성 캡처 유닛(120)에 의해) 캡처된 모든 음성 또는 오디오를 판별하기 위해 임의의 모든 음성/오디오가 (예컨대, 음성 검출 유닛(140)에 의해) 검출된다. 간단히 말하면, 음성 검출 유닛(140)은 (단계 320에서) 단지 활성 음성을 검출할 수 있다. 또한, 단계 320에서 검출은 종래 방법으로 이루어질 수 있다.

대안의 실시예로, 단계 320에서, 음성 검출 유닛(140)은 또한 발언자의 수를 판별하는데 도움이 되도록(도 2에 도시된 바와 같이 전체 비디오 분석을 대체하도록) 검출된 음성/오디오를 이용할 수 있다. 예컨대, 복수의 음성 캡처 유닛(복수의 마이크로폰 또는 공간적으로 분리된 복수의 마이크로폰)을 사용함으로써, 서로 다른 발언자들로부터 수신된 음성 신호의 시간 지연의 차이가 다-발언자 신호로부터 발언자의 수를 판별하는데 사용될 수 있다. 더 상세하게, 단계 320에서 음성 검출 유닛(140)이 발언자의 수(1명, 2명, 등)를 정확히 판별할 수 있다면, (단계 320에서) 음성 검출 유닛(140)이 (단일 발언자 또는 복수의 발언자를 나타내는) AGC-T 값을 제공할 수 있다는 점을 고려할 때, 도 2에 도시된 바와 같은 전체 비디오 분석은 더 이상 불필요하다.

활성 음성의 검출에 (오직) 기초하여 프로세스가 단계 320에서 단계 330으로 진행될 수 있음을 유의해야 한다. 그렇지 않으면, 시스템은 활성 음성이 검출될 때까지 단계 320을 유지한다.

단계 330에서, 회의 시스템(100)은 음성 검출 유닛(140) 및/또는 이득 제어장치(150)와 관련하여 상세히 기술된 바와 같이 수신된 오디오/음성 신호에 관한 레벨 분석을 수행하므로, 음성 검출 유닛(140) 및/또는 이득 제어장치(150)에 관하여 기술된 내용들이 여기에 포함(음성 검출 유닛(140) 및/또는 이득 제어장치(150)에 관하여 기술된 내용들이 전체적 또는 부분적으로 단계 330에 포함)된다. 또한, 단계 330의 레벨 분석은 음성 검출 유닛(140) 및/또는 이득 제어장치(150)와 별도로 또는 함께 작동하는 레벨 분석 유닛에 의해 수행될 수 있다.

예컨대, (단계 330a라고도 할 수 있는) 단계 330에서 각 오디오/음성 신호의 레벨(또는 음량)이 판별된다. 더 상세하게는, 단계 330(또는 단계 330a)에서 검출 (활성) 음성은 (검출된 음성의 음량이 특정 레벨 이상인지 - 음량이 너무 높은지를 나타내는) 상한 임계치 및 (검출된 음성의 음량이 특정 레벨 이하인지 - 음량이 너무 낮은지를 나타내는) 하한 임계치와 비교된다.

또한, (단계 330a 이후 나타나는 단계 330b라고도 할 수 있는) 단계 330에서, 음량이 특정 임계치 이상 또는 이하인지 검출될 때, 음성 검출 유닛(140) 및/또는 이득 제어장치(150)는 특정 시간 구간(예컨대, 특정 시간 구간은 가령 1초, 2초, 3초 등일 수 있음) 동안 음량이 특정 임계치 이상인지 또는 특정 임계치 이하인지를 판별한다.

마지막으로, (예컨대) 이득 제어장치(150)에 의해 단계 330(단계 330a 및 330b)에서 수행되는 분석은 또한 이득 제어장치(150)가 (단계 340에서) 이득 변화 값을 판별하고/하거나 (단계 350에서) 이득 변화를 제공하기 전에 제공되는 AGC-T 값을 참작한다.

특정 시간 구간 동안 검출된 (활성) 음성의 음량이 특정 임계치(들)보다 더 높고/높거나 더 낮은지에 대한 판별에 (오직) 기초하여 프로세스가 단계 330에서 단계 340으로 진행될 수 있음을 유의해야 한다. 그렇지 않으면, 시스템은 검출된 (활성) 음성이 특정 시간 구간 동안 특정 범위 밖(특정 시간 구간 동안 특정 임계치 이상 또는 이하)에 있을 때까지 단계 330을 유지한다.

단계 340에서, 회의 시스템(100)은, 음성 검출 유닛(140) 및/또는 이득 제어장치(150)와 관련하여 상세히 기술된 바와 같이, 검출된 오디오/음성 신호 각각에 대한 이득 조정 값에 관하여 판별하므로, 음성 검출 유닛(140) 및/또는 이득 제어장치(150)에 관하여 기술된 내용들이 여기에 포함(음성 검출 유닛(140) 및/또는 이득 제어장치(150)에 관하여 기술된 내용들이 전체적 또는 부분적으로 단계 330에 포함)된다. 더 상세하게, 단계 340에서는 다-발언자 모드에 있음을 기초로 더 빠르게/신속히 이득을 변경하는지, 단일 발언자 모드에 있음을 기초로 덜 신속히 이득을 변경하는지가 판별된다. 따라서, 단계 340에서는 단일 발언자 모드 및 다-발언자 모드에서의 이득 변화율이 판별된다.

대안으로서, 단일 발언자 모드일 경우, 단계 340은 또한 이득 제어장치가 하나의 개인(발언자)의 음성 신호의 이득을 조정할 수 있도록 이득 조정 값을 판별하고 이득 제어장치에 제공할 수 있다. 이런 대안의 방법에서 다-발언자 모드일 경우, 단계 340은 또한 이득 제어장치가 개인들(발언자들)의 음성 신호 각각의 이득(들)을 조정할 수 있도록 이득 조정 값(들)을 판별하고 이득 제어장치에 제공할 수 있다.

단계 350에서, 회의 시스템(100)은 음성 캡처 유닛(120)에 의해 캡처되는 수신된 오디오/음성 또는 음성 검출 유닛(140)에 의해 검출된 음성/오디오 내의 음성 신호(들)에 대한 이득 조정(들)을 수행한다.

단계 350에서는 이득 제어장치(150)와 관련하여 적어도 상세히 기술된 바와 같이 이득 조정(들)을 수행하는 단계가 여기에 포함(이득 제어장치(150)에 관하여 기술된 내용들이 전체적 또는 부분적으로 단계 350에 포함)된다.

도 5는 본 발명의 한 실시예에 따른 이득 제어장치(150)('컴퓨팅 장치(1000)'라고도 함)의 일 태양에 관한 회로 구성도이다.

컴퓨팅 장치(1000)(예컨대, 이득 제어장치(150))의 가장 기본적인 구성으로, 컴퓨팅 장치(1000)는 일반적으로 하나 이상의 프로세서(1010) 및 시스템 메모리(1020)를 포함한다. 메모리 버스(1030)가 프로세서(1010)와 시스템 메모리(1020) 사이의 통신을 위해 사용될 수 있다.

소기의 구성에 따르면, 컴퓨팅 장치(1000)의 하나 이상의 프로세서(1010)는 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 프로세서 또는 이들의 임의의 조합을 포함하는 임의의 유형일 수 있으나, 이에 제한되지 않는다. 프로세서(1010)는 가령 레벨 1 캐싱(1011) 및 레벨 2 캐싱(1012)과 같은 하나 이상의 레벨의 캐싱(caching), 프로세서 코어(1013) 및 레지스터(1014)를 포함할 수 있다. 프로세서 코어(1013)는 산술 논리 유닛(ALU), 부동 소수점 유닛(FPU), 디지털 신호 처리 코어(DSP Core) 또는 이들의 임의의 조합을 포함할 수 있다. 또한, 메모리 제어장치(1015)가 프로세서(1010)와 함께 사용될 수 있거나, 일부의 구현에서 메모리 제어장치(1015)는 프로세서(1010)의 내부 부품일 수 있다.

소기의 구성에 따르면, 시스템 메모리(1020)는 (RAM과 같은) 휘발성 메모리, (ROM, 플래시 메모리 등과 같은) 비-휘발성 메모리 또는 이들의 임의의 조합을 포함하는 임의의 유형일 수 있으나, 이에 제한되지 않는다. 시스템 메모리(1020)는 일반적으로 운영 체제(1021), 하나 이상의 애플리케이션(1022) 및 프로그램 데이터(1024)를 포함한다. 애플리케이션(1022)은 인증 알고리즘(1023)을 포함한다. 프로그램 데이터(1024)는 서비스 데이터(1025)를 포함한다.

컴퓨팅 장치(1000)는 추가적인 특징 또는 기능, 및 기본 구성(1001)과 임의의 필요 장치 및 인터페이스 사이의 통신을 용이하게 하는 추가적인 인터페이스를 구비할 수 있다. 예컨대, 저장 인터페이스 버스(1041)를 통해 기본 구성(1001)과 하나 이상의 데이터 저장 장치(1050) 사이의 통신을 용이하게 하는데 버스/인터페이스 제어장치(1040)가 사용될 수 있다. 데이터 저장 장치(1050)는 탈착식 저장 장치(1051), 비-탈착식 저장 장치(1052) 또는 이들의 조합일 수 있다. 탈착식 저장 및 비-탈착식 저장 장치의 예들은, 일부만 열거하면, 가요성 디스크 드라이브와 하드-디스크 드라이브(HDD)와 같은 자기 디스크 장치, 컴팩트 디스크(CD) 드라이브 또는 디지털 다기능 디스크(DVD)와 같은 광학 디스크 드라이브, 솔리드 스테이트 드라이브(solid state drives, SSD) 및 테이프 드라이브 등을 포함한다. 컴퓨터 저장 매체의 예는, 가령 컴퓨터 판독가능한 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방식 또는 기술로 구현되는 휘발성 및 비휘발성, 탈착식 및 비-탈착식 매체를 포함할 수 있다.

시스템 메모리(1020), 탈착식 저장 장치(1051) 및 비-탈착식 저장 장치(1052)는 모두 컴퓨터 저장 매체의 예이다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 소기의 정보를 저장하는데 사용가능하며 컴퓨팅 장치(1000)에 의해 접근가능한 임의의 다른 매체를 포함하나, 이에 제한되지 않는다. 임의의 그러한 컴퓨터 저장 매체는 컴퓨팅 장치(1000)의 일부일 수 있다.

또한, 컴퓨팅 장치(1000)는 버스/인터페이스 제어장치(840)를 통해 다양한 인터페이스 장치(예컨대, 출력 인터페이스, 주변 인터페이스, 통신 인터페이스 등)로부터 기본 구성(1001)으로의 통신을 용이하게 하는 인터페이스 버스(1042)를 포함할 수 있다. 출력 장치(1060)의 예는 그래픽 처리 유닛(1061) 및 오디오 처리 유닛(1062)을 포함하며, 하나 이상의 A/V 포트(1063)를 통해 디스플레이 또는 스피커와 같은 다양한 외부 장치와 통신하도록 구성될 수 있다. 주변 인터페이스(peripheral interfaces, 1070)의 예는 직렬 인터페이스 제어장치(1071) 또는 병렬 인터페이스 제어장치(1072)를 포함하며, 하나 이상의 I/O 포트(1073)를 통해 입력 장치(예컨대, 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치 등)나 다른 주변 장치(예컨대, 프린터, 스캐너 등)와 같은 외부 장치와 통신하도록 구성될 수 있다. 통신 장치(1080)의 예는 네트워크 제어장치(1081)를 포함하며, 하나 이상의 통신 포트(1082)를 통해 네트워크 통신상에서 하나 이상의 다른 컴퓨팅 장치(1090)와의 통신을 용이하게 하도록 배열될 수 있다. 통신 연결은 통신 매체의 한 예이다. 통신 매체는 가령 반송파(carrier wave) 또는 다른 전송 메카니즘과 같은 일반적으로 변조된 데이터 신호 내에서 컴퓨터 판독가능한 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터로 구현될 수 있으며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"는 신호 내 정보를 인코딩하도록 설정되거나 변경된 하나 이상의 특성을 갖는 신호일 수 있다. 예로써, 통신 매체는 가령 유선 네트워크 또는 직선 커넥션(direct-wired connection)과 같은 유선 매체, 및 가령 음향, 무선 주파수(RF), 적외선(IR) 및 다른 무선 매체와 같은 무선 매체를 포함할 수 있으나, 이에 제한되지 않는다. 본 명세서에서 사용되는 '컴퓨터 판독가능한 매체'란 용어는 저장 매체 및 통신 매체 모두를 포함할 수 있다.

컴퓨팅 장치(1000)는 가령 휴대폰, 개인용 정보 단말기(PDA), 개인용 미디어 플레이어 장치, 무선 웹-왓치(web-watch) 장치, 개인용 헤드셋 장치, 애플리케이션 주문형 장치(application specific device) 또는 상기 임의의 기능을 포함하는 하이브리드 장치와 같은 초소형(small-form factor) 휴대(또는 이동) 전자 장치의 일부로서 구현될 수 있다. 또한, 컴퓨팅 장치(1000)는 랩탑(laptop) 컴퓨터 및 논-랩탑(non-laptop) 컴퓨터 구성 모두를 포함하는 개인용 컴퓨터로서 구현될 수 있다.

시스템의 태양에서 하드웨어 구현과 소프트웨어 구현 간에는 거의 차이가 없다; 하드웨어 또는 소프트웨어의 사용은 일반적으로 비용 대 효율의 상충관계(tradeoffs)를 나타내는 설계상의 선택이다(다만, 어떤 경우에는 하드웨어와 소프트웨어 사이의 선택이 중요해질 수 있다는 점에서 항상 그렇지는 않다). 본 명세서에 기술된 프로세스 및/또는 시스템 및/또는 다른 기술들이 달성될 수 있는 다양한 수단(예컨대, 하드웨어, 소프트웨어 및/또는 펌웨어)이 있으며, 바람직한 수단은 프로세스 및/또는 시스템 및/또는 다른 기술들이 사용되는 상황에 따라 변화할 것이다. 예컨대, 실행자가 속도 및 정확성이 가장 중요하다고 판단하면, 실행자는 주로 하드웨어 및/또는 펌웨어 수단을 선택할 수 있다; 융통성(flexibility)이 가장 중요하다면, 실행자는 주로 소프트웨어 구현을 선택할 수 있다. 하나 이상의 다른 시나리오에서는 실행자가 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합을 선택할 수 있다.

상술한 상세한 설명은 블록 구성도, 흐름도 및/또는 예시를 통해 장치 및/또는 프로세스의 다양한 실시예를 제시하였다. 이런 블록 구성도, 흐름도 및/또는 예시가 하나 이상의 기능 및/또는 동작을 포함하는 한, 당업자는 이런 블록 구성도, 흐름도 또는 예시 범위 내의 각 기능 및/또는 동작이 광범위한 하드웨어, 소프트웨어, 펌웨어 또는 실질적으로 이들의 임의의 조합에 의해, 개별적으로 및/또는 일괄하여 구현될 수 있음을 이해해야 할 것이다.

한 실시예로, 본 명세서에 기술된 발명의 내용의 여러 부분들은 애플리케이션 주문형 집적 회로(Application Specific Integrated Circuits, ASICs), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Arrays, FPGAs), 디지털 신호 프로세서(DSPs) 또는 다른 통합형 포맷을 통해 구현될 수 있다. 그러나, 당업자는 본 명세서에 개시된 실시예들의 일부 태양이, 하나 이상의 컴퓨터에서 작동하는 하나 이상의 컴퓨터 프로그램(예컨대, 하나 이상의 컴퓨터 시스템에서 작동하는 하나 이상의 프로그램)으로서, 하나 이상의 프로세서에서 작동하는 하나 이상의 프로그램(예컨대, 하나 이상의 마이크로프로세서에서 작동하는 하나 이상의 프로그램)으로서, 펌웨어로서 또는 실질적으로 이들의 임의의 조합으로서, 전체적 또는 부분적으로, 집적 회로에서 동등하게 구현될 수 있으며, 회로부의 설계 및/또는 소프트웨어 또는 펌웨어에 대한 코드의 작성은 본 명세서를 고려하여 당업자의 기술 수준 내에서 충분히 이루어질 것임을 인식할 것이다.

또한, 당업자는 본 명세서에 기술된 발명의 내용의 메커니즘이 다양한 형태의 프로그램 제품으로서 배포될 수 있으며, 본 명세서에 기술된 발명의 내용의 예시적인 실시예는 배포를 실제로 실행하는데 사용되는 신호 베어링 매체(signal bearing medium)의 특정 유형에 관계없이 적용된다는 점을 인식할 것이다. 신호 베어링 매체의 예는 다음과 같이: 가령 플로피 디스크, 하드 디스크 드라이브, 컴팩드 디스크(CD), 디지털 비디오 디스크(DVD), 디지털 테이프, 컴퓨터 메모리와 같은 기록가능형 매체; 및 가령 디지털 및/또는 아날로그 통신 매체(예컨대, 광섬유 케이블, 도파관, 유선 통신 링크, 무선 통신 링크 등)와 같은 전송형 매체를 포함하나, 이에 제한되지 않는다.

당업자는 본 명세서에 제시된 방식으로 장치 및/또는 프로세스를 기술하고,이후 상술한 장치 및/또는 프로세스를 데이터 처리 시스템에 통합하는데 공학적 방법(engineering practices)을 사용하는 것이 기술범위 내에서 통용됨을 인식할 것이다. 즉, 본 명세서에 기술된 장치 및/또는 프로세스의 적어도 일부는 합리적인 양의 실험을 통해 데이터 처리 시스템에 통합될 수 있다. 당업자는 일반 데이터 처리 시스템이 통상적으로 하나 이상의 시스템 유닛 하우징, 비디오 디스플레이 장치, 가령 휘발성 및 비-휘발성 메모리와 같은 메모리, 가령 마이크로프로세서 및 디지털 신호 프로세서와 같은 프로세서, 가령 운영 체제, 드라이버, 그래픽 사용자 인터페이스 및 애플리케이션 프로그램과 같은 연산 엔티티(computational entities), 가령 터치 패드 또는 스크린과 같은 하나 이상의 상호작용 장치(interaction devices), 및/또는 피드백 루프 및 제어 모터(예컨대, 위치 및/또는 속도를 감지하는 피드백; 부품(components) 및/또는 수량(quantities)을 이동 및/또는 조정하는 제어 모터)를 포함하는 제어 시스템을 포함할 수 있음을 인식할 것이다. 일반 데이터 처리 시스템은 데이터 컴퓨팅/통신 및/또는 네트워크 컴퓨팅/통신 시스템에서 통상 제시되는 임의의 적합한 상용 부품을 이용하여 구현될 수 있다.

본 명세서에 기술된 임의의 복수 및/또는 단수의 용어 사용에 대하여, 당업자는 상황 및/또는 용도에 적합하도록 복수에서 단수로 및/또는 단수에서 복수로 해석할 수 있다. 다양한 단수/복수의 치환은 명료함을 위해 본 명세서에서 분명히 설명될 수 있다.

예시적인 실시예들이 본 명세서에 제공되고 기술된다. 실시예들은 다양한 다른 조합 및 환경에서 사용될 수 있으며, 본 명세서에 기술된 바와 같이 발명의 기술적 사상의 범위 내에서 변형 및 변경될 수 있음을 이해해야 한다. 이런 일부 변형은 컴퓨터 및/또는 컴퓨터 시스템이 상술한 방법의 변형의 일부 또는 전부를 수행하도록 하는 비-일시적인(non-transitory) 컴퓨터-판독가능한 매체에 저장된 프로그램의 사용을 포함할 수 있다. 이런 변형은 본 발명의 기술적 사상 및 범위에서 벗어난 것으로 간주되지 않으며, 이런 모든 변형은 당업자에게 자명한 바, 하기의 청구범위 내에 포함되도록 되어 있다.

Claims

통신 시스템에서 오디오 레벨을 변경하는 제어 시스템으로서, 상기 제어 시스템은
오디오 신호 및 비디오 신호를 수신하는 적어도 하나의 수신 유닛;
상기 비디오 신호에 대해 수행되는 얼굴 인식으로부터 검출된 얼굴의 수에 기초하여 발언자의 수를 판별하는 판별 유닛; 및
상기 얼굴 인식으로부터 검출된 상기 얼굴의 수에 기초하여 단일 발언자 모드 또는 다-발언자 모드로 전환하고, 상기 단일 발언자 모드 또는 상기 다-발언자 모드로의 전환에 기초하여 상기 오디오 신호의 이득을 조정하는 이득 제어기를 포함하며,
검출된 상기 얼굴의 수가 하나인 것에 응답하여, 상기 이득 제어기는 상기 단일 발언자 모드로 전환하고 상기 오디오 신호의 이득을 제1 비율로 조정하고,
검출된 상기 얼굴의 수가 하나보다 큰 것에 응답하여, 상기 이득 제어기는 상기 다-발언자 모드로 전환하고 상기 오디오 신호의 이득을 제2 비율로 조정하며, 상기 제2 비율은 상기 제1 비율과 상이한 것인 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 1 항에 있어서,
상기 판별 유닛은, 얼굴 인식으로부터 검출되는 상기 얼굴의 수에 기초하여 그리고 상기 오디오 신호에 대해 수행되는 음성 분석으로부터 검출되는 활성 음성(active speech)에 기초하여 상기 발언자의 수를 판별하는 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 2 항에 있어서,
상기 오디오 신호에 대해 음성 분석을 행함으로써 활성 음성을 검출하는 음성 검출 유닛을 더 포함하는 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 1 항에 있어서,
상기 비디오 신호에 대한 얼굴 인식을 행함으로써 얼굴의 수를 검출하는 얼굴 검출 유닛을 더 포함하는 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 2 항에 있어서,
상기 이득 제어기는 상기 얼굴 인식으로부터 검출된 상기 얼굴의 수에 기초하여 그리고 상기 음성 분석으로부터 검출된 상기 활성 음성에 기초하여 상기 단일 발언자 모드 또는 상기 다-발언자 모드로 전환하는 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 1 항에 있어서,
검출된 상기 얼굴의 수가 하나인 것에 응답하여, 상기 이득 제어기는 상기 단일 발언자 모드로 전환하기 전에 기결정된 시간 기간 이상 동안 상기 비디오 신호에서 상기 하나의 얼굴이 검출되는 것을 판별하는 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 1 항에 있어서,
검출된 상기 얼굴의 수가 하나보다 큰 것에 응답하여, 상기 이득 제어기는 상기 다-발언자 모드로 전환하기 전에 기결정된 시간 기간 이상 동안 상기 비디오 신호에서 상기 하나보다 큰 수의 얼굴이 검출되는 것을 판별하는 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
삭제
제 1 항에 있어서,
상기 제 2 비율은 상기 제 1 비율보다 큰, 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 2 항에 있어서,
상기 판별 유닛은 검출된 상기 활성 음성의 음량을 적어도 하나의 임계 음량과 비교하며,
상기 이득 제어기는 검출된 상기 활성 음성의 음량과 상기 적어도 하나의 임계 음량의 비교에 기초하여 상기 제 1 비율 또는 상기 제 2 비율을 결정하는, 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 1 항에 있어서,
상기 이득 제어기는, 상기 적어도 하나의 임계 음량보다 기결정된 시간 기간 동안 높거나 또는 낮은 상기 검출된 활성 음성의 음량에 기초하여 상기 제 1 비율 또는 상기 제 2 비율을 결정하는, 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 1 항에 있어서,
적어도 하나의 수신 유닛은 오디오 신호를 수신하는 제 1 수신 유닛을 포함하며,
적어도 하나의 수신 유닛은 비디오 신호를 수신하는 제 2 수신 유닛을 포함하는 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
제 12 항에 있어서,
상기 제 1 수신 유닛은 마이크로폰이며, 상기 제 2 수신 유닛은 카메라인 통신 시스템에서 오디오 레벨을 변경하는 제어 시스템.
오디오 신호를 수신하는 단계;
비디오 신호를 수신하는 단계;
상기 비디오 신호에 대해 수행되는 얼굴 인식 프로세스로부터 검출된 얼굴의 수에 기초하여 발언자의 수를 판별하는 단계;
검출된 상기 얼굴의 수가 하나인 것에 응답하여, 단일 발언자 모드로 전환하고 상기 오디오 신호의 이득을 제1 비율로 조정하는 단계;
검출된 상기 얼굴의 수가 하나보다 큰 것에 응답하여, 다-발언자 모드로 전환하고 상기 오디오 신호의 이득을 제2 비율로 조정하는 단계를 포함하며, 상기 제1 비율은 상기 제 2 비율과 상이한 것인, 통신 시스템에서 오디오 레벨을 변경하는 제어 방법.
제 14 항에 있어서,
상기 판별하는 단계는, 상기 얼굴 인식 프로세스로부터 검출되는 상기 얼굴의 수에 기초하여 그리고 상기 오디오 신호에 대해 수행되는 음성 분석 프로세스로부터 검출되는 활성 음성에 기초하여 상기 발언자의 수를 판별하는, 통신 시스템에서 오디오 레벨을 변경하는 제어 방법.
제 14 항에 있어서,
상기 오디오 신호에서 활성 음성을 검출하기 위해 상기 오디오 신호에 대해 음성 분석 프로세스를 수행하는 단계를 더 포함하는 통신 시스템에서 오디오 레벨을 변경하는 제어 방법.
제 14 항에 있어서,
상기 비디오 신호에서 얼굴의 수를 검출하기 위해 상기 비디오 신호에 대한 얼굴 인식 프로세스를 수행하는 단계를 더 포함하는 통신 시스템에서 오디오 레벨을 변경하는 제어 방법.
통신 시스템에서 오디오 레벨을 변경하는 제어 방법으로서
비디오 신호를 캡처링하는 단계;
오디오 신호를 캡처링하는 단계;
상기 오디오 신호에서 적어도 하나의 사용자의 음성을 검출하는 단계;
상기 비디오 신호에 대한 얼굴 인식을 수행하여, 하나의 얼굴 또는 복수의 얼굴들 중 하나를 검출하는 단계;
상기 검출된 얼굴 또는 얼굴들의 수를 기초로, 발언자의 수를 판별하는 단계;
상기 검출된 발언자의 수를 기초로, 단일 발언자 모드와 다-발언자 모드 사이를 전환하는 단계;
복수의 얼굴들의 검출에 응답하여, 상기 단일 발언자 모드에서 상기 다-발언자 모드로 전환하는 단계;
오직 단일의 얼굴의 검출에 응답하여, 상기 다-발언자 모드에서 상기 단일 발언자 모드로 전환하는 단계;
상기 다-발언자 모드에서 제 1 비율로 상기 오디오 신호의 이득을 조정하는 단계; 및
상기 단일 발언자 모드에서 제 2 비율로 상기 오디오 신호의 이득을 조정하는 단계를 포함하며,
상기 제 1 비율은 상기 제 2 비율보다 큰, 통신 시스템에서 오디오 레벨을 변경하는 제어 방법.
제 18 항에 있어서,
상기 검출된 음성의 음량을 적어도 하나의 임계치와 비교하여, 상기 검출된 음성의 음량이 소정의 음량 범위 밖에 있는지를 판별하는 단계;
상기 검출된 음성의 음량이 상기 소정의 음량 범위 밖에 있을 때를 기초로, 상기 검출된 음성의 음량이 특정 시간 동안 상기 소정의 음량 범위 밖에 있는지를 판별하는 단계;
상기 검출된 음성의 음량을 기초로 상기 제 1 비율을 판별하는 단계; 및
상기 검출된 음성의 음량을 기초로 상기 제 2 비율을 판별하는 단계를 더 포함하는 통신 시스템에서 오디오 레벨을 변경하는 제어 방법.
통신 시스템에서 오디오 레벨을 변경하기 위해 컴퓨터에 의해 수행되는 프로그램을 저장하는 기록 매체로서, 상기 프로그램은 상기 컴퓨터가
비디오 신호를 캡처링하는 단계;
오디오 신호를 캡처링하는 단계;
상기 오디오 신호에서 적어도 하나의 사용자의 음성을 검출하는 단계;
상기 비디오 신호에 대한 얼굴 인식을 수행하여, 하나의 얼굴 또는 복수의 얼굴들 중 하나를 검출하는 단계;
상기 검출된 얼굴 또는 얼굴들의 수를 기초로, 발언자의 수를 판별하는 단계;
상기 검출된 발언자의 수를 기초로, 단일 발언자 모드와 다-발언자 모드 사이를 전환하는 단계;
복수의 얼굴들의 검출에 응답하여, 상기 단일 발언자 모드에서 상기 다-발언자 모드로 전환하는 단계;
오직 단일의 얼굴의 검출에 응답하여, 상기 다-발언자 모드에서 상기 단일 발언자 모드로 전환하는 단계;
상기 다-발언자 모드에서 제 1 비율로 상기 오디오 신호의 이득을 조정하는 단계; 및
상기 단일 발언자 모드에서 제 2 비율로 상기 오디오 신호의 이득을 조정하는 단계를 수행하도록 하며,
상기 제 1 비율은 상기 제 2 비율보다 큰, 기록 매체.