KR101884446B1 - 다자간 회의에서의 화자 인식 및 화자 추적 방법 - Google Patents

다자간 회의에서의 화자 인식 및 화자 추적 방법 Download PDF

Info

Publication number
KR101884446B1
KR101884446B1 KR1020160176717A KR20160176717A KR101884446B1 KR 101884446 B1 KR101884446 B1 KR 101884446B1 KR 1020160176717 A KR1020160176717 A KR 1020160176717A KR 20160176717 A KR20160176717 A KR 20160176717A KR 101884446 B1 KR101884446 B1 KR 101884446B1
Authority
KR
South Korea
Prior art keywords
speaker
camera
measuring
microphone
axes
Prior art date
Application number
KR1020160176717A
Other languages
English (en)
Other versions
KR20180073168A (ko
Inventor
이석필
변성우
한혁수
Original Assignee
상명대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상명대학교산학협력단 filed Critical 상명대학교산학협력단
Priority to KR1020160176717A priority Critical patent/KR101884446B1/ko
Publication of KR20180073168A publication Critical patent/KR20180073168A/ko
Application granted granted Critical
Publication of KR101884446B1 publication Critical patent/KR101884446B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • G06K9/00885
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • H04N5/23219
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 적어도 3개 이상의 마이크로폰을 포함하는 마이크로폰 어레이의 각 마이크로폰의 3차원 좌표값을 특정하여 3차원 좌표의 3개 축에 할당하는 단계와, 화자의 발화음성을 수집하여, 상기 3개 이상의 마이크로폰 각각에 수신되는 화자 음성의 도달시간을 측정하는 단계와, 상기 3개 축에 할당된 각 마이크로폰에 도달하는 상기 화자 음성의 도달 시간의 차로부터 3차원 좌표상의 화자 위치를 측정하는 단계를 포함하는 화자 위치 추적 방법 및 이를 수행하는 시스템을 제공한다.
본 발명에 따르면, 다자간 회의 혹은 화상회의 환경에서 화자 인식과 화자의 위치를 추적할 수 있다. 또한, 화상회의 환경에서 화자의 위치를 추적하여 카메라를 현재 말하고 있는 화자로 자동으로 조정할 수 있으며, 후처리 기능으로써 위치에 따른 화자 인식 결과로 회의 내용을 각 화자로 매핑시켜 주는 기능으로 발전될 수 있다.

Description

다자간 회의에서의 화자 인식 및 화자 추적 방법{Speaker identification and speaker tracking method for Multilateral conference environment}
본 발명은 화자의 위치를 추적하는 방법 및 시스템에 관한 것으로서, 구체적으로는 다자간 회의 혹은 화상회의 환경에서 화자를 인식하고 화자의 위치를 추적하는 방법 및 시스템에 관한 것이다.
컴퓨팅 환경에서 신호 처리는 여러 분야에서 발전하여 왔으며, 화자 인식, 화자 감정 분석, 화자 위치 추적등의 화자 분석 분야의 연구도 더욱 많아지고 있고 있다. 화자 위치추적은 화상 회의 때의 카메라의 자동 스티어링, 주밍 또는 동작인식을 위해서 매우 활발히 연구되고 있는 분야로서, 시간 지연 추정(TDE; Time Delay Estimation) 방법을 이용하는데, 교차 스펙트랄 함수(cross spectral fucntion) 기반의 방식과 일반화된 교차 상관(GCC: General Cross Correlation) 함수 기반의 방식으로 분류될 수 있다.
그러나 종래의 위 두 가지 방식 모두 그 정확도 및 신뢰도에 있어서 충분한 성능을 보이고 있지는 못하여, 따라서 복수의 화자가 근접하여 발화하는 다자간 회의 또는 화상회의에 적용하기에 불충분한 성능을 보이고 있다.
본 발명은, 전술한 종래기술의 문제를 해결하기 위하여, 다자간 회의 혹은 화상회의 환경에서 각 마이크로폰에 도착하는 시간 차이를 이용하여 높은 신뢰도로 화자의 위치를 추적할 수 있는 방법 및 시스템을 제공하려는 것을 목적으로 한다.
전술한 과제를 이루기 위하여, 적어도 3개 이상의 마이크로폰을 포함하는 마이크로폰 어레이의 각 마이크로폰의 3차원 좌표값을 특정하여 3차원 좌표의 3개 축에 할당하는 단계와, 화자의 발화음성을 수집하여, 상기 3개 이상의 마이크로폰 각각에 수신되는 화자 음성의 도달시간을 측정하는 단계와, 상기 3개 축에 할당된 각 마이크로폰에 도달하는 상기 화자 음성의 도달 시간의 차로부터 3차원 좌표상의 화자 위치를 측정하는 단계를 포함하는 화자 위치 추적 방법이 제공된다.
매 화자 위치를 측정하는 단계를 수행한 이후에 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 분포 영역을 파악하여, 그 중심에 해당하는 위치를 화자 위치로 간주하는 보정 단계를 더 포함할 수 있다.
또한, 매 화자 위치를 측정하는 단계를 수행한 이후에 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 가장 많이 추적된 위치를 화자 위치로 간주하는 보정을 수행할 수 있다.
이에 더하여, 화자 위치를 측정하는 단계를 수행한 이후, 측정된 화자 위치로 카메라를 이동시키는 단계와, 상기 카메라에 촬영되는 영상내의 움직임을 파악하는 단계와, 상기 움직임이 화자의 입모양의 움직임으로 판단되면, 상기 화자의 입모양을 카메라의 정 중앙에 위치하도록 카메라의 회전 및/또는 틸팅 제어를 수행하는 단계를 더 포함하여 화자의 위치를 카메라 영상의 정중앙에 위치시키는 것이 바람직하다.
전술한 방법을 수행하기 위한 화자 인식 시스템으로서, 3축으로 소정 간격 이격되어 배치되는 적어도 3개의 마이크로폰을 포함하는 마이크로폰 어레이와, 상기 마이크로폰에 수집되는 화자 음성의 도달시간의 차이와, 상기 각 마이크로폰의 위치로부터 화자의 위치를 추적하는 위치추적부와, 상기 위치추적부에서 추적한 화자의 위치로 카메라의 방향을 이동시키는 카메라 제어부를 포함하는 화자 인식 화상회의 시스템이 제공된다.
위 시스템은 촬영된 영상으로부터 화자의 입모양을 추출하여 입모양 움직임 여부를 파악하는 움직임 추출부를 더 포함할 수 있다.
본 발명은 다자간 회의 혹은 화상회의 환경에서 화자 인식과 화자의 위치를 추적할 수 있다.
또한, 화상회의 환경에서 화자의 위치를 추적하여 카메라를 현재 말하고 있는 화자로 자동으로 조정할 수 있으며, 후처리 기능으로써 위치에 따른 화자 인식 결과로 회의 내용을 각 화자로 매핑시켜 주는 기능으로 발전될 수 있다.
도 1은 다자간 회의 혹은 화상회의 환경의 개념도.
도 2는 마이크로폰 어레이 구조를 도시한 도면.
도 3은 3차원 좌표 추정의 설명을 위한 도면.
다자간 회의 혹은 화상회의 환경의 개념도는 도 1과 같다.
다자간 회의나 화상화의 환경은 좁은 공간에 다수의 사람들이 밀집되어 있으므로, 다른 경우에 비하여 화자의 위치 인식에 보다 정밀한 방식이 요구된다.
따라서, 본 발명에서는 적어도 3개의 마이크로폰 어레이를 활용하여 현재 화자의 위치를 3차원 좌표로 추정하여 인식/추적할 수 있도록 한다.
마이크로폰 어레이의 배치의 예시는 도 2와 같다.
상호 이격되어 분산 배치되어 화자로부터 발성되는 음성이 각 마이크로폰에 도달하는 시간의 차이가 발생할 수 있도록한다.
화자의 음성신호가 서로 다른 위치에 있는 마이크로폰으로 도착하는 시간 차이인 TDOA(Time Difference Of Arrival)를 측정하기 위하여 첫 번째로 각 마이크로폰에서 관측된 음성신호 간의 상호 상관 계수(Cross Correlation)를 계산한다.
상호 상관 계수 값이 가장 큰 값을 가질 때의 샘플 차이를 신호 간의 시간 차이로 정의하고, 두 마이크로폰의 거리 차이는 시간 차이와 공기 중의 소리의 속도를 곱하여 추정한다.
한편, 공기 중의 소리 속도는 일반적으로 340m/s로 계산될 수 있으나, 이는 영상 15도 기준 공기 중에서 소리의 속도이며, 실제로는 온도 및 밀도, 습도의 영향을 크게 받는다.
따라서, 본 발명에서는 화자 인식 시스템이 설치된 공간의 온도와 습도의 영향을 측정하여 보정을 거친 소리의 속도를 이용한다.
도 3은 화자의 위치(x, y, z)와 3개의 3축으로 분산 배치된 마이크로폰과의 공간 관계를 도시한 되면이다.
도 3에서 빨간색 점(x, y, z)에서 화자의 발화가 발생했다고 가정했을 때, 다음과 같은 수학식으로 나타낼 수 있다.
Figure 112016126257969-pat00001
Figure 112016126257969-pat00002
Figure 112016126257969-pat00003
수학식 1 내지 3을 x,y,z 에 대하여 풀면 다음과 같은 수학식 4 내지 6으로 나타낼 수 있다.
Figure 112016126257969-pat00004
Figure 112016126257969-pat00005
Figure 112016126257969-pat00006
그리고 수학식 4 내지 6을 수학식 1 내지 3에 대입하여 풀면 다음과 같이 x, y, z에 대한 2차식으로 나타낼 수 있다.
Figure 112016126257969-pat00007
Figure 112016126257969-pat00008
Figure 112016126257969-pat00009
여기에서 k
Figure 112016126257969-pat00010
이고, i
Figure 112016126257969-pat00011
이며, j
Figure 112016126257969-pat00012
이다. 따라서, 화자의 위치는 x,y,z에 대한 2차식 수학식 7 내지 9를 풀어서 측정할 수 있다.
한편, 도 2에 도시된 바와 같이 구성된 마이크로폰 어레이를 활용하여 전술한 방식에 따라 화자와의 거리에 따른 위치 추적 정확도를 실험하여 아래의 표 1과 같은 결과를 얻었다.
화자와의 거리에 따른 평균 절대오류값
x y z
100Cm 5.91 5.6 2.05
150Cm 6.59 7.02 2.6
200Cm 9.26 9.45 3.8
전반적으로 양호한 결과를 보였으나, 화자와 마이크로폰 어레이 간의 거리가 멀어질수록 정확도가 떨어지는 양상을 보임을 알 수 있다.
이는 마이크로폰 어레이를 구성하는 개별 마이크로폰들과 화자의 각도(α, β, γ)에 기인한 것으로서, 개별 마이크로폰과 화자간의 각도가 클수록 정확도가 높아진다.
즉, 마이크로폰 어레이를 화자와 근접시킬수록, 그리고 개별 마이크로폰 간의 간격을 크게 할수록 정확도는 높아진다. 하지만, 현실적인 물리적인 제약으로 인하여, 화자와의 근접도와 개별 마이크로폰의 간격은 어느 범위내에서 제한된다.
따라서, 본 발명에서는 정확도를 더욱 높이기 위하여 추가의 보정안을 제공한다.
도 4 내지 6은 전술한 실시예에 따라 2명, 5명, 7명의 화자가 회의를 하는 경우에 파악된 결과이다.
도시된 바와 같이, 측정시의 오류값으로 인하여 한 점에 집중되지는 않고 이산되어 있는 양상은 있지만, 동일 화자에 대한 위치 측정치는 일정 영역을 점유하고 있음을 알 수 있다.
따라서, 본 발명에서는 회의가 진행되면서 다수의 발화자의 위치가 측정된 분포값으로부터 화자의 위치를 추정하는 방식으로 화자 위치 추적 정확도를 높이는 방식을 취한다.
즉, 다수의 측정을 통하여 마이크로폰 어레이와 화자의 위치, 마이크로폰 어레이 내의 개별 마이크로폰간의 간격에 따라 평균 오류값은 일정한 양상을 보이게 되므로, 위치 추적된 결과치의 분포의 영역 역시 각 회의시마다 이용되는 마이크로폰 어레이의 구성 및 화자와 마이크로폰 어레이간의 거리에 따라서 일정한 양상을 보이게 되며, 분포 영역의 넓고 적음과 상관없이 분포 영역의 중심점 또는 각 영역에서 가장 많이 추적된 위치가 화자의 실제 위치일 가능성이 높다.
즉, 위치 추적 정확도를 높이기 위하여 추적 데이터를 지속적으로 저장 관리하며, 현재 측정된 시점에서의 이력 데이터를 파악하여 분포 영역의 중심점 또는 가장 많이 추적된 위치를 화자의 실제 위치로 간주하고, 이에 따라 카메라의 줌/스티어링 조정을 하면 보다 정확한 화상회의 시스템을 구현할 수 있다.
또한, 측정을 거듭하면서 축적된 이력 데이터의 분포 영역의 중심점과 가장 많이 추적된 위치가 일치할 경우에는 그 위치가 실제 화자의 위치인 것으로 간주한다.
물론, 다음 측정시 분포 영역을 미리 설정한 거리 이상 벗어나는 경우는 화자가 이동하는 것으로 간주하고 기존의 이력데이터를 소거하고 새로운 이력데이터를 수집하여 전술한 방식으로 추적된 위치를 보정한다.
이에 더하여, 보다 정밀도를 높이기 위하여, 카메라에 촬영되는 영상을 처리하여 보완할 수 있다.
1차로 전술한 수학식에 기초하여 화자의 위치를 추적한 후, 또는 이력 데이터를 이용하여 위치를 보정하여 대략의 위치를 파악한 후, 카메라에 촬영된 영상을 분석하여 화자들이 있는 공간내에서 현재 화자의 위치를 파악한다. 이를 위해서 카메라가 촬영한 영상과 화자들이 있는 공간의 좌표값 매칭 작업이 수반될 수 있다.
한편, 화상회의 시스템의 경우 화자의 절대 좌표값을 인식하는 것보다, 화자가 카메라의 중앙에 위치하도록 카메라를 조정하는 것이 더 중요한 일이 되는데, 이를 위해서 개략적으로 파악된 화자 위치로 카메라를 회전 및/또는 틸팅하여 카메라에 인식되는 입모양의 움직임을 영상처리를 통하여 파악하고 움직임이 있는 입모양을 카메라의 정중앙에 위치하도록 카메라의 회전각도를 조절함으로써 보다 정확하게 화자 영상을 제공하는 화상회의 시스템을 구현할 수 있다.
영상처리의 정확도를 높이기 위하여, 화자 입모양 움직임 영상을 파악하는 별도의 카메라가 구비되는 것도 좋다.
이상, 다자간 회의 또는 화상회의시 화자의 위치를 추적하는 방법과 화상회의시 보다 정확하고 자연스러운 카메라의 이동을 위한 각 실시예를 설명하였으나, 이는 본 발명의 구성을 설명하기 위한 예시일 뿐이고, 본 발명의 권리범위가 이에 한정되는 것은 아니다. 본 발명의 기술적 사상을 벗어나지 않는 다양한 변형과 변경의 실시 유형 역시 본 발명의 권리범위에 속함은 물론이며, 본 발명의 권리범위는 이하의 특허청구범위에 의하여 정하여져야 할 것이다.

Claims (6)

  1. 적어도 3개 이상의 마이크로폰을 포함하는 마이크로폰 어레이의 각 마이크로폰의 3차원 좌표값을 특정하여 3차원 좌표의 3개 축에 할당하는 단계와,
    화자의 발화음성을 수집하여, 상기 3개 이상의 마이크로폰 각각에 수신되는 화자 음성의 도달시간을 측정하는 단계와,
    상기 3개 축에 할당된 각 마이크로폰에 도달하는 상기 화자 음성의 도달 시간의 차로부터 3차원 좌표상의 화자 위치를 측정하는 단계를 포함하고,
    매 화자 위치를 측정하는 단계를 수행한 이후에, 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 분포 영역을 파악하여 그 중심에 해당하는 위치를 화자 위치로 간주하는 보정 단계를 더 포함하는
    화자 위치 추적 방법.
  2. 삭제
  3. 제1항에 있어서,
    매 화자 위치를 측정하는 단계를 수행한 이후에 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 가장 많이 추적된 위치를 화자 위치로 간주하는 보정 단계
    를 더 포함하는 화자 위치 추적 방법.
  4. 제1항에 있어서, 상기 화자 위치를 측정하는 단계를 수행한 이후,
    측정된 화자 위치로 카메라를 이동시키는 단계와,
    상기 카메라에 촬영되는 영상내의 움직임을 파악하는 단계와,
    상기 움직임이 화자의 입모양의 움직임으로 판단되면, 상기 화자의 입모양을 카메라의 정 중앙에 위치하도록 카메라의 회전 및/또는 틸팅 제어를 수행하는 단계
    를 더 포함하는 화자 위치 추적 방법.
  5. 3축으로 소정 간격 이격되어 배치되는 적어도 3개의 마이크로폰을 포함하는 마이크로폰 어레이와,
    상기 마이크로폰에 수집되는 화자 음성의 도달시간의 차이와, 상기 각 마이크로폰의 위치로부터 화자의 위치를 추적하되, 매 화자 위치를 측정한 후, 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 분포 영역을 파악하여 그 중심에 해당하는 위치를 화자 위치로 간주하는 보정 단계를 더 수행하는 위치추적부와,
    상기 위치추적부에서 추적한 화자의 위치로 카메라의 방향을 이동시키는 카메라 제어부를 포함하는 화자 인식 화상회의 시스템.
  6. 제5항에 있어서,
    촬영된 영상으로부터 화자의 입모양을 추출하여 입모양 움직임 여부를 파악하는 움직임 추출부를 더 포함하는 화자 인식 화상회의 시스템.


KR1020160176717A 2016-12-22 2016-12-22 다자간 회의에서의 화자 인식 및 화자 추적 방법 KR101884446B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160176717A KR101884446B1 (ko) 2016-12-22 2016-12-22 다자간 회의에서의 화자 인식 및 화자 추적 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160176717A KR101884446B1 (ko) 2016-12-22 2016-12-22 다자간 회의에서의 화자 인식 및 화자 추적 방법

Publications (2)

Publication Number Publication Date
KR20180073168A KR20180073168A (ko) 2018-07-02
KR101884446B1 true KR101884446B1 (ko) 2018-08-30

Family

ID=62914412

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160176717A KR101884446B1 (ko) 2016-12-22 2016-12-22 다자간 회의에서의 화자 인식 및 화자 추적 방법

Country Status (1)

Country Link
KR (1) KR101884446B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11227597B2 (en) 2019-01-21 2022-01-18 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108718402B (zh) * 2018-08-14 2021-04-13 四川易为智行科技有限公司 视频会议管理方法及装置
KR102230667B1 (ko) * 2019-05-10 2021-03-22 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
CN111182381B (zh) * 2019-10-10 2021-08-20 广东小天才科技有限公司 一种智能音箱的摄像头控制方法及智能音箱、存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001352530A (ja) * 2000-06-09 2001-12-21 Nippon Telegr & Teleph Corp <Ntt> 通信会議装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100121086A (ko) * 2009-05-08 2010-11-17 주식회사 싸이시스 음원인식을 이용한 촬영영상 추적 ptz 카메라 운용시스템 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001352530A (ja) * 2000-06-09 2001-12-21 Nippon Telegr & Teleph Corp <Ntt> 通信会議装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11227597B2 (en) 2019-01-21 2022-01-18 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof

Also Published As

Publication number Publication date
KR20180073168A (ko) 2018-07-02

Similar Documents

Publication Publication Date Title
KR101884446B1 (ko) 다자간 회의에서의 화자 인식 및 화자 추적 방법
CN107820037B (zh) 音频信号、图像处理的方法、装置和系统
US9633270B1 (en) Using speaker clustering to switch between different camera views in a video conference system
US9883143B2 (en) Automatic switching between dynamic and preset camera views in a video conference endpoint
CN112088315B (zh) 多模式语音定位
Zhou et al. Target detection and tracking with heterogeneous sensors
EP1004204B1 (en) Videoconferencing system with audio source location
KR102230667B1 (ko) 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
CN108089152B (zh) 一种设备控制方法、装置及系统
CN103581606B (zh) 一种多媒体采集装置和方法
Ajdler et al. Acoustic source localization in distributed sensor networks
JP6977448B2 (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
JP2011103111A (ja) 視聴覚を結合した動作認識システムおよびその認識方法
CN111432115A (zh) 基于声音辅助定位的人脸追踪方法、终端及存储装置
Jacob et al. DOA-based microphone array postion self-calibration using circular statistics
Plinge et al. Geometry calibration of distributed microphone arrays exploiting audio-visual correspondences
US11460927B2 (en) Auto-framing through speech and video localizations
Novoa et al. Weighted delay-and-sum beamforming guided by visual tracking for human-robot interaction
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
JP3986785B2 (ja) 音源分離収音マイクロホン装置および方法
Chen et al. Speaker tracking and identifying based on indoor localization system and microphone array
WO2023010599A1 (zh) 基于视频和音频的目标轨迹标定方法和计算机设备
US9883142B1 (en) Automated collaboration system
Wang et al. Real-time automated video and audio capture with multiple cameras and microphones

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right