KR20020033829A - Aiming a device at a sound source - Google Patents

Aiming a device at a sound source Download PDF

Info

Publication number
KR20020033829A
KR20020033829A KR1020027003981A KR20027003981A KR20020033829A KR 20020033829 A KR20020033829 A KR 20020033829A KR 1020027003981 A KR1020027003981 A KR 1020027003981A KR 20027003981 A KR20027003981 A KR 20027003981A KR 20020033829 A KR20020033829 A KR 20020033829A
Authority
KR
South Korea
Prior art keywords
sound
audio source
targeting
source
threshold
Prior art date
Application number
KR1020027003981A
Other languages
Korean (ko)
Inventor
후고 요트. 스트루베
Original Assignee
요트.게.아. 롤페즈
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요트.게.아. 롤페즈, 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 요트.게.아. 롤페즈
Publication of KR20020033829A publication Critical patent/KR20020033829A/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

시스템은 여러 가능한 소리 소스에서 흘러 나오는 소리에 반응하여 타겟이 될 디바이스를 겨냥한다. 예를 들면, 상기 시스템은 이를테면, 회의나 토론에서, 비디오 카메라(4)나 현재의 화자(6B)에서의 빛을 겨냥하는 데 사용될 수 있다. 제어 시스템은 새로운 소리 소스(6A)로부터 나오는 연속적인 소리 방출의 지속 기간과, 현재의 타겟(6B)과 새로운 소리 소스(6A) 사이의 각도 차이에 반응한다. 각각이 임계치를 초과하면, 카메라(4)는 재겨냥될 것이다. 소리는 (숨쉬는 동안과 같이) 짧은 짬(pause)이 연속적인 음성 안에서 중단(break)으로 반응되지 않도록 완벽하게 연속적이어야 할 필요는 없다.The system targets the device to be targeted in response to the sound flowing from several possible sound sources. For example, the system can be used to target light at the video camera 4 or the current speaker 6B, such as in a meeting or discussion. The control system responds to the duration of continuous sound emission from the new sound source 6A and the angular difference between the current target 6B and the new sound source 6A. If each exceeds the threshold, the camera 4 will be retargeted. The sound does not have to be perfectly continuous so that short pauses (such as during breathing) do not respond to a break in the continuous voice.

Description

디바이스를 소리 소스에 겨냥하기{AIMING A DEVICE AT A SOUND SOURCE}Aiming the device to a sound source {AIMING A DEVICE AT A SOUND SOURCE}

자동 카메라 추적 시스템은 움직임, 컬러, 이미지 처리 등과 같은 어떤 기준을 근거로 하여 자체의 시야 내에서 자동으로 타겟을 포착 및 유지(maintain)한다. 예를 들면, 비디오 회의 시스템은 팬-틸트-줌(pan-tilt-zoom) 카메라를 사용해 원하는 타겟을 추적할 수 있다. 그런 디바이스의 한 부류(class)는 어느 그룹 안에서 현재의 화자(speaker)를 자동 결정해서 그 현재의 화자에 촛점을 맞추어 현재의 화자를 계속 추적한다. 새로운 화자가 말하기 시작할 때마다, 그 새로운 화자를, 소리 레벨 및/또는 이와 다른 기준으로 자동으로 탐지하고는, 그 새로운 화자에 촛점을 맞춘다.Automatic camera tracking systems automatically capture and maintain targets within their field of view based on certain criteria such as motion, color, image processing, and the like. For example, a video conferencing system can use a pan-tilt-zoom camera to track the desired target. One class of such devices automatically determines the current speaker within a group and keeps track of the current speaker, focusing on the current speaker. Each time a new speaker begins to speak, the new speaker is automatically detected by sound level and / or other criteria and focused on the new speaker.

지금까지는, 현재의 화자를 결정하는 다수의 서로 다른 기법들이 제안되어 왔다. 그런 기법은 자동 카메라로 하여금 새로운 화자의 존재를 결정한 후, 그 새로운 화자에 대해 촛점을 맞출 수 있도록 하는데, 그런 기법에는 중요한 단점이 있다. 이러한 시스템은 화자로부터 화자로 아주 느리게 변경되어 많은 대화 부분을 놓치거나, 너무 빠르게 변경되어서 카메라 추적에 혼란을 가져오거나 둘 중의 하나이다.To date, a number of different techniques for determining the current speaker have been proposed. Such a technique allows an automatic camera to determine the presence of a new speaker and then focus on the new speaker, which has a significant disadvantage. These systems change very slowly from speaker to speaker and miss many parts of the conversation, or change too quickly to confuse camera tracking.

이러한 문제점에 대한 한 가지 해결책은 미국 특허 번호 제 5,206,721호에 제안되어 있다. 상기 특허는 각 화자가 별도의 마이크로폰을 구비한 시스템에서 현재의 화자를 겨냥하는 방법을 설명한다. 상기 시스템에서, 입력 신호는 각 화자가 하나씩 갖고 있는, 수 개의 마이크로폰 각각으로부터 모아진다. 총 말하는 시간은 연속 구간 동안 각 화자에 관하여 축적된다. 시간 상에서 주어진 어느 때에, 현재의 화자는 말하는 시간이 가장 많이 축적된 사람인 것으로 결정 난다.One solution to this problem is proposed in US Pat. No. 5,206,721. The patent describes how each speaker is aimed at the current speaker in a system with a separate microphone. In the system, the input signal is collected from each of several microphones, one for each speaker. Total talking time is accumulated for each speaker during successive sections. At any given time in time, the current speaker is determined to be the person with the most accumulated time of speaking.

상기 접근법이 갖는 문제점은 현재의 화자 결정에 다수의(multiple) 마이크로폰을 사용하는 것을 요한다는 점이다. 다수의 마이크로폰 사용은 통상 마이크로폰이 서로 근접해 있기 때문에, 또한 밀폐된 공간, 또는 파티션(partition) 및 물체(objects)가 있는 공간 내에서의 에코와 외부 잡음으로 인하여 현재의 화자들 간의 구별을 난해하게 한다. 게다가, 상기 개시된 방법은 서로 근접해 있는 두 화자 사이에서의 연속적인 카메라 동작이 지닌 바람직하지 않은 영향을 효과적으로 방지하지 않는다.The problem with this approach is that it requires the use of multiple microphones for current speaker determination. The use of multiple microphones usually makes the distinction between current speakers difficult because of microphones in close proximity to each other, and also due to echoes and external noise in confined spaces or spaces with partitions and objects. . In addition, the disclosed method does not effectively prevent the undesirable effects of continuous camera operation between two speakers in close proximity to one another.

따라서, 자동 비디오 회의 기술(art)에 있어서, 선행 기술의 기법이 지닌 상기 단점을 극복하는, 자동 카메라가 촛점을 맞출 현재의 화자 결정 방법이 필요하다.Therefore, in automatic video conferencing art, there is a need for a current speaker determination method that an automatic camera will focus on, overcoming the above drawbacks of prior art techniques.

본 발명은 일반적으로, 비디오 회의 시스템에서 사용되는 비디오 추적 시스템과 같이, 자동 겨냥 시스템 분야에 관한 것이다.The present invention generally relates to the field of automatic targeting systems, such as video tracking systems used in video conferencing systems.

도 1은 본 발명의 일 실시예의 적용에 대한 구상도(figurative representation).1 is a figurative representation of the application of one embodiment of the present invention.

도 2는 본 발명의 일 실시예의 기능적 블록도.2 is a functional block diagram of one embodiment of the present invention.

도 3은 도 2의 실시예를 구현하는데 쓰일 수 있는 제어 알고리즘을 설명하는 흐름도.3 is a flow diagram illustrating a control algorithm that may be used to implement the embodiment of FIG.

본 발명은 독립항으로 한정되는 한편, 종속항은 유리한 실시예를 한정한다.The invention is defined in the independent claims, while the dependent claims define advantageous embodiments.

간략하게 말하면, 시스템은 여러 가능한 소리 소스에서 흘러 나오는 소리에반응하여 타겟이 될 디바이스를 겨냥한다. 예를 들면, 상기 시스템은 이를테면 회의나 토론에서 비디오 카메라나 조명(light)을 현재의 화자에 겨냥하는데 사용될 수 있다. 제어 시스템은 새로운 소리 소스에서 나오는 연속적인 소리 방출의 지속 기간과 현재의 타겟 및 새로운 소리 소스 간의 각도 차이에 반응한다. 각각이 임계치를 초과하면, 카메라는 재 겨냥될 것이다. 소리는 (숨쉴 때와 같이) 짧은 짬이 연속적인 음성 안에서 중단으로서 반응되지 않도록 완벽히 연속적이어야 할 필요는 없다.In short, the system targets the device to be targeted in response to sound flowing from several possible sound sources. For example, the system can be used to target a video camera or light to the current speaker, such as in a meeting or discussion. The control system responds to the duration of continuous sound emission from the new sound source and the angle difference between the current target and the new sound source. If each exceeds the threshold, the camera will be aimed again. The sound does not have to be perfectly continuous so that short shocks (such as when breathing) do not react as interruptions in the continuous voice.

시스템은 화자와 같은 현재의 오디오 소스를 한 그룹의 소리 소스 중에서 결정하여, 카메라나 조명과 같은 디바이스의 제어를 가능하게 한다. 상기 시스템은 새로운 소리 소스를 포착하기 전에 두 가지 기준을 부과하는데, 첫째는, 미리 결정된 구간 동안 소리 소스가 실질적으로 연속적이어야 한다는 것이고, 둘째는 소리 소스가, 디바이스가 겨냥된 쪽의 현재 좌표와 실질적으로 다른 위치 좌표(겨냥될 디바이스에 대한 각도)를 가져야 한다는 것이다. 비디오 회의 상황에서, 이것은 새로운 화자와 이전의 화자 간의 각도 간격이 임계치를 초과할 때에만 그리고 새로운 화자가 최소의 시간 기간 동안 연속적으로 말할 때에만 이전의 화자로부터 새로운 화자로 변경하게 된다.The system determines the current audio source, such as the speaker, from a group of sound sources, allowing control of devices such as cameras and lights. The system imposes two criteria before capturing a new sound source, firstly that the sound source must be substantially continuous for a predetermined interval, and secondly that the sound source is substantially equal to the current coordinate of the side the device is aimed at. In other words, they must have different positional coordinates (angle with respect to the device to be targeted). In a video conferencing situation, this will change from the previous speaker to the new speaker only when the angular interval between the new speaker and the previous speaker exceeds the threshold and only when the new speaker speaks continuously for a minimum period of time.

상기 접근법은 소리 변환기(sound transducer), 이를테면, WO-A-99/27522(대리인 관리 번호 PHN 16.638)에 설명된 것을 이용해 구현될 수 있다. 상기 변환기는 소리 전력 레벨{RMS 또는 임의의 다른 적합한 지시기(indicator)} 및 현재의 소리 소스의 좌표를 표시하는 좌표 신호를 생성한다. 상기 기능을 달성하기 위한 제어는이하의 절차에 의해 획득될 수 있다:This approach can be implemented using a sound transducer, such as that described in WO-A-99 / 27522 (Agent No. PHN 16.638). The transducer generates a coordinate signal indicative of the sound power level (RMS or any other suitable indicator) and the coordinates of the current sound source. Control to achieve this function can be obtained by the following procedure:

- 만약 소리 변환기에 의해 생성된 소리 소스의 현재의 좌표가 현재의 타겟을 나타내는 좌표와 최소한의 각도 임계치만큼 다르다면, 현재의 좌표를 타겟 포착용 후보로 식별하기.If the current coordinates of the sound source generated by the sound transducer differ from the coordinates representing the current target by a minimum angle threshold, identifying the current coordinates as candidates for target capture.

- 만약 현재의 순간 좌표가 명시된(specified) 구간 동안 주어진 범위 내에 머무른다면(즉, 일정한 소리 소스를 구성하는 것으로 간주되는 임계치 너머로 변화하지 않는다면), 새로운 타겟을 포착하여 현재의 타겟을 나타내는 좌표로서 상기 후보의 좌표를 저장하기.If the current instantaneous coordinates remain within a given range for a specified period (i.e. they do not change beyond the threshold considered to constitute a constant sound source), then the coordinates representing the current target are captured and Save the coordinates of the candidate.

잠시의 중단, 이를테면, 간헐적인 호흡과 짬(pause)이 있는 음성이 연속적인 음성에서 공백(gap)으로 반응되지 않는 것을 보증하기 위하여, 저역 통과(low pass) 필터와, 시간-래치(latch) 또는 다른 필터 메커니즘이 사용되어 소리 전력 레벨 신호에 적용될 수 있다.Low pass filters, time-latch, to ensure that intermittent breathing and voice with pauses do not react as a gap in the continuous voice. Alternatively, other filter mechanisms can be used to apply the sound power level signal.

시간 임계치 필요 요건을 참작하기 위하여, 후보 화자가 지속적으로 말하는 동안의 시간 구간은(상기 저역 필터에 의해 필터링 된 바와 같이) 이어서 축적되고, 미리 결장된 시간 임계치와 끊임없이 비교된다. 일단, 연속적인 담화(speech)에 있어서의 중단(break)이나 방향 좌표에서의 변화가 없이{허용오차(tolerance)의 범위 내에서} 타이머가 시간 임계치에 도달하면, 후보 화자는 현재 화자가 되며, 디바이스, 예컨대 카메라와 조명이 그에 따라 겨냥된다.In order to take into account the time threshold requirements, the time periods during which the candidate speaker is continuously speaking (as filtered by the low pass filter) are then accumulated and constantly compared with the previously missing time threshold. Once the timer reaches the time threshold (within tolerance), without a break in successive speech or a change in direction coordinates, the candidate speaker becomes the current speaker, Devices such as cameras and lights are aimed accordingly.

또 다른 적용 예에서, 본 발명은 조명, 이를테면 스포트라이트(spot light)를 화자나 행위자와 같은 소리 소스에 겨냥하는 데 사용될 수 있다.In another application, the present invention can be used to target lighting, such as spot lights, to sound sources such as speakers or actors.

이제 도 1 및 도 2를 참조하면, 소리 변환기(1)는 화자(6B)에게서 나오는 신호를 수신하여 소리 전력 레벨(RMS 또는 그와 유사한 것)과 방향 둘 모두를 표시하는 출력을 생성한다. 상기 소리 전력 레벨 신호는 저역 통과 필터(19)로 인가되어 순간적이고(transient) 짧은 저 레벨을 제거한다. 이어서, 상기 필터링된 소리 전력 레벨 신호는 임계치 검출기(20)(예컨대, 비교기)에 인가되어, 오디오 소스{화자(6B)}의 소리 전력이 시간 상에서 주어진 한 때에 특정 레벨보다 클지 작은 지의 여부를 표시하는 (시간에 대한)단일의 비트 신호를 생성한다.Referring now to FIGS. 1 and 2, the sound converter 1 receives a signal from the speaker 6B to produce an output indicating both sound power level (RMS or the like) and direction. The sound power level signal is applied to a low pass filter 19 to remove transient and short low levels. The filtered sound power level signal is then applied to threshold detector 20 (e.g., comparator) to indicate whether the sound power of the audio source {speaker 6B} is greater or less than a certain level at any given time. Generates a single bit signal (for time).

임계치 검출기(20)의 출력은 각도 연산기(21)로 인가되는데, 상기 각도 연산기(21)는 소리 변환기(1)로부터 방향 신호 역시 수신한다. 상기 각도 연산기는 현재의 소리 소스의 방향을 표시하는 벡터를 출력하고는 그것을 위치 제어기(22)로 인가한다. 상기 임계치 검출기(20)의 출력은 상기 방향 신호로부터 연산된 각도로 곱해지기 때문에, 만약 임계치가 낮다면 각도 연산기(21)의 출력은 제로(null) 벡터이며, 만약 임계치가 낮지 않다면, 비-제로 방향 벡터이다.The output of the threshold detector 20 is applied to an angle calculator 21, which also receives a direction signal from the sound transducer 1. The angle calculator outputs a vector indicating the direction of the current sound source and applies it to the position controller 22. Since the output of the threshold detector 20 is multiplied by the angle calculated from the direction signal, if the threshold is low the output of the angle calculator 21 is a null vector, and if the threshold is not low, it is non-zero. Direction vector.

위치 제어기(22)는 위치 작동기(actuator)(23)를 제어하여 카메라(4)를 조준하는 과정을 끊임없이 수행한다. 위치 제어기(22)에 의해 수행된 상기 과정의 결과는 지정된 소리 소스에 대해 계속되는 포착이다. 만약 화자(6B)가 어느 시간 기간 동안 침묵하고, 화자(6A)는 다음 기간 동안 계속 말한다면, 카메라(4)는 또 다른 화자가 인계 받을 때까지 후자의 화자(6A)에 겨냥되어 있을 것이다.The position controller 22 constantly performs the process of aiming the camera 4 by controlling the position actuator 23. The result of the process performed by the position controller 22 is a subsequent acquisition for the specified sound source. If the speaker 6B is silent for a period of time, and the speaker 6A continues to speak for the next period, the camera 4 will be aimed at the latter speaker 6A until another speaker takes over.

저역 통과 필터(19)는 연속적인 담화이지만, 한편으로는 잠시의 짬이 있을 때 신호 변화를 피하게 하는 일반적인 과정이다. 저역 통과 필터는 일반적인 설명(description)인 것으로 의도되며 디지털 또는 아날로그 신호에 대한 디지털 과정일 수도 있다. 상기 저역 통과 필터는 수치적 저역 통과 필터 또는 짧은 짬은 건너뛰는 시간-지연 과정 또는 디바이스(예컨대, 타이머가 있는 래치) 또는 임의의 다른 적합한 과정일 수 있다. 상기 임계치 검출기(20)와 비슷하다. 후자는 아날로그 디바이스 또는 디지털 과정일 수 있다. 상기 저역 통과 필터, 임계치 검출기, 및 각도 연산기(19-21)의 기능은 단일의 알고리즘이나 다중의 스레드(thread)로 상기 모든 과정을 수행하는 단일의 프로세서 디바이스에 의해 수행될 수도 있다. 즉, 상기 설명은 순수히 기능적인 것으로 의도되며, 과정들을 별도의 하드웨어나 심지어 소프트웨어 구성 요소로 나누고자 하는 의도는 아니다.The low pass filter 19 is a continuous discourse, but on the one hand it is a general procedure to avoid signal changes when there is a brief delay. The low pass filter is intended to be a general description and may be a digital process on a digital or analog signal. The low pass filter may be a numerical low pass filter or a short short skipping time-delay process or device (eg, a latch with a timer) or any other suitable process. Similar to the threshold detector 20. The latter can be an analog device or a digital process. The functions of the low pass filter, threshold detector, and angle calculator 19-21 may be performed by a single processor device that performs all of the above in a single algorithm or multiple threads. That is, the description is intended to be purely functional and is not intended to divide the processes into separate hardware or even software components.

이제, 도 3을 참조하면, 본 발명을 구현하는데 사용될 수 있는 제어 알고리즘은 새로운 오디오 신호(V)의 수신과 함께 시작한다. 일단 오디오 신호(V)가 단계(9)에서 비제로(nonzero)가 되면, 루프 (9-9)를 빠져 나와 제어는 단계(10)로 넘어간다. 새로운 오디오 신호의 각도 위치는 현재의 화자(S) 메모리(10)에 저장된다. 이어서, 카메라는 단계(11)에서 현재의 화자(S)에 준하여 겨냥된다. 현재의 화자(S) 벡터와 그 순간의 오디오 소스(V) 벡터{각도 연산기(21)의 출력} 간의 각도 차이는 단계(12)에서 연산되며, 만약 그 순간의 오디오 소스(V)가 비제로이고, 상기 차이가 임계치를 초과한다면(|S-V|>TA), 제어는 단계(13)로 넘어간다. 만약 상기 차이가 임계치를 초과하지 않는다면, 제어 흐름은 루프(12-12)에서 대기한다. 단계(13)에서, 그 순간의 오디오 소스(V) 벡터는 후보 오디오 소스에 대응하는 메모리에 저장된다. 그리고 나서, 타이머는 리셋(reset)되고 단계(14)에서 시작된다. 이어서, 제어 흐름 루프(15-16)가 나오는데,Referring now to FIG. 3, a control algorithm that can be used to implement the present invention begins with the reception of a new audio signal (V). Once the audio signal V is nonzero in step 9, it exits loop 9-9 and control passes to step 10. The angular position of the new audio signal is stored in the current speaker (S) memory 10. Subsequently, the camera is aimed in accordance with the current speaker S in step 11. The angle difference between the current speaker S vector and the audio source V vector at that moment (the output of the angle calculator 21) is calculated in step 12, if the audio source V at that moment is nonzero. If the difference exceeds the threshold (| SV |> T A ), control passes to step 13. If the difference does not exceed the threshold, the control flow waits in loop 12-12. In step 13, the audio source V vector at that moment is stored in a memory corresponding to the candidate audio source. The timer is then reset and started at step 14. Subsequently, a control flow loop 15-16 emerges,

1. 그 순간의 오디오 소스(V) 벡터가 제로가 될 때{단계(15)};1. when the audio source V vector at that moment becomes zero (step 15);

2. 그 순간의 오디오 소스(V) 벡터와 후보(C) 벡터 간의 차이|C-V|가 임계치 TK아래일 때{단계(15)}; 또는2. When the difference | CV | between the audio source V vector and the candidate C vector at that moment is below the threshold T K (step 15); or

3. 타이머가 타임 아웃될 때{단계(16)};3. When the timer times out (step 16);

상기 제어 흐름 루프(15-16)를 빠져 나간다.Exit the control flow loop 15-16.

만약 타이머가 타임 아웃되면, 제어는 단계(17)로 넘어가서, 후보(C) 벡터가 현재의 화자(S)에 대응하는 메모리에 저장되고, 카메라는 단계(17)에서 재겨냥된다. 만약 단계(15)에서 어느 조건도 충족되지 않으면, 루프를 빠져 나가 단계(12)로 간다.If the timer times out, control passes to step 17 where the candidate C vector is stored in a memory corresponding to the current speaker S and the camera is retargeted at step 17. If neither condition is met in step 15, it exits the loop and goes to step 12.

도시되고 상기 설명된 특정 실시예가, 팬-틸트-줌 카메라를 사용하여 비디오 회의할 목적으로 화자 바뀜을 결정하는 데 유용한 것으로 증명이 된 한편, 본 명세서 안에 개시된 본 발명의 추가 변경은 본 발명이 속한 분야의 당업자 머리 속에 떠오를 것이며, 그러한 모든 변경은 첨부된 청구 범위로 한정된 본 발명의 범위 안에 있는 것으로 간주한다.While the particular embodiments shown and described above have proven useful for determining speaker switching for the purpose of video conferencing using a pan-tilt-zoom camera, further modifications of the invention disclosed herein are intended to encompass the present invention. As those skilled in the art will appreciate, all such changes are considered to be within the scope of the invention as defined by the appended claims.

청구 범위에서, 괄호 내의 임의의 참조 부호는 청구 범위를 한정하는 것으로 해석되지는 않을 것이다. 단어 "포함하는"는 청구 범위에 기재된 요소나 단계 이외의 요소나 단계가 존재하는 것을 배제하지 않는다. 요소에 선행하는 단수적 표현은 그러한 요소가 복수 존재할 것을 배제하지 않는다. 본 발명은 수 개의 별개 요소를 포함하는 하드웨어에 의해서, 그리고 적절히 프로그래밍 된 컴퓨터에 의해서 구현될 수 있다. 수 개의 수단을 열거하는 장치 청구항에서, 이들 수단 중 수 개는 하나로써 그리고 하드웨어의 같은 품목으로써 구현될 수 있다. 상호 서로 다른 종속 청구 범위에 특정 조치가 기술된 단순한 사실은 이들 조치의 조합이 유리하게 사용될 수 없다고 나타내지는 않는다.In the claims, any reference signs placed between parentheses shall not be construed as limiting the claim. The word "comprising" does not exclude the presence of elements or steps other than those described in the claims. The singular expression preceding the element does not exclude the presence of a plurality of such elements. The invention can be implemented by means of hardware comprising several distinct elements, and by means of a suitably programmed computer. In the device claim enumerating several means, several of these means may be embodied as one and the same item of hardware. The simple fact that specific measures are described in different mutually dependent claims does not indicate that a combination of these measures cannot be used to advantage.

상술한 바와 같이, 본 발명은 일반적으로, 비디오 회의 시스템에서 사용되는 비디오 추적 시스템과 같이, 자동 겨냥 시스템 분야에 이용된다.As mentioned above, the present invention is generally used in the field of automatic targeting systems, such as video tracking systems used in video conferencing systems.

Claims (16)

오디오 소스(6B)를 타겟으로 삼는(targeting) 방법으로서, 상기 방법은,As a method of targeting the audio source 6B, the method 현재의 오디오 소스에서 나온 소리 측정으로 결정된 상기 현재의 오디오 소스의 제 1 좌표를 저장하는 단계와;Storing first coordinates of the current audio source determined by sound measurements from the current audio source; 각도 임계치를 메모리에 저장하는 단계와;Storing the angular threshold in a memory; 메모리에 저장된 이전의 오디오 소스의 상기 제 1 좌표와 제 2 좌표 간의 각도 차이를 계산하는 단계와;Calculating an angle difference between the first and second coordinates of a previous audio source stored in a memory; 상기 각도 차이와 상기 각도 임계치에 반응하여 상기 현재의 오디오 소스를 타겟으로 삼는 단계를Targeting the current audio source in response to the angle difference and the angle threshold. 포함하는, 오디오 소스(6B)를 타겟으로 삼는 방법.Including audio source 6B. 제 1 항에 있어서, 타겟으로 삼는 상기 단계는 상기 각도 차이를 상기 각도 임계치와 비교하는 단계를 포함하는, 오디오 소스(6B)를 타겟으로 삼는 방법.2. A method according to claim 1, wherein the step of targeting comprises comparing the angle difference with the angle threshold. 제 1 항에 있어서, 타겟으로 삼는 상기 단계는 만약 상기 각도 차이가 상기 각도 임계치를 초과할 때에만 상기 현재의 오디오 소스를 타겟으로 삼는 단계를 포함하는, 오디오 소스(6B)를 타겟으로 삼는 방법.2. A method according to claim 1, wherein the step of targeting comprises targeting the current audio source only if the angle difference exceeds the angle threshold. 제 1 항에 있어서, 타겟으로 삼는 상기 단계는 상기 현재의 오디오 소스의소리 전력 레벨에 반응하여 상기 현재의 오디오 소스를 타겟으로 삼는 단계를 포함하는, 오디오 소스(6B)를 타겟으로 삼는 방법.2. A method according to claim 1, wherein the step of targeting comprises targeting the current audio source in response to the sound power level of the current audio source. 제 1 항에 있어서, 타겟으로 삼는 상기 단계는 상기 현재의 오디오 소스의 소리 전력(sound power)을 미리 결정된 소리 전력 임계치와 비교하는 단계를 포함하는, 오디오 소스(6B)를 타겟으로 삼는 방법.2. A method according to claim 1, wherein the step of targeting comprises comparing a sound power of the current audio source with a predetermined sound power threshold. 제 1 항에 있어서, 타겟으로 삼는 상기 단계는 상기 현재의 오디오 소스에 반응하여 소리 전력 신호를 저역 통과 필터링하는 단계를 포함하는, 오디오 소스(6B)를 타겟으로 삼는 방법.2. The method of claim 1, wherein said targeting comprises low pass filtering a sound power signal in response to said current audio source. 제 6 항에 있어서, 저역 통과 필터링하는 상기 단계는,The method of claim 6, wherein the low pass filtering comprises: 소리 전력 레벨 입력 신호를 수신하는 단계와;Receiving a sound power level input signal; 상기 입력 신호가 임계 레벨 아래로 떨어질 때 타이머를 리셋(reset)하여 시작시키는 단계와;Resetting and starting a timer when the input signal falls below a threshold level; 만약 상기 입력 신호가 상기 임계 레벨을 초과하기 전에 상기 타이머가 타임아웃 상태에 도달한다면 제 1 출력 신호를 출력하는 단계와;Outputting a first output signal if the timer reaches a timeout state before the input signal exceeds the threshold level; 만약 상기 타이머가 상기 타임아웃 상태에 도달할 때까지 상기 입력 신호가 상기 임계치 아래에 머물러 있다면, 제 2 출력 신호를 출력하는 단계를If the input signal stays below the threshold until the timer reaches the timeout state, outputting a second output signal. 포함하는, 오디오 소스(6B)를 타겟으로 삼는 방법.Including audio source 6B. 제 1 항에 있어서, 타겟으로 삼는 상기 단계는 디바이스를 겨냥하는 단계를 포함하는, 오디오 소스(6B)를 타겟으로 삼는 방법.The method of claim 1, wherein said targeting comprises targeting the device. 오디오 소스를 타겟으로 삼는 방법으로서, 상기 방법은,As a method of targeting an audio source, the method 현재의 화자(speaker) 메모리에 현재의 화자의 좌표를 저장하는 단계와;Storing the current speaker's coordinates in a current speaker memory; 제 1 오디오 소스의 좌표를 검출하는 단계와;Detecting coordinates of the first audio source; 상기 현재의 화자의 저장된 좌표와 상기 제 1 오디오 소스의 상기 좌표 간의 각도 차이를 결정하는 단계와;Determining an angle difference between the stored coordinates of the current speaker and the coordinates of the first audio source; 상기 각도 차이에 반응하여 상기 제 1 오디오 소스를 타겟으로 삼는 단계를Targeting the first audio source in response to the angle difference 포함하는, 오디오 소스를 타겟으로 삼는 방법.Including an audio source. 오디오 소스를 타겟으로 삼는 방법으로서, 상기 방법은,As a method of targeting an audio source, the method 현재의 오디오 소스를 검출하는 단계와;Detecting a current audio source; 오디오 소스의 저장된 좌표와 상기 현재의 오디오 소스의 좌표 간의 각도 차이를 결정하는 단계와;Determining an angle difference between the stored coordinates of the audio source and the coordinates of the current audio source; 상기 현재의 오디오 소스의 소리 전력 레벨 유지의 지속 기간을 측정하는 단계와;Measuring a duration of sound power level maintenance of the current audio source; 상기 지속 기간 및 상기 각도 차이에 반응하여 상기 오디오 소스를 타겟으로 삼는 단계를Targeting the audio source in response to the duration and the angle difference 포함하는, 오디오 소스를 타겟으로 삼는 방법.Including an audio source. 오디오 소스를 타겟으로 삼는 방법으로서, 상기 방법은,As a method of targeting an audio source, the method 현재의 오디오 소스를 검출하는 단계와;Detecting a current audio source; 오디오 소스의 저장된 좌표와 상기 현재의 오디오 소스의 저장된 좌표 간의 각도 차이를 결정하는 단계와;Determining an angle difference between the stored coordinates of the audio source and the stored coordinates of the current audio source; 상기 현재의 오디오 소스의 소리 전력 레벨의 지속 기간의 시간 적분(integral)을 측정하는 단계와;Measuring a time integral of the duration of the sound power level of the current audio source; 지속 기간의 상기 시간 적분 및 미리 결정된 각도 임계치를 초과하는 상기 각도 차이에 반응하여 상기 오디오 소스를 타겟으로 삼는 단계를Targeting the audio source in response to the time integration of a duration and the angle difference exceeding a predetermined angle threshold. 포함하는, 오디오 소스를 타겟으로 삼는 방법.Including an audio source. 타겟으로 삼는 시스템으로서,As a targeting system, 각각, 소리 소스의 좌표와 상기 소리 소스의 소리 전력 레벨을 나타내는 제 1 및 제 2 신호를 생성하는 소리 변환기(transducer)(1)와;A sound transducer (1) for generating first and second signals indicative of the coordinates of the sound source and the sound power level of the sound source, respectively; 상기 제 1 및 제 2 신호를 수신하도록 연결되고, 상기 제 1 소리 신호 좌표와 이전의 소리 소스의 저장된 좌표 간의 각도 차이를 연산하도록 프로그래밍 되어 있으며, 또한 디바이스의 위치를 제어하여 상기 각도 차이에 반응하여 겨냥되도록 연결된 제어기(21,22)를Is connected to receive the first and second signals, and is programmed to calculate an angular difference between the first sound signal coordinate and a stored coordinate of a previous sound source, and also controls the position of the device in response to the angular difference. Connected controllers 21 and 22 to be targeted. 포함하는, 타겟으로 삼는 시스템.Including, targeting system. 제 12 항에 있어서, 상기 소리 소스의 상기 소리 전력 레벨을 수신하도록 연결된 저역 통과 필터(19)를 더 포함하며, 이로 인해 상기 저역 통과 필터는 상기 소리 소스의 상기 소리 전력 레벨을 필터링하여 상기 제어기에 의해 수신될 필터링된 소리 전력 레벨 신호를 출력하도록 프로그래밍 된, 타겟으로 삼는 시스템.13. The apparatus of claim 12, further comprising a low pass filter (19) coupled to receive the sound power level of the sound source, whereby the low pass filter filters the sound power level of the sound source to the controller. A targeting system, programmed to output a filtered sound power level signal to be received by. 타겟으로 삼는 시스템으로서,As a targeting system, 소리 소스의 위치를 나타내는 제 1 신호와 상기 소리 소스의 소리 전력 레벨을 나타내는 제 2 신호를 제공하도록 배열된 적어도 두 개의 마이크로폰을 사용하는 오디오 검출기(1)와;An audio detector (1) using at least two microphones arranged to provide a first signal indicative of the location of the sound source and a second signal indicative of the sound power level of the sound source; 상기 제 1 신호 및 제 2 신호를 수신하도록 연결되고,Connected to receive the first signal and the second signal, 상기 소리 소스의 상기 좌표와 이전의 소리 소스의 저장된 좌표 간의 각도 차이를 연산하고, 상기 각도 차이를 각도 임계치와 비교하며, 상기 제어기 디바이스에 연결된 타겟으로 삼는 디바이스(23)를 제어하여 상기 각도 임계치를 초과하는 상기 각도 차이에 반응하여 겨냥하도록Compute the angle difference between the coordinate of the sound source and the stored coordinate of the previous sound source, compare the angle difference with the angle threshold, and control the target device 23 connected to the controller device to control the angle threshold. To aim in response to the above difference in angle 프로그래밍 된 제어기(21,22) 디바이스를Programmed controllers (21, 22) 포함하는, 타겟으로 삼는 시스템.Including, targeting system. 제 14 항에 있어서, 상기 제어기 디바이스는 상기 소리 소스의 상기 소리 전력 레벨을 수신하고 상기 소리 소스의 필터링 된 소리 전력 레벨을 출력하도록 프로그래밍 된 저역 통과 필터를 포함하는, 타겟으로 삼는 시스템.15. The system of claim 14, wherein the controller device comprises a low pass filter programmed to receive the sound power level of the sound source and output the filtered sound power level of the sound source. 제 14 항에 있어서, 상기 제어기 디바이스는 상기 소리 소스의 상기 소리 전력 레벨을 수신하도록 연결된 임계치 검출기를 포함하고, 상기 임계치 검출기는 상기 소리 소스의 상기 소리 전력 레벨을 소리 임계치와 비교하도록 프로그래밍 되어, 이로 인해 상기 타겟으로 삼는 디바이스가 상기 미리 결정된 임계치를 초과하는 상기 소리 전력 및 상기 각도 임계치를 초과하는 상기 각도 차이에 반응하여 겨냥되는, 타겟으로 삼는 시스템.15. The apparatus of claim 14, wherein the controller device comprises a threshold detector coupled to receive the sound power level of the sound source, wherein the threshold detector is programmed to compare the sound power level of the sound source with a sound threshold. And the targeting device is targeted in response to the sound power exceeding the predetermined threshold and the angular difference exceeding the angular threshold.
KR1020027003981A 2000-08-01 2001-07-17 Aiming a device at a sound source KR20020033829A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US63066400A 2000-08-01 2000-08-01
US09/630,664 2000-08-01
PCT/EP2001/008295 WO2002011438A1 (en) 2000-08-01 2001-07-17 Aiming a device at a sound source

Publications (1)

Publication Number Publication Date
KR20020033829A true KR20020033829A (en) 2002-05-07

Family

ID=24528077

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027003981A KR20020033829A (en) 2000-08-01 2001-07-17 Aiming a device at a sound source

Country Status (5)

Country Link
EP (1) EP1308039A1 (en)
JP (1) JP2004505560A (en)
KR (1) KR20020033829A (en)
CN (1) CN1386371A (en)
WO (1) WO2002011438A1 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4829696B2 (en) * 2006-06-19 2011-12-07 日本電信電話株式会社 Conversation support system
CN101937199A (en) * 2010-03-25 2011-01-05 中国计量学院 Stage performance personnel light automatic tracking technology and implementation thereof
CN103891271B (en) * 2011-10-18 2017-10-20 统一有限责任两合公司 Method and apparatus for providing the data produced in a meeting
EP2882180A4 (en) * 2013-09-29 2015-10-14 Zte Corp Control method, control apparatus and control device
CN103595953B (en) * 2013-11-14 2017-06-20 华为技术有限公司 A kind of method and apparatus for controlling video capture
CN104697119B (en) * 2015-03-24 2017-07-04 广东美的制冷设备有限公司 A kind of air-conditioning self adaptation air supply method and controller
CN106205628B (en) 2015-05-06 2018-11-02 小米科技有限责任公司 Voice signal optimization method and device
CN104835359A (en) * 2015-05-14 2015-08-12 韩凤英 Remote teaching auxiliary device
CN109710080B (en) * 2019-01-25 2021-12-03 华为技术有限公司 Screen control and voice control method and electronic equipment
CN113676687A (en) * 2021-08-30 2021-11-19 联想(北京)有限公司 Information processing method and electronic equipment

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2148631C (en) * 1994-06-20 2000-06-13 John J. Hildin Voice-following video system
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source

Also Published As

Publication number Publication date
JP2004505560A (en) 2004-02-19
WO2002011438A1 (en) 2002-02-07
EP1308039A1 (en) 2003-05-07
CN1386371A (en) 2002-12-18

Similar Documents

Publication Publication Date Title
US9693017B2 (en) Automatic switching between different cameras at a video conference endpoint based on audio
US4581758A (en) Acoustic direction identification system
US5778082A (en) Method and apparatus for localization of an acoustic source
JP2003532348A (en) Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
US20170041556A1 (en) Video processing apparatus, method, and system
US9030520B2 (en) Automatic camera selection for videoconferencing
KR20020033829A (en) Aiming a device at a sound source
US20020140804A1 (en) Method and apparatus for audio/image speaker detection and locator
CN110808048A (en) Voice processing method, device, system and storage medium
JP2005086365A (en) Talking unit, conference apparatus, and photographing condition adjustment method
JP2005057398A (en) Speech unit
KR20040011443A (en) Automatic multi-camera video composition
AU6308799A (en) Locating an audio source
JP2004343262A (en) Microphone-loudspeaker integral type two-way speech apparatus
JP2005184386A (en) Sound collecting/video recording device
JPH06351015A (en) Image pickup system for video conference system
JP2011066668A (en) Echo canceler, echo canceling method, and program of echo canceler
US11460927B2 (en) Auto-framing through speech and video localizations
KR20140112552A (en) High dynamic range microphone system
JPH05111020A (en) Picture switching control device for video conference
JP4479227B2 (en) Audio pickup / video imaging apparatus and imaging condition determination method
CN111903194A (en) System and method for enhancing voice commands using connected lighting systems
JP5173861B2 (en) Imaging apparatus and control method thereof
JP2005151042A (en) Sound source position specifying apparatus, and imaging apparatus and imaging method
JP2005086363A (en) Calling device

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid