KR20020033829A - Aiming a device at a sound source - Google Patents
Aiming a device at a sound source Download PDFInfo
- Publication number
- KR20020033829A KR20020033829A KR1020027003981A KR20027003981A KR20020033829A KR 20020033829 A KR20020033829 A KR 20020033829A KR 1020027003981 A KR1020027003981 A KR 1020027003981A KR 20027003981 A KR20027003981 A KR 20027003981A KR 20020033829 A KR20020033829 A KR 20020033829A
- Authority
- KR
- South Korea
- Prior art keywords
- sound
- audio source
- targeting
- source
- threshold
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
시스템은 여러 가능한 소리 소스에서 흘러 나오는 소리에 반응하여 타겟이 될 디바이스를 겨냥한다. 예를 들면, 상기 시스템은 이를테면, 회의나 토론에서, 비디오 카메라(4)나 현재의 화자(6B)에서의 빛을 겨냥하는 데 사용될 수 있다. 제어 시스템은 새로운 소리 소스(6A)로부터 나오는 연속적인 소리 방출의 지속 기간과, 현재의 타겟(6B)과 새로운 소리 소스(6A) 사이의 각도 차이에 반응한다. 각각이 임계치를 초과하면, 카메라(4)는 재겨냥될 것이다. 소리는 (숨쉬는 동안과 같이) 짧은 짬(pause)이 연속적인 음성 안에서 중단(break)으로 반응되지 않도록 완벽하게 연속적이어야 할 필요는 없다.The system targets the device to be targeted in response to the sound flowing from several possible sound sources. For example, the system can be used to target light at the video camera 4 or the current speaker 6B, such as in a meeting or discussion. The control system responds to the duration of continuous sound emission from the new sound source 6A and the angular difference between the current target 6B and the new sound source 6A. If each exceeds the threshold, the camera 4 will be retargeted. The sound does not have to be perfectly continuous so that short pauses (such as during breathing) do not respond to a break in the continuous voice.
Description
자동 카메라 추적 시스템은 움직임, 컬러, 이미지 처리 등과 같은 어떤 기준을 근거로 하여 자체의 시야 내에서 자동으로 타겟을 포착 및 유지(maintain)한다. 예를 들면, 비디오 회의 시스템은 팬-틸트-줌(pan-tilt-zoom) 카메라를 사용해 원하는 타겟을 추적할 수 있다. 그런 디바이스의 한 부류(class)는 어느 그룹 안에서 현재의 화자(speaker)를 자동 결정해서 그 현재의 화자에 촛점을 맞추어 현재의 화자를 계속 추적한다. 새로운 화자가 말하기 시작할 때마다, 그 새로운 화자를, 소리 레벨 및/또는 이와 다른 기준으로 자동으로 탐지하고는, 그 새로운 화자에 촛점을 맞춘다.Automatic camera tracking systems automatically capture and maintain targets within their field of view based on certain criteria such as motion, color, image processing, and the like. For example, a video conferencing system can use a pan-tilt-zoom camera to track the desired target. One class of such devices automatically determines the current speaker within a group and keeps track of the current speaker, focusing on the current speaker. Each time a new speaker begins to speak, the new speaker is automatically detected by sound level and / or other criteria and focused on the new speaker.
지금까지는, 현재의 화자를 결정하는 다수의 서로 다른 기법들이 제안되어 왔다. 그런 기법은 자동 카메라로 하여금 새로운 화자의 존재를 결정한 후, 그 새로운 화자에 대해 촛점을 맞출 수 있도록 하는데, 그런 기법에는 중요한 단점이 있다. 이러한 시스템은 화자로부터 화자로 아주 느리게 변경되어 많은 대화 부분을 놓치거나, 너무 빠르게 변경되어서 카메라 추적에 혼란을 가져오거나 둘 중의 하나이다.To date, a number of different techniques for determining the current speaker have been proposed. Such a technique allows an automatic camera to determine the presence of a new speaker and then focus on the new speaker, which has a significant disadvantage. These systems change very slowly from speaker to speaker and miss many parts of the conversation, or change too quickly to confuse camera tracking.
이러한 문제점에 대한 한 가지 해결책은 미국 특허 번호 제 5,206,721호에 제안되어 있다. 상기 특허는 각 화자가 별도의 마이크로폰을 구비한 시스템에서 현재의 화자를 겨냥하는 방법을 설명한다. 상기 시스템에서, 입력 신호는 각 화자가 하나씩 갖고 있는, 수 개의 마이크로폰 각각으로부터 모아진다. 총 말하는 시간은 연속 구간 동안 각 화자에 관하여 축적된다. 시간 상에서 주어진 어느 때에, 현재의 화자는 말하는 시간이 가장 많이 축적된 사람인 것으로 결정 난다.One solution to this problem is proposed in US Pat. No. 5,206,721. The patent describes how each speaker is aimed at the current speaker in a system with a separate microphone. In the system, the input signal is collected from each of several microphones, one for each speaker. Total talking time is accumulated for each speaker during successive sections. At any given time in time, the current speaker is determined to be the person with the most accumulated time of speaking.
상기 접근법이 갖는 문제점은 현재의 화자 결정에 다수의(multiple) 마이크로폰을 사용하는 것을 요한다는 점이다. 다수의 마이크로폰 사용은 통상 마이크로폰이 서로 근접해 있기 때문에, 또한 밀폐된 공간, 또는 파티션(partition) 및 물체(objects)가 있는 공간 내에서의 에코와 외부 잡음으로 인하여 현재의 화자들 간의 구별을 난해하게 한다. 게다가, 상기 개시된 방법은 서로 근접해 있는 두 화자 사이에서의 연속적인 카메라 동작이 지닌 바람직하지 않은 영향을 효과적으로 방지하지 않는다.The problem with this approach is that it requires the use of multiple microphones for current speaker determination. The use of multiple microphones usually makes the distinction between current speakers difficult because of microphones in close proximity to each other, and also due to echoes and external noise in confined spaces or spaces with partitions and objects. . In addition, the disclosed method does not effectively prevent the undesirable effects of continuous camera operation between two speakers in close proximity to one another.
따라서, 자동 비디오 회의 기술(art)에 있어서, 선행 기술의 기법이 지닌 상기 단점을 극복하는, 자동 카메라가 촛점을 맞출 현재의 화자 결정 방법이 필요하다.Therefore, in automatic video conferencing art, there is a need for a current speaker determination method that an automatic camera will focus on, overcoming the above drawbacks of prior art techniques.
본 발명은 일반적으로, 비디오 회의 시스템에서 사용되는 비디오 추적 시스템과 같이, 자동 겨냥 시스템 분야에 관한 것이다.The present invention generally relates to the field of automatic targeting systems, such as video tracking systems used in video conferencing systems.
도 1은 본 발명의 일 실시예의 적용에 대한 구상도(figurative representation).1 is a figurative representation of the application of one embodiment of the present invention.
도 2는 본 발명의 일 실시예의 기능적 블록도.2 is a functional block diagram of one embodiment of the present invention.
도 3은 도 2의 실시예를 구현하는데 쓰일 수 있는 제어 알고리즘을 설명하는 흐름도.3 is a flow diagram illustrating a control algorithm that may be used to implement the embodiment of FIG.
본 발명은 독립항으로 한정되는 한편, 종속항은 유리한 실시예를 한정한다.The invention is defined in the independent claims, while the dependent claims define advantageous embodiments.
간략하게 말하면, 시스템은 여러 가능한 소리 소스에서 흘러 나오는 소리에반응하여 타겟이 될 디바이스를 겨냥한다. 예를 들면, 상기 시스템은 이를테면 회의나 토론에서 비디오 카메라나 조명(light)을 현재의 화자에 겨냥하는데 사용될 수 있다. 제어 시스템은 새로운 소리 소스에서 나오는 연속적인 소리 방출의 지속 기간과 현재의 타겟 및 새로운 소리 소스 간의 각도 차이에 반응한다. 각각이 임계치를 초과하면, 카메라는 재 겨냥될 것이다. 소리는 (숨쉴 때와 같이) 짧은 짬이 연속적인 음성 안에서 중단으로서 반응되지 않도록 완벽히 연속적이어야 할 필요는 없다.In short, the system targets the device to be targeted in response to sound flowing from several possible sound sources. For example, the system can be used to target a video camera or light to the current speaker, such as in a meeting or discussion. The control system responds to the duration of continuous sound emission from the new sound source and the angle difference between the current target and the new sound source. If each exceeds the threshold, the camera will be aimed again. The sound does not have to be perfectly continuous so that short shocks (such as when breathing) do not react as interruptions in the continuous voice.
시스템은 화자와 같은 현재의 오디오 소스를 한 그룹의 소리 소스 중에서 결정하여, 카메라나 조명과 같은 디바이스의 제어를 가능하게 한다. 상기 시스템은 새로운 소리 소스를 포착하기 전에 두 가지 기준을 부과하는데, 첫째는, 미리 결정된 구간 동안 소리 소스가 실질적으로 연속적이어야 한다는 것이고, 둘째는 소리 소스가, 디바이스가 겨냥된 쪽의 현재 좌표와 실질적으로 다른 위치 좌표(겨냥될 디바이스에 대한 각도)를 가져야 한다는 것이다. 비디오 회의 상황에서, 이것은 새로운 화자와 이전의 화자 간의 각도 간격이 임계치를 초과할 때에만 그리고 새로운 화자가 최소의 시간 기간 동안 연속적으로 말할 때에만 이전의 화자로부터 새로운 화자로 변경하게 된다.The system determines the current audio source, such as the speaker, from a group of sound sources, allowing control of devices such as cameras and lights. The system imposes two criteria before capturing a new sound source, firstly that the sound source must be substantially continuous for a predetermined interval, and secondly that the sound source is substantially equal to the current coordinate of the side the device is aimed at. In other words, they must have different positional coordinates (angle with respect to the device to be targeted). In a video conferencing situation, this will change from the previous speaker to the new speaker only when the angular interval between the new speaker and the previous speaker exceeds the threshold and only when the new speaker speaks continuously for a minimum period of time.
상기 접근법은 소리 변환기(sound transducer), 이를테면, WO-A-99/27522(대리인 관리 번호 PHN 16.638)에 설명된 것을 이용해 구현될 수 있다. 상기 변환기는 소리 전력 레벨{RMS 또는 임의의 다른 적합한 지시기(indicator)} 및 현재의 소리 소스의 좌표를 표시하는 좌표 신호를 생성한다. 상기 기능을 달성하기 위한 제어는이하의 절차에 의해 획득될 수 있다:This approach can be implemented using a sound transducer, such as that described in WO-A-99 / 27522 (Agent No. PHN 16.638). The transducer generates a coordinate signal indicative of the sound power level (RMS or any other suitable indicator) and the coordinates of the current sound source. Control to achieve this function can be obtained by the following procedure:
- 만약 소리 변환기에 의해 생성된 소리 소스의 현재의 좌표가 현재의 타겟을 나타내는 좌표와 최소한의 각도 임계치만큼 다르다면, 현재의 좌표를 타겟 포착용 후보로 식별하기.If the current coordinates of the sound source generated by the sound transducer differ from the coordinates representing the current target by a minimum angle threshold, identifying the current coordinates as candidates for target capture.
- 만약 현재의 순간 좌표가 명시된(specified) 구간 동안 주어진 범위 내에 머무른다면(즉, 일정한 소리 소스를 구성하는 것으로 간주되는 임계치 너머로 변화하지 않는다면), 새로운 타겟을 포착하여 현재의 타겟을 나타내는 좌표로서 상기 후보의 좌표를 저장하기.If the current instantaneous coordinates remain within a given range for a specified period (i.e. they do not change beyond the threshold considered to constitute a constant sound source), then the coordinates representing the current target are captured and Save the coordinates of the candidate.
잠시의 중단, 이를테면, 간헐적인 호흡과 짬(pause)이 있는 음성이 연속적인 음성에서 공백(gap)으로 반응되지 않는 것을 보증하기 위하여, 저역 통과(low pass) 필터와, 시간-래치(latch) 또는 다른 필터 메커니즘이 사용되어 소리 전력 레벨 신호에 적용될 수 있다.Low pass filters, time-latch, to ensure that intermittent breathing and voice with pauses do not react as a gap in the continuous voice. Alternatively, other filter mechanisms can be used to apply the sound power level signal.
시간 임계치 필요 요건을 참작하기 위하여, 후보 화자가 지속적으로 말하는 동안의 시간 구간은(상기 저역 필터에 의해 필터링 된 바와 같이) 이어서 축적되고, 미리 결장된 시간 임계치와 끊임없이 비교된다. 일단, 연속적인 담화(speech)에 있어서의 중단(break)이나 방향 좌표에서의 변화가 없이{허용오차(tolerance)의 범위 내에서} 타이머가 시간 임계치에 도달하면, 후보 화자는 현재 화자가 되며, 디바이스, 예컨대 카메라와 조명이 그에 따라 겨냥된다.In order to take into account the time threshold requirements, the time periods during which the candidate speaker is continuously speaking (as filtered by the low pass filter) are then accumulated and constantly compared with the previously missing time threshold. Once the timer reaches the time threshold (within tolerance), without a break in successive speech or a change in direction coordinates, the candidate speaker becomes the current speaker, Devices such as cameras and lights are aimed accordingly.
또 다른 적용 예에서, 본 발명은 조명, 이를테면 스포트라이트(spot light)를 화자나 행위자와 같은 소리 소스에 겨냥하는 데 사용될 수 있다.In another application, the present invention can be used to target lighting, such as spot lights, to sound sources such as speakers or actors.
이제 도 1 및 도 2를 참조하면, 소리 변환기(1)는 화자(6B)에게서 나오는 신호를 수신하여 소리 전력 레벨(RMS 또는 그와 유사한 것)과 방향 둘 모두를 표시하는 출력을 생성한다. 상기 소리 전력 레벨 신호는 저역 통과 필터(19)로 인가되어 순간적이고(transient) 짧은 저 레벨을 제거한다. 이어서, 상기 필터링된 소리 전력 레벨 신호는 임계치 검출기(20)(예컨대, 비교기)에 인가되어, 오디오 소스{화자(6B)}의 소리 전력이 시간 상에서 주어진 한 때에 특정 레벨보다 클지 작은 지의 여부를 표시하는 (시간에 대한)단일의 비트 신호를 생성한다.Referring now to FIGS. 1 and 2, the sound converter 1 receives a signal from the speaker 6B to produce an output indicating both sound power level (RMS or the like) and direction. The sound power level signal is applied to a low pass filter 19 to remove transient and short low levels. The filtered sound power level signal is then applied to threshold detector 20 (e.g., comparator) to indicate whether the sound power of the audio source {speaker 6B} is greater or less than a certain level at any given time. Generates a single bit signal (for time).
임계치 검출기(20)의 출력은 각도 연산기(21)로 인가되는데, 상기 각도 연산기(21)는 소리 변환기(1)로부터 방향 신호 역시 수신한다. 상기 각도 연산기는 현재의 소리 소스의 방향을 표시하는 벡터를 출력하고는 그것을 위치 제어기(22)로 인가한다. 상기 임계치 검출기(20)의 출력은 상기 방향 신호로부터 연산된 각도로 곱해지기 때문에, 만약 임계치가 낮다면 각도 연산기(21)의 출력은 제로(null) 벡터이며, 만약 임계치가 낮지 않다면, 비-제로 방향 벡터이다.The output of the threshold detector 20 is applied to an angle calculator 21, which also receives a direction signal from the sound transducer 1. The angle calculator outputs a vector indicating the direction of the current sound source and applies it to the position controller 22. Since the output of the threshold detector 20 is multiplied by the angle calculated from the direction signal, if the threshold is low the output of the angle calculator 21 is a null vector, and if the threshold is not low, it is non-zero. Direction vector.
위치 제어기(22)는 위치 작동기(actuator)(23)를 제어하여 카메라(4)를 조준하는 과정을 끊임없이 수행한다. 위치 제어기(22)에 의해 수행된 상기 과정의 결과는 지정된 소리 소스에 대해 계속되는 포착이다. 만약 화자(6B)가 어느 시간 기간 동안 침묵하고, 화자(6A)는 다음 기간 동안 계속 말한다면, 카메라(4)는 또 다른 화자가 인계 받을 때까지 후자의 화자(6A)에 겨냥되어 있을 것이다.The position controller 22 constantly performs the process of aiming the camera 4 by controlling the position actuator 23. The result of the process performed by the position controller 22 is a subsequent acquisition for the specified sound source. If the speaker 6B is silent for a period of time, and the speaker 6A continues to speak for the next period, the camera 4 will be aimed at the latter speaker 6A until another speaker takes over.
저역 통과 필터(19)는 연속적인 담화이지만, 한편으로는 잠시의 짬이 있을 때 신호 변화를 피하게 하는 일반적인 과정이다. 저역 통과 필터는 일반적인 설명(description)인 것으로 의도되며 디지털 또는 아날로그 신호에 대한 디지털 과정일 수도 있다. 상기 저역 통과 필터는 수치적 저역 통과 필터 또는 짧은 짬은 건너뛰는 시간-지연 과정 또는 디바이스(예컨대, 타이머가 있는 래치) 또는 임의의 다른 적합한 과정일 수 있다. 상기 임계치 검출기(20)와 비슷하다. 후자는 아날로그 디바이스 또는 디지털 과정일 수 있다. 상기 저역 통과 필터, 임계치 검출기, 및 각도 연산기(19-21)의 기능은 단일의 알고리즘이나 다중의 스레드(thread)로 상기 모든 과정을 수행하는 단일의 프로세서 디바이스에 의해 수행될 수도 있다. 즉, 상기 설명은 순수히 기능적인 것으로 의도되며, 과정들을 별도의 하드웨어나 심지어 소프트웨어 구성 요소로 나누고자 하는 의도는 아니다.The low pass filter 19 is a continuous discourse, but on the one hand it is a general procedure to avoid signal changes when there is a brief delay. The low pass filter is intended to be a general description and may be a digital process on a digital or analog signal. The low pass filter may be a numerical low pass filter or a short short skipping time-delay process or device (eg, a latch with a timer) or any other suitable process. Similar to the threshold detector 20. The latter can be an analog device or a digital process. The functions of the low pass filter, threshold detector, and angle calculator 19-21 may be performed by a single processor device that performs all of the above in a single algorithm or multiple threads. That is, the description is intended to be purely functional and is not intended to divide the processes into separate hardware or even software components.
이제, 도 3을 참조하면, 본 발명을 구현하는데 사용될 수 있는 제어 알고리즘은 새로운 오디오 신호(V)의 수신과 함께 시작한다. 일단 오디오 신호(V)가 단계(9)에서 비제로(nonzero)가 되면, 루프 (9-9)를 빠져 나와 제어는 단계(10)로 넘어간다. 새로운 오디오 신호의 각도 위치는 현재의 화자(S) 메모리(10)에 저장된다. 이어서, 카메라는 단계(11)에서 현재의 화자(S)에 준하여 겨냥된다. 현재의 화자(S) 벡터와 그 순간의 오디오 소스(V) 벡터{각도 연산기(21)의 출력} 간의 각도 차이는 단계(12)에서 연산되며, 만약 그 순간의 오디오 소스(V)가 비제로이고, 상기 차이가 임계치를 초과한다면(|S-V|>TA), 제어는 단계(13)로 넘어간다. 만약 상기 차이가 임계치를 초과하지 않는다면, 제어 흐름은 루프(12-12)에서 대기한다. 단계(13)에서, 그 순간의 오디오 소스(V) 벡터는 후보 오디오 소스에 대응하는 메모리에 저장된다. 그리고 나서, 타이머는 리셋(reset)되고 단계(14)에서 시작된다. 이어서, 제어 흐름 루프(15-16)가 나오는데,Referring now to FIG. 3, a control algorithm that can be used to implement the present invention begins with the reception of a new audio signal (V). Once the audio signal V is nonzero in step 9, it exits loop 9-9 and control passes to step 10. The angular position of the new audio signal is stored in the current speaker (S) memory 10. Subsequently, the camera is aimed in accordance with the current speaker S in step 11. The angle difference between the current speaker S vector and the audio source V vector at that moment (the output of the angle calculator 21) is calculated in step 12, if the audio source V at that moment is nonzero. If the difference exceeds the threshold (| SV |> T A ), control passes to step 13. If the difference does not exceed the threshold, the control flow waits in loop 12-12. In step 13, the audio source V vector at that moment is stored in a memory corresponding to the candidate audio source. The timer is then reset and started at step 14. Subsequently, a control flow loop 15-16 emerges,
1. 그 순간의 오디오 소스(V) 벡터가 제로가 될 때{단계(15)};1. when the audio source V vector at that moment becomes zero (step 15);
2. 그 순간의 오디오 소스(V) 벡터와 후보(C) 벡터 간의 차이|C-V|가 임계치 TK아래일 때{단계(15)}; 또는2. When the difference | CV | between the audio source V vector and the candidate C vector at that moment is below the threshold T K (step 15); or
3. 타이머가 타임 아웃될 때{단계(16)};3. When the timer times out (step 16);
상기 제어 흐름 루프(15-16)를 빠져 나간다.Exit the control flow loop 15-16.
만약 타이머가 타임 아웃되면, 제어는 단계(17)로 넘어가서, 후보(C) 벡터가 현재의 화자(S)에 대응하는 메모리에 저장되고, 카메라는 단계(17)에서 재겨냥된다. 만약 단계(15)에서 어느 조건도 충족되지 않으면, 루프를 빠져 나가 단계(12)로 간다.If the timer times out, control passes to step 17 where the candidate C vector is stored in a memory corresponding to the current speaker S and the camera is retargeted at step 17. If neither condition is met in step 15, it exits the loop and goes to step 12.
도시되고 상기 설명된 특정 실시예가, 팬-틸트-줌 카메라를 사용하여 비디오 회의할 목적으로 화자 바뀜을 결정하는 데 유용한 것으로 증명이 된 한편, 본 명세서 안에 개시된 본 발명의 추가 변경은 본 발명이 속한 분야의 당업자 머리 속에 떠오를 것이며, 그러한 모든 변경은 첨부된 청구 범위로 한정된 본 발명의 범위 안에 있는 것으로 간주한다.While the particular embodiments shown and described above have proven useful for determining speaker switching for the purpose of video conferencing using a pan-tilt-zoom camera, further modifications of the invention disclosed herein are intended to encompass the present invention. As those skilled in the art will appreciate, all such changes are considered to be within the scope of the invention as defined by the appended claims.
청구 범위에서, 괄호 내의 임의의 참조 부호는 청구 범위를 한정하는 것으로 해석되지는 않을 것이다. 단어 "포함하는"는 청구 범위에 기재된 요소나 단계 이외의 요소나 단계가 존재하는 것을 배제하지 않는다. 요소에 선행하는 단수적 표현은 그러한 요소가 복수 존재할 것을 배제하지 않는다. 본 발명은 수 개의 별개 요소를 포함하는 하드웨어에 의해서, 그리고 적절히 프로그래밍 된 컴퓨터에 의해서 구현될 수 있다. 수 개의 수단을 열거하는 장치 청구항에서, 이들 수단 중 수 개는 하나로써 그리고 하드웨어의 같은 품목으로써 구현될 수 있다. 상호 서로 다른 종속 청구 범위에 특정 조치가 기술된 단순한 사실은 이들 조치의 조합이 유리하게 사용될 수 없다고 나타내지는 않는다.In the claims, any reference signs placed between parentheses shall not be construed as limiting the claim. The word "comprising" does not exclude the presence of elements or steps other than those described in the claims. The singular expression preceding the element does not exclude the presence of a plurality of such elements. The invention can be implemented by means of hardware comprising several distinct elements, and by means of a suitably programmed computer. In the device claim enumerating several means, several of these means may be embodied as one and the same item of hardware. The simple fact that specific measures are described in different mutually dependent claims does not indicate that a combination of these measures cannot be used to advantage.
상술한 바와 같이, 본 발명은 일반적으로, 비디오 회의 시스템에서 사용되는 비디오 추적 시스템과 같이, 자동 겨냥 시스템 분야에 이용된다.As mentioned above, the present invention is generally used in the field of automatic targeting systems, such as video tracking systems used in video conferencing systems.
Claims (16)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63066400A | 2000-08-01 | 2000-08-01 | |
US09/630,664 | 2000-08-01 | ||
PCT/EP2001/008295 WO2002011438A1 (en) | 2000-08-01 | 2001-07-17 | Aiming a device at a sound source |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20020033829A true KR20020033829A (en) | 2002-05-07 |
Family
ID=24528077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020027003981A KR20020033829A (en) | 2000-08-01 | 2001-07-17 | Aiming a device at a sound source |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1308039A1 (en) |
JP (1) | JP2004505560A (en) |
KR (1) | KR20020033829A (en) |
CN (1) | CN1386371A (en) |
WO (1) | WO2002011438A1 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4829696B2 (en) * | 2006-06-19 | 2011-12-07 | 日本電信電話株式会社 | Conversation support system |
CN101937199A (en) * | 2010-03-25 | 2011-01-05 | 中国计量学院 | Stage performance personnel light automatic tracking technology and implementation thereof |
CN103891271B (en) * | 2011-10-18 | 2017-10-20 | 统一有限责任两合公司 | Method and apparatus for providing the data produced in a meeting |
EP2882180A4 (en) * | 2013-09-29 | 2015-10-14 | Zte Corp | Control method, control apparatus and control device |
CN103595953B (en) * | 2013-11-14 | 2017-06-20 | 华为技术有限公司 | A kind of method and apparatus for controlling video capture |
CN104697119B (en) * | 2015-03-24 | 2017-07-04 | 广东美的制冷设备有限公司 | A kind of air-conditioning self adaptation air supply method and controller |
CN106205628B (en) | 2015-05-06 | 2018-11-02 | 小米科技有限责任公司 | Voice signal optimization method and device |
CN104835359A (en) * | 2015-05-14 | 2015-08-12 | 韩凤英 | Remote teaching auxiliary device |
CN109710080B (en) * | 2019-01-25 | 2021-12-03 | 华为技术有限公司 | Screen control and voice control method and electronic equipment |
CN113676687A (en) * | 2021-08-30 | 2021-11-19 | 联想(北京)有限公司 | Information processing method and electronic equipment |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2148631C (en) * | 1994-06-20 | 2000-06-13 | John J. Hildin | Voice-following video system |
US6593956B1 (en) * | 1998-05-15 | 2003-07-15 | Polycom, Inc. | Locating an audio source |
-
2001
- 2001-07-17 EP EP01956545A patent/EP1308039A1/en not_active Withdrawn
- 2001-07-17 KR KR1020027003981A patent/KR20020033829A/en not_active Application Discontinuation
- 2001-07-17 CN CN01802205A patent/CN1386371A/en active Pending
- 2001-07-17 WO PCT/EP2001/008295 patent/WO2002011438A1/en not_active Application Discontinuation
- 2001-07-17 JP JP2002515833A patent/JP2004505560A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2004505560A (en) | 2004-02-19 |
WO2002011438A1 (en) | 2002-02-07 |
EP1308039A1 (en) | 2003-05-07 |
CN1386371A (en) | 2002-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9693017B2 (en) | Automatic switching between different cameras at a video conference endpoint based on audio | |
US4581758A (en) | Acoustic direction identification system | |
US5778082A (en) | Method and apparatus for localization of an acoustic source | |
JP2003532348A (en) | Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications | |
US20170041556A1 (en) | Video processing apparatus, method, and system | |
US9030520B2 (en) | Automatic camera selection for videoconferencing | |
KR20020033829A (en) | Aiming a device at a sound source | |
US20020140804A1 (en) | Method and apparatus for audio/image speaker detection and locator | |
CN110808048A (en) | Voice processing method, device, system and storage medium | |
JP2005086365A (en) | Talking unit, conference apparatus, and photographing condition adjustment method | |
JP2005057398A (en) | Speech unit | |
KR20040011443A (en) | Automatic multi-camera video composition | |
AU6308799A (en) | Locating an audio source | |
JP2004343262A (en) | Microphone-loudspeaker integral type two-way speech apparatus | |
JP2005184386A (en) | Sound collecting/video recording device | |
JPH06351015A (en) | Image pickup system for video conference system | |
JP2011066668A (en) | Echo canceler, echo canceling method, and program of echo canceler | |
US11460927B2 (en) | Auto-framing through speech and video localizations | |
KR20140112552A (en) | High dynamic range microphone system | |
JPH05111020A (en) | Picture switching control device for video conference | |
JP4479227B2 (en) | Audio pickup / video imaging apparatus and imaging condition determination method | |
CN111903194A (en) | System and method for enhancing voice commands using connected lighting systems | |
JP5173861B2 (en) | Imaging apparatus and control method thereof | |
JP2005151042A (en) | Sound source position specifying apparatus, and imaging apparatus and imaging method | |
JP2005086363A (en) | Calling device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |