KR100943224B1 - An intelligent robot for localizing sound source by frequency-domain characteristics and method thereof - Google Patents
An intelligent robot for localizing sound source by frequency-domain characteristics and method thereof Download PDFInfo
- Publication number
- KR100943224B1 KR100943224B1 KR1020070104131A KR20070104131A KR100943224B1 KR 100943224 B1 KR100943224 B1 KR 100943224B1 KR 1020070104131 A KR1020070104131 A KR 1020070104131A KR 20070104131 A KR20070104131 A KR 20070104131A KR 100943224 B1 KR100943224 B1 KR 100943224B1
- Authority
- KR
- South Korea
- Prior art keywords
- sound source
- tracking
- robot
- delay time
- angles
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims 6
- 230000002045 lasting effect Effects 0.000 claims 2
- 238000010187 selection method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000004836 empirical method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/08—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/02—Sensing devices
- B25J19/027—Electromagnetic sensing devices
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Manipulator (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명은 다채널 음원보드와 마이크가 장착된 지능형 로봇에서 주파수영역 특성을 이용하여 마이크 간의 지연시간 값과 이들로부터 위치 추적각도를 구하는 방법에 관한 것으로, 음원 추적이 가능한 지능형 로봇은 다채널 음원보드와 마이크를 통해 음성을 취득하는 음성데이터 취득부, 각 마이크로 취득된 음성으로부터 주파수 영역에서의 GCC(Generalized Cross-Correlation)-PHAT(Phase Transform) 기반 음원추적 방법을 이용해 지연시간 값을 구하는 지연시간 처리부, 마이크 간의 지연시간으로부터 후보되는 여러 추적 각도들을 계산하고 이들로부터 신뢰성 있는 추적각도를 추정하는 추적각도 처리부, 추적각도로부터 호출자를 향해 로봇이 회전하는 로봇 구동부를 포함한다. 즉, 본 발명에서는 음원추적장치의 성능척도로써 카메라의 FOV(Field Of View)범위에 의한 추적성공률과 이들의 평균추적오차를 이용하며, 잡음환경이나 반향을 가지는 환경과 근거리 및 원거리(5m 이내)에서 높은 음원추적 성능을 보인다. The present invention relates to a method for obtaining a delay time value between microphones and a location tracking angle from the microphones using frequency domain characteristics in an intelligent robot equipped with a multi-channel sound board and a microphone. Voice data acquisition unit for acquiring voice through a microphone and a delay time processing unit for obtaining a delay time value using a GCC (Generalized Cross-Correlation) -PHAT (Phase Transform) based sound source tracking method in the frequency domain It includes a tracking angle processor for calculating candidate tracking angles from the delay time between the microphones and estimating reliable tracking angles from them, and a robot driving unit for rotating the robot toward the caller from the tracking angles. That is, in the present invention, the tracking success rate by the field of view (FOV) range of the camera and the average tracking error thereof are used as the performance measure of the sound source tracking device, and the environment having noisy or echo, near and far (within 5m) Shows high soundtrack performance.
지능형 로봇, 음원추적, GCC-PHAT, FOV , 추적성공률 Intelligent Robot, Sound Source Tracking, GCC-PHAT, FOV, Tracking Success Rate
Description
본 발명은 지능형 로봇에서 임의의 위치에서 발생한 음원의 방향을 추적하는 방법에 관한 것으로, 특히, 다채널 음원보드와 마이크가 장착된 지능형 로봇에서 주파수영역 특성을 이용하여 마이크간의 지연시간 값과 이들로부터 위치 추적각도를 구하도록 함으로써, 호출자가 어떤 방향(각도)에서 로봇을 호출했는지를 정확히 인지할 수 있도록 하는 음원 추적이 가능한 지능형 로봇 및 이를 이용한 음원 추적 방법에 관한 것이다. The present invention relates to a method for tracking the direction of a sound source generated at an arbitrary position in an intelligent robot, and in particular, the delay time value between microphones and the delay time between the microphones using frequency domain characteristics in an intelligent robot equipped with a multi-channel sound board and a microphone. The present invention relates to an intelligent robot capable of tracking a sound source and a sound source tracking method using the same, by obtaining a location tracking angle so that a caller can accurately recognize in which direction (angle) the robot is called.
본 발명은 정보통신부의 IT신성장동력핵심기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2005-S-033-03, 과제명 : URC를 위한 내장형 컴포넌트 기술개발 및 표준화].The present invention is derived from a study conducted as part of the IT new growth engine core technology development project of the Ministry of Information and Communication [Task management number: 2005-S-033-03, Task name: Development and standardization of embedded component technology for URC].
현재까지, 로봇 환경에서 음원추적기술은 2개의 마이크부터 여러 개의 마이 크를 이용하고 있으며, 특히 2개의 경우에는 휴머노이드 로봇에서 많이 사용되고 있다. 그러나 2개의 마이크를 이용할 경우 로봇의 모든 방향에서 음원추적이 가능하지 않고 0∼180도 사이에서만 음원 추적이 가능하다. 즉, 로봇의 앞과 뒤를 구별할 수 없는 단점과 함께 0도와 180도 부근에서는 특성상 많은 오류를 포함하고 있다. Until now, sound tracing technology has been used from two microphones to several microphones in robot environment, especially in humanoid robots in two cases. However, when two microphones are used, sound tracking is not possible in all directions of the robot, and sound tracking is possible only between 0 and 180 degrees. In other words, the front and rear of the robot can not be distinguished, and many errors are included in the vicinity of 0 degree and 180 degree.
한편, 2차원적인 방향뿐만 아니라 고도를 고려한 3차원의 음원추적에 관한 연구도 많이 진행되고 있다. 하지만, 지능형 서비스 로봇에서는 일반적으로 3차원보다는 2차원적인 정보를 이용한다. 또한, 음원으로써 박수소리, 로봇호칭 등이 일반적으로 사용되고 있으며, 인간 친화적인 음원으로 로봇호칭과 같은 음성에 좀 더 많이 사용되고 있다. On the other hand, a lot of research on the three-dimensional sound source tracking considering the altitude as well as the two-dimensional direction. However, intelligent service robots generally use two-dimensional information rather than three-dimensional information. In addition, as a sound source, claps, robots, and the like are generally used, and human-friendly sound sources are used more and more in voices, such as robots.
지능형 로봇에서 모든 방향의 음원을 추적하기 위해서는 적어도 3개 이상의 마이크가 필요하며, 이런 경우 마이크 간 지연시간으로부터 신뢰성 있는 음원추적 각도를 구하는 방법이 필요하다. 강도 기반에 의한 음원추적의 경우 강도가 큰 두 개의 신호로부터 얻어진 지연시간을 가지고 음원추적 각도를 계산하는 방법이 있지만, 이는 음원보드와 마이크의 정확한 이득(gain)을 맞추기가 어려운 단점을 가지고 있다. 또한, 마이크 간 지연시간 값의 양수 혹은 음수 정보로부터 경험적인 방법에 의해 마이크 간 구간을 선택한 후 선택된 구간으로부터 추적 각도를 구하는 방법이 있으나, 이 또한, 경험적인 방법에 의한 것이기 때문에 신뢰성 있는 추적각도를 구하기가 어려운 문제점을 가지고 있다. In order to track sound sources in all directions in an intelligent robot, at least three microphones are required, and in this case, a method of obtaining a reliable sound source tracking angle from the delay time between microphones is required. In the case of the sound source tracking based on the intensity, there is a method of calculating the sound source tracking angle with the delay time obtained from the two high intensity signals, but it has a disadvantage in that it is difficult to match the accurate gain of the sound source board and the microphone. In addition, there is a method of selecting a section between microphones by empirical method from the positive or negative information of the delay time value between microphones, and then obtaining a tracking angle from the selected section. However, since this is an empirical method, a reliable tracking angle is obtained. There is a problem that is difficult to obtain.
따라서 본 발명은 종래 지능형 로봇에서 음원의 방향을 추적하는데 있어 발생하는 문제점을 해결하기 위해 안출된 것으로, 본 발명의 제 1목적은, 경험적인 구간선택방법이 아닌 구간 선택방법 없이 마이크 간 지연시간 값들로부터 직접적으로 신뢰성 있는 추적각도를 추정하는데 있다. 이를 위해 마이크 간 지연시간 값들로부터 후보되는 여러 개의 추적각도를 구할 수 있는데, 이들 각도 중에서 제일 유사한 두 개의 각도를 구하고 평균을 취함으로써 추적각도를 추정하는 방법이 사용되어진다. 또한 본 발명의 제2 목적은, 일반적으로 시간영역에서의 시간지연방법이 사용하지만, 로봇환경에 적합한 주파수 영역에서의 일반화된 상호상관관계(GCC: Generalized Cross-Correlation)기반의 음원추적을 제공하는데 있다. 좀 더 구체적으로 잡음환경과 반향에 강인한 GCC-PHAT (Phase Transform)방법이 사용되어진다.Therefore, the present invention has been made to solve the problem occurring in tracking the direction of the sound source in the conventional intelligent robot, the first object of the present invention, the delay time between microphones without the section selection method, not the empirical section selection method It is to estimate reliable tracking angle directly from. For this purpose, several tracking angles can be obtained from the delay time values between microphones. A method of estimating the tracking angle is obtained by calculating and averaging two most similar angles among these angles. A second object of the present invention is to provide a sound source tracking based on generalized cross-correlation (GCC) in a frequency domain suitable for a robot environment, although a time delay method in a time domain is generally used. have. More specifically, the GCC-PHAT (Phase Transform) method, which is robust against noise environments and echoes, is used.
상술한 본 발명은 음원 추적이 가능한 지능형 로봇으로서, 로봇이 위치한 일정 영역내 임의의 방향으로부터 음성신호 발생 시 다채널 마이크간 음성신호의 시간지연 값을 계산하여 상기 음성신호가 발생한 음원의 방향 각도를 추적하는 음원 추적부와, 상기 음원 추적부로부터 추적된 각도로 상기 로봇의 방향을 회전시키는 로봇 구동부와, 상기 음원 추적부를 통해 계산된 상기 음원의 방향 각도를 상기 로봇 구동부로 인가하여 상기 로봇이 상기 음원의 방향으로 회전하도록 제어하는 로 봇 제어부를 포함한다. The present invention described above is an intelligent robot capable of tracking a sound source, and calculates a time delay value of a voice signal between multi-channel microphones when a voice signal is generated from any direction within a certain area where the robot is located, thereby determining the direction angle of the sound source where the voice signal is generated. The robot is configured to apply a sound source tracking unit for tracking, a robot driver for rotating the direction of the robot at an angle tracked from the sound source tracking unit, and a direction angle of the sound source calculated through the sound source tracking unit to the robot driver. It includes a robot controller for controlling to rotate in the direction of the sound source.
이때, 상기 음원 추적부는, 상기 다채널 마이크와 음원보드를 통해 상기 음원으로부터 발생되는 음성신호를 취득하는 음성 데이터 취득부와, 상기 취득된 음성신호에 대해 주파수 영역에서의 상호 상관관계를 기반으로 상기 다채널 마이크간 음성신호의 지연시간 값을 계산하는 지연시간 계산부와, 상기 마이크간 음성신호 지연시간 값을 이용하여 기하학적 방법에 근거하여 상기 음원의 방향 각도를 추정하는 추적각도 처리부를 포함하는 것을 특징으로 한다.At this time, the sound source tracking unit, the voice data acquisition unit for acquiring the voice signal generated from the sound source through the multi-channel microphone and the sound source board, and based on the cross correlation in the frequency domain with respect to the acquired voice signal A delay time calculating unit for calculating a delay time value of a multi-channel microphone voice signal, and a tracking angle processor for estimating a direction angle of the sound source based on a geometric method using the voice signal delay time between microphones. It features.
또한, 상기 지연시간 계산부는, 상기 다채널 마이크로부터 얻어진 각 음성신호에 대해 각각 푸리에 변환을 수행하여 가중치 함수 값을 구한 후, 이를 이용하여 상기 음성신호들간 상호 상관값을 계산하여 음성신호들간 지연시간을 계산하는 것을 특징으로 한다.
또한 본 발명은 지능형 로봇에서 음원을 추적하는 방법으로서, (a)다채널 마이크와 음원 보드를 통해 임의의 방향 음원으로부터 발생된 음성신호를 수신하는 단계와, (b)상기 다채널 마이크로 수신된 음성신호들에 대한 주파수 영역에서의 상호상관관계를 기반으로 각 음성신호의 지연시간을 산출하는 단계와, (c)상기 음성신호들간 지연시간 정보를 이용하여 상기 음원의 방향 각도를 산출하는 단계와, (d)상기 음원의 방향 각도로 향하도록 로봇을 회전시키는 단계를 포함하되,
상기 (b)단계는,(b1)상기 다채널 마이크로부터 얻어진 각 음성신호에 대해 각각 푸리에 변환을 수행하여 주파수 가중치 함수 값을 구하는 단계와, (b2)상기 음성신호들간 가중치 함수값을 이용하여 상기 음성신호들간 상호 상관값을 계산하는 단계와, (b3)상기 계산된 상관값의 피크점을 찾아 상기 음성신호들간 상호 지연시간을 산출하는 단계를 포함하는 것을 특징으로 한다.In addition, the delay time calculating unit performs Fourier transform on each of the speech signals obtained from the multi-channel microphone to obtain a weight function value, and then calculates a cross-correlation value between the speech signals using the delay time between the speech signals. It is characterized by calculating.
The present invention also provides a method for tracking a sound source in an intelligent robot, comprising the steps of: (a) receiving a voice signal generated from an arbitrary direction sound source through a multi-channel microphone and a sound source board, and (b) voice received from the multi-channel microphone. Calculating a delay time of each voice signal based on the correlation in the frequency domain with respect to the signals; (c) calculating a direction angle of the sound source using the delay time information between the voice signals; (d) rotating the robot to face the direction angle of the sound source,
In the step (b), (b1) performing a Fourier transform on each voice signal obtained from the multi-channel microphone to obtain a frequency weighting function value, and (b2) using the weighting function value between the voice signals. Calculating a cross-correlation value between voice signals; and (b3) calculating a mutual delay time between the voice signals by finding peak points of the calculated correlation values.
본 발명에서는 지능형 로봇에서 음원추적을 수행하기 위해 3개의 마이크와 음원보드를 통해 로봇의 모든 방향에서 음원추적이 가능하도록 구현함으로써, 높은 추적성공률을 얻을 수 있는 이점이 있다. 또한, 주파수영역에서 GCC-PHAT방법을 이용함으로써 로봇환경에 강인한 음원추적을 수행할 수 있을 뿐만 아니라, 기존의 경 험적인 구간선택 방법 없이 직접적으로 신뢰성 있는 추적각도를 추정함으로써 높은 추적각도의 정확성을 취득할 수가 있으며, 근거리뿐만 아니라 원거리(5m이내)에서 로봇을 호출함으로써 로봇과 자연스럽게 상호작용을 수행할 수 있도록 하는 이점이 있다.In the present invention, by implementing the sound source tracking in all directions of the robot through the three microphones and the sound source board to perform the sound source tracking in the intelligent robot, there is an advantage that can obtain a high tracking success rate. In addition, by using the GCC-PHAT method in the frequency domain, not only can we perform sound source tracking robust to the robotic environment, but also estimate the high tracking angle accuracy by directly estimating the reliable tracking angle without the conventional empirical section selection method. It can be acquired, and there is an advantage of allowing the robot to naturally interact with the robot by calling the robot at a distance as well as at a distance (within 5 m).
이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. Hereinafter, with reference to the accompanying drawings will be described in detail the operating principle of the present invention. In the following description of the present invention, when it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. Terms to be described later are terms defined in consideration of functions in the present invention, and may be changed according to intentions or customs of users or operators. Therefore, the definition should be made based on the contents throughout the specification.
본 발명의 구체적인 핵심 기술요지를 살펴보면, 지능형 로봇에서 음원추적을 수행하기 위해 3개의 마이크와 음원보드를 통해 로봇의 모든 방향에서 음원추적이 가능하도록 구현하며, 주파수영역에서 GCC-PHAT방법을 이용함으로써 로봇환경에 강인한 음원추적을 수행할 수 있을 뿐만 아니라, 기존의 경험적인 구간선택 방법 없이 직접적으로 신뢰성 있는 추적각도를 추정하는 기술을 통해 본 발명에서 이루고자 하는 바를 쉽게 달성할 수 있다.Looking at the specific core technical gist of the present invention, in order to perform sound source tracking in an intelligent robot to implement the sound source tracking in all directions of the robot through the three microphones and the sound source board, by using the GCC-PHAT method in the frequency domain In addition to performing sound source tracking robust to the robot environment, it is easy to achieve the present invention through a technique of directly estimating a reliable tracking angle without a conventional empirical section selection method.
도 1은 본 발명의 실시 예에 따른 음원 추적이 가능한 지능형 로봇의 블록 구성을 도시한 것으로, 본 발명의 지능형 로봇(100)은 로봇이 위치한 일정 범위의 영역내 임의의 방향으로부터 발생된 음원을 추적하는 음원 추적부(102)와, 로봇 제어부(104)의 제어에 따라 음원 추적부(102)로부터 추적된 음원 방향으로 로봇의 방향을 회전시키는 로봇 구동부(106)를 포함한다. 1 is a block diagram of an intelligent robot capable of tracking sound sources according to an exemplary embodiment of the present invention, and the
이하 위 도 1을 참조하여 지능형 로봇의 음원 추적을 위한 각 구성 요소의 동작을 상세히 설명하기로 한다.Hereinafter, an operation of each component for sound source tracking of the intelligent robot will be described in detail with reference to FIG. 1.
먼저, 음원 추적부(102)는 음성 데이터 취득부(108)와, 지연시간 계산부(110), 추적각도 처리부(112)를 포함한다. 음성 데이터 취득부(108)는 다채널(3채널) 마이크와 음원보드를 통해 각 채널별 얻어지는 음성을 취득한다. 지연시간 계산부(110)는 상기 음성데이터 취득부(108)로부터 취득되는 음성신호로부터 주파수 영역에서의 GCC-PHAT 기반 음원추적 방법을 이용해 각 마이크별 음성신호의 지연시간 값을 계산한다. 추적각도 처리부(112)는 지연시간 계산부(110)를 통해 계산된 마이크 간의 지연시간으로부터 음원의 방향으로 예상되는 여러 개의 후보 추적 각도들을 계산하고 이들로부터 가장 신뢰성 있는 추적각도를 추정한다.First, the sound
로봇 제어부(104)는 추적각도 처리부(112)로부터 추정된 결과적인 추적각도를 로봇을 호출한 호출자에 의해서 음원이 발생한 방향으로 판단하고, 로봇 구동부(106)를 제어하여 음원의 방향으로 로봇이 회전하도록 하여 호출자의 호출에 대해 로봇이 반응하도록 제어하게 된다. 로봇 구동부(106)는 로봇 제어부(104)의 제어에 따라 구동되어 추적각도 처리부(112)로부터 추정된 결과적인 추적각도로 로봇 바퀴 회전 중심축으로부터 로봇(100)을 회전시켜 로봇이 호출자가 위치한 방향을 향하도록 한다.The
도 2는 본 발명의 실시 예에 따라 지능형 로봇에서 음원을 추적하는 동작 제어 흐름을 도시한 것이다. 이하 위 도 1 및 도 2를 참조하여 본 발명의 실시 예를 상세히 설명하기로 한다.2 illustrates an operation control flow for tracking a sound source in an intelligent robot according to an embodiment of the present invention. Hereinafter, an embodiment of the present invention will be described in detail with reference to FIGS. 1 and 2.
먼저, 지능형 로봇이 위치한 일정 범위의 영역 내에서 임의의 방향으로부터 예를 들어 호출자가 상기 로봇(100)을 호출하는 등의 원인으로 인해 음성신호가 발생하는 경우, 음원 추적부(102)내 음성 데이터 취득부(108)는 음원보드와 마이크로부터 각 채널별 음성신호를 취득한 후(S200), 상기 취득된 각 채널별 음성신호들에 대해 끝점 검출 알고리즘(Endpoint detection)을 이용하여 상기 시작점 및 끝점을 검출하여 음성을 검출한다(S202). 즉, 일반적으로 로봇호칭은 음성이 사용되기 때문에 검출된 음성신호가 적어도 0.5초 이상 유지되는 음성신호만을 받아들이고, 그 이하의 음성신호는 잡음으로 간주함으로써, 호출자의 음성신호를 검출하는 것이다.First, when a voice signal is generated from a certain direction within a range of areas where an intelligent robot is located, for example, by a caller calling the
위와 같이 음성 데이터 취득부(108)로부터 음성이 검출되는 경우 지연시간 계산부(110)는 음성 데이터 취득부(108)내 3개의 마이크로부터 얻어진 음성신호 각각에 대해 푸리에 변환(fourier transform)을 수행시킨 후(S204), 1번과 2번 마이크, 2번과 3번 마이크, 1번과 3번 마이크 간 일반화된 상호 상관관계(generalized cross-correlation : GCC)를 이용하여 피크점(peak point)을 찾아 지연시간 값을 구한다(S206). 이때 지연시간 값이 양수인 경우에는 기준 마이크보다 먼저 신호가 도달한 것이고, 음수인 경우에는 기준 마이크가 먼저 신호가 도달함을 의미한다.When the voice is detected from the voice
이어, 추적각도 처리부(112)는, 지연시간 계산부(110)로부터 계산된 상기 마이크 간 지연시간 값들을 이용하여 기존의 경험적인 구간선택 방법 없이 직접적으로 기하학적인 방법에 근거하여 후보 되는 여러 개의 추적각도를 얻어낸 후(S208), 이들 후보 추적각도들 중 음원의 방향에 가장 근사한 것으로 계산되는 두 개의 추적 각도를 구하고 이들의 평균을 취함으로써 결과적인 추적각도를 추정한다(S210).Subsequently, the
이어, 위와 같이 추적각도 처리부(112)로부터 음원의 방향이 추적되는 경우, 로봇 구동부(106)는 로봇 제어부(104)의 제어에 따라 추적각도 처리부(112)로부터 추정된 결과적인 추적각도로 로봇 바퀴 회전 중심축에 각도를 조정하고(S212), 상기 조정된 각도로부터 로봇 바퀴 회전 중심축을 회전시켜 로봇(100)이 호출자가 위치한 방향을 향하도록 한다(S214).Subsequently, when the direction of the sound source is tracked from the tracking
이하, 상기 도 2에서 음성신호간 지연시간 및 지연시간으로부터 추적각도를 산출하는 방법에 대해 해당 수학식을 이용하여 보다 상세히 살펴보기로 한다.Hereinafter, a method of calculating the tracking angle from the delay time and the delay time between voice signals will be described in detail with reference to FIG. 2.
하기의 [수학식1]은 두 개의 마이크에서 얻어진 음성신호 과사이의 일반화된 상호 상관관계(Rx1x2(n))를 나타낸다. 는 주파수 가중치 함수로써 의 역수이며 이 가중치 함수를 PHAT(Phase Transform)이라고 한다.
여기서, : 음성신호()의 주파수 영역값이며, : 음성신호()의 주파수 영역의 공액복소수값이다.here, : Voice signal ( ) Is the frequency domain of : Voice signal ( Is the conjugate complex value in the frequency domain of
이때 상기 PHAT은 시간지연을 추정함에 있어서 각 주파수의 상대적인 중요성을 결정하는 주파수에 종속된 가중치 된 함수이며, 하기의 [수학식 2]와 같이 표현되어진다.In this case, the PHAT is a weighted function depending on the frequency that determines the relative importance of each frequency in estimating the time delay, and is expressed as
이에 따라 지연 시간(τ)은 하기의 [수학식 3]과 같이 피크점을 갖는 값을 이용해 구해진다.Accordingly, the delay time tau is obtained by using a value having a peak point as shown in
이어, 위와 같이 GCC-PHAT 방법에 의해 지연시간이 구해지면, 이 지연시간값을 이용하여 음원의 방향에 대한 추적각도를 구하게 된다. 추적각도는 위 GCC-PHAT 방법에 의해 얻어진 지연시간 값으로부터 예비각도를 계산하여 구해지게 된다.Subsequently, when the delay time is obtained by the GCC-PHAT method as described above, the tracking angle with respect to the direction of the sound source is obtained using the delay time value. The tracking angle is obtained by calculating the preliminary angle from the delay time value obtained by the GCC-PHAT method.
즉, 음원의 방향이 로봇에 구비되는 3개의 마이크에 대해 도 3에서와 같이 위치되는 것으로 가정하는 경우, 상기 지연시간 값(τ)을 이용한 음원의 예비각도는 아래의 [수학식 4]에서와 같이 계산된다.That is, when it is assumed that the direction of the sound source is located as shown in Figure 3 with respect to the three microphones provided in the robot, the preliminary angle of the sound source using the delay time value τ is shown in
여기서 는 마이크간의 거리, 는 음속도이며, 는 채널 1과 채널2간의 지연시간이다. here Is the distance between the microphones, Is the speed of sound, Is the delay between
위와 같이 얻어진 예비각도로부터 계산된 6개의 후보 추적각도들은 아래의 [수학식 5]에서와 같이 계산되어질 수 있다. The six candidate tracking angles calculated from the preliminary angles obtained as described above may be calculated as shown in Equation 5 below.
위와 같이 음원 방향에 대한 6개의 후보 추적각도가 구해진 경우, 음원의 방향으로 추정되는 최종적인 추적 각도는 이들 6개각도 중 가장 적은 오차를 보이는 두 개의 각도를 얻어 평균값을 계산하게 된다. 이렇게 함으로써 잘못 추적된 각도 값을 얻을지라도 신뢰할 수 있는 추적각도를 얻을 수 있게 된다.When six candidate tracking angles for the sound source direction are obtained as described above, the final tracking angle estimated in the direction of the sound source is calculated by obtaining two angles having the least error among these six angles. This allows a reliable tracking angle to be obtained even if an incorrectly tracked angle value is obtained.
한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.Meanwhile, in the above description of the present invention, specific embodiments have been described, but various modifications may be made without departing from the scope of the present invention. Therefore, the scope of the invention should be determined by the claims rather than by the described embodiments.
도 1은 본 발명의 실시 예에 따른 음원 추적이 가능한 지능형 로봇의 블록 구성도,1 is a block diagram of an intelligent robot capable of tracking sound sources according to an embodiment of the present invention;
도 2는 본 발명의 실시 예에 따른 지능형 로봇에서 음원을 추적하는 동작 제어 흐름도,2 is an operation control flowchart for tracking a sound source in an intelligent robot according to an embodiment of the present invention;
도 3은 본 발명의 실시 예에 따른 3개의 마이크를 가지는 지능형 로봇에서 음원의 추적각도를 산출하는 개념도.3 is a conceptual diagram for calculating the tracking angle of the sound source in an intelligent robot having three microphones according to an embodiment of the present invention.
<도면의 주요 부호에 대한 간략한 설명><Brief description of the major symbols in the drawings>
108 : 음성데이터 취득부 110 : 지연시간 계산부108: voice data acquisition unit 110: delay time calculation unit
112 : 추적각도 처리부 106 : 로봇 구동부112: tracking angle processing unit 106: robot drive unit
Claims (17)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070104131A KR100943224B1 (en) | 2007-10-16 | 2007-10-16 | An intelligent robot for localizing sound source by frequency-domain characteristics and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070104131A KR100943224B1 (en) | 2007-10-16 | 2007-10-16 | An intelligent robot for localizing sound source by frequency-domain characteristics and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090038697A KR20090038697A (en) | 2009-04-21 |
KR100943224B1 true KR100943224B1 (en) | 2010-02-18 |
Family
ID=40762799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070104131A KR100943224B1 (en) | 2007-10-16 | 2007-10-16 | An intelligent robot for localizing sound source by frequency-domain characteristics and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100943224B1 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101090893B1 (en) | 2010-03-15 | 2011-12-08 | 한국과학기술연구원 | Sound source localization system |
KR101115366B1 (en) * | 2011-01-12 | 2012-02-15 | 한국과학기술원 | Method and apparatus for estimating sound source direction, and method for hearing sound |
KR101354960B1 (en) * | 2012-04-26 | 2014-01-23 | 한국과학기술원 | Method for an Estimation of Incident Wave Direction by Applying Regional Concept |
KR102012522B1 (en) * | 2013-04-05 | 2019-08-20 | 고려대학교 산학협력단 | Apparatus for processing directional sound |
CN105681939A (en) * | 2014-11-18 | 2016-06-15 | 中兴通讯股份有限公司 | Pickup control method for terminal, terminal and pickup control system for terminal |
KR102697339B1 (en) * | 2017-01-20 | 2024-08-21 | 한화비전 주식회사 | Surveillance system and operation method thereof |
CN110867178B (en) * | 2018-08-28 | 2022-01-21 | 中国科学院声学研究所 | Multi-channel far-field speech recognition method |
KR102176098B1 (en) * | 2019-01-28 | 2020-11-10 | 김영언 | Method and apparatus for recognizing sound source |
KR102280803B1 (en) * | 2019-07-02 | 2021-07-21 | 엘지전자 주식회사 | Robot and operating method thereof |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020010258A (en) * | 2000-07-28 | 2002-02-04 | 김인광 | Automatic direction detecting apparatus and method thereof |
JP2003271196A (en) | 2002-03-18 | 2003-09-25 | Sony Corp | Robot system and method for controlling the same |
JP2004257877A (en) | 2003-02-26 | 2004-09-16 | Seiko Epson Corp | Sound source detection method, sound source detection device and robot |
KR20070061056A (en) * | 2005-12-08 | 2007-06-13 | 한국전자통신연구원 | Sound localization apparatus for robot environment and method there of |
-
2007
- 2007-10-16 KR KR1020070104131A patent/KR100943224B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020010258A (en) * | 2000-07-28 | 2002-02-04 | 김인광 | Automatic direction detecting apparatus and method thereof |
JP2003271196A (en) | 2002-03-18 | 2003-09-25 | Sony Corp | Robot system and method for controlling the same |
JP2004257877A (en) | 2003-02-26 | 2004-09-16 | Seiko Epson Corp | Sound source detection method, sound source detection device and robot |
KR20070061056A (en) * | 2005-12-08 | 2007-06-13 | 한국전자통신연구원 | Sound localization apparatus for robot environment and method there of |
Also Published As
Publication number | Publication date |
---|---|
KR20090038697A (en) | 2009-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100943224B1 (en) | An intelligent robot for localizing sound source by frequency-domain characteristics and method thereof | |
KR101761315B1 (en) | Mobile device and control method thereof | |
US7536029B2 (en) | Apparatus and method performing audio-video sensor fusion for object localization, tracking, and separation | |
EP1643769B1 (en) | Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation | |
JP6240995B2 (en) | Mobile object, acoustic source map creation system, and acoustic source map creation method | |
KR100758707B1 (en) | Sound localization apparatus for robot environment and method there of | |
KR20060086231A (en) | Apparatus and method for controlling mobile body | |
KR100877914B1 (en) | sound source direction detecting system by sound source position-time difference of arrival interrelation reverse estimation | |
WO2007013525A1 (en) | Sound source characteristic estimation device | |
KR100822880B1 (en) | User identification system through sound localization based audio-visual under robot environments and method thereof | |
Gala et al. | Three-dimensional sound source localization for unmanned ground vehicles with a self-rotational two-microphone array | |
CN107396244B (en) | Sound source positioning system and method based on microphone array | |
KR101172354B1 (en) | Sound source localization device using rotational microphone array and sound source localization method using the same | |
EP2362238B1 (en) | Estimating the distance from a sensor to a sound source | |
JP5660362B2 (en) | Sound source localization apparatus and computer program | |
KR20110060183A (en) | Signal processing apparatus and method for removing reflected wave generated by robot platform | |
Martinson et al. | Auditory evidence grids | |
KR20130046779A (en) | Appratus and method for estimating direction of sound source | |
KR100926132B1 (en) | Method and apparatus for fixing sound source direction in robot environment | |
KR101837845B1 (en) | System and method for obtaining information of underwater target | |
EP1531339A3 (en) | Method of passive determination of target data | |
KR20200066891A (en) | Apparatus and method for three-dimensional sound source position detection using a two-dimensional microphone array | |
Lin et al. | Cooperative relative robot localization with audible acoustic sensing | |
JP5600054B2 (en) | Accompanying judgment apparatus, mobile terminal and program for estimating accompanying state of plural mobile terminals | |
KR100936244B1 (en) | Intelligent Robot Voice Input Apparatus and The Method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130205 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20140123 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20150115 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20160202 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20170209 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20180201 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20190211 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20200210 Year of fee payment: 11 |