KR20080023033A - Speaker recognition method and system using wireless microphone in robot service system - Google Patents

Speaker recognition method and system using wireless microphone in robot service system Download PDF

Info

Publication number
KR20080023033A
KR20080023033A KR1020060087009A KR20060087009A KR20080023033A KR 20080023033 A KR20080023033 A KR 20080023033A KR 1020060087009 A KR1020060087009 A KR 1020060087009A KR 20060087009 A KR20060087009 A KR 20060087009A KR 20080023033 A KR20080023033 A KR 20080023033A
Authority
KR
South Korea
Prior art keywords
speaker
wireless microphone
model
feature
recognizer
Prior art date
Application number
KR1020060087009A
Other languages
Korean (ko)
Inventor
배경숙
김혜진
곽근창
지수영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060087009A priority Critical patent/KR20080023033A/en
Publication of KR20080023033A publication Critical patent/KR20080023033A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/222Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only  for microphones

Abstract

A voice recognition method using a wireless microphone in an intelligent robot service system and an apparatus thereof are provided to enable a speaker having a wireless microphone transmitter to replace a VAD(Voice Activity Detection) function with only on/off of the wireless microphone, thereby operating the voice recognition system as necessary and speaking freely without considering a distance from a robot or a speaking position. A voice recognition method comprises the following steps of: registering speakers by using a wireless microphone(201); receiving valid voice data through a wireless microphone receiver from a speaker which speaks through a wireless microphone transmitter(202,203); extracting a feature from the received valid voice data(203); generating at least one speaker model by using the extracted feature(204); and recognizing the speaker by measuring similarity between the extracted feature and the generated speaker model(205~207).

Description

지능형 로봇 서비스 시스템에서 무선 마이크로폰을 이용한 화자 인식 방법 및 장치{SPEAKER RECOGNITION METHOD AND SYSTEM USING WIRELESS MICROPHONE IN ROBOT SERVICE SYSTEM}SPEAKER RECOGNITION METHOD AND SYSTEM USING WIRELESS MICROPHONE IN ROBOT SERVICE SYSTEM}

도 1은 본 발명의 실시예에 따른 무선 마이크로폰을 이용한 지능형 로봇 서비스 시스템의 구조를 도시한 구성도, 1 is a block diagram showing the structure of an intelligent robot service system using a wireless microphone according to an embodiment of the present invention,

도 2는 본 발명의 실시예에 따른 지능형 로봇 서비스 시스템에서의 화자 인식 장치의 구조를 도시한 구성도, 2 is a block diagram showing a structure of a speaker recognition apparatus in an intelligent robot service system according to an embodiment of the present invention;

도 3은 본 발명의 실시예에 따라 지능형 로봇 서비스 시스템에서 화자 인식을 위한 방법을 도시한 흐름도. 3 is a flowchart illustrating a method for speaker recognition in an intelligent robot service system according to an embodiment of the present invention.

본 발명은 무선 마이크로폰을 이용한 지능형 로봇 서비스 시스템에 관한 것으로서, 특히, 무선 마이크로폰의 수신기가 부착된 지능형 로봇에서 무선 마이크로폰의 송신기를 가진 발성자의 음성을 전송받아 사용자에게 맞춤형 서비스를 제공해주기 위해 화자 인식을 수행하기 위한 방법 및 장치에 관한 것이다. BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an intelligent robot service system using a wireless microphone. In particular, an intelligent robot equipped with a receiver of a wireless microphone receives a speaker's voice having a transmitter of a wireless microphone and provides speaker recognition to provide a customized service to a user. A method and apparatus for performing the invention.

최근에는 사용자에게 맞춤형 서비스를 제공하기 위해 지능형 서비스 기술로서, 지능형 로봇 기술이 다양한 분야에서 개발되고 있다. 이러한 지능형 로봇의 가장 중요한 감각 매체 중 하나인 청각은 보이지 않는 곳이나 원거리에서도 감지가 가능하다는 장점을 가지고 있다. 따라서 상기 지능형 로봇의 청각을 화자인식 기술에 적용할 수 있는데, 상기 화자 인식 기술은 다양한 로봇 서비스를 제공하는데 중요한 역할을 할 것으로 기대되는 분야이다. Recently, intelligent robot technology has been developed in various fields as an intelligent service technology to provide customized services to users. Hearing, one of the most important sensory media of such an intelligent robot, has the advantage of being able to detect invisible or remote locations. Therefore, the hearing of the intelligent robot can be applied to the speaker recognition technology, and the speaker recognition technology is expected to play an important role in providing various robot services.

상기 화자 인식 기술은 마이크를 통해 입력되는 소리를 매순간 인식하면 로봇에 큰 부하를 주게 되므로 입력되는 소리가 유효한 것인지를 판단하여 유효한 소리인 경우에만 인식할 필요가 있다. 때문에 이를 위해서는 유효 목소리 검출(Voice Activity Detection 이하, VAD라 칭함)기능이 필수적이다. 뿐만 아니라, 다양한 환경에 존재하는 잡음에 대해 강인한 화자인식 및 음성인식을 수행해야 한다. If the speaker recognition technology recognizes the sound input through the microphone every moment, it puts a heavy load on the robot. Therefore, it is necessary to determine whether the input sound is valid and recognize only if the sound is valid. Therefore, effective voice detection (hereinafter referred to as VAD) is essential for this. In addition, robust speaker recognition and speech recognition should be performed for noises in various environments.

기존의 화자 인식 방법은 주로 유선 마이크로폰을 사용하여 VAD를 수행하는 방법을 사용하였다. 그런데 로봇 환경에서 유선 마이크를 사용하게 되면, 일반 가정환경은 다양한 잡음이 존재하기 때문에 VAD를 항상 구동시키면 물건이 떨어지는 소리와 같은 잡음에도 민감하게 반응하여 사용자가 원치 않는 시점에 인식 결과를 내게 된다. The existing speaker recognition method mainly uses a wired microphone to perform VAD. However, when the wired microphone is used in the robot environment, the general home environment has various noises. Therefore, when the VAD is always driven, it is sensitive to the noise such as the falling sound of the object and the recognition result is generated when the user does not want it.

또한, 사용자가 원하지 않는 시점에서도 항상 인식을 수행해야할 뿐만 아니라 사용자와 로봇과의 거리, 발성 자세 및 마이크로폰의 위치 등에 따라 사용자가 협조적으로 목소리의 크기나 발성 위치 등을 조절해 주어야 하는 불편함이 있다.In addition, it is not only necessary to always perform recognition even when the user does not want it, but there is an inconvenience in that the user cooperatively adjusts the voice size or the voice position according to the distance between the user and the robot, the voice posture, and the position of the microphone. .

더욱이, 종래의 화자인식은 주로 보안이라는 관점에서 다루어져 왔기 때문에 제한된 환경과 적극적인 사용자를 가정할 수 있었다. 그러나 로봇 환경에서 화자인식은 다양한 잡음과 비협조적인 사용자를 대상으로 하기 때문에 지능형 서비스 로봇을 위해서는 잡음에 강건하고 사용자의 협조를 최소한으로 하는 화자인식 시스템이 필요하다. Moreover, the conventional speaker recognition has been mainly dealt with in terms of security, and therefore, it is possible to assume a limited environment and active users. However, since speaker recognition targets various noises and uncooperative users in a robotic environment, a speaker recognition system that is robust against noise and minimizes user cooperation is required for intelligent service robots.

따라서 본 발명의 목적은 지능형 로봇 서비스 시스템에서 모바일 로봇에 부착된 무선 마이크로폰을 사용하여 주변 잡음에 강건하고, 사용자가 원하는 시점에 유효 음성을 취득하여 화자 인식(음성인식)을 수행하기 위한 방법 및 장치를 제공함에 있다. Accordingly, an object of the present invention is a method and apparatus for performing speaker recognition (speech recognition) by being robust to ambient noise using a wireless microphone attached to a mobile robot in an intelligent robot service system and acquiring an effective voice at a desired point in time. In providing.

상기 이러한 본 발명의 목적을 달성하기 위한 무선 마이크로폰을 이용한 화자 인식 방법은, 서비스 로봇 환경의 지능형 로봇 서비스 시스템에서, 무선 마이크로폰을 이용하여 화자들을 각각 등록하는 과정과, 상기 등록된 화자들 중 무선 마이크로폰 송신기를 이용하여 발성을 한 화자로부터 무선 마이크로폰 수신기를 통해 유효 음성 데이터를 수신하는 과정과, 상기 수신된 유효 음성 데이터에서 특징을 추출하는 과정과, 상기 추출된 특징을 이용하여 적어도 하나의 화자 모델을 생성하는 과정과, 상기 추출된 특징과 상기 생성된 화자 모델 간의 유사도를 측정하여 상 기 화자를 인식하는 과정을 포함하는 것을 특징으로 한다. The speaker recognition method using a wireless microphone for achieving the object of the present invention, in the intelligent robot service system of the service robot environment, the process of registering the speakers using the wireless microphone, respectively, the wireless microphone of the registered speakers Receiving valid voice data from a talker using a transmitter through a wireless microphone receiver, extracting a feature from the received valid voice data, and using the extracted feature to generate at least one speaker model. And generating a similarity between the extracted feature and the generated speaker model to recognize the speaker.

상기 본 발명의 목적을 달성하기 위한 장치는, 서비스 로봇 환경의 지능형 로봇 서비스 시스템에서, 무선 마이크로폰을 이용하여 화자를 인식하기 위한 장치로서, 발성을 한 화자로부터 무선 마이크로폰 송신기를 통해 유효 음성 데이터를 수신하는 무선 마이크로폰 수신기와, 상기 수신된 유효 음성 데이터에서 특징을 추출하는 특징 추출부와, 상기 추출된 특징을 이용하여 적어도 하나의 화자 모델을 생성하는 화자 모델 생성부와, 상기 추출된 특징과 상기 생성된 화자 모델 간의 유사도를 측정하여 상기 화자를 인식하는 화자 인식부를 포함하는 것을 특징으로 한다. The apparatus for achieving the object of the present invention, in an intelligent robot service system of a service robot environment, a device for recognizing a speaker using a wireless microphone, receiving effective voice data from the talker through a wireless microphone transmitter A wireless microphone receiver, a feature extractor for extracting a feature from the received valid speech data, a speaker model generator for generating at least one speaker model using the extracted feature, and the extracted feature and the generation And a speaker recognition unit for recognizing the speaker by measuring the similarity between the speaker models.

이하, 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. First of all, in adding reference numerals to the components of each drawing, it should be noted that the same reference numerals have the same reference numerals as much as possible even if displayed on different drawings. In the following description of the present invention, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted.

본 발명의 실시예에 따른 지능형 로봇 서비스 시스템은 마이크로폰을 이용하는 지능형 로봇 시스템을 적용한다. 이러한 지능형 로봇 서비스 시스템의 구조를 첨부된 도면을 참조하여 설명하기로 한다. The intelligent robot service system according to the embodiment of the present invention applies an intelligent robot system using a microphone. The structure of such an intelligent robot service system will be described with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 무선 마이크로폰을 이용한 지능형 로봇 서 비스 시스템의 구조를 도시한 구성도이고, 도 2는 본 발명의 실시예에 따른 지능형 로봇 서비스 시스템에서의 화자 인식 장치의 구조를 도시한 구성도이다. 1 is a block diagram showing the structure of an intelligent robot service system using a wireless microphone according to an embodiment of the present invention, Figure 2 is a structure of a speaker recognition apparatus in an intelligent robot service system according to an embodiment of the present invention The configuration diagram shown.

상기 도 1을 참조하면, 상기 지능형 로봇 서비스 시스템은 송신측의 무선 마이크로폰 송신기(120)와, 수신측의 무선 마이크로폰 수신기(111)가 부착된 지능형 로봇(110)으로 이루어진다. Referring to FIG. 1, the intelligent robot service system includes a wireless microphone transmitter 120 on the transmitting side and an intelligent robot 110 to which the wireless microphone receiver 111 on the receiving side is attached.

상기 지능형 로봇(110)은 상기 송신측의 발성자가 자신이 가진 무선 마이크로폰 송신기(120)를 이용하여 음성 데이터를 전송하면, 부착된 무선 마이크로폰 수신기(111)에서 상기 음성 데이터를 수신하여 화자 인식을 수행하는 장치(이하, 화자 인식 장치라 칭함)이다. 이러한 화자 인식 장치의 구체적인 구조를 첨부된 도면을 참조하여 설명하기로 한다. The intelligent robot 110 transmits voice data using the wireless microphone transmitter 120 owned by the sender, and receives the voice data from the attached wireless microphone receiver 111 to perform speaker recognition. Device (hereinafter referred to as a speaker recognition device). A detailed structure of the speaker recognition apparatus will be described with reference to the accompanying drawings.

상기 무선 마이크로폰 송신기(120)는 상기 화자 인식을 원하는 시점에만 상기 발성자(사용자)에 의해 ON되어 유효 음성을 입력받아 상기 무선 마이크로폰 수신기(111)로 입력된 유효 음성의 데이터를 전송한다.The wireless microphone transmitter 120 is turned on by the speaker (user) only when the speaker recognition is desired and receives a valid voice to transmit data of the valid voice input to the wireless microphone receiver 111.

상기 도 2를 참조하면, 화자 인식 장치는 음성 입력부(112)와, 특징 추출부(113)와, 화자 모델 생성부(114)와, 화자 인식부(115) 및 저장부(116)를 포함하며, 외부에 상기 마이크로폰 수신기(111)가 부착된 형태로 이루어진다. 그리고 상기 화자 인식 장치는 상기 마이크로폰 수신기(111)가 상기 마이크로폰 송신기(120)로부터 음성 데이터를 수신함에 따라 구동된다. 이에 따라 상기 화자 인식 장치는 발성자(사용자)가 원하는 시점에만 구동되게 된다. Referring to FIG. 2, the speaker recognition apparatus includes a voice input unit 112, a feature extractor 113, a speaker model generator 114, a speaker recognition unit 115, and a storage unit 116. , The microphone receiver 111 is attached to the outside. The speaker recognition apparatus is driven as the microphone receiver 111 receives voice data from the microphone transmitter 120. Accordingly, the speaker recognition apparatus is driven only at a point in time at which the speaker (user) desires it.

상기 음성 입력부(112)는 무선 마이크로폰의 수신기(111)에서 수신한 음성 데이터(입력 데이터)를 입력 받아 상기 특징 추출부(113)로 전달한다. The voice input unit 112 receives voice data (input data) received from the receiver 111 of the wireless microphone and transmits the received voice data to the feature extractor 113.

상기 특징 추출부(113)는 상기 음성 입력부(110)로부터 전달된 음성 데이터를 프레임별로 나누고 각 프레임에 해당하는 멜 캡스트럼 계수를 구하여 특징을 추출한다. The feature extractor 113 divides the voice data transmitted from the voice input unit 110 for each frame and extracts a feature by obtaining a mel capstrum coefficient corresponding to each frame.

상기 화자 모델 생성부(114)는 상기 특징 추출부(113)에서 구한 멜 캡스트럼 계수(Cepstrum Coefficient)를 화자별로 모으고, 상기 구해진 멜 캡스트럼 계수를 추출된 특징으로서 이용하여 가우시안 혼합 모델(화자 모델)을 생성함으로써, 화자 인식기를 구축한다. 여기서 캡스트럼(Cepstrum)은 DFT나 FFT 결과가 크기값에 대해 명확하지 않은 것을 보완한 알고리즘이다. 따라서 캡스트럼(Cepstrum)은 지진이나 진동, 음성인식 등 미세 신호 분석에 많이 사용하고 있다.The speaker model generator 114 collects the Mel Capstrum Coefficients obtained by the feature extractor 113 for each speaker and uses the obtained Mel Capstrum coefficients as extracted features to perform a Gaussian mixture model (Speaker model). Construct a speaker recognizer. Cepstrum is an algorithm that compensates for the fact that the DFT or FFT results are not clear about the magnitude. Therefore, Capstrum is widely used for micro signal analysis such as earthquake, vibration and voice recognition.

상기 화자 인식부(115)는 기 화자 모델 생성부(114)에서 구축된 화자 인식기를 이용하여 추출된 특징과 각 화자모델 간의 거리를 측정하여 화자를 인식하며, 등록 화자 중 누군가가 발성을 했을 때 최대 사후 확률(maximum a posteriori probability)을 가진 화자 모델을 찾는 방법에 의해 화자 인식을 한다. The speaker recognizer 115 recognizes the speaker by measuring the distance between the extracted feature and each speaker model using the speaker recognizer built in the speaker model generator 114, and when someone among the registered speakers speaks. Speaker recognition is performed by finding the speaker model with the maximum a posteriori probability.

상기 저장부(116)는 화자 등록 정보, 수신된 음성 데이터, 상기 생성된 화자 모델에 대한 정보 및 화자 인식에 대한 결과 정보 등을 저장한다. The storage unit 116 stores speaker registration information, received voice data, information on the generated speaker model, and result information on speaker recognition.

이와 같은 구조를 갖는 화자 인식 장치에서 화자 인식을 위한 방법을 설명하기로 한다. A method for speaker recognition in a speaker recognition apparatus having such a structure will be described.

우선, 화자 인식 장치는 각 화자의 온라인 등록을 수행한 후 등록된 정보를 미리 저장한다. 이후, 온라인 등록된 화자 중 임의의 화자가 무선 마이크로폰 송신기를 통해 음성 데이터를 전송하면, 상기 화자 인식 장치는 무선 마이크로폰 수신기(111)를 통해 상기 음성 데이터를 수신하고, 수신된 음성 데이터를 입력 데이터로 음성 입력부(112)를 통해 내부 장치로 입력하여 내부 장치들을 통해 화자 인식을 수행한다. 이러한 과정을 첨부된 도면을 참조하여 보다 구체적으로 설명하기로 한다. First, the speaker recognition apparatus performs online registration of each speaker and stores the registered information in advance. Thereafter, when any of the registered speakers online transmits the voice data through the wireless microphone transmitter, the speaker recognition apparatus receives the voice data through the wireless microphone receiver 111 and converts the received voice data into the input data. Speaker input is performed through the voice input unit 112 to the internal device, and speaker recognition is performed through the internal devices. This process will be described in more detail with reference to the accompanying drawings.

도 3은 본 발명의 실시예에 따라 지능형 로봇 서비스 시스템에서 화자 인식을 위한 방법을 도시한 흐름도이다. 3 is a flowchart illustrating a method for speaker recognition in an intelligent robot service system according to an embodiment of the present invention.

상기 도 3을 참조하면, 201단계에서 상기 화자 인식 장치(110)는 음성 데이터가 수신되었는지를 확인한다. 이때, 음성 데이터가 수신되면 202단계에서 상기 화자 인식 장치(110)는 특징 추출부(113)를 통해 전달된 음성 데이터를 프레임별로 나누고 각 프레임에 해당하는 멜 캡스트럼 계수를 구하여 특징을 추출한다. Referring to FIG. 3, in step 201, the speaker recognition apparatus 110 checks whether voice data has been received. In this case, when the voice data is received, the speaker recognition apparatus 110 divides the voice data transmitted through the feature extractor 113 for each frame and obtains a mel capstrum coefficient corresponding to each frame to extract the feature.

그런 다음 203단계에서 상기 화자 인식 장치(110)는 상기 추출된 특징을 이용하여 상기 구한 멜 갭스트럼 계수 즉, 특징을 전달받아 화자별로 모으고, 204단계에서 가우시안 혼합 모델을 통해 화자별 화자 모델을 생성하여 화자 인식기를 구축한다. 이러한 화자 인식기를 구축하기 위해서는 D차원의 특징벡터에 대해서 화자에 대한 혼합 밀도를 구해야 하는데, 상기 혼합 밀도를 구하기 위한 식은 하기 <수학식 1>과 같이 나타낼 수 있다. Then, in step 203, the speaker recognition apparatus 110 receives the obtained Mel gap strum coefficient, that is, the feature, and collects each speaker by using the extracted feature, and in step 204, the speaker model for each speaker is obtained through a Gaussian mixture model. Create a speaker recognizer by creating it. In order to construct such a speaker recognizer, a mixing density of a speaker is to be obtained for a D-dimensional feature vector, and the equation for obtaining the mixing density may be expressed as Equation 1 below.

Figure 112006065184600-PAT00001
Figure 112006065184600-PAT00001

상기 <수학식 1>에서 wi는 혼합 가중치를 의미하며, bi 는 가우시안 혼합모델을 통해 얻어진 확률을 의미하며, 하기 <수학식 2>과 같이 나타낼 수 있다. In Equation 1, w i denotes a mixed weight, and b i Denotes a probability obtained through a Gaussian mixture model, and may be expressed as Equation 2 below.

Figure 112006065184600-PAT00002
Figure 112006065184600-PAT00002

그리고 상기 <수학식 1>에서 밀도는 평균벡터와 공분산 행렬에 의해 파라미터화된 M개의 가우시안 혼합모델의 가중치된 선형적인 결합이다. In Equation 1, the density is a weighted linear combination of M Gaussian mixture models parameterized by the mean vector and the covariance matrix.

이후, 204단계에서 상기 화자 인식 장치(110)는 화자 모델을 생성하여 화자 인식기를 구축한다. 이러한 화자 모델은 임의의 화자로부터 음성이 주어졌을 때 가우시안 혼합모델의 파라미터를 추정함으로써 생성될 수 있다. 이에 대한 잘 알려진 방법은 최대 우도 추정방법(maximum likelihood estimation)이 있다. 이러한 최대 우도 추정방법을 이용하여 가우시안 혼합모델의 파라미터 추정에 대해 설명하기로 하면 다음과 같다. Thereafter, in step 204, the speaker recognition apparatus 110 constructs a speaker model by generating a speaker model. This speaker model can be generated by estimating the parameters of the Gaussian mixture model when speech is given from any speaker. A well-known method for this is the maximum likelihood estimation method. The parameter estimation of the Gaussian mixture model using the maximum likelihood estimation method will be described as follows.

T개의 프레임으로 구성된 한 음성으로부터 얻어진 확률에 대한 가우시안 혼합 모델의 우도 값은 하기 <수학식 3>과 같이 나타낼 수 있다. The likelihood value of the Gaussian mixture model for the probability obtained from one voice composed of T frames may be expressed as in Equation 3 below.

Figure 112006065184600-PAT00003
Figure 112006065184600-PAT00003

상기 <수학식 3>에서 화자 모델의 파라미터는 가중치, 평균, 공분산으로 구성된

Figure 112006065184600-PAT00004
, i=1, 2, ... ,M 이다. 최대 우도 파라미터 추정은 잘 알려진 최대 기대치(EM : Expectation- Maximization) 알고리즘을 이용함으로써 얻을 수 있다. In Equation 3, the parameter of the speaker model is composed of weight, average, and covariance.
Figure 112006065184600-PAT00004
, i = 1, 2, ..., M Maximum likelihood parameter estimation can be obtained by using a well-known Expectation-Maximization (EM) algorithm.

그러면 이렇게 추정된 가우시안 혼합 모델의 최대 우도 파라미터를 이용하여 GMM(Gaussain Mixture Model) 기반의 각 화자들의 화자 모델을 생성하게 되며, 생성된 화자 모델들을 이용하여 화자 인식기를 구축한다. 이에 따라 상기 화자 인식부(115)는 상기 구축된 인식기를 이용하게 된다. 그리고 상기 추정된 최대 우도 파라미터 및 생성된 화자 모델에 대한 정보는 저장부(116)에 저장되어 관리된다. Then, the speaker model of each speaker based on Gaussian Mixture Model (GMM) is generated using the maximum likelihood parameter of the estimated Gaussian mixture model, and a speaker recognizer is constructed using the generated speaker models. Accordingly, the speaker recognizer 115 uses the constructed recognizer. The information about the estimated maximum likelihood parameter and the generated speaker model is stored and managed in the storage unit 116.

그런 다음 상기 화자 인식 장치(110)는 화자 인식부(115)를 통해 등록된 화자들 중 임의의 화자가 발성을 했을 때 최대 사후 확률(maximum a posteriori probability 이하, MAP이라 칭함)을 가진 화자 모델을 찾아 화자를 인식하게 된다. 여기서 MAP 방식이란 사후확률을 최대한으로 하여서 신호의 유사성 정도를 최대로 하여서 원하는 신호를 찾아내는 방식을 말하며 LLR(Log Likelihood Ratio)을 크게 하여서 LLR이 0보다 크면 1로 0보다 작으면 0으로 복원해 내는 방식을 말한다. Then, the speaker recognition apparatus 110 generates a speaker model having a maximum a posteriori probability (hereinafter, referred to as MAP) when any speaker among the speakers registered through the speaker recognition unit 115 speaks. Find and recognize the speaker. Here, the MAP method is a method of finding a desired signal by maximizing the degree of similarity of the signal by maximizing the posterior probability and increasing the LL (Log Likelihood Ratio) so that the LLR is greater than 0 and is restored to 0 when smaller than 0. Say the way.

다시 말해, 205단계에서 상기 화자 인식 장치(110)는 상기 203단계에서 추출된 특징과 생성되어 있는 각 화자모델과 유사도를 측정한다. 상기 유사도의 측정은 추출된 특징과 각 화자들 간의 거리를 측정함에 따라 얻을 수 있다. 그러면 206단계에서 상기 화자 인식 장치(110)는 상기 추출된 특징과 현재 화자 모델과의 유사도 측정 결과, MAP을 가진 화자 모델인지를 확인하여 MAP을 가진 화자 모델이 아닌 경우 다음 화자 모델과의 유사도를 측정하기 위해 205단계를 진행한다. 반면 그렇지 않은 경우 207단계에서 상기 화자 인식 장치(110)는 상기 측정된 결과에 따라 MAP 화자 모델로 확인된 화자를 인식한다. 이러한 MAP을 가진 화자 모델을 찾는 방법에 의한 화자 인식에 대해서는 하기 <수학식 4>와 같이 나타낼 수 있다. In other words, in step 205, the speaker recognition apparatus 110 measures the similarity with the feature extracted in step 203 and each speaker model generated. The measurement of the similarity can be obtained by measuring the distance between the extracted feature and each speaker. Then, in step 206, the speaker recognition apparatus 110 determines whether the speaker model has the MAP as a result of measuring the similarity between the extracted feature and the current speaker model and determines the similarity with the next speaker model when the speaker model does not have the MAP. Proceed to step 205 to measure. Otherwise, in step 207, the speaker recognition apparatus 110 recognizes the speaker identified by the MAP speaker model according to the measured result. Speaker recognition by a method of finding a speaker model having such a MAP may be expressed by Equation 4 below.

Figure 112006065184600-PAT00005
Figure 112006065184600-PAT00005

상기 <수학식 4>는 S명의 화자( S={1,2,3...,S})중 사후확률을 최대화하는 모델의 화자를 찾는 것으로서, λ는 화자모델, x는 입력된 음성, P는 확률을 의미한다. Equation 4 is to find a speaker of a model that maximizes the posterior probability among S speakers (S = {1,2,3 ..., S}), λ is a speaker model, x is an input voice, P means probability.

상술한 바와 같은 본 발명의 실시예에 따른 화자 인식을 위한 화자 인식 등록 및 인식 장치는 사용자가 원하는 시점에만 구동되어야 한다. The speaker recognition registration and recognition device for speaker recognition according to an embodiment of the present invention as described above should be driven only at a point in time desired by the user.

따라서 화자 인식을 원치 않는 시점에는 발성자(사용자)가 자신의 무선 마이크로폰 송신기를 OFF하여 유효 음성의 입력을 전면 차단한다. 반면, 화자 인식을 원하는 시점에는 발성자가 자신의 무선 마이크로폰 송신기를 ON하여 유효 음성의 입력을 받고, 입력된 유효 음성을 무선으로 상기 무선 마이크로폰 수신기를 통해 상기 화자 인식 장치(지능형 로봇)로 전달한다. 이에 따라 상기 화자 인식 장치는 상기 유효 음성의 입력 여부에 따라 구동되어 로봇 환경에서 문장 독립 화자 인식을 수행함으로써 사용자에게 맞춤형 서비스를 제공할 수 있다. Therefore, when the speaker does not want to recognize the speaker, the speaker (user) turns off his wireless microphone transmitter to completely block input of the effective voice. On the other hand, when the speaker recognizes the speaker, the speaker turns on his wireless microphone transmitter to receive an effective voice input, and wirelessly transmits the input effective voice to the speaker recognition apparatus (intelligent robot) through the wireless microphone receiver. Accordingly, the speaker recognition apparatus may be driven according to whether the valid voice is input to provide a customized service to a user by performing sentence independent speaker recognition in a robot environment.

한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 발명청구의 범위뿐 만 아니라 이 발명청구의 범위와 균등한 것들에 의해 정해져야 한다.Meanwhile, in the detailed description of the present invention, specific embodiments have been described, but various modifications are possible without departing from the scope of the present invention. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be defined not only by the scope of the following claims, but also by the equivalents of the claims.

상술한 바와 같이 본 발명은 지능형 로봇 서비스 시스템에서 무선 마이크로폰을 이용함으로써, 무선 마이크로폰의 송신기를 가진 발성자(사용자)는 마이크로폰의 ON/OFF만으로도 손쉽게 VAD 기능을 대신할 수 있기 때문에 사용자가 원하는 시점에만 화자 인식 시스템을 동작시킬 수 있으며, 잡음에 강건하고 사용자 협조를 최소화함으로써, 로봇과의 거리나 발성자세 등을 고려할 필요 없이 자유로운 자세로 발성할 수 있는 효과가 있다. As described above, the present invention uses the wireless microphone in the intelligent robot service system, so that a speaker (user) having a transmitter of the wireless microphone can easily replace the VAD function only by turning on / off the microphone, so that the user can only By operating the speaker recognition system and being robust against noise and minimizing user cooperation, there is an effect that the user can speak freely without considering the distance from the robot or the talking posture.

Claims (16)

서비스 로봇 환경의 지능형 로봇 서비스 시스템에서, 무선 마이크로폰을 이용하여 화자들을 각각 등록하는 과정과, In the intelligent robot service system of the service robot environment, the process of registering the speakers using the wireless microphone, 상기 등록된 화자들 중 무선 마이크로폰 송신기를 이용하여 발성을 한 화자로부터 무선 마이크로폰 수신기를 통해 유효 음성 데이터를 수신하는 과정과, Receiving valid voice data through a wireless microphone receiver from a speaker who has spoken using a wireless microphone transmitter among the registered speakers; 상기 수신된 유효 음성 데이터에서 특징을 추출하는 과정과, Extracting a feature from the received valid voice data; 상기 추출된 특징을 이용하여 적어도 하나의 화자 모델을 생성하는 과정과, Generating at least one speaker model using the extracted features; 상기 추출된 특징과 상기 생성된 화자 모델 간의 유사도를 측정하여 상기 화자를 인식하는 과정을 포함하는 것을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 방법. And a step of recognizing the speaker by measuring a similarity between the extracted feature and the generated speaker model. 제1항에 있어서, The method of claim 1, 상기 발성을 한 화자로부터 원하는 시점에만 상기 무선 마이크로폰 송신기를 온(ON)시키는 과정과, Turning on the wireless microphone transmitter only at a desired point in time from the speaker; 상기 화자 인식을 원하지 않는 시점에 상기 마이크로폰 송신기를 오프(OFF)시켜서 상기 발성한 화자로부터의 음성 입력을 차단하는 과정을 더 포함하며, 상기 마이크로폰 송신기의 ON/OFF에 따라 상기 구축된 화자인식기를 구동시키는 것을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 방법.Turning off the microphone transmitter at a time when the speaker recognition is not desired and cutting off the voice input from the spoken speaker, and driving the constructed speaker recognizer according to ON / OFF of the microphone transmitter. Speaker recognition method using a wireless microphone, characterized in that. 제1항에 있어서, 상기 특징을 추출하는 과정은, The method of claim 1, wherein the extracting of the feature comprises: 상기 수신된 유효 음성 데이터를 프레임별로 나누는 단계와, Dividing the received valid speech data frame by frame; 상기 나눠진 각 프레임에 해당하는 멜 캡스트럼 계수를 구하는 단계를 포함하며, Obtaining a mel capstrum coefficient corresponding to each divided frame; 상기 구한 멜 캡스트럼 계수를 추출된 특징으로서 이용함을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 방법. And using the obtained Mel Capstrum coefficient as an extracted feature. 제1항에 있어서, 상기 적어도 하나의 화자 모델을 생성하는 과정은, The method of claim 1, wherein the generating of the at least one speaker model comprises: 상기 추출된 특징을 상기 각 화자별로 모으는 단계와, Collecting the extracted features for each speaker; 가우시안 혼합 모델을 통해 상기 각 화자별로 화자 모델을 생성하는 단계와, Generating a speaker model for each speaker through a Gaussian mixture model; 상기 생성된 각 화자 모델을 이용하여 화자 인식기를 구축하는 단계를 포함하는 것을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 방법. And building a speaker recognizer using the generated speaker model. 제4항에 있어서, The method of claim 4, wherein 상기 화자 인식기는 하기 <수학식 5>과 같은 상기 화자에 대한 혼합 밀도를 통해 구축됨을 특징으로 하며, 하기 <수학식 5>에서 Wi는 혼합 가중치를 의미하며, bi는 가우시안 혼합 모델을 통해 얻어진 확률을 의미함을 특징으로 하는 무선 마이 크로폰을 이용한 화자 인식 방법. The speaker recognizer is constructed by mixing density of the speaker as shown in Equation 5 below, wherein Wi denotes a mixing weight in Equation 5, and bi is a probability obtained through a Gaussian mixture model. Speaker recognition method using a wireless microphone, characterized in that means.
Figure 112006065184600-PAT00006
Figure 112006065184600-PAT00006
제1항에 있어서, 상기 화자를 인식하는 과정은, The method of claim 1, wherein the recognizing the speaker comprises: 최대 우도 추정 방법을 이용하여 상기 추출된 특징과 상기 생성된 화자 모델 간의 거리에 따라 유사도를 측정하는 단계와, Measuring similarity according to the distance between the extracted feature and the generated speaker model using a maximum likelihood estimation method; 상기 측정 결과에 따라 최대 사후 확률을 가진 화자 모델을 찾는 단계와, Finding a speaker model having a maximum posterior probability according to the measurement result; 상기 최대 사후 확률을 가진 화자 모델을 상기 발성을 한 화자로 인식하는 단계를 포함하는 것을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 방법. And recognizing the speaker model having the maximum posterior probability as the speaker. 제6항에 있어서, The method of claim 6, 상기 최대 사후 확률을 가진 화자 모델은 하기 <수학식 6>에 의해 찾으며, 하기 <수학식 6>에서 λ는 화자모델, x는 입력된 음성, P는 확률을 의미함을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 방법. The speaker model having the maximum posterior probability is found by the following Equation 6, wherein λ is the speaker model, x is the input voice, and P is the probability of the wireless microphone. Speaker recognition method using.
Figure 112006065184600-PAT00007
Figure 112006065184600-PAT00007
서비스 로봇 환경의 지능형 로봇 서비스 시스템에서, 무선 마이크로폰을 이용하여 화자를 인식하기 위한 장치에 있어서, In an intelligent robot service system of a service robot environment, an apparatus for recognizing a speaker using a wireless microphone, 발성을 한 화자로부터 무선 마이크로폰 송신기를 통해 유효 음성 데이터를 수신하는 무선 마이크로폰 수신기와, A wireless microphone receiver for receiving valid voice data from a talker through a wireless microphone transmitter, 상기 수신된 유효 음성 데이터에서 특징을 추출하는 특징 추출부와, A feature extraction unit for extracting a feature from the received valid speech data; 상기 추출된 특징을 이용하여 적어도 하나의 화자 모델을 생성하는 화자 모델 생성부와, A speaker model generator configured to generate at least one speaker model using the extracted features; 상기 추출된 특징과 상기 생성된 화자 모델 간의 유사도를 측정하여 상기 화자를 인식하는 화자 인식부를 포함하는 것을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 장치. And a speaker recognizer configured to measure the similarity between the extracted feature and the generated speaker model to recognize the speaker. 제8항에 있어서, The method of claim 8, 상기 무선 마이크로폰 수신기로 수신된 유효 음성 데이터를 입력받아 상기 특징 추출부로 전달하는 음성 입력부와, A voice input unit for receiving valid voice data received by the wireless microphone receiver and transferring the received valid voice data to the feature extraction unit; 상기 화자 인식에 관련한 정보들을 저장하는 저장부를 더 포함하는 것을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 장치. And a storage unit for storing information related to the speaker recognition. 제8항에 있어서, The method of claim 8, 상기 무선 마이크로폰 송신기는 상기 발성을 한 화자측에 형성되고, 상기 화자 인식을 원하는 시점에만 온(ON)되어 상기 발성을 한 화자의 유효 음성을 입력받고, 상기 화자 인식을 원하지 않는 시점에 오프(OFF)되어 상기 발성한 화자로부터의 음성 입력을 차단함을 특징으로 하는 마이크로폰을 이용한 화자 인식 장치.The wireless microphone transmitter is formed on the side of the talker, and is turned on only at the point of time when the speaker is desired to receive the valid voice of the talker. And a speech input from the talker is blocked. 제8항에 있어서, The method of claim 8, 상기 특징 추출부는 상기 수신된 유효 음성 데이터를 프레임별로 나누고, 상기 나눠진 각 프레임에 해당하는 멜 캡스트럼 계수를 구하여 특징을 추출함을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 장치. And the feature extracting unit divides the received valid speech data frame by frame, extracts a feature by obtaining a mel capstrum coefficient corresponding to each divided frame, and extracts a feature. 제8항에 있어서, The method of claim 8, 상기 화자 모델 생성부는 상기 추출된 특징을 상기 각 화자별로 모으고, 가우시안 혼합 모델을 이용하여 상기 각 화자별 화자 모델을 생성하고, 상기 생성된 화자 모델을 이용하여 화자 인식기를 구축함을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 장치. The speaker model generation unit collects the extracted features for each speaker, generates a speaker model for each speaker using a Gaussian mixture model, and builds a speaker recognizer using the generated speaker model. Speaker recognition apparatus using a. 제8항에 있어서, The method of claim 8, 상기 구축된 화자 인식기는 상기 화자 인식부에 포함되어 상기 마이크로폰 송신기의 ON/OFF에 따라 구동됨을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 장치.The constructed speaker recognizer is included in the speaker recognizer and driven according to ON / OFF of the microphone transmitter. 제13항에 있어서, The method of claim 13, 상기 화자 인식기는 하기 <수학식 7>과 같은 상기 화자에 대한 혼합 밀도를 통해 구축됨을 특징으로 하며, 하기 <수학식 7>에서 Wi는 혼합 가중치를 의미하며, bi는 가우시안 혼합 모델을 통해 얻어진 확률을 의미함을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 장치. The speaker recognizer is constructed through the mixing density of the speaker as shown in Equation 7 below, wherein Wi denotes the mixing weight and bi is a probability obtained through the Gaussian mixture model. Speaker recognition apparatus using a wireless microphone, characterized in that means.
Figure 112006065184600-PAT00008
Figure 112006065184600-PAT00008
제8항에 있어서, The method of claim 8, 상기 화자 인식부는 최대 우도 추정 방법을 이용하여 상기 추출된 특징과 상기 생성된 화자 모델 간의 거리에 따라 유사도를 측정하고, 상기 측정 결과에 따라 최대 사후 확률을 가진 화자 모델을 찾고, 찾은 최대 사후 확률을 가진 화자 모델을 상기 발성을 한 화자로 인식함을 특징으로 포함하는 것을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 장치. The speaker recognition unit measures similarity according to the distance between the extracted feature and the generated speaker model using a maximum likelihood estimation method, finds a speaker model having a maximum posterior probability according to the measurement result, and finds the found maximum posterior probability. Speaker recognition apparatus using a wireless microphone, characterized in that it comprises a speaker model having the speaker as one speaker. 제15항에 있어서, The method of claim 15, 상기 최대 사후 확률을 가진 화자 모델은 하기 <수학식 8>에 의해 찾음을 특징으로 하며, 하기 <수학식 8>에서 λ는 화자모델, x는 입력된 음성, P는 확률을 의미함을 특징으로 하는 무선 마이크로폰을 이용한 화자 인식 장치. The speaker model having the maximum posterior probability is found by the following Equation (8), where λ is the speaker model, x is the input voice, and P is the probability. Speaker recognition apparatus using a wireless microphone.
Figure 112006065184600-PAT00009
Figure 112006065184600-PAT00009
KR1020060087009A 2006-09-08 2006-09-08 Speaker recognition method and system using wireless microphone in robot service system KR20080023033A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060087009A KR20080023033A (en) 2006-09-08 2006-09-08 Speaker recognition method and system using wireless microphone in robot service system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060087009A KR20080023033A (en) 2006-09-08 2006-09-08 Speaker recognition method and system using wireless microphone in robot service system

Publications (1)

Publication Number Publication Date
KR20080023033A true KR20080023033A (en) 2008-03-12

Family

ID=39396813

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060087009A KR20080023033A (en) 2006-09-08 2006-09-08 Speaker recognition method and system using wireless microphone in robot service system

Country Status (1)

Country Link
KR (1) KR20080023033A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
WO2018131752A1 (en) * 2017-01-11 2018-07-19 (주)파워보이스 Personalized voice recognition service providing method using artificial intelligent automatic speaker identification method, and service providing server used therein
WO2021091145A1 (en) * 2019-11-04 2021-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and method thereof

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
US9626970B2 (en) 2014-12-19 2017-04-18 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
WO2018131752A1 (en) * 2017-01-11 2018-07-19 (주)파워보이스 Personalized voice recognition service providing method using artificial intelligent automatic speaker identification method, and service providing server used therein
US11087768B2 (en) 2017-01-11 2021-08-10 Powervoice Co., Ltd. Personalized voice recognition service providing method using artificial intelligence automatic speaker identification method, and service providing server used therein
WO2021091145A1 (en) * 2019-11-04 2021-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and method thereof

Similar Documents

Publication Publication Date Title
US10373609B2 (en) Voice recognition method and apparatus
JP4796309B2 (en) Method and apparatus for multi-sensor speech improvement on mobile devices
KR101178801B1 (en) Apparatus and method for speech recognition by using source separation and source identification
WO2018018906A1 (en) Voice access control and quiet environment monitoring method and system
TWI442384B (en) Microphone-array-based speech recognition system and method
KR100636317B1 (en) Distributed Speech Recognition System and method
JP2018049143A (en) Voice acquisition system and voice acquisition method
US20140214426A1 (en) System and method for improving voice communication over a network
KR20080090034A (en) Voice speaker recognition method and apparatus
JP2011191423A (en) Device and method for recognition of speech
KR100639968B1 (en) Apparatus for speech recognition and method therefor
CN110299143B (en) Apparatus for recognizing a speaker and method thereof
CN111986675A (en) Voice conversation method, device and computer readable storage medium
JP2018169473A (en) Voice processing device, voice processing method and program
US20210056961A1 (en) Information processing apparatus and information processing method
Yoo et al. Automatic sound recognition for the hearing impaired
KR20110010233A (en) Apparatus and method for speaker adaptation by evolutional learning, and speech recognition system using thereof
JP2008242067A (en) Voice recognition device, voice recognition system, and voice recognition method
KR20080023033A (en) Speaker recognition method and system using wireless microphone in robot service system
Diaconita et al. Do you hear what i hear? using acoustic probing to detect smartphone locations
Jeon et al. Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model
JP2003241788A (en) Device and system for speech recognition
KR101863098B1 (en) Apparatus and method for speech recognition
JP5147012B2 (en) Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium
Lee et al. Space-time voice activity detection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application