KR20080023033A - Speaker recognition method and system using wireless microphone in robot service system - Google Patents
Speaker recognition method and system using wireless microphone in robot service system Download PDFInfo
- Publication number
- KR20080023033A KR20080023033A KR1020060087009A KR20060087009A KR20080023033A KR 20080023033 A KR20080023033 A KR 20080023033A KR 1020060087009 A KR1020060087009 A KR 1020060087009A KR 20060087009 A KR20060087009 A KR 20060087009A KR 20080023033 A KR20080023033 A KR 20080023033A
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- wireless microphone
- model
- feature
- recognizer
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000000203 mixture Substances 0.000 claims description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/22—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only
- H04R1/222—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only for microphones
Abstract
Description
도 1은 본 발명의 실시예에 따른 무선 마이크로폰을 이용한 지능형 로봇 서비스 시스템의 구조를 도시한 구성도, 1 is a block diagram showing the structure of an intelligent robot service system using a wireless microphone according to an embodiment of the present invention,
도 2는 본 발명의 실시예에 따른 지능형 로봇 서비스 시스템에서의 화자 인식 장치의 구조를 도시한 구성도, 2 is a block diagram showing a structure of a speaker recognition apparatus in an intelligent robot service system according to an embodiment of the present invention;
도 3은 본 발명의 실시예에 따라 지능형 로봇 서비스 시스템에서 화자 인식을 위한 방법을 도시한 흐름도. 3 is a flowchart illustrating a method for speaker recognition in an intelligent robot service system according to an embodiment of the present invention.
본 발명은 무선 마이크로폰을 이용한 지능형 로봇 서비스 시스템에 관한 것으로서, 특히, 무선 마이크로폰의 수신기가 부착된 지능형 로봇에서 무선 마이크로폰의 송신기를 가진 발성자의 음성을 전송받아 사용자에게 맞춤형 서비스를 제공해주기 위해 화자 인식을 수행하기 위한 방법 및 장치에 관한 것이다. BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an intelligent robot service system using a wireless microphone. In particular, an intelligent robot equipped with a receiver of a wireless microphone receives a speaker's voice having a transmitter of a wireless microphone and provides speaker recognition to provide a customized service to a user. A method and apparatus for performing the invention.
최근에는 사용자에게 맞춤형 서비스를 제공하기 위해 지능형 서비스 기술로서, 지능형 로봇 기술이 다양한 분야에서 개발되고 있다. 이러한 지능형 로봇의 가장 중요한 감각 매체 중 하나인 청각은 보이지 않는 곳이나 원거리에서도 감지가 가능하다는 장점을 가지고 있다. 따라서 상기 지능형 로봇의 청각을 화자인식 기술에 적용할 수 있는데, 상기 화자 인식 기술은 다양한 로봇 서비스를 제공하는데 중요한 역할을 할 것으로 기대되는 분야이다. Recently, intelligent robot technology has been developed in various fields as an intelligent service technology to provide customized services to users. Hearing, one of the most important sensory media of such an intelligent robot, has the advantage of being able to detect invisible or remote locations. Therefore, the hearing of the intelligent robot can be applied to the speaker recognition technology, and the speaker recognition technology is expected to play an important role in providing various robot services.
상기 화자 인식 기술은 마이크를 통해 입력되는 소리를 매순간 인식하면 로봇에 큰 부하를 주게 되므로 입력되는 소리가 유효한 것인지를 판단하여 유효한 소리인 경우에만 인식할 필요가 있다. 때문에 이를 위해서는 유효 목소리 검출(Voice Activity Detection 이하, VAD라 칭함)기능이 필수적이다. 뿐만 아니라, 다양한 환경에 존재하는 잡음에 대해 강인한 화자인식 및 음성인식을 수행해야 한다. If the speaker recognition technology recognizes the sound input through the microphone every moment, it puts a heavy load on the robot. Therefore, it is necessary to determine whether the input sound is valid and recognize only if the sound is valid. Therefore, effective voice detection (hereinafter referred to as VAD) is essential for this. In addition, robust speaker recognition and speech recognition should be performed for noises in various environments.
기존의 화자 인식 방법은 주로 유선 마이크로폰을 사용하여 VAD를 수행하는 방법을 사용하였다. 그런데 로봇 환경에서 유선 마이크를 사용하게 되면, 일반 가정환경은 다양한 잡음이 존재하기 때문에 VAD를 항상 구동시키면 물건이 떨어지는 소리와 같은 잡음에도 민감하게 반응하여 사용자가 원치 않는 시점에 인식 결과를 내게 된다. The existing speaker recognition method mainly uses a wired microphone to perform VAD. However, when the wired microphone is used in the robot environment, the general home environment has various noises. Therefore, when the VAD is always driven, it is sensitive to the noise such as the falling sound of the object and the recognition result is generated when the user does not want it.
또한, 사용자가 원하지 않는 시점에서도 항상 인식을 수행해야할 뿐만 아니라 사용자와 로봇과의 거리, 발성 자세 및 마이크로폰의 위치 등에 따라 사용자가 협조적으로 목소리의 크기나 발성 위치 등을 조절해 주어야 하는 불편함이 있다.In addition, it is not only necessary to always perform recognition even when the user does not want it, but there is an inconvenience in that the user cooperatively adjusts the voice size or the voice position according to the distance between the user and the robot, the voice posture, and the position of the microphone. .
더욱이, 종래의 화자인식은 주로 보안이라는 관점에서 다루어져 왔기 때문에 제한된 환경과 적극적인 사용자를 가정할 수 있었다. 그러나 로봇 환경에서 화자인식은 다양한 잡음과 비협조적인 사용자를 대상으로 하기 때문에 지능형 서비스 로봇을 위해서는 잡음에 강건하고 사용자의 협조를 최소한으로 하는 화자인식 시스템이 필요하다. Moreover, the conventional speaker recognition has been mainly dealt with in terms of security, and therefore, it is possible to assume a limited environment and active users. However, since speaker recognition targets various noises and uncooperative users in a robotic environment, a speaker recognition system that is robust against noise and minimizes user cooperation is required for intelligent service robots.
따라서 본 발명의 목적은 지능형 로봇 서비스 시스템에서 모바일 로봇에 부착된 무선 마이크로폰을 사용하여 주변 잡음에 강건하고, 사용자가 원하는 시점에 유효 음성을 취득하여 화자 인식(음성인식)을 수행하기 위한 방법 및 장치를 제공함에 있다. Accordingly, an object of the present invention is a method and apparatus for performing speaker recognition (speech recognition) by being robust to ambient noise using a wireless microphone attached to a mobile robot in an intelligent robot service system and acquiring an effective voice at a desired point in time. In providing.
상기 이러한 본 발명의 목적을 달성하기 위한 무선 마이크로폰을 이용한 화자 인식 방법은, 서비스 로봇 환경의 지능형 로봇 서비스 시스템에서, 무선 마이크로폰을 이용하여 화자들을 각각 등록하는 과정과, 상기 등록된 화자들 중 무선 마이크로폰 송신기를 이용하여 발성을 한 화자로부터 무선 마이크로폰 수신기를 통해 유효 음성 데이터를 수신하는 과정과, 상기 수신된 유효 음성 데이터에서 특징을 추출하는 과정과, 상기 추출된 특징을 이용하여 적어도 하나의 화자 모델을 생성하는 과정과, 상기 추출된 특징과 상기 생성된 화자 모델 간의 유사도를 측정하여 상 기 화자를 인식하는 과정을 포함하는 것을 특징으로 한다. The speaker recognition method using a wireless microphone for achieving the object of the present invention, in the intelligent robot service system of the service robot environment, the process of registering the speakers using the wireless microphone, respectively, the wireless microphone of the registered speakers Receiving valid voice data from a talker using a transmitter through a wireless microphone receiver, extracting a feature from the received valid voice data, and using the extracted feature to generate at least one speaker model. And generating a similarity between the extracted feature and the generated speaker model to recognize the speaker.
상기 본 발명의 목적을 달성하기 위한 장치는, 서비스 로봇 환경의 지능형 로봇 서비스 시스템에서, 무선 마이크로폰을 이용하여 화자를 인식하기 위한 장치로서, 발성을 한 화자로부터 무선 마이크로폰 송신기를 통해 유효 음성 데이터를 수신하는 무선 마이크로폰 수신기와, 상기 수신된 유효 음성 데이터에서 특징을 추출하는 특징 추출부와, 상기 추출된 특징을 이용하여 적어도 하나의 화자 모델을 생성하는 화자 모델 생성부와, 상기 추출된 특징과 상기 생성된 화자 모델 간의 유사도를 측정하여 상기 화자를 인식하는 화자 인식부를 포함하는 것을 특징으로 한다. The apparatus for achieving the object of the present invention, in an intelligent robot service system of a service robot environment, a device for recognizing a speaker using a wireless microphone, receiving effective voice data from the talker through a wireless microphone transmitter A wireless microphone receiver, a feature extractor for extracting a feature from the received valid speech data, a speaker model generator for generating at least one speaker model using the extracted feature, and the extracted feature and the generation And a speaker recognition unit for recognizing the speaker by measuring the similarity between the speaker models.
이하, 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. First of all, in adding reference numerals to the components of each drawing, it should be noted that the same reference numerals have the same reference numerals as much as possible even if displayed on different drawings. In the following description of the present invention, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted.
본 발명의 실시예에 따른 지능형 로봇 서비스 시스템은 마이크로폰을 이용하는 지능형 로봇 시스템을 적용한다. 이러한 지능형 로봇 서비스 시스템의 구조를 첨부된 도면을 참조하여 설명하기로 한다. The intelligent robot service system according to the embodiment of the present invention applies an intelligent robot system using a microphone. The structure of such an intelligent robot service system will be described with reference to the accompanying drawings.
도 1은 본 발명의 실시예에 따른 무선 마이크로폰을 이용한 지능형 로봇 서 비스 시스템의 구조를 도시한 구성도이고, 도 2는 본 발명의 실시예에 따른 지능형 로봇 서비스 시스템에서의 화자 인식 장치의 구조를 도시한 구성도이다. 1 is a block diagram showing the structure of an intelligent robot service system using a wireless microphone according to an embodiment of the present invention, Figure 2 is a structure of a speaker recognition apparatus in an intelligent robot service system according to an embodiment of the present invention The configuration diagram shown.
상기 도 1을 참조하면, 상기 지능형 로봇 서비스 시스템은 송신측의 무선 마이크로폰 송신기(120)와, 수신측의 무선 마이크로폰 수신기(111)가 부착된 지능형 로봇(110)으로 이루어진다. Referring to FIG. 1, the intelligent robot service system includes a
상기 지능형 로봇(110)은 상기 송신측의 발성자가 자신이 가진 무선 마이크로폰 송신기(120)를 이용하여 음성 데이터를 전송하면, 부착된 무선 마이크로폰 수신기(111)에서 상기 음성 데이터를 수신하여 화자 인식을 수행하는 장치(이하, 화자 인식 장치라 칭함)이다. 이러한 화자 인식 장치의 구체적인 구조를 첨부된 도면을 참조하여 설명하기로 한다. The
상기 무선 마이크로폰 송신기(120)는 상기 화자 인식을 원하는 시점에만 상기 발성자(사용자)에 의해 ON되어 유효 음성을 입력받아 상기 무선 마이크로폰 수신기(111)로 입력된 유효 음성의 데이터를 전송한다.The
상기 도 2를 참조하면, 화자 인식 장치는 음성 입력부(112)와, 특징 추출부(113)와, 화자 모델 생성부(114)와, 화자 인식부(115) 및 저장부(116)를 포함하며, 외부에 상기 마이크로폰 수신기(111)가 부착된 형태로 이루어진다. 그리고 상기 화자 인식 장치는 상기 마이크로폰 수신기(111)가 상기 마이크로폰 송신기(120)로부터 음성 데이터를 수신함에 따라 구동된다. 이에 따라 상기 화자 인식 장치는 발성자(사용자)가 원하는 시점에만 구동되게 된다. Referring to FIG. 2, the speaker recognition apparatus includes a
상기 음성 입력부(112)는 무선 마이크로폰의 수신기(111)에서 수신한 음성 데이터(입력 데이터)를 입력 받아 상기 특징 추출부(113)로 전달한다. The
상기 특징 추출부(113)는 상기 음성 입력부(110)로부터 전달된 음성 데이터를 프레임별로 나누고 각 프레임에 해당하는 멜 캡스트럼 계수를 구하여 특징을 추출한다. The
상기 화자 모델 생성부(114)는 상기 특징 추출부(113)에서 구한 멜 캡스트럼 계수(Cepstrum Coefficient)를 화자별로 모으고, 상기 구해진 멜 캡스트럼 계수를 추출된 특징으로서 이용하여 가우시안 혼합 모델(화자 모델)을 생성함으로써, 화자 인식기를 구축한다. 여기서 캡스트럼(Cepstrum)은 DFT나 FFT 결과가 크기값에 대해 명확하지 않은 것을 보완한 알고리즘이다. 따라서 캡스트럼(Cepstrum)은 지진이나 진동, 음성인식 등 미세 신호 분석에 많이 사용하고 있다.The
상기 화자 인식부(115)는 기 화자 모델 생성부(114)에서 구축된 화자 인식기를 이용하여 추출된 특징과 각 화자모델 간의 거리를 측정하여 화자를 인식하며, 등록 화자 중 누군가가 발성을 했을 때 최대 사후 확률(maximum a posteriori probability)을 가진 화자 모델을 찾는 방법에 의해 화자 인식을 한다. The
상기 저장부(116)는 화자 등록 정보, 수신된 음성 데이터, 상기 생성된 화자 모델에 대한 정보 및 화자 인식에 대한 결과 정보 등을 저장한다. The
이와 같은 구조를 갖는 화자 인식 장치에서 화자 인식을 위한 방법을 설명하기로 한다. A method for speaker recognition in a speaker recognition apparatus having such a structure will be described.
우선, 화자 인식 장치는 각 화자의 온라인 등록을 수행한 후 등록된 정보를 미리 저장한다. 이후, 온라인 등록된 화자 중 임의의 화자가 무선 마이크로폰 송신기를 통해 음성 데이터를 전송하면, 상기 화자 인식 장치는 무선 마이크로폰 수신기(111)를 통해 상기 음성 데이터를 수신하고, 수신된 음성 데이터를 입력 데이터로 음성 입력부(112)를 통해 내부 장치로 입력하여 내부 장치들을 통해 화자 인식을 수행한다. 이러한 과정을 첨부된 도면을 참조하여 보다 구체적으로 설명하기로 한다. First, the speaker recognition apparatus performs online registration of each speaker and stores the registered information in advance. Thereafter, when any of the registered speakers online transmits the voice data through the wireless microphone transmitter, the speaker recognition apparatus receives the voice data through the
도 3은 본 발명의 실시예에 따라 지능형 로봇 서비스 시스템에서 화자 인식을 위한 방법을 도시한 흐름도이다. 3 is a flowchart illustrating a method for speaker recognition in an intelligent robot service system according to an embodiment of the present invention.
상기 도 3을 참조하면, 201단계에서 상기 화자 인식 장치(110)는 음성 데이터가 수신되었는지를 확인한다. 이때, 음성 데이터가 수신되면 202단계에서 상기 화자 인식 장치(110)는 특징 추출부(113)를 통해 전달된 음성 데이터를 프레임별로 나누고 각 프레임에 해당하는 멜 캡스트럼 계수를 구하여 특징을 추출한다. Referring to FIG. 3, in
그런 다음 203단계에서 상기 화자 인식 장치(110)는 상기 추출된 특징을 이용하여 상기 구한 멜 갭스트럼 계수 즉, 특징을 전달받아 화자별로 모으고, 204단계에서 가우시안 혼합 모델을 통해 화자별 화자 모델을 생성하여 화자 인식기를 구축한다. 이러한 화자 인식기를 구축하기 위해서는 D차원의 특징벡터에 대해서 화자에 대한 혼합 밀도를 구해야 하는데, 상기 혼합 밀도를 구하기 위한 식은 하기 <수학식 1>과 같이 나타낼 수 있다. Then, in
상기 <수학식 1>에서 wi는 혼합 가중치를 의미하며, bi 는 가우시안 혼합모델을 통해 얻어진 확률을 의미하며, 하기 <수학식 2>과 같이 나타낼 수 있다. In Equation 1, w i denotes a mixed weight, and b i Denotes a probability obtained through a Gaussian mixture model, and may be expressed as Equation 2 below.
그리고 상기 <수학식 1>에서 밀도는 평균벡터와 공분산 행렬에 의해 파라미터화된 M개의 가우시안 혼합모델의 가중치된 선형적인 결합이다. In Equation 1, the density is a weighted linear combination of M Gaussian mixture models parameterized by the mean vector and the covariance matrix.
이후, 204단계에서 상기 화자 인식 장치(110)는 화자 모델을 생성하여 화자 인식기를 구축한다. 이러한 화자 모델은 임의의 화자로부터 음성이 주어졌을 때 가우시안 혼합모델의 파라미터를 추정함으로써 생성될 수 있다. 이에 대한 잘 알려진 방법은 최대 우도 추정방법(maximum likelihood estimation)이 있다. 이러한 최대 우도 추정방법을 이용하여 가우시안 혼합모델의 파라미터 추정에 대해 설명하기로 하면 다음과 같다. Thereafter, in
T개의 프레임으로 구성된 한 음성으로부터 얻어진 확률에 대한 가우시안 혼합 모델의 우도 값은 하기 <수학식 3>과 같이 나타낼 수 있다. The likelihood value of the Gaussian mixture model for the probability obtained from one voice composed of T frames may be expressed as in Equation 3 below.
상기 <수학식 3>에서 화자 모델의 파라미터는 가중치, 평균, 공분산으로 구성된 , i=1, 2, ... ,M 이다. 최대 우도 파라미터 추정은 잘 알려진 최대 기대치(EM : Expectation- Maximization) 알고리즘을 이용함으로써 얻을 수 있다. In Equation 3, the parameter of the speaker model is composed of weight, average, and covariance. , i = 1, 2, ..., M Maximum likelihood parameter estimation can be obtained by using a well-known Expectation-Maximization (EM) algorithm.
그러면 이렇게 추정된 가우시안 혼합 모델의 최대 우도 파라미터를 이용하여 GMM(Gaussain Mixture Model) 기반의 각 화자들의 화자 모델을 생성하게 되며, 생성된 화자 모델들을 이용하여 화자 인식기를 구축한다. 이에 따라 상기 화자 인식부(115)는 상기 구축된 인식기를 이용하게 된다. 그리고 상기 추정된 최대 우도 파라미터 및 생성된 화자 모델에 대한 정보는 저장부(116)에 저장되어 관리된다. Then, the speaker model of each speaker based on Gaussian Mixture Model (GMM) is generated using the maximum likelihood parameter of the estimated Gaussian mixture model, and a speaker recognizer is constructed using the generated speaker models. Accordingly, the
그런 다음 상기 화자 인식 장치(110)는 화자 인식부(115)를 통해 등록된 화자들 중 임의의 화자가 발성을 했을 때 최대 사후 확률(maximum a posteriori probability 이하, MAP이라 칭함)을 가진 화자 모델을 찾아 화자를 인식하게 된다. 여기서 MAP 방식이란 사후확률을 최대한으로 하여서 신호의 유사성 정도를 최대로 하여서 원하는 신호를 찾아내는 방식을 말하며 LLR(Log Likelihood Ratio)을 크게 하여서 LLR이 0보다 크면 1로 0보다 작으면 0으로 복원해 내는 방식을 말한다. Then, the
다시 말해, 205단계에서 상기 화자 인식 장치(110)는 상기 203단계에서 추출된 특징과 생성되어 있는 각 화자모델과 유사도를 측정한다. 상기 유사도의 측정은 추출된 특징과 각 화자들 간의 거리를 측정함에 따라 얻을 수 있다. 그러면 206단계에서 상기 화자 인식 장치(110)는 상기 추출된 특징과 현재 화자 모델과의 유사도 측정 결과, MAP을 가진 화자 모델인지를 확인하여 MAP을 가진 화자 모델이 아닌 경우 다음 화자 모델과의 유사도를 측정하기 위해 205단계를 진행한다. 반면 그렇지 않은 경우 207단계에서 상기 화자 인식 장치(110)는 상기 측정된 결과에 따라 MAP 화자 모델로 확인된 화자를 인식한다. 이러한 MAP을 가진 화자 모델을 찾는 방법에 의한 화자 인식에 대해서는 하기 <수학식 4>와 같이 나타낼 수 있다. In other words, in
상기 <수학식 4>는 S명의 화자( S={1,2,3...,S})중 사후확률을 최대화하는 모델의 화자를 찾는 것으로서, λ는 화자모델, x는 입력된 음성, P는 확률을 의미한다. Equation 4 is to find a speaker of a model that maximizes the posterior probability among S speakers (S = {1,2,3 ..., S}), λ is a speaker model, x is an input voice, P means probability.
상술한 바와 같은 본 발명의 실시예에 따른 화자 인식을 위한 화자 인식 등록 및 인식 장치는 사용자가 원하는 시점에만 구동되어야 한다. The speaker recognition registration and recognition device for speaker recognition according to an embodiment of the present invention as described above should be driven only at a point in time desired by the user.
따라서 화자 인식을 원치 않는 시점에는 발성자(사용자)가 자신의 무선 마이크로폰 송신기를 OFF하여 유효 음성의 입력을 전면 차단한다. 반면, 화자 인식을 원하는 시점에는 발성자가 자신의 무선 마이크로폰 송신기를 ON하여 유효 음성의 입력을 받고, 입력된 유효 음성을 무선으로 상기 무선 마이크로폰 수신기를 통해 상기 화자 인식 장치(지능형 로봇)로 전달한다. 이에 따라 상기 화자 인식 장치는 상기 유효 음성의 입력 여부에 따라 구동되어 로봇 환경에서 문장 독립 화자 인식을 수행함으로써 사용자에게 맞춤형 서비스를 제공할 수 있다. Therefore, when the speaker does not want to recognize the speaker, the speaker (user) turns off his wireless microphone transmitter to completely block input of the effective voice. On the other hand, when the speaker recognizes the speaker, the speaker turns on his wireless microphone transmitter to receive an effective voice input, and wirelessly transmits the input effective voice to the speaker recognition apparatus (intelligent robot) through the wireless microphone receiver. Accordingly, the speaker recognition apparatus may be driven according to whether the valid voice is input to provide a customized service to a user by performing sentence independent speaker recognition in a robot environment.
한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 발명청구의 범위뿐 만 아니라 이 발명청구의 범위와 균등한 것들에 의해 정해져야 한다.Meanwhile, in the detailed description of the present invention, specific embodiments have been described, but various modifications are possible without departing from the scope of the present invention. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be defined not only by the scope of the following claims, but also by the equivalents of the claims.
상술한 바와 같이 본 발명은 지능형 로봇 서비스 시스템에서 무선 마이크로폰을 이용함으로써, 무선 마이크로폰의 송신기를 가진 발성자(사용자)는 마이크로폰의 ON/OFF만으로도 손쉽게 VAD 기능을 대신할 수 있기 때문에 사용자가 원하는 시점에만 화자 인식 시스템을 동작시킬 수 있으며, 잡음에 강건하고 사용자 협조를 최소화함으로써, 로봇과의 거리나 발성자세 등을 고려할 필요 없이 자유로운 자세로 발성할 수 있는 효과가 있다. As described above, the present invention uses the wireless microphone in the intelligent robot service system, so that a speaker (user) having a transmitter of the wireless microphone can easily replace the VAD function only by turning on / off the microphone, so that the user can only By operating the speaker recognition system and being robust against noise and minimizing user cooperation, there is an effect that the user can speak freely without considering the distance from the robot or the talking posture.
Claims (16)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060087009A KR20080023033A (en) | 2006-09-08 | 2006-09-08 | Speaker recognition method and system using wireless microphone in robot service system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060087009A KR20080023033A (en) | 2006-09-08 | 2006-09-08 | Speaker recognition method and system using wireless microphone in robot service system |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080023033A true KR20080023033A (en) | 2008-03-12 |
Family
ID=39396813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060087009A KR20080023033A (en) | 2006-09-08 | 2006-09-08 | Speaker recognition method and system using wireless microphone in robot service system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20080023033A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
WO2018131752A1 (en) * | 2017-01-11 | 2018-07-19 | (주)파워보이스 | Personalized voice recognition service providing method using artificial intelligent automatic speaker identification method, and service providing server used therein |
WO2021091145A1 (en) * | 2019-11-04 | 2021-05-14 | Samsung Electronics Co., Ltd. | Electronic apparatus and method thereof |
-
2006
- 2006-09-08 KR KR1020060087009A patent/KR20080023033A/en not_active Application Discontinuation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
US9626970B2 (en) | 2014-12-19 | 2017-04-18 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
WO2018131752A1 (en) * | 2017-01-11 | 2018-07-19 | (주)파워보이스 | Personalized voice recognition service providing method using artificial intelligent automatic speaker identification method, and service providing server used therein |
US11087768B2 (en) | 2017-01-11 | 2021-08-10 | Powervoice Co., Ltd. | Personalized voice recognition service providing method using artificial intelligence automatic speaker identification method, and service providing server used therein |
WO2021091145A1 (en) * | 2019-11-04 | 2021-05-14 | Samsung Electronics Co., Ltd. | Electronic apparatus and method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10373609B2 (en) | Voice recognition method and apparatus | |
JP4796309B2 (en) | Method and apparatus for multi-sensor speech improvement on mobile devices | |
KR101178801B1 (en) | Apparatus and method for speech recognition by using source separation and source identification | |
WO2018018906A1 (en) | Voice access control and quiet environment monitoring method and system | |
TWI442384B (en) | Microphone-array-based speech recognition system and method | |
KR100636317B1 (en) | Distributed Speech Recognition System and method | |
JP2018049143A (en) | Voice acquisition system and voice acquisition method | |
US20140214426A1 (en) | System and method for improving voice communication over a network | |
KR20080090034A (en) | Voice speaker recognition method and apparatus | |
JP2011191423A (en) | Device and method for recognition of speech | |
KR100639968B1 (en) | Apparatus for speech recognition and method therefor | |
CN110299143B (en) | Apparatus for recognizing a speaker and method thereof | |
CN111986675A (en) | Voice conversation method, device and computer readable storage medium | |
JP2018169473A (en) | Voice processing device, voice processing method and program | |
US20210056961A1 (en) | Information processing apparatus and information processing method | |
Yoo et al. | Automatic sound recognition for the hearing impaired | |
KR20110010233A (en) | Apparatus and method for speaker adaptation by evolutional learning, and speech recognition system using thereof | |
JP2008242067A (en) | Voice recognition device, voice recognition system, and voice recognition method | |
KR20080023033A (en) | Speaker recognition method and system using wireless microphone in robot service system | |
Diaconita et al. | Do you hear what i hear? using acoustic probing to detect smartphone locations | |
Jeon et al. | Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model | |
JP2003241788A (en) | Device and system for speech recognition | |
KR101863098B1 (en) | Apparatus and method for speech recognition | |
JP5147012B2 (en) | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium | |
Lee et al. | Space-time voice activity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |