KR102102387B1 - Method and System for detecting User's utterance in a multi-channel audio environment - Google Patents

Method and System for detecting User's utterance in a multi-channel audio environment Download PDF

Info

Publication number
KR102102387B1
KR102102387B1 KR1020180129863A KR20180129863A KR102102387B1 KR 102102387 B1 KR102102387 B1 KR 102102387B1 KR 1020180129863 A KR1020180129863 A KR 1020180129863A KR 20180129863 A KR20180129863 A KR 20180129863A KR 102102387 B1 KR102102387 B1 KR 102102387B1
Authority
KR
South Korea
Prior art keywords
speaker
speech
inflection point
utterance
query
Prior art date
Application number
KR1020180129863A
Other languages
Korean (ko)
Inventor
김도훈
최인정
Original Assignee
주식회사 사운드잇
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 사운드잇 filed Critical 주식회사 사운드잇
Priority to KR1020180129863A priority Critical patent/KR102102387B1/en
Application granted granted Critical
Publication of KR102102387B1 publication Critical patent/KR102102387B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies

Abstract

As one preferred embodiment of the present invention, a method for detecting an utterance section of a speaker in a multi-channel audio streaming input may reduce an amount of calculation required for caller recognition in a multi-channel audio environment using an audio inflection point, detect a call word utterance section and a query utterance section only at the audio inflection point, and detect similarity of a speaker detected in each of the call word utterance section and the query utterance section, thereby improving accuracy of speaker recognition.

Description

다채널오디오스트리밍에서 화자의 발화구간을 검출하는 방법 및 시스템{Method and System for detecting User's utterance in a multi-channel audio environment}Method and system for detecting user's utterance in a multi-channel audio environment}
본 발명은 화자 인식에 관한 것이다. 보다 상세히, 다채널 오디오 생성 환경하에서 특정 화자의 발화를 인식하는 방법에 관한 것이다. The present invention relates to speaker recognition. More specifically, it relates to a method of recognizing a specific speaker's speech under a multi-channel audio generation environment.
최근에 인공지능 스피커의 보급이 활발해지고 있으며, 특히 인공지능 스피커에서 음성 입출력에 의한 질의응답 기능이 필수 기능으로 자리잡고 있다. 인공지능 스피커는 인공지능 스피커 자체에서 음악이 재생되는 환경 등에서는 반향 제거 기술 등을 적용하여 사용자 명령을 인식하고, 답변을 제공할 수 있다. 그러나, TV나 다른 오디오 기기에서 방송이나 음악이 재생되는 환경 하에서는 인공지능 스피커가 사용자의 음성을 인식하는데 있어 한계가 있다. Recently, the spread of artificial intelligence speakers has been actively activated, and in particular, the question and answer function by voice input / output is becoming an essential function in artificial intelligence speakers. The artificial intelligence speaker may recognize a user command and provide an answer by applying an echo cancellation technology, etc. in an environment in which music is played in the artificial intelligence speaker itself. However, in an environment in which broadcast or music is played on a TV or other audio device, the artificial intelligence speaker has a limitation in recognizing a user's voice.
JP 2016-536626JP 2016-536626
본 발명의 바람직한 일 실시예에서는 주위 다른 사람이 말하는 중이거나, TV 또는 다른 오디오 기기에서 방송이나 음악이 재생되는 환경하에서, 특정 화자의 음성발화 구간을 정확하게 검출하는 방법 및 장치를 제안하고자 한다.In a preferred embodiment of the present invention, it is intended to propose a method and apparatus for accurately detecting a voice talk section of a specific speaker in an environment in which other people are speaking or broadcasting or music is played on a TV or other audio device.
본 발명의 또 다른 바람직한 일 실시예에서는 일반적인 호출어 발화구간 검색 및 인식의 경우 음성구간이라고 판별되는 모든 순간마다 호출어의 시작과 끝이 가능하다고 가정하여 인식을 수행하게 되므로 특정화자의 호출어 발화가 없는 일반적인 유효 음향이 입력되는 순간에도 상당한 계산량이 소요되는 문제를 해결하고자 한다. In another preferred embodiment of the present invention, in the case of searching and recognizing a general call language spoken section, recognition is performed assuming that the start and end of the caller is possible at every moment that is determined to be a voice section. It is intended to solve the problem that a considerable amount of computation is required even at the moment when a general effective sound without a signal is input.
본 발명의 바람직한 일 실시예로서, 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 방법은 화자의 음성발화와 주변 소리가 포함된 다채널오디오스트리밍입력에서 음원 속성이 변경되거나 또는 화자가 변경되는 지점을 나타내는 적어도 하나의 오디오 변곡점을 검출하는 단계; 상기 다채널오디오스트리밍입력 중 상기 검출된 적어도 하나의 오디오 변곡점을 기준으로 호출어 모델과의 유사도를 측정하여 화자의 호출어발화구간을 검출하는 단계; 상기 다채널오디오스트리밍입력에서 상기 검출된 호출어 발화구간 이후에 뒤따라오는 구간에서 검출된 적어도 하나의 오디오 변곡점의 조합을 기초로 적어도 하나의 질의어발화구간후보를 모두 검출하는 단계; 상기 검출된 호출어발화구간과 상기 검출된 적어도 하나의 질의어발화구간후보 각각을 비교하여 화자유사도를 측정하는 단계;및 상기 적어도 하나의 질의어발화구간후보 중 상기 화자유사도가 기설정된 값을 초과하는 질의어발화구간후보들을 선택하고, 선택된 질의어발화구간후보들 중 최장의 발화구간을 질의어발화구간으로 판정하는 단계;를 포함하는 것을 특징으로 한다. As a preferred embodiment of the present invention, a method of detecting a speaker's speech section from a multi-channel audio streaming input includes changing a sound source property or changing a speaker at a multi-channel audio streaming input including a speaker's voice speech and ambient sound. Detecting at least one audio inflection point representing a point; Detecting a speaker's call-speaking section by measuring similarity with a caller's model based on the detected at least one audio inflection point among the multi-channel audio streaming inputs; Detecting at least one query speech utterance candidate based on a combination of at least one audio inflection point detected in a section following the detected speech utterance section at the multi-channel audio streaming input; Measuring a speaker similarity by comparing each of the detected call word speech section and each of the detected at least one query word speech section candidate; and a query word in which the speaker similarity among the at least one query word speech section candidate exceeds a preset value It is characterized in that it comprises; selecting the utterance section candidates, and determining the longest utterance section among the selected query word utterance sections as the query word utterance section.
본 발명의 바람직한 일 실시예로서, 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 방법은 프로세서로 구현되는 제어부에서 상기 다채널오디오스트리밍입력을 전처리(pre-processing)하여 특징벡터를 추출하고, 추출한 특징벡터를 이용하여 파악한 피치정보를 기초로 안정적인 피치 지속길이(stable pitch duration)를 결정하며, 그리고 피치변곡점을 검출하고, 상기 적어도 하나의 오디오 변곡점을 검출하는 단계는 상기 제어부에서 검출된 피치변곡점에 대해서만 상기 적어도 하나의 오디오 변곡점을 검출하는 것을 특징으로 하는 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 것을 특징으로 한다. As a preferred embodiment of the present invention, a method of detecting a speaker's speech duration from a multi-channel audio streaming input is performed by pre-processing the multi-channel audio streaming input in a controller implemented by a processor to extract a feature vector, Determining a stable pitch duration based on the pitch information obtained by using the extracted feature vector, and detecting a pitch inflection point, and detecting the at least one audio inflection point, the pitch inflection point detected by the controller It is characterized in that for detecting the speaker's utterance section in the multi-channel audio streaming input, characterized in that for detecting the at least one audio inflection point.
본 발명의 또 다른 바람직한 일 실시예로서, 화자발화구간을 검출하는 시스템에서 화자의 발화구간을 검출하는 방법으로서, 상기 시스템은 스피커, 빔포머, 메모리, 프로세서; 주변환경에서 캡처한 사운드에서 적어도 하나 이상의 오디오스트리밍입력을 생성하는 복수의 마이크로폰; 및 화자 모델(speaker model) 및 상기 프로세서에서 실행되는 컴퓨터로 실행가능한 명령을 저장하는 메모리;를 포함하고, 상기 프로세서는 다채널오디오스트리밍입력에서 추출한 특징벡터를 기초로 피치정보를 파악하여 피치변곡점을 검출하는 단계; 상기 피치변곡점에 대해서만 상기 다채널오디오스트리밍입력의 적어도 하나의 오디오 변곡점을 검출하는 단계;상기 적어도 하나의 오디오 변곡점 지점을 기초로 호출어 발화구간과 질의어 발화구간을 각각 검출하는 단계; 상기 호출어 발화구간에서 식별한 화자가 상기 메모리에 기등록된 화자인지를 판단하는 단계;및 상기 호출어 발화구간의 화자와 상기 질의어 발화구간의 화자가 일치하는지를 판단하여, 일치하는 경우 해당 화자의 질의어에 대한 응답을 제공하는 단계;를 실행하는 명령어를 저장하는 것을 특징으로 한다. As another preferred embodiment of the present invention, a method of detecting a speaker's speech section in a system for detecting a speaker's speech section, the system comprising: a speaker, a beamformer, a memory, a processor; A plurality of microphones generating at least one audio streaming input from the sound captured in the surrounding environment; And a memory for storing a computer model executable instruction executed by the speaker model and the processor, wherein the processor identifies the pitch information based on the feature vector extracted from the multi-channel audio streaming input to determine the pitch inflection point. Detecting; Detecting at least one audio inflection point of the multi-channel audio streaming input only for the pitch inflection point; detecting a caller speech section and a query speech speech section based on the at least one audio inflection point; Determining whether a speaker identified in the caller speech section is a speaker pre-registered in the memory; and determining whether the speaker of the caller speech section and the query word speech section match, and if so, the corresponding speaker Providing a response to the query; storing an instruction to execute.
본 발명의 또 다른 바람직한 일 실시예로서, 상기 프로세서는 상기 호출어 발화구간에서 식별한 화자가 상기 기등록된 화자인 경우, 상기 질의어 발화구간의 화자를 식별할 때 상기 기등록된 화자의 텍스트독립형 성문모델과의 식별점수를 기준으로 상기 호출어 발화구간의 화자와 일치하는지를 판단하는 단계;를 실행하는 명령어를 더 저장하는 것을 특징으로 한다.In another preferred embodiment of the present invention, when the speaker identified in the caller speech section is the pre-registered speaker, the processor is independent of the text of the pre-registered speaker when identifying the speaker in the query word speech section. And determining whether the speaker matches the speaker of the caller speech section based on the identification score with the voiceprint model.
본 발명의 또 다른 바람직한 일 실시예로서, 상기 적어도 하나의 오디오 변곡점을 검출하는 단계는 상기 빔포머를 이용하여 파악한 음원방향 정보를 더 이용하여 상기 오디오 변곡점을 검출하는 것을 특징으로 한다. As another preferred embodiment of the present invention, the detecting of the at least one audio inflection point is characterized by detecting the audio inflection point by further using sound source direction information identified using the beamformer.
본 발명의 또 다른 바람직한 일 실시예로서, 상기 호출어 발화구간의 화자와 상기 질의어 발화구간의 화자가 일치하는지를 판단하기 위해 화자유사도를 측정하여 판단하는 것을 특징으로 한다.As another preferred embodiment of the present invention, in order to determine whether the speaker of the talker utterance section coincides with the speaker of the query utterance section, it is characterized by measuring and measuring speaker similarity.
본 발명의 바람직한 일 실시예로서, 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 방법은 주위 다른 사람이 말하는 중이거나, TV 또는 다른 오디오 기기에서 방송이나 음악이 재생되는 환경 하에서서도 화자가 인공지능 스피커나 스마트 TV에 음성 명령을 내릴 때, 오디오 변곡점 검출에 의해 호출어와 질의어 발화구간을 정교하게 검출하는 효과가 있다.As a preferred embodiment of the present invention, a method for detecting a speaker's speech section from a multi-channel audio streaming input is spoken by other people, or the speaker is artificial even in an environment in which broadcast or music is played on a TV or other audio device. When a voice command is issued to an intelligent speaker or a smart TV, it has an effect of precisely detecting a spoken section between a caller and a query by detecting an inflection point of an audio.
또한, 본 발명의 또 다른 바람직한 일 실시예에서는 다채널 음성처리에 의한 음원 방향의 변화 정보를 함께 사용하여 오디오 변곡점 검출을 더 정교하게 검출하게 되어 특정 화자의 발화구간 검출 성능 개선과 더 높은 품질의 음향신호 취득의 이점이 있다.In addition, in another preferred embodiment of the present invention, audio inflection point detection is more precisely detected by using the change information of the sound source direction by multi-channel speech processing, thereby improving the detection performance of a specific speaker's speech section and improving the quality. There is an advantage of acquiring sound signals.
본 발명의 바람직한 일 실시예에서는 또한, 호출어 발화 구간을 먼저 검출한 후에 임의의 묵음길이 후에 따라오는 질의어 발화구간 검출 과정에서, 호출어 발화 구간과 질어어 발화구간과의 화자 유사도를 측정하여 같은 화자가 발화한 질의어 발화구간을 더 정교하게 검출할 수 있는 효과가 있다.In a preferred embodiment of the present invention, in the process of detecting a speech utterance section followed by an arbitrary silence length after detecting the speech utterance section first, the similarity is measured by measuring the speaker similarity between the speech utterance section and the speech utterance section. It has the effect of more accurately detecting the speech utterance section spoken by the speaker.
본 발명의 바람직한 일 실시예에서는 화자인식 기능이 구비된 조건 하에서 상기 오디오 변곡점 검출 기능과 화자식별 기능을 결합하여 특정 화자의 발화구간 검출과 사용자 식별 성능을 높임으로써 스마트 기기에서의 음성인터페이스 서비스 및 어플리케이션의 품질을 올릴 수 있는 이점이 있다.According to a preferred embodiment of the present invention, by combining the audio inflection point detection function and the speaker identification function under a condition in which the speaker recognition function is provided, voice interface service and application in a smart device by increasing a speaker's speech section detection and user identification performance There is an advantage to increase the quality of.
도 1 은 본 발명의 바람직한 일 실시예로서, 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 시스템을 도시한다.
도 2 는 본 발명의 바람직한 일 실시예로서, 화자의 발화구간을 검출하는 전자장치의 내부 구성도를 도시한다.
도 3 은 본 발명의 바람직한 일 실시예로서, 오디오 변곡점을 화자의 발화구간 검출에 이용하는 일 실시예를 도시한다.
도 4 내지 5 는 본 발명의 바람직한 일 실시예로서, 오디오 변곡점 및 음원방향 정보를 화자의 발화구간 검출에 이용하는 일 실시예를 도시한다.
도 6 은 본 발명의 바람직한 일 실시예로서, 오디오 변곡점을 이용하여 화자의 발화구간 검출시 발화구간을 미세조정하는 일 예를 도시한다.
도 7 은 본 발명의 바람직한 일 실시예로서, 오디오 변곡점을 이용하여 질의어 발화구간 후보를 검출하기 위한 과정의 일 예를 도시한다.
1 is a preferred embodiment of the present invention, showing a system for detecting a speaker's speech duration at a multi-channel audio streaming input.
2 is a preferred embodiment of the present invention, showing an internal configuration diagram of an electronic device for detecting a speaker's utterance section.
3 is a preferred embodiment of the present invention, showing an embodiment using an audio inflection point for the speaker's utterance section detection.
4 to 5 are preferred embodiments of the present invention, and show an embodiment of using audio inflection point and sound source direction information to detect a speaker's speech section.
6 is a preferred embodiment of the present invention, using an audio inflection point shows an example of fine-tuning the utterance section when the speaker's utterance section is detected.
7 is a preferred embodiment of the present invention, and shows an example of a process for detecting a candidate for a speech utterance section using an audio inflection point.
이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.Hereinafter, various embodiments of the present invention will be described with reference to the accompanying drawings. However, this is not intended to limit the present invention to specific embodiments, and it should be understood that the present invention includes various modifications, equivalents, and / or alternatives. In connection with the description of the drawings, similar reference numerals may be used for similar components.
본 문서의 다양한 실시 예들에 따른 전자 장치는, 예를 들면, 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC (desktop PC), 랩탑 PC(laptop PC), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라, 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다. 다양한 실시 예에 따르면 웨어러블 장치는 액세서리 형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체 형(예: 전자 의복), 신체 부착 형(예: 스킨 패드(skin pad) 또는 문신), 또는 생체 이식 형(예: implantable circuit) 중 적어도 하나를 포함할 수 있다.An electronic device according to various embodiments of the present disclosure includes, for example, a smart phone, a tablet personal computer (PC), a mobile phone, a video phone, and an e-book reader. Desktop PCs, laptop PCs, netbook computers, workstations, servers, personal digital assistants (PDAs), portable multimedia players (PMPs), MP3 players, mobile medical devices, It may include at least one of a camera or a wearable device. According to various embodiments, the wearable device may be an accessory type (for example, a watch, ring, bracelet, anklet, necklace, glasses, contact lens, or head-mounted device (HMD)), a fabric or a garment type ( Examples may include at least one of an electronic garment, a body attachment type (eg, a skin pad or tattoo), or a bio-implantable type (eg, an implantable circuit).
본 발명의 또 다른 일 실시예에서, 전자 장치는 가전 제품(home appliance)일 수 있다. 가전 제품은, 예를 들면, 텔레비전, DVD 플레이어(Digital Video Disk player), 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), 홈 오토매이션 컨트롤 패널(home automation control panel), 보안 컨트롤 패널(security control panel), TV 박스(예: 삼성 HomeSync™, 애플TV™, 또는 구글 TV™), 게임 콘솔(예: Xbox™, PlayStation™), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다. 이 외에 음성인터페이스를 통해 음성인식 및 음성합성을 수행하는 단말기를 모두 포함한다.In another embodiment of the present invention, the electronic device may be a home appliance. Household appliances include, for example, televisions, DVD players (Digital Video Disk players), audio, refrigerators, air conditioners, vacuum cleaners, ovens, microwave ovens, washing machines, air cleaners, set-top boxes, and home automation. Home automation control panel, security control panel, TV box (eg Samsung HomeSync ™, Apple TV ™, or Google TV ™), game console (eg Xbox ™, PlayStation ™), electronics It may include at least one of a dictionary, an electronic key, a camcorder, or an electronic picture frame. In addition, it includes all terminals that perform speech recognition and speech synthesis through a voice interface.
도 1 은 본 발명의 바람직한 일 실시예로서, 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 시스템을 도시한다. 1 is a preferred embodiment of the present invention, showing a system for detecting a speaker's speech duration at a multi-channel audio streaming input.
다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 시스템(100)은 복수의 마이크로폰(111, 112, 113, 114)을 포함하는 마이크로폰 어레이(110), 음성인식 내지 음성합성을 수행하는 전자장치(120), 오디오를 생성하는 적어도 하나의 단말기(130,131)를 포함한다. 마이크로폰 어레이(110)는 복수의 마이크로폰(111, 112, 113, 114)을 선형 또는 원형 구조로 배치하여 입력 음향을 녹음하도록 구현된다. The system 100 for detecting a speaker's speech section at the multi-channel audio streaming input includes a microphone array 110 including a plurality of microphones 111, 112, 113, and 114, and an electronic device for performing speech recognition or speech synthesis ( 120), at least one terminal (130,131) for generating audio. The microphone array 110 is implemented to record the input sound by arranging the plurality of microphones 111, 112, 113, and 114 in a linear or circular structure.
본 발명의 바람직한 일 실시예로서, 전자장치(120)는 주변환경에서 다채널오디오스트리밍입력을 수신한다. 전자장치(120)는 하나 또는 복수의 마이크로폰(111, 112, 113, 114)으부터의 발성,발언 외에 다양한 단말기(130, 131)로부터의 소음, 전자장치(120)가 배치된 주변환경에서 발생되는 불필요한 음성, 소리, 소음을 포함할 수 있다. 이 경우, 음성인식이 필요한 특정 화자의 발화와 적어도 하나의 단말기(130,131)의 소리, 음성, 전자장치(120)가 배치된 주변환경에서 획득되는 다양한 노이즈, 소리, 음성 등을 동시에 수신할 수 있다. As a preferred embodiment of the present invention, the electronic device 120 receives a multi-channel audio streaming input in a surrounding environment. The electronic device 120 generates noise from various terminals 130 and 131 in addition to voice and speech from one or a plurality of microphones 111, 112, 113, and 114, and an environment in which the electronic device 120 is disposed. It can include unnecessary voice, sound, and noise. In this case, it is possible to simultaneously receive the utterance of a specific speaker requiring speech recognition and various noises, sounds, voices, etc. obtained in the environment in which the sound, voice, and electronic device 120 of at least one terminal 130,131 are arranged. .
본 발명의 또 다른 바람직한 일 실시예로서, 마이크로폰 어레이(110)는 빔포머(Beam Former)(115)를 더 포함하여 음성인식을 수행할 수 있다. 빔포머(115)는 주변환경에서 수신되는 다채널오디오스트리밍입력의 각 채널이 특정 방향으로 음성을 분리하도록 다채널의 음성을 출력할 수 있다. 전자장치(120)는 빔포머(115)로부터 다채널오디오스트리밍입력을 수신하도록 구현될 수 있다. 전자장치(120)는 빔포머(115)를 통해 또는 하나 또는 복수의 마이크로폰(111, 112, 113, 114)으부터 수신한 다채널오디오스트리밍을 입력하여 특정화자의 호출어를 인식하고, 동일한 특정화자의 질의어를 식별하도록 구현된다. As another preferred embodiment of the present invention, the microphone array 110 may further include a beam former 115 to perform speech recognition. The beamformer 115 may output multiple channels of voice so that each channel of the multi-channel audio streaming input received in the surrounding environment separates the voice in a specific direction. The electronic device 120 may be implemented to receive a multi-channel audio streaming input from the beamformer 115. The electronic device 120 recognizes a caller of a specific speaker by inputting multi-channel audio streaming received through the beamformer 115 or from one or more microphones 111, 112, 113, and 114, and the same specific It is implemented to identify the speaker's query language.
도 2 는 본 발명의 바람직한 일 실시예로서, 음성인식을 수행하는 전자장치의 내부 구성도를 도시한다. 2 is a preferred embodiment of the present invention, and shows an internal configuration diagram of an electronic device that performs voice recognition.
음성인식을 수행하는 전자장치(200)는 수신부(210), 제어부(220), 메모리(230) 및 출력부(240)를 포함한다. 또한 데이터 송수신을 위한 통신부와 디스플레이, 센서부 등 음성인식 및 음성합성에 요구되는 구성을 더 포함할 수 있다. The electronic device 200 that performs voice recognition includes a reception unit 210, a control unit 220, a memory 230, and an output unit 240. In addition, it may further include a configuration required for speech recognition and speech synthesis, such as a communication unit and a display, a sensor unit for data transmission and reception.
제어부(220)는 다채널오디오스트리밍처리부(222), 오디오변곡점 검출부(224), 호출어발화구간 검출부(226), 질의어발화구간후보 검출부(250) 및 질의어발화구간 판정부(260)를 포함한다. 호출어발화구간 검출부(226)는 호출어를 인식하는 호출어 인식부(228)를 더 포함할 수 있다. 이 외에도 제어부(220)는 화자인식을 수행하는 화자인식부(미 도시), 질의어발화구간에서 인식한 화자의 질의어에 대응하는 음성을 합성한 음성음답 또는 텍스트 응답을 생성하는 응답생성부(미 도시)를 더 포함할 수 있다. The control unit 220 includes a multi-channel audio streaming processing unit 222, an audio inflection point detection unit 224, a call-to-speech section detection unit 226, a query-to-speech section candidate detection unit 250, and a query-to-speech section determination unit 260. . The call language speaking section detection unit 226 may further include a call language recognition unit 228 for recognizing the call language. In addition, the control unit 220 includes a speaker recognition unit (not shown) that performs speaker recognition, and a response generation unit (not shown) that generates a voice answer or a text response that synthesizes voices corresponding to the speaker's query words recognized in the query speech utterance section. ) May be further included.
출력부(240)는 특정 화자의 질의어 발화를 인식하여 자연어 처리, 응답생성, 음성합성 과정을 통해 생성된 오디오를 출력하거나, 음악 재생을 수행한다. 메모리(230)는 호출어에 대한 음향모델, 등록화자 모델, 사용자 프로파일 정보 등을 저장한다. The output unit 240 recognizes the speech utterance of a specific speaker and outputs audio generated through natural language processing, response generation, and speech synthesis, or performs music reproduction. The memory 230 stores an acoustic model, a registered speaker model, and user profile information for the caller.
전자장치(200)는 수신부(210)를 통해 다채널오디오스트리밍을 수신하여, 다채널오디오스트리밍처리부(222)에서 음성처리에 요구되는 전처리를 수행한다. 다채널오디오스트리밍처리부(222)는 예를 들어 반향제거, 음원방향 추정, 빔포밍(beamforming), 음원분리 등 다양한 기능들을 이용하여 다채널의 입력 오디오스트리밍을 처리할 수 있다. The electronic device 200 receives multi-channel audio streaming through the reception unit 210 and performs pre-processing required for voice processing in the multi-channel audio streaming processing unit 222. The multi-channel audio streaming processing unit 222 may process multi-channel input audio streaming using various functions such as echo cancellation, sound source direction estimation, beamforming, and sound source separation.
본 발명의 바람직한 일 실시예로서, 다채널오디오스트리밍처리부(222)는 복수 개의 채널오디오스트리밍이 동시에 또는 상이하게 입력될 때, 마이크로폰 채널 쌍간에 도착시간지연 특징을 추출하여 음원방향 정보를 추출할 수 있다. 이 경우 다채널오디오스트리밍처리부(222)는 일 예를 들어 LMS(least mean square) 적응 필터를 이용하여 마이크로폰 채널 쌍간에 도착시간지연 특징들을 계산하고, N개의 가장 가능성 있는 도착시간지연 특징을 추출하여 음원방향 정보를 추출할 수 있다. 또한, 다채널오디오스트리밍처리부(222)는 GCC-PHAT(generalized cross correlation phase transform) 기법에 기반한 지연 및 합계(delay and sum)알고리즘을 적용하여 유효한 수의 도착시간지연 특징을 추출하여 음원방향 정보를 추출할 수 있다. 이에 대해서는 도 4에서 보다 상세히 살펴본다.As a preferred embodiment of the present invention, the multi-channel audio streaming processing unit 222 may extract the arrival time delay feature between a pair of microphone channels to extract sound source direction information when a plurality of channel audio streaming is input simultaneously or differently. have. In this case, the multi-channel audio streaming processor 222 calculates arrival time delay characteristics between pairs of microphone channels using, for example, a LMS (least mean square) adaptive filter, and extracts N most probable arrival time delay features. Sound source direction information can be extracted. In addition, the multi-channel audio streaming processing unit 222 applies a delay and sum algorithm based on a GCC-PHAT (generalized cross correlation phase transform) technique to extract a valid number of arrival time delay features to extract sound source direction information. Can be extracted. This will be described in more detail in FIG. 4.
오디오변곡점 검출부(224)는 다채널오디오스트리밍처리부(222)에서 음성처리에 요구되는 전처리가 수행된 다채널오디오스트리밍입력에서 오디오 변곡점을 적어도 하나 이상 추출한다. 오디오변곡점 검출은 입력되는 오디오스트리밍에서 앞뒤 오디오 특성이 달라지는 지점을 찾는 기술로, 오디오 변곡점은 음악에서 음성으로, 잡음에서 음성으로, 또는 묵음에서 음성으로 등과 같이 음원 속성이 변경되거나 또는 발화하는 화자가 변경되는 지점을 나타낸다. 오디오 변곡점을 검출하는 방법은 거리척도 변화 그래프에서 로컬 최대값(local maximum) 탐색등에 의해 피크(peak)값을 검출하는 방법을 이용할 수 있다. 예를 들어, BIC(Bayesian Information Criterion), Generalized Likelihood Ratio 등의 다양한 척도를 이용할 수 있다. 기존에는 오디오 변곡점을 검출하기 위해 일정한 시간간격 단위로, 예를 들어 10msec, MFCC와 같은 특징벡터 추출한 후 일정 주기별로, 예를 들어 100msec, 좌우 세그먼트 사이의 거리를 계산하는 방법을 이용한다. 좌우 세그먼트는 각각 1초에서 3초 사이의 길이일 수 있다. The audio inflection point detection unit 224 extracts at least one audio inflection point from the multi-channel audio streaming input in which the pre-processing required for speech processing is performed by the multi-channel audio streaming processing unit 222. Audio inflection point detection is a technique for finding the point where the audio characteristics of the front and back are different in the input audio streaming, and the audio inflection point is a speaker whose sound source properties are changed or spoken, such as music to speech, noise to speech, or silence to speech. Indicates the point of change. As a method of detecting an audio inflection point, a method of detecting a peak value by searching for a local maximum in a distance scale change graph may be used. For example, various measures such as Bayesian Information Criterion (BIC) and Generalized Likelihood Ratio can be used. Conventionally, in order to detect an audio inflection point, a feature vector such as 10 msec, MFCC is extracted in a certain time interval unit, and a method of calculating a distance between left and right segments for a certain period, for example, 100 msec, is used. The left and right segments may each be between 1 and 3 seconds long.
이와 달리 본 발명의 바람직한 일 실시예에서는, 오디오변곡점 검출부(224)는 피치(pitch)정보를 기반으로 오디오 변곡점을 검출한다. 도 3을 더 참고하면 본 발명의 바람적인 일 실시예에서는 오디오변곡점 검출부(224)는 입력되는 오디오스트리밍에서 특징벡터를 추출한 후 안정적인 피치 지속길이(도 3, 330)를 계산하여 피치의 변곡점을 검출한다. 이 경우 안정적인 피치 지속길이는 다채널오디오스트리밍 신호를 전처리 수행하여 일정 길이마다 음성 특징벡터를 추출한 후 기계학습을 통해 안정적이라고 학습되는 피치 지속길이를 산출할 수 있다. In contrast, in a preferred embodiment of the present invention, the audio inflection point detection unit 224 detects an audio inflection point based on pitch information. Referring to FIG. 3 further, in an exemplary embodiment of the present invention, the audio inflection point detector 224 extracts a feature vector from the input audio streaming and calculates a stable pitch duration (FIGS. 3 and 330) to detect the inflection point of the pitch. do. In this case, the stable pitch duration can be calculated by performing a pre-processing of a multi-channel audio streaming signal, extracting a voice feature vector for each predetermined length, and then learning the pitch duration to be stable through machine learning.
일 실시예로서, 30msec의 음성 입력신호에 대해 10msec 의 프레임 단위로 이동하면서 음성 분석을 진행하는 경우, 본 발명의 바람직한 일 실시예에서는 매 프레임마다 주요 주파수 성분의 주기를 나타내는 피치를 구하고, 기설정된 유사성을 만족하는 피치가 지속되는 영역을 안정적인 피치 지속길이라고 지칭한다. 매 프레임마다 피치를 구하고, 이전 피치와의 유사성을 만족하면 안정적인 피치구간이 한 프레임씩 증가시키는 형태로 기계학습이 가능하다. 일반적으로 동일 화자의 모음 구간에서는 동일한 피치들이 연속적으로 나타나는 특성을 보이므로   안정적인 피치구간은 동일화자의 특정 모음에 대한 발성 구간으로 판정할 수 있다.As an embodiment, when speech analysis is performed while moving in a frame unit of 10 msec for a voice input signal of 30 msec, in one preferred embodiment of the present invention, a pitch representing a period of a main frequency component is obtained for each frame, and a preset The area where the pitch that satisfies similarity persists is referred to as a stable pitch duration. It is possible to learn the machine in such a way that the pitch is obtained every frame and the similarity to the previous pitch is satisfied, so that the stable pitch section increases by one frame. Generally, since the same pitches continuously appear in the vowel section of the same speaker, the stable pitch section can be determined as a vocal section for a specific vowel of the same speaker.
그 후, 피치의 변곡점(도 3, 340)을 기준으로 좌우 세그먼트간 거리를 계산한다. 계산된 거리를 기초로 생성한 거리척도 그래프(도 3, 350)에서 먼저 거리 척도 값이 기설정된 기준치 이상이 되는 지점(도 3, 350a)들을 먼저 선택하고, 일정 구간 내에 복수 개가 존재할 경우 최대 값을 갖는 지점만 변곡점으로 선택한다(도 3, 351, 352, 353, 354, 355, 356). 본 발명의 바람직한 일 실시예에서는 피치 변곡점에 대해서만 오디오 변곡점을 검출함으로써 기존의 방법에 비해 성능이 개선되고 계산량이 감축되는 효과가 있다. Then, the distance between the left and right segments is calculated based on the inflection point of the pitch (FIGS. 3 and 340). In the distance scale graph (FIG. 3, 350) generated based on the calculated distance, first select points (FIG. 3, 350a) where the distance scale value is greater than or equal to a preset reference value, and the maximum value when there are multiple within a certain section Only the point having the is selected as the inflection point (Fig. 3, 351, 352, 353, 354, 355, 356). In a preferred embodiment of the present invention, by detecting the audio inflection point only for the pitch inflection point, the performance is improved and the calculation amount is reduced compared to the conventional method.
본 발명의 또 다른 바람직한 일 실시예에서, 오디오변곡점 검출부(224)는 피치(pitch)정보 외에 추가로 다채널오디오스트리밍처리부(222)에서 도착시간지연 특징을 추출하여 파악한 음원방향 정보를 더 이용하여 오디오 변곡점을 검출할 수 있다. 이에 대해서는 도 4 내지 5를 더 참고하여 설명한다. In another preferred embodiment of the present invention, the audio inflection point detection unit 224 further uses the sound source direction information obtained by extracting the arrival time delay feature from the multi-channel audio streaming processing unit 222 in addition to the pitch information. Audio inflection points can be detected. This will be described with reference to FIGS. 4 to 5 further.
다채널오디오스트리밍처리부(222)에서 제 1 채널의 오디오스트리밍 신호(410)를 수신하고, 빔포밍 출력 오디오스트리밍신호(420)를 이용하여 음성 특징을 추출하고, 안정적인 피치 지속길이(430)를 계산한다. 그 후, 피치 변곡점을 검출(440)하고, 피치의 변곡점을 기준으로 좌우 세그먼트간 거리를 계산할 때 도착시간지연 특징벡터를 함께 이용한다. 이를 위해 일 실시예로서, GCC-PHAT 알고리즘 이용하여 유효한 수의 도착시간지연 특징을 추출함으로써 음원의 위치를 추적할 수 있다(도 4, 451, 452). 이 후, 추적한 음원의 방향(도 4, 451, 452) 및 피치 변곡점 정보(도 4, 440)를 모두 이용하여 좌우 세그먼트간 거리를 계산한다. 그 후 계산된 거리를 기초로 생성한 거리척도 그래프(도 4, 460)에서 피크 정보를 이용하여 변곡점(도 4, 461, 462, 463, 464)을 검출한다.The multi-channel audio streaming processor 222 receives the audio streaming signal 410 of the first channel, extracts voice features using the beamforming output audio streaming signal 420, and calculates a stable pitch duration 430 do. Thereafter, the pitch inflection point is detected (440), and when the distance between the left and right segments is calculated based on the inflection point of the pitch, the arrival time delay feature vector is used together. To this end, as an embodiment, the location of the sound source may be tracked by extracting a valid number of arrival time delay features using the GCC-PHAT algorithm (FIGS. 4, 451, 452). Thereafter, the distance between the left and right segments is calculated using both the direction of the tracked sound source (FIGS. 4, 451, 452) and the pitch inflection point information (FIGS. 4, 440). Then, inflection points (FIGS. 4, 461, 462, 463, and 464) are detected using the peak information in the distance scale graph (FIGS. 4 and 460) generated based on the calculated distances.
도 5 는 본 발명의 바람직한 일 실시예로서, 오디오변곡점 검출부(224)는 피치(pitch)정보 및 도착시간지연 특징을 모두 이용하여 오디오 변곡점을 검출하는 일 실시예를 도시한다. 다채널오디오스트리밍처리부(222)는 수신한 다채널오디오스트리밍 x1[n](520a), x2[n](520b),..,xN[n](520c) 각각에 대해 잡음을 제거한 후 x1 '[n](521a), x2 '[n](521b),..,xN '[n](521c), 다채널간 상호상관 정도를 계산하고(S510), 도착시간지연 특징을 추출한다(S520). 이 후, 빔포밍 등과 같은 전처리(S530)를 수행할 수 있다. 빔포밍 기법을 적용하여 전처리(S530)를 수행하는 경우 오디오 변곡점 이전의 방향들에 대한 신호를 상쇄시켜 개선된 품질의 음성을 추출할 수 있다. 5 is a preferred embodiment of the present invention, the audio inflection point detection unit 224 shows an embodiment of detecting the audio inflection point using both pitch (pitch) information and the arrival time delay feature. The multi-channel audio streaming processor 222 removes noise for each of the received multi-channel audio streaming x 1 [n] (520a), x 2 [n] (520b), .., x N [n] (520c). After x 1 ' [n] (521a), x 2 ' [n] (521b), .., x N ' [n] (521c), calculate the degree of cross-correlation between multiple channels (S510), delay arrival time The feature is extracted (S520). Thereafter, pre-processing such as beamforming (S530) may be performed. When performing the preprocessing (S530) by applying the beamforming technique, it is possible to extract speech of improved quality by canceling signals for directions before the audio inflection point.
다채널오디오스트리밍처리부(222)는 다채널오디오스트리밍에 대해 전처리를 수행한 빔포밍오디오스트리밍 신호 y[n]을 오디오변곡점검출부(224)로 전송한다. 오디오변곡점검출부(224)는 수신한 신호에서 특징벡터를 추출(S540)한 후, 추출한 특징벡터를 이용하여 피치정보를 추출하여 안정적인 피치 지속길이(stable pitch duration)를 결정하고, 피치변곡점을 검출한다(S550). 그 후, 오디오변곡점검출부(224)는 피치변곡점 및 다채널오디오스트리밍처리부(222)에서 추출한 도착시간지연 특징정보를 이용하여 좌우 세그먼트간 거리를 계산하고(S560), 계산된 거리로 생성한 거리척도 그래프에서 피크(peak) 추정으로 오디오 변곡점을 검출한다(S570). The multi-channel audio streaming processing unit 222 transmits the beamforming audio streaming signal y [n], which has been pre-processed to the multi-channel audio streaming, to the audio inflection point detection unit 224. The audio inflection point detection unit 224 extracts the feature vector from the received signal (S540), extracts pitch information using the extracted feature vector, determines a stable pitch duration, and detects the pitch inflection point. (S550). Thereafter, the audio inflection point detection unit 224 calculates the distance between the left and right segments using the pitch inflection point and the arrival time delay feature information extracted by the multi-channel audio streaming processing unit 222 (S560), and the distance scale generated by the calculated distance The audio inflection point is detected by estimating a peak in the graph (S570).
도 2 로 돌아와서, 호출어발화구간 검출부(226)는 다채널오디오스트리밍입력 중 검출된 적어도 하나의 오디오 변곡점 지점들만을 대상으로 호출어 모델과의 유사도를 측정하여 화자의 호출어발화구간을 검출한다. 기존에는 모든 순간을 호출어의 시작 또는 끝이 가능한 순간으로 판단하여 계산을 수행하였으나, 본 발명의 바람직한 일 실시예에서는 오디오 변곡점 지점들만을 대상으로 기지정된 호출어 모델과의 유사도를 측정함으로써 계산량을 줄일 수 있는 효과가 있다.Returning to FIG. 2, the call-utterance section detector 226 detects the speaker's call-utterance section by measuring the similarity with the caller model for only at least one audio inflection point detected during the multi-channel audio streaming input. . Previously, all the moments were determined by determining whether the start or end of the caller is possible, but in a preferred embodiment of the present invention, the calculation amount is measured by measuring the similarity with the caller model determined only for the audio inflection point points. It has the effect of reducing.
호출어발화구간 검출부(226)는 HMM(hidden Markov model) 알고리즘을 이용하여 호출어 발화구간의 음성과 지정된 호출어 모델과의 매칭 여부를 검사한다. 이 경우 음성신호를 상태 천이 확률과 각 상태에서의 관찰확률이라는 두 단계의 확률 과정으로 표현하며, 관측확률은 GMM(Gaussian mixture model), 또는 DNN(deep neural network)에 의해 모델링될 수 있다. 도 6을 참고하면, 호출어발화구간 검출부(226)에서 오디오 변곡점 지점(630, 631, 632, 633, 634, 635)을 기준으로 호출어 모델과의 유사도를 HMM 알고리즘으로 측정하여 화자의 호출어발화구간(S630)을 검출하는 일 실시예를 도시한다. The caller speech section detection unit 226 checks whether the speech of the caller speech section matches the designated caller model using a hidden markov model (HMM) algorithm. In this case, the speech signal is expressed as a two-step probabilistic process, a state transition probability and an observation probability in each state, and the observation probability may be modeled by a GMM (Gaussian mixture model) or a deep neural network (DNN). Referring to FIG. 6, the speaker's caller is measured by measuring the similarity with the caller model based on the audio inflection point points 630, 631, 632, 633, 634, and 635 in the caller speech section detector 226 An example of detecting the ignition section S630 is illustrated.
호출어발화구간의 시작점(610)과 끝(620)은 오디오 변곡점 중에서 선택된다. 본 발명의 바람직한 일 실시예에서는 오디오 변곡점 검출에서의 정교한 지점 감지에서 발생할 수 있는 미세한 오류를 보상하기 위해, 변곡점 기준으로 앞뒤 일정 길이의 범위에서 호출어 시작과 끝의 가능하도록 허용할 수 있다. 예를 들어, 시작점(610)과 끝(620) 지점을 기초로 (-50, +50) 밀리세컨드 범위(S610, S620)에서 호출어의 시작 및 끝이 가능하도록 허용할 수 있다. The start point 610 and the end 620 of the spoken speech section are selected from audio inflection points. In one preferred embodiment of the present invention, in order to compensate for the fine error that may occur in the detection of sophisticated points in audio inflection point detection, it is possible to allow the start and end of the caller in a range of a predetermined length before and after the inflection point. For example, it is possible to allow the start and end of the caller in the (-50, +50) millisecond range (S610, S620) based on the start point 610 and end 620 points.
도 5에서 x축은 다채널오디오스트리밍입력(510)의 특징벡터 열을 나타내고, y축은 HMM 알고리즘으로 측정한 호출어 모델과의 유사도를 나타낸다. HMM 알고리즘과 관련된 상세한 내용은 본 발명이 속하는 통상의 지식을 가진자에게 자명한 바 상세한 설명을 생략한다. In FIG. 5, the x-axis represents the feature vector sequence of the multi-channel audio streaming input 510, and the y-axis represents the similarity with the caller model measured by the HMM algorithm. Details related to the HMM algorithm are apparent to those skilled in the art to which the present invention pertains, and thus detailed descriptions thereof are omitted.
본 발명의 또 다른 바람직한 일 실시예로서, 메모리(230)에 복수의 등록된 화자성문모델이 있는 경우, 호출어발화구간 검출부(226)에서 검출한 발화구간에 대해 추가적으로 화자인식 또는 화자검증을 수행할 수 있다. 화자인식 수행과정에서 화자성문모델과의 매칭점수가 기준치 이상인 경우 등록된 화자로, 미만인 경우 미등록화자로 판정한다. 화자성문모델은 GMM, SVM(support vector machine), i-vector 등을 이용하여 기계학습이 가능하다. 호출어발화구간검출부(226)에서 호출어 발화구간을 검출되면, 호출어 인식부(228)는 호출어 발화구간 내에서 기지정된 호출어를 인식할 수 있다. As another preferred embodiment of the present invention, when there are a plurality of registered speaker-speech models in the memory 230, speaker recognition or speaker verification is additionally performed on the speech section detected by the caller speech section detector 226 can do. In the process of speaker recognition, if the matching score with the speaker's voice model is greater than or equal to the reference value, it is determined as a registered speaker, and if it is less than that, the speaker is judged as an unregistered speaker. The speaker model can be machine-learned using GMM, SVM (support vector machine), i-vector, etc. When the caller speech section detecting unit 226 detects the caller speech section, the caller recognition unit 228 may recognize the caller specified in the caller speech section.
질의어발화구간후보 검출부(250)는 다채널오디오스트리밍입력에서 호출어발화구간 검출부(226)에서 검출된 호출어 발화구간 이후에 뒤따라오는 구간에서 검출된 적어도 하나의 오디오 변곡점의 조합을 기초로 적어도 하나의 질의어발화구간후보를 모두 검출한다. 도 7을 참고하여 설명한다. The query speech utterance candidate detection unit 250 is based on a combination of at least one audio inflection point detected in a section following the speech utterance period detected by the call language speech detection unit 226 in the multi-channel audio streaming input. Detects all candidates for the query utterance section. This will be described with reference to FIG. 7.
도 7 을 참고하면 다채널오디오스트리밍입력에서 검출된 호출어 발화구간 이후에 뒤따라오는 구간에서 오디오 변곡점이 검출된 지점(t1, t2, t3, t4, t5)들로 생성될 수 있는 모든 구간(S710, S711, S712, S713, S720, S721, S722, S730, S731, S740)을 질의어발화구간후보로 검출한다. Referring to FIG. 7, all sections that can be generated as points (t1, t2, t3, t4, t5) in which an inflection point of an audio is detected in a section following the caller speech section detected in the multi-channel audio streaming input (S710) , S711, S712, S713, S720, S721, S722, S730, S731, S740) as candidate candidates for query speech.
그리고, 질의어발화구간 판정부(260)는 호출어발화구간 검출부(226)에서 검출된 화자와 적어도 하나의 질의어발화구간후보(S710, S711, S712, S713, S720, S721, S722, S730, S731, S740) 의 화자를 비교하여 화자유사도를 측정한 후, 화자유사도가 기설정된 값을 초과하는 구간들만을 선택적으로 검출한다. In addition, the query speech utterance section determining unit 260 is a speaker detected by the call speech utterance section detection unit 226 and at least one query speech utterance candidate (S710, S711, S712, S713, S720, S721, S722, S730, S731, After the speaker similarity is measured by comparing the speakers of S740), only sections in which the speaker similarity exceeds a predetermined value are selectively detected.
이 경우, 질의어발화구간 판정부(260)는 질의어 발화 시작이 가능한 시점, t1, t2, t3, t4 에서 시작되는 첫 구간(S710, S720, S730, S740)에서 검출된 화자의 음성이 호출어 발화구간에서 검출된 화자와의 화자유사도가 기설정된 값에 해당하지 않는 경우, 다음 구간에 대해서는 화자유사도를 측정하지 않는다. In this case, the query speech utterance section determining unit 260 is the voice of the speaker detected in the first section (S710, S720, S730, S740) starting at the time when query speech utterance can be started, t1, t2, t3, and t4. If the speaker similarity with the speaker detected in the section does not correspond to the preset value, the speaker similarity is not measured for the next section.
일 예를 들어, t1 시점을 질의어 시작 지점으로 예측하여 t1과 t2 구간(S710)에서 검출한 화자와 호출어 발화구간에서 검출된 화자가 유사하지 않다고 판단되는 경우, t1과 t3 구간(S711), t1과 t4 구간(S712),t1과 t5 구간(S713)은 더 이상 화자유사도를 측정하지 않고, t2 시점을 질의어 시작 지점을 다시 예측하여 질의어발화구간후보를 검출할 수 있다. 이상의 방식으로, 질의어발화구간후보로 t2에서 t3구간(S720), t2에서 t4구간(S721), 그리고, t3에서 t4구간(S731)이 검출될 수 있다. For example, when it is determined that the speaker at t1 and t2 intervals S710 is not similar to the speaker at the t1 and t2 intervals (S710) by predicting the time point t1 as the starting point of the query, t1 and t3 intervals (S711), The periods t1 and t4 (S712) and the periods t1 and t5 (S713) no longer measure the speaker similarity, and predict the query start point again at the time t2 to detect the query speech candidate candidate. In the above manner, t2 to t3 section (S720), t2 to t4 section (S721), and t3 to t4 section (S731) may be detected as query query speech candidates.
질의어발화구간 판정부(260)는 선택된 t2에서 t3구간(S720), t2에서 t4구간(S721), 그리고, t3에서 t4구간(S731) 질의어발화구간 후보들 중 최장의 발화구간, 예를 들어 t2에서 t4구간(S721),을 질의어발화구간으로 판정한다. The query speech utterance section determination unit 260 is the longest speech section among candidates for the query speech utterance section, for example, t2 at t3 to t3 (S720), t2 to t4 (S721), and t3 to t4 (S731). The t4 section (S721) is determined as a query language speaking section.
본 발명의 바람직한 일 실시예로서, 질의어발화구간 판정부(260)는 화자유사도 측정시 오디오 변곡점 검출부(224)에서 오디오 변곡점 검출시 사용한 BIC와 같은 거리 척도 알고리즘을 사용할 수 있다. 또한, 호출어 발화구간의 i-vector와 특정 조합의 질의어 발화의 i-vector 사이의 유사도를 나타내는 매칭점수에 기초하여 유사도를 판정할 수 있다. 이 외에도 다양한 방법을 이용할 수 있다. As a preferred embodiment of the present invention, the query speech utterance section determination unit 260 may use a distance scale algorithm such as BIC used to detect an audio inflection point by the audio inflection point detection unit 224 when measuring speaker similarity. In addition, the similarity may be determined based on a matching score indicating the similarity between the i-vector of the caller utterance section and the i-vector of the query utterance of a specific combination. Various other methods can be used.
본 발명의 바람직한 일 실시예로서, 질의어발화구간 판정부(260)는 호출어발화구간 검출부(226)에서 인식된 호출어가 등록된 화자의 발화로 식별된 경우, 질의어발화구간 판정부(260)는 식별된 등록화자의 텍스트독립형 성문모델과의 식별점수를 기준으로 특정화자의 발화인지 여부를 판단할 수 있다. 또한, 호출어 발화구간과의 화자 유사성 및 식별화자와의 유사성 모두를 이용할 수 있다. As a preferred embodiment of the present invention, when the query language utterance section determination unit 260 is identified as the utterance of a caller recognized by the call language utterance section detection unit 226, the query language utterance section determination unit 260 It is possible to determine whether or not the utterance of a specific speaker is based on the identification score of the identified registered speaker's text-independent sex model. In addition, it is possible to use both the speaker similarity with the caller speech section and the similarity with the discriminator speaker.
이상의 방식을 통해 호출어발화구간 검출부(226)와 질의어발화구간 판정부(260) 각각에서 동일한 화자를 식별하고, 동일한 화자가 발화한 호출어와 질의어를 각각 식별할 수 있다. 그 후, 제어부(220)에서 식별한 질의어에 대응하는 액션(action) 또는 응답을 출력부(240)를 통해 출력할 수 있다. Through the above-described method, the same speaker can be identified in each of the call language speaking section detector 226 and the query word speaking section determining unit 260, and the caller and the query word spoken by the same speaker can be respectively identified. Thereafter, an action or response corresponding to the query term identified by the control unit 220 may be output through the output unit 240.
본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프린터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.   Embodiments of the present invention include computer readable media including program instructions for performing various computer-implemented operations. The computer-readable medium may include program instructions, data files, data structures, or the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and available to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs, DVDs, and magnetic media such as floptical disks. -Hardware devices specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language code that can be executed by a computer using an interprinter, etc., as well as machine language codes produced by a compiler.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야 에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다. In the above, preferred embodiments of the present invention have been illustrated and described, but the present invention is not limited to the specific embodiments described above, and it is usually in the technical field to which the present invention belongs without departing from the gist of the present invention claimed in the claims. Of course, various modifications can be made by those having knowledge of, and these modifications should not be individually understood from the technical spirit or prospect of the present invention.

Claims (8)

  1. 오디오변곡점검출부에서 화자의 음성발화와 주변 소리가 포함된 다채널오디오스트리밍입력에서 음원 속성이 변경되거나 또는 화자가 변경되는 지점을 나타내는 적어도 하나의 오디오 변곡점을 검출하는 단계;
    호출어발화구간검출부에서 상기 다채널오디오스트리밍입력 중 상기 검출된 적어도 하나의 오디오 변곡점에 대해서만 호출어 모델과의 유사도를 측정하여 화자의 호출어발화구간을 검출하는 단계;
    호출어인식부에서 상기 호출어발화구간 내에서 기지정된 호출어를 인식하는 단계;
    질의어발화구간후보검출부에서 상기 다채널오디오스트리밍입력에서 상기 검출된 호출어발화구간 이후에 뒤따라오는 구간에서 검출된 적어도 하나의 오디오 변곡점의 조합을 기초로 적어도 하나의 질의어발화구간후보를 모두 검출하는 단계;
    질의어발화구간판정부에서 상기 검출된 호출어발화구간과 상기 검출된 적어도 하나의 질의어발화구간후보 각각을 비교하여 화자유사도를 측정하는 단계로, 상기 검출된 적어도 하나의 오디오 변곡점이 복수 개인 경우, 제 1 시간에 검출된 오디오 변곡점과 시간순으로 상기 제 1 시간 이후 최초로 검출된 오디오 변곡점 간에 생성된 질의어발화구간후보에서 검출된 상기 화자유사도가 기설정된 값을 초과하지 않는 경우, 상기 제 1 시간에 검출된 오디오 변곡점을 기초로 생성된 상기 질의어발화구간후보에 대해서는 상기 화자유사도를 측정하지 않고, 상기 제 1 시간 이후 최초로 검출된 오디오 변곡점을 기초로 생성된 질의어발화구간후보에서 상기 화자유사도를 측정하는, 화자유사도 측정단계;및
    상기 질의어발화구간후보판정부는 상기 적어도 하나의 질의어발화구간후보 중 상기 화자유사도가 기설정된 값을 초과하는 질의어발화구간후보들을 선택하고, 선택된 질의어발화구간후보들 중 최장의 발화구간을 질의어발화구간으로 판정하는 단계;를 포함하고, 이 경우 상기 호출어발화구간은 상기 오디오 변곡점을 검출하는 단계에서 검출된 적어도 하나의 오디오 변곡점으로 판정된 지점들 중에서만 시작지점과 끝지점을 선정하여 검출되는 것을 특징으로 하는 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 방법.
    Detecting, at the audio inflection point detection unit, at least one audio inflection point indicating a point in which a sound source property is changed or a speaker is changed in a multi-channel audio streaming input including a speaker's speech utterance and ambient sound;
    Detecting a speaker's call-speaking section by measuring similarity with the caller's model only for the detected at least one audio inflection point of the multi-channel audio streaming input by the caller's talk-section detecting unit;
    Recognizing a call language determined in the call language speaking section in the call language recognition unit;
    A step of detecting at least one query word speech section candidate based on a combination of at least one audio inflection point detected in a section following the detected call word speech section at the multi-channel audio streaming input by the query word speech candidate detection unit ;
    The step of measuring a speaker's similarity by comparing each of the detected call word speech section and the detected at least one query word speech section by the query word speech section determination unit, if the detected at least one audio inflection point is plural, If the speaker similarity detected in the query speech segment candidate generated between the audio inflection point detected at 1 hour and the audio inflection point first detected after the first time in chronological order does not exceed a preset value, the first time is detected. The speaker does not measure the speaker similarity for the query speech utterance candidate generated based on an audio inflection point, and measures the speaker similarity in the query speech utterance candidate generated based on the audio inflection point detected for the first time after the first time. Similarity measurement step; And
    The candidate query utterance section judges the query utterance section candidates whose speaker similarity exceeds a predetermined value among the at least one query utterance section candidate, and determines the longest utterance section among the selected query utterance section candidates as the query utterance section Including, In this case, the call speech area is characterized in that it is detected by selecting the start point and end point only from the points determined as at least one audio inflection point detected in the step of detecting the audio inflection point A method of detecting a speaker's utterance section at a multi-channel audio streaming input.
  2. 제 1 항에 있어서,
    프로세서로 구현되는 제어부에서 상기 다채널오디오스트리밍입력을 전처리(pre-processing)하여 특징벡터를 추출하고, 추출한 특징벡터를 이용하여 파악한 피치정보를 기초로 안정적인 피치 지속길이(stable pitch duration)를 결정하며, 그리고 피치변곡점을 검출하고, 상기 적어도 하나의 오디오 변곡점을 검출하는 단계는 상기 제어부에서 검출된 피치변곡점에 대해서만 상기 적어도 하나의 오디오 변곡점을 검출하는 것을 특징으로 하는 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 방법.
    According to claim 1,
    The control unit implemented by a processor pre-processes the multi-channel audio streaming input, extracts a feature vector, and determines a stable pitch duration based on the detected pitch information using the extracted feature vector. And, the step of detecting the pitch inflection point, the step of detecting the at least one audio inflection point is the speaker's speech at the multi-channel audio streaming input, characterized in that for detecting only the pitch inflection point detected by the control unit How to detect a section.
  3. 제 2 항에 있어서, 상기 적어도 하나의 오디오 변곡점을 검출하는 단계는
    상기 다채널오디오스트리밍입력의 전처리시 획득되는 도착시간지연특징에 기초한 음원방향 정보를 더 이용하는 것을 특징으로 하는 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 방법.
    The method of claim 2, wherein detecting the at least one audio inflection point
    A method for detecting a speaker's utterance section in a multi-channel audio streaming input, further comprising sound source direction information based on an arrival time delay feature obtained during pre-processing of the multi-channel audio streaming input.
  4. 제 1 항에 있어서,
    상기 호출어발화구간에서 인식된 화자가 기등록된 화자인 경우, 상기 질의어발화구간후보들에서 인식된 화자에 대해서는 텍스트독립형 성문모델과의 식별점수를 기준으로 기등록된 화자의 발화인지 여부를 판단하는 것을 특징으로 하는 다채널오디오스트리밍입력에서 화자의 발화구간을 검출하는 방법.
    According to claim 1,
    If the speaker recognized in the call-utterance section is a pre-registered speaker, it is determined whether or not the speaker recognized in the query word-interval candidates is a pre-registered speaker's utterance based on an identification score with a text-independent voiceprint model. A method for detecting a speaker's utterance section from a multi-channel audio streaming input, characterized in that.
  5. 화자발화구간을 검출하는 시스템으로서,
    상기 시스템은
    스피커, 빔포머, 메모리, 프로세서;
    주변환경에서 캡처한 사운드에서 적어도 하나 이상의 오디오스트리밍입력을 생성하는 복수의 마이크로폰;및
    화자 모델(speaker model) 및 상기 프로세서에서 실행되는 컴퓨터로 실행가능한 명령을 저장하는 메모리;를 포함하고,
    상기 프로세서는
    다채널오디오스트리밍입력에서 추출한 특징벡터를 기초로 피치정보를 파악하여 피치변곡점을 검출하는 단계;
    상기 피치변곡점에 대해서만 상기 다채널오디오스트리밍입력의 적어도 하나의 오디오 변곡점을 검출하는 단계;
    상기 적어도 하나의 오디오 변곡점 지점을 기초로 호출어 발화구간과 질의어 발화구간을 검출하는 단계;
    상기 호출어 발화구간에서 식별한 화자가 상기 메모리에 기등록된 화자인지를 판단하는 단계;및
    상기 호출어 발화구간의 화자와 상기 질의어 발화구간의 화자가 일치하는지를 판단하여, 일치하는 경우 해당 화자의 질의어에 대한 응답을 제공하는 단계;를 실행하는 명령어를 저장하고,
    상기 질의어 발화구간을 검출하는 단계는
    검출된 호출어 발화구간과 적어도 하나의 질의어발화구간후보 각각을 비교하여 화자유사도를 측정하는 단계를 더 포함하고, 상기 화자유사도를 측정하는 단계는 상기 적어도 하나의 오디오 변곡점이 복수 개인 경우, 제 1 시간에 검출된 오디오 변곡점과 시간순으로 상기 제 1 시간 이후 최초로 검출된 오디오 변곡점 간에 생성된 질의어발화구간후보에서 검출된 화자유사도가 기설정된 값을 초과하지 않는 경우, 상기 제 1 시간에 검출된 오디오 변곡점을 기초로 생성된 상기 질의어발화구간후보에 대해서는 상기 화자유사도를 측정하지 않고, 상기 제 1 시간 이후 최초로 검출된 오디오 변곡점을 기초로 생성된 질의어발화구간후보에서 상기 화자유사도를 측정하여 상기 화자유사도가 기설정된 값을 초과하는 질의어발화구간후보들을 선택하고, 선택된 질의어발화구간후보들 중 최장의 발화구간을 질의어발화구간으로 검출하는 것을 특징으로 하는 시스템.
    As a system for detecting speaker utterances,
    The system is
    Speaker, beamformer, memory, processor;
    A plurality of microphones generating at least one audio streaming input from the sound captured in the surrounding environment; and
    It includes; a speaker model and a memory for storing instructions executable by a computer running on the processor; and
    The processor
    Detecting pitch inflection points by identifying pitch information based on the feature vectors extracted from the multi-channel audio streaming input;
    Detecting at least one audio inflection point of the multi-channel audio streaming input only for the pitch inflection point;
    Detecting a caller speech section and a query word speech section based on the at least one audio inflection point;
    Determining whether a speaker identified in the caller speech section is a speaker pre-registered in the memory; and
    Determining whether a speaker of the caller speech section and a speaker of the query word speech section match, and if so, providing a response to the query word of the speaker;
    The step of detecting the utterance section of the query is
    Comprising the step of measuring the speaker similarity by comparing each of the detected speech utterance section and at least one query speech utterance candidate, the measuring the speaker similarity, the plurality of at least one audio inflection point, the first If the speaker similarity detected in the query speech segment candidate generated between the audio inflection point detected at time and the audio inflection point first detected after the first time in chronological order does not exceed a preset value, the audio inflection point detected at the first time The speaker similarity is not measured for the query speech utterance candidate generated based on, and the speaker similarity is measured by measuring the speaker similarity in the query speech utterance candidate generated based on the audio inflection point first detected after the first time. Select and select candidates for query utterances that exceed the preset value System for the longest period of ignition of the ignition section query candidates characterized in that for detecting the query phrase utterance interval.
  6. 제 5 항에 있어서, 상기 프로세서는
    상기 호출어 발화구간에서 식별한 화자가 상기 기등록된 화자인 경우, 상기 질의어 발화구간의 화자를 식별할 때 상기 기등록된 화자의 텍스트독립형 성문모델과의 식별점수를 기준으로 상기 호출어 발화구간의 화자와 일치하는지를 판단하는 단계;를 실행하는 명령어를 더 저장하는 것을 특징으로 하는 시스템.
    The method of claim 5, wherein the processor
    When the speaker identified in the caller speech section is the pre-registered speaker, when identifying the speaker of the query word talk section, the caller speech section is based on the identification score with the text independent voiceprint model of the pre-registered speaker Determining whether it matches the speaker of the system; characterized in that further storing instructions to execute.
  7. 제 5 항에 있어서, 상기 적어도 하나의 오디오 변곡점을 검출하는 단계는
    상기 빔포머를 이용하여 파악한 음원방향 정보를 더 이용하여 상기 오디오 변곡점을 검출하는 것을 특징으로 하는 시스템.
    The method of claim 5, wherein detecting the at least one audio inflection point
    And detecting the audio inflection point by further using sound source direction information identified using the beamformer.
  8. 제 5 항에 있어서,
    상기 호출어 발화구간의 화자와 상기 질의어 발화구간의 화자가 일치하는지를 판단하기 위해 화자유사도를 측정하여 판단하는 것을 특징으로 하는 시스템.
    The method of claim 5,
    A system characterized by determining a speaker's similarity to determine whether the speaker in the spoken word utterance section matches the speaker in the query word utterance section.
KR1020180129863A 2018-10-29 2018-10-29 Method and System for detecting User's utterance in a multi-channel audio environment KR102102387B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180129863A KR102102387B1 (en) 2018-10-29 2018-10-29 Method and System for detecting User's utterance in a multi-channel audio environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180129863A KR102102387B1 (en) 2018-10-29 2018-10-29 Method and System for detecting User's utterance in a multi-channel audio environment

Publications (1)

Publication Number Publication Date
KR102102387B1 true KR102102387B1 (en) 2020-04-21

Family

ID=70456573

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180129863A KR102102387B1 (en) 2018-10-29 2018-10-29 Method and System for detecting User's utterance in a multi-channel audio environment

Country Status (1)

Country Link
KR (1) KR102102387B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990038741A (en) * 1997-11-06 1999-06-05 정선종 Speech detection method using continuous pitch information
KR20160088446A (en) * 2011-03-21 2016-07-25 애플 인크. Device access using voice authentication
JP2016536626A (en) 2013-09-27 2016-11-24 アマゾン テクノロジーズ インコーポレイテッド Speech recognition with multi-directional decoding
KR20170045123A (en) * 2015-10-16 2017-04-26 구글 인코포레이티드 Hotword recognition
KR20180023702A (en) * 2016-08-26 2018-03-07 삼성전자주식회사 Electronic Apparatus for Speech Recognition and Controlling Method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990038741A (en) * 1997-11-06 1999-06-05 정선종 Speech detection method using continuous pitch information
KR20160088446A (en) * 2011-03-21 2016-07-25 애플 인크. Device access using voice authentication
JP2016536626A (en) 2013-09-27 2016-11-24 アマゾン テクノロジーズ インコーポレイテッド Speech recognition with multi-directional decoding
KR20170045123A (en) * 2015-10-16 2017-04-26 구글 인코포레이티드 Hotword recognition
KR20180023702A (en) * 2016-08-26 2018-03-07 삼성전자주식회사 Electronic Apparatus for Speech Recognition and Controlling Method thereof

Similar Documents

Publication Publication Date Title
US10643606B2 (en) Pre-wakeword speech processing
US20200211554A1 (en) Context-based device arbitration
US10930271B2 (en) Speech recognition using neural networks
US10134425B1 (en) Direction-based speech endpointing
KR20180024807A (en) Method and apparatus for speech recognition based on speaker recognition
US10885909B2 (en) Determining a type of speech recognition processing according to a request from a user
KR101986354B1 (en) Speech-controlled apparatus for preventing false detections of keyword and method of operating the same
US10482904B1 (en) Context driven device arbitration
KR20200012963A (en) Object recognition method, computer device and computer readable storage medium
US10679629B2 (en) Device arbitration by multiple speech processing systems
US10446173B2 (en) Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program
US20190385605A1 (en) Method and system for providing voice recognition trigger and non-transitory computer-readable recording medium
EP3513404A1 (en) Microphone selection and multi-talker segmentation with ambient automated speech recognition (asr)
US20210082429A1 (en) Method and system of audio false keyphrase rejection using speaker recognition
KR102102387B1 (en) Method and System for detecting User's utterance in a multi-channel audio environment
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
KR101023211B1 (en) Microphone array based speech recognition system and target speech extraction method of the system
Wu et al. A cohort-based speaker model synthesis for mismatched channels in speaker verification
Dighe et al. Detecting and labeling speakers on overlapping speech using vector taylor series
US10878812B1 (en) Determining devices to respond to user requests
US10685652B1 (en) Determining device groups
KR102061206B1 (en) Speech-controlled apparatus for preventing false detections of keyword and method of operating the same
CN109065026B (en) Recording control method and device
US20210035563A1 (en) Per-epoch data augmentation for training acoustic models
KR101809511B1 (en) Apparatus and method for age group recognition of speaker

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant