KR20210130494A - Multi-channel voice trigger system and control method for voice recognition control of multiple devices - Google Patents

Multi-channel voice trigger system and control method for voice recognition control of multiple devices Download PDF

Info

Publication number
KR20210130494A
KR20210130494A KR1020200048789A KR20200048789A KR20210130494A KR 20210130494 A KR20210130494 A KR 20210130494A KR 1020200048789 A KR1020200048789 A KR 1020200048789A KR 20200048789 A KR20200048789 A KR 20200048789A KR 20210130494 A KR20210130494 A KR 20210130494A
Authority
KR
South Korea
Prior art keywords
voice
trigger
recognition
control
similarity
Prior art date
Application number
KR1020200048789A
Other languages
Korean (ko)
Other versions
KR102395760B1 (en
Inventor
박정식
Original Assignee
한국외국어대학교 연구산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국외국어대학교 연구산학협력단 filed Critical 한국외국어대학교 연구산학협력단
Priority to KR1020200048789A priority Critical patent/KR102395760B1/en
Publication of KR20210130494A publication Critical patent/KR20210130494A/en
Application granted granted Critical
Publication of KR102395760B1 publication Critical patent/KR102395760B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)

Abstract

The present invention relates to a multi-channel voice trigger system for voice recognition control of multiple devices and a control method thereof, which can control voice recognition of multiple devices through a multi-channel voice trigger by independently controlling all devices through a trigger module provided on a control unit. The multi-channel voice trigger system for voice recognition control of multiple devices comprises: a voice interval detection unit detecting a voice interval excluding a non-voice and a noise interval from an inputted voice signal; a voice filter unit filtering a corresponding voice by determining an ordinary voice if the length of the detected voice interval is not included in a preset trigger voice length range; a trigger recognition unit measuring the similarity to N trigger models trained for a voice signal of an interval in which the voice interval range is included in the trigger voice length range to compare similarity results between the highest value and a filtering model to select a corresponding trigger model as a recognition result if the highest value is higher than the filtering model; a postprocessing unit evaluating the reliability of the recognized result to select a target device in accordance with whether one device corresponding to N triggers is matched; and a control unit activating the selected target device, and controlling the target device to transmit a recognized user voice (control command) to a voice recognition server to perform work corresponding to a received voice recognition result (control command).

Description

다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법{Multi-channel voice trigger system and control method for voice recognition control of multiple devices}Multi-channel voice trigger system and control method for voice recognition control of multiple devices

본 발명은 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 사용자와 장치들 간에 직접 통신을 제공하기 위해 적어도 둘 이상의 트리거 단어를 인식하여 모든 IoT (Internet of Things) 장비를 독립적으로 제어하는 음성 트리거 기술에 관한 것이다.The present invention relates to a multi-channel voice trigger system for voice recognition control of multiple devices and a control method thereof, and more particularly, to provide direct communication between users and devices by recognizing at least two trigger words to provide all IoT ( Internet of Things) relates to a voice trigger technology that independently controls equipment.

사물 인터넷 (IoT) 환경에서 다양한 유형의 장치 또는 시스템이 연결되어 데이터 수집 및 교환이 가능하다. 스마트 홈 환경의 IoT는 TV, 냉장고, 에어컨 등 다양한 가전제품 사이의 상호 연결 및 모든 속성을 디지털화하게 된다. 따라서, IoT의 요소는 제어 명령의 신속한 전달과 자동 응답을 위해 효율적인 통신 방법이 요구된다. 특히, 스마트 홈 환경에서의 지능형 인터페이스는 사람과 장치 사이의 효율적인 상호 작용에서 중요한 역할을 하게 된다.In the Internet of Things (IoT) environment, various types of devices or systems are connected to enable data collection and exchange. The IoT in the smart home environment will digitize the interconnection and all properties between various home appliances such as TVs, refrigerators, and air conditioners. Therefore, the elements of IoT require an efficient communication method for rapid delivery and automatic response of control commands. In particular, intelligent interfaces in the smart home environment will play an important role in the efficient interaction between people and devices.

사물 인터넷 (IoT) 환경에서 인터페이스의 필요성은 이미 상당한 기술적 발전과 성공적인 상용 응용으로 이어졌으며, 스마트 홈과 사무실의 IoT 인터페이스를 통해 사람들은 IoT 장치를 효율적이고 편리한 운영이 가능한데, 가장 대표적인 인터페이스는 모바일 애플리케이션과 임베디드 터치스크린을 포함하며 사람들이 전통적인 그래픽 인터페이스를 통해 인간과 기계간의 상호 작용을 경험할 수 있다.The need for interfaces in the Internet of Things (IoT) environment has already led to significant technological advances and successful commercial applications, and IoT interfaces in smart homes and offices enable people to efficiently and conveniently operate IoT devices, the most representative interface being mobile applications. and embedded touch screens, allowing people to experience human-machine interaction through traditional graphical interfaces.

그러나, IoT 장치의 그래픽 인터페이스는 편의상 몇 가지 단점이 있다. IoT 장치를 제어하기 위해 모바일 응용 프로그램을 사용하는 사람들은 각 장치와 관련된 응용 프로그램을 검색 한 다음 모바일 장치의 소형 디스플레이 패널을 보면서 메뉴를 선택해야 한다. 이 유형의 제어는 시간이 많이 걸리는 작업이므로 빠른 작동이 필요한 작업에는 적합하지 않고, 특히 핸드 헬드 장치의 인터페이스에 익숙하지 않은 노인과 어린이는 응용 프로그램을 작동하는 데 어려움이 있을 수 있다.However, the graphical interface of the IoT device has several disadvantages for convenience. People using mobile applications to control IoT devices must search for an application associated with each device and then select a menu while looking at the mobile device's small display panel. This type of control is a time-consuming task, so it is not suitable for tasks that require quick operation, especially the elderly and children unfamiliar with the interface of handheld devices may have difficulty operating the application.

또한, 전자 제품과 같은 일부 장치는 장치에 부착 된 터치스크린의 그래픽 인터페이스를 통해 직접 제어 할 수 있어 기능을 조작하기 위한 노력과 어려움을 감소시키지만 사용자는 장치로 이동하여 터치 입력을 해야만 하는 번거로움이 있다.In addition, some devices, such as electronic products, can be directly controlled through the graphical interface of the touch screen attached to the device, reducing the effort and difficulty of manipulating functions, but avoiding the hassle of having to go to the device and enter a touch input. have.

최근 몇 년간 가정과 사무실에서 IoT 장치의 수가 증가함에 따라 기존 그래픽 인터페이스가 음성 기반 인터페이스로 대체되었다. 대표적인 장치는 음성 명령을 사용하여 가상 도우미 기능과 음악 재생 및 홈 오토메이션 장치 제어와 같은 대화 형 작업을 제공하는 스마트 스피커 (음성 보조라고도 함)이다. 이러한 음성 인터페이스는 자연어를 사용하여 핸즈프리 활성화를 제공하므로 사람들이 메뉴를 검색하거나 터치 입력하지 않고도 장치에 원격으로 액세스하고 직관적으로 장치를 작동 할 수 있다.With the increasing number of IoT devices in homes and offices in recent years, traditional graphical interfaces have been replaced by voice-based interfaces. A representative device is a smart speaker (also known as voice assistant) that uses voice commands to provide virtual assistant functions and interactive tasks such as playing music and controlling home automation devices. These voice interfaces use natural language to provide hands-free activation, allowing people to remotely access and intuitively operate the device without having to search through menus or enter touch.

그러나, 스마트 홈과 같은 IoT 환경에서는 다양한 기능을 가진 더 많은 다수의 전자 장치에 대한 제어를 수행해야 하는데, 종래의 그래픽 인터페이스는 IoT 장치를 빠르고 편리하게 작동시키기 어려운 문제점이 있다. 따라서 IoT 환경에서 사람과 기계의 상호 작용을 위한 대안으로 음성 인터페이스를 이용한 IoT 장치들의 제어 기술이 요구되고 있다.However, in an IoT environment such as a smart home, it is necessary to control a large number of electronic devices having various functions, but the conventional graphic interface has a problem in that it is difficult to quickly and conveniently operate the IoT device. Therefore, as an alternative for human-machine interaction in the IoT environment, a control technology for IoT devices using a voice interface is required.

도 1은 스마트 장치에 사용되는 음성 인터페이스의 표준 작동 방식을 도시한 도면이다. 스마트 장치에는 마이크가 장착되어 있으며 음성 인식을 작동하는 클라우드 서버와 연결되고, 각 장치에서 트리거 모듈은 지속적으로 작동한다. 1 is a diagram illustrating a standard operation method of a voice interface used in a smart device. The smart device is equipped with a microphone and is connected to a cloud server that operates voice recognition, and in each device the trigger module works continuously.

또한, 트리거 모듈은 사용자가 말한 단어를 듣고 나면 음성 인식 엔진을 활성화하기 위해 원격 클라우드 서버에 메시지를 전송하고, 사용자가 말한 데이터 다음에 나오는 단어는 서버로 전송 된 다음 엔진에서 인식한다. 트리거링 단어는 '트리거 단어' 또는 '깨우기 단어' 라고 하는 사전 정의 된 단어이며, 사용자의 음성을 인식 한 후 서버는 적절한 응답을 작성하고 응답 메시지를 장치로 전송한다.In addition, after the trigger module hears the word spoken by the user, it sends a message to the remote cloud server to activate the voice recognition engine, and the word following the data spoken by the user is transmitted to the server and then recognized by the engine. A triggering word is a predefined word called a 'trigger word' or 'wake word', and after recognizing the user's voice, the server composes an appropriate response and sends a response message to the device.

그런 다음 스마트 장치는 합성 된 음성을 통해 사용자에게 응답을 수행하며, 이러한 프로세스를 통해 사용자는 장치와 직접 통신하는 것처럼 느낄 수 있다.The smart device then responds to the user via synthesized voice, and this process allows the user to feel as if they are communicating directly with the device.

표준 음성 인터페이스 프레임 워크는 IIoT 환경에서 몇 가지 단점을 유발할 수 있는데, 각 IIoT 장치가 자체 음성 인터페이스를 독립적으로 운영한다고 가정하면 이 구조는 더 많은 장치가 음성 인식을 수행하기 때문에 데이터 전송에 상대적으로 높은 비용이 요구된다. 또한, 장치의 트리거 모듈은 각 장치와 관련된 트리거 단어를 포착하기 위해 입력 사운드를 계속 듣고 있어야만 하는 단점이 있다.A standard voice interface framework may introduce some disadvantages in an IIoT environment, assuming that each IIoT device operates its own voice interface independently, this structure is relatively high for data transmission because more devices perform voice recognition. cost is required Additionally, the device's trigger module has the disadvantage of having to constantly listen to the input sound to capture the trigger word associated with each device.

또 다른 단점은 트리거 오류에 관한 것인데, 사용자가 특정 장치에 대해 말하는 트리거 단어를 잘못 인식하여 하나 이상의 다른 장치를 깨울 수 있다. 이 문제를 방지하려면 사용자는 트리거 단어를 전송할 때마다 각 장치에 접근해야만 하는 문제점이 있다.Another disadvantage relates to trigger errors, which may cause the user to mistakenly recognize the trigger word spoken for a particular device and wake up one or more other devices. To avoid this problem, the user has to access each device every time a trigger word is transmitted.

한편, 도 2는 종래의 표준 음성 트리거 방식의 절차를 도시한 도면이다. 도 2에 도시된 바와 같이 종래에는 음성 기반 제어를 위한 음성 트리거 기술이 적용되었는데 이때 음성 트리거는 키워드 검색 기술과 유사하다. 일반적인 키워드 검색은 문장 단위의 음성 발언에서 키워드를 식별하는 반면 음성 트리거는 고립 단어 혹은 호출어와 같이 분리된 발화에서 트리거 단어를 감지하게 된다. 이처럼, 음성 트리거는 키워드 검색의 특수한 작업이며 일반적으로 음성 인식 장치를 깨우는 데 사용된다.Meanwhile, FIG. 2 is a diagram illustrating a procedure of a conventional standard voice trigger method. As shown in FIG. 2 , a voice trigger technique for voice-based control has been applied in the prior art. In this case, the voice trigger is similar to a keyword search technique. A general keyword search identifies a keyword in a speech utterance in a sentence unit, whereas a voice trigger detects a trigger word in a separate utterance such as an isolated word or a calling word. As such, a voice trigger is a special task of keyword search and is typically used to wake up a voice recognition device.

이처럼, 종래의 표준 음성 트리거 방식의 절차를 따르면 한 개의 트리거 단어에 대해 단일 트리거 인식을 제공하게 되며, 스마트 장치에 내장된 트리거 모듈은 전적으로 장치에 의존함에 따라 단일 트리거 단어를 사용하여 음성 인식을 활성화하게 된다.In this way, following the procedure of the conventional standard voice trigger method, single trigger recognition is provided for one trigger word, and the trigger module built into the smart device completely depends on the device to activate voice recognition using a single trigger word. will do

또한, 단일 트리거 모델의 사용을 고려하여 이 방법을 단일 채널 음성 트리거로 지정하게 되는데, 이때, 장치에 입력된 모든 입력 음성에 대해 단일 트리거 모델과 입력 음성의 유사성을 의미하는 인식 결과를 생성하게 되고, 입력 음성이 트리거 단어에 해당하는지 여부를 결정하기 위해 결과를 사전 추정 된 임계값과 비교를 수행해야 한다. 그리고, 트리거 단어가 최종 결정된 후, 다음의 음성 신호는 인식 될 음성 명령으로 간주된다. 이처럼 고정된 임계값과의 비교를 통해 트리거 단어를 결정하는 종래의 방식은 임계값의 정확도에 의존하여 트리거 인식률이 결정되며, 음성에 배경 잡음이 유입될 경우 오류율이 커지는 문제점이 있다.In addition, considering the use of a single trigger model, this method is designated as a single-channel voice trigger. At this time, for all input voices input to the device, a recognition result indicating the similarity between the single trigger model and the input voice is generated. , the result should be compared with a pre-estimated threshold to determine whether the input speech corresponds to the trigger word. And, after the trigger word is finally determined, the next voice signal is regarded as a voice command to be recognized. As described above, the conventional method of determining the trigger word through comparison with a fixed threshold value determines the trigger recognition rate depending on the accuracy of the threshold value, and there is a problem in that the error rate increases when background noise is introduced into the voice.

대한민국 공개특허 제10-2018-0109633호(2018.10.08.공개)Republic of Korea Patent Publication No. 10-2018-0109633 (published on Oct. 8, 2018)

본 발명의 목적은, 제어부에 구비된 트리거 모듈을 통해 모든 디바이스를 독립적으로 제어함으로써, 다채널 보이스 트리거를 통해 다중 디바이스의 음성인식 제어를 가능하게 하는데 있다.An object of the present invention is to independently control all devices through a trigger module provided in a control unit, thereby enabling voice recognition control of multiple devices through a multi-channel voice trigger.

구체적으로 본 발명의 목적은, 입력된 음성에 대해 트리거별로 미리 학습된 트리거 모델들과의 유사도 중 최고값과 필터링 모델과의 유사도 결과를 비교하되, 트리거 모델 중에 최고값이 필터링 모델의 결과보다 높은 경우, 입력 신호를 해당 트리거 단어로 결정하여 해당 트리거 단어와 대응하는 타겟 디바이스를 주 시스템과 연결시키고, 반대로 필터링 모델의 결과가 높은 경우 트리거가 아닌 일반 음성으로 간주하여 무시함으로써, 트리거 되지 않은 음성 신호에 대해서는 필터링하고, 그렇지 않은 음성 신호는 다채널 보이스 트리거를 통해 다중 디바이스의 음성인식 제어를 가능하게 하는데 있다.Specifically, an object of the present invention is to compare the similarity result with the filtering model with the highest value among the similarity with trigger models previously learned for each trigger for the input voice, but the highest value among the trigger models is higher than the result of the filtering model In this case, the input signal is determined as the corresponding trigger word and the target device corresponding to the trigger word is connected to the main system. Conversely, if the result of the filtering model is high, it is regarded as a general voice rather than a trigger and ignored by ignoring the non-triggered voice signal. It is to enable voice recognition control of multiple devices through multi-channel voice triggers for voice signals that are not filtered.

본 발명의 목적은, 음성인식 허브가 인식한 트리거 명령과 대응하는 타겟 디바이스와 연결하되, 사용자 음성으로 인식한 제어명령을 서버로 전송하여 수신한 음성인식 결과에 따라 타겟 디바이스의 구동을 제어함으로써, 단일 음성인식 허브를 통해 다수의 디바이스들 간의 음성인식과 제어명령 수행이 가능하게 하는데 있다.An object of the present invention is to connect with a target device corresponding to a trigger command recognized by a voice recognition hub, transmit a control command recognized as a user's voice to a server, and control the operation of the target device according to the received voice recognition result, It is to enable voice recognition and control command execution between multiple devices through a single voice recognition hub.

이러한 기술적 과제를 해결하기 위한 본 발명의 일 실시예는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템으로서, 입력된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 음구간성 검출부; 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되지 않는 경우, 일반 음성인 것으로 판단하여 해당 음성을 걸러내는 음성 필터부; 음성구간 길이가 트리거 음성 길이 범위 내에 포함된 구간의 음성 신호를 대상으로 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 인식부; 인식된 결과의 신뢰도를 평가하여 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부에 따라 타겟 디바이스를 선별하는 후처리부; 및 선별된 타겟 디바이스를 활성화시키고, 인식된 사용자 음성(제어 명령어)을 음성인식 서버로 전송하여 수신한 음성인식 결과(제어명령)와 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 제어부를 포함하는 것을 특징으로 한다.An embodiment of the present invention for solving the above technical problem is a multi-channel voice trigger system for controlling voice recognition of multiple devices, and a voice section detector that detects a voice section excluding non-voice and noise sections from an input voice signal. ; a voice filter unit which determines that the detected voice section length is not within the preset trigger voice length range and filters the voice by determining that it is a normal voice; The similarity with N pre-trained trigger models is measured for a voice signal in a section whose voice section length is within the trigger voice length range, and the highest value among them is compared with the similarity result with the filtering model, and the highest value is the filtering model. a trigger recognition unit that selects a corresponding trigger model as a recognition result when it is higher than a result of ; a post-processing unit that evaluates the reliability of the recognized result and selects a target device according to whether it matches any one device corresponding to the N triggers; and a control unit for activating the selected target device, transmitting the recognized user voice (control command) to the voice recognition server, and controlling the target device to perform a task corresponding to the received voice recognition result (control command) characterized.

바람직하게는, 트리거 인식부는 검출된 음성구간 내의 음성 신호를 대상으로 주파수 변환 및 음향 특징 파리미터를 추출하는 음향특징 추출모듈; 음향 특징과 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값을 나타내는 트리거 모델을 선별하는 최고값 트리거 선별모듈; 및 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터일 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 명령어 인식모듈을 포함하는 것을 특징으로 한다.Preferably, the trigger recognition unit comprises: an acoustic feature extraction module for extracting frequency conversion and acoustic feature parameters from a voice signal within the detected voice section; a highest value trigger selection module for selecting a trigger model representing the highest value by measuring the similarity between the acoustic characteristics and the previously learned N trigger models; and a trigger command recognition module that compares the highest value and the similarity result with the filtering model and selects the corresponding trigger model as a recognition result when the highest value is higher than the result of the filter model.

인식 결과의 신뢰도를 평가하는 후처리부는, 트리거 모델의 음성 구간이 N개의 트리거 모델과 매칭되는 정도를 수치화해 유사도 순으로 정렬하는 유사도 정렬모듈; N개의 정렬된 유사도 중 1순위와 나머지 순위간의 차이를 계산하여 그 값이 기 정해 놓은 임계치보다 클 경우 신뢰도가 있다고 판정하는 인식결과 검증모듈; 및 신뢰도가 있다고 판정된 트리거와 대응하는 디바이스를 선별하여 타겟 디바이스로 설정하는 디바이스 선별모듈을 포함하는 것을 특징으로 한다.The post-processing unit for evaluating the reliability of the recognition result includes: a similarity sorting module that quantifies the degree to which the voice section of the trigger model matches the N trigger models and sorts them in the order of the degree of similarity; a recognition result verification module that calculates the difference between the first rank and the remaining ranks among the N sorted similarities and determines that there is reliability when the value is greater than a predetermined threshold; and a device selection module for selecting a device corresponding to a trigger determined to be reliable and setting the device as a target device.

그리고, 전술한 시스템을 기반으로 하는 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법은, 음성구간 검출부가 인식된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 (a) 단계; 음성 필터부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는지 여부를 판단하는 (b) 단계; (b) 단계의 판단결과, 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 경우, 트리거 인식부가 N개의 트리거 명령어 모델과의 유사도 중 최고값과 대응하는 모델을 색인하여 트리거 명령어로 인식하는 (c) 단계; 후처리부가 신뢰도 평가에 따라 트리거 명령어가 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부를 최종 판단하는 (d) 단계; (d) 단계의 판단결과, 후처리부가 인식된 트리거 명령어와 매칭되는 디바이스를 타겟 디바이스로 선별하는 (e) 단계; 및 제어부가 인식된 사용자 음성을 음성인식 서버로 전송하여 수신한 음성인식 결과를 수신하고, 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 (f) 단계를 포함하는 것을 특징으로 한다.In addition, the multi-channel voice trigger control method for voice recognition control of multiple devices according to an embodiment of the present invention based on the system described above is a voice excluding non-voice and noise sections from the voice signal recognized by the voice section detector. (a) detecting a section; (b) determining, by the voice filter unit, whether the detected voice section length is included in a preset trigger voice length; As a result of the determination of step (b), when the voice section length is included in the preset trigger voice length, the trigger recognition unit indexes the model corresponding to the highest value among the similarities with the N trigger command models and recognizes it as a trigger command (c) ) step; (d) finally determining whether the post-processing unit matches any one device corresponding to the N triggers according to the reliability evaluation; (e) selecting a device matching the recognized trigger command as a target device as a result of the determination in step (d); and (f) of the control unit transmitting the recognized user's voice to the voice recognition server, receiving the received voice recognition result, and controlling the target device to perform a task corresponding to the control command.

(b) 단계 이후, 트리거 인식부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 음성구간을 인가받는 (c-1) 단계; 트리거 인식부가 트리거 음성 길이 내에 포함되는 음성구간의 음성 신호에 대해 N개의 트리거 모델과의 유사도를 계산하고 필터링 모델과의 유사도를 계산하는 (c-2) 단계; 트리거 인식부가 N개의 트리거 모델 중 최고값과 필터링 모델과의 유사도를 비교하여, 최고값이 필터링 모델과의 유사도보다 작을 경우 입력 음성이 비 트리거 단어라 판정하는 (c-3) 단계; 및 (c-3) 단계의 판정결과, 트리거 모델 중 최고값이 필터링 모델과의 유사도보다 높을 경우, 트리거 인식부가 최고값을 나타내는 모델을 트리거 명령어로 인식하는 (c-4) 단계를 포함하는 것을 특징으로 한다.After the step (b), (c-1) receiving a voice section in which the length of the detected voice section is included in the preset trigger voice length by the trigger recognition unit; (c-2) calculating, by a trigger recognition unit, a degree of similarity with N trigger models for a speech signal of a speech section included in a trigger speech length, and a degree of similarity with a filtering model; (c-3) determining, by the trigger recognition unit, that the input voice is a non-trigger word by comparing the highest value among the N trigger models and the similarity with the filtering model, and when the highest value is smaller than the similarity with the filtering model; and (c-4) of recognizing the model representing the highest value as a trigger command by the trigger recognition unit when the highest value among the trigger models is higher than the similarity with the filtering model as a result of the determination of step (c-3) characterized.

상기와 같은 본 발명의 일 실시예에 따르면, 입력된 음성에 대해 트리거별로 미리 학습된 트리거 모델들과의 유사도 중 최고값과 필터링 모델과의 유사도 결과를 비교하되, 트리거 모델 중에 최고값이 필터링 모델의 결과보다 높은 경우, 입력 신호를 해당 트리거 단어로 결정하여 해당 트리거 단어와 대응하는 타겟 디바이스를 주 시스템과 연결시키고, 반대로 필터링 모델의 결과가 높은 경우 트리거가 아닌 일반 음성으로 간주하여 무시함으로써, 트리거 되지 않은 음성 신호에 대해서는 필터링하고, 그렇지 않은 음성 신호는 다채널 보이스 트리거를 통해 다중 디바이스의 음성인식 제어가 가능한 효과가 있다.According to an embodiment of the present invention as described above, the highest value among the similarities with trigger models learned in advance for each trigger with respect to the input voice and the similarity result with the filtering model are compared, but the highest value among the trigger models is the filtering model. If it is higher than the result of A voice signal that has not been processed is filtered, and the voice signal that has not been received has the effect of enabling voice recognition control of multiple devices through a multi-channel voice trigger.

도 1은 스마트 장치에 사용되는 음성 인터페이스의 표준 작동 방식을 도시한 도면.
도 2는 표준 음성 트리거 방식의 절차를 설명한 도면.
도 3은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템을 도시한 블록도.
도 4는 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템의 세부구성을 도시한 블록도.
도 5는 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템의 다중 채널 음성 트리거 구조를 도시한 예시도.
도 6은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템의 트리거 검증을 위한 후처리 절차를 도시한 예시도.
도 7은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 방법을 도시한 순서도.
도 8은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S706단계를 도시한 순서도.
도 9은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S708단계를 도시한 순서도.
도 10은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S712단계를 도시한 순서도.
1 is a diagram illustrating a standard operation method of a voice interface used in a smart device.
2 is a diagram illustrating a procedure of a standard voice trigger method.
3 is a block diagram illustrating a multi-channel voice trigger system for controlling voice recognition of multiple devices according to an embodiment of the present invention.
4 is a block diagram illustrating a detailed configuration of a multi-channel voice trigger system for controlling voice recognition of multiple devices according to an embodiment of the present invention.
5 is an exemplary diagram illustrating a multi-channel voice trigger structure of a multi-channel voice trigger system for voice recognition control of multiple devices according to an embodiment of the present invention.
6 is an exemplary diagram illustrating a post-processing procedure for trigger verification of a multi-channel voice trigger system for voice recognition control of multiple devices according to an embodiment of the present invention.
7 is a flowchart illustrating a multi-channel voice triggering method for controlling voice recognition of multiple devices according to an embodiment of the present invention.
8 is a flowchart illustrating step S706 of a multi-channel voice trigger control method for voice recognition control of multiple devices according to an embodiment of the present invention.
9 is a flowchart illustrating step S708 of a method for controlling a multi-channel voice trigger for voice recognition control of multiple devices according to an embodiment of the present invention.
10 is a flowchart illustrating step S712 of a method for controlling a multi-channel voice trigger for voice recognition control of multiple devices according to an embodiment of the present invention.

본 발명의 구체적인 특징 및 이점들은 첨부 도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 그 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.The specific features and advantages of the present invention will become more apparent from the following detailed description taken in conjunction with the accompanying drawings. Prior to this, the terms or words used in the present specification and claims conform to the technical spirit of the present invention based on the principle that the inventor can appropriately define the concept in order to best describe his invention. should be interpreted as meanings and concepts. In addition, when it is determined that the detailed description of the well-known functions related to the present invention and its configuration may unnecessarily obscure the gist of the present invention, it should be noted that the detailed description is omitted.

도 3을 참조하면 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템(300)은, 입력된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 음성구간 검출부(310)와, 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되지 않는 경우, 일반 음성인 것으로 판단하여 해당 음성을 걸러내는 음성 필터부(320)와, 음성구간 길이가 트리거 음성 길이 범위 내에 포함된 구간의 음성 신호를 대상으로 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 인식부(330)와, 인식된 결과의 신뢰도를 평가하여 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부에 따라 타겟 디바이스를 선별하는 후처리부(340), 및 선별된 타겟 디바이스를 활성화(wake-up)시키고, 인식된 사용자 음성(제어 명령어)을 음성인식 서버(10)로 전송하여 수신한 음성인식 결과(제어명령)와 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 제어부(350)를 포함하여 구성된다.Referring to FIG. 3 , a multi-channel voice trigger system 300 for controlling voice recognition of multiple devices according to an embodiment of the present invention detects a voice section excluding non-voice and noise sections from an input voice signal. The detection unit 310 and the voice filter unit 320 for filtering the corresponding voice by determining that it is a normal voice when the detected voice section length is not within the preset trigger voice length range, and the voice section length is the trigger voice length By measuring the similarity with the pre-trained N trigger models for the speech signal in the section included within the range, the highest value among them and the similarity result with the filtering model are compared. If the highest value is higher than the result of the filtering model, the corresponding trigger A trigger recognition unit 330 that selects a model as a recognition result, and a post-processing unit 340 that evaluates the reliability of the recognized result and selects a target device according to whether it matches any one device corresponding to the N triggers; and activating (wake-up) the selected target device, and transmitting the recognized user voice (control command) to the voice recognition server 10 to perform a task corresponding to the received voice recognition result (control command). It is configured to include a control unit 350 for controlling the.

즉, 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템은, 입력된 음성에 대해 트리거별로 미리 학습된 트리거 모델들과의 유사도 중 최고값과 필터링 모델과의 유사도 결과를 비교하되, 트리거 모델 중에 최고값이 필터링 모델의 결과보다 높은 경우, 입력 신호를 해당 트리거 단어로 결정하여 해당 트리거 단어와 대응하는 타겟 디바이스를 주 시스템과 연결시키고, 반대로 필터링 모델의 결과가 높은 경우 트리거가 아닌 일반 음성으로 간주하여 무시하도록 구성된다.That is, in the multi-channel voice trigger system for voice recognition control of multiple devices according to an embodiment of the present invention, the highest value among the similarities with trigger models previously learned for each trigger with respect to the input voice and the similarity with the filtering model Compare the results, but if the highest value in the trigger model is higher than the result of the filtering model, determine the input signal as the corresponding trigger word and connect the target device corresponding to the trigger word with the main system, and conversely, if the result of the filtering model is high In this case, it is regarded as a normal voice rather than a trigger and is configured to be ignored.

이하, 도 4를 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템(300)의 세부구성에 대해 살피면 아래와 같다.Hereinafter, a detailed configuration of the multi-channel voice trigger system 300 for voice recognition control of multiple devices according to an embodiment of the present invention will be described with reference to FIG. 4 .

먼저, 음성구간 검출부(310)는 기 설정된 크기의 세그먼트로 분할하는 음성 분할모듈(312), 세그먼트에 속한 음성 신호에서 에너지 등 특징을 추출하는 특징 추출모듈(314), 및 추출된 특징을 이용하여 각 세그먼트가 음성 구간인지 비음성 구간인지 구분하고 음성구간만을 선별하는 음성구간 검출모듈(316)을 포함하여 구성된다.First, the voice section detection unit 310 uses the voice segmentation module 312 for dividing the segment into segments of a preset size, the feature extraction module 314 for extracting features such as energy from the voice signal belonging to the segment, and the extracted features. and a voice section detection module 316 that distinguishes whether each segment is a voice section or a non-voice section and selects only the voice section.

또한, 음성 필터부(320)는 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되는지 여부를 판단하는 음성구간 비교모듈(322), 및 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되지 않는 경우, 해당 음성구간이 일반 음성(긴 대화)인 것으로 인식하여 필터링하는 음성구간 필터모듈(324)을 포함하여 구성된다.In addition, the voice filter unit 320 includes a voice section comparison module 322 that determines whether the detected voice section length is included in a preset trigger voice length range, and the detected voice section length is included in the preset trigger voice length If not, it is configured to include a voice section filter module 324 for filtering by recognizing that the corresponding voice section is a normal voice (long conversation).

또한, 트리거 인식부(330)는 음성 필터부(320)에 의해 검출된 음성구간 내의 음성 신호를 대상으로 주파수 변환 및 음향 특징 파리미터를 추출하는 음향특징 추출모듈(332), 음향 특징을 이용하여 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값을 나타내는 트리거 모델을 선별하는 최고값 트리거 선별모듈(334), 및 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터일 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 명령어 인식모듈(336)을 포함하여 구성된다.In addition, the trigger recognition unit 330 uses an acoustic feature extraction module 332 for extracting frequency conversion and acoustic characteristic parameters from a voice signal within the voice section detected by the voice filter unit 320, and the acoustic features. The highest value trigger selection module 334 that measures the similarity with the learned N trigger models and selects the trigger model representing the highest value among them, and compares the highest value with the similarity result with the filtering model, and the highest value is the filter If it is higher than the result of the model, it is configured to include a trigger command recognition module 336 that selects the corresponding trigger model as a recognition result.

또한, 후처리부(340)는 해당 트리거 모델의 음성 구간이 N개의 트리거 모델과 매칭되는 정도를 수치화해 유사도 순으로 정렬하는 유사도 정렬모듈(342)과, N개의 정렬된 유사도 중 1순위와 나머지 순위 간의 차이가 1순위 결과의 신뢰도와 관련이 있다는 개념을 기반으로, 1순위와 나머지 순위간의 차이를 계산하여 그 값이 기 정해 놓은 임계치보다 클 경우 신뢰도가 있다고 판정하는 인식결과 검증모듈(344), 및 1순위 결과의 신뢰도가 충족될 경우 트리거와 대응하는 디바이스를 선별하여 타겟 디바이스로 설정하는 디바이스 선별모듈(346)을 포함하여 구성된다.In addition, the post-processing unit 340 quantifies the degree to which the voice section of the corresponding trigger model matches the N trigger models and sorts them in the order of the similarity, the similarity sorting module 342, the first rank and the remaining rank among the N sorted similarities Based on the concept that the difference between the rankings is related to the reliability of the first ranking results, the recognition result verification module 344, which calculates the difference between the first ranking and the remaining rankings, and determines that there is reliability if the value is greater than a predetermined threshold; and a device selection module 346 for selecting a device corresponding to the trigger and setting it as a target device when the reliability of the first priority result is satisfied.

이때, 후처리부(340)가 인식 결과 검증을 위해 유사도로 사용하는 값은 모델 학습 방법에 따라 결정된다(가령, 확률 기반 모델 학습의 경우 우도값(likelihood)을 사용).In this case, a value used by the post-processing unit 340 as a degree of similarity to verify the recognition result is determined according to a model learning method (eg, a likelihood value is used in case of probability-based model learning).

그리고, 제어부(350)는 시스템과 링크를 연결하여 타겟 디바이스를 활성화시키는 디바이스 활성화모듈(352), 타겟 디바이스가 활성화된 이후, 사용자가 발성한 음성(디바이스 제어 명령어가 포함된 사용자 음성)을 음성인식 서버(10)로 전송하고, 음성인식 서버(10)로부터 제어명령을 수신하는 중개모듈(354), 및 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스의 구동을 제어하는 제어모듈(356)을 포함하여 구성된다.In addition, the control unit 350 recognizes the voice (user voice including the device control command) uttered by the user after the device activation module 352 , which activates the target device by connecting a link to the system, and the target device is activated. It transmits to the server 10 and includes an intermediary module 354 for receiving a control command from the voice recognition server 10, and a control module 356 for controlling the driving of the target device to perform a task corresponding to the control command. is composed by

이때, 중개모듈(354)과 각각의 디바이스는 무선통신망을 통해 서버와 통신이 가능한 IoT 장비로 구성되며, 음성인식 서버(10)는 클라우드 환경에 구축될 수 있다.At this time, the intermediary module 354 and each device are composed of IoT equipment capable of communicating with the server through a wireless communication network, and the voice recognition server 10 may be built in a cloud environment.

이하, 도 5 및 도 6을 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템의 다중 채널 음성 트리거 인식 및 후처리 구조에 대해 살피면 아래와 같다. Hereinafter, a multi-channel voice trigger recognition and post-processing structure of a multi-channel voice trigger system for voice recognition control of multiple devices according to an embodiment of the present invention will be described with reference to FIGS. 5 and 6 .

본 발명의 일 실시예에 의해 트리거 단어로 인식된 음성 영역은 후보 트리거로 상정하는데 이 영역은 인식 오류를 포함하는 비 트리거 단어일 수 있다. 따라서, 후처리(Post-Processing) 절차를 통해 인식 결과가 트리거 단어로 받아들여질 것인지 또는 비 트리거 단어로 거부되는지를 결정하게 된다.A voice region recognized as a trigger word according to an embodiment of the present invention is assumed to be a candidate trigger, and this region may be a non-trigger word including a recognition error. Accordingly, it is determined whether the recognition result is accepted as a trigger word or rejected as a non-trigger word through a post-processing procedure.

이때, 결정 기준에 사용되는 유사도에 대해서는 모델 학습 방법에 따라 다를수 있는데, 종래의 HMM (Hidden Markov Model) 기반 음성 인식 방식의 경우 인식 결과로 계산되는 우도(likelihood)를 사용할 수 있다.In this case, the similarity used in the determination criterion may be different depending on the model learning method. In the case of the conventional HMM (Hidden Markov Model)-based speech recognition method, a likelihood calculated as a recognition result may be used.

N개의 트리거 모델이 HMM 방식으로 학습될 경우 트리거 인식부(330)에서 입력 음성과 N개의 트리거 모델간의 유사도로 N개의 우도가 계산되며, 유사도 정렬 모듈(342)에서 우도값에 따라 순위가 결정하게 되며, 이에 따라 입력 음성은 첫 번째 순위를 의미하는 최고값을 나타내는 트리거 모델로 인식된다.When N trigger models are learned by the HMM method, N likelihoods are calculated as the similarities between the input voice and the N trigger models in the trigger recognition unit 330, and the similarity sorting module 342 determines the ranking according to the likelihood values. Accordingly, the input voice is recognized as a trigger model representing the highest value indicating the first rank.

인식결과 검증모듈(344)에서는 N개의 정렬된 유사도 중 1순위와 나머지 순위 간의 차이가 1순위 결과의 신뢰도와 관련이 있다는 개념을 기반으로, 1순위와 나머지 순위의 차이를 계산하여 그 값이 기 정해 놓은 임계치보다 클 경우 신뢰도가 있다고 판정하는데 판정 기준 함수(DC(x))에 대해 살피면 [수학식 1]과 같다.The recognition result verification module 344 calculates the difference between the 1st rank and the remaining ranks based on the concept that the difference between the 1st rank and the remaining ranks among the N sorted similarities is related to the reliability of the 1st rank result, and the value is If it is greater than the set threshold, it is determined that there is reliability. If you look at the determination criterion function (DC(x)), it is as shown in [Equation 1].

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

여기서, Rr(x)는 입력 음성 x에 대한 r번째 순위의 모델이고, P(x|Rr(x))는 Rr(x)에 대해 계산된 우도 확률이다.Here, Rr(x) is the r-th rank model for the input voice x, and P(x|Rr(x)) is the likelihood probability calculated for Rr(x).

[수학식 1]에서 첫 번째 순위 모델(R1(x))의 우도와 다른 모델의 우도 간의 차이를 계산하는데, 이때 인식 절차에서 얻은 우도의 일반적인 속성을 고려하되, DC1(x)는 두 확률 사이의 비율을 도출하고, DC2(x)는 두 확률 사이의 직접적인 차이를 도출한다.In [Equation 1], the difference between the likelihood of the first ranking model (R1(x)) and the likelihood of other models is calculated. , and DC2(x) derives the direct difference between the two probabilities.

이하, 도 7을 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법에 대해 살피면 아래와 같다.Hereinafter, a multi-channel voice trigger control method for voice recognition control of multiple devices according to an embodiment of the present invention will be described with reference to FIG. 7 .

먼저, 음성구간 검출부가 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출한다(S702).First, the voice section detector detects a voice section excluding the non-voice section and the noise section from the voice signal (S702).

이어서, 음성 필터부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는지 여부를 판단한다(S704).Next, the voice filter unit determines whether the detected voice section length is included in a preset trigger voice length (S704).

제S704단계의 판단결과, 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 경우, 트리거 인식부가 N개의 트리거 명령어 모델과의 유사도 중 최고값과 대응하는 모델을 색인하여 트리거 명령어로 인식한다(S706).As a result of the determination of step S704, if the voice section length is included in the preset trigger voice length, the trigger recognition unit indexes the model corresponding to the highest value among the similarities with the N trigger command models and recognizes it as a trigger command (S706) .

뒤이어, 후처리부가 신뢰도 평가에 따라 트리거 명령어가 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부를 최종 판단한다(S708).Subsequently, the post-processing unit finally determines whether the trigger command matches any one device corresponding to the N triggers according to the reliability evaluation (S708).

제S708단계의 판단결과, 후처리부가 인식된 트리거 명령어와 매칭되는 디바이스를 타겟 디바이스로 선별한다(S710).As a result of the determination in step S708, the post-processing unit selects a device matching the recognized trigger command as a target device (S710).

그리고, 제어부가 인식된 사용자 음성을 음성인식 서버로 전송하여 수신한 음성인식 결과를 수신하고, 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스를 제어한다(S712).Then, the control unit transmits the recognized user's voice to the voice recognition server, receives the received voice recognition result, and controls the target device to perform a task corresponding to the control command (S712).

이하, 도 8을 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S706단계에 대해 살피면 아래와 같다.Hereinafter, with reference to FIG. 8, the step S706 of the multi-channel voice trigger control method for voice recognition control of multiple devices according to an embodiment of the present invention will be described as follows.

제S704단계 이후, 트리거 인식부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 음성구간을 인가받는다(S802).After step S704, the trigger recognition unit receives a voice section in which the detected voice section length is included in the preset trigger voice length (S802).

이어서, 트리거 인식부가 트리거 음성 길이 내에 포함되는 음성구간의 음성 신호에 대해 N개의 트리거 모델과의 유사도를 계산하고 필터링 모델과의 유사도를 계산한다(S804).Next, the trigger recognition unit calculates the similarity with the N trigger models for the voice signal of the voice section included in the trigger voice length and calculates the similarity with the filtering model (S804).

뒤이어, 트리거 인식부가 N개의 트리거 모델 중 최고값과 필터링 모델과의 유사도를 비교하여, 최고값이 필터링 모델과의 유사도보다 작을 경우 입력 음성이 비 트리거 단어라 판정한다(S806).Subsequently, the trigger recognition unit compares the highest value among the N trigger models and the similarity with the filtering model, and when the highest value is smaller than the similarity with the filtering model, it is determined that the input voice is a non-trigger word ( S806 ).

제S806단계의 판정결과, 트리거 모델 중 최고값이 필터링 모델과의 유사도보다 높을 경우, 트리거 인식부가 최고값을 나타내는 모델을 트리거 명령어로 인식한다(S808).As a result of the determination in step S806, when the highest value among the trigger models is higher than the similarity with the filtering model, the trigger recognition unit recognizes the model representing the highest value as a trigger command (S808).

이하, 도 9를 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S708단계에 대해 살피면 아래와 같다.Hereinafter, with reference to FIG. 9, the step S708 of the multi-channel voice trigger control method for voice recognition control of multiple devices according to an embodiment of the present invention will be described.

제S706단계 이후, 후처리부가 트리거 명령어로 판정된 해당 음성 구간이 N개의 트리거 모델과 매칭되는 정도를 수치화해 유사도 순으로 정렬한다(S902).After step S706, the post-processing unit quantifies the degree to which the corresponding voice section determined as the trigger command matches the N trigger models and sorts them in the order of similarity (S902).

그리고, 후처리부가 N개의 정렬된 유사도를 이용하여 인식 결과의 신뢰도를 검증하고 검증을 통과한 트리거와 대응하는 디바이스를 선별하여 타겟 디바이스로 설정한다(S904).Then, the post-processing unit verifies the reliability of the recognition result using the N aligned similarities, selects a device corresponding to a trigger that has passed the verification, and sets it as a target device ( S904 ).

이하, 도 10을 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S712단계에 대해 살피면 아래와 같다.Hereinafter, with reference to FIG. 10, the step S712 of the multi-channel voice trigger control method for voice recognition control of multiple devices according to an embodiment of the present invention will be described as follows.

제S710단계 이후, 제어부가 선별된 타겟 디바이스를 활성화(wake-up)시킨다(S1002).After step S710, the control unit wakes up the selected target device (S1002).

이어서, 제어부가 인식된 사용자 음성(제어 명령어)을 음성인식 서버로 전송하여 음성인식 결과(제어명령)를 수신한다(S1004).Then, the control unit transmits the recognized user voice (control command) to the voice recognition server to receive the voice recognition result (control command) (S1004).

그리고, 제어부가 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스를 제어한다(S1006).Then, the control unit controls the target device to perform a task corresponding to the control command (S1006).

이처럼, 전술한 바와 같은 본 발명의 일 실시예에 의하면, 음성인식 허브가 인식한 트리거 명령과 대응하는 타겟 디바이스와 연결하되, 사용자 음성으로 인식한 제어명령을 서버로 전송하여 수신한 음성인식 결과에 따라 타겟 디바이스의 구동을 제어함으로써, 단일 음성인식 허브를 통해 다수의 디바이스들 간의 음성인식과 제어명령 수행이 가능하다.As described above, according to an embodiment of the present invention as described above, the voice recognition hub is connected to the target device corresponding to the recognized trigger command, but the control command recognized as the user's voice is transmitted to the server and the received voice recognition result is Accordingly, by controlling the operation of the target device, it is possible to perform voice recognition and control commands between multiple devices through a single voice recognition hub.

이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.Although described and illustrated in relation to a preferred embodiment for illustrating the technical idea of the present invention above, the present invention is not limited to the configuration and operation as shown and described as such, and deviates from the scope of the technical idea. It will be apparent to those skilled in the art that many changes and modifications can be made to the invention without reference to the invention. Accordingly, all such suitable alterations and modifications and equivalents are to be considered as falling within the scope of the present invention.

300: 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템
310: 음성구간 검출부
312: 음성 분할모듈
314: 특징 추출모듈
316: 음성구간 검출모듈
320: 음성 필터부
322: 음성구간 비교모듈
324: 음성구간 필터모듈
330: 트리거 인식부
332: 음향특징 추출모듈
334: 최고값 트리거 선별모듈
336: 트리거 명령어 인식모듈
340: 후처리부
342: 유사도 정렬모듈
344: 인식결과 검증모듈
336: 디바이스 선별모듈
350: 제어부
352: 디바이스 활성화모듈
354: 중개모듈
10: 음성인식 서버
300: Multi-channel voice trigger system for voice recognition control of multiple devices according to an embodiment of the present invention
310: voice section detection unit
312: voice segmentation module
314: feature extraction module
316: voice section detection module
320: voice filter unit
322: voice section comparison module
324: voice section filter module
330: trigger recognition unit
332: acoustic feature extraction module
334: Highest value trigger selection module
336: trigger command recognition module
340: post-processing unit
342: similarity sort module
344: recognition result verification module
336: device selection module
350: control unit
352: device activation module
354: mediation module
10: voice recognition server

Claims (5)

입력된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 음구간성 검출부;
검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되지 않는 경우, 일반 음성인 것으로 판단하여 해당 음성을 걸러내는 음성 필터부;
상기 음성구간 길이가 트리거 음성 길이 범위 내에 포함된 구간의 음성 신호를 대상으로 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 인식부;
인식된 결과의 신뢰도를 평가하여 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부에 따라 타겟 디바이스를 선별하는 후처리부; 및
선별된 타겟 디바이스를 활성화시키고, 인식된 사용자 음성(제어 명령어)을 음성인식 서버로 전송하여 수신한 음성인식 결과(제어명령)와 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 제어부를
포함하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템.
a sound section detection unit for detecting a speech section excluding a non-voice section and a noise section from the input speech signal;
a voice filter unit which determines that the detected voice section length is not within the preset trigger voice length range and filters the voice by determining that it is a normal voice;
The similarity with N pre-trained trigger models is measured for a voice signal of a section whose voice section length is included in the trigger voice length range, and the highest value among them is compared with the similarity result with the filtering model, and the highest value is filtered. a trigger recognition unit that selects a corresponding trigger model as a recognition result when it is higher than a result of the model;
a post-processing unit that evaluates the reliability of the recognized result and selects a target device according to whether it matches any one device corresponding to the N triggers; and
A control unit that activates the selected target device, transmits the recognized user voice (control command) to the voice recognition server, and controls the target device to perform a task corresponding to the received voice recognition result (control command)
Multi-channel voice trigger system for voice recognition control of multiple devices, characterized in that it comprises.
제1항에 있어서,
상기 트리거 인식부는,
상기 검출된 음성구간 내의 음성 신호를 대상으로 주파수 변환 및 음향 특징 파리미터를 추출하는 음향특징 추출모듈;
음향 특징과 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값을 나타내는 트리거 모델을 선별하는 최고값 트리거 선별모듈; 및
최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터일 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 명령어 인식모듈을
포함하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템.
According to claim 1,
The trigger recognition unit,
an acoustic feature extraction module for frequency conversion and for extracting acoustic feature parameters from the detected voice signal in the voice section;
a highest value trigger selection module for selecting a trigger model representing the highest value by measuring the similarity between the acoustic characteristics and the previously learned N trigger models; and
A trigger command recognition module that compares the highest value and the similarity result with the filtering model and selects the trigger model as the recognition result if the highest value is higher than the result of the filter model.
Multi-channel voice trigger system for voice recognition control of multiple devices, characterized in that it comprises.
제1항에 있어서,
상기 후처리부는,
트리거 모델의 음성 구간이 N개의 트리거 모델과 매칭되는 정도를 수치화해 유사도 순으로 정렬하는 유사도 정렬모듈;
N개의 정렬된 유사도 중 1순위와 나머지 순위간의 차이를 계산하여 그 값이 기 정해 놓은 임계치보다 클 경우 신뢰도가 있다고 판정하는 인식결과 검증모듈; 및
신뢰도가 있다고 판정된 트리거와 대응하는 디바이스를 선별하여 타겟 디바이스로 설정하는 디바이스 선별모듈을
포함하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템.
According to claim 1,
The post-processing unit,
a similarity sorting module that quantifies the degree to which the voice section of the trigger model matches the N trigger models and sorts them in the order of similarity;
a recognition result verification module that calculates the difference between the first rank and the remaining ranks among the N sorted similarities and determines that there is reliability when the value is greater than a predetermined threshold; and
A device selection module that selects a device corresponding to a trigger determined to be reliable and sets it as a target device.
Multi-channel voice trigger system for voice recognition control of multiple devices, characterized in that it comprises.
(a) 음성구간 검출부가 인식된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 단계;
(b) 음성 필터부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는지 여부를 판단하는 단계;
(c) 상기 (b) 단계의 판단결과, 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 경우, 트리거 인식부가 N개의 트리거 명령어 모델과의 유사도 중 최고값과 대응하는 모델을 색인하여 트리거 명령어로 인식하는 단계;
(d) 후처리부가 색인된 트리거 명령어가 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부를 판단하는 단계;
(e) 상기 (d) 단계의 판단결과, 후처리부가 인식된 트리거 명령어와 매칭되는 디바이스를 타겟 디바이스로 선별하는 단계; 및
(f) 제어부가 인식된 사용자 음성을 음성인식 서버로 전송하여 수신한 음성인식 결과를 수신하고, 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 단계를
포함하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법.
(a) detecting a speech section excluding non-voice and noise sections from the recognized speech signal by a speech section detector;
(b) determining whether the detected voice section length is included in the preset trigger voice length by the voice filter unit;
(c) as a result of the determination in step (b), if the voice section length is included in the preset trigger voice length, the trigger recognition unit indexes the model corresponding to the highest value among the similarities with the N trigger command models to use the trigger command. recognizing;
(d) determining whether the trigger command indexed by the post-processing unit matches any one device corresponding to the N triggers;
(e) selecting a device matching the recognized trigger command as a target device as a result of the determination in step (d); and
(f) the control unit transmits the recognized user voice to the voice recognition server, receives the received voice recognition result, and controls the target device to perform a task corresponding to the control command;
A multi-channel voice trigger control method for voice recognition control of multiple devices, comprising:
제4항에 있어서,
상기 (b) 단계 이후,
(c-1) 트리거 인식부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 음성구간을 인가받는 단계;
(c-2) 트리거 인식부가 트리거 음성 길이 내에 포함되는 음성구간의 음성 신호에 대해 N개의 트리거 모델과의 유사도를 계산하고 필터링 모델과의 유사도를 계산하는 단계;
(c-3) 트리거 인식부가 N개의 트리거 모델 중 최고값과 필터링 모델과의 유사도를 비교하여, 최고값이 필터링 모델과의 유사도보다 작을 경우 입력 음성이 비 트리거 단어라 판정하는 단계; 및
(c-4) 상기 (c-3) 단계의 판정결과, 트리거 모델 중 최고값이 필터링 모델과의 유사도보다 높을 경우, 트리거 인식부가 최고값을 나타내는 모델을 트리거 명령어로 인식하는 단계를
포함하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법.
5. The method of claim 4,
After step (b),
(c-1) receiving, by the trigger recognition unit, a voice section in which the detected voice section length is included in a preset trigger voice length;
(c-2) calculating, by the trigger recognition unit, the similarity with N trigger models for the voice signal of the voice section included in the trigger voice length and the similarity with the filtering model;
(c-3) comparing the highest value among the N trigger models with the similarity of the filtering model by the trigger recognition unit, and determining that the input voice is a non-trigger word when the highest value is smaller than the similarity with the filtering model; and
(c-4) as a result of the determination of step (c-3), when the highest value among the trigger models is higher than the similarity with the filtering model, the trigger recognition unit recognizing the model representing the highest value as a trigger command;
A multi-channel voice trigger control method for voice recognition control of multiple devices, comprising:
KR1020200048789A 2020-04-22 2020-04-22 Multi-channel voice trigger system and control method for voice recognition control of multiple devices KR102395760B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200048789A KR102395760B1 (en) 2020-04-22 2020-04-22 Multi-channel voice trigger system and control method for voice recognition control of multiple devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200048789A KR102395760B1 (en) 2020-04-22 2020-04-22 Multi-channel voice trigger system and control method for voice recognition control of multiple devices

Publications (2)

Publication Number Publication Date
KR20210130494A true KR20210130494A (en) 2021-11-01
KR102395760B1 KR102395760B1 (en) 2022-05-10

Family

ID=78519276

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200048789A KR102395760B1 (en) 2020-04-22 2020-04-22 Multi-channel voice trigger system and control method for voice recognition control of multiple devices

Country Status (1)

Country Link
KR (1) KR102395760B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023167399A1 (en) * 2022-03-04 2023-09-07 삼성전자주식회사 Electronic device and control method therefor

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080059180A (en) * 2005-09-29 2008-06-26 도꾸리쯔교세이호진상교기쥬쯔소고겡뀨죠 Pronunciation diagnosis device, pronunciation diagnosis method, recording medium, and pronunciation diagnosis program
KR20090030166A (en) * 2007-09-19 2009-03-24 한국전자통신연구원 The method and apparatus for recognizing voice
KR20160110085A (en) * 2015-03-13 2016-09-21 삼성전자주식회사 Speech recognition system and method thereof
JP2017192091A (en) * 2016-04-15 2017-10-19 泰安 盧 IOT system with voice control function and information processing method thereof
KR20180109633A (en) 2017-03-28 2018-10-08 삼성전자주식회사 Method for operating speech recognition service, electronic device and system supporting the same
KR20190099988A (en) * 2018-02-19 2019-08-28 주식회사 셀바스에이아이 Device for voice recognition using end point detection and method thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080059180A (en) * 2005-09-29 2008-06-26 도꾸리쯔교세이호진상교기쥬쯔소고겡뀨죠 Pronunciation diagnosis device, pronunciation diagnosis method, recording medium, and pronunciation diagnosis program
KR20090030166A (en) * 2007-09-19 2009-03-24 한국전자통신연구원 The method and apparatus for recognizing voice
KR20160110085A (en) * 2015-03-13 2016-09-21 삼성전자주식회사 Speech recognition system and method thereof
JP2017192091A (en) * 2016-04-15 2017-10-19 泰安 盧 IOT system with voice control function and information processing method thereof
KR20180109633A (en) 2017-03-28 2018-10-08 삼성전자주식회사 Method for operating speech recognition service, electronic device and system supporting the same
KR20190099988A (en) * 2018-02-19 2019-08-28 주식회사 셀바스에이아이 Device for voice recognition using end point detection and method thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문(2010.07) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023167399A1 (en) * 2022-03-04 2023-09-07 삼성전자주식회사 Electronic device and control method therefor

Also Published As

Publication number Publication date
KR102395760B1 (en) 2022-05-10

Similar Documents

Publication Publication Date Title
EP3619707B1 (en) Customizable wake-up voice commands
US11133027B1 (en) Context driven device arbitration
CN111344780B (en) Context-based device arbitration
US7620547B2 (en) Spoken man-machine interface with speaker identification
US11138977B1 (en) Determining device groups
KR101622111B1 (en) Dialog system and conversational method thereof
US9966077B2 (en) Speech recognition device and method
EP3544002B1 (en) Speech recognition device and speech recognition system
US20170289582A1 (en) Device control method and electric device
CN112201246B (en) Intelligent control method and device based on voice, electronic equipment and storage medium
WO2019213443A1 (en) Audio analytics for natural language processing
KR20140058127A (en) Voice recognition apparatus and voice recogniton method
EP2504745B1 (en) Communication interface apparatus and method for multi-user
CN110914897B (en) Speech recognition system and speech recognition device
CN103680505A (en) Voice recognition method and voice recognition system
EP3654170B1 (en) Electronic apparatus and wifi connecting method thereof
KR102395760B1 (en) Multi-channel voice trigger system and control method for voice recognition control of multiple devices
CN115331670B (en) Off-line voice remote controller for household appliances
KR20210063698A (en) Electronic device and method for controlling the same, and storage medium
CN118302810A (en) Acoustic event detection
EP1387350A1 (en) Spoken man-machine interface with speaker identification
CN112823047A (en) System and apparatus for controlling web applications
CN116504246B (en) Voice remote control method, device, storage medium and device based on Bluetooth device
EP3839719B1 (en) Computing device and method of operating the same
KR102444834B1 (en) Method and appratus for estimating driver intention using driver's voice

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant