KR102486912B1 - System and server for controlling operation of voice processing device - Google Patents

System and server for controlling operation of voice processing device Download PDF

Info

Publication number
KR102486912B1
KR102486912B1 KR1020170114116A KR20170114116A KR102486912B1 KR 102486912 B1 KR102486912 B1 KR 102486912B1 KR 1020170114116 A KR1020170114116 A KR 1020170114116A KR 20170114116 A KR20170114116 A KR 20170114116A KR 102486912 B1 KR102486912 B1 KR 102486912B1
Authority
KR
South Korea
Prior art keywords
voice processing
processing devices
information
volume
drive
Prior art date
Application number
KR1020170114116A
Other languages
Korean (ko)
Other versions
KR20190017595A (en
Inventor
박상수
김승원
임우형
엄우현
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Publication of KR20190017595A publication Critical patent/KR20190017595A/en
Application granted granted Critical
Publication of KR102486912B1 publication Critical patent/KR102486912B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명의 일 실시예에 따른 구동 제어 시스템은 사용자의 구동 단어를 입력 받은 경우 입력된 구동 단어의 음량에 대한 정보를 구동 제어 서버에 전송하고 구동 제어 서버가 복수의 음성 처리 장치 중 어느 음성 처리 장치가 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정한 선택 정보에 기초하여 명령의 처리 여부를 결정하는 음성 처리 장치 및 구동 단어의 음량에 대한 정보를 기초로 선택 정보를 생성하여 복수의 음성 처리 장치 중 적어도 하나에 전송하는 구동 제어 서버를 포함한다. When a user's drive word is input, the drive control system according to an embodiment of the present invention transmits information about the volume of the input drive word to the drive control server, and the drive control server determines which voice processing device among a plurality of voice processing devices. A voice processing device for determining whether or not to process a command based on selection information for determining whether to process a user's command uttered after a drive word and processing a plurality of voices by generating selection information based on volume information of a drive word and a drive control server for transmitting to at least one of the devices.

Figure R1020170114116
Figure R1020170114116

Description

음성 처리 장치의 구동 제어 시스템 및 구동 제어 서버{SYSTEM AND SERVER FOR CONTROLLING OPERATION OF VOICE PROCESSING DEVICE}Driving control system and driving control server of voice processing device {SYSTEM AND SERVER FOR CONTROLLING OPERATION OF VOICE PROCESSING DEVICE}

본 발명은 음성 처리 장치의 구동 제어 시스템 및 구동 제어 서버에 관한 것으로서, 보다 자세하게는 복수의 음성 처리 장치 중에서 사용자의 명령을 처리할 음성 처리 장치를 결정하는 음성 처리 장치의 구동 제어 시스템 및 구동 제어 서버에 관한 것이다.The present invention relates to a driving control system and a driving control server of a voice processing device, and more particularly, to a driving control system and a driving control server of a voice processing device that determines a voice processing device to process a user's command from among a plurality of voice processing devices. It is about.

최근 음성인식 및 IoT 기술을 결합하여 통신망에 연결된 다양한 IoT 장치들을 제어하고 사용자의 요청에 대해 인터넷 정보 기반의 서비스를 제공하는 인공지능 스피커 등의 음성 처리 장치가 활발히 개발되고 있다. 이러한 음성 처리 장치는 사용자의 특정 구동 단어에 의해 구동을 시작하고, 구동 단어 이후에 발화되는 사용자의 명령에 대응하는 서비스를 제공할 수 있다. Recently, voice processing devices such as artificial intelligence speakers that control various IoT devices connected to communication networks by combining voice recognition and IoT technologies and provide Internet information-based services in response to user requests are being actively developed. Such a voice processing device may be started to be driven by a user's specific driving word and provide a service corresponding to a user's command uttered after the driving word.

이때 동일한 공간에서 동일한 구동 단어에 의해 구동되는 복수의 음성 처리 장치가 존재하는 경우, 구동 단어 이후에 사용자가 발화한 명령에 의해 복수의 음성 처리 장치가 동시에 같은 동작을 수행하여 사용자가 원하지 않는 동작이 발생할 수 있기 때문에, 동일한 공간에서 사용자의 명령을 처리할 음성 처리 장치를 결정할 필요가 있다.At this time, if there are a plurality of voice processing devices driven by the same driving word in the same space, the plurality of voice processing devices simultaneously perform the same operation according to a command uttered by the user after the driving word, so that the user does not want an operation. Since this may occur, it is necessary to determine which voice processing device will process the user's command in the same space.

본 발명의 실시예에서 해결하고자 하는 과제는 동일한 공간에서 동일한 구동 단어에 의해 구동되는 복수의 음성 처리 장치가 존재하는 경우에 사용자의 명령을 처리할 음성 처리 장치를 결정하는 기술을 제공하는 것이다. An object to be solved by an embodiment of the present invention is to provide a technique for determining a voice processing device to process a user's command when a plurality of voice processing devices driven by the same drive word exist in the same space.

다만, 본 발명의 실시예가 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 기술적 과제가 도출될 수 있다.However, the technical problems to be achieved by the embodiments of the present invention are not limited to the above-mentioned problems, and various technical problems may be derived from the contents to be described below within a range apparent to those skilled in the art.

본 발명의 일 실시예에 따른 구동 제어 시스템은 사용자의 구동 단어를 입력 받은 경우 상기 입력된 구동 단어의 음량에 대한 정보를 구동 제어 서버에 전송하고 상기 구동 제어 서버가 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정한 선택 정보에 기초하여 상기 명령의 처리 여부를 결정하는 상기 복수의 음성 처리 장치 및 상기 구동 단어의 음량에 대한 정보를 기초로 상기 선택 정보를 생성하여 상기 복수의 음성 처리 장치 중 적어도 하나에 전송하는 상기 구동 제어 서버를 포함한다. When a user's drive word is input, the drive control system according to an embodiment of the present invention transmits information about the volume of the input drive word to the drive control server, and the drive control server determines which voice among a plurality of voice processing devices. Based on the plurality of voice processing devices that determine whether or not to process the command based on selection information that determines whether the processing device will process the user's command uttered after the drive word, and information about the volume of the drive word, and the drive control server generating selection information and transmitting it to at least one of the plurality of voice processing devices.

본 발명의 일 실시예에 따른 구동 제어 서버는 통신부, 사용자의 구동 단어에 의해 구동되는 복수의 음성 처리 장치로부터 상기 구동 단어의 음량에 대한 정보를 상기 통신부를 통해 수신하여 저장하는 저장부 및 상기 구동 단어의 음량에 대한 정보를 기초로 상기 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정하는 선택 정보를 생성하여 상기 통신부를 통해 상기 복수의 음성 처리 장치 중 적어도 하나에 전송하는 제어부를 포함한다. A drive control server according to an embodiment of the present invention includes a communication unit, a storage unit for receiving and storing information on the volume of a drive word from a plurality of voice processing devices driven by a user's drive word through the communication unit, and the drive unit. Select information for determining which of the plurality of voice processing devices will process the user's command uttered after the driving word is generated based on the information on the volume of the word, and the plurality of voices are generated through the communication unit. and a control unit for transmitting to at least one of the processing devices.

본 발명의 일 실시예에 따른 구동 제어 시스템의 구동 제어 방법은 복수의 음성 처리 장치가 사용자의 구동 단어를 입력 받은 경우 상기 입력된 구동 단어의 음량에 대한 정보를 상기 구동 제어 서버에 전송하는 단계, 상기 구동 제어 서버가 상기 구동 단어의 음량에 대한 정보를 기초로 상기 구동 제어 서버가 상기 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정한 선택 정보를 생성하는 단계, 상기 구동 제어 서버가 상기 복수의 음성 처리 장치 중 적어도 하나에 상기 선택 정보를 전송하는 단계 및 상기 복수의 음성 처리 장치가 상기 선택 정보에 기초하여 상기 명령의 처리 여부를 결정하는 단계를 포함한다. A driving control method of a driving control system according to an embodiment of the present invention includes the steps of transmitting, when a plurality of voice processing devices receive a user's driving word, information about the volume of the input driving word to the driving control server; Selection information by which the driving control server determines which voice processing device among the plurality of voice processing devices will process a user's command uttered after the driving word, based on information about the volume of the driving word generating, by the driving control server, transmitting the selection information to at least one of the plurality of voice processing devices, and determining whether to process the command by the plurality of voice processing devices based on the selection information. includes

본 발명의 일 실시예에 따른 구동 제어 서버의 구동 제어 방법은 사용자의 구동 단어에 의해 구동되는 복수의 음성 처리 장치로부터 상기 구동 단어의 음량에 대한 정보를 수신하여 저장하는 단계, 상기 구동 단어의 음량에 대한 정보를 기초로 상기 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정하는 선택 정보를 생성하는 단계 및 상기 선택 정보를 상기 복수의 음성 처리 장치 중 적어도 하나에 전송하는 단계를 포함한다. According to an embodiment of the present invention, a driving control method of a driving control server includes receiving and storing information on volume of a driving word from a plurality of voice processing devices driven by a user's driving word, and storing the volume of the driving word. generating selection information for determining which voice processing device among the plurality of voice processing devices will process a user's command uttered after the driving word based on information about and transmitting to at least one of the devices.

본 발명의 실시예에 따르면, 동일한 공간에서 동일한 구동 단어에 의해 구동되는 복수의 음성 처리 장치가 존재하는 경우 각 음성 처리 장치가 인식한 구동 단어 음량의 크기를 기초로 특정한 음성 처리 장치만이 사용자의 명령을 처리하도록 결정할 수 있다. According to an embodiment of the present invention, when there are a plurality of voice processing devices that are driven by the same drive word in the same space, only a specific voice processing device can control the user based on the volume of the drive word recognized by each voice processing device. You can decide to process the command.

또한 각 음성 처리 장치가 인식한 구동 단어 음량의 크기를 구별할 수 없을 정도로 차이가 작은 경우에도, 미리 정해진 규칙에 따라 어느 음성 처리 장치가 사용자의 명령을 처리할 지 결정할 수 있다.In addition, even when the difference between the volumes of the driving words recognized by each voice processing device is so small that it cannot be distinguished, it is possible to determine which voice processing device will process the user's command according to a predetermined rule.

이에 따라, 구동 단어 이후에 발화되는 사용자의 명령에 의해 복수의 음성 처리 장치가 동시에 동작을 수행하여 사용자에게 혼란을 발생시키는 문제를 방지할 수 있다. Accordingly, it is possible to prevent a problem in which a plurality of voice processing devices simultaneously perform an operation according to a user's command uttered after a driving word, causing confusion to the user.

도 1은 본 발명의 일 실시예에 따른 음성 처리 장치의 구동 제어 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 구동 제어 서버의 기능 블럭도이다.
도 3은 본 발명의 일 실시예에 따른 구동 제어 서버의 제어부가 선택 정보를 생성하는 것을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 음성 처리 장치의 구동 제어 시스템의 구동 제어 방법의 프로세스를 도시하는 흐름도이다.
도 5는 본 발명의 일 실시예에 구동 제어 서버의 구동 제어 방법의 프로세스를 도시하는 흐름도이다.
1 is a diagram showing the configuration of a driving control system of a voice processing apparatus according to an embodiment of the present invention.
2 is a functional block diagram of a driving control server according to an embodiment of the present invention.
3 is an exemplary diagram for explaining that a control unit of a driving control server generates selection information according to an embodiment of the present invention.
4 is a flowchart showing the process of a driving control method of a driving control system of an audio processing apparatus according to an embodiment of the present invention.
5 is a flowchart showing the process of a driving control method of a driving control server according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.  그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 범주는 청구항에 의해 정의될 뿐이다.Advantages and features of the present invention, and methods for achieving them will become clear with reference to the detailed description of the following embodiments in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and can be implemented in various forms, only these embodiments make the disclosure of the present invention complete, and those skilled in the art It is provided to fully inform the person of the scope of the invention, and the scope of the invention is only defined by the claims.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명은 본 발명의 실시예들을 설명함에 있어 실제로 필요한 경우 외에는 생략될 것이다.  그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.  그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing the embodiments of the present invention, detailed descriptions of well-known functions or configurations will be omitted unless actually necessary in describing the embodiments of the present invention. In addition, terms to be described later are terms defined in consideration of functions in the embodiment of the present invention, which may vary according to the intention or custom of a user or operator. Therefore, the definition should be made based on the contents throughout this specification.

도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.The functional blocks shown in the drawings and described below are only examples of possible implementations. Other functional blocks may be used in other implementations without departing from the spirit and scope of the detailed description. Also, while one or more functional blocks of the present invention are represented as separate blocks, one or more of the functional blocks of the present invention may be a combination of various hardware and software configurations that perform the same function.

또한 어떤 구성 요소들을 포함한다는 표현은 개방형의 표현으로서 해당 구성 요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성 요소들을 배제하는 것으로 이해되어서는 안 된다.In addition, the expression that certain components are included simply indicates that the corresponding components exist as an open expression, and should not be understood as excluding additional components.

나아가 어떤 구성 요소가 다른 구성 요소에 연결되어 있다거나 접속되어 있다고 언급될 때에는, 그 다른 구성 요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 한다. Furthermore, it should be understood that when a component is referred to as being connected or connected to another component, it may be directly connected or connected to the other component, but other components may exist in the middle.

또한 '제1, 제2' 등과 같은 표현은 복수의 구성들을 구분하기 위한 용도로만 사용된 표현으로써, 구성들 사이의 순서나 기타 특징들을 한정하지 않는다. In addition, expressions such as 'first and second' are expressions used only to classify a plurality of components, and do not limit the order or other characteristics between the components.

이하에서는 도면들을 참조하여 본 발명의 실시예들에 대해 설명하도록 한다. Hereinafter, embodiments of the present invention will be described with reference to the drawings.

도 1은 본 발명의 일 실시예에 따른 음성 처리 장치의 구동 제어 시스템(10)의 구성을 나타낸 도면이다.1 is a diagram showing the configuration of a driving control system 10 of a voice processing apparatus according to an embodiment of the present invention.

도 1을 참조하면, 음성 처리 장치의 구동 제어 시스템(10)은 복수의 음성 처리 장치(100) 및 구동 제어 서버(200)를 포함한다. Referring to FIG. 1 , a driving control system 10 of a voice processing device includes a plurality of voice processing devices 100 and a driving control server 200 .

음성 처리 장치(100)는 특정한 구동 단어를 인식하여 구동을 시작하고, 구동 단어 이후에 발화되는 사용자의 명령에 대응하는 서비스를 제공할 수 있다. 가령, 음성 처리 장치(100)는 사용자의 명령에 따라 통신망에 연결된 다양한 IOT 장치들을 제어하고, 사용자에게 인터넷 기반의 서비스를 제공할 수 있다. 이러한 음성 처리 장치(100)의 예로 SK telecom 에서 출시한 Nugu, Nugu mini 등이 있으나, 음성 처리 장치(100)가 이러한 예시로 한정되는 것은 아니다. The voice processing apparatus 100 may recognize a specific driving word, start driving, and provide a service corresponding to a user's command uttered after the driving word. For example, the voice processing device 100 may control various IOT devices connected to a communication network according to a user's command and provide Internet-based services to the user. Examples of such a voice processing device 100 include Nugu and Nugu mini released by SK telecom, but the voice processing device 100 is not limited to these examples.

한편, 음성 처리 장치(100)는 사용자의 특정 구동 단어에 의해 구동을 시작하기 때문에 동일한 구동 단어에 의해 구동을 시작하는 복수의 음성 처리 장치(100a, 100b, 100c)가 동일한 공간에 존재하는 경우, 구동 단어 이후에 사용자가 발화한 명령에 의해 복수의 음성 처리 장치(100a, 100b, 100c)가 동시에 같은 동작을 수행하여 사용자가 원하지 않는 동작이 발생할 수 있다. 따라서 본 발명의 일 실시예에 따른 음성 처리 장치의 구동 제어 시스템(10)은 동일한 공간에서 사용되는 복수의 음성 처리 장치(100a, 100b, 100c) 중 사용자의 명령을 처리할 하나의 음성 처리 장치(100)를 구동 제어 서버(200)가 결정하도록 한다. Meanwhile, since the voice processing device 100 starts to be driven by a user's specific driving word, when a plurality of voice processing devices 100a, 100b, and 100c that start driving by the same driving word exist in the same space, A plurality of voice processing devices 100a, 100b, and 100c simultaneously perform the same operation according to a command uttered by the user after the driving word, so that an operation not desired by the user may occur. Accordingly, the driving control system 10 of the voice processing apparatus according to an embodiment of the present invention includes one voice processing device ( 100) is determined by the driving control server 200.

이를 위해, 본 발명의 일 실시예에 따른 음성 처리 장치(100)는 다른 음성 처리 장치(100)와 동일한 공간에서 동일한 구동 단어에 의해 구동되는 경우, 음성 처리 장치(100)의 내부 또는 외부에 구비된 마이크 등의 음성 인식 장치를 통해 사용자의 구동 단어를 입력 받을 수 있다. 이후, 음성 인식 장치는 입력 받은 구동 단어 또는 구동 단어를 포함하는 사용자의 음성 명령 등 사용자 발화의 음량에 대한 정보(가령, 인식된 구동 단어의 데시벨(dB))를 구동 제어 서버(200)에 전송할 수 있다. To this end, when the voice processing device 100 according to an embodiment of the present invention is driven by the same driving word in the same space as other voice processing devices 100, it is provided inside or outside the voice processing device 100. A user's driving word may be input through a voice recognition device such as a microphone. Thereafter, the voice recognition apparatus transmits, to the drive control server 200, information about the volume of user speech, such as the input drive word or the user's voice command including the drive word, such as the decibel (dB) of the recognized drive word. can

예를 들어, 구동 단어가 'A'인 복수의 음성 처리 장치(100)가 동일한 공간에 있는 경우, 사용자가 "A야, 날씨 알려줘"라고 말할 때, 음성 처리 장치(100)는 구동 단어인 "A"만 인식하여 "A"의 음량 정보를 구동 제어 서버(200)에 전송할 수 있지만, "A야, 날씨 알려줘"라는 사용자의 발화를 모두 인식하여, 해당 발화의 음량 정보를 구동 제어 서버(200)에 전송할 수 있다.For example, when a plurality of voice processing devices 100 having a drive word of 'A' are in the same space, when a user says "Hey A, tell me the weather", the voice processing device 100 uses the drive word "A". Although it is possible to recognize only “A” and transmit the volume information of “A” to the drive control server 200, it recognizes all of the user's utterance "Hey A, tell me the weather" and transmits the volume information of the utterance to the drive control server 200. ) can be transmitted.

이후, 본 발명의 실시예에 따른 음성 처리 장치(100)에서 구동 제어 서버(200)에 전송하는 사용자의 발화를 구동 단어를 기준으로 설명하나, 음성 처리 장치(100)가 구동 제어 서버(200)에 전송하는 사용자의 발화가 구동 단어에만 한정되지 않으며, 구동 단어를 포함하는 사용자의 음성 명령 등 다양한 사용자 발화 형태의 음량에 대한 정보를 전송할 수 있다.Hereafter, the user's speech transmitted from the voice processing device 100 to the driving control server 200 according to an embodiment of the present invention will be described based on the driving words, but the voice processing device 100 is the driving control server 200 The user's speech is not limited to the drive word, and information on the volume of various types of user speech, such as the user's voice command including the drive word, can be transmitted.

이에 따라, 음성 처리 장치(100)는 구동 제어 서버(200)가 생성한 선택 정보에 기초하여 사용자의 명령을 처리할 것인지 결정할 수 있다. Accordingly, the voice processing device 100 may determine whether to process the user's command based on the selection information generated by the drive control server 200 .

이때 각 음성 처리 장치(100)는 입력된 구동 단어의 음량에 대한 정보를 구동 제어 서버(200)에 전송한 시점으로부터 기 설정된 시간 이후 선택 정보를 구동 제어 서버(200)에 요청할 수 있다. 음성 처리 장치(100)가 음량에 대한 정보를 구동 제어 서버(200)에 전송한 시점으로부터 기 설정된 시간 이후 선택 정보를 요청하는 이유는 모든 음성 처리 장치(100)가 음량에 대한 정보를 구동 제어 서버(200)에 송신하고, 구동 제어 서버(200)가 각 음성 처리 장치(100)로부터 수신한 음량에 대한 정보를 기초로 선택 정보를 생성할 때까지의 시간이 필요하기 때문이다. At this time, each voice processing device 100 may request selection information from the driving control server 200 after a predetermined time from the time when information on the volume of the input driving word is transmitted to the driving control server 200 . The reason why the voice processing device 100 requests the selection information after a predetermined time after transmitting the volume information to the drive control server 200 is that all voice processing devices 100 transmit the volume information to the drive control server 200. 200, and it takes time until the drive control server 200 generates selection information based on the volume information received from each voice processing device 100.

구동 제어 서버(200)는 음성 처리 장치(100)가 송신한 구동 단어 또는 구동 단어를 포함하는 사용자의 음성 명령의 음량에 대한 정보를 기초로 복수의 음성 처리 장치(100) 중 어느 음성 처리 장치(100)가 사용자의 명령을 처리할 것인지를 결정한 선택 정보를 생성하여 복수의 음성 처리 장치(100) 중 적어도 하나에 전송할 수 있다. 이때 구동 제어 서버(200)의 구성 및 구동 제어 서버(200)가 음량에 대한 정보를 처리하는 과정을 도 2와 함께 상세히 설명한다. 이후, 본 발명의 실시예에 따른 구동 제어 서버(200)가 선택 정보를 생성함에 있어 고려하는 요소를 구동 단어의 음량에 대한 정보를 기준으로 설명하나, 구동 제어 서버(200)가 선택 정보를 생성하기 위해 고려하는 사용자의 발화가 구동 단어에만 한정되는 것은 아니며, 구동 단어를 포함하는 사용자의 음성 명령 등 다양한 사용자 발화 형태의 음량에 대한 정보를 기초로 선택 정보를 생성할 수 있다.The drive control server 200 selects one of the plurality of voice processing devices 100 (one voice processing device ( 100) may generate selection information for determining whether to process a user's command and transmit it to at least one of the plurality of voice processing devices 100. At this time, the configuration of the driving control server 200 and the process of processing the volume information by the driving control server 200 will be described in detail together with FIG. 2 . Hereafter, the factors considered by the drive control server 200 according to an embodiment of the present invention when generating selection information are described based on information on the volume of drive words, but the drive control server 200 generates the selection information. The user's speech to be considered is not limited to the driving word, and the selection information may be generated based on information about the volume of various types of user speech, such as a user's voice command including the driving word.

도 2는 본 발명의 일 실시예에 따른 구동 제어 서버(200)의 기능 블럭도이다.2 is a functional block diagram of a driving control server 200 according to an embodiment of the present invention.

도 2를 참조하면, 본 발명의 일 실시예에 따른 구동 제어 서버(200)는 통신부(210), 저장부(220) 및 제어부(230)를 포함한다. Referring to FIG. 2 , the drive control server 200 according to an embodiment of the present invention includes a communication unit 210 , a storage unit 220 and a control unit 230 .

통신부(210)는 통신망을 통해 외부 장치로부터 데이터를 송수신한다. 가령, 통신부(210)는 음성 처리 장치(100)가 전송하는 구동 단어의 음량에 대한 정보를 수신할 수 있고, 어느 음성 처리 장치(100)가 사용자의 명령을 처리할 것인지를 결정한 선택 정보를 음성 처리 장치(100)에 송신할 수 있다. 이러한 작업들을 수행하기 위하여 통신부(210)는 음성 처리 장치(100)와 데이터를 주고받기 위한 통신 모듈을 포함할 수 있다.The communication unit 210 transmits and receives data from an external device through a communication network. For example, the communication unit 210 may receive information about the volume of a drive word transmitted by the voice processing device 100, and transmit selection information for determining which voice processing device 100 will process the user's command. It can be transmitted to the processing device 100. To perform these tasks, the communication unit 210 may include a communication module for exchanging data with the voice processing device 100 .

저장부(220)는 음성 처리 장치(100)로부터 통신부(210)를 통해 수신한 사용자의 구동 단어의 음량에 대한 정보를 저장한다. 이를 위해, 저장부(220)는 데이터를 저장하기 위한 주 기억 장치, 보조 기억 장치 또는 클라우드 형태의 저장 장치를 구비할 수 있으나, 이에 한정되는 것은 아니다. The storage unit 220 stores information about the volume of the user's driving word received from the voice processing device 100 through the communication unit 210 . To this end, the storage unit 220 may include a main storage device, an auxiliary storage device, or a cloud type storage device for storing data, but is not limited thereto.

제어부(230)는 복수의 음성 처리 장치(100)가 송신한 구동 단어의 음량에 대한 정보를 기초로 특정 음성 처리 장치(100)가 사용자의 명령을 처리하도록 제어하는 선택 정보를 생성한다. The control unit 230 generates selection information for controlling a specific voice processing device 100 to process a user's command based on information about the volume of a drive word transmitted from the plurality of voice processing devices 100 .

도 3은 본 발명의 일 실시예에 따른 구동 제어 서버(200)의 제어부(230)가 선택 정보를 생성하는 것을 설명하기 위한 예시도이다.3 is an exemplary diagram for explaining that the controller 230 of the drive control server 200 generates selection information according to an embodiment of the present invention.

도 3을 참조하면, 저장부(220)는 복수의 음성 처리 장치(100)로부터 수신한 구동 단어의 음량에 대한 정보를 저장할 수 있고, 제어부(230)는 복수의 음성 처리 장치(100) 중 구동 단어의 음량을 가장 큰 값으로 입력 받은 음성 처리 장치(100)가 사용자의 명령을 처리하도록 제어하는 선택 정보를 생성할 수 있다. 이때 도 3에서는 어떠한 음성 처리 장치(100)가 사용자의 명령을 처리할 것인지를 결정하기 위해 선택 정보에 'ON' 또는 'SLEEP' 과 같은 정보를 포함하는 것으로 예시되어 있으나, 선택 정보는 '1' 또는 '0'과 같은 디지털 비트 값일 수 있고, 또는 구동 제어 서버(200)에서 각 음성 처리 장치(100)가 송신한 음량 정보를 '1위', '2위', '3위'와 같이 순위화한 테이블일 수 있다. 이와 같이, 선택 정보가 포함하는 정보의 형태는 앞에 열거된 예시에만 한정되는 것이 아니라, 음성 처리 장치(100)가 자신이 사용자의 명령을 처리할 지 또는 대기 모드로 돌아갈 지 구분할 수 있도록 하는 다양한 형태로 생성될 수 있다. Referring to FIG. 3 , the storage unit 220 may store information about the volume of the driving word received from the plurality of voice processing devices 100, and the controller 230 may drive one of the plurality of voice processing devices 100. The voice processing apparatus 100 that receives the volume of the word as the largest value may generate selection information for controlling the user's command to be processed. At this time, in FIG. 3, it is exemplified that information such as 'ON' or 'SLEEP' is included in the selection information to determine which voice processing device 100 will process the user's command, but the selection information is '1' Alternatively, it may be a digital bit value such as '0', or the volume information transmitted by each voice processing device 100 in the driving control server 200 is ranked in order such as '1st', '2nd', and '3rd'. It can be a coordinated table. As such, the form of information included in the selection information is not limited to the examples listed above, but various forms that allow the voice processing device 100 to distinguish whether to process the user's command or return to the standby mode. can be created with

또한 음성 처리 장치(100)로부터 수신한 음량에 대한 정보에는 정보를 송신한 각 음성 처리 장치(100)의 식별자, 각 음성 처리 장치(100)의 소유자 ID, 음량 정보, 구동 제어 서버(200)가 정보를 수신한 시간 등의 정보가 포함될 수 있다. 이때 소유자 ID는 같은 공간에서 사용되는 음성 처리 장치(100)들의 그룹을 식별하기 위한 정보로서, 음성 처리 장치(100)를 구매한 자의 식별 정보이거나, 여러 사용자 중 특정 사용자를 나타내는 정보일 수 있다. In addition, the information on the volume received from the voice processing device 100 includes the identifier of each voice processing device 100 that transmitted the information, the owner ID of each voice processing device 100, the volume information, and the drive control server 200. Information such as a time at which the information was received may be included. At this time, the owner ID is information for identifying a group of voice processing devices 100 used in the same space, and may be identification information of a person who purchased the voice processing device 100 or information indicating a specific user among several users.

한편, 음성 처리 장치(100)는 음량에 대한 정보를 구동 제어 서버(200)에 전송한 시점으로부터 기 설정된 시간 이후 선택 정보를 구동 제어 서버(200)에 요청할 수 있고, 이에 따라 제어부(230)는 복수의 음성 처리 장치(100) 중 어느 하나로부터 구동 단어의 음량에 대한 정보를 처음으로 수신한 시점부터 기 설정된 시간 동안 복수의 음성 처리 장치(100)로부터 수신된 구동 단어의 음량에 대한 정보를 기초로 선택 정보를 생성할 수 있다. Meanwhile, the voice processing device 100 may request selection information from the driving control server 200 after a predetermined time from the time when the volume information is transmitted to the driving control server 200, and accordingly, the control unit 230 Based on the information on the volume of the drive word received from the plurality of voice processing devices 100 for a predetermined time from the time when information on the volume of the drive word is first received from any one of the plurality of voice processing devices 100 Selective information can be created with

가령, 도 3에 도시된 바와 같이 음성 처리 장치 100a로부터 선택 정보의 요청이 있는 경우, 제어부(230)는 음성 처리 장치 100a와 소유자 ID (Y)가 동일한 음성 처리 장치 100b, 100c를 선별한다. 즉, 도 3에서 소유자 ID (K)에 해당하는 정보를 송신한 음성 처리 장치 100z는 소유자 ID (Y)가 사용하는 음성 처리 장치(100a, 100b, 100c)가 아니므로 선택 정보의 생성에서 제외한다. For example, as shown in FIG. 3 , when there is a request for selection information from the voice processing device 100a, the controller 230 selects the voice processing devices 100b and 100c having the same owner ID (Y) as the voice processing device 100a. That is, since the audio processing device 100z that transmitted the information corresponding to the owner ID (K) in FIG. 3 is not the audio processing device 100a, 100b, or 100c used by the owner ID (Y), it is excluded from generation of selection information. .

이에, 제어부(230)는 소유자 ID (Y)의 음성 처리 장치 (100a, 100b, 100c)로부터 수신한 음량에 대한 정보 중 수신 시간이 제일 빠른 음량에 대한 정보(01m:53s:27ms)로부터 기 설정된 시간(예: 10ms) 동안 수신된 음량에 대한 정보를 선별한다. 이때 기 설정된 시간 이후에 수신된 음량에 대한 정보는 동일한 소유자 Y가 사용하는 음성 처리 장치(100a)일지라도 동일한 명령에 해당하는 음량에 대한 정보가 아닐 수 있기 때문이다. 따라서 소유자 ID (Y)의 음성 처리 장치(100a, 100b, 100c)로부터 수신한 음량에 대한 정보 중 수신 시간이 01m:55s:22ms에 해당하는 정보는 최초 수신 시간 01m:53s:27ms로부터 기 설정된 시간(10ms)이 훨씬 지나고 나서 수신된 정보이므로 해당 정보는 선택 정보의 생성 대상에서 제외할 수 있다. Accordingly, the control unit 230 sets a preset value from the volume information (01m:53s:27ms) having the fastest reception time among volume information received from the voice processing devices 100a, 100b, and 100c of the owner ID (Y). Select information about the volume received for a period of time (eg 10 ms). This is because the information on the volume received after the preset time may not be information on the volume corresponding to the same command, even if the voice processing device 100a is used by the same owner Y. Therefore, among the information about the volume received from the voice processing devices 100a, 100b, and 100c of the owner ID (Y), the information corresponding to the reception time of 01m:55s:22ms is a preset time from the initial reception time of 01m:53s:27ms. Since it is information received after (10 ms) has passed, the corresponding information can be excluded from the generation of selection information.

이에 따라, 제어부(230)는 각 음성 처리 장치(100)가 수행할 행동이 지정된 선택 정보를 모든 음성 처리 장치(100)에 전송하여 각 음성 처리 장치(100)가 자신의 장치 식별자에 해당하는 정보를 기초로 사용자의 명령을 처리하거나 대기 모드로 돌아가도록 할 수 있다. 즉, 도 3에 도시된 바와 같이 제어부(230)는 소유자 ID가 (Y)이고 최초 수신 시간 01m:53s:27ms 로부터 10ms 내에 정보가 수신된 3개의 정보에 대하여, 음량 정보가 가장 큰 음성 처리 장치 100c를 사용자의 명령을 수행하도록 하고, 나머지 음성 처리 장치 100a, 100b 는 대기 모드로 돌아가도록 제어하는 선택 정보를 생성할 수 있다. 이에 따라, 선택 정보를 수신한 음성 처리 장치 100a, 100b는 대기 모드로 돌아가고, 음성 처리 장치 100c는 스스로 사용자의 명령을 처리하거나, 외부 서버에 사용자의 명령에 대응하는 서비스를 제공하도록 요청할 수 있다.Accordingly, the control unit 230 transmits selection information in which an action to be performed by each voice processing device 100 is designated to all voice processing devices 100, so that each voice processing device 100 has information corresponding to its device identifier. Based on this, the user's command can be processed or returned to standby mode. That is, as shown in FIG. 3 , the control unit 230 controls the voice processing device with the largest volume information for three pieces of information received within 10 ms from the initial reception time 01m:53s:27ms with an owner ID of (Y). Selection information for controlling the 100c to execute the user's command and the rest of the voice processing devices 100a and 100b to return to the standby mode may be generated. Accordingly, the voice processing devices 100a and 100b that have received the selection information return to the standby mode, and the voice processing device 100c processes the user's command by itself or requests an external server to provide a service corresponding to the user's command.

또는 제어부(230)는 사용자의 명령을 처리하도록 선별된 음성 처리 장치 100c에만 선택 정보를 전송하여 사용자의 명령을 처리하게 할 수 있으며, 이때 선택 정보를 요청하였으나 소정의 시간 동안 선택 정보를 수신하지 못한 음성 처리 장치 100a, 100b는 자동으로 대기 모드로 돌아가도록 설정될 수 있다.Alternatively, the control unit 230 may transmit selection information only to the voice processing device 100c selected to process the user's command so as to process the user's command. The voice processing devices 100a and 100b may be set to automatically return to standby mode.

이후, 제어부(230)는 선택 정보의 생성에 사용된 정보를 저장부(220)에서 삭제하고, 남은 정보를 기초로 음성 처리 장치(100)의 다음 요청에 따른 선택 정보를 생성할 수 있다. Thereafter, the control unit 230 may delete the information used to generate the selection information from the storage unit 220 and generate selection information according to the next request of the voice processing device 100 based on the remaining information.

아울러, 음성 처리 장치(100)를 사용하는 사용자는 음성 처리 장치(100)의 첫 사용 시에 소유자 ID 및 장치 식별자 등을 미리 구동 제어 서버(200)에 등록시켜 놓을 수 있고, 구동 제어 서버(200)는 음량에 대한 정보를 송신한 음성 처리 장치(100)의 장치 식별자를 통해 미리 등록되어 있는 소유자 ID에 대한 정보로 각 음성 처리 장치(100) 및 명령을 수행할 장치로 특정되기 위한 비교 대상인 음성 처리 장치(100)들의 그룹을 식별할 수 있으며, 이외에도 다양한 정보를 통해 구동 제어 서버(200)가 음성 처리 장치(100) 및 명령을 수행할 장치로 특정되기 위한 비교 대상인 음성 처리 장치(100)들의 그룹을 식별하도록 할 수 있다. In addition, the user using the voice processing device 100 may register the owner ID and device identifier in advance with the driving control server 200 when the voice processing device 100 is used for the first time, and the driving control server 200 ) is information about an owner ID pre-registered through the device identifier of the voice processing device 100 that transmitted the volume information, and is a comparison target voice for being specified as each voice processing device 100 and a device to execute a command. A group of the processing devices 100 can be identified, and in addition, through various information, the driving control server 200 can identify the voice processing device 100 and the voice processing device 100 as a comparison target for being specified as a device to execute a command. groups can be identified.

한편, 제어부(230)는 복수의 음성 처리 장치(100)가 전송한 음량 간의 차이가 소정의 값 이하이면, 복수의 음성 처리 장치(100) 중 구동 단어의 음량에 대한 정보를 처음으로 전송한 음성 처리 장치(100)가 명령을 처리하게 하는 선택 정보를 생성할 수 있다. On the other hand, if the difference between the volumes transmitted by the plurality of voice processing devices 100 is equal to or less than a predetermined value, the controller 230 transmits information on the volume of the driving word among the plurality of voice processing devices 100 to the first transmitted voice. Selection information that causes the processing device 100 to process the command may be generated.

또한 제어부(230)는 복수의 음성 처리 장치(100)가 전송한 음량 간의 차이가 소정의 값 이하이면, 사용자가 구동 제어 서버(200)에 미리 지정한 음성 처리 장치(100)의 우선 순위에 따라, 우선 순위가 가장 높게 설정된 음성 처리 장치(100)가 사용자의 명령을 처리하게 하는 선택 정보를 생성할 수 있다. In addition, if the difference between the volumes transmitted by the plurality of voice processing devices 100 is equal to or less than a predetermined value, the control unit 230 determines the priority of the voice processing devices 100 previously designated in the driving control server 200 by the user. The voice processing device 100 with the highest priority may generate selection information that allows the user's command to be processed.

상술한 실시예에 따르면, 동일한 공간에서 동일한 구동 단어에 의해 구동되는 복수의 음성 처리 장치(100)가 존재하는 경우 각 음성 처리 장치(100)가 인식한 구동 단어 음량의 크기를 기초로 특정한 음성 처리 장치(100)만이 사용자의 명령을 처리하도록 결정할 수 있다. According to the above-described embodiment, when there are a plurality of voice processing devices 100 driven by the same drive word in the same space, specific voice processing is performed based on the volume of the drive word recognized by each voice processing device 100. Only the device 100 can decide to process the user's command.

또한 각 음성 처리 장치(100)가 인식한 구동 단어 음량의 크기를 구별할 수 없을 정도로 차이가 작은 경우에도, 미리 정해진 규칙에 따라 어느 음성 처리 장치(100)가 사용자의 명령을 처리할 지 결정할 수 있다.In addition, even when the difference between the volumes of the drive words recognized by each voice processing device 100 is so small that it is impossible to distinguish them, it is possible to determine which voice processing device 100 will process the user's command according to a predetermined rule. there is.

이에 따라, 구동 단어 이후에 발화되는 사용자의 명령에 의해 복수의 음성 처리 장치(100)가 동시에 동작을 수행하여 사용자에게 혼란을 발생시키는 문제를 방지할 수 있다. Accordingly, it is possible to prevent a problem in which a plurality of voice processing apparatuses 100 simultaneously perform operations according to a user's command uttered after a driving word, causing confusion to the user.

한편, 상술한 실시예가 포함하는 통신부(210) 및 제어부(230)는 이들의 기능을 수행하도록 프로그램된 명령어를 포함하는 메모리, 및 이들 명령어를 수행하는 마이크로프로세서를 포함하는 연산 장치에 의해 구현될 수 있다. Meanwhile, the communication unit 210 and the control unit 230 included in the above-described embodiment may be implemented by an arithmetic device including a memory including instructions programmed to perform their functions and a microprocessor executing these instructions. there is.

도 4는 본 발명의 일 실시예에 음성 처리 장치의 구동 제어 시스템(10)의 구동 제어 방법의 프로세스를 도시하는 흐름도이다. 도 4에 따른 음성 처리 장치의 구동 제어 시스템(10)의 구동 제어 방법의 각 단계는 도 1을 통해 설명된 구동 제어 시스템(10)의 음성 처리 장치(100) 및 구동 제어 서버(200)에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.4 is a flowchart showing the process of a driving control method of the driving control system 10 of the audio processing apparatus according to one embodiment of the present invention. Each step of the driving control method of the driving control system 10 of the voice processing apparatus according to FIG. 4 is performed by the voice processing apparatus 100 and the driving control server 200 of the driving control system 10 described with reference to FIG. It can be performed, and each step is described as follows.

우선, 복수의 음성 처리 장치(100)는 장치는 사용자의 구동 단어를 입력 받으면(S410) 입력된 구동 단어의 음량에 대한 정보를 구동 제어 서버(200)에 전송하여(S420), 구동 제어 서버(200)는 구동 단어의 음량에 대한 정보를 저장한다(S430). 이후, 음성 처리 장치(100)가 구동 제어 서버(200)에 선택 정보를 요청하면(S440), 구동 제어 서버(200)는 저장부(220)에 저장된 음량에 대한 정보를 기초로 어느 음성 처리 장치(100)가 사용자의 명령을 처리할 것인지를 결정한 선택 정보를 생성하고(S450), 구동 제어 서버(200)는 복수의 음성 처리 장치(100) 중 적어도 하나의 음성 처리 장치(100)에 선택 정보를 전송한다(S460). 이에 따라, 각 음성 처리 장치(100)는 구동 제어 서버(200)로부터 수신한 선택 정보에 기초하여 명령의 처리 여부를 결정한다(S460). 이때 사용자의 명령을 처리하도록 하는 선택 정보를 수신한 음성 처리 장치(100)는 사용자의 명령을 구동 제어 서버(200)에 요청하거나 스스로 처리할 수 있고(S480), 대기 모드로 돌아가는 선택 정보를 수신한 음성 처리 장치(100)는 새로운 구동 단어의 입력을 대기할 수 있다(S490). First, when the plurality of voice processing devices 100 receive a user's drive word (S410), the device transmits information on the volume of the input drive word to the drive control server 200 (S420), and the drive control server (S420) 200) stores information about the volume of the driving word (S430). Then, when the voice processing device 100 requests selection information from the drive control server 200 (S440), the drive control server 200 selects a voice processing device based on the volume information stored in the storage unit 220. (100) generates selection information for determining whether to process a user's command (S450), and the driving control server 200 transmits the selection information to at least one voice processing device 100 among a plurality of voice processing devices 100. is transmitted (S460). Accordingly, each voice processing device 100 determines whether to process a command based on the selection information received from the driving control server 200 (S460). At this time, the voice processing device 100 that has received the selection information to process the user's command requests the user's command to the drive control server 200 or processes it by itself (S480), and receives the selection information to return to the standby mode. One voice processing device 100 may wait for input of a new driving word (S490).

한편, 상술한 각 단계의 주체인 구성 요소들이 해당 단계를 실시하기 위한 과정은 도 1과 함께 설명하였으므로 중복된 설명은 생략한다. On the other hand, since the process for carrying out the corresponding step by the components that are the subject of each step described above has been described with reference to FIG. 1 , redundant description will be omitted.

도 5는 본 발명의 일 실시예에 구동 제어 서버(200)의 구동 제어 방법의 프로세스를 도시하는 흐름도이다. 도 5에 따른 구동 제어 서버(200)의 구동 제어 방법의 각 단계는 도 2를 통해 설명된 구동 제어 서버(200)에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.5 is a flowchart showing the process of the driving control method of the driving control server 200 according to one embodiment of the present invention. Each step of the driving control method of the driving control server 200 according to FIG. 5 may be performed by the driving control server 200 described with reference to FIG. 2, and each step will be described as follows.

우선, 구동 제어 서버(200)는 사용자의 구동 단어에 의해 구동되는 복수의 음성 처리 장치(100)로부터 구동 단어의 음량에 대한 정보를 수신하여 저장한다(S510). 이후, 구동 제어 서버(200)는 구동 단어의 음량에 대한 정보를 기초로 복수의 음성 처리 장치(100) 중 어느 음성 처리 장치(100)가 사용자의 명령을 처리할 것인지를 결정한 선택 정보를 생성한다(S520). 다음으로, 구동 제어 서버(200)는 생성한 선택 정보를 복수의 음성 처리 장치(100) 중 적어도 하나에 전송한다(S530). First of all, the drive control server 200 receives and stores information on the volume of the drive word from the plurality of voice processing devices 100 driven by the user's drive word (S510). Thereafter, the drive control server 200 generates selection information for determining which voice processing device 100 among the plurality of voice processing devices 100 will process the user's command based on the information on the volume of the driving word. (S520). Next, the driving control server 200 transmits the generated selection information to at least one of the plurality of voice processing devices 100 (S530).

한편, 구동 제어 서버(200)의 구동 제어 방법에 대한 각 단계의 구체적 과정은 도 2와 함께 설명하였으므로 중복된 설명은 생략한다. Meanwhile, since the specific process of each step of the driving control method of the driving control server 200 has been described with reference to FIG. 2 , redundant descriptions will be omitted.

상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.The above-described embodiments of the present invention may be implemented through various means. For example, embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.

하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.In the case of hardware implementation, the method according to the embodiments of the present invention includes one or more ASICs (Application Specific Integrated Circuits), DSPs (Digital Signal Processors), DSPDs (Digital Signal Processing Devices), PLDs (Programmable Logic Devices) , Field Programmable Gate Arrays (FPGAs), processors, controllers, microcontrollers, microprocessors, etc.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드 등이 기록된 컴퓨터 프로그램은 컴퓨터 판독 가능 기록 매체 또는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 메모리 유닛은 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.In the case of implementation by firmware or software, the method according to the embodiments of the present invention may be implemented in the form of a module, procedure, or function that performs the functions or operations described above. A computer program in which software codes and the like are recorded may be stored in a computer readable recording medium or a memory unit and driven by a processor. The memory unit may be located inside or outside the processor and exchange data with the processor by various means known in the art.

이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.As such, those skilled in the art to which the present invention pertains will be able to understand that the present invention may be embodied in other specific forms without changing its technical spirit or essential features. Therefore, the embodiments described above should be understood as illustrative in all respects and not limiting. The scope of the present invention is indicated by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. .

10: 구동 제어 시스템
100: 음성 처리 장치
200: 구동 제어 서버
210: 통신부
220: 저장부
230: 제어부
10: driving control system
100: voice processing device
200: driving control server
210: communication department
220: storage unit
230: control unit

Claims (13)

구동 제어 시스템에 있어서,
복수의 음성 처리 장치, 및
상기 복수의 음성 처리 장치에 연결되는 구동 제어 서버를 포함하고,
상기 복수의 음성 처리 장치 각각은,
사용자의 구동 단어를 입력 받은 경우 상기 입력된 구동 단어의 음량에 대한 정보를 상기 구동 제어 서버에 전송하고, 상기 구동 제어 서버로부터 상기 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정한 선택 정보를 수신하고, 상기 선택 정보에 기초하여 상기 명령의 처리 여부를 결정하며,
상기 구동 제어 서버는,
상기 복수의 음성 처리 장치로부터 상기 구동 단어의 음량에 대한 정보를 수신하고, 상기 구동 단어의 음량에 대한 정보를 기초로 상기 선택 정보를 생성하고, 상기 선택 정보를 상기 복수의 음성 처리 장치 중 적어도 하나에 전송하고,
상기 복수의 음성 처리 장치가 전송한 상기 음량 간의 차이가 소정의 값 이하이면, 상기 복수의 음성 처리 장치 중 상기 구동 단어의 음량에 대한 정보를 처음으로 전송한 음성 처리 장치가 상기 명령을 처리하게 하는 상기 선택 정보를 생성하는,
구동 제어 시스템.
In the driving control system,
a plurality of speech processing devices; and
A driving control server connected to the plurality of voice processing devices;
Each of the plurality of audio processing devices,
When a user's drive word is input, information on the volume of the input drive word is transmitted to the drive control server, and from the drive control server, one of the plurality of voice processing devices is uttered after the drive word. Receiving selection information for determining whether to process a user's command, and determining whether to process the command based on the selection information;
The drive control server,
Receives information about the volume of the drive word from the plurality of voice processing devices, generates the selection information based on the information about the volume of the drive word, and converts the selection information to at least one of the plurality of voice processing devices. send to,
When the difference between the volumes transmitted by the plurality of voice processing devices is equal to or less than a predetermined value, the voice processing device that first transmitted the information on the volume of the drive word among the plurality of voice processing devices processes the command. generating the selection information;
drive control system.
제1항에 있어서,
상기 구동 제어 서버는,
상기 복수의 음성 처리 장치 중 상기 음량을 가장 큰 값으로 입력 받은 음성 처리 장치가 상기 명령을 처리하게 하는 상기 선택 정보를 생성하는
구동 제어 시스템.
According to claim 1,
The drive control server,
Generating the selection information that allows a voice processing device that has received the largest volume among the plurality of voice processing devices to process the command
drive control system.
삭제delete 제1항에 있어서,
상기 복수의 음성 처리 장치의 각각은,
상기 입력된 구동 단어의 음량에 대한 정보를 상기 구동 제어 서버에 전송한 시점으로부터 기 설정된 시간 이후 상기 선택 정보를 상기 구동 제어 서버에 요청하는
구동 제어 시스템.
According to claim 1,
Each of the plurality of audio processing devices,
Requesting the selection information to the driving control server after a predetermined time from the time when the information on the volume of the input driving word is transmitted to the driving control server
drive control system.
제1항에 있어서,
상기 구동 제어 서버는,
상기 복수의 음성 처리 장치 중 어느 하나로부터 상기 선택 정보의 요청을 수신하면, 상기 복수의 음성 처리 장치 중 어느 하나로부터 상기 구동 단어의 음량에 대한 정보를 처음으로 수신한 시점부터 기 설정된 시간 동안 상기 복수의 음성 처리 장치로부터 수신된 상기 구동 단어의 음량에 대한 정보를 기초로 상기 선택 정보를 생성하는
구동 제어 시스템.
According to claim 1,
The drive control server,
When a request for the selection information is received from any one of the plurality of voice processing devices, the plurality of voice processing devices for a predetermined time from the time when information on the volume of the drive word is first received from one of the plurality of voice processing devices. Generating the selection information based on information about the volume of the drive word received from the voice processing device of
drive control system.
통신부;
사용자의 구동 단어에 의해 구동되는 복수의 음성 처리 장치로부터 상기 구동 단어의 음량에 대한 정보를 상기 통신부를 통해 수신하여 저장하는 저장부; 및
상기 구동 단어의 음량에 대한 정보를 기초로 상기 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정하는 선택 정보를 생성하여 상기 통신부를 통해 상기 복수의 음성 처리 장치 중 적어도 하나에 전송하는 제어부를 포함하고,
상기 제어부는,
상기 복수의 음성 처리 장치 중 적어도 하나는, 상기 선택 정보에 기초하여 상기 명령의 처리 여부를 결정하고,
상기 복수의 음성 처리 장치가 전송한 상기 음량 간의 차이가 소정의 값 이하이면, 상기 복수의 음성 처리 장치 중 상기 구동 단어의 음량에 대한 정보를 처음으로 전송한 음성 처리 장치가 상기 명령을 처리하게 하는 상기 선택 정보를 생성하는,
구동 제어 서버.
communications department;
a storage unit for receiving and storing information on the volume of a drive word from a plurality of voice processing devices driven by a user's drive word through the communication unit; and
Based on the information on the volume of the drive word, selection information for determining which of the plurality of voice processing devices will process the user's command uttered after the drive word is generated, and the plurality of voice processing devices are generated through the communication unit. A control unit for transmitting to at least one of the voice processing devices of
The control unit,
At least one of the plurality of voice processing devices determines whether to process the command based on the selection information;
When the difference between the volumes transmitted by the plurality of voice processing devices is equal to or less than a predetermined value, the voice processing device that first transmitted the information on the volume of the drive word among the plurality of voice processing devices processes the command. generating the selection information;
drive control server.
제6항에 있어서,
상기 제어부는,
상기 복수의 음성 처리 장치 중 상기 음량을 가장 큰 값으로 입력 받은 음성 처리 장치가 상기 명령을 처리하게 하는 상기 선택 정보를 생성하는
구동 제어 서버.
According to claim 6,
The control unit,
Generating the selection information that allows a voice processing device that has received the largest volume among the plurality of voice processing devices to process the command
drive control server.
제6항에 있어서,
상기 제어부는,
상기 복수의 음성 처리 장치 중 어느 하나로부터 상기 선택 정보의 요청이 있는 경우, 상기 복수의 음성 처리 장치 중 어느 하나로부터 상기 구동 단어의 음량에 대한 정보를 처음으로 수신한 시점부터 기 설정된 시간 동안 상기 복수의 음성 처리 장치로부터 수신된 상기 구동 단어의 음량에 대한 정보를 기초로 상기 선택 정보를 생성하는
구동 제어 서버.
According to claim 6,
The control unit,
When there is a request for the selection information from any one of the plurality of voice processing devices, the plurality of voice processing devices for a predetermined time from the time when information on the volume of the drive word is first received from one of the plurality of voice processing devices. Generating the selection information based on information about the volume of the drive word received from the voice processing device of
drive control server.
삭제delete 복수의 음성 처리 장치가 사용자의 구동 단어를 입력 받은 경우 상기 입력된 구동 단어의 음량에 대한 정보를 구동 제어 서버에 전송하는 단계;
상기 구동 제어 서버가 상기 복수의 음성 처리 장치로부터 상기 구동 단어의 음량에 대한 정보를 수신하고, 상기 구동 단어의 음량에 대한 정보를 기초로 상기 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정한 선택 정보를 생성하는 단계;
상기 구동 제어 서버가 상기 복수의 음성 처리 장치 중 적어도 하나에 상기 선택 정보를 전송하는 단계; 및
상기 복수의 음성 처리 장치가 상기 구동 제어 서버로부터 상기 선택 정보를 수신하고, 상기 선택 정보에 기초하여 상기 명령의 처리 여부를 결정하는 단계를 포함하고,
상기 선택 정보를 생성하는 단계는,
상기 복수의 음성 처리 장치가 전송한 상기 음량 간의 차이가 소정의 값 이하이면, 상기 복수의 음성 처리 장치 중 상기 구동 단어의 음량에 대한 정보를 처음으로 전송한 음성 처리 장치가 상기 명령을 처리하게 하는 상기 선택 정보를 생성하는 단계를 포함하는,
구동 제어 시스템의 구동 제어 방법.
transmitting information about volume of the input drive word to a drive control server when the plurality of voice processing devices receive a user's drive word;
The drive control server receives information on the volume of the drive word from the plurality of voice processing devices, and based on the information on the volume of the drive word, one of the plurality of voice processing devices selects the drive word. generating selection information for determining whether or not to process a user's command issued thereafter;
transmitting, by the drive control server, the selection information to at least one of the plurality of voice processing devices; and
receiving, by the plurality of voice processing devices, the selection information from the driving control server, and determining whether to process the command based on the selection information;
Generating the selection information,
When the difference between the volumes transmitted by the plurality of voice processing devices is equal to or less than a predetermined value, the voice processing device that first transmitted the information on the volume of the drive word among the plurality of voice processing devices processes the command. Including generating the selection information,
A driving control method of a driving control system.
사용자의 구동 단어에 의해 구동되는 복수의 음성 처리 장치로부터 상기 구동 단어의 음량에 대한 정보를 수신하여 저장하는 단계;
상기 구동 단어의 음량에 대한 정보를 기초로 상기 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정하는 선택 정보를 생성하는 단계; 및
상기 선택 정보를 상기 복수의 음성 처리 장치 중 적어도 하나에 전송하는 단계를 포함하고,
상기 복수의 음성 처리 장치 중 적어도 하나는, 상기 선택 정보에 기초하여 상기 명령의 처리 여부를 결정하고,
상기 선택 정보를 생성하는 단계는,
상기 복수의 음성 처리 장치가 전송한 상기 음량 간의 차이가 소정의 값 이하이면, 상기 복수의 음성 처리 장치 중 상기 구동 단어의 음량에 대한 정보를 처음으로 전송한 음성 처리 장치가 상기 명령을 처리하게 하는 상기 선택 정보를 생성하는 단계를 포함하는,
구동 제어 서버의 구동 제어 방법.
receiving and storing volume information of a drive word from a plurality of voice processing devices driven by a user's drive word;
generating selection information for determining which voice processing device among the plurality of voice processing devices will process a user's command uttered after the driving word, based on the volume information of the driving word; and
Transmitting the selection information to at least one of the plurality of voice processing devices;
At least one of the plurality of voice processing devices determines whether to process the command based on the selection information;
Generating the selection information,
When the difference between the volumes transmitted by the plurality of voice processing devices is equal to or less than a predetermined value, the voice processing device that first transmitted the information on the volume of the drive word among the plurality of voice processing devices processes the command. Including generating the selection information,
Driving control method of driving control server.
사용자의 구동 단어에 의해 구동되는 복수의 음성 처리 장치로부터 상기 구동 단어의 음량에 대한 정보를 수신하여 저장하는 단계;
상기 구동 단어의 음량에 대한 정보를 기초로 상기 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정하는 선택 정보를 생성하되, 상기 복수의 음성 처리 장치가 전송한 상기 음량 간의 차이가 소정의 값 이하이면, 상기 복수의 음성 처리 장치 중 상기 구동 단어의 음량에 대한 정보를 처음으로 전송한 음성 처리 장치가 상기 명령을 처리하게 하는 상기 선택 정보를 생성하는 단계; 및
상기 선택 정보를 상기 복수의 음성 처리 장치 중 적어도 하나에 전송하되, 상기 복수의 음성 처리 장치 중 적어도 하나는, 상기 선택 정보에 기초하여 상기 명령의 처리 여부를 결정하는 단계를
프로세서로 하여금 수행하게 하는 명령어를 포함하는 프로그램이 기록된 컴퓨터 판독 가능 기록매체.
receiving and storing volume information of a drive word from a plurality of voice processing devices driven by a user's drive word;
Select information for determining which of the plurality of voice processing devices to process a user's command uttered after the drive word is generated based on the information on the volume of the drive word; If the difference between the volumes transmitted by the device is equal to or less than a predetermined value, the voice processing device that first transmitted the information on the volume of the drive word among the plurality of voice processing devices generates the selection information for processing the command. doing; and
transmitting the selection information to at least one of the plurality of voice processing devices, wherein at least one of the plurality of voice processing devices determines whether to process the command based on the selection information;
A computer-readable recording medium on which a program containing instructions that cause a processor to be executed is recorded.
사용자의 구동 단어에 의해 구동되는 복수의 음성 처리 장치로부터 상기 구동 단어의 음량에 대한 정보를 수신하여 저장하는 단계;
상기 구동 단어의 음량에 대한 정보를 기초로 상기 복수의 음성 처리 장치 중 어느 음성 처리 장치가 상기 구동 단어 이후 발화되는 사용자의 명령을 처리할 것인지를 결정하는 선택 정보를 생성하되, 상기 복수의 음성 처리 장치가 전송한 상기 음량 간의 차이가 소정의 값 이하이면, 상기 복수의 음성 처리 장치 중 상기 구동 단어의 음량에 대한 정보를 처음으로 전송한 음성 처리 장치가 상기 명령을 처리하게 하는 상기 선택 정보를 생성하는 단계; 및
상기 선택 정보를 상기 복수의 음성 처리 장치 중 적어도 하나에 전송하되, 상기 복수의 음성 처리 장치 중 적어도 하나는, 상기 선택 정보에 기초하여 상기 명령의 처리 여부를 결정하는 단계를
프로세서가 수행하도록 하는 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
receiving and storing volume information of a drive word from a plurality of voice processing devices driven by a user's drive word;
Select information for determining which of the plurality of voice processing devices to process a user's command uttered after the drive word is generated based on the information on the volume of the drive word; If the difference between the volumes transmitted by the device is equal to or less than a predetermined value, the voice processing device that first transmitted the information on the volume of the drive word among the plurality of voice processing devices generates the selection information for processing the command. doing; and
transmitting the selection information to at least one of the plurality of voice processing devices, wherein at least one of the plurality of voice processing devices determines whether to process the command based on the selection information;
A computer program stored on a computer-readable recording medium that causes a processor to execute it.
KR1020170114116A 2017-08-10 2017-09-06 System and server for controlling operation of voice processing device KR102486912B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170101546 2017-08-10
KR20170101546 2017-08-10

Publications (2)

Publication Number Publication Date
KR20190017595A KR20190017595A (en) 2019-02-20
KR102486912B1 true KR102486912B1 (en) 2023-01-11

Family

ID=65562009

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170114116A KR102486912B1 (en) 2017-08-10 2017-09-06 System and server for controlling operation of voice processing device

Country Status (1)

Country Link
KR (1) KR102486912B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019219A1 (en) * 2013-07-10 2015-01-15 GM Global Technology Operations LLC Systems and methods for spoken dialog service arbitration
WO2016057268A1 (en) * 2014-10-09 2016-04-14 Google Inc. Hotword detection on multiple devices
WO2016085776A1 (en) * 2014-11-28 2016-06-02 Microsoft Technology Licensing, Llc Device arbitration for listening devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019219A1 (en) * 2013-07-10 2015-01-15 GM Global Technology Operations LLC Systems and methods for spoken dialog service arbitration
WO2016057268A1 (en) * 2014-10-09 2016-04-14 Google Inc. Hotword detection on multiple devices
WO2016085776A1 (en) * 2014-11-28 2016-06-02 Microsoft Technology Licensing, Llc Device arbitration for listening devices

Also Published As

Publication number Publication date
KR20190017595A (en) 2019-02-20

Similar Documents

Publication Publication Date Title
JP6916167B2 (en) Interactive control methods and devices for voice and video calls
US10466885B2 (en) Transactional conversation-based computing system
KR102429436B1 (en) Server for seleting a target device according to a voice input, and controlling the selected target device, and method for operating the same
EP2718925B1 (en) Speech recognition using loosely coupled components
US9825773B2 (en) Device control by speech commands with microphone and camera to acquire line-of-sight information
US20240184517A1 (en) Associating of computing devices
US20060195323A1 (en) Distributed speech recognition system
US11657801B2 (en) Voice command detection and prediction
WO2019183561A1 (en) Speech interface device
US11810566B2 (en) Systems and methods for addressing possible interruption during interaction with digital assistant
CN104615358A (en) Application program starting method and electronic device
US11163369B2 (en) Client device motion control via a video feed
CN105229970A (en) The system and method coming for ISCSI transfer of data assigned priority by using the switch enabling data center bridging
KR102531953B1 (en) Apparatus and method for providing ethics-based service
US20200410988A1 (en) Information processing device, information processing system, and information processing method, and program
KR102486912B1 (en) System and server for controlling operation of voice processing device
JP6462291B2 (en) Interpreting service system and interpreting service method
CN107545896A (en) Control method, apparatus and system, the sending method of file and the device of equipment
KR20210066651A (en) Electronic device and Method for controlling the electronic device thereof
US10210886B2 (en) Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus
US10741173B2 (en) Artificial intelligence (AI) based voice response system etiquette
KR102407577B1 (en) User device and method for processing input message
KR20200127823A (en) The hub device, multi device system comprising the hub device and a plurality of devices and method operating the same
KR102240521B1 (en) Method and apparatus for handling call while running application
US20220230634A1 (en) Systems and methods for voice exchange beacon devices

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)