WO2020141620A1 - 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법 - Google Patents

음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법 Download PDF

Info

Publication number
WO2020141620A1
WO2020141620A1 PCT/KR2019/000015 KR2019000015W WO2020141620A1 WO 2020141620 A1 WO2020141620 A1 WO 2020141620A1 KR 2019000015 W KR2019000015 W KR 2019000015W WO 2020141620 A1 WO2020141620 A1 WO 2020141620A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
text
speech
data
unit
Prior art date
Application number
PCT/KR2019/000015
Other languages
English (en)
French (fr)
Inventor
이성종
Original Assignee
수상에스티(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 수상에스티(주) filed Critical 수상에스티(주)
Priority to PCT/KR2019/000015 priority Critical patent/WO2020141620A1/ko
Publication of WO2020141620A1 publication Critical patent/WO2020141620A1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/06Safety devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present invention relates to a speech recognition sympathetic robot, a speech recognition system of a sympathetic robot, and more specifically, to a system and method for recognizing a user's voice through a sympathetic robot and generating a corresponding event. It is about.
  • the present invention minimizes the processing capability of the voice recognition sympathetic robot by receiving the user's voice through the voice recognition sympathetic robot and transmitting it to the server to analyze the user's voice and output a corresponding response voice,
  • a voice recognition sympathetic robot a sympathetic robot voice recognition system, and a method for reducing the cost.
  • the present invention transmits and processes the voice input to the voice recognition sympathetic robot to the server, but adjusts the MTU (Maximum Transmission Unit) unit to divide and transmit the data, thereby enabling high-speed voice recognition while using relatively low-spec hardware.
  • MTU Maximum Transmission Unit
  • the present invention connects to a server through wireless communication, analyzes a voice specialized for each user, and outputs a corresponding voice, thereby matching voice characteristics such as language habits of individual users to enable more accurate voice recognition.
  • a robot voice recognition system and method are provided.
  • the present invention converts the input voice into text and extracts keywords from the text, but extracts similar words and category attributes of the extracted keywords, so that voice recognition capable of generating response texts corresponding to the similar words and category attributes more effectively Provided is a sympathetic robot, a sympathetic robot voice recognition system, and a method thereof.
  • the voice recognition system of the sympathetic robot includes a voice data receiving unit that receives voice data transmitted from an external terminal, a text conversion unit that converts the voice data into text, and a keyword from the converted text.
  • Keyword extracting unit for extracting, response text generating unit for extracting the response text corresponding to the extracted keyword from pre-stored metadata, a voice conversion unit for converting the response text into voice data, and the converted voice data to the outside It may include a transmitter for transmitting to the terminal.
  • a user management unit that receives a unique key for identifying a user of the external terminal and reads a setting value corresponding to the unique key may be further included.
  • the keyword extracting unit extracts a plurality of nouns existing in the converted text, generates a set of synonyms of the noun, and matches the extracted noun category to a preset category.
  • the keyword extracting unit extracts a plurality of nouns existing in the converted text, generates a set of synonyms of the noun, and matches the extracted noun category to a preset category.
  • the response text generation unit extracts a set of related question lists corresponding to the set of similar words and the category attribute of each extracted keyword, and extracts a common question between the question lists. You can generate response text.
  • a voice recognition button unit that receives a command for starting a voice input through a button operation, a voice input unit that receives a voice uttered by a user, and recording data of the input voice It includes a voice transmission unit for transmitting to the external system in the form of PCM data and a voice output unit for receiving and outputting response data from the external system.
  • the output unit checks whether the delay value of each register of the voice codec is 0, and when it is not 0, calls a delay function for waiting for a setting operation of the voice codec to correspond to the delay value of each register You can give a waiting time.
  • the voice recognition method of the sympathetic robot includes receiving voice data transmitted from an external terminal, converting the voice data into text, and extracting keywords from the converted text, And extracting the response text corresponding to the extracted keyword from pre-stored metadata, converting the response text to voice data, and transmitting the converted voice data to the external terminal.
  • the server by receiving a user's voice through a voice recognition sympathetic robot and transmitting it to the server, the server analyzes the user's voice and outputs a corresponding response voice, thereby Provided is a voice recognition sympathetic robot, a sympathetic robot voice recognition system, and a method for minimizing processing capacity and reducing cost.
  • the voice input to the voice recognition sympathetic robot is transmitted to a server for processing, and data is divided and transmitted by adjusting a maximum transmission unit (MTU) unit, thereby using hardware with a relatively low specification.
  • MTU maximum transmission unit
  • a voice recognition sympathetic robot a sympathetic robot voice recognition system
  • a method for enabling high speed voice recognition is provided.
  • a cognitive sympathetic robot by connecting to a server through wireless communication and analyzing a voice specialized for each user and outputting a corresponding voice, a voice capable of more accurate voice recognition in accordance with characteristics of individual users' language habits, etc.
  • a cognitive sympathetic robot by connecting to a server through wireless communication and analyzing a voice specialized for each user and outputting a corresponding voice, a voice capable of more accurate voice recognition in accordance with characteristics of individual users' language habits, etc.
  • a speech recognition sympathetic robot by converting the input voice to text and extracting keywords from the text, by extracting the similar words and category attributes of the extracted keywords, the response text corresponding to the similar words and category attributes more effectively
  • a speech recognition sympathetic robot by converting the input voice to text and extracting keywords from the text, by extracting the similar words and category attributes of the extracted keywords, the response text corresponding to the similar words and category attributes more effectively
  • a speech recognition sympathetic robot, a sympathetic robot speech recognition system, and a method are provided.
  • FIG. 1 is a view showing the overall system and a system for generating an event for voice recognition by receiving a voice through a voice recognition sympathetic robot according to an embodiment of the present invention and transmitting it to a sympathetic robot voice recognition system. .
  • FIG. 2 is a block diagram showing the detailed configuration of a sympathetic robot voice recognition system according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing the detailed configuration of a voice recognition sympathetic robot according to an embodiment of the present invention.
  • FIG. 4 is an operational flow diagram showing the flow of a sympathetic robot voice recognition method according to an embodiment of the present invention.
  • the technology of recognizing the user's voice through a robot, doll, etc. and outputting a response message to it does not accurately grasp the intention of the user's question through the user's voice. Accordingly, the response message also consists of simple messages, etc. There was a problem.
  • the present invention is an invention designed to solve the problems of the prior art, and the configuration of the present invention will be described in detail below.
  • FIG. 1 is a view showing the overall system and a system for generating an event for voice recognition by receiving a voice through a voice recognition sympathetic robot according to an embodiment of the present invention and transmitting it to a sympathetic robot voice recognition system. .
  • a user recognizes, questions, and emotions through the voice recognition sympathetic robot 200 after preparing a procedure for the voice recognition sympathetic robot 200 to communicate with the agent server using the connected smart device 300.
  • the input voice data may be transmitted to the robot voice recognition system 100.
  • the robot voice recognition system 100 converts the voice data into text, extracts keywords, generates a response text corresponding to the extracted keywords, and transmits it to the voice recognition sympathetic robot 200, thereby
  • the cognitive sympathetic robot 200 may output it through a speaker or the like to communicate with the user.
  • the user can input a voice through the voice recognition sympathetic robot 200, and can confirm the response voice through the voice recognition sympathetic robot 200.
  • FIG. 2 is a block diagram showing the detailed configuration of a sympathetic robot voice recognition system according to an embodiment of the present invention.
  • the sympathetic robot voice recognition system 100 includes a voice data receiving unit 110, a text conversion unit 120, a keyword extraction unit 130, a response text generation unit 140, and a voice conversion unit 150 ) And the transmitter 160.
  • the voice data receiving unit 110 may receive voice data transmitted from an external terminal. That is, when the user's voice is recognized through the sympathetic robot 200 or the smart device 300 connected thereto, the voice data receiving unit 110 may receive and receive it.
  • the received voice data may be various types of data including PCM data.
  • the sympathetic robot 200 may use Artik053, when the user's voice is recognized in the Artik053, it is transmitted to the voice data receiving unit 110, and the voice data transmitted in this process is greater than or equal to the set MTU value. In this case, it is divided into several packets and transmitted so that high-speed voice recognition can be supported through the sympathetic robot 200 using relatively low-spec hardware (eg Artik053) as described above.
  • Artik053 relatively low-spec hardware
  • the voice data is divided into small packets and delivered as described above, the part processed by the microphone input in the existing STT API through communication as above
  • the received voice data can be converted into a received format, and through this, a streaming service for quickly converting voice to text can be provided even in low-spec hardware such as an embodiment of the present invention.
  • the text conversion unit 120 may convert the voice data into text.
  • the sympathetic robot voice recognition system 100 since the sympathetic robot voice recognition system 100 has different language habits for each individual use, it receives a primary key that identifies a user of the external terminal to match the characteristics of the individual user, and the unique key A user management unit may be further included to read a setting value corresponding to.
  • a user-customized voice recognition may be achieved by performing an optimized voice recognition and text conversion process for individual users by setting different voice recognition and text setting values for each user.
  • the keyword extracting unit 130 may extract a key keyword from the converted text.
  • a plurality of nouns existing in the converted text are extracted, a set of synonyms of the noun is matched, and the category of the extracted noun is matched to a preset category, and the set of synonyms for each extracted keyword Category attributes can be assigned.
  • the response text generation unit 140 to be described below can more accurately grasp the user's intention using the similar word set and category attributes for the keyword and derive the corresponding response text.
  • the response text generation unit 140 may extract the response text corresponding to the extracted keyword from pre-stored metadata.
  • the response text generation unit 140 extracts each set of related question lists corresponding to the similar word set and category attribute of each extracted keyword, and extracts a common question between the question lists to extract the response text Can generate
  • the voice conversion unit 150 may convert the determined response text into voice data.
  • TTS Text to Speech
  • deep learning technology is used to synthesize sounds like a real person's voice, and to set various languages and voices, according to the user's settings.
  • the voice can be generated in a form similar to a language habit, and can be generated by reflecting the pronunciation of a specific word according to a user-specified vocabulary or a stored term (company name, acronyms, foreign words, new words, etc.).
  • the transmitter 160 transmits the converted voice data to the external terminal.
  • the transmitted data is voice data in various formats, including MP3 format.
  • the voice recognition sympathetic robot 200 may include an ARTIK053 board as an example.
  • the voice recognition sympathetic robot 200 may include a voice recognition button unit 210, a voice input unit 220, a voice transmission unit 230, and a voice output unit 240.
  • the voice recognition button unit 210 may receive a command for starting voice input through a button operation. That is, in the conventional case, voice input is started by detecting sound through a smart speaker or the like, but in one embodiment of the present invention, voice input is started only through a user's active operation, since a user has to operate a button. Since the user's voice conversation is not monitored until after, it can be managed so that the conversation is recorded regardless of the user's intention and not leaked to third parties.
  • the button is located on the hand portion of the sympathetic robot, and by providing the emotion of holding the robot's hand when the button is operated, the user can be set to feel more sympathetic with the robot.
  • the voice input unit 220 receives a voice uttered by a user, and when voice input is started through the voice recognition button, the user's voice may be input through a microphone input or the like.
  • the voice transmission unit 230 may transmit the recorded data of the input voice to an external system in the form of PCM data. That is, by transmitting data in the form of PCM data, data can be transmitted more effectively and without loss.
  • the voice transmission is the maximum datagram size value that can be sent without a segment on the network interface, and the maximum size that a packet can send at one time can be transmitted by setting the MTU size to 590. Since it can be divided into packets and transmitted, data can be transmitted more effectively.
  • the voice output unit 240 may output the response data for the user to recognize through an output device such as a speaker.
  • the voice output unit 240 may use the following method to minimize the delay that occurs when setting a codec used for voice output.
  • the delay function is called to wait for the codec setting operation, and the script[i]delay has a waiting time.
  • the script[i]delay value is often 0. . Therefore, to prevent the delay due to the time to call the script[i]delay function itself, check that the value of the script[i]delay of each register is 0, and only when it is not 0, the script[i for waiting for the setting operation of the voice codec.
  • the member of script[i] is the register address, and script[i]delay corresponds to the delay value of each register.
  • an apparatus capable of minimizing the processing capability of the speech recognition sympathetic robot and reducing costs may be provided.
  • FIG. 4 is an operational flow diagram showing the flow of a sympathetic robot voice recognition method according to an embodiment of the present invention.
  • the voice recognition sympathetic robot 200 has an ARTIK053 board and communicates with the voice recognition system 100 of the sympathetic robot through socket communication.
  • step 410 voice data transmitted from an external terminal may be received.
  • the user's voice data can be brought to the server by using the corresponding client socket, using the google_cloud_streaming() operation.
  • the voice data may be converted into text. At this time, it can be converted to text through the Google cloud streaming Speech To Text API.
  • a keyword may be extracted from the converted text, and in step 440, a response text corresponding to the extracted keyword may be extracted from pre-stored metadata.
  • step 450 the response text may be converted into voice data, and in step 460, the converted voice data may be transmitted to the external terminal.
  • the response text is generated as an mp3 file of 1-Chenal, Mono, 22050HZ using the AWS Polly Text To Speech API, and the corresponding mp3 file is converted to 2-Channel Stereo 44000HZ using the FFmpeg module and delivered to the ARTIK053 board. This can proceed.
  • the server by receiving a user's voice through a voice recognition sympathetic robot and transmitting it to the server, the server analyzes the user's voice and outputs a corresponding response voice, thereby recognizing voice recognition.
  • a voice recognition sympathetic robot by receiving a user's voice through a voice recognition sympathetic robot and transmitting it to the server, the server analyzes the user's voice and outputs a corresponding response voice, thereby recognizing voice recognition.
  • a voice recognition sympathetic robot a sympathetic robot voice recognition system, and a method for minimizing the processing capability of a robot and reducing cost.
  • a cognitive sympathetic robot by connecting to a server through wireless communication and analyzing a voice specialized for each user and outputting a corresponding voice, a voice capable of more accurate voice recognition in accordance with characteristics of individual users' language habits, etc.
  • a cognitive sympathetic robot by connecting to a server through wireless communication and analyzing a voice specialized for each user and outputting a corresponding voice, a voice capable of more accurate voice recognition in accordance with characteristics of individual users' language habits, etc.
  • a speech recognition sympathetic robot by converting the input voice to text and extracting keywords from the text, by extracting the similar words and category attributes of the extracted keywords, the response text corresponding to the similar words and category attributes more effectively
  • a speech recognition sympathetic robot by converting the input voice to text and extracting keywords from the text, by extracting the similar words and category attributes of the extracted keywords, the response text corresponding to the similar words and category attributes more effectively
  • a speech recognition sympathetic robot, a sympathetic robot speech recognition system, and a method are provided.
  • low power consumption and lightness are facilitated by using low-spec hardware, and the initial cost can be significantly lowered, and an effect that a user can be provided with a high-speed voice recognition service while moving is generated. Can be.
  • the sympathetic robot voice recognition method may be recorded in a computer-readable medium including program instructions for performing various computer-implemented operations.
  • the computer-readable medium may include program instructions, data files, data structures, or the like alone or in combination.
  • the media may be program instructions specially designed and constructed for the present invention, or may be known and usable by those skilled in computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs, DVDs, magnetic-optical media such as floptical discs, and ROM, RAM ( RAM), flash memory, etc., and hardware devices specifically configured to store and execute program instructions.
  • Examples of program instructions include high-level language code that can be executed by a computer using an interpreter, etc., as well as machine language codes produced by a compiler.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법을 개시한다. 본 발명의 일실시례에 따른 교감형 로봇의 음성인식 시스템은, 외부 단말로부터 전송되는 음성 데이터를 수신하는 음성 데이터 수신부, 상기 음성 데이터를 텍스트로 변환하는 텍스트 변환부, 상기 변환된 텍스트로부터 키워드를 추출하는 키워드 추출부, 상기 추출된 키워드에 대응하는 응답 텍스트를 기저장된 메타 데이터로부터 추출하는 응답 텍스트 생성부, 상기 응답 텍스트를 음성 데이터로 변환하는 음성 변환부, 및 상기 변환된 음성 데이터를 상기 외부 단말로 송신하는 송신부를 포함할 수 있다. 본 발명의 일실시례에 따른 교감형 로봇은, 버튼 조작을 통해 음성 입력을 개시하기 위한 명령을 입력받는 음성인식 버튼부, 사용자로부터 발화되는 음성을 입력받는 음성 입력부, 상기 입력된 음성의 녹음 데이터를 PCM data 형태로 외부 시스템에 전송하는 음성 전송부 및 상기 외부 시스템으로부터의 응답 데이터를 수신하고 출력하는 음성 출력부를 포함한다.

Description

음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법
본 발명은 음성인식 교감형 로봇, 교감형 로봇의 음성인식 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 교감형 로봇을 통해 사용자의 음성을인식하고, 상응하는 이벤트를 생성하는 시스템 및 그 방법에 관한 것이다.
사용자와 교감이 가능한 로봇, 인형 등은 유아나 어린이가 가지고 놀면서 신체 운동 발달 및 기능을 숙달하고, 상상력이나 창의력 개발을 통해 지능발달 등 교육적으로 중요한 역할을 하기 때문에, 관련하여 교감형 로봇 또는 인형기술 개발이 크게 관심을 받고 있다.
다만, 기존의 로봇 또는 인형은 제한된 소리를 출력하거나, 동작이 없으므로 사용자로 하여금 지속적으로 새로운 관심과 흥미를 끌어내기 어려운 한계가 있었다.
따라서, 사용자의 소리를 인식하여 응답하되, 사용자의 음성입력으로부터 사용자의 의도를 파악하고 이에 상응하는 응답을 표현할 수 있는 로봇 및 음성인식 시스템에 관한 연구가 필요하다.
본 발명은 음성인식 교감형 로봇을 통해 사용자의 음성을 입력받고 이를 서버에 송신하여 서버에서 사용자의 음성을 분석하고 상응하는 응답 음성을 출력하도록 함으로써, 음성인식 교감형 로봇의 처리능력을 최소화하고, 비용을 절감할 수 있는 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법을 제공한다.
본 발명은 음성인식 교감형 로봇에 입력되는 음성을 서버로 전송하여 처리하되, MTU(Maximum Transmission Unit) 단위를 조정하여 데이터를 분할 전송함으로써, 상대적으로 낮은 사양의 하드웨어를 사용하면서도 고속의 음성인식이 가능해지는 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법을 제공한다.
본 발명은 무선통신을 통해 서버에 접속되어 각 사용자에 특화된 음성을 분석하여 그에 상응하는 음성을 출력함으로써, 개별 사용자의 언어습관 등 특성에 부합하여 보다 정확한 음성인식이 가능한 음성인식 교감형 로봇, 교감형 로봇음성인식 시스템 및 그 방법을 제공한다.
본 발명은 입력된 음성을 텍스트로 변환하고 상기 텍스트로부터 키워드를 추출하되, 추출된 키워드의 유사어, 카테고리 속성을 추출함으로써, 상기 유사어와 카테고리 속성에 대응하는 응답 텍스트를 보다 효과적으로 생성할 수 있는 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법을 제공한다.
본 발명의 일실시례에 따른 교감형 로봇의 음성인식 시스템은, 외부 단말로부터 전송되는 음성 데이터를 수신하는 음성 데이터 수신부, 상기 음성 데이터를 텍스트로 변환하는 텍스트 변환부, 상기 변환된 텍스트로부터 키워드를 추출하는 키워드 추출부, 상기 추출된 키워드에 대응하는 응답 텍스트를 기저장된 메타데이터로부터 추출하는 응답 텍스트 생성부, 상기 응답 텍스트를 음성 데이터로 변환하는 음성 변환부, 및 상기 변환된 음성 데이터를 상기 외부 단말로 송신하는 송신부를 포함할 수 있다.
본 발명의 일측에 따르면, 상기 외부 단말의 사용자를 식별하는 고유 키를 수신하고, 상기 고유 키에 대응하는 설정값을 독출하는 사용자 관리부를 더 포함할 수 있다.
본 발명의 일측에 따르면, 상기 키워드 추출부는, 상기 변환된 텍스트에 존재하는 다수의 명사를 추출하고, 상기 명사의 유사어 셋(set)을 생성하고, 상기 추출된 명사의 카테고리를 기설정된 카테고리에 매칭하여, 추출된 키워드마다 유사어 셋과 카테고리 속성을 부여할 수 있다.
본 발명의 일측에 따르면, 상기 응답 텍스트 생성부는, 상기 추출된 각각의 키워드의 유사어 셋과 카테고리 속성에 대응하여 연관된 질문 리스트 셋(set)을 각각 추출하고, 상기 질문 리스트 간의 공통 질문을 추출하여 상기 응답 텍스트를 생성할 수 있다.
본 발명의 일실시례에 따른 교감형 로봇은, 버튼 조작을 통해 음성 입력을 개시하기 위한 명령을 입력받는 음성인식 버튼부, 사용자로부터 발화되는 음성을 입력받는 음성 입력부, 상기 입력된 음성의 녹음 데이터를 PCM data 형태로 외부 시스템에 전송하는 음성 전송부 및 상기 외부 시스템으로부터의 응답 데이터를 수신하고 출력하는 음성 출력부를 포함한다.
본 발명의 일측에 따르면, 상기 출력부는, 음성코덱의 각 레지스터의 딜레이 값이 0인지 확인하고, 0이 아닌 경우에는 음성 코덱의 설정동작 대기를 위한 딜레이 함수를 콜하여 각 레지스터의 딜레이 값에 상응하는 대기시간을 부여할 수 있다.
본 발명의 일실시례에 따른 교감형 로봇의 음성인식 방법은, 외부 단말로부터 전송되는 음성 데이터를 수신하는 단계, 상기 음성 데이터를 텍스트로 변환하는 단계, 상기 변환된 텍스트로부터 키워드를 추출하는 단계, 상기 추출된 키워드에 대응하는 응답 텍스트를 기저장된 메타데이터로부터 추출하는 단계, 상기 응답 텍스트를 음성 데이터로 변환하는 단계 및 상기 변환된 음성 데이터를 상기 외부 단말로 송신하는 단계를 포함한다.
본 발명의 일실시례에 따르면, 음성인식 교감형 로봇을 통해 사용자의 음성을 입력받고 이를 서버에 송신하여 서버에서 사용자의 음성을 분석하고 상응하는 응답 음성을 출력하도록 함으로써, 음성인식 교감형 로봇의 처리능력을 최소화하고, 비용을 절감할 수 있는 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법이 제공된다.
본 발명의 일실시례에 따르면, 음성인식 교감형 로봇에 입력되는 음성을 서버로 전송하여 처리하되, MTU(Maximum Transmission Unit) 단위를 조정하여 데이터를 분할 전송함으로써, 상대적으로 낮은 사양의 하드웨어를 사용하면서도 고속의 음성인식이 가능해지는 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법이 제공된다.
본 발명의 일실시례에 따르면, 무선통신을 통해 서버에 접속되어 각 사용자에 특화된 음성을 분석하여 그에 상응하는 음성을 출력함으로써, 개별 사용자의 언어습관 등 특성에 부합하여 보다 정확한 음성인식이 가능한 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법이 제공된다.
본 발명의 일실시례에 따르면, 입력된 음성을 텍스트로 변환하고 상기 텍스트로부터 키워드를 추출하되, 추출된 키워드의 유사어, 카테고리 속성을 추출함으로써, 상기 유사어와 카테고리 속성에 대응하는 응답 텍스트를 보다 효과적으로 생성할 수 있는 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법이 제공된다.
도 1은 본 발명의 실시예에 따른 음성인식 교감형 로봇을 통해 음성을 인식받고, 이를 교감형 로봇 음성인식 시스템으로 전달하여 음성인식에 대한 이벤트를 발생시키기 위한 시스템과 로봇 전체 구성을 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 교감형 로봇 음성인식 시스템의 세부구성을 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 음성인식 교감형 로봇의 세부구성을 나타낸 블록도이다.
도 4는 본 발명의 실시예에 따른 교감형 로봇 음성인식 방법의 흐름을 나타낸 동작흐름도이다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명의 실시예들을 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
종래에 로봇, 인형 등을 통해 사용자의 음성을 인식하고 이에 대한 응답 메시지를 출력하는 기술은 사용자의 음성을 통해 사용자 질문의 의도를 정확하게 파악하지 못하였으며, 이에 따라 응답 메시지 또한 단순한 메시지들로 이루어지는 등의 문제점이 있었다.
본 발명은 상기 종래 기술의 문제점을 해결하기 위해 고안된 발명으로, 본 발명의 구성을 아래에 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 음성인식 교감형 로봇을 통해 음성을 인식받고, 이를 교감형 로봇 음성인식 시스템으로 전달하여 음성인식에 대한 이벤트를 발생시키기 위한 시스템과 로봇 전체 구성을 나타낸 도면이다.
도 1을 참고하면, 연결된 스마트 기기(300)으로 음성인식 교감형 로봇(200)이 에이전트 서버와 통신을 하기 위한 절차를 마련한 뒤 음성인식 교감형 로봇(200)을 통해 사용자가 인사, 질문, 감정표현 메시지 등을 음성을 통해 입력하면, 상기 입력된 음성 데이터는 로봇 음성인식 시스템(100)으로 전송할 수 있다.
이후, 로봇 음성인식 시스템(100)은 상기 음성 데이터를 텍스트로 변환하고, 키워드를 추출하여, 추출된 키워드에 상응하는 응답 텍스트를 생성하고, 이를 음성인식 교감형 로봇(200)에 송신하면, 음성인식 교감형 로봇(200)은 스피커등을 통해 이를 출력하여 상기 사용자와 교감할 수 있다.
이때, 사용자는 음성인식 교감형 로봇(200)을 통해 음성을 입력할 수 있으며, 응답 음성을 음성인식 교감형 로봇(200)을 통하여 확인할 수 있다.
이하에서는 음성을 입력하고 이에 대응하는 응답 텍스트를 생성하기 위한 세부절차와 구성을 보다 상세하게 설명한다.
도 2는 본 발명의 실시예에 따른 교감형 로봇 음성인식 시스템의 세부구성을 나타낸 블록도이다.
도 2를 참고하면, 교감형 로봇 음성인식 시스템(100)은 음성 데이터 수신부(110), 텍스트 변환부(120), 키워드 추출부(130), 응답 텍스트 생성부(140), 음성 변환부(150) 및 송신부(160)를 포함한다.
음성 데이터 수신부(110)는 외부 단말로부터 전송되는 음성 데이터를 수신할 수 있다. 즉, 교감형 로봇(200) 또는 이와 연결된 스마트 기기(300)를 통해 사용자의 음성이 인식되면, 음성 데이터 수신부(110)는 이를 전송받아 수신할 수 있다.
이때, 수신하는 음성 데이터는 PCM data를 포함한 다양한 형태의 데이터일 수 있다.
일례로, 상기 교감형 로봇(200)은 Artik053을 사용할 수 있는데, 상기 Artik053에서 사용자의 음성이 인식되면 이는 상기 음성 데이터 수신부(110)로 전송되고, 이 과정에서 전송되는 음성 데이터가 설정된 MTU 값 이상이 되면, 여러개의 패킷으로 분할되어 전송되도록 하여, 상기와 같이 상대적으로 낮은 사양의 하드웨어(예. Artik053)를 사용하는 교감형 로봇(200)을 통해서도 고속의 음성인식이 지원될 수 있다.
또한, Artik053과 같은 저사양 하드웨어에서는 API 서비스를 사용하기 위한 SDK를 설치할 수 없으므로 상기와 같이 음성 데이터를 작은 단위의 패킷으로 나누어 전달 받으면 기존 STT API에서 마이크 입력으로 처리되던 부분을 상기와 같이 통신을 통해 전달 받은 음성 데이터를 받아오는 형식으로 변환하여 사용할 수 있고, 이를 통해 본 발명의 일실시례와 같은 저사양 하드웨어에서도 음성을 텍스트로 신속히 변환하는 스트리밍 서비스를 제공할 수 있다.
상기 음성 데이터를 수신한 이후 텍스트 변환부(120)는 상기 음성데이터를 텍스트로 변환할 수 있다. 이때, 교감형 로봇 음성인식 시스템(100)은 개별 사용마다 언어습관 등이 다르므로, 개별 사용자의 특성에 맞도록 상기 외부 단말의 사용자를 식별하는 고유 키(primary key)를 수신하고, 상기 고유 키에 대응하는 설정값을 독출하기 위해 사용자 관리부를 더 포함할 수 있다.
즉, 사용자마다 음성인식 및 텍스트 변환을 위한 설정값을 달리하여 개별 사용자에게 최적화된 음성인식 및 텍스트 변환 과정을 진행함으로써, 사용자 맞춤형 음성인식이 이루어질 수 있다.
한편, 음성을 텍스트로 변환하기 위한 STT(Speech to Text) 과정에서는 클라우드를 통해 지원되는 API 등을 사용할 수 있으며, 120개 이상의 언어와 방언을 인식하고, 머신러닝 기술을 사용하여 실시간 스트리밍 또는 사전 녹음 오디오를 처리할 수 있다.
상기에서 음성 데이터가 텍스트로 변환되면, 키워드 추출부(130)는 상기 변환된 텍스트로부터 핵심 키워드를 추출할 수 있다.
이를 위해, 상기 변환된 텍스트에 존재하는 다수의 명사를 추출하고, 상기 명사의 유사어 셋(set)을 생성하고, 상기 추출된 명사의 카테고리를 기설정된 카테고리에 매칭하여, 추출된 키워드마다 유사어 셋과 카테고리 속성을 부여할 수 있다.
일례로, 사용자가 입력한 문장이 "내일 소풍 갈거야"인 경우, 상기 문장에 포함된 명사인 '내일', 과 '소풍'을 추출하고, '내일'의 유사어인 'tomorrow', '다음날', '이튿날' 등의 유사어 셋(set)을 추출하며, '내일'은 시간을 나타내는 단어이므로 카테고리 속성으로 '시간 단어'를 부여할 수 있다.
또한, '소풍'의 경우에도 유사어인 'picnic', '나들이', '야유회' 등의 유사어 셋(set)을 추출하고, '소풍'은 야외에서의 행동을 나타내는 단어이므로 카테고리 속성으로 '야외행동 단어'를 부여할 수 있다.
따라서, 상기 키워드에 대한 유사어 셋과 카테고리 속성을 이용하여 하기에서 설명될 응답 텍스트 생성부(140)에서 사용자의 의도를 보다 정확하게 파악하여 그에 상응하는 응답 텍스트를 도출하도록 할 수 있다.
따라서, 이와 연관하여 응답 텍스트 생성부(140)는 상기 추출된 키워드에 대응하는 응답 텍스트를 기저장된 메타데이터로부터 추출할 수 있다.
이를 위해 응답 텍스트 생성부(140)는, 상기 추출된 각각의 키워드의 유사어 셋과 카테고리 속성에 대응하여 연관된 질문 리스트 셋(set)을 각각 추출하고, 상기 질문 리스트 간의 공통 질문을 추출하여 상기 응답 텍스트를 생성할 수 있다.
일례로, 추출된 키워드 '내일'과 관련된 질문 리스트 셋에 질문이 5개 포함되고, '소풍'과 관련된 질문 리스트 셋에 질문이 7개 포함된 경우, 상기 두 질문 리스트 셋에 내용이 최대한 중첩되는 질문을 하나 추출하고, 이를 사용자에게 응답할 텍스트로 결정할 수 있다.
이에 따라 음성 변환부(150)는 상기 결정된 응답 텍스트를 음성 데이터로 변환할 수 있다.
여기서, 텍스트를 음성 변환하기 위한 TTS(Text to Speech) 과정에서는 딥러닝 기술을 사용하여 실제 사람의 음성처럼 소리를 합성하고, 다양한 언어, 음성을 설정할 수 있으며, 상기 사용자의 설정값에 따라 사용자의 언어습관과 유사한 형태로 음성을 생성할 수 있고, 사용자 지정어휘 또는 저장된 용어(회사 이름, 두문자어, 외래어, 신조어 등)에 따라 특정 단어의 발음을 반영하여 생성할 수 있다.
송신부(160)는 상기 변환된 음성 데이터를 상기 외부 단말로 송신할
수 있다. 이때, 송신되는 데이터는 MP3 형식을 포함한 다양한 형식의 음성 데이터
로 송신할 수 있다.
상기와 같이, 교감형 로봇 음성인식 시스템을 사용하여 음성을 인식하고 이에 상응하는 응답 텍스트를 생성함으로써, 개별 사용자 맞춤형 음성인식 및 응답 텍스트 생성이 가능하며, 사용자의 의도를 보다 정확하게 파악하여 이에 부합하는 응답을 제공할 수 있는 효과가 발생할 수 있다.
이하에서는 음성인식 교감형 로봇을 통해 음성을 입력받고 이를 교감형 로봇 음성인식 시스템에 전송하며, 교감형 로봇 음성인식 시스템으로부터 응답 텍스트(음성 변환된 데이터)를 수신하여 출력하는 구성을 보다 상세하게 설명한다.
도 3은 본 발명의 실시예에 따른 음성인식 교감형 로봇의 세부구성을 나타낸 블록도이다. 이때, 음성인식 교감형 로봇(200)은 일례로 ARTIK053 보드를 내장할 수 있다.
도 3을 참고하면, 음성인식 교감형 로봇(200)은 음성인식 버튼부(210), 음성 입력부(220), 음성 전송부(230) 및 음성 출력부(240)를 포함할 수 있다.
음성인식 버튼부(210)는 버튼 조작을 통해 음성 입력을 개시하기 위한 명령을 입력받을 수 있다. 즉, 종래의 경우 스마트 스피커 등을 통해 소리를 감지하는 것으로 음성입력을 개시하나, 본 발명의 일실시례에서는 사용자가 버튼을 조작하여야만 음성 입력을 개시하므로, 사용자의 적극적인 동작을 통해 음성입력을 개시하기 전까지는 사용자들의 음성대화를 모니터링 하지 않으므로, 사용자의 의도와 무관하게 대화내용이 녹음되고 제3자에게 유출되지 않도록 관리될 수 있다.
상기 버튼은 교감형 로봇의 손 부분에 위치하여, 버튼의 조작시 로봇의 손을 잡는 감성을 제공함으로써, 사용자가 로봇과 보다 교감을 느끼도록 설정할 수 있다.
음성 입력부(220)는 사용자로부터 발화되는 음성을 입력받으며, 상기 음성인식 버튼을 통해 음성입력이 개시되면, 마이크 입력 등을 통해 사용자의 음성을 입력받을 수 있다.
음성 전송부(230)는 상기 입력된 음성의 녹음 데이터를 PCM data 형태로 외부 시스템에 전송할 수 있다. 즉, PCM data 형태로 데이터를 전송함으로써, 보다 효과적이고 손실없이 데이터를 전송할 수 있다.
한편, 음성 전송은 네트워크 인터페이스에서 세그먼트 없이 보낼 수 있는 최대 데이터그램 크기 값이며, 패킷이 한번에 보낼 수 있는 최대 크기인 MTU size를 590으로 설정 하여 전송할 수 있고, 보내는 데이터가 MTU 값 이상이 되면 여러 개의 패킷으로 분할되어 전송될 수 있어 보다 효과적으로 데이터 전송이 가능해질 수 있다.
음성 출력부(240)는 상기 외부 시스템으로부터 음성 데이터 형태의 응답 데이터를 수신하면 스피커 등의 출력장치를 통해 사용자가 인식할 수 있도록 응답 데이터를 출력할 수 있다.
한편, 상기 음성 출력부(240)는 음성 출력을 위해 사용되는 코덱 셋팅시 발생하는 지연을 최소화하기 위해 하기의 방법을 사용할 수 있다.
코텍 사용전의 코덱 레지스터 설정과정에서 코덱의 설정동작을 기다리기 위해 delay 함수를 콜(call)하여 script[i]delay 만큼의 대기시간을 가지는데, 실제로는 script[i]delay 값은 0인 경우가 많다. 따라서, script[i]delay 함수 자체를 콜하는 시간에 따른 지연을 방지하고자 각 레지스터의 script[i]delay 값이 0인지 확인하고, 0이 아닌 경우에만 음성 코덱의 설정동작 대기를 위한 script[i]delay 함수를 콜하여 각 레지스터의 딜레이 값에 상응하는 대기시간을 부여할 수 있다. 여기서, script[i]의 멤버는 레지스터 주소이며, script[i]delay는 각 레지스터의 딜레이 값에 해당한다.
상기와 같이 본 발명의 일실시례에 따른 교감형 로봇을 통해 음성인식 교감형 로봇의 처리능력을 최소화하고, 비용을 절감할 수 있는 장치가 제공될 수 있다.
도 4는 본 발명의 실시예에 따른 교감형 로봇 음성인식 방법의 흐름을 나타낸 동작흐름도이다.
한편, 하기에서는 음성인식 교감형 로봇(200)은 ARTIK053 보드를 내장하고, 소켓통신을 통해 교감형 로봇의 음성인식 시스템(100)과 통신하는 것을 일례로 설명한다.
이를 위해 단계(410)에서는 외부 단말로부터 전송되는 음성 데이터를 수신할 수 있다.
즉, ARTIK053 보드와의 소켓통신으로 Client(ARITK053)가 교감형 로봇의 음성인식 시스템(100) Server에 접속하게 되면, 사용자 구분을 위한 User_info_check()가 실행되며, 사용자는 고유 값을 갖는 고유 키를 통해 구분될 수 있다.
Client 정보를 action_thread() 호출과 함께 넘겨주면 해당 client socket을 이용하여, google_cloud_streaming() 동작으로 사용자의 음성 데이터(PCM data)를 서버로 가져올 수 있다.
다음으로 단계(420)에서는 상기 음성 데이터를 텍스트로 변환할 수 있다. 이때, Google cloud streaming Speech To Text API를 통해서 텍스트로 변환할 수 있다.
단계(430)에서는 상기 변환된 텍스트로부터 키워드를 추출할 수 있고, 단계(440)에서는 상기 추출된 키워드에 대응하는 응답 텍스트를 기저장된 메타 데이터로부터 추출할 수 있다.
단계(450)에서는 상기 응답 텍스트를 음성 데이터로 변환할 수 있고, 단계(460)에서는 상기 변환된 음성 데이터를 상기 외부 단말로 송신할 수 있다.
이를 위해 응답 text는 AWS Polly Text To Speech API를 이용하여 1-Chenal, Mono, 22050HZ의 mp3 file로 생성되고 해당 mp3 file을 FFmpeg module를 사용하여 2-Channel Stereo 44000HZ로 변환 및 ARTIK053 보드에게 전달하는 과정이 진행될 수 있다.
상기와 같이 본 발명의 일실시례에 따르면, 음성인식 교감형 로봇을 통해 사용자의 음성을 입력받고 이를 서버에 송신하여 서버에서 사용자의 음성을 분석하고 상응하는 응답 음성을 출력하도록 함으로써, 음성인식 교감형 로봇의 처리능력을 최소화하고, 비용을 절감할 수 있는 음성인식 교감형 로봇, 교감형 로봇음성인식 시스템 및 그 방법이 제공된다.
본 발명의 일실시례에 따르면, 무선통신을 통해 서버에 접속되어 각 사용자에 특화된 음성을 분석하여 그에 상응하는 음성을 출력함으로써, 개별 사용자의 언어습관 등 특성에 부합하여 보다 정확한 음성인식이 가능한 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법이 제공된다.
본 발명의 일실시례에 따르면, 입력된 음성을 텍스트로 변환하고 상기 텍스트로부터 키워드를 추출하되, 추출된 키워드의 유사어, 카테고리 속성을 추출함으로써, 상기 유사어와 카테고리 속성에 대응하는 응답 텍스트를 보다 효과적으로 생성할 수 있는 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법이 제공된다.
또한, 본 발명의 일실시례에 따르면, 저사양 하드웨어를 이용하여 전력소모가 적고 가벼워 휴대가 용이해지고, 초기비용을 현저히 낮출 수 있으며, 사용자가 이동중에도 고속 음성인식 서비스를 제공받을 수 있는 효과가 발생될 수 있다.
또한 본 발명의 일실시례에 따른, 교감형 로봇 음성인식 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명의 일실시례는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시례는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 일실시례는 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
100: 교감형 로봇 음성인식 시스템
110: 음성 데이터 수신부
120: 텍스트 변환부
130: 키워드 추출부
140: 응답 텍스트 생성부
150: 음성 변환부
160: 송신부
200: 교감형 로봇
210: 음성인식 버튼부
220: 음성 입력부
230: 음성 전송부
240: 음성 출력부

Claims (7)

  1. 외부 단말로부터 전송되는 음성 데이터를 수신하는 음성 데이터 수신부;
    상기 음성 데이터를 텍스트로 변환하는 텍스트 변환부;
    상기 변환된 텍스트로부터 키워드를 추출하는 키워드 추출부;
    상기 추출된 키워드에 대응하는 응답 텍스트를 기저장된 메타데이터로부터 추출하는 응답 텍스트 생성부;
    상기 응답 텍스트를 음성 데이터로 변환하는 음성 변환부; 및
    상기 변환된 음성 데이터를 상기 외부 단말로 송신하는 송신부;
    를 포함하는 교감형 로봇의 음성인식 시스템.
  2. 제 1항에 있어서,
    상기 외부 단말의 사용자를 식별하는 고유 키를 수신하고, 상기 고유 키에 대응하는 설정값을 독출하는 사용자 관리부
    를 더 포함하는 것을 특징으로 하는 교감형 로봇의 음성인식 시스템.
  3. 제 1항에 있어서,
    상기 키워드 추출부는,
    상기 변환된 텍스트에 존재하는 다수의 명사를 추출하고,
    상기 명사의 유사어 셋(set)을 생성하고, 상기 추출된 명사의 카테고리를 기설정된 카테고리에 매칭하여,
    추출된 키워드마다 유사어 셋과 카테고리 속성을 부여하는 것을 특징으로 하는 교감형 로봇의 음성인식 시스템.
  4. 제 3항에 있어서,
    상기 응답 텍스트 생성부는,
    상기 추출된 각각의 키워드의 유사어 셋과 카테고리 속성에 대응하여 연관된 질문 리스트 셋(set)을 각각 추출하고, 상기 질문 리스트 간의 공통 질문을 추출하여 상기 응답 텍스트를 생성하는 것을 특징으로 하는 교감형 로봇의 음성인식 시스템.
  5. 버튼 조작을 통해 음성 입력을 개시하기 위한 명령을 입력받는 음성인식 버튼부;
    사용자로부터 발화되는 음성을 입력받는 음성 입력부;
    상기 입력된 음성의 녹음 데이터를 PCM data 형태로 외부 시스템에 전송하되, 기설정된 MTU 단위로 데이터를 분할하여 전송하는 음성 전송부; 및
    상기 외부 시스템으로부터의 응답 데이터를 수신하고 출력하는 음성 출력부;
    를 포함하는 교감형 로봇.
  6. 제 5항에 있어서,
    상기 출력부는,
    음성코덱의 각 레지스터의 딜레이 값이 0인지 확인하고, 0이 아닌 경우에는 음성 코덱의 설정동작 대기를 위한 딜레이 함수를 콜하여 각 레지스터의 딜레이 값에 상응하는 대기시간을 부여하는 것을 특징으로 하는 교감형 로봇.
  7. 외부 단말로부터 전송되는 음성 데이터를 수신하는 단계;
    상기 음성 데이터를 텍스트로 변환하는 단계;
    상기 변환된 텍스트로부터 키워드를 추출하는 단계;
    상기 추출된 키워드에 대응하는 응답 텍스트를 기저장된 메타데이터로부터
    추출하는 단계;
    상기 응답 텍스트를 음성 데이터로 변환하는 단계; 및
    상기 변환된 음성 데이터를 상기 외부 단말로 송신하는 단계;
    를 포함하는 교감형 로봇의 음성인식 방법.
PCT/KR2019/000015 2019-01-02 2019-01-02 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법 WO2020141620A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/000015 WO2020141620A1 (ko) 2019-01-02 2019-01-02 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/000015 WO2020141620A1 (ko) 2019-01-02 2019-01-02 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
WO2020141620A1 true WO2020141620A1 (ko) 2020-07-09

Family

ID=71407203

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/000015 WO2020141620A1 (ko) 2019-01-02 2019-01-02 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법

Country Status (1)

Country Link
WO (1) WO2020141620A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040042242A (ko) * 2002-11-13 2004-05-20 삼성전자주식회사 홈서버를 이용하는 홈로봇 및 이를 포함하는 홈네트워크시스템
KR20090097304A (ko) * 2008-03-11 2009-09-16 신용호 질의어 형태소분석을 통한 온라인 자동 응답 방법 및온라인 자동 응답 시스템
US8335576B1 (en) * 2005-09-22 2012-12-18 Teradici Corporation Methods and apparatus for bridging an audio controller
KR20130059999A (ko) * 2011-11-29 2013-06-07 주식회사 지티티비 음성 기반 인증시스템 및 방법
US20170353823A1 (en) * 2015-05-28 2017-12-07 Sony Mobile Communications Inc. Terminal and method for audio data transmission
KR101832816B1 (ko) * 2016-12-12 2018-02-27 동국대학교 산학협력단 질의에 대한 응답 생성 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040042242A (ko) * 2002-11-13 2004-05-20 삼성전자주식회사 홈서버를 이용하는 홈로봇 및 이를 포함하는 홈네트워크시스템
US8335576B1 (en) * 2005-09-22 2012-12-18 Teradici Corporation Methods and apparatus for bridging an audio controller
KR20090097304A (ko) * 2008-03-11 2009-09-16 신용호 질의어 형태소분석을 통한 온라인 자동 응답 방법 및온라인 자동 응답 시스템
KR20130059999A (ko) * 2011-11-29 2013-06-07 주식회사 지티티비 음성 기반 인증시스템 및 방법
US20170353823A1 (en) * 2015-05-28 2017-12-07 Sony Mobile Communications Inc. Terminal and method for audio data transmission
KR101832816B1 (ko) * 2016-12-12 2018-02-27 동국대학교 산학협력단 질의에 대한 응답 생성 장치 및 방법

Similar Documents

Publication Publication Date Title
WO2011074771A2 (ko) 외국어 학습 장치 및 그 제공 방법.
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
WO2016035933A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2020139058A1 (en) Cross-device voiceprint recognition
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
US8606560B2 (en) Automatic simultaneous interpertation system
JP6233798B2 (ja) データを変換する装置及び方法
JP2005513619A (ja) リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法
WO2020256475A1 (ko) 텍스트를 이용한 발화 동영상 생성 방법 및 장치
WO2021162362A1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
JP2018170743A (ja) 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
WO2021091145A1 (en) Electronic apparatus and method thereof
KR20190115405A (ko) 검색 방법 및 이 방법을 적용하는 전자 장치
TWI695281B (zh) 翻譯系統、翻譯方法、以及翻譯裝置
WO2022203152A1 (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
KR101959439B1 (ko) 통역방법
WO2015037871A1 (ko) 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
WO2018074658A1 (ko) 하이브리드 자막 효과 구현 단말 및 방법
WO2020141620A1 (ko) 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법
KR102181583B1 (ko) 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법
WO2021060591A1 (ko) 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치
US20220236945A1 (en) Information processing device, information processing method, and program
WO2024101615A1 (ko) 턴프리 대화 방법 및 장치
TWM556360U (zh) 視訊同步翻譯系統

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19908016

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19908016

Country of ref document: EP

Kind code of ref document: A1