KR102368929B1 - Voice recognition-based shortcut key XR interactive interworking system and the method using it - Google Patents

Voice recognition-based shortcut key XR interactive interworking system and the method using it Download PDF

Info

Publication number
KR102368929B1
KR102368929B1 KR1020210182371A KR20210182371A KR102368929B1 KR 102368929 B1 KR102368929 B1 KR 102368929B1 KR 1020210182371 A KR1020210182371 A KR 1020210182371A KR 20210182371 A KR20210182371 A KR 20210182371A KR 102368929 B1 KR102368929 B1 KR 102368929B1
Authority
KR
South Korea
Prior art keywords
voice
voice recognition
shortcut key
content
command
Prior art date
Application number
KR1020210182371A
Other languages
Korean (ko)
Inventor
임승찬
차현준
Original Assignee
(주)에어패스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에어패스 filed Critical (주)에어패스
Priority to KR1020210182371A priority Critical patent/KR102368929B1/en
Application granted granted Critical
Publication of KR102368929B1 publication Critical patent/KR102368929B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

The present invention relates to a voice recognition-based shortcut key XR interactive interworking system. More specifically, the present invention relates to the voice recognition-based shortcut key XR interactive interworking system that provides a real-time voice recognition interactive experience through input and XR content output based on a motion voice. The present invention comprises: a voice recognition-based shortcut key for a realistic experience of content using a voice recognition-based shortcut key for a part of movement with a wide activity space; a voice recognition part that recognizes the voice recognition-based shortcut key that defines the part of the movement with the wide activity space from an inputted voice from a voice input part; and an XR content module that generates XR content through the motion-based information and the voice recognition-based shortcut key.

Description

음성인식기반 단축키 XR인터렉티브 연동시스템 및 이를 이용한 연동 방법{Voice recognition-based shortcut key XR interactive interworking system and the method using it}Voice recognition-based shortcut key XR interactive interworking system and the method using it}

본 발명은 음성인식기반 단축키 XR인터렉티브 연동시스템 및 이를 이용한 연동 방법에 관한 것으로서, 보다 상세하게는 동작 음성에 기반한 입력과 XR 콘텐츠 출력을 통해 실시간 음성 인식 인터렉티브(interactive) 체험을 제공하는 음성인식기반 단축키 XR인터렉티브 연동시스템에 관한 것이다.The present invention relates to a voice recognition-based shortcut key XR interactive interworking system and an interworking method using the same, and more particularly, to a voice recognition-based shortcut key that provides a real-time voice recognition interactive experience through an input based on a motion voice and output of XR content It relates to the XR interactive interlocking system.

한국공개특허 제2014-0061009호는 객체를 포함하는 영상을 획득하는 단계; 상기 획득된 영상에 포함된 적어도 하나 이상의 객체를 인식하는 단계; 상기 인식된 객체에 관련된 증강현실 정보를 검출하는 단계; 음성정보를 입력하여, 상기 증강현실 정보와 비교하는 단계; 및 상기 음성정보와 매치되는 증강현실을 분리하여 디스플레이하는 사용자 인터페이스를 생성하는 단계;를 포함한다.Korean Patent Application Laid-Open No. 2014-0061009 discloses the steps of obtaining an image including an object; recognizing at least one or more objects included in the acquired image; detecting augmented reality information related to the recognized object; inputting voice information and comparing it with the augmented reality information; and generating a user interface that separates and displays augmented reality matching the voice information.

종래의 증강현실 시스템은 객체 정보와 음성을 매치한 하이브리드 증강현실 시스템이며, 촬영된 마커 또는 음성을 인식하여 매칭된 3차원 콘텐츠가 디스플레이되고, 나레이션이 현실감을 느낄 수는 있다.The conventional augmented reality system is a hybrid augmented reality system in which object information and voice are matched, and three-dimensional content matched by recognizing a photographed marker or voice is displayed, and narration can feel real.

그러나 촬영된 마커 또는 음성에 따라 객체를 이동시키기에는 정교함이 많이 떨어지고, 특히 객체의 순간적 운동 방향이라던지 속도 등을 제어하기에는 부족한 점이 많았다.However, the precision of moving the object according to the recorded marker or voice was very poor, and in particular, there were many insufficient points to control the instantaneous movement direction or speed of the object.

또한 한국등록특허 제0432373호는 미들웨어 시스템에 연결된 음성입력장 치를 통하여 사용자로부터 음성신호를 수신하는 단계; 음성 데이터베이스에 접근하여 상기 수신된 음성 신호에 대응되는 문자열 데이터를 검색하여 저장하는 단계; 3D 데이터가 인식가능한 메시지 데이터를 저장하는 메시지 데이터베이스에서 상기 저장된 문자열 데이터에 대응하는 메시지 데이터를 검색하는 단계.S30); 상기 검색된 메시지 데이터에 따라 3D 오브젝트의 행동을 제어하는 단계; 및 상기 행동이 제어되는 3D 오브젝트의 행동을 실시간으로 업데이트하여 디스플레이하는 단계을 포함하여 이루어지며, 상기 메시지 데이터를 검색 하는 단계는, 문자열 데이터에 대응하는 메시지 데이터를 메시지 데이터베이스에서 검색하는 제1 단계; 및 문자열 데이터의 뒷글자 1자를 삭제한 후, 뒷글자 1자가 삭제된 문자열 데이터에 대응하는 메시지 데이터를 메시지 데이터베이스에서 검색하는 제2 단계;를 포함하여, 저장된 문자열 데이터에 대하여 제1 단계를 수행하여 대응하는 메시지 데이터가 검색되면 검색된 메시지 데이터를 리턴하고, 대응하는 메시지 데이터가 검색되지 않으면, 문자열 데이터에 1자가 남을 때까지 제2단계를 수행한다.In addition, Korean Patent Registration No. 0432373 includes the steps of: receiving a voice signal from a user through a voice input device connected to a middleware system; accessing a voice database to search for and store string data corresponding to the received voice signal; retrieving message data corresponding to the stored character string data in a message database storing message data in which 3D data can be recognized. S30); controlling the behavior of the 3D object according to the retrieved message data; and updating and displaying the behavior of the 3D object whose behavior is controlled in real time, wherein the retrieving the message data includes: a first step of retrieving message data corresponding to the character string data in a message database; And after deleting one last character of the character string data, a second step of searching the message database for message data corresponding to the character string data from which one last character has been deleted; by performing the first step on the stored character string data, including If the corresponding message data is retrieved, the retrieved message data is returned. If the corresponding message data is not retrieved, the second step is performed until one character remains in the character string data.

그러나 종래기술은 빠른 회전동작을 인식하지 못하거나 복잡한 문자열 데이터를 분석하는 시간이 많이 걸리고, 분석에 실패할 경우 추가적인 입력을 받아야만 하는 불편함이 있었다. However, the prior art has the inconvenience of not recognizing a fast rotation operation or taking a lot of time to analyze complex character string data, and having to receive an additional input if the analysis fails.

본 발명은 상기와 같은 문제점을 해결하기 위해 이루어진 것으로서, 본 발명은 카메라를 이용한 비젼방식으로 이용자의 움직임을 반영한 축구나 권투 등의 움직임기반 XR콘텐츠를 개발하여 구현할 때 카메라 앞에서 전·후·좌·우 스텝, 좌·우 방향 회전시, 달리기 활동 등 적용이 어려운데 이를 해결하기 위한 방안으로 활동공간이 넓은 움직임의 일부를 음성 인식기반 음성단축키를 활용하여 콘텐츠의 실감 체험도를 증강시키는 기술을 제공하는 데 목적이 있다.The present invention has been made to solve the above problems, and the present invention is a vision method using a camera to develop and implement motion-based XR content such as soccer or boxing that reflects the user's movement in front, back, left and right in front of the camera. It is difficult to apply right step, left/right rotation, running, etc., but as a solution to this, a technology that enhances the realistic experience of contents by using voice recognition-based voice shortcut keys for a part of movement with a wide active space is provided. purpose is to

또한, 본 발명은 사용자 정의에 의해 음성 및/또는 음향으로 동작을 정의할 수도 있어 음성 인식기반 단축키를 사용자의 특정 동작에 맞게 정의하여 학습시켜 등록할 수 있는 기술을 제공하는 데 목적이 있다.In addition, an object of the present invention is to provide a technique for defining, learning, and registering a voice recognition-based shortcut key according to a user's specific operation, since an operation may be defined by voice and/or sound by user definition.

상기 과제를 해결하기 위하여 본 발명은 활동공간이 넓은 움직임의 일부를 음성 인식기반 단축키를 활용하여 콘텐츠의 실감체험도를 위한 음성 인식기반 단축키; 음성입력부로 부터 입력된 음성에서 활동공간이 넓은 움직임의 일부를 정의한 음성 인식기반 단축키를 인식하는 음성인식부; 상기 움직임기반 정보 및 음성 인식기반 단축키를 통해 XR콘텐츠를 생성하는 XR콘텐츠 모듈;을 포함한다.In order to solve the above problems, the present invention provides a voice recognition-based shortcut key for a sensory experience of content by using a voice recognition-based shortcut key for a part of a movement with a wide activity space; a voice recognition unit for recognizing a voice recognition-based shortcut key defining a part of a movement with a wide active space in the voice input from the voice input unit; and an XR content module for generating XR content through the motion-based information and voice recognition-based shortcut keys.

상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알”로 나누어 음성단축키로 정의하여 음성 데이터베이스(140)에 저장한다.The voice recognition unit interlocks with the XR contents to perform forward (F), backward (B), left (L), right (R) direction movement among the actions to implement the same as in the real situation, respectively “F”, “B”, It is divided into “L” and “R” and is defined as a voice shortcut key and stored in the voice database 140 .

상기 음성 데이터베이스에 저장한 후, 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL), 빠르게 이동(FF)에 필요한 동작 음성 인식기반 단축키를 정의하여 데이터베이스에 저장한다.After being stored in the voice database, when moving forward (F), backward (B), left (L), right (R) direction and rotating from left to right (LR), when rotating from right to left (RL), Defines a shortcut based on speech recognition for motion required for fast movement (FF) and stores it in the database.

상기 음성인식부는 앞으로 빠르게 움직임을 FF로 인식하여, XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킨다.The voice recognition unit recognizes the movement in the future as FF, and is linked with the XR content to implement the same as the real situation to enhance the sensory experience of the content.

상기 음성인식부를 통해 음성을 입력 받고, 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현한다.The voice is inputted through the voice recognition unit, and it is implemented in the same way as the actual situation by interworking with XR contents based on the volume of the voice, the accuracy of the voice, and the speed of the voice.

음성 데이터베이스 안에 음성 파형 또는 텍스트의 묶음을 설정하여 음성 데이터베이스에 저장하고, 음성입력부를 통해 입력받은 음성 파형을 음성인식부로 특정 음성 파형 또는 텍스트로 나눈 후 XR콘텐츠와 연동되어 실제상황과 동일하게 구현한다.It sets a bundle of voice waveforms or texts in the voice database, stores it in the voice database, divides the voice waveform input through the voice input unit into specific voice waveforms or texts with the voice recognition unit, and works with XR contents to implement the same as the real situation. .

상기 음성입력부를 통해 수신된 메시지 데이터에 따라 관련된 움직임 실행 또는 상태 변화)을 실행하는 데, 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 우좌측(RL), 빠르게 좌우측(LR), 빠르게 좌측전진(FF), 빠르게 좌후진(BB), 빠르게 좌측전진(LL), 빠르게 우측전진(RR) 등으로 나누어 실행할 수 있어, 실제상황과 동일하게 구현한다.movement execution or state change) according to the message data received through the voice input unit, fast forward (FF), fast backward (BB), quickly left and right (RL), quickly left and right (LR), quickly left It can be executed by dividing it into forward (FF), fast left backward (BB), fast left forward (LL), and fast right forward (RR).

상기 음성입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 음성 데이터베이스 안에 있는 음성 파형 또는 텍스트에 연관된 음성신호와 매칭되는 문자열이 있으면 해당 문자 신호에 해당 되는 문자열을 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 구현한다.In the search for a voice waveform or text input through the voice input unit, if there is a character string matching the voice signal related to the voice waveform or text in the voice database, the XR content module interlocks the character string corresponding to the character signal with the XR content. Implement the same situation.

상기 음성입력부를 통한 음성명령을 기준으로 하여 전후 사용자 입력간 시간을 계산하여 시간차가 작은 사용자 입력과 음성명령을 조합하여 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 제어를 실행한다.Based on the voice command through the voice input unit, the time between the user input before and after is calculated, and the user input with a small time difference and the voice command are combined, and the XR content module interworks with the XR content to execute control in the same way as in the real situation.

상기 음성입력부를 통해 음성명령이 실행되는 경우에, 각 명령이 발생한 후 최소시간(t1)이 경과하는지를 판단하여, 경과하면 해당 각 명령이 실행된다.When a voice command is executed through the voice input unit, it is determined whether a minimum time t1 has elapsed after each command is generated, and when the voice command is executed, each command is executed.

카메라에 특정 제스처가 입력된 후, 음성명령이 입력되면, 음성명령에 대응하는 음성 데이터베이스로부터 유사어를 검색하여 음성명령어를 결정하고, 사용자 입력에 대응하여 음성명령어를 실행한다.After a specific gesture is input to the camera, when a voice command is input, a voice command word is determined by searching for a similar word from a voice database corresponding to the voice command, and the voice command word is executed in response to the user input.

상기 음성입력부를 통한 직관적인 음성 명령어에 대응하는 유사어 그룹을 추출하여 해당 음성 명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행이 이루어지는 명령어 실행부;를 포함한다. and a command execution unit that extracts a group of similar words corresponding to an intuitive voice command through the voice input unit, determines the corresponding voice command, combines the determined voice command, and executes the execution corresponding to the final command.

상기 음성입력부를 통해 입력된 음성에 대한 유사어를 음성 데이터베이스로부터 검색하여 원하는 입력에 대한 명령어와 연관된 직관적인 다수의 유사어를 함께 검색하여 명령어를 결정함으로써 명령어를 기억할 필요가 없도록 하는 명령어 결정부;를 더 포함한다.A command determination unit that searches for a similar word for the voice input through the voice input unit from a voice database and determines the command by searching together a plurality of intuitive analogues related to the command for the desired input, thereby eliminating the need to memorize the command. include

상기 음성입력부에는 하나의 주 마이크와 하나 이상의 보조 마이크가 포함되고, 상기 음성인식부는 상기 하나 이상의 보조 마이크가 수집한 음성 정보를 서로 비교하여 상기 음성 정보의 노이즈를 필터링하여 실제 발음된 음성 정보를 인식한다.The voice input unit includes one main microphone and one or more auxiliary microphones, and the voice recognition unit compares the voice information collected by the one or more auxiliary microphones with each other and filters the noise of the voice information to recognize the actually pronounced voice information do.

상기 XR콘텐츠 모듈은 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 학습하여 상기음성 인식기반 단축키에 따른 동작을 디스플레이 장치에 표시하도록 제어한다.The XR content module learns a voice recognition-based shortcut key by voice and/or sound by user definition, and controls to display an operation according to the voice recognition-based shortcut key on a display device.

본 발명은 사용자로부터 음성신호를 음성입력부를 통해 수신받는 단계(S110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 음성인식부를 통해 인식하는 단계(S120); 상기 음성인식부로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 XR콘텐츠 모듈을 통해 생성하는 단계(S130);를 포함한다.The present invention includes the steps of receiving a voice signal from a user through a voice input unit (S110); Recognizing a voice recognition-based voice shortcut key defining a part of movement in the voice input from the voice input unit through the voice recognition unit (S120); and generating XR content corresponding to the voice recognition-based voice shortcut key from the voice recognition unit through the XR content module (S130).

상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알”로 나누어 음성단축키로 정의하여 음성 데이터베이스에 저장하는 단계; 상기 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL), 빠르게 이동(FF)에 필요한 동작 음성 인식기반 단축키를 정의하여 데이터베이스에 저장하는 단계;를 포함한다.The voice recognition unit interlocks with the XR contents to perform forward (F), backward (B), left (L), right (R) direction movement among the actions to implement the same as in the real situation, respectively “F”, “B”, dividing into "L" and "Al", defining a voice shortcut key and storing it in a voice database; Required for the forward (F), backward (B), left (L), right (R) direction movement and for left-to-right rotation (LR), right-to-left rotation (RL), and fast movement (FF) Including; defining a shortcut key based on motion speech recognition and storing it in a database.

본 발명은 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 정의하는 단계; 사람마다 다르게 표현할 수 있는 음향을 학습하는 단계; 상기 음성 인식기반 단축키에 따라 XR콘텐츠 모듈이 다양한 음향에 의한 동작을 디스플레이 장치에 표시하는 단계;를 포함한다.The present invention includes the steps of defining a voice recognition-based shortcut key by voice and/or sound by user definition; Learning a sound that can be expressed differently for each person; and displaying, by the XR content module, an operation by various sounds on a display device according to the voice recognition-based shortcut key.

본 명세서에서 개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해 되어서는 아니 될 것이다. The technology disclosed herein may have the following effects. However, this does not mean that a specific embodiment should include all of the following effects or only the following effects, so the scope of the disclosed technology should not be construed as being limited thereby.

상기와 같이 이루어지는 본 발명은 카메라를 이용한 비젼방식으로 이용자의 움직임을 반영한 축구나 권투 등의 움직임기반 XR콘텐츠를 개발 구현 할 때 카메라 앞에서 전·후·좌·우 스텝, 방향 회전시, 달리기 활동에 적용하기가 용이하다.The present invention, which is made as described above, uses a vision method using a camera to develop and implement motion-based XR content such as soccer or boxing that reflects the user's movement, and provides forward/backward/left/right steps in front of the camera, rotation of the direction, and running activities. Easy to apply

또한, 본 발명은 앞으로 투스텝을 밟을 때는 FF로 음성입력부에 말하면, 상기 음성인식부가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.In addition, the present invention can enhance the sensory experience of the content by implementing the same as the actual situation by interworking with the XR content by speaking to the voice input unit in FF when stepping on the next two steps.

또한, 본 발명은 유사어를 검색하여 음성명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행을 할 수 있어 보다 정밀하게 음성을 파악하여 실제상황과 동일하게 구현할 수 있다.In addition, the present invention can determine a voice command word by searching for a similar word, combine the determined voice command, and execute corresponding to the final command, so that the voice can be recognized more precisely and implemented in the same way as the actual situation.

또한, 본 발명은 연관된 복수의 유사어를 함께 검색하여 명령어를 결정함으로써 사용자가 명령어를 기억할 필요가 없도록하여 편리함을 극대화하였다.In addition, the present invention maximizes convenience by eliminating the need for a user to memorize a command by determining a command by searching for a plurality of related similar words together.

또한, 본 발명은 사용자의 특정 음성 및/또는 음향에 따른 음성 인식기반 단축키를 사용자의 특정 동작에 맞게 정의하여 학습시켜 등록할 수 있어 보다 정밀하게 음성 및/또는 음향을 파악하여 실제상황과 동일하게 구현하고 편리함을 극대화하였다.In addition, the present invention can define and learn the voice recognition-based shortcut key according to the user's specific voice and/or sound according to the user's specific operation, so that the voice and/or sound can be recognized more precisely and the same as the actual situation. Implemented and maximized convenience.

도 1은 본 발명의 일실시예에 따른 전체적인 구성을 보여주는 도면이다.
도 2는 본 발명의 일실시예에 따른 카메라가 추가된 구성을 보여주는 도면이다.
도 3은 본 발명의 일실시예에 따른 음성 데이터베이스의 내부 구조를 보여주는 도면이다.
도 4는 본 발명의 다른 실시예에 따른 음성 데이터베이스 내의 음성을 조합하는 구조를 보여주는 도면이다.
도 5는 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 조합하는 구조를 보여주는 도면이다.
도 6은 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 일정 시간 전에 조합하는 구조를 보여주는 도면이다.
도 7은 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 일정 시간 후에 조합하는 구조를 보여주는 도면이다.
도 8은 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 조합하는 구조를 보여주는 도면이다.
도 9는 본 발명의 또 다른 실시예에 따른 음성인식기반 단축키 XR인터렉티브 연동시스템을 이용한 연동 방법을 보여주는 도면이다.
1 is a view showing the overall configuration according to an embodiment of the present invention.
2 is a view showing a configuration in which a camera is added according to an embodiment of the present invention.
3 is a diagram showing an internal structure of a voice database according to an embodiment of the present invention.
4 is a diagram showing a structure of combining voices in a voice database according to another embodiment of the present invention.
5 is a diagram showing a structure of combining voices in a voice database according to another embodiment of the present invention.
6 is a diagram showing a structure of combining voices in a voice database before a predetermined time according to another embodiment of the present invention.
7 is a diagram showing a structure of combining voices in a voice database after a predetermined time according to another embodiment of the present invention.
8 is a diagram showing a structure for combining voices in a voice database according to another embodiment of the present invention.
9 is a diagram showing an interworking method using a voice recognition-based shortcut key XR interactive interworking system according to another embodiment of the present invention.

본 발명을 충분히 이해하기 위해서 본 발명의 바람직한 실시예를 첨부 도면을 참조하여 설명한다. 본 발명의 실시예는 여러 가지 형태로 변형될 수 있으며, 본 발명의 범위가 아래에서 상세히 설명하는 실시예로 한정되는 것으로 해석되어서는 안 된다. 본 실시예는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 따라서 도면에서의 요소의 형상 등은 보다 명확한 설명을 강조하기 위해서 과장되어 표현될 수 있다. 각 도면에서 동일한 부재는 동일한 참조부호로 도시한 경우가 있음을 유의하여야 한다. 또한, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 공지 기능 및 구성에 대한 상세한 기술은 생략된다.In order to fully understand the present invention, preferred embodiments of the present invention will be described with reference to the accompanying drawings. Embodiments of the present invention may be modified in various forms, and the scope of the present invention should not be construed as being limited to the embodiments described in detail below. This example is provided to more completely explain the present invention to those of ordinary skill in the art. Accordingly, the shapes of elements in the drawings may be exaggerated to emphasize a clearer description. It should be noted that the same members in each drawing are sometimes shown with the same reference numerals. In addition, detailed descriptions of well-known functions and configurations determined to unnecessarily obscure the gist of the present invention will be omitted.

도 1에 도시된 바와 같이 본 발명은 사용자로부터 음성신호를 수신하는 음성입력부(110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 인식하는 음성인식부(120); 상기 음성인식부(120)로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 생성하는 XR콘텐츠 모듈(130); 음성 데이터베이스(140); 등을 포함한다.As shown in FIG. 1, the present invention includes: a voice input unit 110 for receiving a voice signal from a user; a voice recognition unit 120 for recognizing a voice recognition-based voice shortcut key defining a part of movement in the voice input from the voice input unit; an XR content module 130 for generating XR content corresponding to the voice recognition-based voice shortcut key from the voice recognition unit 120; voice database 140; etc.

여기에서 XR콘텐츠 모듈(130)이 생성하는 XR콘텐츠에서 확장현실(eXtended Reality)이란 XR이라고 하며, 증강현실(AR, Augmented Reality), 가상현실(VR, Virtual Reality), 혼합현실(MR, Mixed Reality) 기술을 모두 아우르는 콘텐츠를 말한다.Here, in the XR content generated by the XR content module 130, extended reality (eXtended Reality) is called XR, augmented reality (AR, Augmented Reality), virtual reality (VR, Virtual Reality), mixed reality (MR, Mixed Reality) ) refers to content that encompasses all technologies.

또한 음성입력부(110)는 휴대용 마이크 또는 웨어러블 음성 입력 디바이스로 구현될 수 있으나, 이에 한정되는 것은 아니며, 사용자의 음성을 감지할 수 있는 다양한 장치로 구현될 수 있다. Also, the voice input unit 110 may be implemented as a portable microphone or a wearable voice input device, but is not limited thereto, and may be implemented as various devices capable of detecting a user's voice.

음성입력부(110)는 음성인식부(120)와 무선 통신 네트워크로 연결되는 것이 바람직하고, 무선 통신 네트워크는 근거리 통신 기술 및 장거리 통신 기술 중 적어도 하나를 이용하여 구현 가능하다. The voice input unit 110 is preferably connected to the voice recognition unit 120 through a wireless communication network, and the wireless communication network can be implemented using at least one of a short-range communication technology and a long-distance communication technology.

근거리 통신 기술로는, 예를 들어, 캔(CAN) 통신, 와이 파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), 블루투스(Bluetooth), 지그비(zigbee), 저전력 블루 투스(Bluetooth Low Energy) 또는 엔에프씨(NFC, Near Field Communication) 등이 채용될 수 있다. As the short-range communication technology, for example, CAN communication, Wi-Fi, Wi-Fi Direct, Bluetooth, Zigbee, Bluetooth Low Energy ) or NFC (Near Field Communication) may be employed.

또한, 장거리 통신 기술로는, 3GPP, 3GPP2 또는 와이맥스 계열 등의 이동 통신 표준을 기반으로 하는 통신 기술이 채용될 수 있다.In addition, as the long-distance communication technology, a communication technology based on a mobile communication standard such as 3GPP, 3GPP2, or WiMAX series may be employed.

상기 음성입력부(110)는 사용자의 음성을 수신하고 수신한 음성을 전기적 신호로 변환하여 음성 데이터를 획득할 수 있다. The voice input unit 110 may obtain voice data by receiving the user's voice and converting the received voice into an electrical signal.

상기 음성 데이터는, 무선 통신 네트워크를 통하여 음성인식부로 전달된다. The voice data is transmitted to the voice recognition unit through a wireless communication network.

일 실시예에 의하면, 음성입력부는, 미리 정의된 설정에 따라서 연속적으로 또는 주기적으로 음성을 수신하여 음성 데이터베이스(140)로 전달하여, 음성 데이터를 연속적으로 저장하도록 할 수 있다. According to an embodiment, the voice input unit may continuously or periodically receive voice according to a predefined setting and transmit it to the voice database 140 to continuously store voice data.

도 2에 도시된 바와 같이 본 발명은 좌우로 회전하는 동작을 카메라(160)로 잡기가 어려움이 있어 이를 보완하기 위해 음성 단축키를 연동시킬 수도 있다.As shown in FIG. 2 , in the present invention, it is difficult to capture the left and right rotation with the camera 160, so a voice shortcut key may be linked to compensate for this.

상기 활동공간이 넓은 움직임의 일부를 음성 인식기반 음성단축키는 사용자로부터 입력받는 문자열 데이터인 음성 문자열로 이루어져 있으며, 예를 들어 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알” 음성으로 나누고 음성단축키로 정의하여 음성 데이터베이스(140)에 저장한다.The voice recognition-based voice shortcut key for part of the movement with a wide active space consists of a voice string, which is character string data input from the user, for example, forward (F), backward (B), left (L), right (R). The direction movement is divided into “F”, “B”, “L”, and “R” voices, respectively, and defined as voice shortcut keys and stored in the voice database 140 .

상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 음성입력부(110)의 음성 중에서 전진(F), 후진(B), 좌(L), 우(R) 중 하나 이상의 음성단축키를 개별적으로 인식한다.One of the forward (F), backward (B), left (L), and right (R) voices of the voice input unit 110 for the voice recognition unit 120 to be linked with the XR content to implement the same as the actual situation. The above voice shortcut keys are individually recognized.

예를 들어 전진(F)의 경우 전진하기 위해 필요한 “에프” 발음으로 이루어진 동작 음성에 기반한 단축키를 정의한다.For example, in the case of forward (F), a shortcut is defined based on the action voice consisting of the “F” pronunciation required to move forward.

상기 음성인식부(120)는 음성단축키를 전진(F), 후진(B), 좌(L), 우(R)로 정하고 음성 데이터베이스(140)에 저장하여, 좌로 회전시 L, 우로 회전시 R, 앞으로 투스텝을 밟을 때는 FF로 음성입력부(110)에 말하면, 상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.The voice recognition unit 120 sets the voice shortcut keys as forward (F), backward (B), left (L), right (R) and stores them in the voice database 140, L when rotating left, R when rotating right , when two steps are taken in the future, if you speak to the voice input unit 110 in FF, the voice recognition unit 120 works in conjunction with the XR content to implement the same as the actual situation, thereby enhancing the sensory experience of the content.

만일 사용자가 자신의 음성을 음성입력부(110)에 입력하여 동작 제어를 원할 경우, 상기 음성인식부(120)가 음성단축키를 저장하는 음성 데이터베이스(140)로 보내 검색하고, XR콘텐츠 모듈(130)가 해당 움직임(전진, 후진, 좌, 우 방향 이동)을 XR콘텐츠로 변환하여 디스플레이 장치(150)에 표시하게 된다.If the user wants to control the operation by inputting his or her voice into the voice input unit 110, the voice recognition unit 120 sends a search to the voice database 140 storing the voice shortcut key, and XR content module 130 converts the corresponding movement (forward, backward, left, and right direction movement) into XR content and displays it on the display device 150 .

따라서 본 발명에 따른 음성인식기반 단축키 XR인터렉티브 연동시스템는 사용자의 음성을 기반으로 사용자의 움직이고자 하는 의도를 인식하여, 실행 중인 XR콘텐츠의 기능을 자동으로 실행함으로써, 사용자의 의도에 알맞은 다양한 활동 정보를 사용자에게 제공할 수 있다. Therefore, the voice recognition-based shortcut key XR interactive interworking system according to the present invention recognizes the user's intention to move based on the user's voice and automatically executes the function of the XR content being executed, thereby providing various activity information suitable for the user's intention. can be provided to users.

추가되는 디스플레이 장치(150)는 상술한 XR콘텐츠를 화면 또는 홀로그램 등 다양한 디스플레이 방법으로 디스플레이하는 장치이다.The additional display device 150 is a device for displaying the above-described XR contents in various display methods such as a screen or a hologram.

도 3에 도시된 바와 같이 본 발명은 상기 음성입력부(110)를 통해 입력되는 전진(F), 후진(B), 좌(L), 우(R)로 이루어진 음성단축키를 음성 파형 또는 텍스트로 저장하는 음성 데이터베이스(140);를 포함한다.As shown in FIG. 3, the present invention stores the voice shortcut keys composed of forward (F), backward (B), left (L), and right (R) input through the voice input unit 110 as voice waveforms or text. and a voice database 140 to

또는 음성 데이터베이스(140)에는 유사어로서 좌측에서 우측으로 회전시 (LR), 우측에서 좌측으로 회전 시 (RL) 등도 음성 파형 또는 텍스트로 저장한다.Alternatively, in the voice database 140 , when rotating from left to right (LR), when rotating from right to left (RL), etc. as analogous words are also stored as voice waveforms or text.

일실시예에 따라 상기 음성인식부를 통해 음성을 입력 받고, 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.According to an embodiment, it is possible to enhance the sensory experience of the content by receiving a voice input through the voice recognition unit and linking with the XR content based on the size of the voice, the accuracy of the voice, and the speed of the voice to implement the same as the actual situation. there is.

예를 들어 음성 데이터베이스(140) 안에 음성의 크기, 음성의 정확도, 음성의 속도에 관한 음성 파형 또는 텍스트를 미리 저장하여 음성인식부(120)가 인식할 수 있도록 한다.For example, a voice waveform or text related to the volume, accuracy of voice, and speed of voice is stored in the voice database 140 in advance so that the voice recognition unit 120 can recognize it.

일실시예에 따라 도 4에 도시된 바와 같이 상기 음성 데이터베이스(140) 안에 단어 목록 묶음을 설정하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.According to an embodiment, as shown in FIG. 4 , by setting a word list bundle in the voice database 140 and interlocking with the XR content, it is possible to implement the same as the actual situation to enhance the sensory experience of the content.

상기 단어 목록 묶음은 음성 파형 또는 텍스트의 묶음으로서, 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 좌측(LL), 빠르게 우측(RR) 등의 묶음을 음성 데이터베이스(140)에 저장하고, 음성입력부(110)를 통해 입력받은 음성 파형을 음성인식부(120)로 특정 음성 파형 또는 텍스트로 나눈 후 XR콘텐츠와 연동되어 실제상황과 동일하게 구현할 수 있다.The word list bundle is a bundle of voice waveforms or text, and stores bundles such as fast forward (FF), fast backward (BB), quickly left (LL), and quickly right (RR) in the voice database 140, and the voice After dividing the voice waveform input through the input unit 110 into a specific voice waveform or text by the voice recognition unit 120, it can be implemented in the same way as the actual situation by interworking with XR contents.

일실시예에 따라 도 5와 도 6에 도시된 바와 같이 상기 음성입력부를 통해 수신된 메시지 데이터에 따라 관련된 움직임 실행 또는 상태 변화)을 실행하는데, 예를 들어 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 우좌측(RL), 빠르게 좌우측(LR), 빠르게 좌측전진(FF), 빠르게 좌후진(BB), 빠르게 좌측전진(LL), 빠르게 우측전진(RR) 등으로 나누어 실행할 수 있어, 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.5 and 6, according to the message data received through the voice input unit, related motion execution or state change) is executed, for example, fast forward (FF) or fast backward (BB). ), quickly left and right (RL), quickly left and right (LR), quickly left forward (FF), quickly left backward (BB), quickly left forward (LL), quickly right forward (RR), etc. By implementing the same as the situation, it is possible to enhance the immersive experience of the content.

일실시예에 따라 상기 음성입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 음성 데이터베이스(140) 안에 있는 음성 파형 또는 텍스트에 연관된 음성신호와 매칭되는 문자열이 있으면 해당 문자 신호에 해당 되는 문자열을 XR콘텐츠 모듈(130)이 XR콘텐츠와 연동시켜 실제상황과 동일하게 구현한다.According to an embodiment, in the search for a voice waveform or text input through the voice input unit, if there is a character string matching the voice signal related to the voice waveform or text in the voice database 140, the character string corresponding to the character signal is XR content The module 130 is implemented in the same way as the actual situation by interworking with the XR content.

일실시예에 따라 본 발명은 사용자 정의에 의해 음성 또는/및 음향으로 동작을 정의할 수 있다. According to an embodiment of the present invention, an operation may be defined by voice and/or sound by user definition.

사용자마다 다르게 표현할 수 있는 발성(예 : 사투리, 특정 소리, 음성의 주파수 등)을 포괄적으로 아우르는 음향에 따른 음성 인식기반 단축키를 제공하기 위해, 음향을 학습한 내용을 XR콘텐츠 모듈(130)에 제공하여 사용자의 음성 뿐만아니라 다양한 음향에 의해서도 동작을 정의할 수 있다. In order to provide a voice recognition-based shortcut key according to sound that comprehensively encompasses vocalizations that can be expressed differently for each user (eg, dialect, specific sound, frequency of voice, etc.), the content learned from sound is provided to the XR content module 130 Therefore, the operation can be defined not only by the user's voice but also by various sounds.

따라서 보다 정밀하게 음성 및/또는 음향을 파악하여 실제상황과 동일하게 구현하고 편리함을 극대화할수 있다.Therefore, it is possible to more precisely identify the voice and/or sound to realize the same as the actual situation and maximize the convenience.

일실시예에 따라 도 7에 도시된 바와 같이 상기 음성입력부를 통한 음성명령을 기준으로 하여 전후 사용자 입력간 시간을 계산하여 시간차가 작은 사용자 입력과 음성명령을 조합하여 XR콘텐츠 모듈(130)이 XR콘텐츠와 연동시켜 실제상황과 동일하게 제어를 실행할 수 있다.According to an embodiment, as shown in FIG. 7 , the time between the user input before and after is calculated based on the voice command through the voice input unit, and the user input and the voice command with a small time difference are combined to generate the XR content module 130. Control can be executed in the same way as in the real situation by linking with the content.

XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위해 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 좌측(LL), 빠르게 우측(RR)의 경우 같은 단어를 중복하여 발음하는 데, 음성인식부(120)가 일정 시간(t) 이전에 발음되는 경우 상기 빠른 행동을 XR콘텐츠 모듈(130)에 실행 시킬 수 있지만 일정 시간(t) 이후에 발음되는 경우 단일 행동을 중복 수행하여 빠른 행동이 안될 수 있어, 상기 일정 시간(t)을 적절하게 조절하는 것이 필요하다.In the case of fast forward (FF), fast backward (BB), fast left (LL), and fast right (RR), the same word is repeatedly pronounced in conjunction with XR content to realize the same as the real situation. If 120 is pronounced before a certain time (t), the quick action may be executed in the XR content module 130, but if pronounced after a certain time (t), a single action may be duplicated and the quick action may not be Therefore, it is necessary to appropriately adjust the predetermined time t.

또는 단어를 중복하여 신속하게 발음하는 음성 파형을 미리 음성 데이터베이스(140)에 저장하여 패턴의 일치로 음성인식부(120)가 이를 판단할 수도 있다.Alternatively, a voice waveform for quickly pronouncing duplicate words may be stored in the voice database 140 in advance, and the voice recognition unit 120 may determine it by matching the pattern.

일실시예에 따라 도 8에 도시된 바와 같이 상기 음성입력부(110)를 통해 음성명령이 실행되는 경우에, 각 명령이 발생한 후 최소시간(t1)이 경과하는지를 판단하여, 경과하면 해당 각 명령이 실행된다.According to an embodiment, when a voice command is executed through the voice input unit 110 as shown in FIG. 8 , it is determined whether a minimum time t1 has elapsed after each command is generated, and when the elapsed time, each command is is executed

만일 최소시간(t1)을 너무 적게 설정하는 경우 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 좌측(LL), 빠르게 우측(RR)의 경우 같은 중복 단어를 적절하게 음성인식부(120)가 인식할 수 없고, 너무 크게 설정하는 경우 XR콘텐츠와 연동시켜 실제상황과 동일하게 재생할 수 없어 실제감이 떨어지는 문제가 있으므로 적절한 설정이 필요하다.If the minimum time t1 is set too small, the voice recognition unit 120 appropriately sets the same overlapping word in the case of fast forward (FF), fast backward (BB), fast left (LL), and fast right (RR). It cannot be recognized, and if it is set too large, it cannot be reproduced in the same way as the real situation by linking with the XR content, so there is a problem that the sense of reality is lowered, so an appropriate setting is necessary.

일실시예에 따라 상기 카메라에 특정 제스처가 입력된 후, 음성명령이 입력되면, 음성명령에 대응하는 음성 데이터베이스(140)로부터 유사어를 검색하여 음성명령어를 결정하고, 사용자 입력에 대응하여 음성명령어를 실행한다.According to an embodiment, when a voice command is input after a specific gesture is input to the camera, a voice command word is determined by searching for a similar word from the voice database 140 corresponding to the voice command, and the voice command word is generated in response to the user input. run

상기 유사어로서는 전진(F), 후진(B), 좌(L), 우(R)를 사용자가 발음하기 편리한 다른 음성으로 대체 가능하다.As the analogous words, forward (F), backward (B), left (L), and right (R) can be replaced with other sounds convenient for the user to pronounce.

일실시예에 따라 상기 음성입력부를 통한 직관적인 음성 명령어에 대응하는 유사어 그룹을 추출하여 해당 음성 명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행이 이루어지는 명령어 실행부;를 포함할 수 있다.According to an embodiment, a command execution unit that extracts a group of similar words corresponding to an intuitive voice command through the voice input unit, determines the corresponding voice command, combines the determined voice command, and executes the execution corresponding to the final command; includes; can do.

예를 들어 유사어 그룹을 추출하기 위해서는 음성 명령어 각각의 자카드 유사도, 코사인 유사도, 유클라디안 유사도 등을 사용할 수 있다.For example, in order to extract a similar word group, the Jacquard similarity, cosine similarity, Eucladian similarity, etc. of each voice command may be used.

본 발명은 상기 음성입력부를 통해 입력된 음성에 대한 유사어를 음성 데이터베이스로부터 검색하여 원하는 입력에 대한 명령어와 연관된 직관적인 다수의 유사어를 함께 검색하여 명령어를 결정함으로써 명령어를 기억할 필요가 없도록 하는 명령어 결정부;를 더 포함할 수도 있다.The present invention is a command determining unit that eliminates the need to memorize a command by searching for a similar word for a voice input through the voice input unit from a voice database and determining the command by searching together a plurality of intuitive synonyms related to a command for a desired input. ; may be further included.

일실시예에 따라 상기 음성입력부(110)에는 하나의 주 마이크와 하나 이상의 보조 마이크가 포함되고, 상기 음성인식부(120)는 상기 하나 이상의 보조 마이크가 수집한 음성 정보를 서로 비교하여 상기 음성 정보의 노이즈를 필터링하여 실제 발음된 음성 정보를 최대한 근접하게 인식할 수도 있다.According to an embodiment, the voice input unit 110 includes one main microphone and one or more auxiliary microphones, and the voice recognition unit 120 compares the voice information collected by the one or more auxiliary microphones with each other to obtain the voice information. It is also possible to recognize the actually pronounced voice information as closely as possible by filtering the noise.

이하 본 발명의 실시를 위한 음성인식기반 단축키 XR인터렉티브 연동시스템을 이용한 연동 방법에 대하여 도 9를 참고하여 자세히 설명한다.Hereinafter, an interworking method using a voice recognition-based shortcut key XR interactive interworking system for carrying out the present invention will be described in detail with reference to FIG. 9 .

먼저 사용자로부터 음성신호를 음성입력부(110)를 통해 수신받는 단계(S110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 음성인식부(120)를 통해 인식하는 단계(S120); 상기 음성인식부(120)로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 XR콘텐츠 모듈(130)을 통해 생성하는 단계(S130);로 이루어진다.First, receiving a voice signal from the user through the voice input unit 110 (S110); Recognizing, through the voice recognition unit 120, a voice recognition-based voice shortcut key defining a part of movement in the voice input from the voice input unit (S120); A step (S130) of generating XR content corresponding to the voice recognition-based voice shortcut key from the voice recognition unit 120 through the XR content module 130 (S130).

마지막으로 XR콘텐츠 모듈(130)가 해당 움직임(전진, 후진, 좌, 우 방향 이동)을 XR콘텐츠로 변환하여 디스플레이 장치(150)에 표시하는 단계(S140);로 이루어진다.Finally, the XR content module 130 converts the corresponding movement (forward, backward, left, right movement) into XR content and displays it on the display device 150 ( S140 ).

일실시예로서 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 정의하는 단계; 사람마다 다르게 표현할 수 있는 음향을 학습하는 단계; 상기 음성 인식기반 단축키에 따라 XR콘텐츠 모듈(130)이 다양한 음향에 의한 동작을 디스플레이 장치(150)에 표시하는 단계;로 이루어진다.In an embodiment, defining a voice recognition-based shortcut key by voice and/or sound by user definition; Learning a sound that can be expressed differently for each person; The XR content module 130 displays operations by various sounds on the display device 150 according to the voice recognition-based shortcut key.

실시예(권투)Example (Boxing)

권투 XR콘텐츠 개발할 때 권투 특성상 실제적 권투와 유사한 실감을 구현하려면 스텝(좌우전후 등)적용이 필요한데 전후좌우 등 필요한 음성단축키를 정의하고 실제적인 권투 동작과 결합하여 콘텐츠를 구현할 수 있다.When developing boxing XR contents, it is necessary to apply steps (left and right, front and rear, etc.) to realize a feeling similar to actual boxing due to the nature of boxing.

상기 음성인식부(120)는 음성단축키를 전진(F), 후진(B), 좌(L), 우(R)로 정하고 음성 데이터베이스(140)에 저장하여, 좌로 회전시 L, 우로 회전시 R, 앞으로 투스텝을 밟을 때는 FF로 음성입력부(110)에 말하면, 상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.The voice recognition unit 120 sets the voice shortcut keys as forward (F), backward (B), left (L), right (R) and stores them in the voice database 140, L when rotating left, R when rotating right , when two steps are taken in the future, if you speak to the voice input unit 110 in FF, the voice recognition unit 120 works in conjunction with the XR content to implement the same as the actual situation, thereby enhancing the sensory experience of the content.

만일 사용자가 자신의 음성을 음성입력부(110)에 스텝(좌우전후 등)을 입력하여 동작 제어를 원할 경우, 상기 음성인식부(120)가 음성단축키를 저장하는 음성 데이터베이스(140)로 보내 검색하고, XR콘텐츠 모듈(130)가 해당 움직임(전진, 후진, 좌, 우 방향 이동 등)을 XR콘텐츠로 변환하여 디스플레이 장치(150)에 표시하게 된다.If the user wants to control the operation by inputting his or her voice into the voice input unit 110, the voice recognition unit 120 sends it to the voice database 140 that stores the voice shortcut key and searches it. , the XR content module 130 converts the corresponding movement (forward, backward, left, right movement, etc.) into XR content and displays it on the display device 150 .

실시예(축구)Example (Soccer)

축구 XR콘텐츠 개발할 때 축구 특성상 실제적 축구와 유사한 실감을 구현하려면 드리블과 스텝(좌우전후 등)적용이 필요한데 턴 전후좌우 스텝에 필요한 음성 단축키를 정의하고 실제적인 축구 동작과 결합하여 콘텐츠를 구현한다.When developing soccer XR content, dribbling and stepping (left and right, back and forth, etc.) are required to realize soccer-like realism due to the nature of soccer.

상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제적인 축구동작과 동일하게 구현하기 위한 음성입력부(110)의 음성 중에서 전진(F), 후진(B), 좌(L), 우(R) 중 하나 이상의 음성단축키를 개별적으로 인식한다.Forward (F), backward (B), left (L), right (R) among the voices of the voice input unit 110 for the voice recognition unit 120 to be linked with XR content to implement the same as actual soccer action One or more of the voice shortcut keys are individually recognized.

실시예(야구)Example (Baseball)

XR콘텐츠 개발할 때 특성상 실제적 야구와 유사한 실감을 구현하려면 달리기 등의 적용이 필요한데 전/후/좌/우/달리기 등 필요한 음성단축키를 정의하고 실제적인 야구 동작과 결합하여 콘텐츠를 구현한다.When developing XR content, it is necessary to apply running, etc. to realize a real feeling similar to actual baseball due to the characteristics.

추가적으로 좌우로 회전하는 동작을 카메라(160)로 잡기가 어려움이 있어 이를 보완하기 위해 음성 단축키를 연동시킬 수도 있다.Additionally, since it is difficult to capture the left and right rotation with the camera 160, a voice shortcut key may be linked to compensate for this.

예를들면, 음성단축기를 실제적 야구와 유사한 달리기를 XR콘텐츠 모듈(130)에 인식시키기 위해서는 FF로 말하면, XR콘텐츠와 연동되어 실제 야구의 달리기 상황과 동일하게 구현할 수 있다.For example, in order to make the XR content module 130 recognize the running similar to actual baseball with the voice shortener, speaking FF, it can be implemented in the same way as the real baseball running situation in conjunction with the XR content.

110 : 음성입력부
120 : 음성인식부
130 : XR콘텐츠 모듈
140 : 음성 데이터베이스
150 : 디스플레이 장치
110: voice input unit
120: voice recognition unit
130: XR content module
140: voice database
150: display device

Claims (8)

활동공간이 넓은 움직임의 일부를 음성 인식기반 단축키를 활용하여 콘텐츠의 실감체험도를 위한 음성 인식기반 단축키;
음성입력부로부터 입력된 음성에서 활동공간이 넓은 움직임의 일부를 정의한 음성 인식기반 단축키를 인식하는 음성인식부;
움직임기반 정보 및 음성 인식기반 단축키를 통해 XR콘텐츠를 생성하는 XR콘텐츠 모듈;을 포함하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
Voice recognition-based shortcut keys for realistic experience of content by using voice recognition-based shortcut keys for a part of movement with a wide activity space;
a voice recognition unit for recognizing a voice recognition-based shortcut key defining a part of a movement with a wide active space in the voice input from the voice input unit;
An XR content module that generates XR content through motion-based information and voice recognition-based shortcut key; voice recognition-based shortcut key XR interactive interworking system including.
청구항 1에 있어서,
상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알” 음성으로 나누어 음성단축키로 정의하고 음성 데이터베이스(140)에 저장한 후, 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL)에 필요한 발음으로 이루어진 동작 음성에 기반한 단축키를 정의하여 데이터베이스에 저장하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
The method according to claim 1,
The voice recognition unit performs forward (F), backward (B), left (L), right (R) direction movement among the actions to be implemented in the same way as in the real situation in conjunction with XR contents, respectively, “F”, “B”, After dividing into “L” and “R” voices, defining the voice shortcut keys and storing them in the voice database 140, forward (F), backward (B), left (L), right (R) direction movement and left to right A voice recognition-based shortcut key XR interactive interlocking system, characterized in that it defines a shortcut key based on the operation voice made up of the pronunciation required for rotation (LR) and right-to-left (RL) and stores it in a database.
청구항 1에 있어서,
상기 음성인식부는 앞으로 빠르게 움직임을 FF 발음으로 인식하여, 앞으로 투스텝을 밟는 것과 같이 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시키며,
상기 음성인식부를 통해 음성을 입력 받고, 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
The method according to claim 1,
The voice recognition unit recognizes the fast forward movement as FF pronunciation, and implements the same as the actual situation in conjunction with the XR content, such as stepping forward two steps, to enhance the sensory experience of the content,
Voice recognition-based shortcut XR interactive interworking system, characterized in that it receives a voice input through the voice recognition unit, and implements the same as the actual situation by interworking with XR contents based on the size of the voice, the accuracy of the voice, and the speed of the voice.
청구항 1에 있어서,
음성 데이터베이스 안에 음성 파형 또는 텍스트의 묶음을 설정하여 음성 데이터베이스에 저장하고, 음성입력부를 통해 입력받은 음성 파형을 음성인식부로 특정 음성 파형 또는 텍스트로 나눈 후 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하며,
상기 음성입력부를 통해 수신된 메시지 데이터에 따라 관련된 움직임 실행 또는 상태 변화)을 실행하는데, 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 우좌측(RL), 빠르게 좌우측(LR), 빠르게 좌측전진(FF), 빠르게 좌후진(BB), 빠르게 좌측전진(LL), 빠르게 우측전진(RR)으로 나누어 실행할 수 있어, 실제상황과 동일하게 구현하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
The method according to claim 1,
It sets a bundle of voice waveforms or texts in the voice database, stores it in the voice database, divides the voice waveform input through the voice input unit into specific voice waveforms or texts with the voice recognition unit, and works with XR content to implement the same as the actual situation. ,
According to the message data received through the voice input unit, a related movement execution or state change) is executed, fast forward (FF), fast backward (BB), quickly right and left (RL), quickly left and right (LR), quickly left forward (FF), fast left reverse (BB), fast left forward (LL), and fast right forward (RR) can be executed separately, so it is implemented in the same way as in the real situation.
청구항 1에 있어서,
상기 음성입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 음성 데이터베이스 안에 있는 음성 파형 또는 텍스트에 연관된 음성신호와 매칭되는 문자열이 있으면 해당 문자 신호에 해당되는 문자열을 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 구현하며,
상기 음성입력부를 통한 음성명령을 기준으로 하여 전후 사용자 입력간 시간을 계산하여 시간차가 작은 사용자 입력과 음성명령을 조합하여 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 제어를 실행하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
The method according to claim 1,
In the search for the voice waveform or text input through the voice input unit, if there is a character string matching the voice signal related to the voice waveform or text in the voice database, the XR content module interlocks the character string corresponding to the character signal with the XR content to actually Implement the same situation as
Based on the voice command through the voice input unit, the time between the user input before and after is calculated, and the user input with a small time difference and the voice command are combined, and the XR content module interworks with the XR content to execute control in the same way as in the real situation. A voice recognition-based shortcut key XR interactive interworking system.
청구항 1에 있어서,
상기 음성입력부를 통해 음성명령이 실행되는 경우에, 각 명령이 발생한 후 최소시간(t1)이 경과하는지를 판단하여, 경과하면 해당 각 명령이 실행되며,
상기 XR콘텐츠 모듈은 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 학습하여 상기 음성 인식기반 단축키에 따른 동작을 디스플레이 장치에 표시하도록 제어하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
The method according to claim 1,
When a voice command is executed through the voice input unit, it is determined whether a minimum time (t1) has elapsed after each command is generated, and when the elapsed time, each command is executed,
The XR content module learns a voice recognition-based shortcut key by voice or/and sound by user definition, and controls the operation according to the voice recognition-based shortcut key to be displayed on a display device. .
청구항 1에 있어서,
카메라에 특정 제스처가 입력된 후, 음성명령이 입력되면, 음성명령에 대응하는 음성 데이터베이스로부터 유사어를 검색하여 음성명령어를 결정하고, 사용자 입력에 대응하여 음성명령어를 실행하며,
상기 음성입력부를 통한 직관적인 음성 명령어에 대응하는 유사어 그룹을 추출하여 해당 음성 명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행이 이루어지는 명령어 실행부;를 포함하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
The method according to claim 1,
After a specific gesture is input to the camera, when a voice command is input, a similar word is searched from a voice database corresponding to the voice command to determine a voice command word, and the voice command word is executed in response to the user input,
and a command execution unit that extracts a group of similar words corresponding to an intuitive voice command through the voice input unit, determines the corresponding voice command, combines the determined voice command, and executes the execution corresponding to the final command. Voice recognition-based shortcut key XR interactive interworking system.
사용자로부터 음성신호를 음성입력부를 통해 수신받는 단계(S110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 음성인식부를 통해 인식하는 단계(S120); 상기 음성인식부로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 XR콘텐츠 모듈을 통해 생성하는 단계(S130);를 포함하여,
상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알”로 나누어 음성단축키로 정의하여 데이터베이스에 저장하는 단계;
상기 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL), 빠르게 이동(FF)에 필요한 동작 음성 인식기반 단축키를 정의하여 데이터베이스에 저장하는 단계;
사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 정의하는 단계; 사람마다 다르게 표현할 수 있는 음향을 학습하는 단계; 상기 음성 인식기반 단축키에 따라 XR콘텐츠 모듈이 다양한 음향에 의한 동작을 디스플레이 장치에 표시하는 단계;를 포함하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템을 이용한 연동 방법.
receiving a voice signal from a user through a voice input unit (S110); Recognizing a voice recognition-based voice shortcut key defining a part of movement in the voice input from the voice input unit through a voice recognition unit (S120); Including; generating XR content corresponding to the voice recognition-based voice shortcut key from the voice recognition unit through the XR content module (S130);
The voice recognition unit performs forward (F), backward (B), left (L), right (R) direction movement among the actions to be implemented in the same way as in the real situation in conjunction with XR contents, respectively, “F”, “B”, dividing into "L" and "Al", defining a voice shortcut key and storing it in a database;
The forward (F), backward (B), left (L), right (R) direction movement, left to right rotation (LR), right to left rotation (RL), and fast movement (FF) are required Defining a shortcut key based on motion speech recognition and storing it in a database;
defining a voice recognition-based shortcut key by voice and/or sound by user definition; Learning a sound that can be expressed differently for each person; A method of using a voice recognition-based shortcut key XR interactive interlocking system, comprising: displaying, on a display device, an operation of various sounds by the XR content module according to the voice recognition-based shortcut key.
KR1020210182371A 2021-12-20 2021-12-20 Voice recognition-based shortcut key XR interactive interworking system and the method using it KR102368929B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210182371A KR102368929B1 (en) 2021-12-20 2021-12-20 Voice recognition-based shortcut key XR interactive interworking system and the method using it

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210182371A KR102368929B1 (en) 2021-12-20 2021-12-20 Voice recognition-based shortcut key XR interactive interworking system and the method using it

Publications (1)

Publication Number Publication Date
KR102368929B1 true KR102368929B1 (en) 2022-03-02

Family

ID=80815196

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210182371A KR102368929B1 (en) 2021-12-20 2021-12-20 Voice recognition-based shortcut key XR interactive interworking system and the method using it

Country Status (1)

Country Link
KR (1) KR102368929B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102458703B1 (en) 2022-05-10 2022-10-25 (주)에어패스 Communication system between users in voice recognition-based XR content or metaverse content service

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210037886A (en) * 2019-09-30 2021-04-07 주식회사 엘지유플러스 Wearable apparatus and operating method thereof and server for reconizing situation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210037886A (en) * 2019-09-30 2021-04-07 주식회사 엘지유플러스 Wearable apparatus and operating method thereof and server for reconizing situation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102458703B1 (en) 2022-05-10 2022-10-25 (주)에어패스 Communication system between users in voice recognition-based XR content or metaverse content service

Similar Documents

Publication Publication Date Title
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
US11423909B2 (en) Word flow annotation
US10664060B2 (en) Multimodal input-based interaction method and device
US20210201550A1 (en) Method, apparatus, device and storage medium for animation interaction
CN108874126B (en) Interaction method and system based on virtual reality equipment
US20230206912A1 (en) Digital assistant control of applications
US10824310B2 (en) Augmented reality virtual personal assistant for external representation
JP2021168139A (en) Method, device, apparatus and medium for man-machine interactions
US6526395B1 (en) Application of personality models and interaction with synthetic characters in a computing system
US9454958B2 (en) Exploiting heterogeneous data in deep neural network-based speech recognition systems
US20140036022A1 (en) Providing a conversational video experience
US20140028780A1 (en) Producing content to provide a conversational video experience
US20220059080A1 (en) Realistic artificial intelligence-based voice assistant system using relationship setting
US11881209B2 (en) Electronic device and control method
JP6166889B2 (en) Dialog support apparatus, dialog system, dialog support method and program
US20220301250A1 (en) Avatar-based interaction service method and apparatus
KR102368929B1 (en) Voice recognition-based shortcut key XR interactive interworking system and the method using it
US11978252B2 (en) Communication system, display apparatus, and display control method
CN113205569B (en) Image drawing method and device, computer readable medium and electronic equipment
US20240096093A1 (en) Ai-driven augmented reality mentoring and collaboration
CN109977390A (en) A kind of method and device generating text
Putra et al. Designing translation tool: Between sign language to spoken text on kinect time series data using dynamic time warping
WO2023114444A1 (en) Narrative text and vocal computer game user interface
WO2013181633A1 (en) Providing a converstional video experience
JP2020037155A (en) Gesture control device and gesture control program

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant