WO2023120747A1 - 음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법 - Google Patents

음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법 Download PDF

Info

Publication number
WO2023120747A1
WO2023120747A1 PCT/KR2021/019398 KR2021019398W WO2023120747A1 WO 2023120747 A1 WO2023120747 A1 WO 2023120747A1 KR 2021019398 W KR2021019398 W KR 2021019398W WO 2023120747 A1 WO2023120747 A1 WO 2023120747A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
voice recognition
command
content
fast
Prior art date
Application number
PCT/KR2021/019398
Other languages
English (en)
French (fr)
Inventor
임승찬
차현준
Original Assignee
(주)에어패스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에어패스 filed Critical (주)에어패스
Priority to PCT/KR2021/019398 priority Critical patent/WO2023120747A1/ko
Publication of WO2023120747A1 publication Critical patent/WO2023120747A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Definitions

  • the present invention relates to a voice recognition-based shortcut key XR interactive linkage system and an linkage method using the same, and more particularly, to a voice recognition-based shortcut key that provides a real-time voice recognition interactive experience through input based on operating voice and output of XR contents. It is about the XR interactive interworking system.
  • Korean Patent Publication No. 2014-0061009 discloses the steps of obtaining an image including an object; recognizing at least one object included in the obtained image; detecting augmented reality information related to the recognized object; Inputting voice information and comparing it with the augmented reality information; and generating a user interface that separates and displays the augmented reality matched with the voice information.
  • a conventional augmented reality system is a hybrid augmented reality system in which object information and voice are matched, and 3D content matched by recognizing a captured marker or voice is displayed, and narration can feel a sense of reality.
  • Korean Patent Registration No. 0432373 discloses the steps of receiving a voice signal from a user through a voice input device connected to a middleware system; accessing a voice database, searching for and storing character string data corresponding to the received voice signal; Retrieving message data corresponding to the stored character string data from a message database storing message data recognizable by 3D data.
  • the searching of the message data includes: a first step of searching for message data corresponding to string data in a message database; and a second step of deleting the last letter of the string data and then searching the message database for message data corresponding to the string data from which the last letter is deleted. If the corresponding message data is found, the searched message data is returned, and if the corresponding message data is not found, the second step is performed until one character remains in the string data.
  • the present invention was made to solve the above problems, and the present invention is a vision method using a camera when developing and implementing motion-based XR contents such as soccer or boxing that reflect the user's motion in front of the camera. It is difficult to apply right step, left/right turn, running activity, etc.
  • part of the movement with a wide activity space is used as a voice recognition-based voice shortcut key to provide a technology that enhances the realistic experience of the content. has a purpose
  • an object of the present invention is to provide a technology capable of defining, learning, and registering a voice recognition-based shortcut key according to a user's specific motion, since the motion can be defined by voice and/or sound by user definition.
  • the present invention utilizes a voice recognition based shortcut key for a part of movement with a wide activity space to provide a voice recognition based shortcut key for realistic experience of content; a voice recognition unit that recognizes a voice recognition-based shortcut key that defines a part of movement with a wide activity space in the voice input from the voice input unit; An XR content module for generating XR content through the motion-based information and the voice recognition-based shortcut key.
  • the voice recognition unit interlocks with the XR contents and moves forward (F), backward (B), left (L), and right (R) directions, respectively, among actions to be implemented in the same way as in the actual situation. Divided into “L” and “R”, it is defined as a voice shortcut key and stored in the voice database 140.
  • the voice recognition unit recognizes a fast forward movement as FF, and implements the same as a real situation in conjunction with XR contents to enhance the sensory experience of the contents.
  • the voice is received through the voice recognition unit, and based on the volume of the voice, the accuracy of the voice, and the speed of the voice, it is interlocked with the XR contents to implement the same as the actual situation.
  • a bundle of voice waveforms or text is set in the voice database and stored in the voice database, and the voice waveform received through the voice input unit is divided into specific voice waveforms or text by the voice recognition unit, and then implemented in conjunction with XR contents to match the actual situation. do.
  • FF fast forward
  • BB fast backward
  • RL fast right and left
  • LR fast left and right
  • FF fast forward
  • BB fast backward left
  • LL fast left forward
  • RR fast right forward
  • the XR content module interlocks the character string corresponding to the character signal with the XR content, implemented in the same situation.
  • the voice input unit Based on the voice command through the voice input unit, the time between the front and rear user inputs is calculated, and the user input and voice command with a small time difference are combined, and the XR content module interlocks with the XR content to execute control in the same way as in the actual situation.
  • a voice command is input after a specific gesture is input to the camera, a similar word is searched from a voice database corresponding to the voice command, a voice command word is determined, and the voice command is executed in response to the user input.
  • a command execution unit that extracts a similar word group corresponding to an intuitive voice command through the voice input unit, determines a corresponding voice command, combines the determined voice command, and performs execution corresponding to the final command.
  • a command determination unit that searches for a similar word to the voice input through the voice input unit from a voice database and determines a command by searching a plurality of intuitive similar words associated with a command for a desired input, thereby eliminating the need to memorize the command;
  • the voice input unit includes one main microphone and one or more auxiliary microphones, and the voice recognition unit compares voice information collected by the one or more auxiliary microphones with each other, filters out noise from the voice information, and recognizes actually pronounced voice information. do.
  • the XR content module learns a voice recognition-based shortcut key through voice or/and sound according to user definition, and controls an operation according to the voice recognition-based shortcut key to be displayed on a display device.
  • the present invention comprises the steps of receiving a voice signal from a user through a voice input unit (S110); Recognizing through a voice recognition unit a voice shortcut key based on voice recognition, which defines a part of movement in the voice input from the voice input unit (S120); Generating XR contents corresponding to the voice recognition-based voice shortcut key from the voice recognition unit through the XR contents module (S130); includes.
  • the voice recognition unit interlocks with the XR contents and moves forward (F), backward (B), left (L), and right (R) directions, respectively, among actions to be implemented in the same way as in the actual situation.
  • the present invention includes the steps of defining a voice recognition-based shortcut key with voice or / and sound by user definition; learning sounds that can be expressed differently for each person;
  • the XR content module displays various sounds on a display device.
  • the present invention made as described above is a vision method using a camera.
  • motion-based XR contents such as soccer or boxing that reflect the user's movement, steps in front of the camera, forward, backward, left and right steps, direction rotation, and running activities Easy to apply.
  • the voice recognition unit is linked with the XR content to implement the same as the actual situation, so that the sensory experience of the content can be enhanced.
  • the present invention can search similar words to determine a voice command, combine the determined voice command, and execute an execution corresponding to the final command, so that the voice can be more precisely identified and implemented in the same way as in the actual situation.
  • the present invention maximizes convenience by eliminating the need for a user to memorize a command by determining a command by searching for a plurality of related synonyms together.
  • the present invention can define, learn, and register a voice recognition-based shortcut according to a user's specific voice and/or sound to suit a specific action of the user, so that the voice and/or sound can be more accurately identified and used in the same way as in the actual situation. Implemented and maximized convenience.
  • FIG. 1 is a diagram showing the overall configuration according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing a configuration in which a camera is added according to an embodiment of the present invention.
  • FIG. 3 is a diagram showing the internal structure of a voice database according to an embodiment of the present invention.
  • FIG. 4 is a diagram showing a structure for combining voices in a voice database according to another embodiment of the present invention.
  • FIG. 5 is a diagram showing a structure for combining voices in a voice database according to another embodiment of the present invention.
  • FIG. 6 is a diagram showing a structure for combining voices in a voice database before a certain time according to another embodiment of the present invention.
  • FIG. 7 is a diagram showing a structure for combining voices in a voice database after a predetermined time according to another embodiment of the present invention.
  • FIG. 8 is a diagram showing a structure for combining voices in a voice database according to another embodiment of the present invention.
  • FIG. 9 is a diagram showing a linkage method using a voice recognition-based shortcut key XR interactive linkage system according to another embodiment of the present invention.
  • the present invention includes a voice input unit 110 for receiving a voice signal from a user; a voice recognition unit 120 recognizing a voice shortcut key based on voice recognition defining a part of movement in the voice input from the voice input unit; an XR content module 130 that generates XR content corresponding to the voice recognition-based voice shortcut key from the voice recognition unit 120; voice database 140; Include etc.
  • eXtended Reality is referred to as XR, and includes augmented reality (AR), virtual reality (VR), and mixed reality (MR).
  • AR augmented reality
  • VR virtual reality
  • MR mixed reality
  • the voice input unit 110 may be implemented as a portable microphone or a wearable voice input device, but is not limited thereto, and may be implemented as various devices capable of detecting a user's voice.
  • the voice input unit 110 is preferably connected to the voice recognition unit 120 through a wireless communication network, and the wireless communication network can be implemented using at least one of short-distance communication technology and long-distance communication technology.
  • Short-range communication technologies include, for example, CAN communication, Wi-Fi, Wi-Fi Direct, Bluetooth, zigbee, and Bluetooth Low Energy.
  • Wi-Fi Wireless Fidelity
  • Wi-Fi Direct Wireless Fidelity
  • Bluetooth Wireless Fidelity
  • zigbee Bluetooth Low Energy
  • Bluetooth Low Energy e.g., Bluetooth Low Energy
  • NFC Near Field Communication
  • a communication technology based on a mobile communication standard such as 3GPP, 3GPP2 or WiMAX series may be employed.
  • the voice input unit 110 may obtain voice data by receiving a user's voice and converting the received voice into an electrical signal.
  • the voice data is transmitted to the voice recognition unit through a wireless communication network.
  • the voice input unit continuously or periodically receives voice according to predefined settings, transfers the received voice to the voice database 140, and continuously stores voice data.
  • a voice shortcut may be interlocked.
  • Voice shortcut keys based on voice recognition for a part of the movement with a wide activity space are composed of voice strings, which are string data input from the user, for example, forward (F), backward (B), left (L), right (R)
  • the directional movement is divided into “F”, “B”, “L”, and “R” voices, respectively, and is defined as a voice shortcut key and stored in the voice database 140.
  • a shortcut key is defined based on the action voice consisting of the “f” pronunciation required to move forward.
  • the voice recognition unit 120 sets the voice shortcut keys to forward (F), backward (B), left (L), and right (R) and stores them in the voice database 140, L for left rotation and R for right rotation. , If you say FF to the voice input unit 110 when you step on the two-step in the future, the voice recognition unit 120 is linked with the XR content to implement the same as the actual situation, so that the sensory experience of the content can be enhanced.
  • the voice recognition unit 120 sends and searches the voice shortcut key to the voice database 140, and XR contents module 130 converts the corresponding movement (forward, backward, left, or right movement) into XR content and displays it on the display device 150.
  • the voice recognition-based shortcut XR interactive linked system recognizes the user's intention to move based on the user's voice and automatically executes the function of the XR content being executed, thereby providing various activity information suitable for the user's intention. can be provided to the user.
  • the added display device 150 is a device that displays the above-described XR contents in various display methods such as a screen or a hologram.
  • the present invention stores voice shortcut keys composed of forward (F), backward (B), left (L), and right (R) input through the voice input unit 110 as voice waveforms or text. It includes; a voice database 140 that does.
  • voice database 140 when rotating from left to right (LR) and when rotating from right to left (RL) are also stored as voice waveforms or text as analogous words.
  • the voice is received through the voice recognition unit, and based on the volume of the voice, the accuracy of the voice, and the speed of the voice, it is interlocked with the XR content to implement the same as the actual situation, thereby enhancing the sensory experience of the content. there is.
  • voice waveforms or texts related to voice volume, voice accuracy, and voice speed are previously stored in the voice database 140 so that the voice recognition unit 120 can recognize them.
  • a word list bundle may be set in the voice database 140 and linked with XR contents to be implemented in the same way as in a real situation, thereby enhancing the sensory experience of the contents.
  • the word list bundle is a bundle of voice waveforms or text, and a bundle of fast forward (FF), fast backward (BB), fast left (LL), fast right (RR), etc. is stored in the voice database 140, and voice After dividing the voice waveform received through the input unit 110 into a specific voice waveform or text by the voice recognition unit 120, it can be implemented in the same way as the actual situation in conjunction with XR contents.
  • FF fast forward
  • BB fast backward
  • LL fast left
  • RR fast right
  • movement execution or state change related to the message data received through the voice input unit is executed, for example, fast forward (FF) and fast backward (BB). ), fast left and right (RL), fast left and right (LR), fast forward left (FF), fast backward left (BB), fast forward left (LL), fast forward right (RR), etc.
  • FF fast forward
  • BB fast backward
  • FF fast forward
  • BB fast backward left
  • RR fast forward right
  • the search for the voice waveform or text input through the voice input unit searches for a character string corresponding to the character signal if there is a character string that matches the voice signal associated with the voice waveform or text in the voice database 140 as the XR content.
  • the module 130 interlocks with the XR content to implement the same as the actual situation.
  • the present invention may define an operation with voice or/and sound by user definition.
  • the contents learned from sound are provided to the XR content module 130.
  • motions can be defined not only by the user's voice but also by various sounds.
  • the XR contents module 130 calculates the time between the previous and subsequent user inputs based on the voice command through the voice input unit and combines the user input and the voice command with a small time difference, so that the XR contents module 130 can generate XR Control can be executed in the same way as in the actual situation by linking with the content.
  • a voice waveform for rapidly pronouncing a word repeatedly may be stored in the voice database 140 in advance, and the voice recognition unit 120 may determine the matching pattern.
  • a voice command when executed through the voice input unit 110 as shown in FIG. 8, it is determined whether or not a minimum time t1 has elapsed after each command has occurred, and if the elapsed time has elapsed, each corresponding command It runs.
  • the voice recognition unit 120 appropriately recognizes duplicate words such as fast forward (FF), fast backward (BB), fast left (LL), and fast right (RR). If it is not recognizable and is set too large, it cannot be reproduced in the same way as the actual situation by linking with XR contents, so there is a problem that the sense of reality is reduced, so proper setting is required.
  • FF fast forward
  • BB fast backward
  • LL fast left
  • RR fast right
  • a voice command word is output in response to the user input.
  • forward (F), backward (B), left (L), and right (R) can be replaced with other sounds convenient for the user to pronounce.
  • a command execution unit for extracting a group of synonyms corresponding to an intuitive voice command through the voice input unit, determining a corresponding voice command, combining the determined voice command, and performing execution corresponding to the final command includes can do.
  • Jacquard similarity Jacquard similarity, cosine similarity, Eucladian similarity, etc. of each voice command may be used.
  • a command determining unit that searches a voice database for synonyms for a voice input through the voice input unit and determines a command by searching a plurality of intuitive synonyms related to a command for a desired input, thereby eliminating the need to memorize the command. ; may be further included.
  • the voice input unit 110 includes one main microphone and one or more auxiliary microphones, and the voice recognition unit 120 compares the voice information collected by the one or more auxiliary microphones with each other to obtain the voice information. It is also possible to recognize the actual pronounced voice information as close as possible by filtering the noise of .
  • the XR content module 130 converts the movement (forward, backward, left, right direction) into XR content and displays it on the display device 150 (S140).
  • the voice recognition unit 120 sets the voice shortcut keys to forward (F), backward (B), left (L), and right (R) and stores them in the voice database 140, L for left rotation and R for right rotation. , If you say FF to the voice input unit 110 when you step on the two-step in the future, the voice recognition unit 120 is linked with the XR content to implement the same as the actual situation, so that the sensory experience of the content can be enhanced.
  • the voice recognition unit 120 sends it to the voice database 140 that stores the voice shortcut key and searches it.
  • the XR content module 130 converts the movement (forward, backward, left, right direction, etc.) into XR content and displays it on the display device 150.
  • a voice shortcut may be interlocked to compensate for this.
  • the XR content module 130 recognize running similar to actual baseball through the voice shortener, if you say FF, it can be linked with the XR content to implement the same running situation as actual baseball.
  • the present invention relates to a voice recognition-based shortcut XR interactive linkage system and an linkage method using the same. It is difficult to apply left and right steps, left and right turns, running activities, etc. As a solution to this problem, technology that enhances the realistic experience of content by using voice recognition-based voice shortcut keys for part of movements with a wide activity space provides

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 음성인식기반 단축키 XR인터렉티브 연동시스템에 관한 것으로서, 보다 상세하게는 동작 음성에 기반한 입력과 XR 콘텐츠 출력을 통해 실시간 음성 인식 인터렉티브(interactive) 체험을 제공하는 음성인식기반 단축키 XR인터렉티브 연동시스템에 관한 것으로서, 본 발명은 활동공간이 넓은 움직임의 일부를 음성 인식기반 단축키를 활용하여 콘텐츠의 실감체험도를 위한 음성 인식기반 단축키; 음성입력부로부터 입력된 음성에서 활동공.간이 넓은 움직임의 일부를 정의한 음성 인식기반 단축키를 인식하는 음성인식부; 상기 움직임기반 정보 및 음성 인식기반 단축키를 통해 XR콘텐츠를 생성하는 XR콘텐츠 모듈;을 포함한다.

Description

음성인식기반 단축키 XR인터렉티브 연동시스템 및 이를 이용한 연동 방법
본 발명은 음성인식기반 단축키 XR인터렉티브 연동시스템 및 이를 이용한 연동 방법에 관한 것으로서, 보다 상세하게는 동작 음성에 기반한 입력과 XR 콘텐츠 출력을 통해 실시간 음성 인식 인터렉티브(interactive) 체험을 제공하는 음성인식기반 단축키 XR인터렉티브 연동시스템에 관한 것이다.
한국공개특허 제2014-0061009호는 객체를 포함하는 영상을 획득하는 단계; 상기 획득된 영상에 포함된 적어도 하나 이상의 객체를 인식하는 단계; 상기 인식된 객체에 관련된 증강현실 정보를 검출하는 단계; 음성정보를 입력하여, 상기 증강현실 정보와 비교하는 단계; 및 상기 음성정보와 매치되는 증강현실을 분리하여 디스플레이하는 사용자 인터페이스를 생성하는 단계;를 포함한다.
종래의 증강현실 시스템은 객체 정보와 음성을 매치한 하이브리드 증강현실 시스템이며, 촬영된 마커 또는 음성을 인식하여 매칭된 3차원 콘텐츠가 디스플레이되고, 나레이션이 현실감을 느낄 수는 있다.
그러나 촬영된 마커 또는 음성에 따라 객체를 이동시키기에는 정교함이 많이 떨어지고, 특히 객체의 순간적 운동 방향이라던지 속도 등을 제어하기에는 부족한 점이 많았다.
또한 한국등록특허 제0432373호는 미들웨어 시스템에 연결된 음성입력장 치를 통하여 사용자로부터 음성신호를 수신하는 단계; 음성 데이터베이스에 접근하여 상기 수신된 음성 신호에 대응되는 문자열 데이터를 검색하여 저장하는 단계; 3D 데이터가 인식가능한 메시지 데이터를 저장하는 메시지 데이터베이스에서 상기 저장된 문자열 데이터에 대응하는 메시지 데이터를 검색하는 단계.S30); 상기 검색된 메시지 데이터에 따라 3D 오브젝트의 행동을 제어하는 단계; 및 상기 행동이 제어되는 3D 오브젝트의 행동을 실시간으로 업데이트하여 디스플레이하는 단계을 포함하여 이루어지며, 상기 메시지 데이터를 검색 하는 단계는, 문자열 데이터에 대응하는 메시지 데이터를 메시지 데이터베이스에서 검색하는 제1 단계; 및 문자열 데이터의 뒷글자 1자를 삭제한 후, 뒷글자 1자가 삭제된 문자열 데이터에 대응하는 메시지 데이터를 메시지 데이터베이스에서 검색하는 제2 단계;를 포함하여, 저장된 문자열 데이터에 대하여 제1 단계를 수행하여 대응하는 메시지 데이터가 검색되면 검색된 메시지 데이터를 리턴하고, 대응하는 메시지 데이터가 검색되지 않으면, 문자열 데이터에 1자가 남을 때까지 제2단계를 수행한다.
그러나 종래기술은 빠른 회전동작을 인식하지 못하거나 복잡한 문자열 데이터를 분석하는 시간이 많이 걸리고, 분석에 실패할 경우 추가적인 입력을 받아야만 하는 불편함이 있었다.
본 발명은 상기와 같은 문제점을 해결하기 위해 이루어진 것으로서, 본 발명은 카메라를 이용한 비젼방식으로 이용자의 움직임을 반영한 축구나 권투 등의 움직임기반 XR콘텐츠를 개발하여 구현할 때 카메라 앞에서 전·후·좌·우 스텝, 좌·우 방향 회전시, 달리기 활동 등 적용이 어려운데 이를 해결하기 위한 방안으로 활동공간이 넓은 움직임의 일부를 음성 인식기반 음성단축키를 활용하여 콘텐츠의 실감 체험도를 증강시키는 기술을 제공하는 데 목적이 있다.
또한, 본 발명은 사용자 정의에 의해 음성 및/또는 음향으로 동작을 정의할 수도 있어 음성 인식기반 단축키를 사용자의 특정 동작에 맞게 정의하여 학습시켜 등록할 수 있는 기술을 제공하는 데 목적이 있다.
상기 과제를 해결하기 위하여 본 발명은 활동공간이 넓은 움직임의 일부를 음성 인식기반 단축키를 활용하여 콘텐츠의 실감체험도를 위한 음성 인식기반 단축키; 음성입력부로 부터 입력된 음성에서 활동공.간이 넓은 움직임의 일부를 정의한 음성 인식기반 단축키를 인식하는 음성인식부; 상기 움직임기반 정보 및 음성 인식기반 단축키를 통해 XR콘텐츠를 생성하는 XR콘텐츠 모듈;을 포함한다.
상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알”로 나누어 음성단축키로 정의하여 음성 데이터베이스(140)에 저장한다.
상기 음성 데이터베이스에 저장한 후, 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL), 빠르게 이동(FF)에 필요한 동작 음성 인식기반 단축키를 정의하여 데이터베이스에 저장한다.
상기 음성인식부는 앞으로 빠르게 움직임을 FF로 인식하여, XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킨다.
상기 음성인식부를 통해 음성을 입력 받고, 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현한다.
상기 음성 데이터베이스 안에 음성 파형 또는 텍스트의 묶음을 설정하여 음성 데이터베이스에 저장하고, 음성입력부를 통해 입력받은 음성 파형을 음성인식부로 특정 음성 파형 또는 텍스트로 나눈 후 XR콘텐츠와 연동되어 실제상황과 동일하게 구현한다.
상기 음성입력부를 통해 수신된 메시지 데이터에 따라 관련된 움직임 실행 또는 상태 변화)을 실행하는 데, 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 우좌측(RL), 빠르게 좌우측(LR), 빠르게 좌측전진(FF), 빠르게 좌후진(BB), 빠르게 좌측전진(LL), 빠르게 우측전진(RR) 등으로 나누어 실행할 수 있어, 실제상황과 동일하게 구현한다.
상기 음성입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 음성 데이터베이스 안에 있는 음성 파형 또는 텍스트에 연관된 음성신호와 매칭되는 문자열이 있으면 해당 문자 신호에 해당 되는 문자열을 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 구현한다.
상기 음성입력부를 통한 음성명령을 기준으로 하여 전후 사용자 입력간 시간을 계산하여 시간차가 작은 사용자 입력과 음성명령을 조합하여 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 제어를 실행한다.
상기 음성입력부를 통해 음성명령이 실행되는 경우에, 각 명령이 발생한 후 최소시간(t1)이 경과하는지를 판단하여, 경과하면 해당 각 명령이 실행된다.
상기 카메라에 특정 제스처가 입력된 후, 음성명령이 입력되면, 음성명령에 대응하는 음성 데이터베이스로부터 유사어를 검색하여 음성명령어를 결정하고, 사용자 입력에 대응하여 음성명령어를 실행한다.
상기 음성입력부를 통한 직관적인 음성 명령어에 대응하는 유사어 그룹을 추출하여 해당 음성 명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행이 이루어지는 명령어 실행부;를 포함한다.
상기 음성입력부를 통해 입력된 음성에 대한 유사어를 음성 데이터베이스로부터 검색하여 원하는 입력에 대한 명령어와 연관된 직관적인 다수의 유사어를 함께 검색하여 명령어를 결정함으로써 명령어를 기억할 필요가 없도록 하는 명령어 결정부;를 더 포함한다.
상기 음성입력부에는 하나의 주 마이크와 하나 이상의 보조 마이크가 포함되고, 상기 음성인식부는 상기 하나 이상의 보조 마이크가 수집한 음성 정보를 서로 비교하여 상기 음성 정보의 노이즈를 필터링하여 실제 발음된 음성 정보를 인식한다.
상기 XR콘텐츠 모듈은 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 학습하여 상기음성 인식기반 단축키에 따른 동작을 디스플레이 장치에 표시하도록 제어한다.
본 발명은 사용자로부터 음성신호를 음성입력부를 통해 수신받는 단계(S110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 음성인식부를 통해 인식하는 단계(S120); 상기 음성인식부로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 XR콘텐츠 모듈을 통해 생성하는 단계(S130);를 포함한다.
상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알”로 나누어 음성단축키로 정의하여 음성 데이터베이스에 저장하는 단계; 상기 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL), 빠르게 이동(FF)에 필요한 동작 음성 인식기반 단축키를 정의하여 데이터베이스에 저장하는 단계;를 포함한다.
본 발명은 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 정의하는 단계; 사람마다 다르게 표현할 수 있는 음향을 학습하는 단계; 상기 음성 인식기반 단축키에 따라 XR콘텐츠 모듈이 다양한 음향에 의한 동작을 디스플레이 장치에 표시하는 단계;를 포함한다.
본 명세서에서 개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해 되어서는 아니 될 것이다.
상기와 같이 이루어지는 본 발명은 카메라를 이용한 비젼방식으로 이용자의 움직임을 반영한 축구나 권투 등의 움직임기반 XR콘텐츠를 개발 구현 할 때 카메라 앞에서 전·후·좌·우 스텝, 방향 회전시, 달리기 활동에 적용하기가 용이하다.
또한, 본 발명은 앞으로 투스텝을 밟을 때는 FF로 음성입력부에 말하면, 상기 음성인식부가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.
또한, 본 발명은 유사어를 검색하여 음성명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행을 할 수 있어 보다 정밀하게 음성을 파악하여 실제상황과 동일하게 구현할 수 있다.
또한, 본 발명은 연관된 복수의 유사어를 함께 검색하여 명령어를 결정함으로써 사용자가 명령어를 기억할 필요가 없도록하여 편리함을 극대화하였다.
또한, 본 발명은 사용자의 특정 음성 및/또는 음향에 따른 음성 인식기반 단축키를 사용자의 특정 동작에 맞게 정의하여 학습시켜 등록할 수 있어 보다 정밀하게 음성 및/또는 음향을 파악하여 실제상황과 동일하게 구현하고 편리함을 극대화하였다.
도 1은 본 발명의 일실시예에 따른 전체적인 구성을 보여주는 도면이다.
도 2는 본 발명의 일실시예에 따른 카메라가 추가된 구성을 보여주는 도면이다.
도 3은 본 발명의 일실시예에 따른 음성 데이터베이스의 내부 구조를 보여주는 도면이다.
도 4는 본 발명의 다른 실시예에 따른 음성 데이터베이스 내의 음성을 조합하는 구조를 보여주는 도면이다.
도 5는 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 조합하는 구조를 보여주는 도면이다.
도 6은 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 일정 시간 전에 조합하는 구조를 보여주는 도면이다.
도 7은 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 일정 시간 후에 조합하는 구조를 보여주는 도면이다.
도 8은 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 조합하는 구조를 보여주는 도면이다.
도 9는 본 발명의 또 다른 실시예에 따른 음성인식기반 단축키 XR인터렉티브 연동시스템을 이용한 연동 방법을 보여주는 도면이다.
본 발명을 충분히 이해하기 위해서 본 발명의 바람직한 실시예를 첨부 도면을 참조하여 설명한다. 본 발명의 실시예는 여러 가지 형태로 변형될 수 있으며, 본 발명의 범위가 아래에서 상세히 설명하는 실시예로 한정되는 것으로 해석되어서는 안 된다. 본 실시예는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 따라서 도면에서의 요소의 형상 등은 보다 명확한 설명을 강조하기 위해서 과장되어 표현될 수 있다. 각 도면에서 동일한 부재는 동일한 참조부호로 도시한 경우가 있음을 유의하여야 한다. 또한, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 공지 기능 및 구성에 대한 상세한 기술은 생략된다.
도 1에 도시된 바와 같이 본 발명은 사용자로부터 음성신호를 수신하는 음성입력부(110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 인식하는 음성인식부(120); 상기 음성인식부(120)로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 생성하는 XR콘텐츠 모듈(130); 음성 데이터베이스(140); 등을 포함한다.
여기에서 XR콘텐츠 모듈(130)이 생성하는 XR콘텐츠에서 확장현실(eXtended Reality)이란 XR이라고 하며, 증강현실(AR, Augmented Reality), 가상현실(VR, Virtual Reality), 혼합현실(MR, Mixed Reality) 기술을 모두 아우르는 콘텐츠를 말한다.
또한 음성입력부(110)는 휴대용 마이크 또는 웨어러블 음성 입력 디바이스로 구현될 수 있으나, 이에 한정되는 것은 아니며, 사용자의 음성을 감지할 수 있는 다양한 장치로 구현될 수 있다.
음성입력부(110)는 음성인식부(120)와 무선 통신 네트워크로 연결되는 것이 바람직하고, 무선 통신 네트워크는 근거리 통신 기술 및 장거리 통신 기술 중 적어도 하나를 이용하여 구현 가능하다.
근거리 통신 기술로는, 예를 들어, 캔(CAN) 통신, 와이 파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), 블루투스(Bluetooth), 지그비(zigbee), 저전력 블루 투스(Bluetooth Low Energy) 또는 엔에프씨(NFC, Near Field Communication) 등이 채용될 수 있다.
또한, 장거리 통신 기술로는, 3GPP, 3GPP2 또는 와이맥스 계열 등의 이동 통신 표준을 기반으로 하는 통신 기술이 채용될 수 있다.
상기 음성입력부(110)는 사용자의 음성을 수신하고 수신한 음성을 전기적 신호로 변환하여 음성 데이터를 획득할 수 있다.
상기 음성 데이터는, 무선 통신 네트워크를 통하여 음성인식부로 전달된다.
일 실시예에 의하면, 음성입력부는, 미리 정의된 설정에 따라서 연속적으로 또는 주기적으로 음성을 수신하여 음성 데이터베이스(140)로 전달하여, 음성 데이터를 연속적으로 저장하도록 할 수 있다.
도 2에 도시된 바와 같이 본 발명은 좌우로 회전하는 동작을 카메라(160)로 잡기가 어려움이 있어 이를 보완하기 위해 음성 단축키를 연동시킬 수도 있다.
상기 활동공간이 넓은 움직임의 일부를 음성 인식기반 음성단축키는 사용자로부터 입력받는 문자열 데이터인 음성 문자열로 이루어져 있으며, 예를 들어 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알” 음성으로 나누고 음성단축키로 정의하여 음성 데이터베이스(140)에 저장한다.
상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 음성입력부(110)의 음성 중에서 전진(F), 후진(B), 좌(L), 우(R) 중 하나 이상의 음성단축키를 개별적으로 인식한다.
예를 들어 전진(F)의 경우 전진하기 위해 필요한 “에프” 발음으로 이루어진 동작 음성에 기반한 단축키를 정의한다.
상기 음성인식부(120)는 음성단축키를 전진(F), 후진(B), 좌(L), 우(R)로 정하고 음성 데이터베이스(140)에 저장하여, 좌로 회전시 L, 우로 회전시 R, 앞으로 투스텝을 밟을 때는 FF로 음성입력부(110)에 말하면, 상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.
만일 사용자가 자신의 음성을 음성입력부(110)에 입력하여 동작 제어를 원할 경우, 상기 음성인식부(120)가 음성단축키를 저장하는 음성 데이터베이스(140)로 보내 검색하고, XR콘텐츠 모듈(130)가 해당 움직임(전진, 후진, 좌, 우 방향 이동)을 XR콘텐츠로 변환하여 디스플레이 장치(150)에 표시하게 된다.
따라서 본 발명에 따른 음성인식기반 단축키 XR인터렉티브 연동시스템는 사용자의 음성을 기반으로 사용자의 움직이고자 하는 의도를 인식하여, 실행 중인 XR콘텐츠의 기능을 자동으로 실행함으로써, 사용자의 의도에 알맞은 다양한 활동 정보를 사용자에게 제공할 수 있다.
추가되는 디스플레이 장치(150)는 상술한 XR콘텐츠를 화면 또는 홀로그램 등 다양한 디스플레이 방법으로 디스플레이하는 장치이다.
도 3에 도시된 바와 같이 본 발명은 상기 음성입력부(110)를 통해 입력되는 전진(F), 후진(B), 좌(L), 우(R)로 이루어진 음성단축키를 음성 파형 또는 텍스트로 저장하는 음성 데이터베이스(140);를 포함한다.
또는 음성 데이터베이스(140)에는 유사어로서 좌측에서 우측으로 회전시 (LR), 우측에서 좌측으로 회전 시 (RL) 등도 음성 파형 또는 텍스트로 저장한다.
일실시예에 따라 상기 음성인식부를 통해 음성을 입력 받고, 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.
예를 들어 음성 데이터베이스(140) 안에 음성의 크기, 음성의 정확도, 음성의 속도에 관한 음성 파형 또는 텍스트를 미리 저장하여 음성인식부(120)가 인식할 수 있도록 한다.
일실시예에 따라 도 4에 도시된 바와 같이 상기 음성 데이터베이스(140) 안에 단어 목록 묶음을 설정하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.
상기 단어 목록 묶음은 음성 파형 또는 텍스트의 묶음으로서, 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 좌측(LL), 빠르게 우측(RR) 등의 묶음을 음성 데이터베이스(140)에 저장하고, 음성입력부(110)를 통해 입력받은 음성 파형을 음성인식부(120)로 특정 음성 파형 또는 텍스트로 나눈 후 XR콘텐츠와 연동되어 실제상황과 동일하게 구현할 수 있다.
일실시예에 따라 도 5와 도 6에 도시된 바와 같이 상기 음성입력부를 통해 수신된 메시지 데이터에 따라 관련된 움직임 실행 또는 상태 변화)을 실행하는데, 예를 들어 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 우좌측(RL), 빠르게 좌우측(LR), 빠르게 좌측전진(FF), 빠르게 좌후진(BB), 빠르게 좌측전진(LL), 빠르게 우측전진(RR) 등으로 나누어 실행할 수 있어, 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.
일실시예에 따라 상기 음성입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 음성 데이터베이스(140) 안에 있는 음성 파형 또는 텍스트에 연관된 음성신호와 매칭되는 문자열이 있으면 해당 문자 신호에 해당 되는 문자열을 XR콘텐츠 모듈(130)이 XR콘텐츠와 연동시켜 실제상황과 동일하게 구현한다.
일실시예에 따라 본 발명은 사용자 정의에 의해 음성 또는/및 음향으로 동작을 정의할 수 있다.
사용자마다 다르게 표현할 수 있는 발성(예 : 사투리, 특정 소리, 음성의 주파수 등)을 포괄적으로 아우르는 음향에 따른 음성 인식기반 단축키를 제공하기 위해, 음향을 학습한 내용을 XR콘텐츠 모듈(130)에 제공하여 사용자의 음성 뿐만아니라 다양한 음향에 의해서도 동작을 정의할 수 있다.
따라서 보다 정밀하게 음성 및/또는 음향을 파악하여 실제상황과 동일하게 구현하고 편리함을 극대화할수 있다.
일실시예에 따라 도 7에 도시된 바와 같이 상기 음성입력부를 통한 음성명령을 기준으로 하여 전후 사용자 입력간 시간을 계산하여 시간차가 작은 사용자 입력과 음성명령을 조합하여 XR콘텐츠 모듈(130)이 XR콘텐츠와 연동시켜 실제상황과 동일하게 제어를 실행할 수 있다.
XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위해 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 좌측(LL), 빠르게 우측(RR)의 경우 같은 단어를 중복하여 발음하는 데, 음성인식부(120)가 일정 시간(t) 이전에 발음되는 경우 상기 빠른 행동을 XR콘텐츠 모듈(130)에 실행 시킬 수 있지만 일정 시간(t) 이후에 발음되는 경우 단일 행동을 중복 수행하여 빠른 행동이 안될 수 있어, 상기 일정 시간(t)을 적절하게 조절하는 것이 필요하다.
또는 단어를 중복하여 신속하게 발음하는 음성 파형을 미리 음성 데이터베이스(140)에 저장하여 패턴의 일치로 음성인식부(120)가 이를 판단할 수도 있다.
일실시예에 따라 도 8에 도시된 바와 같이 상기 음성입력부(110)를 통해 음성명령이 실행되는 경우에, 각 명령이 발생한 후 최소시간(t1)이 경과하는지를 판단하여, 경과하면 해당 각 명령이 실행된다.
만일 최소시간(t1)을 너무 적게 설정하는 경우 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 좌측(LL), 빠르게 우측(RR)의 경우 같은 중복 단어를 적절하게 음성인식부(120)가 인식할 수 없고, 너무 크게 설정하는 경우 XR콘텐츠와 연동시켜 실제상황과 동일하게 재생할 수 없어 실제감이 떨어지는 문제가 있으므로 적절한 설정이 필요하다.
일실시예에 따라 상기 카메라에 특정 제스처가 입력된 후, 음성명령이 입력되면, 음성명령에 대응하는 음성 데이터베이스(140)로부터 유사어를 검색하여 음성명령어를 결정하고, 사용자 입력에 대응하여 음성명령어를 실행한다.
상기 유사어로서는 전진(F), 후진(B), 좌(L), 우(R)를 사용자가 발음하기 편리한 다른 음성으로 대체 가능하다.
일실시예에 따라 상기 음성입력부를 통한 직관적인 음성 명령어에 대응하는 유사어 그룹을 추출하여 해당 음성 명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행이 이루어지는 명령어 실행부;를 포함할 수 있다.
예를 들어 유사어 그룹을 추출하기 위해서는 음성 명령어 각각의 자카드 유사도, 코사인 유사도, 유클라디안 유사도 등을 사용할 수 있다.
본 발명은 상기 음성입력부를 통해 입력된 음성에 대한 유사어를 음성 데이터베이스로부터 검색하여 원하는 입력에 대한 명령어와 연관된 직관적인 다수의 유사어를 함께 검색하여 명령어를 결정함으로써 명령어를 기억할 필요가 없도록 하는 명령어 결정부;를 더 포함할 수도 있다.
일실시예에 따라 상기 음성입력부(110)에는 하나의 주 마이크와 하나 이상의 보조 마이크가 포함되고, 상기 음성인식부(120)는 상기 하나 이상의 보조 마이크가 수집한 음성 정보를 서로 비교하여 상기 음성 정보의 노이즈를 필터링하여 실제 발음된 음성 정보를 최대한 근접하게 인식할 수도 있다.
이하 본 발명의 실시를 위한 음성인식기반 단축키 XR인터렉티브 연동시스템을 이용한 연동 방법에 대하여 도 9를 참고하여 자세히 설명한다.
먼저 사용자로부터 음성신호를 음성입력부(110)를 통해 수신받는 단계(S110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 음성인식부(120)를 통해 인식하는 단계(S120); 상기 음성인식부(120)로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 XR콘텐츠 모듈(130)을 통해 생성하는 단계(S130);로 이루어진다.
마지막으로 XR콘텐츠 모듈(130)가 해당 움직임(전진, 후진, 좌, 우 방향 이동)을 XR콘텐츠로 변환하여 디스플레이 장치(150)에 표시하는 단계(S140);로 이루어진다.
일실시예로서 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 정의하는 단계; 사람마다 다르게 표현할 수 있는 음향을 학습하는 단계; 상기 음성 인식기반 단축키에 따라 XR콘텐츠 모듈(130)이 다양한 음향에 의한 동작을 디스플레이 장치(150)에 표시하는 단계;로 이루어진다.
실시예(권투)
권투 XR콘텐츠 개발할 때 권투 특성상 실제적 권투와 유사한 실감을 구현하려면 스텝(좌우전후 등)적용이 필요한데 전후좌우 등 필요한 음성단축키를 정의하고 실제적인 권투 동작과 결합하여 콘텐츠를 구현할 수 있다.
상기 음성인식부(120)는 음성단축키를 전진(F), 후진(B), 좌(L), 우(R)로 정하고 음성 데이터베이스(140)에 저장하여, 좌로 회전시 L, 우로 회전시 R, 앞으로 투스텝을 밟을 때는 FF로 음성입력부(110)에 말하면, 상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.
만일 사용자가 자신의 음성을 음성입력부(110)에 스텝(좌우전후 등)을 입력하여 동작 제어를 원할 경우, 상기 음성인식부(120)가 음성단축키를 저장하는 음성 데이터베이스(140)로 보내 검색하고, XR콘텐츠 모듈(130)가 해당 움직임(전진, 후진, 좌, 우 방향 이동 등)을 XR콘텐츠로 변환하여 디스플레이 장치(150)에 표시하게 된다.
실시예(축구)
축구 XR콘텐츠 개발할 때 축구 특성상 실제적 축구와 유사한 실감을 구현하려면 드리블과 스텝(좌우전후 등)적용이 필요한데 턴 전후좌우 스텝에 필요한 음성 단축키를 정의하고 실제적인 축구 동작과 결합하여 콘텐츠를 구현한다.
상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제적인 축구동작과 동일하게 구현하기 위한 음성입력부(110)의 음성 중에서 전진(F), 후진(B), 좌(L), 우(R) 중 하나 이상의 음성단축키를 개별적으로 인식한다.
실시예(야구)
XR콘텐츠 개발할 때 특성상 실제적 야구와 유사한 실감을 구현하려면 달리기 등의 적용이 필요한데 전/후/좌/우/달리기 등 필요한 음성단축키를 정의하고 실제적인 야구 동작과 결합하여 콘텐츠를 구현한다.
추가적으로 좌우로 회전하는 동작을 카메라(160)로 잡기가 어려움이 있어 이를 보완하기 위해 음성 단축키를 연동시킬 수도 있다.
예를들면, 음성단축기를 실제적 야구와 유사한 달리기를 XR콘텐츠 모듈(130)에 인식시키기 위해서는 FF로 말하면, XR콘텐츠와 연동되어 실제 야구의 달리기 상황과 동일하게 구현할 수 있다.
본 발명은 음성인식기반 단축키 XR인터렉티브 연동시스템 및 이를 이용한 연동 방법에 관한 것으로서, 카메라를 이용한 비젼방식으로 이용자의 움직임을 반영한 축구나 권투 등의 움직임기반 XR콘텐츠를 개발하여 구현할 때 카메라 앞에서 전·후·좌·우 스텝, 좌·우 방향 회전시, 달리기 활동 등 적용이 어려운데 이를 해결하기 위한 방안으로 활동공간이 넓은 움직임의 일부를 음성 인식기반 음성단축키를 활용하여 콘텐츠의 실감 체험도를 증강시키는 기술을 제공한다.

Claims (8)

  1. 활동공간이 넓은 움직임의 일부를 음성 인식기반 단축키를 활용하여 콘텐츠의 실감체험도를 위한 음성 인식기반 단축키;
    음성입력부로부터 입력된 음성에서 활동공.간이 넓은 움직임의 일부를 정의한 음성 인식기반 단축키를 인식하는 음성인식부;
    상기 움직임기반 정보 및 음성 인식기반 단축키를 통해 XR콘텐츠를 생성하는 XR콘텐츠 모듈;을 포함하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
  2. 청구항 1에 있어서,
    상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알” 음성으로 나누어 음성단축키로 정의하고 음성 데이터베이스(140)에 저장한 후, 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL)에 필요한 발음으로 이루어진 동작 음성에 기반한 단축키를 정의하여 데이터베이스에 저장하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
  3. 청구항 1에 있어서,
    상기 음성인식부는 앞으로 빠르게 움직임을 FF 발음으로 인식하여, 앞으로 투스텝을 밟는 것과 같이 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시키며,
    상기 음성인식부를 통해 음성을 입력 받고, 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
  4. 청구항 1에 있어서,
    상기 음성 데이터베이스 안에 음성 파형 또는 텍스트의 묶음을 설정하여 음성 데이터베이스에 저장하고, 음성입력부를 통해 입력받은 음성 파형을 음성인식부로 특정 음성 파형 또는 텍스트로 나눈 후 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하며,
    상기 음성입력부를 통해 수신된 메시지 데이터에 따라 관련된 움직임 실행 또는 상태 변화)을 실행하는데, 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 우좌측(RL), 빠르게 좌우측(LR), 빠르게 좌측전진(FF), 빠르게 좌후진(BB), 빠르게 좌측전진(LL), 빠르게 우측전진(RR)으로 나누어 실행할 수 있어, 실제상황과 동일하게 구현하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
  5. 청구항 1에 있어서,
    상기 음성입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 음성 데이터베이스 안에 있는 음성 파형 또는 텍스트에 연관된 음성신호와 매칭되는 문자열이 있으면 해당 문자 신호에 해당되는 문자열을 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 구현하며,
    상기 음성입력부를 통한 음성명령을 기준으로 하여 전후 사용자 입력간 시간을 계산하여 시간차가 작은 사용자 입력과 음성명령을 조합하여 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 제어를 실행하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
  6. 청구항 1에 있어서,
    상기 음성입력부를 통해 음성명령이 실행되는 경우에, 각 명령이 발생한 후 최소시간(t1)이 경과하는지를 판단하여, 경과하면 해당 각 명령이 실행되며,
    상기 XR콘텐츠 모듈은 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 학습하여 상기 음성 인식기반 단축키에 따른 동작을 디스플레이 장치에 표시하도록 제어하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
  7. 청구항 1에 있어서,
    상기 카메라에 특정 제스처가 입력된 후, 음성명령이 입력되면, 음성명령에 대응하는 음성 데이터베이스로부터 유사어를 검색하여 음성명령어를 결정하고, 사용자 입력에 대응하여 음성명령어를 실행하며,
    상기 음성입력부를 통한 직관적인 음성 명령어에 대응하는 유사어 그룹을 추출하여 해당 음성 명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행이 이루어지는 명령어 실행부;를 포함하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
  8. 사용자로부터 음성신호를 음성입력부를 통해 수신받는 단계(S110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 음성인식부를 통해 인식하는 단계(S120); 상기 음성인식부로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 XR콘텐츠 모듈을 통해 생성하는 단계(S130);를 포함하여,
    상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알”로 나누어 음성단축키로 정의하여 데이터베이스에 저장하는 단계;
    상기 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL), 빠르게 이동(FF)에 필요한 동작 음성 인식기반 단축키를 정의하여 데이터베이스에 저장하는 단계;
    사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 정의하는 단계; 사람마다 다르게 표현할 수 있는 음향을 학습하는 단계; 상기 음성 인식기반 단축키에 따라 XR콘텐츠 모듈이 다양한 음향에 의한 동작을 디스플레이 장치에 표시하는 단계;를 포함하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템을 이용한 연동 방법
PCT/KR2021/019398 2021-12-20 2021-12-20 음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법 WO2023120747A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/019398 WO2023120747A1 (ko) 2021-12-20 2021-12-20 음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/019398 WO2023120747A1 (ko) 2021-12-20 2021-12-20 음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법

Publications (1)

Publication Number Publication Date
WO2023120747A1 true WO2023120747A1 (ko) 2023-06-29

Family

ID=86902971

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/019398 WO2023120747A1 (ko) 2021-12-20 2021-12-20 음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법

Country Status (1)

Country Link
WO (1) WO2023120747A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110084748A (ko) * 2010-01-18 2011-07-26 (주)엔시드코프 인터렉티브 모드를 지원하는 증강현실 구현 장치 및 방법
KR20190099380A (ko) * 2019-08-07 2019-08-27 엘지전자 주식회사 사용자의 행동 패턴에 기반한 AI(Artificial Intelligence) 장치와 디바이스를 연계하는 방법 및 이를 위한 장치
KR102027565B1 (ko) * 2018-08-16 2019-11-04 주식회사 인터포 3차원 캐릭터를 이용한 증강현실 도보 길안내 서비스 제공 방법
KR102170978B1 (ko) * 2020-02-26 2020-10-28 류경희 음성 명령 및 증강 현실을 이용한 코딩 교육 장치
JP2020182500A (ja) * 2019-04-26 2020-11-12 株式会社コロプラ プログラム、方法、および情報端末装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110084748A (ko) * 2010-01-18 2011-07-26 (주)엔시드코프 인터렉티브 모드를 지원하는 증강현실 구현 장치 및 방법
KR102027565B1 (ko) * 2018-08-16 2019-11-04 주식회사 인터포 3차원 캐릭터를 이용한 증강현실 도보 길안내 서비스 제공 방법
JP2020182500A (ja) * 2019-04-26 2020-11-12 株式会社コロプラ プログラム、方法、および情報端末装置
KR20190099380A (ko) * 2019-08-07 2019-08-27 엘지전자 주식회사 사용자의 행동 패턴에 기반한 AI(Artificial Intelligence) 장치와 디바이스를 연계하는 방법 및 이를 위한 장치
KR102170978B1 (ko) * 2020-02-26 2020-10-28 류경희 음성 명령 및 증강 현실을 이용한 코딩 교육 장치

Similar Documents

Publication Publication Date Title
WO2014030902A1 (en) Input method and apparatus of portable device
WO2019156332A1 (ko) 증강현실용 인공지능 캐릭터의 제작 장치 및 이를 이용한 서비스 시스템
WO2020180013A1 (en) Apparatus for vision and language-assisted smartphone task automation and method thereof
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
WO2020139058A1 (en) Cross-device voiceprint recognition
WO2018128238A1 (ko) 디스플레이 장치를 이용한 가상 상담 시스템 및 방법
WO2012148156A2 (en) Method for providing link list and display apparatus applying the same
WO2016080713A1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
WO2011142532A2 (ko) 지능형 로봇의 서비스 시나리오 편집기, 그 방법, 지능형 로봇 장치 및 지능형 로봇의 서비스 방법
WO2018080228A1 (ko) 번역을 위한 서버 및 번역 방법
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
KR20210035784A (ko) 단어 슬롯을 인식하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
WO2018021651A1 (ko) 사용자의 감정 정보를 이용한 오프라인 캐릭터 인형 제어 장치 및 방법
CN108172221A (zh) 基于智能终端的操控飞行器的方法和装置
WO2023120747A1 (ko) 음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법
JP2001100878A (ja) マルチモーダル入出力装置
Punsara et al. IoT Based Sign Language Recognition System
WO2015037871A1 (ko) 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
WO2017065324A1 (ko) 수화교육 시스템, 방법 및 프로그램
KR102368929B1 (ko) 음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법
CN109272983A (zh) 用于亲子教育的双语切换装置
WO2020004717A1 (ko) 입력 어플리케이션을 이용한 번역 서비스 제공 방법 및 이를 이용하는 단말장치
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
WO2021251761A1 (ko) 아바타 로봇을 이용한 비대면 범용원격플랫폼 제공 시스템
WO2021085708A1 (ko) 3d 홀로그램 디스플레이 장치 기반의 양방향 커뮤니케이션 서비스 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969112

Country of ref document: EP

Kind code of ref document: A1