WO2023120747A1

WO2023120747A1 - 음성인식기반 단축키 xr인터렉티브 연동시스템 및 이를 이용한 연동 방법

Info

Publication number: WO2023120747A1
Application number: PCT/KR2021/019398
Authority: WO
Inventors: 임승찬; 차현준
Original assignee: (주)에어패스
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-06-29

Abstract

본 발명은 음성인식기반 단축키 XR인터렉티브 연동시스템에 관한 것으로서, 보다 상세하게는 동작 음성에 기반한 입력과 XR 콘텐츠 출력을 통해 실시간 음성 인식 인터렉티브(interactive) 체험을 제공하는 음성인식기반 단축키 XR인터렉티브 연동시스템에 관한 것으로서, 본 발명은 활동공간이 넓은 움직임의 일부를 음성 인식기반 단축키를 활용하여 콘텐츠의 실감체험도를 위한 음성 인식기반 단축키; 음성입력부로부터 입력된 음성에서 활동공.간이 넓은 움직임의 일부를 정의한 음성 인식기반 단축키를 인식하는 음성인식부; 상기 움직임기반 정보 및 음성 인식기반 단축키를 통해 XR콘텐츠를 생성하는 XR콘텐츠 모듈;을 포함한다.

Description

음성인식기반 단축키 XR인터렉티브 연동시스템 및 이를 이용한 연동 방법

본 발명은 음성인식기반 단축키 XR인터렉티브 연동시스템 및 이를 이용한 연동 방법에 관한 것으로서, 보다 상세하게는 동작 음성에 기반한 입력과 XR 콘텐츠 출력을 통해 실시간 음성 인식 인터렉티브(interactive) 체험을 제공하는 음성인식기반 단축키 XR인터렉티브 연동시스템에 관한 것이다.

한국공개특허 제2014-0061009호는 객체를 포함하는 영상을 획득하는 단계; 상기 획득된 영상에 포함된 적어도 하나 이상의 객체를 인식하는 단계; 상기 인식된 객체에 관련된 증강현실 정보를 검출하는 단계; 음성정보를 입력하여, 상기 증강현실 정보와 비교하는 단계; 및 상기 음성정보와 매치되는 증강현실을 분리하여 디스플레이하는 사용자 인터페이스를 생성하는 단계;를 포함한다.

종래의 증강현실 시스템은 객체 정보와 음성을 매치한 하이브리드 증강현실 시스템이며, 촬영된 마커 또는 음성을 인식하여 매칭된 3차원 콘텐츠가 디스플레이되고, 나레이션이 현실감을 느낄 수는 있다.

그러나 촬영된 마커 또는 음성에 따라 객체를 이동시키기에는 정교함이 많이 떨어지고, 특히 객체의 순간적 운동 방향이라던지 속도 등을 제어하기에는 부족한 점이 많았다.

또한 한국등록특허 제0432373호는 미들웨어 시스템에 연결된 음성입력장 치를 통하여 사용자로부터 음성신호를 수신하는 단계; 음성 데이터베이스에 접근하여 상기 수신된 음성 신호에 대응되는 문자열 데이터를 검색하여 저장하는 단계; 3D 데이터가 인식가능한 메시지 데이터를 저장하는 메시지 데이터베이스에서 상기 저장된 문자열 데이터에 대응하는 메시지 데이터를 검색하는 단계.S30); 상기 검색된 메시지 데이터에 따라 3D 오브젝트의 행동을 제어하는 단계; 및 상기 행동이 제어되는 3D 오브젝트의 행동을 실시간으로 업데이트하여 디스플레이하는 단계을 포함하여 이루어지며, 상기 메시지 데이터를 검색 하는 단계는, 문자열 데이터에 대응하는 메시지 데이터를 메시지 데이터베이스에서 검색하는 제1 단계; 및 문자열 데이터의 뒷글자 1자를 삭제한 후, 뒷글자 1자가 삭제된 문자열 데이터에 대응하는 메시지 데이터를 메시지 데이터베이스에서 검색하는 제2 단계;를 포함하여, 저장된 문자열 데이터에 대하여 제1 단계를 수행하여 대응하는 메시지 데이터가 검색되면 검색된 메시지 데이터를 리턴하고, 대응하는 메시지 데이터가 검색되지 않으면, 문자열 데이터에 1자가 남을 때까지 제2단계를 수행한다.

그러나 종래기술은 빠른 회전동작을 인식하지 못하거나 복잡한 문자열 데이터를 분석하는 시간이 많이 걸리고, 분석에 실패할 경우 추가적인 입력을 받아야만 하는 불편함이 있었다.

본 발명은 상기와 같은 문제점을 해결하기 위해 이루어진 것으로서, 본 발명은 카메라를 이용한 비젼방식으로 이용자의 움직임을 반영한 축구나 권투 등의 움직임기반 XR콘텐츠를 개발하여 구현할 때 카메라 앞에서 전·후·좌·우 스텝, 좌·우 방향 회전시, 달리기 활동 등 적용이 어려운데 이를 해결하기 위한 방안으로 활동공간이 넓은 움직임의 일부를 음성 인식기반 음성단축키를 활용하여 콘텐츠의 실감 체험도를 증강시키는 기술을 제공하는 데 목적이 있다.

또한, 본 발명은 사용자 정의에 의해 음성 및/또는 음향으로 동작을 정의할 수도 있어 음성 인식기반 단축키를 사용자의 특정 동작에 맞게 정의하여 학습시켜 등록할 수 있는 기술을 제공하는 데 목적이 있다.

상기 과제를 해결하기 위하여 본 발명은 활동공간이 넓은 움직임의 일부를 음성 인식기반 단축키를 활용하여 콘텐츠의 실감체험도를 위한 음성 인식기반 단축키; 음성입력부로 부터 입력된 음성에서 활동공.간이 넓은 움직임의 일부를 정의한 음성 인식기반 단축키를 인식하는 음성인식부; 상기 움직임기반 정보 및 음성 인식기반 단축키를 통해 XR콘텐츠를 생성하는 XR콘텐츠 모듈;을 포함한다.

상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알”로 나누어 음성단축키로 정의하여 음성 데이터베이스(140)에 저장한다.

상기 음성 데이터베이스에 저장한 후, 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL), 빠르게 이동(FF)에 필요한 동작 음성 인식기반 단축키를 정의하여 데이터베이스에 저장한다.

상기 음성인식부는 앞으로 빠르게 움직임을 FF로 인식하여, XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킨다.

상기 음성인식부를 통해 음성을 입력 받고, 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현한다.

상기 음성 데이터베이스 안에 음성 파형 또는 텍스트의 묶음을 설정하여 음성 데이터베이스에 저장하고, 음성입력부를 통해 입력받은 음성 파형을 음성인식부로 특정 음성 파형 또는 텍스트로 나눈 후 XR콘텐츠와 연동되어 실제상황과 동일하게 구현한다.

상기 음성입력부를 통해 수신된 메시지 데이터에 따라 관련된 움직임 실행 또는 상태 변화)을 실행하는 데, 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 우좌측(RL), 빠르게 좌우측(LR), 빠르게 좌측전진(FF), 빠르게 좌후진(BB), 빠르게 좌측전진(LL), 빠르게 우측전진(RR) 등으로 나누어 실행할 수 있어, 실제상황과 동일하게 구현한다.

상기 음성입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 음성 데이터베이스 안에 있는 음성 파형 또는 텍스트에 연관된 음성신호와 매칭되는 문자열이 있으면 해당 문자 신호에 해당 되는 문자열을 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 구현한다.

상기 음성입력부를 통한 음성명령을 기준으로 하여 전후 사용자 입력간 시간을 계산하여 시간차가 작은 사용자 입력과 음성명령을 조합하여 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 제어를 실행한다.

상기 음성입력부를 통해 음성명령이 실행되는 경우에, 각 명령이 발생한 후 최소시간(t1)이 경과하는지를 판단하여, 경과하면 해당 각 명령이 실행된다.

상기 카메라에 특정 제스처가 입력된 후, 음성명령이 입력되면, 음성명령에 대응하는 음성 데이터베이스로부터 유사어를 검색하여 음성명령어를 결정하고, 사용자 입력에 대응하여 음성명령어를 실행한다.

상기 음성입력부를 통한 직관적인 음성 명령어에 대응하는 유사어 그룹을 추출하여 해당 음성 명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행이 이루어지는 명령어 실행부;를 포함한다.

상기 음성입력부를 통해 입력된 음성에 대한 유사어를 음성 데이터베이스로부터 검색하여 원하는 입력에 대한 명령어와 연관된 직관적인 다수의 유사어를 함께 검색하여 명령어를 결정함으로써 명령어를 기억할 필요가 없도록 하는 명령어 결정부;를 더 포함한다.

상기 음성입력부에는 하나의 주 마이크와 하나 이상의 보조 마이크가 포함되고, 상기 음성인식부는 상기 하나 이상의 보조 마이크가 수집한 음성 정보를 서로 비교하여 상기 음성 정보의 노이즈를 필터링하여 실제 발음된 음성 정보를 인식한다.

상기 XR콘텐츠 모듈은 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 학습하여 상기음성 인식기반 단축키에 따른 동작을 디스플레이 장치에 표시하도록 제어한다.

본 발명은 사용자로부터 음성신호를 음성입력부를 통해 수신받는 단계(S110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 음성인식부를 통해 인식하는 단계(S120); 상기 음성인식부로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 XR콘텐츠 모듈을 통해 생성하는 단계(S130);를 포함한다.

상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알”로 나누어 음성단축키로 정의하여 음성 데이터베이스에 저장하는 단계; 상기 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL), 빠르게 이동(FF)에 필요한 동작 음성 인식기반 단축키를 정의하여 데이터베이스에 저장하는 단계;를 포함한다.

본 발명은 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 정의하는 단계; 사람마다 다르게 표현할 수 있는 음향을 학습하는 단계; 상기 음성 인식기반 단축키에 따라 XR콘텐츠 모듈이 다양한 음향에 의한 동작을 디스플레이 장치에 표시하는 단계;를 포함한다.

본 명세서에서 개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해 되어서는 아니 될 것이다.

상기와 같이 이루어지는 본 발명은 카메라를 이용한 비젼방식으로 이용자의 움직임을 반영한 축구나 권투 등의 움직임기반 XR콘텐츠를 개발 구현 할 때 카메라 앞에서 전·후·좌·우 스텝, 방향 회전시, 달리기 활동에 적용하기가 용이하다.

또한, 본 발명은 앞으로 투스텝을 밟을 때는 FF로 음성입력부에 말하면, 상기 음성인식부가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.

또한, 본 발명은 유사어를 검색하여 음성명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행을 할 수 있어 보다 정밀하게 음성을 파악하여 실제상황과 동일하게 구현할 수 있다.

또한, 본 발명은 연관된 복수의 유사어를 함께 검색하여 명령어를 결정함으로써 사용자가 명령어를 기억할 필요가 없도록하여 편리함을 극대화하였다.

또한, 본 발명은 사용자의 특정 음성 및/또는 음향에 따른 음성 인식기반 단축키를 사용자의 특정 동작에 맞게 정의하여 학습시켜 등록할 수 있어 보다 정밀하게 음성 및/또는 음향을 파악하여 실제상황과 동일하게 구현하고 편리함을 극대화하였다.

도 1은 본 발명의 일실시예에 따른 전체적인 구성을 보여주는 도면이다.

도 2는 본 발명의 일실시예에 따른 카메라가 추가된 구성을 보여주는 도면이다.

도 3은 본 발명의 일실시예에 따른 음성 데이터베이스의 내부 구조를 보여주는 도면이다.

도 4는 본 발명의 다른 실시예에 따른 음성 데이터베이스 내의 음성을 조합하는 구조를 보여주는 도면이다.

도 5는 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 조합하는 구조를 보여주는 도면이다.

도 6은 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 일정 시간 전에 조합하는 구조를 보여주는 도면이다.

도 7은 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 일정 시간 후에 조합하는 구조를 보여주는 도면이다.

도 8은 본 발명의 또 다른 실시예에 따른 음성 데이터베이스 내의 음성을 조합하는 구조를 보여주는 도면이다.

도 9는 본 발명의 또 다른 실시예에 따른 음성인식기반 단축키 XR인터렉티브 연동시스템을 이용한 연동 방법을 보여주는 도면이다.

본 발명을 충분히 이해하기 위해서 본 발명의 바람직한 실시예를 첨부 도면을 참조하여 설명한다. 본 발명의 실시예는 여러 가지 형태로 변형될 수 있으며, 본 발명의 범위가 아래에서 상세히 설명하는 실시예로 한정되는 것으로 해석되어서는 안 된다. 본 실시예는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 따라서 도면에서의 요소의 형상 등은 보다 명확한 설명을 강조하기 위해서 과장되어 표현될 수 있다. 각 도면에서 동일한 부재는 동일한 참조부호로 도시한 경우가 있음을 유의하여야 한다. 또한, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 공지 기능 및 구성에 대한 상세한 기술은 생략된다.

도 1에 도시된 바와 같이 본 발명은 사용자로부터 음성신호를 수신하는 음성입력부(110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 인식하는 음성인식부(120); 상기 음성인식부(120)로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 생성하는 XR콘텐츠 모듈(130); 음성 데이터베이스(140); 등을 포함한다.

여기에서 XR콘텐츠 모듈(130)이 생성하는 XR콘텐츠에서 확장현실(eXtended Reality)이란 XR이라고 하며, 증강현실(AR, Augmented Reality), 가상현실(VR, Virtual Reality), 혼합현실(MR, Mixed Reality) 기술을 모두 아우르는 콘텐츠를 말한다.

또한 음성입력부(110)는 휴대용 마이크 또는 웨어러블 음성 입력 디바이스로 구현될 수 있으나, 이에 한정되는 것은 아니며, 사용자의 음성을 감지할 수 있는 다양한 장치로 구현될 수 있다.

음성입력부(110)는 음성인식부(120)와 무선 통신 네트워크로 연결되는 것이 바람직하고, 무선 통신 네트워크는 근거리 통신 기술 및 장거리 통신 기술 중 적어도 하나를 이용하여 구현 가능하다.

근거리 통신 기술로는, 예를 들어, 캔(CAN) 통신, 와이 파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), 블루투스(Bluetooth), 지그비(zigbee), 저전력 블루 투스(Bluetooth Low Energy) 또는 엔에프씨(NFC, Near Field Communication) 등이 채용될 수 있다.

또한, 장거리 통신 기술로는, 3GPP, 3GPP2 또는 와이맥스 계열 등의 이동 통신 표준을 기반으로 하는 통신 기술이 채용될 수 있다.

상기 음성입력부(110)는 사용자의 음성을 수신하고 수신한 음성을 전기적 신호로 변환하여 음성 데이터를 획득할 수 있다.

상기 음성 데이터는, 무선 통신 네트워크를 통하여 음성인식부로 전달된다.

일 실시예에 의하면, 음성입력부는, 미리 정의된 설정에 따라서 연속적으로 또는 주기적으로 음성을 수신하여 음성 데이터베이스(140)로 전달하여, 음성 데이터를 연속적으로 저장하도록 할 수 있다.

도 2에 도시된 바와 같이 본 발명은 좌우로 회전하는 동작을 카메라(160)로 잡기가 어려움이 있어 이를 보완하기 위해 음성 단축키를 연동시킬 수도 있다.

상기 활동공간이 넓은 움직임의 일부를 음성 인식기반 음성단축키는 사용자로부터 입력받는 문자열 데이터인 음성 문자열로 이루어져 있으며, 예를 들어 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알” 음성으로 나누고 음성단축키로 정의하여 음성 데이터베이스(140)에 저장한다.

상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 음성입력부(110)의 음성 중에서 전진(F), 후진(B), 좌(L), 우(R) 중 하나 이상의 음성단축키를 개별적으로 인식한다.

예를 들어 전진(F)의 경우 전진하기 위해 필요한 “에프” 발음으로 이루어진 동작 음성에 기반한 단축키를 정의한다.

상기 음성인식부(120)는 음성단축키를 전진(F), 후진(B), 좌(L), 우(R)로 정하고 음성 데이터베이스(140)에 저장하여, 좌로 회전시 L, 우로 회전시 R, 앞으로 투스텝을 밟을 때는 FF로 음성입력부(110)에 말하면, 상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.

만일 사용자가 자신의 음성을 음성입력부(110)에 입력하여 동작 제어를 원할 경우, 상기 음성인식부(120)가 음성단축키를 저장하는 음성 데이터베이스(140)로 보내 검색하고, XR콘텐츠 모듈(130)가 해당 움직임(전진, 후진, 좌, 우 방향 이동)을 XR콘텐츠로 변환하여 디스플레이 장치(150)에 표시하게 된다.

따라서 본 발명에 따른 음성인식기반 단축키 XR인터렉티브 연동시스템는 사용자의 음성을 기반으로 사용자의 움직이고자 하는 의도를 인식하여, 실행 중인 XR콘텐츠의 기능을 자동으로 실행함으로써, 사용자의 의도에 알맞은 다양한 활동 정보를 사용자에게 제공할 수 있다.

추가되는 디스플레이 장치(150)는 상술한 XR콘텐츠를 화면 또는 홀로그램 등 다양한 디스플레이 방법으로 디스플레이하는 장치이다.

도 3에 도시된 바와 같이 본 발명은 상기 음성입력부(110)를 통해 입력되는 전진(F), 후진(B), 좌(L), 우(R)로 이루어진 음성단축키를 음성 파형 또는 텍스트로 저장하는 음성 데이터베이스(140);를 포함한다.

또는 음성 데이터베이스(140)에는 유사어로서 좌측에서 우측으로 회전시 (LR), 우측에서 좌측으로 회전 시 (RL) 등도 음성 파형 또는 텍스트로 저장한다.

일실시예에 따라 상기 음성인식부를 통해 음성을 입력 받고, 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.

예를 들어 음성 데이터베이스(140) 안에 음성의 크기, 음성의 정확도, 음성의 속도에 관한 음성 파형 또는 텍스트를 미리 저장하여 음성인식부(120)가 인식할 수 있도록 한다.

일실시예에 따라 도 4에 도시된 바와 같이 상기 음성 데이터베이스(140) 안에 단어 목록 묶음을 설정하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.

상기 단어 목록 묶음은 음성 파형 또는 텍스트의 묶음으로서, 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 좌측(LL), 빠르게 우측(RR) 등의 묶음을 음성 데이터베이스(140)에 저장하고, 음성입력부(110)를 통해 입력받은 음성 파형을 음성인식부(120)로 특정 음성 파형 또는 텍스트로 나눈 후 XR콘텐츠와 연동되어 실제상황과 동일하게 구현할 수 있다.

일실시예에 따라 도 5와 도 6에 도시된 바와 같이 상기 음성입력부를 통해 수신된 메시지 데이터에 따라 관련된 움직임 실행 또는 상태 변화)을 실행하는데, 예를 들어 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 우좌측(RL), 빠르게 좌우측(LR), 빠르게 좌측전진(FF), 빠르게 좌후진(BB), 빠르게 좌측전진(LL), 빠르게 우측전진(RR) 등으로 나누어 실행할 수 있어, 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시킬 수 있다.

일실시예에 따라 상기 음성입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 음성 데이터베이스(140) 안에 있는 음성 파형 또는 텍스트에 연관된 음성신호와 매칭되는 문자열이 있으면 해당 문자 신호에 해당 되는 문자열을 XR콘텐츠 모듈(130)이 XR콘텐츠와 연동시켜 실제상황과 동일하게 구현한다.

일실시예에 따라 본 발명은 사용자 정의에 의해 음성 또는/및 음향으로 동작을 정의할 수 있다.

사용자마다 다르게 표현할 수 있는 발성(예 : 사투리, 특정 소리, 음성의 주파수 등)을 포괄적으로 아우르는 음향에 따른 음성 인식기반 단축키를 제공하기 위해, 음향을 학습한 내용을 XR콘텐츠 모듈(130)에 제공하여 사용자의 음성 뿐만아니라 다양한 음향에 의해서도 동작을 정의할 수 있다.

따라서 보다 정밀하게 음성 및/또는 음향을 파악하여 실제상황과 동일하게 구현하고 편리함을 극대화할수 있다.

일실시예에 따라 도 7에 도시된 바와 같이 상기 음성입력부를 통한 음성명령을 기준으로 하여 전후 사용자 입력간 시간을 계산하여 시간차가 작은 사용자 입력과 음성명령을 조합하여 XR콘텐츠 모듈(130)이 XR콘텐츠와 연동시켜 실제상황과 동일하게 제어를 실행할 수 있다.

XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위해 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 좌측(LL), 빠르게 우측(RR)의 경우 같은 단어를 중복하여 발음하는 데, 음성인식부(120)가 일정 시간(t) 이전에 발음되는 경우 상기 빠른 행동을 XR콘텐츠 모듈(130)에 실행 시킬 수 있지만 일정 시간(t) 이후에 발음되는 경우 단일 행동을 중복 수행하여 빠른 행동이 안될 수 있어, 상기 일정 시간(t)을 적절하게 조절하는 것이 필요하다.

또는 단어를 중복하여 신속하게 발음하는 음성 파형을 미리 음성 데이터베이스(140)에 저장하여 패턴의 일치로 음성인식부(120)가 이를 판단할 수도 있다.

일실시예에 따라 도 8에 도시된 바와 같이 상기 음성입력부(110)를 통해 음성명령이 실행되는 경우에, 각 명령이 발생한 후 최소시간(t1)이 경과하는지를 판단하여, 경과하면 해당 각 명령이 실행된다.

만일 최소시간(t1)을 너무 적게 설정하는 경우 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 좌측(LL), 빠르게 우측(RR)의 경우 같은 중복 단어를 적절하게 음성인식부(120)가 인식할 수 없고, 너무 크게 설정하는 경우 XR콘텐츠와 연동시켜 실제상황과 동일하게 재생할 수 없어 실제감이 떨어지는 문제가 있으므로 적절한 설정이 필요하다.

일실시예에 따라 상기 카메라에 특정 제스처가 입력된 후, 음성명령이 입력되면, 음성명령에 대응하는 음성 데이터베이스(140)로부터 유사어를 검색하여 음성명령어를 결정하고, 사용자 입력에 대응하여 음성명령어를 실행한다.

상기 유사어로서는 전진(F), 후진(B), 좌(L), 우(R)를 사용자가 발음하기 편리한 다른 음성으로 대체 가능하다.

일실시예에 따라 상기 음성입력부를 통한 직관적인 음성 명령어에 대응하는 유사어 그룹을 추출하여 해당 음성 명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행이 이루어지는 명령어 실행부;를 포함할 수 있다.

예를 들어 유사어 그룹을 추출하기 위해서는 음성 명령어 각각의 자카드 유사도, 코사인 유사도, 유클라디안 유사도 등을 사용할 수 있다.

본 발명은 상기 음성입력부를 통해 입력된 음성에 대한 유사어를 음성 데이터베이스로부터 검색하여 원하는 입력에 대한 명령어와 연관된 직관적인 다수의 유사어를 함께 검색하여 명령어를 결정함으로써 명령어를 기억할 필요가 없도록 하는 명령어 결정부;를 더 포함할 수도 있다.

일실시예에 따라 상기 음성입력부(110)에는 하나의 주 마이크와 하나 이상의 보조 마이크가 포함되고, 상기 음성인식부(120)는 상기 하나 이상의 보조 마이크가 수집한 음성 정보를 서로 비교하여 상기 음성 정보의 노이즈를 필터링하여 실제 발음된 음성 정보를 최대한 근접하게 인식할 수도 있다.

이하 본 발명의 실시를 위한 음성인식기반 단축키 XR인터렉티브 연동시스템을 이용한 연동 방법에 대하여 도 9를 참고하여 자세히 설명한다.

먼저 사용자로부터 음성신호를 음성입력부(110)를 통해 수신받는 단계(S110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 음성인식부(120)를 통해 인식하는 단계(S120); 상기 음성인식부(120)로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 XR콘텐츠 모듈(130)을 통해 생성하는 단계(S130);로 이루어진다.

마지막으로 XR콘텐츠 모듈(130)가 해당 움직임(전진, 후진, 좌, 우 방향 이동)을 XR콘텐츠로 변환하여 디스플레이 장치(150)에 표시하는 단계(S140);로 이루어진다.

일실시예로서 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 정의하는 단계; 사람마다 다르게 표현할 수 있는 음향을 학습하는 단계; 상기 음성 인식기반 단축키에 따라 XR콘텐츠 모듈(130)이 다양한 음향에 의한 동작을 디스플레이 장치(150)에 표시하는 단계;로 이루어진다.

실시예(권투)

권투 XR콘텐츠 개발할 때 권투 특성상 실제적 권투와 유사한 실감을 구현하려면 스텝(좌우전후 등)적용이 필요한데 전후좌우 등 필요한 음성단축키를 정의하고 실제적인 권투 동작과 결합하여 콘텐츠를 구현할 수 있다.

만일 사용자가 자신의 음성을 음성입력부(110)에 스텝(좌우전후 등)을 입력하여 동작 제어를 원할 경우, 상기 음성인식부(120)가 음성단축키를 저장하는 음성 데이터베이스(140)로 보내 검색하고, XR콘텐츠 모듈(130)가 해당 움직임(전진, 후진, 좌, 우 방향 이동 등)을 XR콘텐츠로 변환하여 디스플레이 장치(150)에 표시하게 된다.

실시예(축구)

축구 XR콘텐츠 개발할 때 축구 특성상 실제적 축구와 유사한 실감을 구현하려면 드리블과 스텝(좌우전후 등)적용이 필요한데 턴 전후좌우 스텝에 필요한 음성 단축키를 정의하고 실제적인 축구 동작과 결합하여 콘텐츠를 구현한다.

상기 음성인식부(120)가 XR콘텐츠와 연동되어 실제적인 축구동작과 동일하게 구현하기 위한 음성입력부(110)의 음성 중에서 전진(F), 후진(B), 좌(L), 우(R) 중 하나 이상의 음성단축키를 개별적으로 인식한다.

실시예(야구)

XR콘텐츠 개발할 때 특성상 실제적 야구와 유사한 실감을 구현하려면 달리기 등의 적용이 필요한데 전/후/좌/우/달리기 등 필요한 음성단축키를 정의하고 실제적인 야구 동작과 결합하여 콘텐츠를 구현한다.

추가적으로 좌우로 회전하는 동작을 카메라(160)로 잡기가 어려움이 있어 이를 보완하기 위해 음성 단축키를 연동시킬 수도 있다.

예를들면, 음성단축기를 실제적 야구와 유사한 달리기를 XR콘텐츠 모듈(130)에 인식시키기 위해서는 FF로 말하면, XR콘텐츠와 연동되어 실제 야구의 달리기 상황과 동일하게 구현할 수 있다.

본 발명은 음성인식기반 단축키 XR인터렉티브 연동시스템 및 이를 이용한 연동 방법에 관한 것으로서, 카메라를 이용한 비젼방식으로 이용자의 움직임을 반영한 축구나 권투 등의 움직임기반 XR콘텐츠를 개발하여 구현할 때 카메라 앞에서 전·후·좌·우 스텝, 좌·우 방향 회전시, 달리기 활동 등 적용이 어려운데 이를 해결하기 위한 방안으로 활동공간이 넓은 움직임의 일부를 음성 인식기반 음성단축키를 활용하여 콘텐츠의 실감 체험도를 증강시키는 기술을 제공한다.

Claims

활동공간이 넓은 움직임의 일부를 음성 인식기반 단축키를 활용하여 콘텐츠의 실감체험도를 위한 음성 인식기반 단축키;

음성입력부로부터 입력된 음성에서 활동공.간이 넓은 움직임의 일부를 정의한 음성 인식기반 단축키를 인식하는 음성인식부;

상기 움직임기반 정보 및 음성 인식기반 단축키를 통해 XR콘텐츠를 생성하는 XR콘텐츠 모듈;을 포함하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
청구항 1에 있어서,

상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알” 음성으로 나누어 음성단축키로 정의하고 음성 데이터베이스(140)에 저장한 후, 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL)에 필요한 발음으로 이루어진 동작 음성에 기반한 단축키를 정의하여 데이터베이스에 저장하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
청구항 1에 있어서,

상기 음성인식부는 앞으로 빠르게 움직임을 FF 발음으로 인식하여, 앞으로 투스텝을 밟는 것과 같이 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하여 콘텐츠의 실감체험도를 증강시키며,

상기 음성인식부를 통해 음성을 입력 받고, 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
청구항 1에 있어서,

상기 음성 데이터베이스 안에 음성 파형 또는 텍스트의 묶음을 설정하여 음성 데이터베이스에 저장하고, 음성입력부를 통해 입력받은 음성 파형을 음성인식부로 특정 음성 파형 또는 텍스트로 나눈 후 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하며,

상기 음성입력부를 통해 수신된 메시지 데이터에 따라 관련된 움직임 실행 또는 상태 변화)을 실행하는데, 빠르게 전진(FF), 빠르게 후진(BB), 빠르게 우좌측(RL), 빠르게 좌우측(LR), 빠르게 좌측전진(FF), 빠르게 좌후진(BB), 빠르게 좌측전진(LL), 빠르게 우측전진(RR)으로 나누어 실행할 수 있어, 실제상황과 동일하게 구현하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
청구항 1에 있어서,

상기 음성입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 음성 데이터베이스 안에 있는 음성 파형 또는 텍스트에 연관된 음성신호와 매칭되는 문자열이 있으면 해당 문자 신호에 해당되는 문자열을 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 구현하며,

상기 음성입력부를 통한 음성명령을 기준으로 하여 전후 사용자 입력간 시간을 계산하여 시간차가 작은 사용자 입력과 음성명령을 조합하여 XR콘텐츠 모듈이 XR콘텐츠와 연동시켜 실제상황과 동일하게 제어를 실행하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
청구항 1에 있어서,

상기 음성입력부를 통해 음성명령이 실행되는 경우에, 각 명령이 발생한 후 최소시간(t1)이 경과하는지를 판단하여, 경과하면 해당 각 명령이 실행되며,

상기 XR콘텐츠 모듈은 사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 학습하여 상기 음성 인식기반 단축키에 따른 동작을 디스플레이 장치에 표시하도록 제어하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
청구항 1에 있어서,

상기 카메라에 특정 제스처가 입력된 후, 음성명령이 입력되면, 음성명령에 대응하는 음성 데이터베이스로부터 유사어를 검색하여 음성명령어를 결정하고, 사용자 입력에 대응하여 음성명령어를 실행하며,

상기 음성입력부를 통한 직관적인 음성 명령어에 대응하는 유사어 그룹을 추출하여 해당 음성 명령어를 결정하고, 결정된 음성 명령어를 조합시켜, 최종 명령어에 대응한 실행이 이루어지는 명령어 실행부;를 포함하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템.
사용자로부터 음성신호를 음성입력부를 통해 수신받는 단계(S110); 상기 음성입력부로 부터 입력된 음성에서 움직임의 일부를 정의한 음성 인식기반 음성단축키를 음성인식부를 통해 인식하는 단계(S120); 상기 음성인식부로 부터 음성 인식기반 음성단축키에 대응하는 XR콘텐츠를 XR콘텐츠 모듈을 통해 생성하는 단계(S130);를 포함하여,

상기 음성인식부는 XR콘텐츠와 연동되어 실제상황과 동일하게 구현하기 위한 행동 중에서 전진(F), 후진(B), 좌(L), 우(R) 방향 이동을 각각 “에프”, “비”, “엘”, “알”로 나누어 음성단축키로 정의하여 데이터베이스에 저장하는 단계;

상기 전진(F), 후진(B), 좌(L), 우(R) 방향 이동과 좌측에서 우측으로 회전시(LR), 우측에서 좌측으로 회전 시(RL), 빠르게 이동(FF)에 필요한 동작 음성 인식기반 단축키를 정의하여 데이터베이스에 저장하는 단계;

사용자 정의에 의해 음성 또는/및 음향으로 음성 인식기반 단축키를 정의하는 단계; 사람마다 다르게 표현할 수 있는 음향을 학습하는 단계; 상기 음성 인식기반 단축키에 따라 XR콘텐츠 모듈이 다양한 음향에 의한 동작을 디스플레이 장치에 표시하는 단계;를 포함하는 것을 특징으로 하는 음성인식기반 단축키 XR인터렉티브 연동시스템을 이용한 연동 방법