KR102458703B1

KR102458703B1 - 음성인식기반의 xr 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템

Info

Publication number: KR102458703B1
Application number: KR1020220057009A
Authority: KR
Inventors: 임승찬
Original assignee: (주)에어패스
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-10-25
Also published as: KR102458703B9

Abstract

본 발명은 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템에 관한 것으로, XR 콘텐츠 또는 메타버스 콘텐츠 서비스를 구현하는 콘텐츠 제공 모듈과, 상기 콘텐츠 서비스에 참여하는 적어도 2개 이상의 사용자 기기가 구성되는 XR 콘텐츠 또는 메타버스 콘텐츠 서비스를 제공하는 서비스 제공부;로 구성되고, 상기 사용자 기기에 구성되는 것으로, 사용자의 음성 정보를 입력받는 음성 입력부, 상기 서비스 제공부에 구성되는 것으로, 상기 음성 입력부로부터 사용자의 음성 정보를 음성 파형 또는 텍스트 데이터로 인식하기 위한 음성 인식부, 상기 음성 입력부로 입력된 사용자의 음성 정보를 상기 음성 인식부에서 인식하기 위한 음성 파형 또는 텍스트 데이터를 저장하고 있는 음성 데이터베이스, 상기 음성 인식부에서 인식된 사용자의 음성 정보에 해당되는 텍스트 데이터를 텍스트로 변환하기 위한 텍스트 변환부 및 상기 텍스트 변환부에서 변환된 텍스트를 상기 서비스 제공부가 제공하는 상기 XR 콘텐츠나 메타버스 콘텐츠가 출력되는 디스플레이 장치의 콘텐츠 화면으로 출력하기 위한 채팅 모듈;을 포함하여 구성된다.

Description

음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템{Communication system between users in voice recognition-based XR content or metaverse content service}

본 발명은 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템에 관한 것으로, 좀 더 상세하게는 직접적인 키입력(키보드 또는 마우스 등)이 불가능한 가상 콘텐츠 서비스 이용에서 음성인식기반으로 사용자간 소통을 구현하는 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템에 관한 것이다.

일반적으로 확장 현실 또는 실감경제(XR) eXtended Reality는 가상현실(VR), 증강현실(AR), 혼합현실(MR), 홀로그램(HR) 등 다양한 기술로 현실과 비슷한 가상공간에서 시공간 제약 없이 소통하고 생활할 수 있는 기반을 뜻하는 말로, 실감기술이라고도 한다.

가상현실은 겉보기에 실제적이거나 물리적인 방식으로 사용자가 상호작용할 수 있는 환경(예컨대, 3D 환경)의 컴퓨터 생성된 시뮬레이션이다. 단일 장치 또는 장치들의 그룹일 수 있는 가상현실 시스템은 예컨대, 가상현실 헤드셋 또는 일부 다른 디스플레이 장치 상에서 사용자에게 디스플레이하기 위해 이러한 시뮬레이션을 생성할 수 있다. 시뮬레이션은 실제 환경 또는 가상 환경을 모방하기 위해 이미지, 소리, 햅틱 피드백 및/또는 다른 감각을 포함할 수 있다. 가상현실이 점점 더 눈에 띄게 됨에 따라, 유용한 애플리케이션의 범위가 빠르게 확대되고 있다.

가상현실의 가장 보편적인 애플리케이션은 게임이나 다른 상호 작용성 컨텐츠를 수반하지만, 다른 애플리케이션 가령 엔터테인먼트나 트레이닝 목적을 위한 시각적 미디어 아이템(예컨대, 사진, 비디오)의 열람이 인접하게 뒤따른다. 가상현실을 사용하여 실생활의 대화 및 다른 사용자 상호작용을 시뮬레이션하는 가능성이 또한, 연구되고 있다.

또한, 증강현실은 추가된 컴퓨터 생성된 감각 입력(예컨대, 시각, 청각)으로 현실 또는 물리적인 세상의 뷰를 제공한다. 즉, 컴퓨터 생성된 가상 효과가 실제-세계의 뷰를 증강하거나 보완할 수 있다. 예컨대, 가상현실 헤드셋상의 카메라는 실제 세계의 장면을 (이미지 또는 비디오로) 캡처할 수 있고 컴퓨터 생성된 가상 객체로 캡처된 장면의 합성물을 디스플레이할 수 있다. 가상 객체는 예컨대, 2차원 및/또는 3차원 객체일 수 있고 정지되어 있거나 애니메이션화될 수 있다.

한편, VR (Virtual Reality) 기술은 현실 세계의 객체나 배경 등을 CG (Computer Graphic) 영상으로만 제공하고, AR(Augmented Reality) 기술은 실제 사물 영상 위에 가상으로 만들어진 CG 영상을 함께 제공하며, MR (Mixed) 기술은 현실 세계에 가상 객체들을 섞고 결합시켜서 제공하는 컴퓨터 그래픽 기술이다. 전술한 VR, AR, MR 등을 모두 간단히 XR (extended reality) 기술로 지칭하기도 한다.

XR 기술의 대표적인 활용 예로는 길 안내 기능이 있다. 예를 들어, XR 디바이스에서 길 안내 서비스를 요청하고 목적지를 입력하면 XR 디바이스의 화면에 디스플레이되는 현실 공간에 화살표와 같은 AR 기반의 가상 객체(object)가 중첩되어 디스플레이되면서 사용자에게 목적지까지 길을 안내한다.

뿐만 아니라, XR 기술을 적용한 다양한 콘텐츠가 개발되고 있으며, 다수의 사용자들간이 직접 디지털기기를 사용하여 상기 콘텐츠에 직접 참여하는 콘텐츠를 즐기고 있으며, 예를 들어 게임의 경우에서 다수의 사용자가 접속하여 실제 참여형 방식의 콘텐츠를 활용하고 있으나, XR 기술에 적용되는 콘텐츠별 디바이스를 사용하는 과정에서 명령어 입력이나 대화 입력에 제한적이고 이로 인하여 콘텐츠의 즐거움이나 활용성이 떨어지고 있다.

따라서, XR 기반의 다양한 콘텐츠 사용에서 위와 같은 플레이어간 소통의 어려움이 발생하기 때문에 이를 해소할 수 있는 기술이 시급히 요구되고 있는 실정이다.

KR 10-2293301호 KR 10-2021-0080936호 KR 10-2021-0086250호 KR 10-2359253호 KR 10-2368929호 KR 10-2021-0081939호

상기와 같은 문제점을 해결하기 위한 본 발명은, XR 기술을 적용한 다양한 콘텐츠에 참여하는 플레이어간에 원활한 소통 기능을 제공함으로써, 콘텐츠의 실감성과 만족성 그리고 사용자간의 신속한 채널 기능을 제공하여 만족도 높은 XR 콘텐츠나 메타버스콘텐츠를 활용할 수 있는 참여자간 소통시스템을 제공하고자 하는데 목적이 있다.

특히, 본 발명은 음식인식기반, 동작인식 기반을 통해 정화하고 신속한 대화 기능과 이를 기반으로 한 콘텐츠 상에 대화 기능을 적용함으로써 우수한 콘텐츠 서비스를 제공하고자 하는데 목적이 있다.

상기와 같은 목적을 달성하기 위한 본 발명은, XR 콘텐츠 또는 메타버스 콘텐츠 서비스를 구현하는 콘텐츠 제공 모듈과, 상기 콘텐츠 서비스에 참여하는 적어도 2개 이상의 사용자 기기가 구성되는 XR 콘텐츠 또는 메타버스 콘텐츠 서비스를 제공하는 서비스 제공부;로 구성되고, 상기 사용자 기기에 구성되는 것으로, 사용자의 음성 정보를 입력받는 음성 입력부, 상기 서비스 제공부에 구성되는 것으로, 상기 음성 입력부로부터 사용자의 음성 정보를 음성 파형 또는 텍스트 데이터로 인식하기 위한 음성 인식부, 상기 음성 입력부로 입력된 사용자의 음성 정보를 상기 음성 인식부에서 인식하기 위한 음성 파형 또는 텍스트 데이터를 저장하고 있는 음성 데이터베이스, 상기 음성 인식부에서 인식된 사용자의 음성 정보에 해당되는 텍스트 데이터를 텍스트로 변환하기 위한 텍스트 변환부 및 상기 텍스트 변환부에서 변환된 텍스트를 상기 서비스 제공부가 제공하는 상기 XR 콘텐츠나 메타버스 콘텐츠가 출력되는 디스플레이 장치의 콘텐츠 화면으로 출력하기 위한 채팅 모듈;을 포함하여 구성된다.

또한, 상기 서비스 제공부는, 상기 음성 입력부를 통해 사용자의 음성을 입력 받아 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 상기 음성 인식부에서 인식하고, 상기 음성 입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 상기 음성 데이터베이스에 저장된 음성 파형 또는 텍스트에 연관된 음성 신호와 매칭되는 문자열이 존재하면 해당 문자 신호에 해당되는 문자열을 상기 채팅 모듈로 제공하고, 이와 동시에 상기 사용자로부터 입력받은 음성의 크기와 정확도, 음성의 속도를 콘텐츠(XR, 메타버스)상에 함께 출력되도록 구성된다.

또한, 상기 서비스 제공부는, 사용자의 음성 신호를 입력받아 음성 신호로 출력하는 음성 인식부에서 임의의 음성 신호에 해당되는 음성값을 임의의 단축키로 지정하고, 해당 단축키의 출력 신호로 출력될 수 있도록 상기 단축키 지정을 결정하는 단축키 모듈을 더 포함하며, 상기 단축키는 방향, 움직임, 행동, 이모티콘에 해당되는 출력 신호로 지정되는 것을 특징으로 한다.

또한, 상기 서비스 제공부는, 사용자의 동작 정보를 촬영하는 카메라를 더 포함하고, 상기 카메라가 촬영한 사용자의 동작 정보에 해당되는 동작 신호와 상기 동작 신호에 따른 음성 신호에 해당되는 음성값을 저장하고 있는 동작 데이터베이스를 포함하며, 상기 사용자의 동작 정보를 상기 동작 데이터베이스에서 호출하여 해당 음성값을 출력하는 동작 인식부(250)를 더 포함하여 구성된다.

상기와 같이 구성되고 작용되는 본 발명은, XR 콘텐츠나 메타버스 서비스에서 참여자(플레이어)간에 대화(소통)를 음성인식기반의 채팅모듈 구현 또는 동작 기반의 대화 기능을 제공하기 때문에 실제 콘텐츠 참여 중 키보드나 마우스 등의 외부 입력 디바이스를 통해 입력에 제한이 따르는 스포츠 게임이나 활동성 콘텐츠 이용에서 음성 입력 기반으로 편리함을 제공하여 결과적으로 콘텐츠 이용의 만족도를 매우 크게 향상시킬 수 있는 장점이 있다.

또한, 본 발명에 따른 소통시스템은 음성인식기반과 더불어 동작 구현(디바이스 동작)을 통한 텍스트 생성을 제공함으로서, 한층 더 높은 콘텐츠 동작의 편의성과 만족성을 제공할 수 있는 효과가 있다.

도 1은 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템의 전체 구성도,
도 2는 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템의 세부 구성도,
도 3은 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템의 채팅 모듈의 일실시예를 나타낸 구성도,
도 4는 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템의 채팅 모듈의 다른 실시예를 나타낸 구성도,
도 5는 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템의 또 다른 실시예를 나타낸 구성도.

이하, 첨부된 도면을 참조하여 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템을 상세히 설명하면 다음과 같다.

본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템은, XR 콘텐츠 또는 메타버스 콘텐츠 서비스를 구현하는 콘텐츠 제공 모듈과, 상기 콘텐츠 서비스에 참여하는 적어도 2개 이상의 사용자 기기가 구성되는 XR 콘텐츠 또는 메타버스 콘텐츠 서비스를 제공하는 서비스 제공부;로 구성되고, 상기 사용자 기기에 구성되는 것으로, 사용자의 음성 정보를 입력받는 음성 입력부, 상기 서비스 제공부에 구성되는 것으로, 상기 음성 입력부로부터 사용자의 음성 정보를 음성 파형 또는 텍스트 데이터로 인식하기 위한 음성 인식부, 상기 음성 입력부로 입력된 사용자의 음성 정보를 상기 음성 인식부에서 인식하기 위한 음성 파형 또는 텍스트 데이터를 저장하고 있는 음성 데이터베이스, 상기 음성 인식부에서 인식된 사용자의 음성 정보에 해당되는 텍스트 데이터를 텍스트로 변환하기 위한 텍스트 변환부 및 상기 텍스트 변환부에서 변환된 텍스트를 상기 서비스 제공부가 제공하는 상기 XR 콘텐츠나 메타버스 콘텐츠가 출력되는 디스플레이 장치의 콘텐츠 화면으로 출력하기 위한 채팅 모듈;을 포함하여 구성된다.

본 발명에 따른 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템은, 가상의 공간 또는 복합 공간 제공 서비스에 해당하는 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 사용자(플레이어)간의 원활하고 편의성 높은 소통 서비스를 제공하기 위하여 음성인식기반의 소통 서비스를 통해 콘텐츠 참여의 만족도를 크게 개선시킬 수 있는 서비스 이용자간 소통시스템을 제공하고자 하는 것을 기술적 요지로 한다.

특히, 본 발명은 해당 서비스의 디스플레이를 통해 실시간 소통 기능 즉, 채팅 기능을 음성인식기반으로 구현하여 키보드나 마우스 등의 입력 디바이스 없이 또는 사용 없이 사용자의 음성이나 동작만으로 대화 기능을 수행할 수 있는 것을 기술적 특징으로 한다.

도 1은 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템의 전체 구성도이다.

본 발명에 따른 소통시스템은, XR 콘텐츠나 메타버스콘텐츠 서비스, VR, AR, MR 등과 같은 다양한 서비스에 모두 적용할 수 있는 것으로, 특정 콘텐츠 서비스에 한정하지 않음은 물론이다.

위와 같은 다양한 콘텐츠 서비스는 복수의 참여자가 해당 콘텐츠에 적합한 디바이스 즉, 사용자 기기(100, 200)를 통해 콘텐츠에 접속하여 사용되며, 콘텐츠를 제공하는 서비스 제공부(300)가 구성된다. 즉, 상기 서비스 제공부(300)에는 적어도 2개 또는 복수의 사용자 기기를 통해 접속하여 사용자(플레이어)간 콘텐츠를 이용할 수 있다. 이 콘텐츠는 게임이나 교육, 체험, 가상공간, 비즈니스, 여행, 운전 등 매우 다양한 콘텐츠 카테고리로 구현될 수 있으며, 복수의 사용자들은 이러한 콘텐츠 서비스를 통해 놀이나 교육, 체험을 수행할 수 있다. 이때, 하나의 콘텐츠를 생성 및 제공하기 위하여 콘텐츠를 생성하고 동작 구현하기 위하여 상기 서비스 제공부(300)는 콘텐츠 제공 모듈(301)을 포함한다.

상기 콘텐츠 제공 모듈(301)의 하나의 콘텐츠를 생성하고 동작시키기 위한 이미지 생성, 사운드 생성, 동작 구현 등의 소프트웨어적이나 알고리즘화된 메커니즘을 통해 임의의 콘텐츠를 실행시킨다.

여기서, 본 발명은 임의의 콘텐츠에 참여하는 복수의 사용자간 대화 기능을 음성인식기반으로 구현하기 위한 것으로써, 이를 위하여 상기 서비스 제공부(300)에는 하나의 음성 인식부(310)와 음성 데이터베이스(320)를 포함한다.

이때, 사용자의 음성 정보를 수집하기 위해 각각의 사용자 기기(100, 200)에는 사용자의 음성을 입력받는 음성 입력부(110, 210)를 구성하며, 상기 음성 입력부로 입력받은 음성 정보는 상기 서비스 제공부(300)의 음성 인식부(310)에 해당 음성을 인식한 후 콘텐츠상에 출력한다. 이것은 복수의 사용자가 콘텐츠에 참여했을 경우 콘텐츠 내에서 음성인식기반으로 채팅을 구현하도록 구성된 것이다.

상기 사용자 기기 내에 구성된 상기 음성 입력부를 통해 사용자가 말하는 음성이 입력되며, 상기 서비스 제공부에 구성된 음성 인식부(310)는 사용자의 음성 정보를 인식하여 텍스트화하고 이를 XR콘텐츠나 메타버스콘텐츠상에 출력시키게 된다.

상기 음성 인식부(310)는 사용자로부터 입력받은 음성 정보를 인식하여 정확한 음성 정보를 인식하기 위하여 상기 서비스 제공부(300)에는 음성 데이터베이스(330)가 구성되며, 상기 음성 데이터베이스(330)는 음성 파형 또는 텍스트에 연관된 음성 신호들을 저장하고 있으며, 사용자로부터 음성 정보가 입력되면 상기 음성 인식부(310)는 상기 음성 데이터베이스에서 해당 음성 정보를 조회한 후 매칭되는 음성 신호를 호출하여 최종 음성을 인식하게 된다.

따라서, 본 발명은 XR콘텐츠나 메타버스콘텐츠에서 사용자간 대화 기능을 음성인식기반으로 제공하기 위해 서비스 제공부로 사용자 기기의 음성 입력부를 통해 사용자의 음성 정보가 입력되면 음성 데이터베이스에서 음성 신호를 호출하며 상기 음성 인식부(310)에 최종적으로 해당 음성을 제공하는 것이다. 여기서 인식된 음성 정보는 콘텐츠 디스플레이상에 출력되며 이를 바탕으로 사용자간 콘텐츠상에서 소통할 수 있다.

도 2는 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템의 세부 구성도이다.

도시된 바와 같이 사용자 기기A(100)와 사용자 기기B(200)는 콘텐츠내에서 본 발명에 따른 소통 시스템의 참여자에게 해당되며 참여자는 3명 이상이 될 수 있다. 상기 사용자 기기에 구성된 음성 입력부는 사용자들이 말하는 음성 정보를 입력받고 서비스 제공부(300)에 수신된다.

앞서 언급된 바와 같이 상기 음성 인식부(310)는 수신된 음성 정보를 음성 데이터베이스(330)에서 조회하여 매칭되는 음성 파형이나 음성 신호를 찾아 음성 인식을 결정한 후 해당 음성을 텍스트로 변환하여 콘텐츠상에 제출력시키기 위한 텍스트 변환부(320)가 구성된다. 상기 텍스트 변환부(320)는 상기 음성 인식부(310)로부터 인식된 음성 정보를 텍스트로 변환시키고 이를 콘텐츠에 출력하게 되는데, 본 발명에서는 소통시스템 구현을 위한 가장 우선적인 방법으로 채팅 기능을 통해 구현된다.

사용자로부터 입력받은 음성 정보를 채팅 기능을 통해 콘텐츠상에서 즉각 입력시킬 수 있기 때문에 콘텐츠 이용중에 외부 입력 장치에 해당하는 키보드나 마우스 등을 적용하기 어려움 게임, 스포츠 형태의 카테고리 서비스에서 사용자는 자신의 음성만으로 타참여자와 소통할 수 있게 된다.

이에 따라 사용자로부터 생성되는 음성정보에 해당되는 텍스트는 채팅 모듈(340)을 통해 활성화되는데, 상기 채팅 모듈은 하나의 채팅 기능을 제공하는 역할을 수행하며, 채팅 기능을 활성화시켜 참여자간 대화 기능을 수행할 수 있는 것이다.

한편, 상기 서비스 제공부는 상기 음성 입력부를 통해 사용자의 음성을 입력 받아 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 상기 음성 인식부(310)에서 인식하고, 상기 음성 입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 상기 음성 데이터베이스에 저장된 음성 파형 또는 텍스트에 연관된 음성 신호와 매칭되는 문자열이 존재하면 해당 문자 신호에 해당되는 문자열을 출력한다. 이는 보다 실감나게 텍스트를 생성하고 상대에게 제공될 수 있도록 구현하기 위한 것으로써, 크기나 정확도, 속도에 대응하여 텍스트로 처리되는 것이다.

도 3은 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템의 채팅 모듈의 일실시예를 나타낸 구성도, 도 4는 다른 실시예를 나타낸 구성도이다.

도시된 바와 같이 본 발명은 도 3과 도 4는 채팅 모듈의 다양한 구현 방법의 예를 도시한 것으로, 도 3에서는 말풍선 형태의 채팅 기능을 제공하거나 도 4에 도시된 바와 같이 기본 채팅 구조를 갖는다. 따라서, 본 발명은 음성인식기반의 소통시스템을 채팅 구조로 구현함에 따라 사용자간 매우 편리하게 대화를 실현할 수 있다.

도 5는 본 발명에 따른 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템의 또 다른 실시예를 나타낸 구성도이다.

본 발명에 따른 소통시스템을 구현함에 있어서, 또 다른 방법으로 동작인식 기반의 소통 시스템을 구축할 수 있다. 이를 위해 사용자 기기에는 별도의 카메라(10)가 각각 구성되어 있으며, 상기 카메라를 통해 사용자의 동작(제스처) 상태를 인식하고, 이 동작 상태는 임의의 단축키나 텍스트 또는 명령신호를 생성할 수 있는 것이다.

이에 따라, 상기 카메라(210)로부터 입력된 동작 정보를 인식하기 위한 동작 인식부(350), 동작별 출력 신호에 대응하는 동작 신호를 저장하고 있는 동작 데이터베이스(360)를 포함한다. 상기 동작 데이터베이스(360)에서는 다양한 동작별 동작 신호에 매칭되는 동작 데이터를 저장하고 있으며, 카메라를 통해 동작 정보가 입력되면 상기 동작 인식부(350)는 동작 데이터베이스에서 매칭 데이터를 조회한 후 해당 동작 신호가 출력되도록 한다.

예를 들어 사용자는 왼손과 오른손으로 각각 왼쪽, 오른쪽을 지시하는 동작을 구사하면 상기 동작 인식부는 해당 동작 정보를 동작 데이터베이스에서 해당 동작이 어떤 신호에 해당되는지 동작 신호를 조회 후 매칭 동작신호를 출력한다. 이 동작신호는 콘텐츠를 제어하는 신호에 해당될 수 있으며, 다르게는 특정 텍스트에 해당되는 신호일 경우 텍스트 출력부(370)를 통해 특정 텍스트가 디스플레이 장치(400)에 출력되도록 제어한다.

또한, 임의의 동작 신호를 하나의 단축키로 지정할 수 있으며, 임의의 동작 신호를 특정 단축키로 출력시키도록 단축키 모듈(390)에서 이를 제어하게 된다. 상기 단축키 모듈은 사용자 또는 관리자에 의해 기설정된 단축키값에 해당될 수 있으며, 이는 사용자나 관리자에 의해 선택적으로 변경될 수 있다. 단축키값을 이용함으로 특정 행동이나 움직임을 구사할 수 있거나 다르게는 단축키값으로 기지정된 이모티콘을 출력하도록 제어할 수 있는 것이다.

또한, 상기 동작 신호는 하나의 음성 신호에 해당되는 음성 정보일 수 있으며 하나의 동작을 통해 글자, 단어, 문장 형태의 텍스트를 출력시킬 수 있다.

따라서, 상기 카메라(210)가 촬영한 사용자의 동작 정보에 해당되는 동작 신호와 상기 동작 신호에 따른 음성 신호에 해당되는 음성값을 저장하고 있는 동작 데이터베이스와, 상기 사용자의 동작 정보를 상기 동작 데이터베이스에서 호출하여 해당 음성값을 출력하는 동작 인식부(250)를 구성하여 동작 정보 기반의 명령, 대화, 콘텐츠 제어 등을 구현할 수 있다.

이와 같이 구성되는 본 발명은, XR 콘텐츠나 메타버스 서비스에서 참여자(플레이어)간에 대화(소통)를 음성인식기반의 채팅모듈 구현 또는 동작 기반의 대화 기능을 제공하기 때문에 실제 콘텐츠 참여 중 키보드나 마우스 등의 외부 입력 디바이스를 통해 입력에 제한이 따르는 스포츠 게임이나 활동성 콘텐츠 이용에서 음성 입력 기반으로 편리함을 제공하여 결과적으로 콘텐츠 이용의 만족도를 매우 크게 향상시킬 수 있는 장점이 있다.

이상, 본 발명의 원리를 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 그와 같이 도시되고 설명된 그대로의 구성 및 작용으로 한정되는 것이 아니다. 오히려, 첨부된 청구범위의 사상 및 범주를 일탈함이 없이 본 발명에 대한 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.

100 : 사용자 기기
200 : 사용자 기기
210 : 카메라
300 : 서비스 제공부
301 : 콘텐츠 제공 모듈
310 : 음성인식부
320 : 텍스트 변환부
330 : 음성 데이터베이스
340 : 채팅 모듈
350 : 동작 인식부
360 : 동작 데이터베이스
370 : 텍스트 출력부
380 : 단축키 모듈
400 : 디스플레이 장치

Claims

XR 콘텐츠 또는 메타버스 콘텐츠 서비스를 구현하는 콘텐츠 제공 모듈을 포함하고 상기 XR 콘텐츠 또는 메타버스 콘텐츠 서비스를 제공하는 서비스 제공부와, 상기 서비스 제공부로부터 제공되는 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에 참여하는 적어도 2개 이상의 사용자 기기가 구성되고,
상기 사용자 기기에 구성되는 것으로, 사용자의 음성 정보를 입력받는 음성 입력부;
상기 서비스 제공부에 구성되는 것으로, 상기 음성 입력부로부터 사용자의 음성 정보를 음성 파형 또는 텍스트 데이터로 인식하기 위한 음성 인식부;
상기 음성 입력부로 입력된 사용자의 음성 정보를 상기 음성 인식부에서 인식하기 위한 음성 파형 또는 텍스트 데이터를 저장하고 있는 음성 데이터베이스;
상기 음성 인식부에서 인식된 사용자의 음성 정보에 해당되는 텍스트 데이터를 텍스트로 변환하기 위한 텍스트 변환부; 및
상기 텍스트 변환부에서 변환된 텍스트를 상기 서비스 제공부가 제공하는 상기 XR 콘텐츠나 메타버스 콘텐츠가 출력되는 디스플레이 장치의 콘텐츠 화면으로 출력하기 위한 채팅 모듈;을 포함하여 구성되고,
상기 서비스 제공부는 상기 음성 입력부를 통해 사용자의 음성을 입력 받아 음성의 크기, 음성의 정확도, 음성의 속도에 기초하여 상기 음성 인식부에서 인식하고,
상기 음성 입력부를 통해 입력된 음성 파형 또는 텍스트의 검색은 상기 음성 데이터베이스에 저장된 음성 파형 또는 텍스트에 연관된 음성 신호와 매칭되는 문자열이 존재하면 해당 문자 신호에 해당되는 문자열을 상기 채팅 모듈로 제공하고, 이와 동시에 상기 사용자로부터 입력받은 음성의 크기와 정확도, 음성의 속도를 콘텐츠(XR, 메타버스)상에 함께 출력되도록 구성되며,
상기 서비스 제공부는 사용자의 동작 정보를 촬영하는 카메라를 더 포함하고,
상기 카메라가 촬영한 사용자의 동작 정보에 해당되는 동작 신호와 상기 동작 신호에 따른 음성 신호에 해당되는 음성값을 저장하고 있는 동작 데이터베이스를 포함하며,
상기 사용자의 동작 정보를 상기 동작 데이터베이스에서 호출하여 해당 음성값을 출력하는 동작 인식부를 더 포함하여 구성되는 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템.
삭제
제 1항에 있어서, 상기 서비스 제공부는,
사용자의 음성 신호를 입력받아 음성 신호로 출력하는 음성 인식부에서 임의의 음성 신호에 해당되는 음성값을 임의의 단축키로 지정하고, 해당 단축키의 출력 신호로 출력될 수 있도록 상기 단축키 지정을 결정하는 단축키 모듈을 더 포함하며,
상기 단축키는 방향, 움직임, 행동, 이모티콘에 해당되는 출력 신호로 지정되는 것을 특징으로 하는 음성인식기반의 XR 콘텐츠 또는 메타버스 콘텐츠 서비스에서 이용자간 소통시스템.
삭제