KR20070055210A - 모션인식과 음성인식을 이용한 게임 장치 및 그 방법 - Google Patents

모션인식과 음성인식을 이용한 게임 장치 및 그 방법 Download PDF

Info

Publication number
KR20070055210A
KR20070055210A KR1020050113655A KR20050113655A KR20070055210A KR 20070055210 A KR20070055210 A KR 20070055210A KR 1020050113655 A KR1020050113655 A KR 1020050113655A KR 20050113655 A KR20050113655 A KR 20050113655A KR 20070055210 A KR20070055210 A KR 20070055210A
Authority
KR
South Korea
Prior art keywords
motion
recognition
recognizing
voice
command
Prior art date
Application number
KR1020050113655A
Other languages
English (en)
Other versions
KR100733964B1 (ko
Inventor
유정재
박창준
이인호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020050113655A priority Critical patent/KR100733964B1/ko
Publication of KR20070055210A publication Critical patent/KR20070055210A/ko
Application granted granted Critical
Publication of KR100733964B1 publication Critical patent/KR100733964B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은, 모션인식과 음성인식을 이용한 게임 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 서로 다른 카메라 정보를 가지는 양안식 영상에서 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구하며, 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 인식한 모션 인식결과와 음성(문장)에서 추출한 특징점 및 상기 모션 인식수단으로부터 전달받은 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 인식한 음성 인식결과를 조합하여 명령을 인식한 후, 캐릭터의 동작 및 그에 상응하는 음향을 제어하기 위한, 모션인식과 음성인식을 이용한 게임 장치 및 그 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 모션인식과 음성인식을 이용한 게임 장치에 있어서, 사용자별 명령 데이터를 저장하기 위한 저장수단; 서로 다른 카메라 정보를 가지는 양안식 영상에서 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구하며, 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 모션을 인식 하기 위한 모션 인식수단; 음성(문장)에서 추출한 특징점 및 상기 모션 인식수단으로부터 전달받은 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 어구를 인식하기 위한 고립단어 인식수단; 상기 고립단어 인식수단에서의 인식결과와 상기 모션 인식수단에서의 인식결과를 조합하여 명령을 인식하기 위한 명령 인식수단; 및 상기 명령 인식수단에서의 인식결과(명령 데이터)에 따라 캐릭터의 동작 및 그에 상응하는 음향을 제어하고, 상기 인식결과를 상기 저장수단에 저장하기 위한 중앙처리수단을 포함함.
4. 발명의 중요한 용도
본 발명은 게임 장치 등에 이용됨.
모션인식, 음성인식, 조합, 가상공간, 후진동작 알고리즘, 고립단어 인식, 게임 장치

Description

모션인식과 음성인식을 이용한 게임 장치 및 그 방법{A game Apparatus and method using motion capture and voice recognition}
도 1 은 본 발명에 따른 모션인식과 음성인식을 이용한 게임 장치의 일실시예 구성도,
도 2 는 본 발명에 이용되는 카메라 보정 방식 중 보정물체 방식의 일실시예 설명도,
도 3 은 본 발명에 이용되는 카메라 보정 방식 중 자율보정 방식의 일실시예 설명도,
도 4 는 본 발명에 따른 모션인식과 음성인식을 이용한 게임 장치의 일실시예 구현도,
도 5 는 본 발명에 따른 모션정보를 이용한 어구간 경계 구분 과정에 대한 일실시예 설명도,
도 6 은 본 발명에 따른 네트워크를 이용한 게임 방법에 대한 일실시예 설명도,
도 7 은 본 발명에 이용되는 후진동작 알고리즘의 일실시예 설명도,
도 8 은 본 발명에 따른 모션인식과 음성인식을 이용한 게임 방법에 대한 일 실시예 흐름도이다.
* 도면의 주요 부분에 대한 부호의 설명
10 : 저장부 20 : 입력부
30 : 모션 인식부 40 : 음성 인식부
50 : 명령 인식부 60 : 출력부
70 : 인터넷 연결부 80 : 중앙처리부
본 발명은 모션인식과 음성인식을 이용한 게임 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 영상을 통한 모션인식과 음성인식의 장단점을 조합하여 여러 가지 동작의 구분과 방향, 강도, 기타 모드 변화 등을 자유롭게 활용하여 기존의 모션인식 또는 음성인식 하나에만 기반하던 게임보다 더욱 역동적이고 흥미로운 게임을 제공하기 위한, 모션인식과 음성인식을 이용한 게임 장치 및 그 방법에 관한 것이다.
인체나 동물의 움직임의 기본원리는 관절의 회전이다. 즉, 관절의 움직임은 대체로 제한되어 있으며 이를 모델 내에 설정한 관절에 정의해 주면 모델의 하위 부분을 움직일 경우 상위의 관절이 이를 반영하여 움직이게 된다. 후진동작 (Inverse Kinematics)은 상위관절의 움직임이 하위관절에 영향을 미치는 것이 아니라, 하위관절의 움직임에 따라 제한된 범위 내에서 상위관절의 움직임을 자동으로 계산하는 알고리즘이다.
사람이 팔을 들거나 하는 동작할 때 신경은 보통 손을 어느 위치에 가져다 놓겠다는 의지로 움직이는게 자연스럽지, 어깨뼈를 몇도 돌려서 저 물건을 잡겠다는 의지를 보이는 경우는 거의 없다. 그렇기 때문에 전진동작은 애니메이터의 입장에서 직관적이지 못한 작업방식이다. 이러한 단점을 보완한 방식이 바로 후진동작 알고리즘이다.
HMM(Hidden Markov Model)은 음성인식을 위한 기본단위(음소)를 모델링하는 방식이다. 즉, 음성인식 엔진으로 들어오는 음소와 음성인식 엔진 내의 데이터베이스로 갖고 있는 음소를 결합해 단어와 문장을 만드는 방식으로 국내 대부분의 음성인식 엔진업체들이 사용하고 있다.
HMM은 관측 불가능한 프로세스를 관측 가능한 다른 프로세스를 통해 추정하는 이중 확률처리 방식으로 현재 음성인식에 많이 사용되고 있다. 따라서, 음성인식에서 HMM방식을 이용한다는 것은 음성인식의 최소단위(음소)를 모델링하여 이를 이용해 음성인식 시스템을 구성하는 것을 말한다. 이에 따라 HMM의 장점은 다른 방법보다 인식률이 높다는 것이다. 그러나, 현재의 HMM 훈련샘플이 충분하지 못할 경우에는 정확한 모델추정이 어려운 점과 음소문맥에 관한 지식이 필요하다는 등의 문제가 있다
한편, 모션인식과 음성인식은 각각의 분야에서 매우 오랫동안 연구되어 왔 다.
먼저, 모션인식은 사용하는 장비에 따라 초음파를 발생하는 센서와 수신기를 이용하는 초음파 방식, 사용자의 관절 움직임을 측정하기 위한 전위차계와 슬라이더를 이용하는 보철방식, 사용자의 각 관절 부위에 자기장 센서를 부착하고 자기장의 변화를 공간적인 변화량으로 계산하여 움직임을 측정하는 자기식 방식, 그리고 CCD(Charge Coupled Device) 카메라로부터 얻은 영상을 사용하는 광학 방식으로 분류된다.
이중 광학 방식은 비교적 정확한 결과를 간단한 장비를 통해서 얻을 수 있다는 이점이 있는데, 지금까지는 주로 몸에 마커를 부착하고 이들 마커의 움직임을 보고 관절의 움직임을 유추하는 방식이 많이 연구되어 왔다. 이러한 방식은 사용할 때마다 마커를 몸에 부착해야 한다는 번거로움이 있어 실질적인 게임 컨텐츠에 활용되기 부적합하다.
따라서, 마커 없이 광학식 방식으로 모션을 인식하기 위한 접근방안으로 옥스포드 대학에서 연구해 온 실루엣 정보를 추출해서 자세를 유추하는 방식이 있는데, 이러한 방식은 각각의 신체 부위가 겹치는 동작에서 취약한 성능을 보이고 있다.
일반적으로, 카메라가 물체를 바라보는 위치, 각도와 같은 외부변수, 카메라 고유의 휨(skew), 종횡비(aspect ratio), 초점길이(focal length)와 같은 내부 변수를 찾는 과정을 카메라 보정(Calibration)이라 한다.
카메라 보정은 크게 직육면체의 보정물체를 사용하는 방식과 영상으로부터 자동으로 검출하는 일반적인 특징(Natural Feature)의 위치를 추적하여 구하는 자율보정방식으로 구분할 수 있다.
보정물체 사용방식은 도 2 에 도시된 바와 같은 보정물체를 사용하는 방식으로, 현재까지 널리 사용되고 있으며 3차원 직육면체 모양의 보정물체 또는 평면상의 점들의 좌표를 알고 있는 평면 보정 물체를 사용한다. 즉, 보정물체를 촬영하여 이미 알고 있는 그 물체의 기하학적인 관계로부터 카메라 사영행렬을 계산하여 보정한다.
자율보정방식은 여러 각도의 영상에서 관찰되는 특징점들의 대응관계를 알고 있을 경우, 이들 특징점들의 3D 공간에서의 위치를 업투스케일(up to scale)까지(metric space) 계산할 수 있고, 동시에 카메라의 자동보정(Auto-Calibration)을 수행하여 카메라가 물체를 바라보는 사영행렬 P=KR[I|-C]을 구할 수 있다는 수학적 논리를 따르며, "Richard Hartley"와 "Marc Pollefeys"가 각각 자신들의 방식으로 체계화한 바 있다.
이러한 자율보정방식은 광범위한 활용 가능성에도 불구하고 아직까지는 특징점 위치에 대한 노이즈에 매우 취약하며, 현존하는 방법으로는 실시간 구현이 불가능한 상황이다.
도 3 은 자율 보정 방식에서 가장 우수한 성능을 보이는 것으로 알려진 부조(boujou) 3.0에서 추출한 특징점들의 위치와 보정 과정을 거친 뒤에 구한 카메라의 이동경로와 각도를 보여준다. 이와 같은 방식으로 일단 카메라 보정이 이루어지면 미드-포인트 알고리즘(Mid-Point Algorithm)을 비롯한 "Triangulation" 방식으로 해당 특징점들의 3D 공간 좌표를 계산할 수 있다.
다음으로, 음성인식은 최초 사용자의 입력이 들어오면 전처리를 거쳐 특징점을 추출하고, 이들 특징점들을 HMM모델로 보고 기존에 구성된 데이터 베이스와 비교하여 조건부 확률을 정의한 베이시안(Bayesian) 정리에 의해 가능성(Likelihood)을 결정하고 최종 결과를 얻는다.
이때, HMM 모델링 단위에 따라 단어단위 고립단어 인식기, 음소단위 고립단어인식기, 연속음성인식기 등으로 구분된다. 단어단위 고립단어 인식기는 고립 숫자음 인식 또는 인식 대상 어휘가 고정되어 있는 소규모 인식기에 적합한 구조이다.
음소단위 고립단어인식기는 음소를 HMM 단위로 나누기 때문에 임의의 단어를 음소 모델의 결합으로 구성할 수 있으므로, 상황에 따라서 인식 대상 어휘가 바뀌는 가변어휘 인식기의 구현이 가능해진다. 음성 데이터의 양이 적더라도 같은 음소 환경을 갖는 모델들끼리 파라미터를 공유할 수 있으므로 음성 데이터의 양이 적어도 되는 장점이 있다.
연속음성인식의 문제점은 관측열, 음향모델, 발음모델, 언어모델이 주어졌을 때 가장 확률이 높은 단어열을 찾아야 하는데, 단어의 경계 정보가 주어지지 않기 때문에 매 프레임마다 모든 단어가 새로 시작될 수 있어서 탐색 공간이 커진다는 점이다.
또한, 화자의 음성이 주변 환경에 반사되는 반향현상 때문에 경계점을 찾는 어려움은 더욱 커지며 현재도 많은 연구가 진행중이지만 아직까지는 실용적으로 사 용될 만큼 높은 성능을 보이는 시스템은 고안되지 못한 상태이다.
즉, 연속음성인식은 사용자가 연속적인 동작을 시도하면서 여러 단어를 발음하거나 문장으로 구성된 주문을 사용하면 단어간의 경계점을 찾기 힘든 문제가 발생하고 음성에서의 ‘반향’현상이 노이즈로 작용하게 되는 문제점이 있다.
이에, 본 발명에서는 모션인식이나 음성인식의 영역에서 비교적 성능이 입증된 기존의 방법들을 조합하여 모션정보와 음성정보 상호간에 불완전한 부분을 보완하고 역동적인 게임을 제공하는 방안을 제안하고자 한다.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 서로 다른 카메라 정보를 가지는 양안식 영상에서 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구하며, 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 인식한 모션 인식결과와 음성(문장)에서 추출한 특징점 및 상기 모션 인식수단으로부터 전달받은 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 인식한 음성 인식결과를 조합하여 명령을 인식한 후, 캐릭터의 동작 및 그에 상응하는 음향을 제어하기 위한, 모션인식과 음성인식을 이용한 게임 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 장치는, 모션인식과 음성인식을 이용한 게임 장치에 있어서, 사용자별 명령 데이터를 저장하기 위한 저장수단; 서로 다른 카메라 정보를 가지는 양안식 영상에서 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구하며, 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 모션을 인식하기 위한 모션 인식수단; 음성(문장)에서 추출한 특징점 및 상기 모션 인식수단으로부터 전달받은 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 어구를 인식하기 위한 고립단어 인식수단; 상기 고립단어 인식수단에서의 인식결과와 상기 모션 인식수단에서의 인식결과를 조합하여 명령을 인식하기 위한 명령 인식수단; 및 상기 명령 인식수단에서의 인식결과(명령 데이터)에 따라 캐릭터의 동작 및 그에 상응하는 음향을 제어하고, 상기 인식결과를 상기 저장수단에 저장하기 위한 중앙처리수단을 포함하는 것을 특징으로 한다.
한편, 본 발명의 방법은, 모션인식과 음성인식을 이용한 게임 방법에 있어서, 서로 다른 카메라 정보를 가지는 양안식 영상을 입력받음에 따라 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하는 단계; 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구한 후 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 모션을 인식하는 단계; 음성(문장)을 압력받음에 따라 특징점을 추출한 후 상기 특징점과 상기 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 어구를 인식하는 단계; 상기 음성 인식결과와 상기 모션 인식결과를 조합하여 명령을 인식하는 단계; 및 상기 인식결과(명령 데이터)에 따라 캐릭터의 동작 및 그에 상응하는 음향을 제어하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명은 영상을 통한 모션인식과 음성인식의 장단점을 조합하여 사용자가 여러 가지 행동을 취하면서 게임 속 내용물 및 접속중인 다수의 사용자들과 역동적인 인터액션을 가질 수 있는 게임을 제작하기 위한 효과적인 모델과 구체적인 구현방안을 제공한다.
또한, 본 발명은 제한된 개수의 신체부위로부터 전체 모션을 유추하기 때문에 동작의 모호성이 존재하는 후진동작 알고리즘의 가장 큰 단점을 음성 데이터와 조합하여 해결한다. 예를 들어, 사용자가 게임상에서 특정한 동작이나 마법 등을 행하려 할 때 해당 권법, 무술의 명칭이나 주문을 외치도록 하여 정확하게 명령을 인식한다.
또한, 본 발명은 모션인식만으로 해결하기엔 번거롭던 여러 가지 기능들을 간편하게 해결해 준다. 예를 들어, 사용자가 게임 속에서 걷고 있다가 뛰는 상태로 또는 하늘을 나는 상태로 모드를 전환하고자 할 때 기존의 게임처럼 마우스 컨트롤로 버튼을 누르거나 모션으로 디스플레이 화면 안의 버튼을 클릭할 필요 없이 입으로 명령어를 발음하면 바로 전환이 가능하다. 또한, 게임 속에서 특정 아이템을 선 택하거나 무기, 장비를 교환하는 등의 특별한 행동도 음성을 통해 간단히 지시할 수 있다.
또한, 본 발명은 인식한 명령(모션 데이터 및 그에 상응하는 음성 데이터)들을 데이터베이스화함으로써, 사용자가 게임을 오래 할수록 게임 장치로 의사를 전달하기가 수월해지고 이는 게임상에서의 ‘경험치’의 증가로 반영될 수 있다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 1 은 본 발명에 따른 모션인식과 음성인식을 이용한 게임 장치의 일실시예 구성도이다.
도 1 에 도시된 바와 같이, 본 발명에 따른 모션인식과 음성인식을 이용한 게임 장치는, 사용자별 명령 데이터(모션 데이터 및 그에 상응하는 음성 데이터)를 저장하기 위한 저장부(10), 서로 다른 카메라 정보를 가지는 양안식 영상 및 음성(문장)을 입력받기 위한 입력부(20), 상기 입력부(20)에서 입력받은 양안식 영상에서 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구하며, 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 모션을 인식 및 인식결과를 고립단어 인식부(40)로 전달하기 위한 모션 인식부(30), 상기 입력부(20)에서 입력받은 음성(문장)에서 추출한 특징점 및 모션 인식부(30)로부터 전달받은 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 어구를 인식하기 위한 고립단어 인식부(40), 상기 고립단어 인식부(40)에서의 인식결과와 상기 모션 인식부(30)에서의 인식결과를 조합하여 명령을 인식하기 위한 명령 인식부(50), 중앙처리부(80)의 제어에 따라 캐릭터의 동작 및 그에 상응하는 음향을 출력하기 위한 출력부(60), 인터넷에 연결하기 위한 인터넷 연결부(70), 및 상기 명령 인식부(50)에서의 인식결과(명령 데이터)에 따라 캐릭터의 동작 및 그에 상응하는 음향을 제어하고, 상기 인식결과를 저장부(10)에 저장하기 위한 중앙처리부(80)를 포함한다.
여기서, 상기 인터넷 연결부(70)는 본 발명의 부가적인 요소이다.
또한, 상기 카메라 정보는 카메라 3차원 위치정보(x, y, z 좌표), 카메라 방향 정보, 초점거리 정보를 포함한다.
한편, 상기 입력부(20)는 서로 다른 카메라 정보를 가지는 양안식 영상을 입력받기 위한 영상센서(201), 및 음성(문장)을 입력받기 위한 음성센서(202)를 포함한다.
한편, 상기 모션 인식부(30)는 연령, 성별 및 체형별로 게임에 활용되는 모션 데이터를 저장하고 있는 모션 데이터베이스(300), 상기 영상센서(201)를 통해 입력받은 양안식 영상에서 객체(일예로, 머리, 손, 발)를 추출하기 위한 객체 추출기(301), 상기 객체 추출기(301)에서 추출한 객체의 양안 시차를 이용하여 깊이 정 보(카메라 렌즈에 수직한 방향으로의 거리 정보)를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 객체의 위치를 구하기 위한 위치 산출기(302), 후진동작(Inverse Kinematics) 알고리즘을 이용하여 상기 위치 산출기(302)에서 산출한 3차원 공간에서의 객체의 위치를 통해 팔꿈치, 무릎, 골반과 같은 다른 부위의 위치와 상태를 산출하여 전체 모션 데이터를 생성하기 위한 후진동작 처리기(303), 및 상기 후진동작 처리기(303)에서 생성한 모션 데이터를 상기 모션 데이터베이스(300) 상의 해당 모션 데이터와 비교하여 모션을 인식 및 인식결과를 어구간 경계 구분기(402)로 전달하기 위한 모션 인식기(304)를 포함한다.
여기서, 상기 후진동작 처리기(303)는 도 7에 도시된 바와 같이, 특정 신체부위의 위치(b)를 입력으로 받아서 전체 모션 데이터(c)를 결과물로 산출한다.
또한, 상기 모션 데이터베이스(300)는 사용자로부터 입력받은 모션이 항상 동일하지 않기 때문에 하나의 정확한 모션 데이터에 대해 다수의 유사 모션 데이터를 저장하고 있다.
한편, 상기 음성 인식부(40)는, 게임에 활용되는 음성 데이터를 저장하고 있는 음성 데이터베이스(400), 상기 음성센서(202)를 통해 입력받은 음성(문장)에서 특징점을 추출하기 위한 특징점 추출기(401), 상기 특징점 추출기(401)에서 추출한 특징점 및 모션 인식기(304)로부터의 모션 인식결과를 이용하여 문장의 어구간을 구분하기 위한 어구간 경계 구분기(402), 및 상기 어구간 경계 구분기(402)에서 구분한 어구를 인식하기 위한 고립단어 인식기(403)를 포함한다.
여기서, 상기 음성 데이터베이스(400)는 사용자로부터 입력받은 음성이 항상 동일하지 않기 때문에 하나의 정확한 음성 데이터에 대해 다수의 유사 음성 데이터를 저장하고 있다.
또한, 상기 어구간 경계 구분기(402)는 도 5에 도시된 바와 같이, 문장에서 어구간을 구분한다. 이때, 어구간 구분을 위해 이용하는 모션정보는 음성정보보다 각 동작의 시작과 끝을 명확하게 인지할 수 있도록 한다.
또한, 상기 고립단어 인식기(403)는 특징점 추출 단계를 거친 뒤 각각의 단어와 하나의 HMM 모델을 구성한 데이터베이스와의 비교를 통해서 최대 가능성(Maximum Likelihood)을 갖는 결과를 선택한다.
한편, 상기 명령 인식부(50)는, 상기 고립단어 인식기(403)에서의 인식결과와 모션 인식기(304)에서의 인식결과를 조합하여 명령을 인식하기 위한 명령 인식기(501), 및 상기 명령 인식기(501)에서 인식한 명령에 해당하는 음성 및 모션을 저장하기 위한 사용자 데이터베이스(500)를 포함한다.
도 4 는 본 발명에 따른 모션인식과 음성인식을 이용한 게임 장치의 일실시예 구현도이다.
도 4 에 도시된 바와 같이, 본 발명에 따른 모션인식과 음성인식을 이용한 게임 장치는, 사용자(41), 게임의 출력 영상을 출력하기 위한 디스플레이장치(일예로 TV)(42), 미리 보정된 결과를 사용할 수 있도록 그 위치와 각도가 정밀하게 고정되어 있는 스테레오 카메라 역할을 하는 두 대의 캠 카메라(43), 음성을 입력받기 위한 마이크(44), 입력과 출력, 그리고 게임 작동을 수행하기 위한 게임기 본체(45), 및 인터넷 연결부(46)를 포함한다.
여기서, 상기 인터넷 연결부(46)는 네트워크를 통해 다른 유저들과 동일한 전자공간 안에서 게임을 즐길 수 있도록 하며, 게임상에서 사용 가능한 동작과 기술을 온라인 업그레이드를 통해 제공받음으로써, 사용자들이 실증내지 않고 게임에 지속적인 흥미를 갖도록 한다.
도 8 은 본 발명에 따른 모션인식과 음성인식을 이용한 게임 방법에 대한 일실시예 흐름도이다.
먼저, 후진동작(Inverse Kinematics)을 적용하기 위해 최초 게임 시작시 사용자는 손바닥이 전방을 향하도록 카메라 앞에서 십자형 자세로 팔을 들어주어 체형을 인식시킨다.
이후, 서로 다른 카메라 정보를 가지는 양안식 영상을 입력받음에 따라 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구하며, 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 모션을 인식한다(801).
이후, 음성(문장)을 압력받음에 따라 특징점을 추출한 후 상기 특징점과 상기 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 어구를 인식한다(802).
이후, 상기 음성 인식결과와 상기 모션 인식결과를 조합하여 명령을 인식한다(803).
이후, 상기 인식결과(명령 데이터)에 따라 캐릭터의 동작 및 그에 상응하는 음향을 제어한다(804).
한편, 본 발명에서 카메라 보정 방식은 노이즈에 강인하고 끊김 없는 서비스 를 위하여 ‘보정 물체를 사용하는 방식’을 이용하는 것이 바람직하다.
또한, 본 발명에서 짧은 명칭의 공격 수단뿐 아니라 게임상에서 마법과 같은 환타지적인 요소를 활용하기 위한 장문의 주문을 입력받을 경우 모션 인식 데이터를 사용해서 어구간을 구분하여 음성 인식기의 입력으로 넣으므로 단어단위 고립단어 인식기(403)를 이용하는 것이 바람직하다.
또한, 본 발명은 도 6 에 도시된 바와 같이, 네트워크를 통해 다수의 사용자들이 동일한 가상 공간 안에서 서로의 행동을 게임 속 캐릭터를 통해 실시간으로 느끼면서 같이 게임을 즐기고, 서로 간의 실력을 겨룸으로써 보다 높은 흥미를 유발할 수 있다.
또한, 본 발명은 인터넷 연결을 통해서 주기적으로 동작, 주문 등에 대한 업그레이드를 제공받음으로써, 사용자들은 계속해서 새로운 공격, 방어 수단과 마법 주문들을 활용하고 동일 게임에 대해서 실증내지 않고 오랜 시간 즐길 수 있다.
또한, 본 발명에서 영상정보는 동작을 구분하기 위해서도 사용되지만 동작의 방향성과 민첩성, 강도 등을 결정하기 위해 주로 사용되고, 음성정보는 동작의 정확한 구분과 강도(기합소리), 기타 아이템 선택이나 모드 선택 등 특정한 지시를 내리기 위한 용도로 활용된다.
또한, 본 발명에서 사용자는 디스플레이 장치 앞에서 서서 다양한 행동을 취하고, 디스플레이 화면에는 접속중인 다른 사용자들의 모습과 여러 가지 공격대상과 방어대상이 나타나며, 게임 컨텐츠는 액션과 마법이 등장하는 환타지 게임 등을 포함한다. 따라서, 사용자는 공격, 방어 등의 다양한 동작을 취하면서 특정 동작 명이나 주문을 외치고 기합 소리를 넣는 등 신체와 음성 모두를 활용해서 게임과 활발한 인터액션을 갖는다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은, 서로 다른 카메라 정보를 가지는 양안식 영상에서 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구하며, 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 인식한 모션 인식결과와 음성(문장)에서 추출한 특징점 및 상기 모션 인식수단으로부터 전달받은 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 인식한 음성 인식결과를 조합하여 명령을 인식한 후, 캐릭터의 동작 및 그에 상응하는 음향을 제어함으로써, 적은 오 류율로 게임을 제공할 수 있는 효과가 있다.
또한, 본 발명은 기존의 방식으로는 구현할 수 없었던 역동적이고 실감 넘치는 액션, 환타지 게임 컨텐츠를 모션인식과 음성인식의 장단점을 조합하여 실현 가능하게 하였으며 다수의 사용자들은 온라인상으로 연결되어 서로간의 동작과 행동을 실시간으로 확인하며 실감 있게 게임을 즐길 수 있는 효과가 있다.

Claims (5)

  1. 모션인식과 음성인식을 이용한 게임 장치에 있어서,
    사용자별 명령 데이터를 저장하기 위한 저장수단;
    서로 다른 카메라 정보를 가지는 양안식 영상에서 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구하며, 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 모션을 인식하기 위한 모션 인식수단;
    음성(문장)에서 추출한 특징점 및 상기 모션 인식수단으로부터 전달받은 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 어구를 인식하기 위한 고립단어 인식수단;
    상기 고립단어 인식수단에서의 인식결과와 상기 모션 인식수단에서의 인식결과를 조합하여 명령을 인식하기 위한 명령 인식수단; 및
    상기 명령 인식수단에서의 인식결과(명령 데이터)에 따라 캐릭터의 동작 및 그에 상응하는 음향을 제어하고, 상기 인식결과를 상기 저장수단에 저장하기 위한 중앙처리수단
    을 포함하는 모션인식과 음성인식을 이용한 게임 장치.
  2. 제 1 항에 있어서,
    인터넷에 연결하기 위한 인터넷 연결수단
    을 더 포함하는 모션인식과 음성인식을 이용한 게임 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 모션 인식수단은,
    연령, 성별 및 체형별로 게임에 활용되는 모션 데이터를 저장하고 있는 모션 데이터베이스;
    상기 양안식 영상에서 객체를 추출하기 위한 객체 추출기;
    상기 객체 추출기에서 추출한 객체의 양안 시차를 이용하여 깊이 정보(카메라 렌즈에 수직한 방향으로의 거리 정보)를 산출하고, 상기 산출한 깊이 정보를 이용하여 3차원 공간에서 객체의 위치를 구하기 위한 위치 산출기;
    상기 후진동작(Inverse Kinematics) 알고리즘을 이용하여 상기 위치 산출기에서 산출한 3차원 공간에서의 객체의 위치를 통해 팔꿈치, 무릎, 골반과 같은 다른 부위의 위치와 상태를 산출하여 전체 모션 데이터를 생성하기 위한 후진동작 처리기; 및
    상기 후진동작 처리기에서 생성한 모션 데이터를 상기 모션 데이터베이스 상의 해당 모션 데이터와 비교하여 모션을 인식 및 인식결과를 상기 고립단어 인식수단으로 전달하기 위한 모션 인식기
    를 포함하는 모션인식과 음성인식을 이용한 게임 장치.
  4. 제 3 항에 있어서,
    상기 고립단어 인식수단은,
    게임에 활용되는 음성 데이터를 저장하고 있는 음성 데이터베이스;
    상기 음성(문장)에서 특징점을 추출하기 위한 특징점 추출기;
    상기 특징점 추출기에서 추출한 특징점 및 상기 모션 인식기로부터의 모션 인식결과를 이용하여 문장의 어구간을 구분하기 위한 어구간 경계 구분기; 및
    상기 어구간 경계 구분기에서 구분한 어구를 인식하기 위한 고립단어 인식기
    를 포함하는 모션인식과 음성인식을 이용한 게임 장치.
  5. 모션인식과 음성인식을 이용한 게임 방법에 있어서,
    서로 다른 카메라 정보를 가지는 양안식 영상을 입력받음에 따라 객체를 추출한 후 양안 시차를 이용하여 깊이 정보를 산출하는 단계;
    상기 산출한 깊이 정보를 이용하여 3차원 공간에서 상기 객체의 위치를 구한 후 후진동작(Inverse Kinematics) 알고리즘을 통해 전체 모션 데이터를 생성하여 모션을 인식하는 단계;
    음성(문장)을 압력받음에 따라 특징점을 추출한 후 상기 특징점과 상기 모션 인식결과를 이용하여 문장의 어구간을 구분한 후 어구를 인식하는 단계;
    상기 음성 인식결과와 상기 모션 인식결과를 조합하여 명령을 인식하는 단계; 및
    상기 인식결과(명령 데이터)에 따라 캐릭터의 동작 및 그에 상응하는 음향을 제어하는 단계
    를 포함하는 모션인식과 음성인식을 이용한 게임 방법.
KR1020050113655A 2005-11-25 2005-11-25 모션인식과 음성인식을 이용한 게임 장치 및 그 방법 KR100733964B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050113655A KR100733964B1 (ko) 2005-11-25 2005-11-25 모션인식과 음성인식을 이용한 게임 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050113655A KR100733964B1 (ko) 2005-11-25 2005-11-25 모션인식과 음성인식을 이용한 게임 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20070055210A true KR20070055210A (ko) 2007-05-30
KR100733964B1 KR100733964B1 (ko) 2007-06-29

Family

ID=38276784

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050113655A KR100733964B1 (ko) 2005-11-25 2005-11-25 모션인식과 음성인식을 이용한 게임 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100733964B1 (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009029048A1 (en) * 2007-08-30 2009-03-05 Razer (Asia-Pacific) Pte Ltd Keys deactivation system and method
KR100938194B1 (ko) * 2008-07-28 2010-01-21 재단법인대구경북과학기술원 객체 검출 방법 및 객체 검출 장치
WO2012124837A1 (en) * 2011-03-14 2012-09-20 Lg Electronics Inc. An apparatus and a method for gesture recognition
WO2013022221A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US8442267B2 (en) 2008-12-24 2013-05-14 Electronics And Telecommunications Research Institute Apparatus and method for detecting upper body posture and hand posture
WO2014142422A1 (ko) * 2013-03-15 2014-09-18 포항공과대학교 산학협력단 지시 표현 처리에 기반한 대화 처리 방법 및 장치
US8885920B2 (en) 2009-09-22 2014-11-11 Samsung Electronics Co., Ltd. Image processing apparatus and method
US9002714B2 (en) 2011-08-05 2015-04-07 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US9189068B2 (en) 2011-03-14 2015-11-17 Lg Electronics Inc. Apparatus and a method for gesture recognition
US9208565B2 (en) 2011-07-27 2015-12-08 Samsung Electronics Co., Ltd. Method and apparatus for estimating three-dimensional position and orientation through sensor fusion
KR101863856B1 (ko) * 2016-11-29 2018-06-04 (주)보이시스 위치 및 언어 감지를 통한 쿠폰정보 자동 번역 제공 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
KR20170035116A (ko) 2015-09-22 2017-03-30 동의대학교 산학협력단 영상의 깊이 정보와 가상 터치 센서를 이용한 동시성 게임 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010107478A (ko) * 2000-05-31 2001-12-07 송우진 모션 게임 장치
KR20020062057A (ko) * 2001-01-19 2002-07-25 (주)리딩엣지 외부환경을 인식할 수 있는 단말기와 이를 이용한정보제공 시스템 및 정보 제공 방법

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100302161A1 (en) * 2007-08-30 2010-12-02 Razer (Asia-Pacific) Pte Ltd Keys Deactivation System and Method
WO2009029048A1 (en) * 2007-08-30 2009-03-05 Razer (Asia-Pacific) Pte Ltd Keys deactivation system and method
KR100938194B1 (ko) * 2008-07-28 2010-01-21 재단법인대구경북과학기술원 객체 검출 방법 및 객체 검출 장치
US8442267B2 (en) 2008-12-24 2013-05-14 Electronics And Telecommunications Research Institute Apparatus and method for detecting upper body posture and hand posture
US8885920B2 (en) 2009-09-22 2014-11-11 Samsung Electronics Co., Ltd. Image processing apparatus and method
WO2012124837A1 (en) * 2011-03-14 2012-09-20 Lg Electronics Inc. An apparatus and a method for gesture recognition
US9189068B2 (en) 2011-03-14 2015-11-17 Lg Electronics Inc. Apparatus and a method for gesture recognition
US9208565B2 (en) 2011-07-27 2015-12-08 Samsung Electronics Co., Ltd. Method and apparatus for estimating three-dimensional position and orientation through sensor fusion
WO2013022221A3 (en) * 2011-08-05 2013-04-25 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
WO2013022221A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US9002714B2 (en) 2011-08-05 2015-04-07 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US9733895B2 (en) 2011-08-05 2017-08-15 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
WO2014142422A1 (ko) * 2013-03-15 2014-09-18 포항공과대학교 산학협력단 지시 표현 처리에 기반한 대화 처리 방법 및 장치
US9966069B2 (en) 2013-03-15 2018-05-08 Postech Academy—Industry Foundation Method for processing dialogue based on processing instructing expression and apparatus therefor
KR101863856B1 (ko) * 2016-11-29 2018-06-04 (주)보이시스 위치 및 언어 감지를 통한 쿠폰정보 자동 번역 제공 시스템

Also Published As

Publication number Publication date
KR100733964B1 (ko) 2007-06-29

Similar Documents

Publication Publication Date Title
KR100733964B1 (ko) 모션인식과 음성인식을 이용한 게임 장치 및 그 방법
US20230123433A1 (en) Artificial intelligence-based animation character drive method and related apparatus
CN112379812B (zh) 仿真3d数字人交互方法、装置、电子设备及存储介质
US8660847B2 (en) Integrated local and cloud based speech recognition
CN102447697B (zh) 开放环境中的半私人通信的方法及系统
TWI442311B (zh) 在遊戲中使用三維環境模型
EP2395454A2 (en) Image generation system, shape recognition method, and information storage medium
WO2021196646A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
JP2009064448A (ja) 画像生成装置
TWI760015B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
Yu et al. A video, text, and speech-driven realistic 3-D virtual head for human–machine interface
CN113658254B (zh) 一种处理多模态数据的方法及装置、机器人
WO2021196644A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
Fransen et al. Using vision, acoustics, and natural language for disambiguation
CN111639574A (zh) 坐姿纠正方法及电子设备、存储介质
Baek et al. Dance experience system using multiple kinects
CN112221139A (zh) 一种游戏的信息交互方法、装置和计算机可读存储介质
JP5399966B2 (ja) ゲーム装置、ゲーム装置の制御方法、及びプログラム
CN110348359A (zh) 手部姿态追踪的方法、装置及系统
KR20140009900A (ko) 로봇 제어 시스템 및 그 동작 방법
Hamidia et al. Voice interaction using Gaussian mixture models for augmented reality applications
JP7453383B2 (ja) 3dライン接合部を用いた位置決定およびマッピング
Magalhäes et al. Physics-based concatenative sound synthesis of photogrammetric models for aural and haptic feedback in virtual environments
JP5629364B2 (ja) ゲーム装置、ゲーム装置の制御方法、及びプログラム
KR102171428B1 (ko) 음악과 춤의 상관관계를 학습하여 춤을 추는 로봇

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20110609

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee