KR102647544B1

KR102647544B1 - 정보 처리 시스템 및 정보 처리 방법

Info

Publication number: KR102647544B1
Application number: KR1020237010501A
Authority: KR
Inventors: 슌이치 가사하라; 이치 가사하라; 준이치 레키모토
Original assignee: 소니그룹주식회사
Priority date: 2015-09-30
Filing date: 2016-07-11
Publication date: 2024-03-18
Also published as: KR102516096B1; CN108028906B; US10628114B2; EP3358836A4; US20180349083A1; JPWO2017056631A1; EP3358836A1; KR20230049131A; CN108028906A; KR20180064370A; JP6822410B2; EP3358836B1; WO2017056631A1

Abstract

촬상 화상의 수신 기기에서 입력되는 정보의 표시를 제어하는 정보 처리 시스템 및 정보 처리 방법을 제공한다. Body에 의한 촬상 화상(일인칭 영상)을 제1 Ghost와 제2 Ghost가 각각 수신하고, 제1 Ghost에 대한 입력에 따라서 생성되는 제1 정보와 제2 Ghost에 대한 입력에 따라서 생성되는 제2 정보가 Body에 보내져 오는 경우, 제어부(509)는, 이들 제1 정보와 제2 정보를 집약하여 얻어지는 집약 화상을 표시부(503)에서 표시 출력하도록 제어한다.

Description

정보 처리 시스템 및 정보 처리 방법{INFORMATION PROCESSING SYSTEM AND INFORMATION PROCESSING METHOD}

본 명세서에서 개시하는 기술은, 촬상 화상의 수신 기기에서 입력되는 정보의 표시를 제어하는 정보 처리 시스템 및 정보 처리 방법에 관한 것이다.

유저가 자신 이외의 시계 광경(자신 이외의 이동체로부터 보이는 광경)에 액세스하는 기술이 알려져 있다.

예를 들어, 차량 등의 이동체에 탑재된 이동 카메라에 의해 촬상된 화상을 원격적으로 취득하는 이동 카메라 시스템에 대하여 제안이 이루어져 있다(예를 들어, 특허문헌 1 참조). 또한, 촬상 센싱 무선 기기를 배치한 안경을 쓴 사람이 취득하는 시각 정보와 마찬가지의 정보를 헤드 마운트 디스플레이의 장착자에게 제공하는 화상 처리 시스템에 대하여 제안이 이루어져 있다(예를 들어, 특허문헌 2 참조)

또한, 이동체의 촬상 화상을 표시하는 표시 장치측으로부터 이동체의 촬상 장치에 대해서 촬상하는 시점 위치 및 시선 방향, 나아가 촬영 시의 속도를 지정하는 화상 표시 시스템에 대하여 제안이 이루어져 있다(예를 들어, 특허문헌 3 참조).

일본 특허공개 제2006-186645호 공보 일본 특허공개 제2004-222254호 공보 일본 특허공개 제2008-154192호 공보 일본 특허공개 제2014-104185호 공보 일본 특허공개 제2010-15558호 공보

본 명세서에서 개시하는 기술의 목적은, 촬상 화상의 수신 기기에서 입력되는 정보의 표시를 적절하게 제어할 수 있는, 우수한 정보 처리 시스템 및 정보 처리 방법을 제공하는 데 있다.

본 명세서에서 개시하는 기술은, 상기 과제를 참작하여 이루어진 것으로, 그 제1 측면은,

촬상 시스템에 의한 촬상 화상을 수신하는 제1 시스템에 대한 입력에 따라서 생성되는 제1 정보와, 상기 촬상 시스템에 의한 촬상 화상을 수신하는 제2 시스템에 대한 입력에 따라서 생성되는 제2 정보를 집약하여 얻어지는 집약 화상의 표시를 제어하는 제어부를 구비하는, 정보 처리 시스템이다.

단, 여기에서 말하는 「시스템」이란, 특정한 기능을 실현하는 기능 모듈이 논리적으로 집합한 것임을 의미하고, 단일의 장치로서 구성되는 경우와, 복수의 장치가 제휴하여 기능하는 경우의 양쪽을 포함하는 것으로 한다.

본 명세서에서 개시하는 기술의 제2 측면에 의하면, 제1 측면에 따른 정보 처리 시스템의 상기 제어부는, 상기 제1 시스템에 입력되는 음성 정보에 기초하는 상기 제1 정보와, 상기 제2 시스템에 입력되는 음성 정보에 기초하는 상기 제2 정보를 집약하여 얻어지는 집약 화상의 표시를 제어하도록 구성되어 있다.

본 명세서에서 개시하는 기술의 제3 측면에 의하면, 제1 측면에 따른 정보 처리 시스템의 상기 제어부는, 상기 제1 시스템에 입력되는 음성 정보에 기초하여, 상기 집약 화상의 표시를 제어하도록 구성되어 있다.

본 명세서에서 개시하는 기술의 제4 측면에 의하면, 제3 측면에 따른 정보 처리 시스템의 상기 제어부는, 상기 제1 시스템에 입력되는 음성의 강약 변화에 따라서, 상기 집약 화상에 포함되는 상기 제1 정보를 변화시키도록 구성되어 있다.

본 명세서에서 개시하는 기술의 제5 측면에 의하면, 제1 측면에 따른 정보 처리 시스템의 상기 제어부는, 상기 제1 시스템 및 상기 제2 시스템을 포함하는, 상기 촬상 화상을 수신하는 복수의 시스템에 의해 지시된 장소의 분포를 나타내는 집약 화상의 표시를 제어하도록 구성되어 있다.

본 명세서에서 개시하는 기술의 제6 측면에 의하면, 제1 측면에 따른 정보 처리 시스템의 상기 제어부는, 문자 정보를 포함하는 상기 제1 정보 및 상기 제2 정보를 집약하여 얻어지는 집약 화상의 표시를 제어하도록 구성되어 있다.

본 명세서에서 개시하는 기술의 제7 측면에 의하면, 제1 측면에 따른 정보 처리 시스템의 상기 제어부는, 상기 제1 시스템 및 상기 제2 시스템을 포함하는, 상기 촬상 화상을 수신하는 복수의 시스템에 의해 생성된 복수의 문자 정보 중에서 공통되거나 또는 빈출하는 단어를 추출하여 표시시키도록 구성되어 있다.

본 명세서에서 개시하는 기술의 제8 측면에 의하면, 제7 측면에 따른 정보 처리 시스템의 상기 제어부는, 상기 추출한 단어를 태그 클라우드 형식으로 표시시키도록 구성되어 있다.

본 명세서에서 개시하는 기술의 제9 측면에 의하면, 제1 측면에 따른 정보 처리 시스템의 상기 제어부는, 상기 제1 시스템 및 상기 제2 시스템을 포함하는, 상기 촬상 화상을 수신하는 복수의 시스템에 의해 생성된 복수의 문자 정보를 요약해 표시시키도록 구성되어 있다.

본 명세서에서 개시하는 기술의 제10 측면에 의하면, 제1 측면에 따른 정보 처리 시스템은, 상기 촬상 화상을 생성하는 촬상부를 더 구비하고 있다.

본 명세서에서 개시하는 기술의 제11 측면에 의하면, 제1 측면에 따른 정보 처리 시스템은, 표시부를 더 구비하고 있다. 그리고, 상기 제어부는, 상기 표시부에 의한 상기 집약 화상의 표시를 제어하도록 구성되어 있다.

본 명세서에서 개시하는 기술의 제12 측면에 의하면, 제11 측면에 따른 정보 처리 시스템의 상기 표시부는, 상기 집약 정보를 실세계의 풍경에 중첩해서 표시하도록 구성되어 있다.

또한, 본 명세서에서 개시하는 기술의 제13 측면은,

촬상 시스템에 의한 촬상 화상을 수신하는 제1 시스템에 대한 입력에 따라서 생성되는 제1 정보와, 상기 촬상 시스템에 의한 촬상 화상을 수신하는 제2 시스템에 대한 입력에 따라서 생성되는 제2 정보를 집약하여 얻어지는 집약 화상의 표시를 제어하는 제어 스텝을 갖는 정보 처리 방법이다.

본 명세서에서 개시하는 기술에 의하면, 촬상 화상의 수신 기기에서 입력되는 정보의 표시를 적절하게 제어할 수 있는, 우수한 정보 처리 시스템 및 정보 처리 방법을 제공할 수 있다.

또한, 본 명세서에 기재된 효과는, 어디까지나 예시이며, 본 발명의 효과는 이것에 한정되는 것은 아니다. 또한, 본 발명이, 상기 효과 이외에, 더 부가적인 효과를 발휘하는 경우도 있다.

본 명세서에서 개시하는 기술의 또 다른 목적, 특징이나 이점은, 후술하는 실시 형태나 첨부하는 도면에 기초하는 보다 상세한 설명에 의해 밝혀질 것이다.

도 1은, 본 명세서에서 개시하는 기술을 적용한 시계 정보 공유 시스템(100)의 개요를 나타낸 도면이다.
도 2는, 1대 N의 네트워크 토폴로지를 모식적으로 나타낸 도면이다.
도 3은, N대 1의 네트워크 토폴로지를 모식적으로 나타낸 도면이다.
도 4는, N대 N의 네트워크 토폴로지를 모식적으로 나타낸 도면이다.
도 5는, 화상 제공 장치(101)와 화상 표시 장치(102)의 기능적 구성예를 나타낸 도면이다.
도 6은, Ghost가 Body의 시계에 개입하는 모습을 예시한 도면이다.
도 7은, Ghost가 Body로 시계 개입하는 시스템을 설명하기 위한 도면이다.
도 8은, Ghost가 Body의 시계에 개입하는 모습을 예시한 도면이다.
도 9는, Ghost가 Body의 시계에 개입하는 모습을 예시한 도면이다.
도 10은, Ghost가 Body로 시계 개입하는 시스템을 설명하기 위해 나타낸 도면이다.
도 11은, Ghost가 Body의 시계에 개입하는 모습(시계의 이동 방향의 표시)을 예시한 도면이다.
도 12는, Ghost가 Body의 시계에 개입하는 모습(문자 정보의 표시)을 예시한 도면이다.
도 13은, Ghost가 Body의 시계에 개입하는 모습(채팅 형식)을 예시한 도면이다.
도 14는, Ghost가 Body로 청각 개입하는 시스템을 설명하기 위한 도면이다.
도 15는, 복수의 Ghost로부터 Body로 동시 개입하는 공간(1500)을 예시한 도면이다.
도 16은, Ghost의 목소리의 볼륨의 패턴과 동일한 명멸 패턴을 포인터에 부여하는 시계 개입을 예시한 도면이다.
도 17은, 화상 제공 장치(101)에 있어서 Ghost로부터의 시계 개입을 처리하는 수순의 일례를 나타낸 흐름도이다.
도 18은, Ghost가 가리키는 장소를 나타내는 히트 맵을 표시하는 예를 나타낸 도면이다.
도 19는, 화상 제공 장치(101)에 있어서 다수의 Ghost로부터의 시계 개입을 히트 맵 형식으로 표시하기 위한 처리 수순을 나타낸 흐름도이다.
도 20은, 화상 제공 장치(101)에 있어서 Ghost로부터 보내져 오는 문자 정보를 표시하기 위한 처리 수순을 나타낸 흐름도이다.

이하, 도면을 참조하면서 본 명세서에서 개시하는 기술의 실시 형태에 대하여 상세히 설명한다.

A. 시스템 구성

도 1에는, 본 명세서에서 개시하는 기술을 적용한 시계 정보 공유 시스템(100)의 개요를 나타내고 있다. 도시의 시계 정보 공유 시스템(100)은, 현장을 촬영한 화상을 제공하는 화상 제공 장치(101)와, 화상 제공 장치(101)로부터 제공되는 화상을 표시하는 화상 표시 장치(102)의 조합으로 구성된다.

화상 제공 장치(101)는, 구체적으로는, 실제로 현장에 있으며 활동하는 관찰자(111)가 헤드부에 착용하는 카메라 부착 시스루형의 헤드 마운트 디스플레이로 구성된다. 여기에서 말하는 「시스루형」의 헤드 마운트 디스플레이는, 광학 투과형인 것을 기본으로 하지만, 비디오 시스루형이어도 된다. 헤드 마운트 디스플레이에 탑재되는 카메라는, 관찰자(111)의 거의 시선 방향을 촬영하여, 그 일인칭 영상(FPV: First Person View)을 제공한다.

한편, 화상 표시 장치(102)는, 현장 즉 화상 제공 장치(101)로부터 이격되어 배치되고, 화상 제공 장치(101)와 화상 표시 장치(102)는 네트워크 경유로 통신하는 것을 상정하고 있다. 여기에서 말하는 「이격」에는, 원격지 외에, 동일한 실내에서 약간(예를 들어, 수 미터 정도) 떨어져 있는 상황도 포함하는 것으로 한다. 또한, 도시하지 않은 서버를 통해 화상 제공 장치(101)와 화상 표시 장치(102) 사이에서 데이터 교환을 행하는 것도 상정된다.

화상 표시 장치(102)는, 예를 들어 현장에는 있지 않은 사람(촬영 화상의 시청자)(112)이 착용하는 헤드 마운트 디스플레이이다. 몰입형 헤드 마운트 디스플레이를 화상 표시 장치(102)에 사용하면, 시청자(112)는, 관찰자(111)와 동일한 광경을 보다 리얼하게 체험할 수 있다. 단, 시스루형의 헤드 마운트 디스플레이를 화상 표시 장치(102)에 사용해도 된다.

또한, 화상 표시 장치(102)는, 헤드 마운트 디스플레이로는 한정되지 않으며, 예를 들어 손목 시계형의 디스플레이여도 된다. 또는, 화상 표시 장치(102)는, 웨어러블 단말기일 필요는 없으며, 스마트폰이나 태블릿 등의 다기능 정보 단말기, 컴퓨터 스크린이나 텔레비전 수상기 등의 일반적인 모니터 디스플레이, 게임기, 나아가서는 스크린에 화상을 투영하는 프로젝터 등이어도 된다.

관찰자(111)는, 실제로 현장에 있으며, 자신의 신체로 활동하고 있는 점에서, 화상 제공 장치(101)의 유저인 관찰자(111)(또는, 화상 제공 장치(101))를, 이하에서는 「Body」라고도 칭한다. 이에 비해, 시청자(112)는, 현장에서 신체로 활동하는 것은 아니지만, 관찰자(111)의 일인칭 영상을 시청함으로써 현장에 대한 의식을 갖는다는 점에서, 화상 표시 장치(102)의 유저인 시청자(112)(또는, 화상 표시 장치(102))를, 이하에서는 「Ghost」라고도 칭한다.

Body는, 자신의 주변 상황을 Ghost에 전달하고, 또한 상황을 Ghost와 공유한다. 한쪽의 Ghost는, Body와 커뮤니케이션을 취해 이격한 장소로부터 작업 지원 등의 인터랙션을 실현할 수 있다. 시계 정보 공유 시스템(100)에 있어서, Ghost가 Body의 일인칭 체험에 몰입하여 인터랙션을 행하는 것을, 이하에서는 「JackIn」이라고도 칭한다.

시계 정보 공유 시스템(100)은, Body로부터 Ghost로 일인칭 영상을 송신하여 Ghost측에서도 시청·체험하는 것과, Body와 Ghost 간에서 커뮤니케이션을 취하는 것을 기본적인 기능으로 한다. 후자의 커뮤니케이션 기능을 이용하여, Ghost는, Body의 시계에 개입하는 「시계 개입」, Body의 청각에 개입하는 「청각 개입」, Body의 신체 혹은 신체의 일부를 동작시키거나 자극을 부여하거나 하는 「신체 개입」, Ghost가 Body를 대신하여 현장에서 이야기를 하는 「대체 회화」와 같은, 원격지로부터의 개입에 의해, Body에 대한 인터랙션을 실현할 수 있다. JackIn에서는, 「시계 개입」, 「청각 개입」, 「신체 개입」, 「대체 회화」와 같은 복수의 커뮤니케이션 채널이 있다고 할 수도 있다. 「시계 개입」, 「청각 개입」, 「신체 개입」, 「대체 회화」 각각의 상세에 대해서는 후술하기로 한다.

Ghost는, 「시계 개입」, 「청각 개입」, 「신체 개입」, 「대체 회화」를 통하여, Body에 대해서 현장에서의 행동을 지시할 수 있다. 예를 들어, 외과 수술 등의 의료 현장이나 토목 작업 등의 건축 현장 등 다양한 산업 분야의 작업 지원, 비행기나 헬리콥터의 조종 지시나 유도, 자동차의 운전자의 안내, 스포츠에 있어서의 코칭 혹은 인스트럭션 등의 용도에 시계 정보 공유 시스템(100)을 활용할 수 있다.

예를 들어, Body는, 자신의 시계를 타인과 공유하고 싶은 경우 외에, 시계 개입 등을 통하여, 현재 행하고 있는 작업에 대해서 타인으로부터 지원이나 지시, 유도, 안내를 받고 싶은(혹은, 받아야 하는) 경우에, 스스로 주도적으로 적당한 Ghost와의 JackIn(Body initiative start)을 실시한다.

또한, Ghost는, 자신이 나가는 일 없이 현장의 영상(타인의 일인칭 영상)을 시청하고 싶은 경우 외에, 타인이 행하고 있는 작업에 대해서 지원이나 지시, 유도, 안내를 행하고 싶은(혹은, 행해야 하는) 경우에, 스스로 주도적으로 해당하는 Body와의 JackIn(Ghost initiative start)을 실시한다.

단, Body는, 무제한으로 자신의 시계나 청각, 신체, 회화에 개입되면, 자신의 행동이 Ghost에 방해를 받거나, 혹은 자신의 행동에 지장을 초래해 위험한 경우나, 프라이버시가 침해되는 경우도 있다. 한편, Ghost에게 있어서도, 보고 싶지 않은 영상이 있는 경우나, 요청을 받아도 Body에 대해서 적절한 지원이나 지시, 유도, 안내 등의 서비스를 제공할 수 없는 경우가 있다. 따라서, Ghost의 Body로의 JackIn이나, JackIn한 상태에서의 Ghost로부터 Body로의 개입에 일정한 제한을 부과하도록 해도 된다.

또한, 도 1에서는 간소화를 위해, 화상 제공 장치(101)와 화상 표시 장치(102)를 각각 1대밖에 존재하지 않는, Body와 Ghost가 일대일의 네트워크 토폴로지를 도시하고 있다. 도 2에는, 1개의 Body와 복수(N)의 Ghost가 동시에 JackIn 하는 1대 N의 네트워크 토폴로지나, 도 3에 도시한 바와 같은, 복수(N)의 Body와 1개의 Ghost가 동시에 JackIn하는 N대 1의 네트워크 토폴로지, 도 4에 도시한 바와 같은, 복수(N)의 Body와 복수(N)의 Ghost가 동시에 JackIn하는 N대 N의 네트워크 토폴로지도 상정된다.

또한, 하나의 장치가 Body로부터 Ghost로 전환되거나, 반대로 Ghost로부터 Body로 전환되거나 하는 것이나, 동시에 Body와 Ghost의 역할을 갖는 것도 상정된다. 하나의 장치가 Ghost로서 어떤 Body에 JackIn함과 동시에, 다른 Ghost에 대해서 Body로서 기능하여, 3대 이상의 장치가 데이지 체인 접속되는 네트워크 토폴로지(도시생략)도 상정된다. 어느 쪽의 네트워크 토폴로지에 있어서도, Body와 Ghost 간에 서버(도시생략)가 개재되는 경우도 있다.

B. 기능적 구성

도 5에는, 화상 제공 장치(101)와 화상 표시 장치(102)의 기능적 구성예를 나타내고 있다.

화상 제공 장치(101)는, Body로서의 역할을 하는 유저(관찰자(112))의 이용에 제공되는 장치이다. 도 5에 도시한 예에서는, 화상 제공 장치(101)는, 촬상부(501)와, 화상 처리부(502)와, 출력부로서의 표시부(503), 제1 음성 출력부(504), 구동부(505) 및 제2 음성 출력부(506)와, 위치 검출부(507)와, 통신부(508)와, 제어부(509)와, 인증부(510)를 구비하고 있다.

촬상부(501)는, Body의 일인칭 영상을 촬영하는 카메라로 구성된다. 촬상부(501)는, 예를 들어 Body 즉 관찰자(111)의 시선 방향을 촬영하도록, 관찰자(111)의 헤드부에 부착된다. 또는, 촬상부(501)에 전천구 카메라를 사용하여, Body의 주위 360도의 전천구 화상을 제공할 수 있도록 해도 된다. 단, 전천구 화상은 반드시 360도일 필요는 없으며, 일부의 시야가 결여되어 있어도 된다. 또한, 전천구 화상은, 정보가 적은 바닥면을 포함하지 않는 반천구 화상이어도 된다(이하, 마찬가지).

화상 처리부(502)는, 촬상부(501)로부터 출력되는 화상 신호의 처리를 행한다. 촬상부(501)에 의해 촬영되는 Body의 일인칭 영상을 그대로 스트리밍하는 경우, Body는 자신의 의사로 주변을 바라보거나 시선 방향을 바꾸거나 하기 때문에, Ghost는 흔들림이 심한 영상을 시청하게 되어, VR(Virtual Reality) 멀미 혹은 모션 시크니스를 일으키는 등의 건강 피해가 우려된다. 또한, Body가 착안하지 않은 다른 개소를 Ghost가 시청하고 싶은 경우도 있다. 그래서, 화상 처리부(502)는, 촬상부 (501)가 촬영하는 Body의 일인칭 영상의 연속 화상으로부터 주변의 공간을 의사적으로 구축하도록 하고 있다. 구체적으로는, 화상 처리부(502)는, 촬상부(501)가 촬영하는 영상(전천구 화상)에 대해서 실시간으로 SLAM(Simultaneous Localization and Mapping) 인식 기술 등에 기초하는 공간 인식을 행하고, 현재의 비디오 프레임과 과거의 비디오 프레임을 공간적으로 서로 연결함으로써, Ghost가 컨트롤하는 가상적인 카메라 시점으로부터의 영상을 렌더링한다. 가상적인 카메라 시점에서 렌더링된 영상은, Body의 일인칭 영상이라고 하기보다도 의사적으로 Body의 체외로 이탈된 시점 영상이다. 따라서, Ghost측에서는 Body의 움직임과는 독립적으로 Body의 주위 환경을 관찰할 수 있으므로, 영상의 흔들림을 안정화시켜 VR 멀미를 방지함과 함께, Body가 착안하지 않은 다른 개소를 시청할 수 있다.

표시부(503)는, 화상 표시 장치(102)로부터 보내져 오는 정보를 표시 출력하여, Ghost에 의한 Body의 시계로의 개입을 실현한다. 전술한 바와 같이 화상 제공 장치(101)가 시스루형의 헤드 마운트 디스플레이로서 구성되는 경우, 표시부(503)는, Body와 일인칭 체험을 공유하는 Ghost의 의식을 표현한 AR(Augmented Reality) 화상을, 관찰자(111)의 시계(즉, 실세계의 풍경)에 중첩 표시한다. AR 화상은, 예를 들어 Ghost가 가리키는 장소를 나타내는 포인터나 어노테이션 등의 화상을 포함한다. 따라서, Ghost는, Body와의 커뮤니케이션을 통하여 그 시계에 개입하여, 현장에 있는 Body에 대한 인터랙션을 행할 수 있다.

제1 음성 출력부(504)는, 예를 들어 이어폰이나 헤드폰 등으로 구성되고, 화상 표시 장치(102)로부터 보내져 오는 정보를 Body에 들려줌으로써, Ghost에 의한 Body의 청각에의 개입을 실현한다. 화상 표시 장치(102)로부터는, Body와 일인칭체험을 공유하는 Ghost의 의식에 관한 정보가 송신된다. 화상 제공 장치(101)측에서는, 수신한 정보를 음성 신호로 변환하여, 제1 음성 출력부(504)로부터 음성 출력하고, Body 즉 관찰자(111)에게 들려준다. 또는, 일인칭 체험 중의 Ghost가 발화한 음성 신호가, 그대로 화상 표시 장치(102)로부터 송신된다. 화상 제공 장치(101)측에서는, 수신한 음성 신호를 그대로 제1 음성 출력부(504)로부터 음성 출력하고, Body 즉 관찰자(111)에게 들려준다. 또한, 제1 음성 출력부(504)로부터 출력하는 음성의 음량이나 음질, 출력 타이밍 등을 적절히 조정하도록 해도 된다. 또는, 화상 표시 장치(102)로부터 도착하는 화상 정보나 문자 정보를 음성 신호로 변환하여, 제1 음성 출력부(504)로부터 음성 출력하도록 해도 된다. 따라서, Ghost는, Body와의 커뮤니케이션을 통해 그 청각에 개입하여, 현장에 있는 Body에 대한 인터랙션을 행할 수 있다.

구동부(505)는, Body의 신체 혹은 신체의 일부를 동작시키거나 자극을 부여하거나 하여, Ghost에 의한 Body의 신체로의 개입을 실현한다. 구동부(505)는, 예를 들어 관찰자(111)의 신체에 대해서, 촉각(택타일)이나(건강에 해가 없을 정도의 경미한) 전기 자극을 인가하는 액추에이터로 구성된다. 또는, 구동부(505)는, 관찰자(111)가 팔이나 손, 다리 등에 장착하는 파워 슈트나 외골격(exoskeleton)을 구동함으로써 신체의 운동을 보조 또는 구속하는 장치(예를 들어, 특허문헌 5 참조)로 구성된다. 따라서, Ghost는, Body와의 커뮤니케이션을 통해 그 신체에 개입하여, 현장에 있는 Body에 대한 인터랙션을 행할 수 있다.

제2 음성 출력부(506)는, 예를 들어 Body가 장착하는 웨어러블 스피커 등으로 구성되고, 화상 표시 장치(102)로부터 도착하는 정보 또는 음성 신호를 외부로 음성 출력한다. 제2 음성 출력부(506)로부터 출력되는 음성은, 현장에서는 마치 Body 본인이 이야기하고 있는 것처럼 들린다. 따라서, Ghost는, Body를 대신하여 Body가 있는 현장의 사람들과 회화하거나, 음성에 의한 지시를 행하거나 하는 것(대체 회화)이 가능하다.

위치 검출부(507)는, 예를 들어 GPS(Global Positioning System) 신호를 사용하여 화상 제공 장치(101)(즉 Body)의 현재 위치 정보를 검출한다. 검출된 위치 정보는, 예를 들어 Ghost가 원하는 장소에 있는 Body를 검색할 때 이용된다.

통신부(508)는, 네트워크 경유로 화상 표시 장치(102)와 상호 접속하고, 촬상부(501)에 의해 촬영한 일인칭 영상이나 공간 정보의 송신, 화상 표시 장치(102)와의 커뮤니케이션을 행한다. 통신부(508)의 통신 수단은 무선 또는 유선의 어느 것이어도 되며, 또한, 특정한 통신 규격에 한정되지 않는다.

인증부(510)는, 네트워크 경유로 상호 접속되는 화상 표시 장치(102)(혹은, 그 유저인 Ghost)의 인증 처리를 행하고, 화상 표시 장치(102)로부터의 정보를 출력하는 출력부를 결정한다. 그리고, 제어부(509)는, 인증부(510)에 의한 인증 결과에 따라서, 출력부로부터의 출력 동작을 제어한다. 제어부(509)는, 예를 들어 CPU(Central Processing Unit)와 GPU(Graphic Processing Unit)에 상당하는 기능을 구비하고 있다.

예를 들어, 인증 처리 결과, 화상 표시 장치(102)에 시계 개입만이 허용되어 있는 경우에는, 제어부(509)는, 표시부(503)로부터의 표시 출력만을 실행한다. 또한, 화상 표시 장치(102)에 시계 개입뿐만 아니라 청각 개입도 허용되어 있는 경우에는, 제어부(509)는, 표시부(503)로부터의 표시 출력과 함께 제1 음성 출력부 (504)로부터 음성 출력도 실행한다. Body가 Ghost로부터의 개입을 허용하는 범위는, permission 레벨로서 정의된다. 한편, Ghost가 Body에 대해서 개입을 행하는 범위는, mission 레벨로서 정의된다(후술). 단, 인증부(510) 및 제어부(509)에 의한 상기 처리를, 화상 제공 장치(101)가 아닌, 화상 제공 장치(101)와 화상 표시 장치(102)의 사이에 개재되는 서버(도시 생략)에 의해 실행하도록, 시계 정보 공유 시스템(100)을 구성하는 것도 가능하다.

한편, 화상 표시 장치(102)는, Ghost로서의 역할을 하는 유저(시청자(112))의 이용에 제공되는 장치이다. 도 5에 도시한 예에서는, 화상 표시 장치(102)는, 통신부(511)와, 화상 복호부(512)와, 표시부(513)와, 유저 입력부(514)와, 위치 자세 검출부(515)를 구비하고 있다.

통신부(511)는, 네트워크 경유로 화상 제공 장치(101)와 상호 접속하여, 화상 제공 장치(101)로부터 일인칭 영상의 수신이나, 화상 제공 장치(101)와의 커뮤니케이션을 행한다. 통신부(511)의 통신 수단은 무선 또는 유선의 어느 것이어도 되며, 특정한 통신 규격에 한정되지 않지만, 화상 제공 장치(101)측의 통신부(508)와 정합하고 있는 것으로 한다.

화상 복호부(512)는, 통신부(511)에서 화상 제공 장치(101)로부터 수신한 화상 신호를 복호 처리한다. 표시부(513)는, 화상 복호부(512)에 의해 복호한 후의 전천구 화상(Body의 일인칭 영상)을 표시 출력한다. 또한, Body의 일인칭 영상으로부터 Body의 체외로 이탈된 시점 영상을 렌더링하는 처리(전술)를, 화상 제공 장치(101)측의 화상 처리부(502)가 아닌, 화상 복호부(512)에 의해 행하도록 해도 된다.

위치 자세 검출부(515)는, 시청자(112)의 헤드부의 위치 및 자세를 검출한다. 검출한 위치 및 자세는, Ghost의 현재의 시점 위치 및 시선 방향에 상당한다. Body의 일인칭 영상으로부터 의사적으로 Body의 체외로 이탈된 시점 영상을 만들어 낼 때의 가상적인 카메라(전술)의 시점 위치 및 시선 방향을, 위치 자세 검출부(515)에 의해 검출한 시청자(112)의 헤드부의 위치 및 자세에 기초하여 컨트롤할 수 있다.

표시부(513)는, 예를 들어 Ghost로서의 시청자(112)가 착용하는 헤드 마운트 디스플레이로 구성된다. 몰입형 헤드 마운트 디스플레이를 표시부(513)에 사용하면, 시청자(112)는, 관찰자(111)와 동일한 광경을 보다 리얼하게 체험할 수 있다. 시청자(112) 즉 Ghost가 시청하는 영상은, Body의 일인칭 영상 자체가 아닌, 일인칭 영상의 연속 화상으로부터 의사적으로 구축된 주변의 공간(의사적으로 Body의 체외로 이탈한 시점 영상)인 것으로 한다(전술). 또한, Ghost의 헤드 트래킹, 즉 위치 자세 검출부(515)에 의해 검출한 시청자(112)의 시점 위치 및 시선 방향에 추종하도록 가상 카메라를 제어하여, 표시부(513)의 표시 화각을 이동시킬 수 있다.

표시부(513)로서, 몰입형 헤드 마운트 디스플레이 대신에, 시스루형의 헤드 마운트 디스플레이나, 손목 시계형의 디스플레이 등의 웨어러블 단말기를 사용해도 된다. 또는, 표시부(513)는 웨어러블 단말기일 필요는 없으며, 스마트폰이나 태블릿 등의 다기능 정보 단말기, 컴퓨터 스크린이나 텔레비전 수상기 등의 일반적인 모니터 디스플레이, 게임기, 나아가서는 스크린에 화상을 투영하는 프로젝터 등이어도 된다.

유저 입력부(514)는, Ghost로서의 시청자(112)가, 표시부(513)에 표시되어 있는 Body의 일인칭 영상을 관찰한 것에 대해, Ghost 자신의 의도나 의식을 입력하기 위한 디바이스이다.

유저 입력부(514)는, 예를 들어 터치 패널이나 마우스, 조이스틱 등의 좌표 입력 장치로 구성된다. Ghost는, Body의 일인칭 영상을 표시하는 화면 내에서, 특히 관심이 있는 장소를, 터치나 마우스의 클릭 조작 등에 의해 직접 지시할 수 있다. Ghost는 시청하고 있는 영상의 화소 좌표상에 지시를 행하지만, Body측의 촬영 영상은 항상 변화하므로 의미를 갖지 않는다. 그래서, 유저 입력부(514)는, Ghost가 화면의 터치나 클릭 조작 등에 의해 지시한 화소 위치에 대응하는 3차원 공간상의 위치 정보를 화상 해석 등에 의해 특정하고, 그 3차원 공간상의 위치 정보를 화상 제공 장치(101)에 송신한다. 따라서, Ghost는, 화소 좌표가 아닌, 공간에 대해서 고정할 수 있는 포인팅을 행할 수 있다.

또한, 유저 입력부(514)는, 카메라에 의한 Ghost의 얼굴의 촬영 화상이나 안구 전위를 사용하여 안구 운동을 포착하여, Ghost가 숙시(gaze)하고 있는 장소를 산출해 내고, 그 장소를 특정하는 정보를 화상 제공 장치(101)에 송신하도록 해도 된다. 그 때도, 유저 입력부(514)는, Ghost가 숙시하는 화소 위치에 대응하는 3차원 공간상의 위치 정보를 화상 해석 등에 의해 특정하고, 그 3차원 공간상의 위치 정보를 화상 제공 장치(101)에 송신한다. 따라서, Ghost는, 화소 좌표가 아닌, 공간에 대해서 고정할 수 있는 포인팅을 행할 수 있다.

또한, 유저 입력부(514)는, 키보드 등의 문자 입력 장치로 구성된다. Ghost는, Body와 동일한 일인칭 체험을 했을 때, Body에 전달하고 싶은 의도나 품은 의식 등을, 문자 정보로서 입력할 수 있다. 유저 입력부(514)는, Ghost가 입력한 문자 정보를 그대로 화상 제공 장치(101)에 송신해도 되고, 음성 신호 등 다른 신호 형식으로 치환하고 나서 화상 제공 장치(101)에 송신하도록 해도 된다.

또한, 유저 입력부(514)는, 마이크 등의 음성 입력 장치로 구성되고, Ghost가 발화한 음성을 입력한다. 유저 입력부(514)는, 입력된 음성을, 음성 신호인 채로, 통신부(511)로부터 화상 제공 장치(101)로 송신해도 된다. 또는, 유저 입력부(514)는, 입력 음성을 음성 인식하여 문자 정보로 변환하고, 문자 정보로서 화상 제공 장치(101)에 송신하도록 해도 된다.

Ghost는, Body의 일인칭 영상을 시청하면서, 「그」, 「이것」과 같은 지시어를 사용해서 사물을 가리키는 것이 상정된다. 이러한 경우, 유저 입력부(514)는, 지시어가 가리키는 사물의 3차원 공간상의 위치 정보를 언어 해석, 및 화상 해석 등에 의해 특정하고, 그 3차원 공간상의 위치 정보를 화상 제공 장치(101)로 송신한다. 따라서, Ghost는, 화소 좌표가 아닌, 공간에 대하여 고정할 수 있는 포인팅을 행할 수 있다.

또한, 유저 입력부(514)는, Ghost의 몸짓이나 손짓을 입력하는 제스처 입력 장치여도 된다. 제스처를 포착하는 수단은 특별히 한정되지 않는다. 예를 들어, 유저 입력부(514)는, Ghost의 사지의 움직임을 촬영하는 카메라와 그 촬영 화상을 처리하는 화상 인식 장치를 구비하고 있어도 된다. 또한, 화상 인식을 용이하게 하기 위해서, Ghost의 신체에 마커를 부착해도 된다. 유저 입력부(514)는, 입력된 제스처를, 예를 들어 Body의 신체에 개입하는 제어 신호로서, 통신부(411)로부터 화상 제공 장치(101)로 송신해도 된다. 또한, 유저 입력부(514)는, 입력된 제스처를, Body의 시계에 개입하는 화상 정보(좌표 정보나, 중첩 표시하는 AR 화상, 또는 문자 정보 등)나, Body의 청각에 개입하는 음성 신호로 변환하여, 통신부 (511)로부터 화상 제공 장치(101)로 송신해도 된다. 또한, 유저 입력부(514)는, Ghost가 제스처에 의해 지시한 화소 위치에 대응하는 3차원 공간상의 위치 정보를 화상 해석 등에 의해 특정하고, 그 3차원 공간상의 위치 정보를 화상 제공 장치(101)로 송신한다. 따라서, Ghost는 화소 좌표가 아닌, 공간에 대해서 고정할 수 있는 포인팅을 행할 수 있다.

시계 정보 공유 시스템(100)에 있어서 전개되는 JackIn이라고 하는 서비스는, AR 화상을 중첩 표시한다는 관점에서는, 일반적인 AR 기술과 유사하다. 단, JackIn에 있어서는, 인간(Ghost)이 다른 인간(Body)을 확장한다는 점에서, 컴퓨터에 의해 부여되는 통상의 AR 기술과는 상이한 것이라 생각된다.

또한, JackIn은, 텔레프레전스(전술)와 유사한 점도 있다. 단, 통상의 텔레프레전스는, 로봇과 같은 기계의 시점에서 세계를 바라보는 인터페이스인 데 비해, JackIn은 인간(Ghost)이 다른 인간(Body)의 시점에서 바라본다고 하는 상황이라는 점에서 상이하다. 또한, 텔레프레전스에서는, 인간이 마스터이고 기계가 슬레이브로 되어, 슬레이브인 기계는 인간의 움직임을 충실하게 재현하는 것을 전제로 하고 있다. 이에 비해, 인간(Ghost)이 다른 인간(Body)에 JackIn하는 경우, Body는 Ghost에 따라서 움직이는 것만은 아니며, 독립성을 허용하는 인터페이스이다.

상기 시계 정보 공유 시스템(100)에 있어서, 화상 제공 장치(101)로부터 화상 표시 장치(102)에 제공되는 영상은, Body가 현장에서 관찰하고 있는 리얼타임 영상(즉, 촬상부(501)가 촬영하는 라이브 영상)에는 한정되는 것은 아니며, 녹화된 과거의 영상이어도 된다. 예를 들어, 화상 제공 장치(101)가 과거의 영상을 녹화한 대용량 기억 장치(도시 생략)를 구비하고, 화상 제공 장치(101)로부터 과거의 영상을 배신하도록 해도 된다. 또는, Body와 Ghost 간의 JackIn을 통제하는 JackIn 서버(가칭), 혹은 그 밖의 기록 서버상에서 화상 제공 장치(101)에 의한 과거의 녹화 영상을 축적해 두고, 이들 서버로부터 Ghost(화상 표시 장치(102))에 과거의 영상을 스트리밍 배신하도록 해도 된다. 단, Ghost는, 과거의 영상을 시청하는 경우에는, 시계, 청각을 포함하는 Body에의 개입이 일절 허용되지 않는다. 왜냐하면, Ghost가 시청하고 있는 영상은 Body가 현재 작업을 행하고 있는 현장의 영상이 아니며, 과거의 영상에 기초하여 개입하면 Body의 현재의 작업에 지장을 초래하기 때문이다.

또한, 2대의 기기 사이에 있어서의 시계 공유의 상세에 대해서는, 예를 들어 본 출원인에 이미 양도된 일본 특허출원 제2013-78893호 명세서도 참조하길 바란다. 또한, 동 시스템(100)에 있어서의 시계 개입(AR 화상의 표시)의 상세에 대해서는, 예를 들어 본 출원인에 이미 양도된 일본 특허출원 제2013-78892호 명세서, 일본 특허출원 제2013-78894호 명세서, 일본 특허출원 제2013-191464호 명세서도 참조하길 바란다.

C. Ghost로부터 Body로의 시계 개입

전술한 바와 같이, JackIn에서는, 「시계 개입」, 「청각 개입」, 「신체 개입」, 「대체 회화」와 같은 복수의 커뮤니케이션 채널이 있다. 따라서, Body는, Ghost와의 JackIn을 개시함으로써, 자신의 시계를 Ghost와 공유할 수 있음과 함께, 시계 개입 등을 통하여, 현재 행하고 있는 작업에 대해서 Ghost로부터 지원이나 지시, 유도, 안내를 받을 수 있다. 또한, Ghost는, Body와의 JackIn을 개시함으로써, 자신은 현장에 나가지 않아도 Body의 일인칭 체험을 할 수 있음과 함께, 시계 개입 등을 통하여 Body의 작업에 대해서 지원이나 지시, 유도, 안내를 행할 수 있다. 이하에서는, 특히 시계 개입에 착안하여, Body와 Ghost 간의 인터랙션에 대하여 설명한다.

화상 표시 장치(102)측에서는, 터치 패널이나 마우스, 조이스틱 등의 좌표 입력 장치로 구성되는 유저 입력부(514)를 통해 Ghost가 표시 화상상의 어떤 장소를 지시했을 때, 그 장소를 특정하는 정보를 화상 제공 장치(101)로 송신한다. 그리고, 화상 제공 장치(101)측에서는, 표시부(503)가, Ghost가 지시한 장소를 나타내는 포인터 등의 AR 화상을, Body의 시계에 중첩하여 표시한다. 도 6의 (A)에는, 표시부(513)에 표시되는 화상(Ghost가 체험하는 Body의 일인칭 화상)을 예시하고 있다. 참조 번호 601로 나타낸 바와 같이, Ghost는, 이 화상 중의 어떤 장소를 터치에 의해 지시했다고 하자. 도 6의 (B)에는, 이때의 Body의 시계를 예시하고 있다. 참조 번호 602로 나타낸 바와 같이, 화상 제공 장치(101)측의 표시부(503)는, Ghost에 의해 지시된 장소를 나타내는 AR 화상을, Body의 시계에 중첩하여 표시한다.

또한, Ghost가 음성이나 제스처에 의해 표시 화상상의 어떤 장소를 지시했을 때도, 도 6에 나타낸 예와 마찬가지로, 그 장소를 특정하는 정보를 화상 제공 장치(101)에 송신하고, 화상 제공 장치(101)측에서는 그 장소를 나타내는 AR 화상이 중첩 표시된다. 또는, Ghost의 안구 운동을 포착하거나 해서 시선 방향을 검출하여, Ghost가 숙시(gaze)하고 있는 장소를 산출해 내고, 그 장소를 특정하는 정보를 화상 제공 장치(101)에 송신하도록 해도 된다.

도 7에는, Ghost로부터 Body로 시각 개입하는 시스템을 모식적으로 나타내고 있다. 화상 표시 장치(102)측으로부터는, Ghost가 유저 입력부(514)를 통해 지시한 화면상의 화소 좌표 정보를 송출하는 것이 아니라, Body의 일인칭 화상의 3차원 공간상에서 Ghost가 지시한 장소를 화상 해석 등에 의해 특정하고, 그 3차원 공간상의 위치 정보를 화상 제공 장치(101)에 송신한다. 그리고, 화상 제공 장치(101)측에서는, 표시부(503)는, 수신한 3차원 위치 정보에 기초하여, Ghost가 지시한 장소를 Body의 시계상의 동일한 장소에 매핑하고, 그 장소를 제시하는 AR 화상(포인터)을 Body의 시계에 중첩 표시하도록 한다. 또한, 포인터 등의 AR 화상은, 표시부(503)의 표시 화면상의 화소 위치에 매핑되어 있는 것이 아니라, 실제로 3차원 공간에 매핑되어 있으므로, Body가 고개를 돌리거나 장소를 이동하거나 해도, 포인터는 3차원 공간상의 동일한 장소에 중첩 표시된 상태가 유지된다.

화상 표시 장치(102)측에서 Ghost의 헤드 트래킹(전술)을 행하고 있는 경우에는, Body의 시계와 Ghost가 관찰하는 표시 화각이 일치하지 않는 경우가 있다. 예를 들어, Body의 현재의 시야가 도 8이며, 이에 비해, Ghost는 오른쪽을 향했기 때문에, 화상 표시 장치(102)의 표시부(413)에서는 도 9에 도시한 화상이 표시되고 있고, Body의 시계와는 일치하지 않는다. 이러한 경우에도, Ghost가 유저 입력부(514)에서 지시한 장소를, Body측의 시계의 3차원 공간상의 위치 정보로 변환하고 나서 송신함으로써, 화상 제공 장치(101)측에서는 표시부(503)가 3차원 공간상의 동일한 장소에 AR 화상을 표시하여, Ghost에 지시된 장소를 Body에 정확하게 전달할 수 있다.

예를 들어, Ghost가 도 9에 도시한 표시 화상 내에서, 참조 번호 901로 나타낸 바와 같이, 운하의 연안에 계류되어 있는 1척의 배를 지시하였다고 하자. 유저 입력부(514)는, Ghost가 배(901)를 화면상에서 지시하였음을 알아차리면, 배(901)의 장소를 나타내는 3차원 공간상의 위치 정보를 화상 제공 장치(101)에 송신한다. 화상 제공 장치(101)측에서는, 표시부(503)는, 수신한 3차원 위치 정보에 기초하여, Ghost가 지시한 장소를 Body의 시계에 매핑하고, Ghost가 지시한 배에 대해서, 참조 번호 801로 나타낸 포인터와 같은 AR 화상을 Body의 시계에 중첩 표시한다. 따라서, Body는, 자신의 시계에 있는 배를 Ghost가 지시하고 있음을 시각적으로 이해할 수 있어, Ghost로부터의 시각 개입에 의한 인터랙션을 실현할 수 있다.

또한, 도 8에 도시된 바와 같은 장소의 지시라는 형태 이외에, 시야의 이동의 지시라는 형태로도, Ghost는 Body의 시계에 개입할 수 있다.

도 10에는, Ghost가 Body에 시계의 이동을 지시하는 시스템을 모식적으로 나타내고 있다. 화상 표시 장치(102)측에서는, Ghost는, 참조 번호 1001로 나타낸 바와 같이, 터치 패널상에서의 스와이프 조작에 의해, Body에 대한 시야의 이동 방향의 지시를 입력할 수 있다. 마우스를 사용한 드래그 조작, 조이스틱에 의한 방향 입력을 사용할 수도 있다. 또는, Ghost는, 「좀 더 왼쪽을 봐」등의 음성 입력에 의해서도 Body에 대한 시야의 이동 방향의 지시를 입력할 수 있다.

또한, 화상 표시 장치(102)측에서 음성 입력을 이용하는 경우에는, 유저 입력부(514)는, Ghost의 음성을 인식하여, Body에 대한 시야의 이동 방향의 지시로 변환하면 된다. 화상 표시 장치(102)측에서의 이러한 지시에 비하여, 화상 제공 장치(101)측에서는, 참조 번호 1101로 나타낸 화살표와 같은, 시계의 이동 방향을 나타내는 AR 화상을 Body의 시계에 중첩 표시하여(도 11 참조), 좀 더 좌측을 보도록(혹은 좌측으로 진행하도록) Body에 지시를 내릴 수 있다.

또한, 표시부(503)는, 도 7이나 도 11에 도시한 바와 같은 도형을 포함하는 AR 화상을 Body의 시계에 중첩한다는 표시 형태 외에, Ghost로부터의 지시를 나타내는 문자 정보를 표시하도록 해도 된다. 도 12에는, 참조 번호 1201로 나타낸 바와 같이, Ghost로부터 지시된 「좀 더 왼쪽을 봐」라는 문자 정보를 표시하고 있는 모습을 나타내고 있다. 또는, 도 13에 도시한 바와 같이, Body의 시계의 주연 영역(1301)을 사용하여, 채팅이나 전자게시판과 같은 표시 형식으로, Ghost가 지시하는 문자 정보를 표시하도록 해도 된다.

표시부(503)가 문자 정보를 Body의 시계의 어느 장소에 배치할지는 임의이다. 단, 관찰자(111)가 행하고 있는 작업의 방해가 되지 않도록 하기 위해서는, 도 12에 도시한 바와 같이 Body의 시계의 주연에 문자 정보를 표시하도록 하여, 가능한 한 시계를 가리지 않도록 하는 것이 바람직하다. 또는, Body가 Ghost로부터의 긴급한 지시를 놓치지 않도록 하기 위해서는, 표시부(503)는, 일부러 Body의 시각의 중앙에 크게(즉, 눈에 띄게), 문자 정보를 표시하도록 해도 된다.

또한, Ghost로부터 문자 정보를 포함하는 지시가 연속해서 보내져 오는 경우에는, 표시부(503)는, 수신한 순서대로 문자 정보를 전환하여 표시하거나, 문자 정보를 수직 또는 수평 방향으로 스크롤 표시하거나 하도록 해도 된다.

또한, 화상 제공 장치(101)측에서는, Ghost의 지시를, 화상 표시 장치(102)로부터 문자 정보로서 수취한 경우에, 상기와 같이 표시부(503)에서 표시하는 것이 아니라, 문자 정보를 음성 신호로 변환하고, 제1 음성 출력부(504)로부터 음성 출력하여, 음성의 메시지로서 Body에 전달하도록 해도 된다(도 14 참조). 문자 정보를, 시각이 아니라 청각으로서 출력함으로써, Body의 시계를 가리지 않고, Ghost로부터의 지시를 전달할 수 있다. Body로서의 관찰자(111)가 시계를 일부라도 가리면 현장에서의 작업에 지장을 초래하는 경우나, Body가 현장에서의 음성을 듣지 못해도 작업을 계속할 수 있는 경우(1인 작업의 경우 등)에는, 문자 정보를 음성 신호로 변환하여 음성 출력하도록 하면, Body에 대해서 효과적으로 지시를 행할 수 있다.

D. 복수의 Ghost로부터 Body로의 동시 개입

전술한 바와 같이, Ghost는, 화상 표시 장치(102)와 화상 제공 장치(101) 사이의 커뮤니케이션 기능을 이용하여, 「시계 개입」, 「청각 개입」, 「신체 개입」을 행함으로써, Body에 대해서 현장에서의 행동을 지시할 수 있다.

Body와 Ghost가 1대 1의 관계에 있을 때에는, Body는, 「시계 개입」, 「청각 개입」, 「신체 개입」이 누구로부터의 지시에 의한 것인지를 명확하게 이해할 수 있다.

한편, 도 2에 도시한 바와 같은, 하나의 Body에 대해서 복수(N)의 Ghost가 JackIn 하는 1대 N(혹은 N대 N)의 네트워크 토폴로지에서는, 동시에 복수의 Ghost가 동시에 Body의 시계, 청각, 신체에 개입해 오는 것도 상정된다. 예를 들어, 1인의 Body에 대해서 복수의 Ghost가 시각 개입해 와서 Body의 시계(AR 표시)가 번잡해지거나, 복수의 Ghost로부터의 청각 개입이 서로 섞여서 개개의 Ghost로부터의 인스트럭션을 알아듣지 못하게 되거나, 복수의 Ghost가 동시에 신체 개입하여 Body가 몸 움직임을 취할 수 없게 되거나 하는 「혼신」이 문제가 된다.

1대 N 형식의 JackIn의 사용례로서, 예를 들어 도 15에 도시한 바와 같이, 참조 번호 1500으로 나타낸 공간에서, 2인의 Body(1510, 1520)가 게임 등의 대전을 행할 때, 한쪽의 Body(1511)에 대해서 공간(1300)을 부감하는 복수의 Ghost(1511, 1512, 1513)가 지시를 보내고(즉 개입하고), 마찬가지로, 다른 쪽의 Body(1520)에 대해서 후방의 복수의 Ghost(1521, 1522, 1523)가 지시를 보내는(즉 개입하는) 등의 형태를 들 수 있다.

이와 같은 경우, Ghost(1511, 1512, 1513)의 집단(혹은, Ghost(1521, 1522, 1523)의 집단)은, 「3명 모이면 문수보살의 지혜」라는 말이 있듯이, Body(1510)(혹은, Body(1520))에, 한 사람 한 사람으로는 상기할 수 없는 적확하고 우수한 지시를 내릴 수 있다. 반대로, Body(1510)(혹은, Body(1520))에 지도하는 사람이 너무 많기 때문에 통일성이 없어, 예상이 빗나간 방향으로 게임을 진행시켜버려, 「사공이 많으면 배가 산으로 간다」와 같은 말이 오히려 들어맞는 상황에 빠질 우려도 있다.

그래서, 본 실시 형태에서는, 화상 제공 장치(101)측의 출력부(표시부(503), 제1 음성 출력부(504), 구동부(505), 제2 음성 출력부)는, 복수의 Ghost가 동시에 개입해 온 경우(즉, 복수 대의 화상 표시 장치(102)로부터의 정보를 동시에 수신한 경우), 모든 Ghost로부터의 정보를 단순하게 출력하는 것이 아니라, 복수의 정보를 집약하고 나서 출력함으로써, Body측에서의 혼신 방지 처리를 행하도록 한다.

예를 들어, Body에 의한 촬상 화상(일인칭 영상)을 제1 Ghost와 제2 Ghost가 각각 수신하고, 제1 Ghost에 대한 입력에 따라서 생성되는 제1 정보와 제2 Ghost에 대한 입력에 따라서 생성되는 제2 정보가 Body에 보내져 오는 경우, 제어부(509)는, 이들 제1 정보와 제2 정보를 집약하여 얻어지는 집약 화상을 표시부(503)에서 표시 출력하도록 제어한다.

구체예에 대하여, 도 16을 참조하면서 설명한다. 복수의 Ghost가 각각 목소리를 발하면서 Body의 시야 내의 어느 장소를 가리킨다고 하는 시계 개입을 행하는 경우, 각 Ghost가 각각 지시한 장소에 단순히 포인터를 AR 표시하는 것만으로는, Body는 각 Ghost의 목소리와 포인터의 매칭을 하기가 어렵다. 그래서, 시각 개입부(403)는, 도 16에 도시한 바와 같이, 해당하는 Ghost의 목소리의 볼륨의 패턴(1602)과 동일한 파형으로 동기적으로 명멸하는 명멸 패턴(1603)을 포인터(1601)에 부여하도록 한다. 이에 의해, Body는, 목소리의 볼륨의 변화와 동기하여 명멸하는 포인터(1601)를 자신의 시계 내에서 찾아냄으로써, Ghost의 목소리와 포인터의 매칭을 쉽게 하게 된다.

도 17에는, 화상 제공 장치(101)에 있어서 Ghost로부터의 시계 개입을 처리하기 위한 수순의 일례를 흐름도의 형식으로 나타내고 있다.

화상 표시 장치(102)로부터, Body의 시계에 개입하는 인스트럭션(예를 들어, Ghost가 지시하는 장소의 정보)을 통신부(406)에서 수신했을 때에는(스텝 S1501의 "예"), 동일한 화상 표시 장치(102)로부터 Ghost의 음성 정보도 수신하였는지 여부를 추가로 체크한다(스텝 S1502).

여기서, 동일한 화상 표시 장치(102)로부터 Ghost의 음성 정보를 수신하지 않은 경우에는(스텝 S1502의 "아니오"), 표시부(503)는, Ghost가 지시하는 장소를 나타내는 포인터의 AR 화상을, 그대로(명멸 없이) Body의 시계에 중첩 표시하여(스텝 S1503), 본 처리 루틴을 종료한다.

한편, 동일한 화상 표시 장치(102)로부터 Ghost의 음성 정보를 수신하고 있는 경우에는(스텝 S1502의 "예"), 표시부(503)는, 그 음성 정보를 해석하여 음성의 볼륨 패턴을 추출하면(스텝 S1504), 목소리의 볼륨 패턴과 동일한 명멸 패턴을 갖는 포인터의 AR 화상을 Body의 시계에 중첩 표시하여(스텝 S1505), 본 처리 루틴을 종료한다.

또한, 1인의 Body에 대해서 방대한 수의 Ghost가 동시에 시계 개입해 왔을 때, 각 Ghost가 가리키는 장소에 포인터를 표시해 가면, Body의 시계는 포인터로 가로막히고, 실제로 어느 장소가 지시되었는지 알 수 없게 되어버린다. 또한, Body의 시계가 포인터의 AR 화상으로 덮여버려, Body는 현장에서 몸 움직임을 취할 수 없게 되어 버린다. 그래서, 표시부(503)는, 동시에 시계 개입해 오는 다수의 Ghost가 가리키는 장소를 집계하여, 도 18 중의 참조 번호 1801 내지 1804로 나타낸 바와 같이, 지시된 장소의 분포를 히트 맵 형식으로서 표시하도록 해도 된다. 이에 의해, 동시에 시계 개입해 오는 Ghost의 수가 어느 정도 증대해도, Body의 시계가 무제한으로 가려지는 것을 방지할 수 있음과 함께, Body는, 보다 많은 Ghost가 지시하는 장소를 히트 맵의 표시에 기초하여 용이하게 시인할 수 있다.

히트 맵은, 집합적인 포인터 표시라고 할 수도 있다. 또한, 히트 맵은, 표시부(503)의 표시 화면상의 화소 위치에 매핑되어 있는 것이 아니라, 실제로 3차원 공간에 매핑되어 있으므로, Body가 고개를 돌리거나 장소를 이동하거나 해도, 히트 맵은 3차원 공간상의 동일한 장소에 중첩 표시된 상태가 유지된다.

도 19에는, 화상 제공 장치(101)에 있어서 다수의 Ghost로부터의 시계 개입을 히트 맵의 형식으로 표시하기 위한 처리 수순을 흐름도의 형식으로 나타내고 있다.

우선, Body의 시계에 개입하는 Ghost의 수(즉, Ghost가 가리키는 장소의 정보를 송신해 오는 화상 표시 장치(102)의 대수)가 소정수를 초과하였는지 여부를 체크한다(스텝 S1701).

여기서, 시계에 개입하는 Ghost의 수가 소정수 미만일 때에는(스텝 S1701의 "아니오"), 표시부(503)는, 통상의 시계 개입 처리를 실행하고(스텝 S1702), 본 처리 루틴을 종료한다. 통상의 시각 개입 처리는, 예를 들어 도 17에 나타낸 처리 수순에 따라서 실시되고, Ghost가 가리킨 장소에 포인터가 중첩 표시된다.

한편, 시계에 개입하는 Ghost의 수가 소정수를 초과할 때에는(스텝 S1701의 "예"), 표시부(503)는, 동시에 시계 개입해 오는 다수의 Ghost가 가리키는 장소를 나타내는 히트 맵의 표시를 실시한다. 구체적으로는, Body의 시계의 3차원 공간상에서 각 Ghost가 가리키는 장소의 분포를 취하고(스텝 S1703), 그 분포를 컬러 스케일 혹은 농담 스케일에 따라서 플롯한 히트 맵을 작성한다(스텝 S1704). 그리고, 작성한 히트 맵을 Body의 시계에 중첩 표시한다(스텝 S1705).

또한, 도 13에 도시한 바와 같이, 화상 표시 장치(102)측에서 키보드 등으로부터 문자 입력된 문자 정보나, Ghost의 음성을 인식하여 얻어지는 문자 정보를, 채팅과 같은 표시 형식으로 Body의 시계에 표시한다는 시계 개입의 형태도 있다. 그런데, 다수의 Ghost로부터 동시에 문자 정보가 보내져 온 경우에, 이들을 예를 들어 시계열적으로 단순하게 배열하여 Body의 시계에 표시하면, Body는 무엇을 하면 되는지 알 수 없게 되어 버린다는 문제가 있다. 간단한 예를 들자면, 「좀 더 왼쪽을 봐」와 「좀 더 오른쪽을 봐」라는, 상반된 행동을 지시하는 문자 정보가 동시에 표시되면, Body는 어느 쪽의 지시에 따라야 할지 알 수 없어, 혼란해져 버릴 것이다. 또한, Body의 시계가 많은 문자 정보로 채워져 버린다는 문제가 있다.

그래서, 표시부(503)는, 다수의 Ghost로부터 보내져 온 문자 정보를 모두 표시하는 것이 아니라, Body의 시계에 표시하는 문자 정보의 정보량(혹은, 문자수)을 씨닝하는 처리를 행하는 것이 바람직하다.

예를 들어, 표시부(503)는, 다수의 Ghost로부터 보내져 온 문자 정보 중에서 공통되거나 또는 빈출하는 단어나 키워드로 된 단어만을 추출하여 문자 정보를 씨닝 처리하도록 해도 된다. 단어 추출 시에는, 유사어를 하나의 단어로 통합하도록 해도 된다. 그리고, 표시부(503)는, 추출된 복수의 키워드를, 태그 클라우드(tag cloud)의 형식(예를 들어, 특허문헌 5 참조)으로, 출현 빈도나 중요도 등에 따라서 폰트 사이즈나 색, 농담 등을 바꿔, 구름과 같이 떠올라 보이도록 Body의 시계에 중첩 표시하도록 해도 된다.

또는, 표시부(503)는, 보내져 온 다수의 문자 정보에 대해서 언어 해석이나 언어 인식 등의 처리를 적용하여, 요약한 문자 정보만을 Body의 시계에 표시하도록 해도 된다.

도 20에는, 화상 제공 장치(101)에 있어서 Ghost로부터 보내져 오는 문자 정보를 표시하기 위한 처리 수순을 흐름도의 형식으로 나타내고 있다.

우선, Ghost로부터 도착한 문자 정보의 수(즉, 문자 정보를 송신해 오는 화상 표시 장치(102)의 대수)가 소정수를 초과하였는지 여부를 체크한다(스텝 S1801).

여기서, 문자 정보의 수가 소정수 미만일 때에는(스텝 S1801의 "아니오"), 표시부(503)는, 통상의 시계 개입 처리를 실행하고(스텝 S1802), 본 처리 루틴을 종료한다. 통상의 시계 개입 처리에서는, 예를 들어 도 12에 도시한 바와 같이, 문자 정보가 그대로 표시된다. 또는, 도 13에 도시한 바와 같이, Body의 시계의 주연 영역을 사용하여, 채팅이나 전자게시판 등의 형식으로 문자 정보를 표시하여도 된다.

한편, 문자 정보의 수가 소정수를 초과할 때에는(스텝 S1801의 "예"), 표시부(503)는, Body의 시계에 표시하는 문자 정보의 정보량(혹은, 문자수)을 씨닝하는 처리를 실시한다. 표시부(503)는, 예를 들어 보내져 온 다수의 문자 정보 중에서 공통되는 단어를 추출하고(스텝 S1803), 태그 클라우드 형식으로 Body의 시계에 중첩 표시한다(스텝 S1804). 또는, 표시부(503)는, 다수의 문자 정보에 대해서 언어 해석이나 언어 인식 등의 처리를 적용하여, 요약한 문자 정보만을 Body의 시계에 표시한다. 씨닝 처리에 의해, Body가 혼란스럽지 않게 된다.

또한, 어떤 1인의 Body에 대한 복수인의 Ghost로부터의 지시 정보를 집약하거나 하는 상기 처리는, 화상 표시 장치(102)(예를 들어, Body가 착용하는 헤드 마운트 디스플레이)에서 행하는 것이 아니라, Body와 Ghost 간에 개재되는 서버상에서 실시하여, 서버에 의한 처리 결과를 Body에 제공하도록 해도 된다.

이상, 특정한 실시 형태를 참조하면서, 본 명세서에서 개시하는 기술에 대하여 상세히 설명해 왔다. 그러나, 본 명세서에서 개시하는 기술의 요지를 일탈하지 않는 범위에서 당업자가 해당 실시 형태의 수정이나 대용을 할 수 있음은 자명하다.

본 명세서에서 개시하는 기술은, 예를 들어 외과 수술 등의 의료 현장, 토목 작업 등의 건축 현장, 비행기나 헬리콥터의 조종, 자동차 운전자의 내비게이션, 스포츠의 인스트럭션 등, 다양한 산업 분야의 작업 지원 등의 용도에 활용할 수 있다.

또한, 본 명세서에서는, 신체로 현장에서 활동하는 Body에 대해서, Body의 일인칭 화상을 공유하는 Ghost가 Body의 시계나 청각 등에 개입하는 시스템에 관한 실시 형태를 중심으로 설명하였지만, 본 명세서에서 개시하는 기술의 요지는 이것에 한정되는 것은 아니다. 어떤 인물의 시계에 타인으로부터의 지원이나 지시, 유도, 안내에 관한 정보를 표시하는 다양한 정보 처리 장치에 대해서도, 마찬가지로 본 명세서에서 개시하는 기술을 적용할 수 있다.

요컨대, 예시라는 형태에 의해 본 명세서에서 개시하는 기술에 대하여 설명한 것이며, 본 명세서의 기재 내용을 한정적으로 해석해서는 안 된다. 본 명세서에서 개시하는 기술의 요지를 판단하기 위해서는, 청구범위를 참작해야 한다.

또한, 본 명세서의 개시 기술은, 이하와 같은 구성을 취하는 것도 가능하다.

(1) 촬상 시스템에 의한 촬상 화상을 수신하는 제1 시스템에 대한 입력에 따라서 생성되는 제1 정보와, 상기 촬상 시스템에 의한 촬상 화상을 수신하는 제2 시스템에 대한 입력에 따라서 생성되는 제2 정보를 집약하여 얻어지는 집약 화상의 표시를 제어하는 제어부를 구비하는, 정보 처리 시스템.

(2) 상기 제어부는, 상기 제1 시스템에 입력되는 음성 정보에 기초하는 상기 제1 정보와, 상기 제2 시스템에 입력되는 음성 정보에 기초하는 상기 제2 정보를 집약하여 얻어지는 집약 화상의 표시를 제어하는, 상기 (1)에 기재된 정보 처리 시스템.

(3) 상기 제어부는, 상기 제1 시스템에 입력되는 음성 정보에 기초하여, 상기 집약 화상의 표시를 제어하는, 상기 (1)에 기재된 정보 처리 시스템.

(4) 상기 제어부는, 상기 제1 시스템에 입력되는 음성의 강약 변화에 따라서, 상기 집약 화상에 포함되는 상기 제1 정보를 변화시키는, 상기 (3)에 기재된 정보 처리 시스템.

(5) 상기 제어부는, 상기 제1 시스템 및 상기 제2 시스템을 포함하는, 상기 촬상 화상을 수신하는 복수의 시스템에 의해 지시된 장소의 분포를 나타내는 집약 화상의 표시를 제어하는, 상기 (1)에 기재된 정보 처리 시스템.

(6) 상기 제어부는, 문자 정보를 포함하는 상기 제1 정보 및 상기 제2 정보를 집약하여 얻어지는 집약 화상의 표시를 제어하는, 상기 (1)에 기재된 정보 처리 시스템.

(7) 상기 제어부는, 상기 제1 시스템 및 상기 제2 시스템을 포함하는, 상기 촬상 화상을 수신하는 복수의 시스템에 의해 생성된 복수의 문자 정보 중에서 공통되거나 또는 빈출하는 단어를 추출하여 표시시키는, 상기 (1)에 기재된 정보 처리 시스템.

(8) 상기 제어부는, 상기 추출한 단어를 태그 클라우드 형식으로 표시시키는, 상기 (7)에 기재된 정보 처리 시스템.

(9) 상기 제어부는, 상기 제1 시스템 및 상기 제2 시스템을 포함하는, 상기 촬상 화상을 수신하는 복수의 시스템에 의해 생성된 복수의 문자 정보를 요약하여 표시시키는, 상기 (1)에 기재된 정보 처리 시스템.

(10) 상기 촬상 화상을 생성하는 촬상부를 더 구비하는, 상기 (1)에 기재된 정보 처리 시스템.

(11) 표시부를 더 구비하고,

상기 제어부는, 상기 표시부에 의한 상기 집약 화상의 표시를 제어하는, 상기 (1)에 기재된 정보 처리 시스템.

(12) 상기 표시부는, 상기 집약 정보를 실세계의 풍경에 중첩해서 표시하는, 상기 (11)에 기재된 정보 처리 시스템.

(13) 촬상 시스템에 의한 촬상 화상을 수신하는 제1 시스템에 대한 입력에 따라서 생성되는 제1 정보와, 상기 촬상 시스템에 의한 촬상 화상을 수신하는 제2 시스템에 대한 입력에 따라서 생성되는 제2 정보를 집약하여 얻어지는 집약 화상의 표시를 제어하는 제어 스텝을 갖는 정보 처리 방법.

100: 시계 정보 공유 시스템
101: 화상 제공 장치
102: 화상 표시 장치
501: 촬상부
502: 화상 처리부
503: 표시부
504: 제1 음성 출력부
505: 구동부
506: 제2 음성 출력부
507: 위치 검출부
508: 통신부
509: 제어부
510: 인증부
511: 통신부
512: 화상 복호부
513: 표시부
514: 유저 입력부
515: 위치 자세 검출부

Claims

제1 유저 주위의 3차원 공간의 화상을 취득하는 화상 취득부와
상기 제1 유저 주위의 3차원 공간의 화상의 적어도 일부를 송신하는 제1 통신부와
상기 제1 유저 주위의 3차원 공간의 화상 중 제1 시야에 대응되는 제1 화상을 표시하는 제1 화상 표시부
를 구비하는 제1 정보 처리 장치; 및
상기 제1 유저 주위의 3차원 공간의 화상 중 제2 시야에 대응되는 제2 화상을 표시하는 제2 화상 표시부와
상기 제2 화상에 대한 제2 유저의 입력을 접수하는 입력부와
상기 입력에 대응하는 3차원 공간에서의 위치 정보를 상기 제1 통신부에 송신하는 제2 통신부
를 구비하는 제2 정보 처리 장치를 갖추고,
상기 제1 화상 표시부는 상기 제2 통신부로부터 수신한 상기 위치 정보에 기초한 화상을 상기 제1 화상에 중첩하여 표시하는, 정보 처리 시스템.
제1항에 있어서,
상기 위치 정보에 기초한 화상은 포인터 표시인, 정보 처리 시스템.
제1항에 있어서,
상기 제1 시야와 상기 제2 시야는 서로 다른, 정보 처리 시스템.
제1항에 있어서,
상기 입력은 터치 패널에서의 터치 또는 입력 장치에 의한 클릭 조작인, 정보 처리 시스템.
제1항에 있어서,
상기 입력은 터치 패널에서의 스와이프 조작 또는 입력 장치에 의한 드래그 조작인, 정보 처리 시스템.
제5항에 있어서,
상기 제1 화상 표시부는, 상기 스와이프 조작 또는 상기 드래그 조작에 기초하여, 상기 제1 화상 상에 이동 방향의 지시를 나타내는 화상을 중첩하여 표시하는, 정보 처리 시스템.
제1항에 있어서,
상기 입력은 음성인, 정보 처리 시스템.
제7항에 있어서,
상기 제1 화상 표시부는, 상기 음성에 기초하여, 이동 방향의 지시를 나타내는 화상을 상기 제1 화상에 중첩하여 표시하는, 정보 처리 시스템.
제1항에 있어서,
상기 제1 유저 주위의 3차원 공간의 화상 중 제3 시야에 대응되는 제3 화상을 표시하는 제3 화상 표시부와
상기 제3 화상에 대한 제3 유저의 입력을 접수하는 입력부와
상기 제3 유저로부터의 입력에 대응하는, 상기 제2 통신부가 상기 제1 통신부에 송신하는 상기 위치 정보와 다른 위치 정보를, 상기 제1 통신부에 송신하는 제3 통신부
를 구비하는 제3 정보 처리 장치를 더 포함하는, 정보 처리 시스템.
제9항에 있어서,
상기 제1 시야, 상기 제2 시야, 및 상기 제3 시야는 서로 다른, 정보 처리 시스템.
제9항에 있어서,
상기 제1 화상 표시부는, 상기 제2 통신부로부터 수신한 위치 정보 및 상기 제3 통신부로부터 수신한 위치 정보에 기초한 화상을 동시에 상기 제1 화상에 중첩하여 표시하는, 정보 처리 시스템.
제9항에 있어서,
상기 제1 화상 표시부는, 상기 제2 통신부로부터 수신한 위치 정보 및 상기 제3 통신부로부터 수신한 위치 정보에 기초한 화상을 상기 제1 화상에 히트 맵 형식으로 중첩하여 동시에 표시하는, 정보 처리 시스템.
제1항에 있어서,
상기 위치 정보에 기초한 화상은 문자 정보 화상인, 정보 처리 시스템.
제9항에 있어서,
상기 제2 유저의 입력 및 상기 제3 유저의 입력은 모두 음성인, 정보 처리 시스템.
제9항에 있어서,
상기 제2 유저의 입력 및 상기 제3 유저의 입력은 모두 음성이고,
상기 제2 유저의 입력에 대응하는 위치 정보 및 상기 제3 유저의 입력에 대응하는 위치 정보에 기초한 화상은, 상기 제2 유저 및 상기 제3 유저의 음성의 볼륨의 변화와 동기화하여 명멸하는 화상인, 정보 처리 시스템.
제1 정보 처리 장치에 의해
제1 유저 주위의 3차원 공간의 화상을 취득하는 단계;
상기 제1 유저 주위의 3차원 공간의 화상의 적어도 일부를 송신하는 단계; 및
상기 제1 유저 주위의 3차원 공간의 화상 중 제1 시야에 대응되는 제1 화상을 표시하는 단계
가 수행되고,
제2 정보 처리 장치에 의해
상기 제1 유저 주위의 3차원 공간의 화상 중 제2 시야에 대응되는 제2 화상을 표시하는 단계;
상기 제2 화상에 대한 제2 유저의 입력을 접수하는 단계; 및
상기 입력에 대응하는 상기 3차원 공간에서의 위치 정보를 상기 제1 정보 처리 장치에 송신하는 단계
가 수행되며,
상기 제1 화상을 표시하는 단계에 있어서, 상기 제2 정보 처리 장치로부터 수신한 상기 위치 정보에 기초한 화상을 상기 제1 화상에 중첩하여 표시하는, 정보 처리 방법.