KR20210104689A

KR20210104689A - 정보 처리 장치, 제어 방법, 정보 처리 단말기, 정보 처리 방법

Info

Publication number: KR20210104689A
Application number: KR1020217017235A
Authority: KR
Inventors: 신페이 가메오카; 히데키 아사즈; 히데노리 야마지
Original assignee: 소니그룹주식회사
Priority date: 2018-12-21
Filing date: 2019-12-06
Publication date: 2021-08-25
Also published as: EP3902281A4; EP3902281A1; WO2020129695A1; US20220053228A1; JP2022028094A

Abstract

본 기술은, 인식 대상이 되는 음성을 유저의 의도에 따른 마이크로폰을 사용하여 검출할 수 있도록 하는 정보 처리 장치, 제어 방법, 정보 처리 단말기, 정보 처리 방법에 관한 것이다. 본 기술의 일 측면의 정보 처리 장치는, 하우징에 마련된 마이크로폰인 본체 마이크로폰과, 인식 대상이 되는 음성의 검출을, 본체 마이크로폰과, 유저의 조작에 사용되는 정보 처리 단말기에 마련된 마이크로폰인 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 정보 처리 단말기에 대한 유저의 조작 상태에 기초하여 제어한다. 본 기술은, 마이크로폰을 갖는 TV에 적용 할 수 있다.

Description

정보 처리 장치, 제어 방법, 정보 처리 단말기, 정보 처리 방법

본 기술은, 정보 처리 장치, 제어 방법, 정보 처리 단말기, 정보 처리 방법에 관한 것으로, 특히, 인식 대상이 되는 음성을 유저의 의도에 따른 마이크로폰을 사용하여 검출할 수 있도록 한 정보 처리 장치, 제어 방법, 정보 처리 단말기, 정보 처리 방법에 관한 것이다.

최근에, 음성 어시스턴트 기능을 탑재한 TV(텔레비전 수상기)가 판매되고 있다. 음성 어시스턴트 기능은, 기기의 조작을 음성으로 행할 수 있도록 하는 것이다.

유저는, 음성 어시스턴트 기능을 이용함으로써, 예를 들어 TV의 조작이나, 프로그램의 검색, 동화상 배신 서비스가 배신하는 동화상의 검색을, 키워드 등을 발화함으로써 행할 수 있다.

일본 특허 공개 제2018-117311호 공보

음성 어시스턴트 기능을 이용하는 경우, 유저는, 리모트 컨트롤러에 마련된 마이크 버튼을 누르고 나서 발화를 행한다. 유저의 발화는, 리모트 컨트롤러에 마련된 마이크로폰에 의해 검출되고, TV에 대해서 송신된다.

TV의 본체에 마이크로폰을 탑재하는 모델도 있다. 이 경우, 유저의 음성을, 본체에 마련된 마이크로폰에 의해 검출하는 것인지, 리모트 컨트롤러에 마련된 마이크로폰에 의해 검출하는 것인지를 적절하게 전환할 필요가 있다.

본 기술은 이와 같은 상황을 감안하여 이루어진 것으로, 인식 대상이 되는 음성을 유저의 의도에 따른 마이크로폰을 사용하여 검출할 수 있도록 하는 것이다.

본 기술의 제1 측면의 정보 처리 장치는, 하우징에 마련된 마이크로폰인 본체 마이크로폰과, 인식 대상이 되는 음성의 검출을, 상기 본체 마이크로폰과, 유저의 조작에 사용되는 정보 처리 단말기에 마련된 마이크로폰인 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 정보 처리 단말기에 대한 상기 유저의 조작의 상태에 기초하여 제어하는 제어부를 구비한다.

본 기술의 제1 측면에 있어서는, 인식 대상이 되는 음성의 검출을, 본체 마이크로폰과, 유저의 조작에 사용되는 정보 처리 단말기에 마련된 마이크로폰인 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지가, 정보 처리 단말기에 대한 유저의 조작의 상태에 기초하여 제어된다.

본 기술의 제2 측면의 정보 처리 단말기는, 하우징에 마련된 마이크로폰인 단말기 마이크로폰과, 인식 대상이 되는 음성의 검출을 상기 단말기 마이크로폰에 의해 행할 때에 조작되는 소정의 버튼을 포함하는, 정보 처리 장치의 조작에 사용되는 조작부와, 인식 대상이 되는 음성의 검출을, 상기 정보 처리 장치가 갖는 마이크로폰과, 상기 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 소정의 버튼에 대한 유저의 조작의 상태에 기초하여 제어하는 상기 정보 처리 장치로부터 검출 요구가 송신되어 옴에 따라서, 상기 단말기 마이크로폰에 의해 검출된 음성을 상기 정보 처리 장치에 대해서 송신하는 통신부를 구비한다.

본 기술의 제2 측면에 있어서는, 인식 대상이 되는 음성의 검출을, 상기 정보 처리 장치가 갖는 마이크로폰과, 상기 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 소정의 버튼에 대한 유저의 조작의 상태에 기초하여 제어하는 상기 정보 처리 장치로부터 검출 요구가 송신되어 옴에 따라서, 상기 단말기 마이크로폰에 의해 검출된 음성이 상기 정보 처리 장치에 대해서 송신된다.

도 1은 본 기술의 일 실시 형태에 따른 TV의 음성 인식에 대하여 설명하는 도면이다.
도 2는 본체 마이크를 사용한 조작의 예를 나타내는 도면이다.
도 3은 리모컨 마이크를 사용한 조작의 예를 나타내는 도면이다.
도 4는 마이크 버튼의 누름 후의 주고받음의 예를 나타내는 도면이다.
도 5는 TV의 표시 화면의 예를 나타내는 도면이다.
도 6은 음성의 검출에 사용되는 마이크로폰의 전환의 예를 나타내는 도면이다.
도 7은 TV의 애플리케이션 구조의 예를 나타내는 도면이다.
도 8은 TV의 하드웨어 구성예를 나타내는 블록도이다.
도 9는 리모트 컨트롤러의 구성예를 나타내는 블록도이다.
도 10은 TV의 기능 구성예를 나타내는 블록도이다.
도 11은 TV의 마이크 제어 처리에 대하여 설명하는 흐름도이다.
도 12는 정보 처리 단말기로서의 스마트폰의 예를 나타내는 도면이다.
도 13은 다른 정보 처리 단말기의 예를 나타내는 도면이다.
도 14는 화면 표시의 예를 나타내는 도면이다.
도 15는 컴퓨터의 구성예를 나타내는 블록도이다.

이하, 본 기술을 실시하기 위한 형태에 대하여 설명한다. 설명은 이하의 순서로 행한다.

1. TV의 음성 인식 기능

2. 애플리케이션 구조

3. TV의 구성과 동작

4. 변형예

<<TV의 음성 인식 기능>>

도 1은, 본 기술의 일 실시 형태에 따른 TV의 음성 인식에 대하여 설명하는 도면이다.

도 1에 도시한 바와 같이, TV(1)의 하우징 정면에는 디스플레이(11)가 마련되고, 디스플레이(11)의 아래에는 마이크로폰(12)이 마련된다. 마이크로폰(12)은, 예를 들어 유저의 음성을 검출하기 위해서 사용된다.

TV(1)에는 음성 어시스턴트 기능이 탑재되어 있다. 유저는, 프로그램의 검색, 동화상 배신 서비스가 배신하는 동화상의 검색, 웹 사이트의 검색, 설정 변경, 채널의 전환 등의 TV(1)의 각종 조작을 음성에 의해 행할 수 있다. TV(1)에 접속된 외부의 디바이스 조작 등도, 음성에 의해 행하는 것이 가능해진다.

마이크로폰(12)에 의해 검출된 음성을 나타내는 음성 데이터는, 인터넷(31)을 통해 음성 인식 서버(32)에 송신된다. 음성 인식 서버(32)에 있어서는 음성 인식이 행해지고, 음성 인식 결과를 나타내는 정보가 TV(1)에 대해서 송신된다.

TV(1)는, 음성 인식 서버(32)로부터 송신되어 온 정보를 수신하고, 음성 인식 결과에 따른 처리를 행하게 된다.

이와 같이 음성을 사용한 조작이 가능한 TV(1)에는, TV(1)의 조작에 사용하는 정보 처리 단말기로서의 리모트 컨트롤러(2)도 준비된다. 유저는, 리모트 컨트롤러(2)를 사용함으로써도, TV(1)를 조작할 수 있다.

리모트 컨트롤러(2)는, 유저가 한손으로 쥐는 것이 가능한 하우징을 갖는다. 하우징의 형상으로서는, 예를 들어 가늘고 긴 형상, 직육면체 형상 등을 들 수 있다. 리모트 컨트롤러(2)의 하우징의 표면에는, 전원 버튼, 음량 버튼, 채널 버튼, 커서 버튼, 결정 버튼 등의 각종 버튼이 마련된다. 유저의 조작 내용을 나타내는 신호는, 적외선 통신에 의해, 또는 Bluetooth(등록상표), 무선 LAN 등의 전파를 사용한 무선 통신에 의해 TV(1)에 대해서 송신된다.

리모트 컨트롤러(2)에는 마이크로폰(22)이 마련된다. 유저는, 다른 버튼과 함께 나란히 마련된 마이크 버튼(21)을 누름으로써, 마이크로폰(22)을 사용하여 음성을 입력할 수 있다.

마이크로폰(22)에 의해 검출된 음성을 나타내는 음성 데이터는 TV(1)에 대해서 송신되고, 마이크로폰(12)에 의해 검출된 음성과 마찬가지의 처리가 실시된다. 리모트 컨트롤러(2)로부터 송신된 음성 데이터는, TV(1)로부터 음성 인식 서버(32)에 대해서 송신되고, 음성 인식 서버(32)에 있어서 음성 인식의 대상이 된다.

리모트 컨트롤러(2)는, TV(1)용 외부의 기기이다. TV(1)에는, 음성을 입력하기 위한 마이크로폰으로서, 본체에 마련된 마이크로폰(12)과, TV(1)용 외부의 기기에 마련된 마이크로폰(22)의 2개의 마이크로폰이 준비되어 있게 된다.

이하, 적절히, TV(1)의 본체에 마련된 마이크로폰(12)을 본체 마이크라고 한다. 또한, 리모트 컨트롤러(2)에 마련된 마이크로폰(22)을 리모컨 마이크라고 한다.

도 2는, 본체 마이크를 사용한 조작의 예를 나타내는 도면이다.

도 2의 말풍선에 나타낸 바와 같이, 유저는, 기동 워드를 발화함으로써 음성 어시스턴트 기능을 이용할 수 있다. 도 2의 예에 있어서는 「OK TV」가 기동 워드로 되어 있다.

기동 워드 후의 유저의 발화가 본체 마이크에 의해 검출되고, 음성 인식의 대상이 된다. 도 2의 예에 있어서는, 「4번 채널 켜줘」라는 발화가 유저에 의해 행해지고 있다.

본체 마이크에 의해 검출된 「4번 채널 켜줘」라는 음성을 나타내는 음성 데이터가 음성 인식 서버(32)에 송신된다. TV(1)에 있어서는, 음성 인식 서버(32)에 의한 음성 인식의 결과에 기초하여, 수신하는 채널을 4번 채널로 전환하는 동작이 행해진다.

이와 같이, 유저는, 기동 워드를 발화함으로써 음성 어시스턴트 기능을 기동시키고, 리모트 컨트롤러(2)를 사용하지 않고, 본체 마이크에 음성을 입력함으로써 각종 조작을 행할 수 있다. 도 2의 예에 있어서는, 리모트 컨트롤러(2)는 유저의 옆에 놓여 있다.

도 3은, 리모컨 마이크를 사용한 조작의 예를 나타내는 도면이다.

마이크 버튼(21)을 누른 후에 조작이 가능해지기 때문에, 리모컨 마이크를 사용한 조작을 행하는 경우, 도 3에 도시한 바와 같이, 유저는 리모트 컨트롤러(2)를 쥔 상태에서 조작을 행하게 된다.

도 4는, 마이크 버튼(21)의 누름 후의 주고받음의 예를 나타내는 도면이다.

마이크 버튼(21)이 눌러진 경우, 화살표 A1에 나타낸 바와 같이, 마이크 버튼(21)이 눌러졌음을 나타내는 정보가 리모트 컨트롤러(2)로부터 TV(1)에 대해서 송신된다.

마이크 버튼(21)이 눌러졌음을 나타내는 정보를 수신한 TV(1)로부터 리모트 컨트롤러(2)에 대해서는, 화살표 A2에 나타낸 바와 같이, 음성의 검출을 개시하는 것의 요구인 음성 검출 리퀘스트가 송신된다.

음성 검출 리퀘스트를 수신한 리모트 컨트롤러(2)에 있어서는, 리모컨 마이크에 의한 음성의 검출이 행해진다. 리모컨 마이크에 의해 검출된 유저의 음성을 나타내는 음성 데이터는, 화살표 A3에 나타낸 바와 같이 TV(1)에 대해서 송신된다.

또한, TV(1)로부터 리모트 컨트롤러(2)에 대한 음성 검출 리퀘스트의 송신과, 리모트 컨트롤러(2)로부터 TV(1)에 대한 음성 데이터의 송신은, 전파를 사용한 무선 통신에 의해 행해진다.

또한, 리모트 컨트롤러(2)로부터 TV(1)에 대한, 마이크 버튼(21)이 눌러졌음을 나타내는 정보의 송신은, 적외선 통신에 의해, 또는 전파를 사용한 무선 통신에 의해 행해진다.

도 3의 설명으로 되돌아가서, 마이크 버튼(21)의 누름 후의 유저의 발화가 리모컨 마이크에 의해 검출되고, 음성 인식의 대상이 된다. 도 3의 예에 있어서는, 「야구 프로그램을 검색해줘」라는 발화가 유저에 의해 행해지고 있다.

리모컨 마이크에 의해 검출된 「야구 프로그램을 검색해줘」라는 음성을 나타내는 음성 데이터가 TV(1)를 통해 음성 인식 서버(32)에 송신된다. TV(1)에 있어서는, 음성 인식 서버(32)에 의한 음성 인식의 결과에 기초하여, 야구의 프로그램을 검색하기 위한 동작이 행해진다.

이와 같이, 유저는, 마이크 버튼(21)을 누름으로써 리모컨 마이크를 유효한 상태로 하고, 리모컨 마이크에 음성을 입력함으로써 각종 조작을 행할 수 있다.

도 5는, TV(1)의 표시 화면의 예를 나타내는 도면이다.

도 5의 예에 있어서는, 프로그램표 애플리케이션이 액티브로 되어, 프로그램표 애플리케이션의 화면이 디스플레이(11)에 표시되어 있다. 각각의 타일형의 영역에는, 프로그램의 섬네일 화상 등이 표시된다. 화면에 표시되는 커서를 이동시킴으로써, 유저는 소정의 프로그램을 선택하고, 상세한 정보를 표시시키거나 할 수 있다.

후술하는 바와 같이, 범용의 OS(Operating System)를 탑재한 기기인 TV(1)에는 각종 애플리케이션이 인스톨되어 있다. 실행 중인 애플리케이션 중, 액티브한 상태로 되어 있는 애플리케이션의 화면이 디스플레이(11)에 표시된다.

우측 하단에 나타낸 바와 같이, 프로그램표 애플리케이션의 화면에는 음성 인식 아이콘(51)이 표시된다. 음성 인식 아이콘(51)은, 음성 인식을 행할 때에 조작되는 화상이다.

유저는, 리모트 컨트롤러(2)의 예를 들어 커서 버튼을 조작하여 커서를 음성 인식 아이콘(51)에 대고, 결정 버튼을 누름으로써, 음성의 입력을 행할 수 있는 상태로 할 수 있다. 이와 같이, 유저는, 음성 인식 아이콘(51) 등의, 음성 인식용 GUI(Graphical User Interface)의 표시를 조작함으로써도, 음성의 입력이 가능한 상태로 할 수 있다.

음성 인식 아이콘(51)의 조작 후의 유저의 발화는, 본체 마이크에 의해 검출되고, 음성 인식의 대상이 된다. 즉, 리모컨 마이크는 유효한 상태로 되지 않는다.

도 6은, 음성의 검출에 사용되는 마이크로폰의 전환의 예를 나타내는 도면이다.

도 6의 우측에 나타낸 바와 같이, 유저가 기동 워드를 발화한 것이 검출된 경우, 그 후의 음성은, 화살표 A11의 끝에 나타낸 바와 같이, TV(1)에 마련된 본체 마이크에 의해 검출된다.

도 6의 좌측에 나타낸 바와 같이, 애플리케이션으로부터 음성 인식 요구가 출력된 경우, 화살표 A12의 끝에 나타낸 바와 같이, 마이크 버튼(21)을 유저가 눌렀는지 여부의 판정이 행해진다.

애플리케이션으로부터의 음성 인식 요구는, 마이크 버튼(21)이 유저에 의해 눌러진 경우, 또는 음성 인식용 GUI의 표시가 유저에 의해 조작된 경우에, 예를 들어 액티브한 상태의 애플리케이션으로부터 출력된다.

마이크 버튼(21)을 눌렀는지 여부의 판정인 마이크 버튼 누름 판정은, 애플리케이션으로부터 출력된 음성 인식 요구를 수신한 프로그램 모듈에 의해 행해진다. 마이크 버튼 누름 판정을 행하는 프로그램 모듈은, 예를 들어 OS의 일부나 드라이버로서 마련된다.

마이크 버튼 누름 판정에 의해, 마이크 버튼(21)이 유저에 의해 눌러졌다고 판정된 경우, 화살표 A13의 끝에 나타낸 바와 같이, 리모트 컨트롤러(2)에 마련된 리모컨 마이크가 유효해지고, 그 후의 음성이 리모컨 마이크에 의해 검출된다. 리모컨 마이크에 의해 검출된 음성이 음성 인식의 대상이 된다.

한편, 마이크 버튼 누름 판정에 의해, 마이크 버튼(21)이 유저에 의해 눌러 있지 않다고 판정된 경우, 즉, 애플리케이션으로부터의 음성 인식 요구가, 음성 인식용 GUI의 표시가 조작됨에 따라서 출력된 경우, 그 후의 음성은, 화살표 A14의 끝에 나타낸 바와 같이 본체 마이크에 의해 검출된다.

이와 같이, 음성을 입력하기 위한 유저 조작으로서, 마이크 버튼(21)을 누르는 조작, 기동 워드를 발화하는 조작, 및 음성 인식용 GUI의 표시를 사용한 조작의 3종류의 조작이 준비된다.

TV(1)는, 마이크 버튼(21)을 누르는 조작이 행해진 경우에만, 리모컨 마이크에 의해 음성을 검출하는 상태로 되고, 다른 2개의 조작이 행해진 경우에는, 본체 마이크에 의해 음성을 검출하는 상태로 된다.

마이크 버튼(21)을 누르는 조작은, 리모트 컨트롤러(2)를 손에 쥐고, 눈으로 마이크 버튼(21)을 확인하여 행하는 조작이기 때문에, 리모트 컨트롤러(2)에 마련되어 있는 리모컨 마이크에 의해 음성을 입력하려고 하는 의도를 유저가 갖고 있다고 생각된다.

마이크 버튼(21)을 누르는 조작이 행해진 경우에 리모컨 마이크에 의해 음성을 검출하는 TV(1)의 동작은, 유저의 의도에 따른 마이크로폰을 사용한 동작이라고 말할 수 있다.

한편, 기동 워드를 발화하는 조작은, 주로 TV(1)로 얼굴을 돌려 행하는 조작이기 때문에, 본체 마이크에 의해 음성을 입력하려고 하는 의도를 유저가 갖고 있다고 생각된다. 마찬가지로, 음성 인식용 GUI의 표시를 사용한 조작은, TV(1)의 화면을 보고 행하는 조작이기 때문에, 본체 마이크에 의해 음성을 입력하려고 하는 의도를 유저가 갖고 있다고 생각된다.

기동 워드를 발화하는 조작이나 음성 인식용 GUI의 표시를 사용한 조작이 행해진 경우에 본체 마이크에 의해 음성을 검출하는 TV(1)의 동작도, 유저의 의도에 따른 마이크로폰을 사용한 동작이라고 말할 수 있다.

음성의 검출에 사용하는 마이크로폰을 이상과 같이 하여 전환하는 TV(1)의 일련 처리에 대해서는 후술한다.

<<애플리케이션 구조>>

도 7은, TV(1)의 애플리케이션 구조의 예를 나타내는 도면이다.

TV(1)에는, TV용 OS(61)가 탑재된다. TV용 OS(61)상에서 동작하는 각종 애플리케이션이 TV(1)에 인스톨된다. 도 7의 예에 있어서는, TV 시청 애플리케이션(71), 프로그램표 애플리케이션(72), 웹 브라우저(73), 콘텐츠 시청 애플리케이션(74)이 도시되어 있다.

TV 시청 애플리케이션(71)은, 방송된 프로그램의 시청을 관리하는 애플리케이션이다. TV 시청 애플리케이션(71)의 기동 중, 유저는, 리모트 컨트롤러(2)를 조작하거나 하여 소정의 채널을 선택하고, 선택한 채널에서 방송되고 있는 프로그램을 시청할 수 있다.

프로그램표 애플리케이션(72)은, 프로그램의 방송 예정을 정리한 프로그램표를 관리하는 애플리케이션이다. 프로그램표 애플리케이션(72)의 기동 중, 유저는, 리모트 컨트롤러(2)를 조작하거나 하여, 디스플레이(11)에 표시되는 프로그램표의 화면의 표시를 전환할 수 있다.

웹 브라우저(73)는, 인터넷(31)에 접속하고, 웹 페이지를 열람할 때 등에 사용하는 애플리케이션이다. 웹 브라우저(73)의 기동 중, 유저는, 리모트 컨트롤러(2)를 조작하거나 하여 소정의 웹 페이지를 열람할 수 있다.

콘텐츠 시청 애플리케이션(74)은, 도시하지 않은 배신 서버에 의해 제공되는 배신 서비스를 이용하기 위한 애플리케이션이다.

예를 들어 콘텐츠 시청 애플리케이션(74)의 기동 시, TV(1)에는, 배신 서버로부터 송신되어 온 정보에 기초하여, 배신 서비스의 메인 화면이 표시된다. 메인 화면에는, 타이틀이나 섬네일 화상 등의, 시청 가능한 콘텐츠에 관한 정보가 표시된다. 유저는, 리모트 컨트롤러(2)를 조작하거나 하여, 원하는 콘텐츠를 선택할 수 있다. 유저가 소정의 콘텐츠를 선택했을 때, 콘텐츠의 배신이 개시된다.

이와 같은 각종 애플리케이션이 TV(1)에는 인스톨된다. 예를 들어 음성 인식용 GUI의 표시가 조작된 경우, 음성 인식 요구가 실행 중인 애플리케이션으로부터 출력된다. 애플리케이션으로부터 출력된 음성 인식 요구에 따라서 마이크로폰의 전환을 행하는 프로그램 모듈도 TV(1)에는 준비된다.

<<TV의 구성과 동작>>

<TV의 구성>

도 8은, TV(1)의 하드웨어의 구성예를 나타내는 블록도이다.

도 8에 도시한 구성 중, 상술한 구성에는 동일한 부호를 부여하고 있다. 중복되는 설명에 대해서는 적절히 생략한다.

튜너(101)는, 도시하지 않은 안테나로부터 공급된 방송파 신호, 또는 위성 방송이나 케이블 텔레비전의 셋톱 박스로부터 공급된 방송파 신호를 수신하고, 유저에 의해 선택된 채널의 신호를 추출한다. 튜너(101)는, 추출한 신호에 대해서, A/D 변환, 복조 등의 각종 처리를 실시하고, 각종 처리를 실시함으로써 취득한 프로그램의 데이터를 디코더(102)로 출력한다.

디코더(102)는, 프로그램의 데이터를 구성하는 비디오 스트림을 디코드하고, 디코드하여 얻어진 각 픽처의 데이터를 신호 처리부(103)로 출력한다. 또한, 디코더(102)는, 프로그램의 데이터를 구성하는 오디오 스트림을 디코드하고, 프로그램의 음성 데이터를 신호 처리부(103)로 출력한다.

디코더(102)는, 소정의 배신 서비스의 콘텐츠를 재생하는 경우, 통신부(110)에 있어서 수신되고, 버스(105)를 통해 공급된 콘텐츠의 비디오 스트림과 오디오 스트림을 디코드한다. 디코더(102)는, 콘텐츠의 비디오 스트림을 디코드하여 얻어진 각 픽처의 데이터와, 오디오 스트림을 디코드하여 얻어진 음성 데이터를 신호 처리부(103)로 출력한다.

신호 처리부(103)는, CPU(106)에 의한 제어에 따라서, 디코더(102)로부터 공급된 각 픽처의 화질 조정을 행한다. 신호 처리부(103)는, 화질 조정 후의 픽처를 디스플레이(11)로 출력하고, 프로그램이나 콘텐츠의 영상을 표시시킨다.

또한, 신호 처리부(103)는, 디코더(102)로부터 공급된 음성 데이터의 D/A 변환 등을 행하고, 영상에 동기시켜, 프로그램이나 콘텐츠의 음성을 스피커(104)로부터 출력시킨다.

디스플레이(11)는, LCD(Liquid Crystal Display), 유기 EL 디스플레이 등에 의해 구성된다.

CPU(Central Processing Unit)(106), ROM(Read Only Memory)(107), RAM(Random Access Memory)(108)은, 버스(105)에 의해 서로 접속된다. CPU(106)는, ROM(107)이나 기록부(109)에 기록되어 있는 프로그램을 RAM(108)을 사용하여 실행하고, TV(1)의 전체의 동작을 제어한다.

기록부(109)는, HDD(Hard Disk Drive)나 SSD(Solid State Drive) 등의 기록 매체에 의해 구성된다. 기록부(109)는, 프로그램의 데이터, 콘텐츠, EPG 데이터, 프로그램 등의 각종 데이터를 기록한다.

통신부(110)는, 인터넷(31)의 인터페이스이다. 통신부(110)는, 음성 인식 서버(32)와의 사이에서 통신을 행한다.

조작 I/F부(111)는, 적외선 통신에 의해 리모트 컨트롤러(2)로부터 송신되어 온 정보를 수신한다. 또한, 조작 I/F부(111)는, 전파를 사용한 무선 통신에 의해, 리모트 컨트롤러(2)와의 사이에서 통신을 행한다. 리모트 컨트롤러(2)로부터 송신되고, 조작 I/F부(111)에 의해 수신된 음성 데이터 등의 정보는, 버스(105)를 통해 CPU(106)로 출력된다. 조작 I/F부(111)는, 리모트 컨트롤러(2)와의 사이에서 통신을 행하는 통신부로서 기능한다.

카메라(112)는, TV(1)의 정면의 상황을 적절히 촬영한다.

도 9는, 리모트 컨트롤러(2)의 구성예를 나타내는 블록도이다.

조작 I/F부(121)는, 적외선 통신에 의해 TV(1)에 정보를 송신한다. 또한, 조작 I/F부(121)는, 전파를 사용한 무선 통신에 의해, TV(1)와의 사이에서 통신을 행한다. 조작 I/F부(121)에 의해 수신된 정보는 컨트롤러(122)로 출력된다.

컨트롤러(122)는, CPU, ROM, RAM으로 구성된다. 컨트롤러(122)는, 소정의 프로그램을 실행하고, 리모트 컨트롤러(2)의 전체를 제어한다. 컨트롤러(122)는, 마이크로폰(22)에 의해 검출된 음성을 나타내는 음성 데이터, 또는 조작부(123)로부터 공급된, 유저의 조작 내용을 나타내는 정보를, 조작 I/F부(121)를 통해 TV(1)에 송신한다.

마이크로폰(22)은, 유저의 음성을 검출하고, 검출된 음성을 나타내는 음성 데이터를 컨트롤러(122)로 출력한다.

조작부(123)는, 유저에 의한 조작을 검출하고, 검출된 조작의 내용을 나타내는 정보를 컨트롤러(122)로 출력한다.

도 10은, TV(1)의 기능 구성예를 나타내는 블록도이다.

도 10에 도시한 기능부 중 적어도 일부는, 도 8의 CPU(106)에 의해, TV용 OS(61)를 포함하는 각종 프로그램이 실행됨으로써 실현된다.

도 10에 도시한 바와 같이, TV(1)에 있어서는, 조작 검출부(131), 기동 워드 검출부(132), 마이크 제어부(133), 음성 수신 제어부(134), 애플리케이션 실행부(135), 및 음성 인식 제어부(136)가 실현된다. 마이크로폰(12)에 의해 구성되는 본체 마이크에 의해 검출된 음성을 나타내는 음성 데이터는, 기동 워드 검출부(132)와 마이크 제어부(133)에 입력된다.

조작 검출부(131)는, 조작 I/F부(111)를 제어하고, 리모트 컨트롤러(2)를 사용하여 행해지는 유저의 조작을 검출한다. 마이크 버튼(21)의 누름, 화면에 표시된 커서의 이동 등의 각종 조작이 조작 검출부(131)에 의해 검출된다. 조작 검출부(131)에 의해 검출된, 유저의 조작 내용을 나타내는 정보는, 마이크 제어부(133), 음성 수신 제어부(134), 및 애플리케이션 실행부(135)에 공급된다.

기동 워드 검출부(132)는, 본체 마이크로부터 공급된 음성 데이터에 기초하여 기동 워드의 발화를 검출한다. 기동 워드 검출부(132)는, 유저가 기동 워드를 발화한 것을 검출한 경우, 그것을 나타내는 정보를 마이크 제어부(133)로 출력한다.

마이크 제어부(133)는, 음성 인식의 대상으로 하는 음성의 검출에 사용하는 마이크로폰을 전환한다. 예를 들어, 마이크 제어부(133)는, 기동 워드를 발화한 것이 검출된 경우, 본체 마이크에 의해 검출된 음성을, 음성 인식의 대상으로서 음성 인식 제어부(136)로 출력한다.

또한, 마이크 제어부(133)는, 음성 인식용 GUI의 표시가 조작됨에 따라서, 애플리케이션 실행부(135)로부터 음성 인식 요구가 공급된 경우, 본체 마이크에 의해 검출된 음성을, 음성 인식의 대상으로서 음성 인식 제어부(136)로 출력한다.

또한, 본체 마이크에 의해 검출된 음성은, 상시 녹음되고 있는 것은 아니다. 기동 워드의 검출 설정이 온인 경우에는, 본체 마이크에 의해 검출된 음성은 상시 녹음되고, 오프인 경우에는 녹음이 행해지지 않는다. 음성 인식용 GUI의 표시가 조작된 경우, 본체 마이크에 대해서 리퀘스트가 나오고, 그 리퀘스트에 따라서, 본체 마이크에 의해 검출된 음성이, 기동 워드 검출부(132)를 경유하지 않고, 마이크 제어부(133)에 공급된다.

마이크 제어부(133)는, 마이크 버튼(21)이 눌러짐에 따라서, 애플리케이션 실행부(135)로부터 음성 인식 요구가 공급된 경우, 리모컨 마이크를 유효한 상태로 하고, 그것을 나타내는 정보를 음성 수신 제어부(134)로 출력한다. 마이크 제어부(133)는, 리모컨 마이크를 유효한 상태로 한 후에 음성 수신 제어부(134)로부터 공급된 음성 데이터를, 음성 인식의 대상으로서 음성 인식 제어부(136)로 출력한다.

음성 수신 제어부(134)는, 조작 I/F부(111)를 제어하고, 리모컨 마이크에 의한 음성의 검출을 제어한다. 예를 들어, 음성 수신 제어부(134)는, 리모컨 마이크를 유효한 상태로 함을 나타내는 정보가 마이크 제어부(133)로부터 공급된 경우, 음성 검출 리퀘스트를 리모트 컨트롤러(2)에 대해서 송신한다.

또한, 음성 수신 제어부(134)는, 음성 검출 리퀘스트를 송신한 후에 리모트 컨트롤러(2)로부터 송신되어 온 음성 데이터를 수신하고, 마이크 제어부(133)로 출력한다.

애플리케이션 실행부(135)는, 조작 검출부(131)로부터 공급된 정보에 의해 나타내는 유저의 조작에 따라서, 애플리케이션의 실행을 제어한다.

예를 들어, 애플리케이션 실행부(135)는, 소정의 애플리케이션을 액티브한 상태로 하고 있는 경우에 있어서, 음성 인식용 GUI의 표시가 조작된 경우, 음성 인식 요구를 마이크 제어부(133)로 출력한다.

또한, 애플리케이션 실행부(135)는, 음성 인식 제어부(136)로부터 공급된, 음성 인식의 결과에 기초하여 애플리케이션의 실행을 제어한다.

음성 인식 제어부(136)는, 통신부(110)를 제어하여 음성 인식 서버(32)와 통신을 행하고, TV(1)에 있어서의 음성 인식 기능을 제어한다. 음성 인식 제어부(136)는, 마이크 제어부(133)로부터 공급된 음성 데이터를 음성 인식 서버(32)에 송신한다.

또한, 음성 인식 제어부(136)는, 음성 인식 서버(32)로부터 송신되어 온 음성 인식의 결과를 수신한다. 음성 인식 제어부(136)에 의해 수신된 음성 인식의 결과는 애플리케이션 실행부(135)로 출력된다.

<TV의 동작>

여기서, 도 11의 흐름도를 참조하여, 이상과 같은 구성을 갖는 TV(1)의 마이크 제어 처리에 대하여 설명한다.

스텝 S1에 있어서, TV(1)의 기동 워드 검출부(132)는, 본체 마이크로부터 공급된 음성 데이터에 기초하여, 기동 워드의 발화가 검출되었는지 여부를 판정한다.

기동 워드의 발화가 검출되었다고 스텝 S1에 있어서 판정된 경우, 스텝 S2에 있어서, 마이크 제어부(133)는, 본체 마이크를 유효로 한다. 또한, 기동 워드의 검출 설정이 온인 경우, 본체 마이크는 원래 유효하기 때문에, 여기에서는, 계속해서, 본체 마이크가 유효해진다.

스텝 S3에 있어서, 마이크 제어부(133)는, 본체 마이크로부터 공급된 음성 데이터를, 음성 인식의 대상으로서 취득한다. 마이크 제어부(133)에 의해 취득된 음성 데이터는, 음성 인식 제어부(136)에 공급된다.

스텝 S4에 있어서, 음성 인식 제어부(136)는, 마이크 제어부(133)로부터 공급된 음성 데이터를 음성 인식 서버(32)에 송신한다.

음성 인식 서버(32)에 있어서는, 본체 마이크에 의해 검출된 음성을 대상으로 하여 음성 인식이 행해지고, 음성 인식의 결과가 TV(1)에 대해서 송신된다. 음성 인식 서버(32)로부터 송신된 음성 인식의 결과는, 음성 인식 제어부(136)에 있어서 수신되고, 애플리케이션 실행부(135)로 출력된다.

한편, 기동 워드의 발화가 검출되지 않았다고 스텝 S1에 있어서 판정된 경우, 스텝 S5에 있어서, 마이크 제어부(133)는, 애플리케이션 실행부(135)가 실행하는 애플리케이션으로부터 음성 인식 요구가 출력되었는지 여부를 판정한다.

음성 인식 요구가 출력되었다고 스텝 S5에 있어서 판정한 경우, 스텝 S6에 있어서, 마이크 제어부(133)는, 조작 검출부(131)로부터 공급된 정보에 기초하여, 마이크 버튼(21)이 눌러졌는지 여부를 판정한다.

마이크 버튼(21)이 눌러 있지 않다고 스텝 S6에 있어서 판정된 경우, 스텝 S2로 진행되고, 이상의 처리와 마찬가지 처리가 행해진다. 즉, 본체 마이크가 유효해지고, 유저의 음성의 검출이 본체 마이크를 사용하여 행해진다.

마이크 버튼(21)이 눌러졌다고 스텝 S6에 있어서 판정한 경우, 스텝 S7에 있어서, 마이크 제어부(133)는, 리모컨 마이크를 유효로 한다. 음성 수신 제어부(134)는, 음성 검출 리퀘스트를 리모트 컨트롤러(2)에 대해서 송신한다.

스텝 S8에 있어서, 음성 수신 제어부(134)는, 음성 검출 리퀘스트를 송신한 후에 리모트 컨트롤러(2)로부터 송신되어 온 음성 데이터를 수신하고, 마이크 제어부(133)로 출력한다. 마이크 제어부(133)는, 음성 수신 제어부(134)로부터 공급된 음성 데이터를, 음성 인식의 대상으로서 음성 인식 제어부(136)로 출력한다.

스텝 S9에 있어서, 음성 인식 제어부(136)는, 마이크 제어부(133)로부터 공급된 음성 데이터를 음성 인식 서버(32)에 송신한다.

음성 인식 서버(32)에 있어서는, 리모컨 마이크에 의해 검출된 음성을 대상으로 하여 음성 인식이 행해지고, 음성 인식의 결과가 TV(1)에 대해서 송신된다. 음성 인식 서버(32)로부터 송신된 음성 인식의 결과는, 음성 인식 제어부(136)에 있어서 수신되고, 애플리케이션 실행부(135)로 출력된다.

스텝 S4 또는 스텝 S9에 있어서 음성 데이터가 송신된 후, 또는 스텝 S5에 있어서, 음성 인식 요구가 출력되지 않았다고 판정된 경우, 스텝 S1로 되돌아가서, 이상의 처리가 반복해서 행해진다.

이상의 처리에 의해, TV(1)는, 유저의 의도에 따른 마이크로폰을 사용하여, 유저의 음성을 검출할 수 있다. TV(1)는, 유저의 의도에 있던 마이크로폰을 선택함으로써, 유저의 음성을 보다 정확하게 알아들어, 응답하는 것이 가능해진다.

즉, 마이크 버튼(21)을 누름으로써, 리모컨 마이크를 사용하여 음성을 입력하려고 하는 의도를 유저가 갖고 있는 경우, TV(1)는, 리모컨 마이크를 사용하여 유저의 음성을 검출할 수 있다.

또한, 기동 워드를 발화하거나, 음성 인식용 GUI의 표시를 조작하거나 하여, 본체 마이크를 사용하여 음성을 입력하려고 하는 의도를 유저가 갖고 있는 경우, TV(1)는, 본체 마이크를 사용하여 유저의 음성을 검출할 수 있다.

유저로서도, 자신의 의도에 따른 마이크로폰으로부터 음성을 입력할 수 있다.

<<변형예>>

<정보 처리 단말기의 예>

TV(1)의 조작에 사용되는 정보 처리 단말기가 리모트 컨트롤러(2)인 것으로 하였지만, 스마트폰, 태블릿 단말기 등의 다른 디바이스여도 된다.

도 12는, 정보 처리 단말기로서의 스마트폰의 예를 나타내는 도면이다.

스마트폰(201)에는, 스마트폰(201)을 TV(1)의 리모트 컨트롤러로서 동작시키기 위한 애플리케이션인 리모컨 애플리케이션이 인스톨되어 있다. 도 12의 스마트폰(201)의 디스플레이에 표시되어 있는 화면은 리모컨 애플리케이션의 화면이다. 유저는, 리모컨 애플리케이션의 화면의 표시를 사용하여, TV(1)의 조작을 행할 수 있다.

리모컨 애플리케이션의 화면에는, 전원 버튼, 음량 버튼, 채널 버튼, 커서 버튼, 결정 버튼 등의, 리모트 컨트롤러(2)에 마련되는 버튼과 마찬가지의 기능을 갖는 각종 버튼이 표시된다. 리모컨 애플리케이션의 화면에는, 도 12에 도시한 바와 같이 마이크 버튼(211)도 표시된다.

마이크 버튼(211)이 눌러진 경우, 리모트 컨트롤러(2)의 마이크 버튼(21)이 눌러진 경우와 마찬가지로, 스마트폰(201)에 마련된 마이크로폰(212)이 유효해져서, 음성을 입력할 수 있는 상태로 된다.

TV(1)는, 마이크로폰(212)에 있어서 검출되고, 스마트폰(201)으로부터 송신되어 온 음성 데이터를 음성 인식의 대상으로 하게 된다. 기동 워드가 발화된 것에 따라서 음성 인식 요구가 출력된 경우, 및 음성 인식용 GUI의 표시를 사용하여 음성 인식 요구가 출력된 경우, 상술한 바와 같이 본체 마이크가 음성의 검출에 사용된다.

또한, 스마트폰(201)에 마련되는 마이크 버튼으로서, 리모컨 애플리케이션의 화면에 표시되는 마이크 버튼(211)이 사용되도록 해도 되고, 물리적으로 마련된 버튼이 사용되도록 해도 된다.

도 13은, 다른 정보 처리 단말기의 예를 나타내는 도면이다.

TV(1)의 조작에 사용되는 정보 처리 단말기는, 도 13의 A에 나타낸 바와 같은 에이전트 디바이스여도 되고, 도 13의 B에 나타낸 바와 같은, 음성 어시스턴트 기능을 탑재한 스마트 스피커여도 된다. 도 13의 A의 에이전트 디바이스와 도 13의 B의 스마트 스피커는, 기본적으로 스마트폰(201)과 마찬가지의 기능을 갖는다.

이와 같이, TV(1)의 조작에 사용되는 정보 처리 단말기로서, 마이크로폰과 함께, 그 마이크로폰을 음성의 검출에 사용하는 것을 지시하기 위한 조작에 사용되는 조작부를 갖는 각종 디바이스를 사용하는 것이 가능하다.

또한, 음성에 의한 조작의 대상이 되는 디바이스가 TV(1)인 것으로 하였지만, 마이크로폰을 갖는 각종 디바이스를 음성으로 조작하는 경우에도, 상술한 기술을 적용하는 것이 가능하다.

<시스템 구성예>

TV(1)에 의해 검출된 음성의 인식이 음성 인식 서버(32)에 있어서 행해지는 것으로 하였지만, TV(1) 내에 있어서 행해지도록 해도 된다.

이 경우, 도 10의 음성 인식 제어부(136)는, 마이크 제어부(133)로부터 공급된 음성 데이터를 대상으로 하여 스스로 음성 인식을 행하고, 음성 인식의 결과를 애플리케이션 실행부(135)로 출력하게 된다.

<유저의 의도의 판정예>

리모컨 마이크에 의해 음성을 입력하려고 하는 유저의 의도가, 마이크 버튼(21)을 누르는 것 이외의, 유저의 각종 상태에 기초하여 판정되도록 해도 된다.

예를 들어, 유저가 리모트 컨트롤러(2)를 계속해서 쥐고 있는 경우에, 리모컨 마이크에 의해 음성을 입력하려고 하는 의도를 유저가 갖고 있다고 판정되고, 리모컨 마이크가 유효해지도록 해도 된다.

또한, 카메라(112)에 의해 촬영된 화상을 해석하고, 소정의 제스처를 유저가 취하고 있는 것이 검출된 경우에, 리모컨 마이크에 의해 음성을 입력하려고 하는 의도를 유저가 갖고 있다고 판정되고, 리모컨 마이크가 유효해지도록 해도 된다.

그 밖에도, 유저가 리모트 컨트롤러(2)의 근처에 있는 것이 검출된 경우나, 리모트 컨트롤러(2)를 손에 쥐고 있는 것이 검출된 경우에 리모컨 마이크가 유효해지도록 해도 된다.

이와 같이, 카메라(112)에 의해 촬영된 화상을 해석함으로써, 유저의 의도가 판정되도록 하는 것이 가능하다.

당연히, 「리모컨 마이크에 의해 음성을 입력」 등의, 리모컨 마이크에 의해 음성을 입력하려고 하는 의도를 유저가 갖고 있다고 추정할 수 있는 발화가 행해진 경우에, 마이크 버튼(21)이 유효해지도록 해도 된다.

리모컨 마이크를 유효로 할 때의 유저 조작 상태와, 본체 마이크를 유효로 할 때의 유저의 조작의 상태를, 각각 유저가 설정할 수 있도록 해도 된다. 이 경우, 리모트 컨트롤러(2)에는, 그와 같은 설정에 사용되는 스위치가 마련된다.

또한, 유저가 TV(1)의 근처에 있는 것이 검출된 경우, 본체 마이크에 의해 음성을 입력하려고 하는 의도를 유저가 갖고 있다고 판정되고, 본체 마이크가 유효해지도록 해도 된다.

또한, 어떠한 경우에 어느 마이크를 사용할지를 유저가 미리 설정할 수 있도록 해도 된다.

<유효한 마이크로폰의 제시의 예>

음성의 검출에 사용되고 있는 마이크로폰, 즉 유효한 마이크로폰이 어느 마이크로폰인지가 유저에 대해서 제시되도록 해도 된다.

도 14는, 화면 표시의 예를 나타내는 도면이다.

도 14의 A의 예에 있어서는, 본체 마이크를 사용하여 음성의 검출이 행해지고 있음을 나타내는 메시지가 화면의 우측 하단에 표시되어 있다.

한편, 도 14의 B의 예에서는, 리모컨 마이크를 사용하여 음성의 검출이 행해지고 있음을 나타내는 메시지가 화면의 우측 하단에 표시되어 있다.

이와 같이, 유효한 마이크로폰을 나타내는 정보가 제시되도록 해도 된다. 유효한 마이크로폰을 나타내는 정보로서, 메시지가 아니라, 아이콘이 표시되도록 해도 된다.

또한, 유효한 마이크로폰이, LED의 점등에 의해 제시되도록 해도 된다. 이 경우, 예를 들어 본체 마이크가 유효로 되어 있을 때에는, TV(1)의 하우징의 소정의 위치에 마련된 LED가 점등하고, 리모컨 마이크가 유효로 되어 있을 때에는, 리모트 컨트롤러(2)의 하우징 소정의 위치에 마련된 LED가 점등한다.

본체 마이크가 유효로 되어 있을 때에 점등하는 LED와, 리모컨 마이크가 유효로 되어 있을 때에 점등하는 LED의 양쪽 LED가 TV(1)의 하우징에 마련되도록 해도 된다.

이와 같이, 어느 마이크로폰이 유효해져 있는지를 유저에 대해서 나타냄으로써, 유용성을 향상시키는 것이 가능해진다. 유저도, 유효한 마이크에 적합한 발화를 하는 것이 가능해진다.

<컴퓨터의 구성예>

상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 전용의 하드웨어에 내장되어 있는 컴퓨터, 또는 범용의 퍼스널 컴퓨터 등에, 프로그램 기록 매체로부터 인스톨된다.

도 15는, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 나타내는 블록도이다.

CPU(1001), ROM(1002), RAM(1003)은, 버스(1004)에 의해 서로 접속되어 있다.

버스(1004)에는, 또한, 입출력 인터페이스(1005)가 접속되어 있다. 입출력 인터페이스(1005)에는, 키보드, 마우스 등을 포함하는 입력부(1006), 디스플레이, 스피커 등을 포함하는 출력부(1007)가 접속된다. 또한, 입출력 인터페이스(1005)에는, 하드 디스크나 불휘발성 메모리 등을 포함하는 기억부(1008), 네트워크 인터페이스 등을 포함하는 통신부(1009), 리무버블 미디어(1011)를 구동하는 드라이브(1010)가 접속된다.

이상과 같이 구성되는 컴퓨터에서는, CPU(1001)가, 예를 들어 기억부(1008)에 기억되어 있는 프로그램을 입출력 인터페이스(1005) 및 버스(1004)를 통해 RAM(1003)에 로드해서 실행함으로써, 상술한 일련의 처리가 행해진다.

CPU(1001)가 실행하는 프로그램은, 예를 들어 리무버블 미디어(1011)에 기록하거나, 혹은 로컬 에어리어 네트워크, 인터넷, 디지털 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공되고, 기억부(1008)에 인스톨된다.

또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.

본 명세서에 기재된 효과는 어디까지나 예시이지 한정되는 것은 아니며, 또 다른 효과가 있어도 된다.

본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.

예를 들어, 본 기술은, 하나의 기능을 네트워크를 통해 복수의 장치로 분담, 공동으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.

또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치로 실행하는 것 외에, 복수의 장치로 분담해서 실행할 수 있다.

또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치로 실행하는 것 외에, 복수의 장치로 분담해서 실행할 수 있다.

<구성의 조합예>

본 기술은, 이하와 같은 구성을 취할 수도 있다.

(1)

하우징에 마련된 마이크로폰인 본체 마이크로폰과,

인식 대상이 되는 음성의 검출을, 상기 본체 마이크로폰과, 유저의 조작에 사용되는 정보 처리 단말기에 마련된 마이크로폰인 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 정보 처리 단말기에 대한 상기 유저의 조작의 상태에 기초하여 제어하는 제어부를

구비하는 정보 처리 장치.

(2)

상기 단말기 마이크로폰에 의해 검출되고, 상기 정보 처리 단말기로부터 송신된 음성을 수신하는 통신부를 더 구비하는

상기 (1)에 기재된 정보 처리 장치.

(3)

상기 제어부는, 상기 유저의 조작의 상태로서, 상기 정보 처리 단말기에 마련된 소정의 버튼을 상기 유저가 눌렀는지 여부를 판정하는

상기 (1) 또는 (2)에 기재된 정보 처리 장치.

(4)

상기 제어부는, 상기 소정의 버튼을 상기 유저가 눌렀다고 판정한 경우, 상기 단말기 마이크로폰에 의해 음성의 검출을 행하는

상기 (3)에 기재된 정보 처리 장치.

(5)

상기 제어부는, 상기 소정의 버튼을 상기 유저가 누르고 있지 않다고 판정한 경우, 상기 본체 마이크로폰에 의해 음성의 검출을 행하는

상기 (4)에 기재된 정보 처리 장치.

(6)

소정의 애플리케이션을 실행하는 애플리케이션 실행부를 더 구비하고,

상기 제어부는, 음성 인식의 요구가 상기 소정의 애플리케이션으로부터 출력됨에 따라서, 상기 소정의 버튼을 상기 유저가 눌렀는지 여부의 판정을 행하는

상기 (3) 내지 (5) 중 어느 것에 기재된 정보 처리 장치.

(7)

상기 음성 인식의 요구는, 상기 소정의 애플리케이션의 실행 중에 상기 소정의 버튼이 눌러진 경우, 및 음성 인식을 행하기 위한 조작이 상기 소정의 애플리케이션의 화면을 사용하여 상기 유저에 의해 행해진 경우에 출력되는

상기 (6)에 기재된 정보 처리 장치.

(8)

상기 본체 마이크로폰 또는 상기 단말기 마이크로폰에 의해 검출된 음성을 서버에 송신하고, 상기 서버에 의한 음성 인식의 결과를 수신하는 음성 인식 제어부를 더 구비하는

상기 (1) 내지 (7) 중 어느 것에 기재된 정보 처리 장치.

(9)

상기 제어부는, 상기 유저의 조작의 상태로서, 상기 정보 처리 단말기를 상기 유저가 갖고 있는지 여부를 판정하는

상기 (1) 또는 (2)에 기재된 정보 처리 장치.

(10)

상기 제어부는, 음성의 검출에 사용되고 있는 마이크로폰이 상기 본체 마이크로폰인지, 또는 상기 단말기 마이크로폰인지를 제시하는

상기 (1) 내지 (9) 중 어느 것에 기재된 정보 처리 장치.

(11)

하우징에 마련된 마이크로폰인 본체 마이크로폰을 구비하는 정보 처리 장치가,

인식 대상이 되는 음성의 검출을, 상기 본체 마이크로폰과, 유저의 조작에 사용되는 정보 처리 단말기에 마련된 마이크로폰인 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 정보 처리 단말기에 대한 상기 유저의 조작의 상태에 기초하여 제어하는

제어 방법.

(12)

하우징에 마련된 마이크로폰인 단말기 마이크로폰과,

인식 대상이 되는 음성의 검출을 상기 단말기 마이크로폰에 의해 행할 때에 조작되는 소정의 버튼을 포함하는, 정보 처리 장치의 조작에 사용되는 조작부와,

인식 대상이 되는 음성의 검출을, 상기 정보 처리 장치가 갖는 마이크로폰과, 상기 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 소정의 버튼에 대한 유저의 조작의 상태에 기초하여 제어하는 상기 정보 처리 장치로부터 검출 요구가 송신되어 옴에 따라서, 상기 단말기 마이크로폰에 의해 검출된 음성을 상기 정보 처리 장치에 대해서 송신하는 통신부를

구비하는 정보 처리 단말기.

(13)

하우징에 마련된 마이크로폰인 단말기 마이크로폰과,

인식 대상이 되는 음성의 검출을 상기 단말기 마이크로폰에 의해 행할 때에 조작되는 소정의 버튼을 포함하는, 정보 처리 장치의 조작에 사용되는 조작부를

구비하는 정보 처리 단말기가,

인식 대상이 되는 음성의 검출을, 상기 정보 처리 장치가 갖는 마이크로폰과, 상기 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 소정의 버튼에 대한 유저의 조작의 상태에 기초하여 제어하는 상기 정보 처리 장치로부터 검출 요구가 송신되어 옴에 따라서, 상기 단말기 마이크로폰에 의해 검출된 음성을 상기 정보 처리 장치에 대해서 송신하는

정보 처리 방법.

1: TV
2: 리모트 컨트롤러
11: 디스플레이
12: 마이크로폰
21: 마이크 버튼
22: 마이크로폰
31: 인터넷
32: 음성 인식 서버
121: 조작 I/F부
122: 컨트롤러
123: 조작부
131: 조작 검출부
132: 기동 워드 검출부
133: 마이크 제어부
134: 음성 수신 제어부
135: 애플리케이션 실행부
136: 음성 인식 제어부
201: 스마트폰

Claims

하우징에 마련된 마이크로폰인 본체 마이크로폰과,
인식 대상이 되는 음성의 검출을, 상기 본체 마이크로폰과, 유저의 조작에 사용되는 정보 처리 단말기에 마련된 마이크로폰인 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 정보 처리 단말기에 대한 상기 유저의 조작의 상태에 기초하여 제어하는 제어부를
구비하는 정보 처리 장치.
제1항에 있어서,
상기 단말기 마이크로폰에 의해 검출되고, 상기 정보 처리 단말기로부터 송신된 음성을 수신하는 통신부를 더 구비하는
정보 처리 장치.
제1항에 있어서,
상기 제어부는, 상기 유저의 조작의 상태로서, 상기 정보 처리 단말기에 마련된 소정의 버튼을 상기 유저가 눌렀는지 여부를 판정하는
정보 처리 장치.
제3항에 있어서,
상기 제어부는, 상기 소정의 버튼을 상기 유저가 눌렀다고 판정한 경우, 상기 단말기 마이크로폰에 의해 음성의 검출을 행하는
정보 처리 장치.
제4항에 있어서,
상기 제어부는, 상기 소정의 버튼을 상기 유저가 누르고 있지 않다고 판정한 경우, 상기 본체 마이크로폰에 의해 음성의 검출을 행하는
정보 처리 장치.
제3항에 있어서,
소정의 애플리케이션을 실행하는 애플리케이션 실행부를 더 구비하고,
상기 제어부는, 음성 인식의 요구가 상기 소정의 애플리케이션으로부터 출력됨에 따라서, 상기 소정의 버튼을 상기 유저가 눌렀는지 여부의 판정을 행하는
정보 처리 장치.
제6항에 있어서,
상기 음성 인식의 요구는, 상기 소정의 애플리케이션의 실행 중에 상기 소정의 버튼이 눌러진 경우, 및 음성 인식을 행하기 위한 조작이 상기 소정의 애플리케이션의 화면을 사용하여 상기 유저에 의해 행해진 경우에 출력되는
정보 처리 장치.
제1항에 있어서,
상기 본체 마이크로폰 또는 상기 단말기 마이크로폰에 의해 검출된 음성을 서버에 송신하고, 상기 서버에 의한 음성 인식의 결과를 수신하는 음성 인식 제어부를 더 구비하는
정보 처리 장치.
제1항에 있어서,
상기 제어부는, 상기 유저의 조작의 상태로서, 상기 정보 처리 단말기를 상기 유저가 갖고 있는지 여부를 판정하는
정보 처리 장치.
제1항에 있어서,
상기 제어부는, 음성의 검출에 사용되고 있는 마이크로폰이 상기 본체 마이크로폰인지, 또는 상기 단말기 마이크로폰인지를 제시하는
정보 처리 장치.
하우징에 마련된 마이크로폰인 본체 마이크로폰을 구비하는 정보 처리 장치가,
인식 대상이 되는 음성의 검출을, 상기 본체 마이크로폰과, 유저의 조작에 사용되는 정보 처리 단말기에 마련된 마이크로폰인 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 정보 처리 단말기에 대한 상기 유저의 조작의 상태에 기초하여 제어하는
제어 방법.
하우징에 마련된 마이크로폰인 단말기 마이크로폰과,
인식 대상이 되는 음성의 검출을 상기 단말기 마이크로폰에 의해 행할 때에 조작되는 소정의 버튼을 포함하는, 정보 처리 장치의 조작에 사용되는 조작부와,
인식 대상이 되는 음성의 검출을, 상기 정보 처리 장치가 갖는 마이크로폰과, 상기 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 소정의 버튼에 대한 유저의 조작의 상태에 기초하여 제어하는 상기 정보 처리 장치로부터 검출 요구가 송신되어 옴에 따라서, 상기 단말기 마이크로폰에 의해 검출된 음성을 상기 정보 처리 장치에 대해서 송신하는 통신부를
구비하는 정보 처리 단말기.
하우징에 마련된 마이크로폰인 단말기 마이크로폰과,
인식 대상이 되는 음성의 검출을 상기 단말기 마이크로폰에 의해 행할 때에 조작되는 소정의 버튼을 포함하는, 정보 처리 장치의 조작에 사용되는 조작부를
구비하는 정보 처리 단말기가,
인식 대상이 되는 음성의 검출을, 상기 정보 처리 장치가 갖는 마이크로폰과, 상기 단말기 마이크로폰 중 어느 마이크로폰에 의해 행할지를, 상기 소정의 버튼에 대한 유저의 조작의 상태에 기초하여 제어하는 상기 정보 처리 장치로부터 검출 요구가 송신되어 옴에 따라서, 상기 단말기 마이크로폰에 의해 검출된 음성을 상기 정보 처리 장치에 대해서 송신하는
정보 처리 방법.