JPWO2020121776A1 - 受信装置および制御方法 - Google Patents
受信装置および制御方法 Download PDFInfo
- Publication number
- JPWO2020121776A1 JPWO2020121776A1 JP2020559912A JP2020559912A JPWO2020121776A1 JP WO2020121776 A1 JPWO2020121776 A1 JP WO2020121776A1 JP 2020559912 A JP2020559912 A JP 2020559912A JP 2020559912 A JP2020559912 A JP 2020559912A JP WO2020121776 A1 JPWO2020121776 A1 JP WO2020121776A1
- Authority
- JP
- Japan
- Prior art keywords
- content
- display
- control unit
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000008569 process Effects 0.000 claims abstract description 55
- 238000004891 communication Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 abstract description 29
- 230000010365 information processing Effects 0.000 description 141
- 230000006870 function Effects 0.000 description 41
- 238000010586 diagram Methods 0.000 description 11
- 238000012217 deletion Methods 0.000 description 8
- 230000037430 deletion Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- HMUNWXXNJPVALC-UHFFFAOYSA-N 1-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]piperazin-1-yl]-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)N1CCN(CC1)C(CN1CC2=C(CC1)NN=N2)=O HMUNWXXNJPVALC-UHFFFAOYSA-N 0.000 description 1
- YLZOPXRUQYQQID-UHFFFAOYSA-N 3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)-1-[4-[2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidin-5-yl]piperazin-1-yl]propan-1-one Chemical compound N1N=NC=2CN(CCC=21)CCC(=O)N1CCN(CC1)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F YLZOPXRUQYQQID-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/61—Arrangements for services using the result of monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
- H04H60/65—Arrangements for services using the result of monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 for using the result on users' side
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/775—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/35—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
- H04H60/37—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
- H04H60/372—Programme
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/35—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
- H04H60/38—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying broadcast time or space
- H04H60/41—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying broadcast time or space for identifying broadcast space, i.e. broadcast channels, broadcast stations or broadcast areas
- H04H60/43—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying broadcast time or space for identifying broadcast space, i.e. broadcast channels, broadcast stations or broadcast areas for identifying broadcast channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/35—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
- H04H60/38—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying broadcast time or space
- H04H60/41—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying broadcast time or space for identifying broadcast space, i.e. broadcast channels, broadcast stations or broadcast areas
- H04H60/44—Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying broadcast time or space for identifying broadcast space, i.e. broadcast channels, broadcast stations or broadcast areas for identifying broadcast stations
Abstract
Description
1.概要
2.構成例
2−1.ハードウェア構成例
2−2.機能構成例
3.各実施例
3−1.第1の実施例:音声入力「チャンネル名」
3−2.第2の実施例:現在放送番組と録画番組の同時表示
3−3.第3の実施例:音声入力「現在の番組」
3−4.第4の実施例:音声入力「ジャンル」
3−5.第5の実施例:おすすめコンテンツ等を問う音声入力
3−6.第6の実施例:順番を有するコンテンツの表示
3−7.第7の実施例:外部入力を指定する音声入力
(音声入力「HDMI」の例)
3−8.第8の実施例:アプリケーションの起動等に関する音声入力
3−9.第9の実施例:電源OFFからの「録画/視聴予約、コンテンツ削除」
3−10.補足
4.まとめ
本節では、図1を用いて、本開示に係る技術が適用され得る情報処理装置の概要について説明する。図1は、本開示の一実施形態による情報処理装置100の概要について説明するための説明図である。図1を参照すると、情報処理装置100は、各放送局により電波塔200から放送される放送信号や、インターネット220(具体的には、インターネットを介して通信接続されるコンテンツ配信サーバ)から配信されるコンテンツデータを受信する受信装置であって、ディスプレイ108を備える所謂テレビジョン装置である。なお情報処理装置100(受信装置)は、テレビジョン装置に限定されず、スマートフォンやプロジェクタ、カーナビゲーションシステム、テレビジョン装置に接続された、録画再生機能を有するレコーダーや、再生機能を有するプレイヤー等の外部装置であってもよい。
<2−1.ハードウェア構成例>
図2は、情報処理装置100のハードウェア構成の一例を示すブロック図である。図2を参照すると、情報処理装置100は、カメラ101、マイクロフォン102、入力デバイス103、通信インタフェース(I/F)104、メモリ105、チューナ106、デコーダ107、ディスプレイ108、スピーカ109、遠隔制御I/F110、バス111およびプロセッサ112を備える。
カメラ101は、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を有し、画像を撮像する。カメラ101により撮像される画像(動画を構成する各フレーム)は、情報処理装置100による処理のための入力画像として扱われる。
マイクロフォン102は、ユーザにより発せられる音声を集音し、音声信号を生成する。マイクロフォン102により生成される音声信号は、情報処理装置100による音声認識のための入力音声として扱われる。
入力デバイス103は、ユーザが情報処理装置100を直接的に操作するために使用されるデバイスである。入力デバイス103は、例えば、情報処理装置100の筐体に配設されるボタン、スイッチおよびダイヤルなどを含み得る。入力デバイス103は、ユーザ入力を検出すると、検出されたユーザ入力に対応する入力信号を生成する。
通信I/F104は、情報処理装置100による他の装置(外部装置)との間の通信を仲介する。通信I/F104は、任意の無線通信プロトコルまたは有線通信プロトコルをサポートし、他の装置との間の通信接続を確立する。
メモリ105は、半導体メモリまたはハードディスクなどの記憶媒体により構成され、情報処理装置100による処理のためのプログラムおよびデータ、並びにコンテンツデータを記憶する。メモリ105により記憶されるデータは、例えば、後に説明する画像認識および音声認識のための特徴データを含み得る。なお、本明細書で説明するプログラムおよびデータの一部または全部は、メモリ105により記憶されることなく、外部のデータソース(例えば、データサーバ、ネットワークストレージまたは外付けメモリなど)から取得されてもよい。
チューナ106は、アンテナ(図示せず)を介して受信される放送信号から、所望のチャンネルのコンテンツ信号を抽出しおよび復調する。そして、チューナ106は、復調したコンテンツ信号をデコーダ107へ出力する。
デコーダ107は、チューナ106から入力されるコンテンツ信号からコンテンツデータを復号する。デコーダ107は、通信I/F104を介して受信されるコンテンツ信号からコンテンツデータを復号してもよい。デコーダ107により復号されるコンテンツデータに基づいて、コンテンツ画像が生成され得る。
ディスプレイ108は、LCD(Liquid Crystal Display)、OLED(Organic light-Emitting Diode)またはCRT(Cathode Ray Tube)などにより構成される画面を有し、情報処理装置100により生成される画像を表示する。例えば、図1を用いて説明したコンテンツ画像およびUI画像(項目画像30等)が、ディスプレイ108の画面に表示され得る。
スピーカ109は、振動板およびアンプなどの回路素子を有し、情報処理装置100により生成される出力音声信号に基づいて、音声を出力する。スピーカ109の音量は、変更可能である。
遠隔制御I/F110は、ユーザにより使用されるリモートコントローラから送信される遠隔制御信号(赤外線信号またはその他の無線信号)を受信するインタフェースである。遠隔制御I/F110は、遠隔制御信号を検出すると、検出された遠隔制御信号に対応する入力信号を生成する。
バス111は、カメラ101、マイクロフォン102、入力デバイス103、通信I/F104、メモリ105、チューナ106、デコーダ107、ディスプレイ108、スピーカ109、遠隔制御I/F110およびプロセッサ112を相互に接続する。
プロセッサ112は、例えば、CPU(Central Processing Unit)またはDSP(Digital Signal Processor)などであってよい。プロセッサ112は、メモリ105または他の記憶媒体に記憶されるプログラムを実行することにより、後に説明する情報処理装置100の様々な機能を動作させる。
図3は、図2に示した情報処理装置100のメモリ105およびプロセッサ112により実現される論理的機能の構成の一例を示すブロック図である。論理的機能の構成の一例を示すブロック図である。図3を参照すると、情報処理装置100は、音声取得部120、音声認識部130、アプリケーション部150、特徴データベース(DB)140および制御部160を備える。制御部160は、検索制御部162、選択制御部164、および表示制御部166を含む。なお、図3に示した機能ブロックの一部は、情報処理装置100の外部の(例えば、クラウドコンピューティング環境内の)装置において実現されてもよい。例えば、制御部160は、以下に説明する制御処理を自ら実行する代わりに、当該処理を外部の制御機能に実行させてもよい。同様に、音声認識部130は、以下に説明する音声認識処理を自ら実行する代わりに、当該処理を外部の音声認識機能に実行させてもよい。
音声取得部120は、マイクロフォン102により生成される音声信号を入力音声として取得する。そして、音声取得部120は、取得した入力音声を音声認識部130へ出力する。
音声認識部130は、音声取得部120から入力される入力音声に基づいて、ユーザの音声を認識する。音声認識部130は、入力音声をその内容を示すテキストに変換し、そのテキストを制御部160またはアプリケーション部150に出力する。
特徴DB140は、音声認識部130により音声認識のために使用される音声特徴データを予め記憶する。音声特徴データは、例えば、ユーザごとの発話の特徴を示す音声特徴量を含み得る。
アプリケーション部150は、情報処理装置100が有する様々なアプリケーション機能を実行する。例えば、番組再生機能、電子番組表(EPG;Electronic Program Guide)表示機能、録画設定機能、外部入力切り替え機能、写真再生機能、動画再生機能、音楽再生機能およびインターネットブラウジング機能などが、アプリケーション部150により実行されてよい。アプリケーション部150は、アプリケーション機能を通じて生成される(コンテンツ画像を含み得る)アプリケーション画像および音声を、制御部160へ出力する。
検索制御部162は、アプリケーション部150により実行されるアプリケーション機能の少なくとも一部が、音声認識部130と連携してユーザからの音声入力を受け付け、ユーザが所望するコンテンツを検索する処理を制御する。例えば、番組再生機能において、ユーザからの音声入力を受け付けて番組の表示を行う場合、検索制御部162は、音声認識部130により認識された語句(検索ワード)を少なくとも含む(部分一致する)名称に対応するチャンネル(チャンネル番号またはチャンネル名)、現在放送中またはインターネット配信中の番組名、録画番組、アプリケーション等を検索する。録画番組は、メモリ105に記憶されていてもよいし、通信I/F104を介して接続するレコーダー等の外部装置に記憶されていてもよい。
選択制御部164は、検索制御部162の検索結果から、実行する1のコンテンツを選択する制御を行う。選択制御部164は、検索結果が1つであった場合はこれを選択すればよいが、検索結果が複数であった場合、ユーザが要求している可能性の高いコンテンツを選択するため、所定の基準に従って1のコンテンツを選択する。
視聴履歴DB172は、コンテンツ(放送番組、録画番組、インターネット配信番組、アプリケーション等)の視聴履歴を記憶する。視聴履歴には、コンテンツの視聴時刻、アプリケーションの使用回数、視聴ユーザの情報、ユーザの検索履歴や検索結果に対する選択履歴等が含まれ得る。また、視聴履歴DB172は、録画予約情報を記憶してもよい。また、視聴履歴DB172は、情報処理装置100内に構築されていてもよいし、外部サーバ等の外部装置上にあるものが参照または取得されてもよい。また、視聴履歴DB172は情報処理装置100のユーザ以外の情報を含んでもよい。
嗜好DB174は、ユーザの嗜好情報を記憶する。嗜好情報は、ユーザに予めアンケート等を行って得た回答から取得してもよいし、ユーザの視聴履歴や番組検索履歴、録画予約情報等から取得してもよい。例えば、音声認識やカメラを用いた画像認識によって、情報処理装置100や外部装置がユーザの嗜好情報を判断してもよい。また、嗜好情報DB174は、情報処理装置100内に構築されていてもよいし、外部サーバ等の外部装置上にあるものが参照または取得されてもよい。また、嗜好情報DB174は情報処理装置100のユーザ以外の情報を含んでもよい。
表示制御部166は、ディスプレイ108を介する画像の表示を制御する。例えば、表示制御部166は、アプリケーション部150から入力されるアプリケーション画像をディスプレイ108に表示させる。また、表示制御部166は、検索制御部162による検索制御および選択制御部164による選択制御が行われた場合、検索結果および選択結果に応じた出力画像を生成し、ディスプレイ108に表示させる。
制御部160は、上述した検索制御部162、選択制御部164、および表示制御部166の各制御の他、情報処理装置100全体の制御を行い得る。例えば、本実施形態による制御部160は、少なくともマイクロフォン102による音声検出と音声認識部130による音声認識がONとなっているスタンバイ状態において、ユーザによる音声入力の受け付けを継続するよう制御する。ユーザによる音声入力の内容が、番組再生機能に関連する場合(例えば、音声入力の内容が、「○○〔システム名等の所定の呼び掛け〕、『NNN(チャンネル名)』を付けて」など)、制御部160は、ディスプレイ108を含む情報処理装置100全体の電源をONにする。そして制御部160は、アプリケーション部150により番組再生アプリケーションを起動し、検索制御部162において音声入力に基づいて検索した1以上のコンテンツから、選択制御部164で選択したコンテンツの画像を、ディスプレイ108に表示させるよう制御する。この際、制御部160は、上述したように、検索された各コンテンツの名称を示す項目画像や、他のコンテンツに切り替える際の入力を促す画像を、コンテンツの画像に重畳表示させる制御も行い得る。
続いて、本実施形態による情報処理装置100において行われ得るいくつかの音声入力例について、図4〜図13を用いて具体的に説明する。
まず、第1の実施例として、ユーザによるコンテンツ再生を要求する音声入力の一例として、チャンネル名の音声入力が行われた場合について説明する。
以上説明した第1の実施例では、チャンネル名の音声入力に応じて、チャンネルを選局し、そのチャンネルで現在放送中の番組をディスプレイ108に表示する制御を行っているが、本開示はこれに限定されず、情報処理装置100は、選局したチャンネルの録画番組を選択してもよい。すなわち、選択対象には、検索されたチャンネルの現在放送番組の他、録画番組も含まれ、検索結果を示す項目画像において、現在放送番組と録画番組が同時に表示されるようにしてもよい。また、チャンネル名の音声入力以外にも、番組名の音声入力に応じて、現在放送番組と録画番組が検索され、選択対象および検索結果を示す項目画像としての表示対象となってもよい。以下、現在放送中の番組と録画番組とを同時に表示する場合について、具体的に説明する。
また、情報処理装置100は、チャンネルの名称ではなく、現在受信可能なコンテンツ全体またはその一部を指定した音声入力がなされた場合にも、人や時間に応じた優先度に基づいてチャンネルを自動的に選択して表示することが可能である。
また、情報処理装置100は、番組(コンテンツの一例)のジャンルが音声入力された場合にも、人や時間に応じた優先度に従って、ユーザが要求している可能性の高い番組を自動的に選択して表示することが可能である。
また、情報処理装置100は、おすすめのコンテンツを問うような抽象的な音声入力が行われた場合にも、人や時間等に応じた優先度に従って、番組を自動選択して表示することが可能である。検索対象には、現在放送中の番組、録画番組、およびインターネット配信コンテンツ等、広く現在視聴可能なコンテンツが含まれる。
また、情報処理装置100は、ユーザによる音声入力に基づいて、連続ドラマや映画のシリーズなど、順番を有するコンテンツを検索した場合、コンテンツの視聴状態に応じて自動選択することが可能である。
以上説明した各実施例では、ユーザによる音声入力に応じてコンテンツを検索、選択する場合について説明したが、本開示はこれに限定されず、情報処理装置100は、ユーザによる音声入力に応じて、外部入力の検索を行うことも可能である。
図9は、本実例による外部入力を指定する音声入力がされた場合の動作処理の流れの一例を示すフローチャートである。ここでは、情報処理装置100が、少なくともマイクロフォン102による音声検出が可能で、ディスプレイ108がOFFとなっているスタンバイ状態において、ユーザによる所定の呼び掛け(エージェントの呼び出し)と、所定の検索用の語句(ここでは、例えば「外部入力」)を認識した場合の動作処理について説明する。
以上、ユーザの音声入力による外部入力の選択について説明した。なお、ユーザによる音声入力が、「HDMI」や「レコーダー」等、外部機器や外部入力経路に対するより具体的な指定であるが複数の選択肢がある場合(複数のHDMI入力やレコーダーが存在している場合)にも、情報処理装置100は、図10を参照して説明した外部入力機器の場合と同様に、検索結果(複数のHDMI入力やレコーダー)を示す項目画像をディスプレイ108に表示する。また、外部装置の選択を促す画像がディスプレイ108に表示されてもよい。
次いで、情報処理装置100においてインストール済みのアプリケーションを起動する場合の音声入力について説明する。例えば、インターネット配信コンテンツを享受するために利用される各種アプリケーション(コンテンツ配信会社により用意されたアプリケーションを含む)が情報処理装置100にインストールされている場合を想定する。本明細書では、以下一部の箇所で、「アプリケーション」を「アプリ」と省略して称する。
本実施例による情報処理装置100は、ディスプレイ108がOFFの状態でも、ユーザの音声入力に従って、録画予約、視聴予約、また、コンテンツ削除を行うことが可能である。以下、図12および図13を用いて具体的に説明する。
図12は、本実施例による電源OFF時の録画予約または視聴予約の動作処理の流れの一例を示すフローチャートである。ここで、「電源OFF時」とは、少なくともマイクロフォン102による音声検出と音声認識部130による音声認識が可能な状態(プロセッサ112、マイクロフォン102への電源供給が行われている状態)であって、かつ、ディスプレイ108がOFF(ディスプレイ108への電源供給が行われていない状態)となっているスタンバイ状態を想定する。
図13は、本実施例による電源OFF時のコンテンツ削除の動作処理の流れの一例を示すフローチャートである。
以上説明した各実施例は、それぞれ組み合わせて実施してもよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
(1)
ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索する検索処理と、
前記検索処理により得られた複数のチャンネルまたはコンテンツのうち、1のチャンネルまたはコンテンツを選択する処理と、
前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示する処理と、
さらに、前記表示部に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示する処理と、を行う制御部を備える、受信装置。
(2)
前記制御部は、前記表示部に、前記複数のチャンネルまたはコンテンツを選択する際の音声入力を促す画像を表示する、前記(1)に記載の受信装置。
(3)
前記音声入力を促す画像は、前記項目画像に表示された読み上げ項目の音声入力を促す説明文を含む、前記(2)に記載の受信装置。
(4)
前記音声入力を促す画像の前記説明文には、前記項目画像に表示された読み上げ項目の表示態様に合わせた表示態様の文字が含まれる、前記(3)に記載の受信装置。
(5)
前記制御部は、
前記ユーザの視聴履歴または嗜好情報の少なくともいずれか、若しくは、時間情報に基づく優先度に応じて、前記チャンネルまたはコンテンツを選択する、前記(1)〜(4)のいずれか1項に記載の受信装置。
(6)
前記制御部は、
前記優先度の高い順に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を表示する処理を行う、前記(5)に記載の受信装置。
(7)
前記コンテンツは、放送番組、録画番組、または、インターネットを介して配信される配信コンテンツである、前記(1)〜(6)のいずれか1項に記載の受信装置。
(8)
前記受信装置は、
放送局から送信される放送番組を受信する受信部と、
インターネットを介して配信される配信コンテンツを受信する通信部と、
をさらに備える、前記(7)に記載の受信装置。
(9)
前記読み上げ項目は、チャンネル名またはコンテンツ名である、前記(3)または(4)に記載の受信装置。
(10)
前記制御部は、
前記語句が、外部入力またはアプリケーションに関連する語句の場合、検索した外部入力の規格名称、外部入力先の外部装置の名称、またはアプリケーションの名称を示す各項目画像を、選択肢として前記表示部に表示し、その後、ユーザの音声入力により選択された外部入力またはアプリケーションの画像を、前記表示部に表示する処理を行う、前記(1)〜(9)のいずれか1項に記載の受信装置。
(11)
前記制御部は、
前記表示部の電源がOFFになっていた場合、前記表示部の電源をONにした上で、前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示する処理を行う、前記(1)〜(10)のいずれか1項に記載の受信装置。
(12)
前記制御部は、
前記語句がチャンネルまたは番組の名称に関連する語句の場合、チャンネルまたは番組を検索し、検索されたチャンネルまたは番組に対応する放送番組と録画番組とから、人または時間に基づく優先度が最も高い1の番組を選択し、選択した番組を前記表示部に表示する処理を行う、前記(1)〜(11)のいずれか1項に記載の受信装置。
(13)
前記制御部は、
前記ユーザが視聴済みの番組については優先度が未視聴のコンテンツの優先度よりも低くなるようにする、前記(12)に記載の受信装置。
(14)
前記制御部は、
音声受付処理を外部操作端末からの信号によって開始し、
前記音声受付処理は外部操作端末が有するマイクロフォンによって行われる、前記(1)〜(13)のいずれか1項に記載の受信装置。
(15)
前記外部操作端末は、前記音声受付処理の開始操作を行うための物理キーあるいは仮想キーを有するリモートコントローラまたはモバイル端末である、前記(14)に記載の受信装置。
(16)
前記制御部は、
前記語句が起動していない外部機器の指定である場合、前記外部機器を起動し、前記外部機器のホーム画面を前記表示部に表示する処理を行う、前記(1)〜(15)のいずれか1項に記載の受信装置。
(17)
前記コンテンツは音声コンテンツであり、前記選択したコンテンツを表示部に表示する処理は、前記音声コンテンツを示す画像を前記表示部に表示する処理である、前記(1)〜(16)のいずれか1項に記載の受信装置。
(18)
前記制御部は、
前記項目画像を一定時間前記表示部に表示する処理を行う、前記(1)〜(17)のいずれか1項に記載の受信装置。
(19)
前記制御部は、
前記項目画像において、各コンテンツの放送状況または視聴状態を示す情報を表示する、前記(1)〜(18)のいずれか1項に記載の受信装置。
(20)
プロセッサが、
ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索することと、
前記検索により得られた複数のチャンネルまたはコンテンツのうち、1のチャンネルまたはコンテンツを選択することと、
前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示することと、
さらに、前記表示部に、前記検索により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示することと、
を含む、制御方法。
101 カメラ
102 マイクロフォン
103 入力デバイス
104 通信インタフェース(I/F)
105 メモリ
106 チューナ
107 デコーダ
108 ディスプレイ
109 スピーカ
111 バス
112 プロセッサ
120 音声取得部
130 音声認識部
140 特徴データベース
150 アプリケーション部
160 制御部
162 検索制御部
164 選択制御部
166 表示制御部
172 視聴履歴データベース
174 嗜好データベース
Claims (20)
- ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索する検索処理と、
前記検索処理により得られた複数のチャンネルまたはコンテンツのうち、1のチャンネルまたはコンテンツを選択する処理と、
前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示する処理と、
さらに、前記表示部に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示する処理と、を行う制御部を備える、受信装置。 - 前記制御部は、前記表示部に、前記複数のチャンネルまたはコンテンツを選択する際の音声入力を促す画像を表示する、請求項1に記載の受信装置。
- 前記音声入力を促す画像は、前記項目画像に表示された読み上げ項目の音声入力を促す説明文を含む、請求項2に記載の受信装置。
- 前記音声入力を促す画像の前記説明文には、前記項目画像に表示された読み上げ項目の表示態様に合わせた表示態様の文字が含まれる、請求項3に記載の受信装置。
- 前記制御部は、
前記ユーザの視聴履歴または嗜好情報の少なくともいずれか、若しくは、時間情報に基づく優先度に応じて、前記チャンネルまたはコンテンツを選択する、請求項1に記載の受信装置。 - 前記制御部は、
前記優先度の高い順に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を表示する処理を行う、請求項5に記載の受信装置。 - 前記コンテンツは、放送番組、録画番組、または、インターネットを介して配信される配信コンテンツである、請求項1に記載の受信装置。
- 前記受信装置は、
放送局から送信される放送番組を受信する受信部と、
インターネットを介して配信される配信コンテンツを受信する通信部と、
をさらに備える、請求項7に記載の受信装置。 - 前記読み上げ項目は、チャンネル名またはコンテンツ名である、請求項3に記載の受信装置。
- 前記制御部は、
前記語句が、外部入力またはアプリケーションに関連する語句の場合、検索した外部入力の規格名称、外部入力先の外部装置の名称、またはアプリケーションの名称を示す各項目画像を、選択肢として前記表示部に表示し、その後、ユーザの音声入力により選択された外部入力またはアプリケーションの画像を、前記表示部に表示する処理を行う、請求項1に記載の受信装置。 - 前記制御部は、
前記表示部の電源がOFFになっていた場合、前記表示部の電源をONにした上で、前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示する処理を行う、請求項1に記載の受信装置。 - 前記制御部は、
前記語句がチャンネルまたは番組の名称に関連する語句の場合、チャンネルまたは番組を検索し、検索されたチャンネルまたは番組に対応する放送番組と録画番組とから、人または時間に基づく優先度が最も高い1の番組を選択し、選択した番組を前記表示部に表示する処理を行う、請求項1に記載の受信装置。 - 前記制御部は、
前記ユーザが視聴済みの番組については優先度が未視聴のコンテンツの優先度よりも低くなるようにする、請求項12に記載の受信装置。 - 前記制御部は、
音声受付処理を外部操作端末からの信号によって開始し、
前記音声受付処理は外部操作端末が有するマイクロフォンによって行われる、請求項1に記載の受信装置。 - 前記外部操作端末は、前記音声受付処理の開始操作を行うための物理キーあるいは仮想キーを有するリモートコントローラまたはモバイル端末である、請求項14に記載の受信装置。
- 前記制御部は、
前記語句が起動していない外部機器の指定である場合、前記外部機器を起動し、前記外部機器のホーム画面を前記表示部に表示する処理を行う、請求項1に記載の受信装置。 - 前記コンテンツは音声コンテンツであり、前記選択したコンテンツを表示部に表示する処理は、前記音声コンテンツを表す画像を前記表示部に表示する処理である、請求項1に記載の受信装置。
- 前記制御部は、
前記項目画像を一定時間前記表示部に表示する処理を行う、請求項1に記載の受信装置。 - 前記制御部は、
前記項目画像において、各コンテンツの放送状況または視聴状態を示す情報を表示する、請求項1に記載の受信装置。 - プロセッサが、
ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索することと、
前記検索により得られた複数のチャンネルまたはコンテンツのうち、1のチャンネルまたはコンテンツを選択することと、
前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示することと、
さらに、前記表示部に、前記検索により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示することと、
を含む、制御方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018231615 | 2018-12-11 | ||
JP2018231615 | 2018-12-11 | ||
PCT/JP2019/045714 WO2020121776A1 (ja) | 2018-12-11 | 2019-11-21 | 受信装置および制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2020121776A1 true JPWO2020121776A1 (ja) | 2021-10-28 |
Family
ID=71077262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020559912A Pending JPWO2020121776A1 (ja) | 2018-12-11 | 2019-11-21 | 受信装置および制御方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11748059B2 (ja) |
EP (1) | EP3896985A4 (ja) |
JP (1) | JPWO2020121776A1 (ja) |
WO (1) | WO2020121776A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022044904A1 (ja) * | 2020-08-28 | 2022-03-03 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
US11166063B1 (en) * | 2020-12-08 | 2021-11-02 | Rovi Guides, Inc. | Enhanced set-top box control |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3979556B2 (ja) * | 1998-12-22 | 2007-09-19 | パイオニア株式会社 | 番組選択装置及び番組選択方法 |
US7096185B2 (en) * | 2000-03-31 | 2006-08-22 | United Video Properties, Inc. | User speech interfaces for interactive media guidance applications |
JP2004096530A (ja) * | 2002-09-02 | 2004-03-25 | Matsushita Electric Ind Co Ltd | 選局装置およびテレビ受信システム |
US7792828B2 (en) * | 2003-06-25 | 2010-09-07 | Jericho Systems Corporation | Method and system for selecting content items to be presented to a viewer |
JP2007142840A (ja) * | 2005-11-18 | 2007-06-07 | Canon Inc | 情報処理装置及び情報処理方法 |
US20080098433A1 (en) * | 2006-10-23 | 2008-04-24 | Hardacker Robert L | User managed internet links from TV |
US8819555B2 (en) * | 2011-04-07 | 2014-08-26 | Sony Corporation | User interface for audio video display device such as TV |
WO2013012107A1 (ko) * | 2011-07-19 | 2013-01-24 | 엘지전자 주식회사 | 전자 기기 및 그 제어 방법 |
JP2014126600A (ja) * | 2012-12-25 | 2014-07-07 | Panasonic Corp | 音声認識装置、音声認識方法、およびテレビ |
KR20140089862A (ko) * | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 디스플레이 장치 및 그의 제어 방법 |
KR102030114B1 (ko) * | 2013-01-07 | 2019-10-08 | 삼성전자주식회사 | 서버 및 그의 제어 방법 |
JP5955299B2 (ja) | 2013-11-08 | 2016-07-20 | 株式会社ソニー・インタラクティブエンタテインメント | 表示制御装置、表示制御方法、プログラム及び情報記憶媒体 |
US9338493B2 (en) * | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP2016029495A (ja) * | 2015-10-08 | 2016-03-03 | パナソニックIpマネジメント株式会社 | 映像表示装置および映像表示方法 |
KR102499124B1 (ko) * | 2016-01-21 | 2023-02-15 | 삼성전자주식회사 | 디스플레이 장치 및 디스플레이 장치의 제어 방법 |
CN107943894A (zh) * | 2017-11-16 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 用于推送多媒体内容的方法和装置 |
US10560737B2 (en) * | 2018-03-12 | 2020-02-11 | Amazon Technologies, Inc. | Voice-controlled multimedia device |
KR102472010B1 (ko) * | 2018-05-04 | 2022-11-30 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
-
2019
- 2019-11-21 JP JP2020559912A patent/JPWO2020121776A1/ja active Pending
- 2019-11-21 EP EP19896919.8A patent/EP3896985A4/en active Pending
- 2019-11-21 US US17/311,084 patent/US11748059B2/en active Active
- 2019-11-21 WO PCT/JP2019/045714 patent/WO2020121776A1/ja unknown
-
2023
- 2023-08-02 US US18/229,523 patent/US20230401030A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3896985A1 (en) | 2021-10-20 |
US20230401030A1 (en) | 2023-12-14 |
US20220043627A1 (en) | 2022-02-10 |
EP3896985A4 (en) | 2022-01-05 |
WO2020121776A1 (ja) | 2020-06-18 |
US11748059B2 (en) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7422176B2 (ja) | Tvユーザ対話のためのインテリジェント自動アシスタント | |
US11822606B2 (en) | Systems and methods for updating search results based on a conversation | |
US20230401030A1 (en) | Selecting options by uttered speech | |
KR20160039830A (ko) | 멀티미디어 장치 및 그의 음성 가이드 제공방법 | |
TWI587253B (zh) | 提供口述影像可用性通知的方法與設備 | |
TW201709748A (zh) | 電視節目智慧播放方法與其控制裝置 | |
WO2021197068A1 (zh) | 显示设备及内容推荐方法 | |
JP2011170735A (ja) | サーバ装置、電子機器、検索システム、検索方法及びプログラム | |
EP3965430A1 (en) | Display device for providing speech recognition service | |
WO2022044904A1 (ja) | 情報処理装置及び情報処理方法 | |
EP3905707A1 (en) | Display device and operating method thereof | |
KR20230111758A (ko) | 디스플레이 장치 | |
KR20150137146A (ko) | 영상제공장치의 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221018 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20230831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
AA91 | Notification that invitation to amend document was cancelled |
Free format text: JAPANESE INTERMEDIATE CODE: A971091 Effective date: 20231024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240409 |