JPWO2016006088A1

JPWO2016006088A1 - 電子機器及び方法及びプログラム

Info

Publication number: JPWO2016006088A1
Application number: JP2016532376A
Authority: JP
Inventors: 能康伊藤
Original assignee: Toshiba Corp; Toshiba Visual Solutions Corp
Current assignee: Toshiba Corp; Toshiba Visual Solutions Corp
Priority date: 2014-07-10
Filing date: 2014-07-10
Publication date: 2017-04-27
Anticipated expiration: 2034-07-10
Also published as: WO2016006088A1; JP6305538B2

Abstract

実施形態では、一人または複数の話者が発している音声や会話内容の話題を有効に利用されるようにすることを目的とする。実施形態によれば、１人又は複数人のユーザによって発話された音声のデータを受け付ける受付部と、前記音声のデータに含まれる複数の部分のうち、第１基準に分類される部分の量がしきい値を超える場合には、前記第１基準を用いて処理を実行する処理部と、を備え、前記音声のデータに含まれる複数の部分のうち、第２基準に分類される部分の量がしきい値を超える場合には、前記処理部は、前記第２基準を用いて処理を実行する。

Description

この実施形態は、１人又は複数人の音声に応じた処理を行うための電子機器及び方法及びプログラムに関する。

従来から音声認識装置が開発されている。音声認識装置は、人間が発した音声をデジタル化し、デジタル化した音声データを解析して、単語を識別する機能を有する。さらに音声認識装置は、音声データから単語を識別して、ある程度の命令などを判断することも可能である。

特開２００３−３２３４２４号公報特開２００３−２９６３３３号公報ＷＯ２００６／０８５５６５特開２０１０−１８１４６１号公報

音声認識装置は、ロボット等の各種の分野に用いられることができ、さらなる応用が期待されている。このような場合、音声認識として、一人または複数の話者が発している音声データを解析し、単語を特定することで命令語や指令語を解釈する技術のみでは、不十分なケースが考えられる。

そこで本実施形態においては、一人または複数の話者が発している音声や会話内容の話題を有効に利用されるようにした電子機器及び方法及びプログラムを提供することを目的とする。

実施形態によれば、１人又は複数人のユーザによって発話された音声のデータを受け付ける受付部と、前記音声のデータに含まれる複数の部分のうち、第１基準に分類される部分の量がしきい値を超える場合には、前記第１基準を用いて処理を実行する処理部と、を備え、前記音声のデータに含まれる複数の部分のうち、前記第２基準に分類される部分の量がしきい値を超える場合には、前記処理部は、前記第２基準を用いて処理を実行する。

一実施形態が適用されたテレビジョン受信機の構成例を示す図である。一実施形態の要部のブロック構成を示す図である。一実施形態の動作例を示すフローチャートである。一実施形態に基づき動作するテレビジョン受信装置の動作説明図である。一実施形態の基本的なブロック構成例を示す図である。他の実施形態の全体系統を示す図である。さらにまた他の実施形態を説明するための図である。さらにまた他の実施形態を示す図である。

以下、実施の形態について図面を参照して説明する。まず一実施形態が適用されたテレビジョン受信機１００の構成を説明し、次に要部のブロック構成、動作説明を行うこととする。

図１において、テレビジョン受信機１００は、デジタルチューナ装置１０２を有する。デジタルチューナ装置１０２は、例えばスクランブルされたデジタル地上波放送信号を受信することができる複数のチューナを含む。デジタルチューナ装置１０２は例えばＢＳ／ＣＳデジタル放送受信用のチューナ（図示せず）が含んでも良い。

デジタルチューナ装置１０２で受信された複数のチャンネルの放送番組の信号は、ＴＳ処理部１０３に入力される。

ＴＳ処理部１０３において、複数のチャンネル（ＣＨ）のＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）が１つのＴＳ列に再多重される。多重された多重ＴＳは各チャンネルの放送番組のパケット列を含む。各チャンネルのパケットには、チャンネル及びパケット識別用の識別情報が付加されている。

多重ＴＳは、マイクロプロセッサー２００の制御に基づき、記録再生装置２２３に格納されることができる。またＴＳ処理部１０３に入力したＴＳの中で、制御情報を含むパケットは、マイクロプロセッサー２００において読み取られる。

記録再生装置２２３は、例えば、ハードディスクドライブ、光ディスク記録再生装置を含む。光ディスクはデジタルバーサタイルディスク（ＤＶＤ）及びまたはブルーレイディスク（ＢＤ）などである。

ＴＳ処理部１０３からマイクロプロセッサー２００に送られる制御情報を含むパケットは、例えば、放送番組の暗号化情報であるＥＣＭ（Entitlement Control Message）と、番組名、出演者、開始時刻などのイベント情報を記述したテーブルであるＥＩＴ（Event Information Table）などの情報、ＥＰＧ（Electric Program Guide：電子番組ガイド）情報を含む。これらの情報は番組情報と称されてもよい。

パケットに含まれる映像データは、例えばＭＰＥＧ(Moving Picture Expert Group)方式、ＡＶＣ(Advanced Video Coding)方式などでエンコードされている。またオーディオパケット内のオーディオデータは、例えば、ＰＣＭ(Pulse Code Modulation)方式、Ｄｏｌｂｙ方式、ＭＰＥＧ方式などでエンコードされている。従って、各パケット内のデータは各方式に応じてデコードされる。

ＴＳ処理部１０３で分離されたパケットの中でオーディオデータ、映像データを含むパケットは、マイクロプロセッサー２００において符号化方式に応じた復号化が実施される。デコードされたオーディオデータは、増幅器１１１を介して、スピーカ１１２に供給される。

また映像データを含むパケットも、マイクロプロセッサー２００において符号化方式に応じた復号化が実施される。デコードされた映像データは、高画質化回路１０４で高画質化され、液晶駆動回路１０５を介して液晶表示パネル１０６に供給される。

マイクロプロセッサー２００に、フラッシュメモリ２２１、ランダムアクセスメモリ２２２が接続されている。フラッシュメモリ２２１は、マイクロプロセッサー２００で用いるパラメータ、一定の画像データなどを格納している。またランダムアクセスメモリ２２２は、一時的なデータ保存、番組情報の保存などに利用される。

リモコン受信部４０１は、リモートコントローラからの操作信号を受け取り、マイクロプロセッサー２００に伝送する。またリモコン受信部４０１は、リモートコントローラからの指令が、電源オンまたはオフ指令であれば、電源制御部４０２にその指令を転送することができる。

電源のオンまたはオフの指令、さらには、テレビジョン受信機の各種の操作指令は、送受信部４０３から入力する場合もある。例えば携帯端末がリモートコントローラに代わってテレビジョン受信機を操作可能である場合、各種の操作指令は、送受信部４０３から入力する。電源回路４１１は、テレビジョン受信機の各ブロックに適合した安定した電源電圧を生成している。

マイクロプロセッサー２００は、データ、図形、番組表、シーンコメント、メッセージなどをメイン映像信号に多重することができる。

マイクロプロセッサー２００は、演算部、操作入力などのコマンドを処理するコマンド処理部を含む。さらにマイクロプロセッサー２００は、通信制御部、操作デバイス管理部、記録再生制御部、表示処理部、メモリを含む。さらにＥＰＧ(Electric program guide)データ処理部、記録制御部、などを含むがここでは示していない。

マイクロプロセッサー２００は、全体の動作シーケンスの調整を行っている。コマンド処理部は、外部から入力する操作コマンドを解析し、コマンドに応じた動作をテレビジョン受信機に反映させることができる。操作デバイス管理部は、マイクロプロセッサー２００に対して操作信号を与える携帯端末、リモートコントローラなどのデバイス識別データを把握し、管理することができる。携帯端末或いはリモートコントローラからの操作信号が入力したときは、マイクロプロセッサー２００は、操作デバイスのＩＤが操作デバイス管理部に登録されているか否かを確認する。

記録再生制御部は、受信した番組を記録再生装置２２３に記録する記録系の動作を制御する。また記録再生制御部は、記録再生装置２２３に記録されている番組を再生する再生系の動作を制御する。再生モードとしては、通常再生、ダイジェスト再生、シーンリストに基づく番組再生などがある。

表示処理部は、液晶表示パネル１０６に表示される映像信号を全般的に制御することができる。また表示処理部は、画像信号の解像度、表示サイズ、表示エリアなどの調整処理を行うこともできる。また、ＥＰＧデータを用いて作成した番組表の映像信号や、操作信号に応じてマイクロプロセッサー２００内で作成されたメニュー映像信号を表示させることができる。

フラッシュメモリ２２１は、マイクロプロセッサー２００内で保存する各種のデータ、アプリケーションなどを保存することができる。

通信制御部は、送受信部４０３を介して、外部との通信を行い、操作コマンド、データ、コンテンツ、などを取り込むことができる。取り込まれたコンテンツ、及びデータは、例えば記録再生装置２２３、或いはメモリ２２１，２２２に格納されることができる。通信制御部は、テレビジョン受信機から外部に向けて、データ、コンテンツ、などを送信することができる。

通信制御部は、送受信部４０３、インターネット５００を介して、サーバ５０１と相互通信を行うことができる。サーバは、ホームサーバ或いはエリア内サーバなどであってもよい。また通信制御部は、送受信部４０３、アクセスポイントを介して、携帯端末と相互通信が可能である。これにより、テレビジョン受信機から携帯端末にデータを送信することができるし、また携帯端末からテレビジョン受信機にデータを取り込むこともできる。

従って、携帯端末は、テレビジョン受信機をリモートコントロールすることもできる。また携帯端末は、図示しない基地局、インターネットなどを介してサーバをアクセスすることができる。サーバが提供するコンテンツは勿論のこと、各種のアプリケーション、ゲームソフトなどをダウンロードし、送受信部４０３を介してマイクロプロセッサー２００に転送することが可能である。また携帯端末は、コンテンツを取得するための情報（例えばウェブサーバのアドレス、メールアドレス、ネットワークアドレスなど）を、送受信部４０３を介してマイクロプロセッサー２００に転送することが可能である。

上記の構成において、さらにマイク３０１が設けられている。マイク３０１で集音された音声（オーディオ）データは、マイク制御部３０２で処理される。マイク制御部３０２は、オーディオデータをデジタル化する。デジタル化されたオーディオデータは、マイクロセッサー２００に送られる。マイク制御部３０２は、音声ノイズの除去、話者の方位と距離の特定、特定方向の音声集音などを行ってもよい。オーディオデジタルデータは、メモリ２２２に一定時間分が一時的に格納されることができる。

図２は、一実施形態の要部のブロック構成を概略的に示す図である。このブロック構成は、マイクロプロセッサー２００内にそのほとんどが構成されている。しかしマイク制御部３０２で音声認識などの処理の一部が代行されてもよい。

マイク３０１で集音されたオーディオデータは、メモリ装置に記憶される。メモリ装置は、例えばオーディオデータの少なくとも２乃至３分程度の会話をデジタル記録できるものであればよい。そして、直近の会話のデータを残しながら古いものを消去する方式のメモリ装置であればよい。しかし記録時間は、限定されるものではなく、さらに長い時間を記録保存できるものであってもよい。

マイク３０１による集音方法は、各種の形態が可能である。例えば、マイクが内蔵されたリモートコントローラを利用して、無線媒体（電波、赤外線など）を介して集音する方法がある。また、携帯端末により周囲の音声が集音され、音声データが携帯端末から音声認識部６０１に送信される方法もある。またマイクの設置場所も各種の形態が可能である。例えば、リビングルームに設置する、台所の冷蔵庫周辺に設置する、食事をするテーブルに設置するなど各種の形態が選択的或いは集合的に利用される。

メモリ装置から読み出されたオーディオデータは、受付部３０３を介して処理部としての音声データ処理部６００内の音声認識装置６０１に入力される。この入力タイミングは、前記直近の会話のデータが常時入力されてもよいし、或いはユーザ操作が実施されたときに入力が開始されてもよい。

音声認識部６０１では、デジタル化されたオーディオデータの中から人が発声する音声データが分離される。音声認識部６０１では、例えば、話者の発話文が推定される。例えば話者ＡとＢが会話している場合、話者Ａの発話文、話者Ｂの発話文が区別され、トータルで例えば６０秒（この長さに限定されるものではない、２分、３分など任意でもよい）程度の会話の音声データが認識される。また音声データとともに、発話音量（強弱）レベルも測定されてもよい。話者Ａ，Ｂがそれぞれ会話時に発する文を、発話文と称することにする。また、各発話文には、時刻情報が付加される。

音声認識部６０１により推定された発話文は、形態素解析部６０２に入力される。形態素解析部６０２は、音声認識部６０１によって得られた発話文を品詞に分解し、この品詞に基づきデータベース管理部６０８のデータベースから、該品詞に対応する単語を抽出する。発話文は、話者が会話により発する単語或いはこれらの集合（文）であるから、複数の品詞が検知される。

例えば発話文が「ニュースを見たい」であれば「ニュース（名詞）」「を（助詞）」「見（動詞）」「たい（助動詞）」のように分類される。この分類に基づいて、意図判別部６０３は、この発話文の意図は、「ニュース（対称）」「見たい（再生指示）」であると判定する。この発話文の例は、指示文言（見たい）があるので、話題が明確である。指示文言がない場合は、発話文のカテゴリの判断が行われる。

即ち、各発話文に含まれる名詞などの品詞のデータは、会話のカテゴリを分類するカテゴリ分類部６０４に入力される。カテゴリ分類部６０４は、抽出された単語（名詞）などについてそれぞれ類義語、同意語をデータベースから引き充て、カテゴライズする。

この場合、各発話文の一次的なカテゴリが特定される。１つの発話文に対する一次的なカテゴリは、複数の候補が取得される場合もある。例えば富士山、登山、登山用品、エベレスト、天候、山仕事、などの用語が検知された場合、登山に関するカテゴリ、山の天候に関するカテゴリ、登山のためのビジネスに関するカテゴリが推定される。しかしこの場合、最多の単語は、「山」であり、カテゴリは、分散している。もし、天候に関する用語、例えば晴れ、吹雪く、雪、雨などが多発している場合、カテゴリとして「天候」に関する会話であると推定される。よってこの場合、話題が「山に関する天候の会話」であると絞り込まれることができる。しかし上記の説明は一例であり、話題の推定方法は、各種の方法が可能である。例えば、一定の単語が検知される検知回数に対して閾値が設定され、閾値を超えて表れる「単語」が採用されて、カテゴリ推定に用いられてもよい。

話量統計部６０６では、時計部６０５で取得した発話文毎の時刻情報を参照し、最後の発話分（或いは発話）から例えば６０秒間遡及し、この６０秒間内の各カテゴリの発話数を集計する。

話題特定部６０７は、話量統計部６０６で集計された発話数を利用し、先の最後の発話から遡及し、直近に例えば最も多く推定されたカテゴリと、直近に最も多く検出された単語を抽出する部分である。これにより、６０秒間の最多のカテゴリと単語が決まる。つまり最多のカテゴリと単語により、６０秒間の全体会話の話題が推定されることになる。話題が推定されたことは、この話題に基づいてサーチなどを行う対象が確定したことに想到する。話題は、例えば予めカテゴリと単語の組み合わせにより、データベース化されている。また、学習機能に基づいて、データベースが増加されてもよい。

上記の如く特定された話題（カテゴリと単語に基づく、ただしカテゴリは分散する場合もある）は、機器制御部（話題関連情報抽出部と称しても良い）に送られる。

機器制御部７００は、例えばテレビジョン受信機或いはサーバに格納されている放送番組の推薦装置である。なお機器制御部７００は、各種の形態が可能であり、他の実施形態については後でも説明する。

機器制御部７００は、コンテンツ検索部７０１を有する。また番組情報を格納したコンテンツ管理部７０２、コンテンツ提示部７０３、グラフィックユーザインターフェース（ＧＵＩ)処理部７０４を備える。

コンテンツ検索部７０１は、話題に関連する番組情報を、コンテンツ管理部７０２の番組情報中から検索する。例えば話題が「山」であれば、番組情報に「山」を含む番組名を検索する。コンテンツ検索部７０１は、検索したターゲット番組名をコンテンツ提示部７０３に供給する。さらに話題が他の用語を含む場合、例えば「山に関する天候」であれば、番組を絞り込むことができる。

コンテンツ検索部７０１は、話題と、コンテンツ管理部７０２で管理されている録画コンテンツや未来番組の番組情報とのマッチングを行い、話題の中心となる番組を特定する。この番組は１つの場合もあるし、複数の場合もある。

コンテンツ提示部７０３は、ＧＵＩ処理部７０４を制御し、ターゲット番組名、及びそのチャンネル、などを液晶表示パネルに表示する。またコンテンツ提示部７０３は、音声合成部６１１を介して推薦番組の番組名などを音声出力することができる。複数の番組が抽出された場合は、複数の番組の番組名やチャンネルが番組リストとして提示される。

即ち、コンテンツ掲示部７０３とＧＵＩ処理部７０４で該当番組を一覧するとともに、音声合成部でコンテンツ情報を発話し、ユーザに知らせる。データベース管理部６０８は、音声認識部６０１やカテゴリ分類部６０４で必要な単語データベースやシソーラス（類義語）データベースを管理している。

したがって、上記した話題特定部６０７は、話題を特定するために中心となった単語及び又はカテゴリのデータであって、電子機器を制御するためのトリガとなる話題データを得ることができる。そしてこの話題データを機器制御部７００が用い、ユーザに対しえ推薦番組を提示することができる。

図３は、直近の話題（例えば現時点から６０秒遡及した期間の話題）に関連するコンテンツ（番組名）を検索し、この番組情報の掲示処理を行うフローチャートである。

提示処理は、例えばリモートコントローラ或いは携帯端末のＴＶ操作画面の特定のボタンを操作することにより開始される（ステップＳ１）。

初めに前回の音声入力からの経過時間をチェックする（ステップＳ２）。一定時間が経過していない場合は、対話が継続されている状態であるため、入力された音声は音声認識される。即ち、音声入力開始（ステップＳ４）、入力した音声の発話時刻の記録（ステップＳ５）、音声認識（ステップＳ６）が実行される。

音声の発話時刻は、前回（最終）発話時刻としてメモリＭＥＭＯ１に記録され、時間経過をチェックするステップＳ２において、利用される。

音声認識により得られた認識文字列は、単語データベースを参照し形態素解析にかけられる。この間、音声入力開始（ステップＳ４）、発話時刻記録（ステップＳ５）、音声認識（ステップＳ６）、形態素解析（ステップＳ７）が実行される。最終発話時刻は、メモリＭＥＭＯ１に一次的に保存される。また認識文字列は、メモリＭＥＭＯ２に保存される。さらにまた単語データベースは、データベースＤＢ１が利用される。

意図判別のときは、例えば発話が「ニュースを見たい」であった場合は、「ニュース（名詞）」「を（助詞）」「見（動詞）」「たい（助動詞）」のように分類する。さらに発話の意図を「ニュース（対象）」「見たい（再生指示）」のように判別する（ステップＳ８）。つまり音声データが複数部分に分解され、品詞毎に分類される。

ここで「見たい」のように指示文言がある場合は、判定ステップＳ９からステップＳ１０に移行する。指示文が無い場合は、カテゴリ分類ステップＳ１１に移行する。

指示文言がある場合には、指示文言と、その直前の名詞との合成により、指示文言を含む話題として特定される。しかし６０秒の会話内には、他の話題が存在する場合もある。そこで、指示文言を含む話題は、別のホルダで集合される。そして、６０秒の会話の解析が終了した時点で、指示文言を含む話題の統計処理が行われ、最も頻度の高い話題に関するメッセージがユーザに提示される。ユーザは、当該話題に関する指示が実行されるのを許可するか否かを例えばリモートコントローラにより指示することができる。

ステップＳ９において、指示文が無かった場合、カテゴリ分類が行われる。カテゴリ分類が行われるときは、シソーラスデータベースＤＢ２の類義語、同意語が利用される。次のステップＳ１２では、カテゴリ別の発話時刻の記録が行われ、処理ルーチンがステップＳ２に戻る。発話時刻の記録は、メモリＭＥＭＯ３に記録される。

上記のステップＳ２からＳ１２のループが繰り返し処理され、６０秒程度の会話内容のデータ処理が終了した場合、ステップＳ３からステップＳ１０にジャンプする。

ステップＳ１０において、既に６０秒程度の会話内容のデータ処理が終了している場合は、特定された話題が、機器制御部に送られる。これにより、ステップＳ１７において、対象或いは推薦番組の検索が行われる。検索は、例えばコンテンツ管理データベースＤＢ３のデータが利用される。推薦番組が特定された後、番組名の提示が行われ終了する（ステップＳ１７，Ｓ１８）。

ステップＳ１０において、まだ６０秒程度の会話内容のデータ処理が終了していない場合は、ステップＳ１３、Ｓ１４，Ｓ１５において、話量統計部６０６、話題特定部６０７による処理が実施される。即ち、話量統計部６０６では、時計部６０５で取得した発話文毎の時刻情報を参照し、最後の発話分（或いは発話）から６０秒間内の各カテゴリの発話数を集計する。そして、話題特定部６０７は、話量統計部６０６で集計された発話数を利用し、６０秒間の最多のカテゴリと単語を決定する。つまり最多のカテゴリと単語により、６０秒間の全体会話の話題が推定される。話題が推定されたことは、この話題に基づいてサーチなどを行う対象が確定したことに想到する。

しかし話題が特定していない場合、つまり６０秒間内の各カテゴリの発話数が全て集計されていない場合は、ステップＳ１６から、ステップＳ２，Ｓ３に戻り、再度ステップＳ１３−Ｓ１５の処理が行われる。話題が確定している場合は、ステップＳ１７に移行して、推薦番組の検索が行われる。

図４は、テレビジョン受信機１００の周囲で、ユーザが会話しているとき、テレビジョン受信機１００機能が変化した場合の例を示している。今、テレビジョン受信機１００がある番組を再生しているものとする。

ここでユーザが以下の会話をしたとする（ＳＤ１）、
２０：００．００「仕事は片付いたか？」
２０：００．３５「高尾山は楽しかったな」
２０：００．４５「登山やってみようかな」
２０：００．５５「山の天候は変わりやすいらしい」
２０：０１．０５「登山用品屋に行ってみようか」
２０：００．２０「何かないかな？」
上記の会話を分析すると、「高尾山、登山、山」から直近の６０秒前までに「山」カテゴリが４件となる（ＳＤ２）。ここで実施形態における装置は、「山」関連のコンテンツ検索を実施する（ＳＤ３）。この結果、例えばタイトル「世界遺産富士山のすべて」を抽出しユーザに音声合成で提示することができる（ＳＤ４）。

音声認識部の処理内で形態素の分解が可能な場合は、形態素解析結果を音声認識部から取得してもよい。上記の処理において、発話者を特定しうる環境下においては、同一発話者による発話ごとに発話数を統計してもよい。

上記した例は一例であり、会話から「話題」を推定し、この話題に関する関連情報をサーチしたり、利用したりするケースやシステムは多々可能である。

上記したように、実施形態によると、受付部３０３が、１人又は複数人のユーザによって発話された音声のデータを受け付ける。処理部６００は、前記音声のデータに含まれる複数の部分（品詞）のうち、第１基準（単語及び又はカテゴリ）に分類される部分の量がしきい値を超える場合には、前記第１基準を用いて処理を実行する。そしてこの処理部６００は、前記音声のデータに含まれる複数の部分のうち、第２基準（カテゴリ及び又は単語）に分類される部分の量がしきい値を超える場合には、前記第２基準を用いて処理を実行することができる。上記の第１基準は、例えばスポーツに関するキーワードであって、第２基準は、例えばドラマに関するキーワードであってもよい。

上記の実施形態は、電子機器がテレビジョン受信機の例であり、ユーザに推薦番組の提供を行うことを目的としている。このために、例えば第１基準がスポーツに関するキーワードや、第２基準がドラマに関するキーワードである。しかし第１基準、第２基準の仕様は、各種の変形が可能である。

上記実施形態により示された基本的な思想は、種々の電子機器と連携することが可能である。したがって、前記第１基準、第２基準となる「キーワード」の分類は種々の形態が可能である。設計者は種々のキーワードを複数の基準に分類する場合、本発明の思想が適用される電子機器が必要とする項目に応じて分類することが好ましい。

また実施形態によると、電子機器への第１処理（例えば、電源オン、番組視聴、番組サーチ、或いは話題処理）を実行するための操作が第１時刻にユーザによってなされた場合に、前記処理部は、前記第１時刻から遡って第１期間を設定する。次に、前記処理部は、１人又は複数人のユーザによって前記第１期間に発話された音声の第１データに含まれる複数の第１部分（単語及び又はカテゴリー）のうち、前記第１基準に分類される第１部分の量がしきい値を超える場合には、前記第１基準を用いて前記第１処理を変更した第２処理を実行することができる。例えば、テレビジョン受信機において、第１処理がデフォルトのチャンネルの受信、或いは前回視聴していたチャンネルの受信であった場合、第１基準を用いて第２処理を行う。つまり、第２処理として、操作前の数分間の会話の中の話題に適応した番組選択などを行うことができる。つまり処理部は、前回のユーザ嗜好と、現在のユーザ嗜好とが変化している場合に、この変化に追従し、現在のユーザ嗜好を優先することができる。

また、処理部は、前記複数の第１部分のうち、前記第２基準に分類される第１部分の量がしきい値を超える場合には、前記処理部は、前記第２基準を用いて前記第１処理を変更した第３処理を実行することができる。

上記処理部は、ユーザからのトリガがなくても、動作することが可能である。例えば、１人又は複数人のユーザによって第２期間に発話された音声の第２データに含まれる複数の第２部分のうち、前記第１基準に分類される第２部分の量がしきい値を超える場合がある。このとき前記処理部は、ユーザの明示的な操作がなくても、前記第１基準を用いて自動的に処理を実行することができる。又処理部は、前記複数の第２部分のうち、前記第２基準に分類される第２部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第２基準を用いて自動的に処理を実行することができる。

上記の実行は、例えば、テレビジョン受信機の画面の一部領域で、話題に適合した番組名などを表示する方法がある。或いは、特定のランプを点滅させて、話題に適合した推薦番組があることをユーザに知らせる方法がある。

なお上記の説明では、音声データが複数部分に分解され、品詞毎に分類され、統計処理が実行され、「カテゴリ」「単語」から「話題」が特定されるとした。しかし、この「話題の特定方法は、種々の実施形態が可能である。音声データが、一度、最小単位の単語に分類されたあと、各単語は、前後の単語と組み合わせられ、２乃至３の単語で意味をもつ語句に形成されてもよい。そしてこの語句が分類のための基準（要素）として用いられてもよい。

図５は、他の実施形態のブロック構成を示している。マイク９０１が音声データ処理部内の話題特定部９０２と関連接続されている。話題特定部９０２は、監視カメラ９０３をオンオフすることができる。監視カメラ９０３は必ずしも必要ではない。

話題特定部９０２で決定された話題のデータは、話題関連情報抽出部１１００に伝送される。話題関連情報抽出部１１００は、話題に関連する情報を抽出し、ユーザに提供することができる。

図２、図３で説明した提供情報は、推薦番組の情報である。推薦番組の情報の提供方法は、音声合成技術を利用した音声により提供する方法、テレビジョン受信機やスマートフォーンを利用した画像により提供する方法がある。

話題関連情報抽出部１１００は、一定の家庭のエリア２００１内に設置されてもよい。例えば話題関連情報抽出部１１００は、インターネット接続可能なテレビジョン受信機内に設けられていても良い。また、話題関連情報抽出部１１００は、話題関連情報を抽出するために、外部のサーバ１１１１をアクセスして抽出してもよい。

また、マイク９０１、話題特定部９０２を含むエリア２００２が、例えば家庭内であり、話題関連情報抽出部１１００がインターネットを介して接続されるサーバであってもよい。

話題特定部９０２において、特別な話題が検知された場合、例えば、助けて、強盗、などの叫び声で、所定レベル以上の音量の場合は、例えば監視カメラ９０３を高精細で動画撮影モードに切り替えるようにしてもよい。同様に、話題特定部９０２も外部のサーバ１１１内に設置されてもよい。

図６は、更に又他の実施形態を示している。例えばマイクが冷蔵庫３０００の近く、或いは台所に設置されている例である。例えば、親子の会話において、冷蔵庫３０００に収納されている食材や、料理名の会話から調理に関する「話題」が判定される。冷蔵庫３０００は、表示画面３００１、インターネットに接続される送受信機、話題特定部を備える。なお送受信機、話題特定部は、冷蔵庫３０００内ではなく、家庭内ＬＡＮを介して家庭内サーバ、クラウド上のサーバ、或いは、テレビジョン受信機内に設けられていてもよい。

話題とともに、食材や料理名の単語が例えばサービス局３２００に送信される。サービス局３２００は、話題、食材、料理名の単語から、調理できる料理のレシピを当該冷蔵庫３０００に向けて送信することができる。また同時に送信したレシピにより調理を行っている見本画像を送信することができる。ユーザは、レシピと調理の見本画像を参照して、冷蔵庫３０００内の食材で料理を行うことができる。

図７は、例えばコンビニエンスストアにおいて、実施された例である。この実施形態は、会計レジスタＣの場所で、店員Ｂと客Ａの会話の話題が特定される例である。例えば客Ａが強盗であり、定員Ｂを威嚇するような単語、例えば「金をだせ」というような単語が検知された場合、話題特定部は、監視カメラＤを高精細で動画撮影モードに切り替えることができ、また、警察に自動通報することができる。

また実施形態は、会議場において、話題特定のための支援装置として利用されることもできる。

さらにまた、話題を特定する装置に対して、特定する話題、或いは特定しない話題を指定できるようにしてもよい。即ち、検知すべき話題の分野などを指定できるようにしてもよい。話題として、一般ニュース、政治ニュース、スポーツニュース、海外、国内、番組のジャンルを指定できるようにしてもよい。話題に関して制限を設定する場合は、話題特定部において、予め制限される制限単語群が分類されており、ユーザが指定することができ、この制限単語群に属する発話による単語は、話題判定用から除かれる。これにより、検出される話題が制約うけるし、また話題検出速度を早くすることもできる。特に会議などにおいて、話題を特定したい場合、不要な単語群に対して制限を与えると有効である。

上記の実施形態では、話題を特定する場合に、設定された時間（６０秒）内にカウントされるカテゴリと単語の各出現頻度の統計処理を行った。そして、設定された時間内に最多出現したカテゴリと単語から話題を特定した。しかし、最多出現したカテゴリと単語を採用する必要は無く、２番目に多く出現したカテゴリと単語に基づいて話題が特定されてもよい。つまり、話題を特定する要素となる出現頻度を、最多、２番目、３番目と切り替えられるようにしてもよい。

上記した話題の検出は、現時点の例えば３分前の会話データから、常時検出されていてもよい。或いは話題の検出は、ユーザが何らかの操作を開始した時点から開始され、現時点の例えば３分前の会話データから、検出されていてもよい。
さらにまた、話題を検出するための設定期間は、任意に変更可能であってもよい。例えば、操作メニューに、話題検出区間の変更ボタンが設けられる。この変更ボタンが押されると、画面に日時を示すバー表示が得られる。ユーザはバー表示の中の希望の設定区間をカーソルにより選択し、決定ボタンを押すと、話題検出区間が設定される。
また図２で説明した音声データ処理部６００の構成ブロックは、ソフトウエアにより実現されてもよいことは勿論である。

図８は、別の実施形態である。この実施形態は、図２の構成に比べて、形態要素解析部６０２、意図判別部６０３、カテゴリ分類部６０４、話量統計部６０６、及び話題特定部６０７が、例えば外部のサービスサーバ７００Ａに備えられた例である。動作は先の実施形態と同じである。しかしこの構成によると、テレビジョン受信機の価格を低価格とすることができる。また音声データ処理を行うための新しいソフトウエアが開発された場合、管理者は、サーバ７００Ａにおいて新しいソフトウエアをアップグレードすればよい。

上記した実施形態は、以下のような構成要素を備えることができる。音声データ処理部において、設定した期間に発話された音声データを形態素解析し、形態素解析によって得られた品詞の単語及びこの単語に関しての同義語、類義語及び同類語からカテゴリを推定し、前記単語とカテゴリの話量によって会話の中心となる話題を特定し、前記話題を特定するために中心となった単語及び又はカテゴリのデータであって、電子機器を制御するためのトリガとなる話題データを得るようにしている。

また、前記話題を特定するために使用する単語は、命令語が除かれていてもよい。また、前記話題データを、前記電子機器で番組検索に用いてもよい。さらにまた前記話題データを、サーバを経由して取得してもよい。また、前記話題のデータを、監視カメラの制御に利用してもよい。さらにまた、前記話題データを、調理に関するデータ検索に用いることもできる。また、前記単語とカテゴリの話量によって会話の中心となる話題を特定する場合、使用する単語とカテゴリに制限を与えることも可能である。また上記の各動作を実行する大半の機能を制御部のコンピュータプログラムの命令により実現させることも可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・テレビジョン受信機、１０２・・・デジタルチューナ装置、１０３・・・ＴＳ処理部、１０４・・・高画質化回路、１０５・・・液晶駆動回路、１０６・・・液晶パネル、２００・・・マイクロプロセッサー、６００・・・音声データ処理部、６０１・・・音声認識部、６０２・・・形態素解析部、６０３・・・意図判別部、６０４・・・カテゴリ分類部、６０５・・・時計部、６０６・・・話量統計部、６０７・・・話題特定部、７００・・・機器制御部、７０１・・・コンテンツ検索部、７０２・・・コンテンツ管理部、７０３・・・コンテンツ提示部、７０４・・・ＧＵＩ処理部、９０１・・・マイク、９０２・・・話題特定部、９０３・・・カメラ、１１００・・・話題関連情報抽出部、１１１１・・・サーバ。

Claims

１人又は複数人のユーザによって発話された音声のデータを受け付ける受付部と、
前記音声のデータに含まれる複数の部分のうち、第１基準に分類される部分の量がしきい値を超える場合には、前記第１基準を用いて処理を実行する処理部と、を備え、
前記音声のデータに含まれる複数の部分のうち、第２基準に分類される部分の量がしきい値を超える場合には、前記処理部は、前記第２基準を用いて処理を実行する電子機器。
前記電子機器への第１処理を実行するための操作が第１時刻にユーザによってなされた場合に、前記処理部は、前記第１時刻から遡って第１期間を設定し、
１人又は複数人のユーザによって前記第１期間に発話された音声の第１データに含まれる複数の第１部分のうち、前記第１基準に分類される第１部分の量がしきい値を超える場合には、前記処理部は、前記第１基準を用いて前記第１処理を変更した第２処理を実行し、
前記複数の第１部分のうち、前記第２基準に分類される第１部分の量がしきい値を超える場合には、前記処理部は、前記第２基準を用いて前記第１処理を変更した第３処理を実行する請求項１記載の電子機器。
１人又は複数人のユーザによって第２期間に発話された音声の第２データに含まれる複数の第２部分のうち、前記第１基準に分類される第２部分の量がしきい値を超える場合には、前記処理部は、ユーザの明示的な操作がなくても、前記第１基準を用いて自動的に処理を実行し、
前記複数の第２部分のうち、前記第２基準に分類される第２部分の量がしきい値を超える場合には、前記処理部は、ユーザの明示的な操作がなくても、前記第２基準を用いて自動的に処理を実行する請求項１記載の電子機器。
前記音声のデータに含まれる複数の部分が前記第１基準に分類されるか、前記第２基準に分類されるかが決定される際には、ある部分の同義語、類義語、同類語、又は関連語の少なくとも１以上が用いられる請求項１記載の電子機器。
前記音声のデータを送信する送信部と、
前記音声のデータに含まれる複数の部分のうち、前記第１基準に分類される部分の量がしきい値を超えたか、又は前記第２基準に分類される部分の量がしきい値を超えたかの少なくとも一方に関する情報を受信する受信部と、をさらに備える請求項１記載の電子機器。
音声データ処理部の処理方法であって、
１人又は複数人のユーザによって発話された音声のデータを受け付け、
前記音声のデータに含まれる複数の部分のうち、第１基準に分類される部分の量がしきい値を超える場合には、前記第１基準を用いて処理を実行し、
前記音声のデータに含まれる複数の部分のうち、第２基準に分類される部分の量がしきい値を超える場合には、前記第２基準を用いて処理を実行する、
方法。
電子機器への第１処理を実行するための操作が第１時刻にユーザによってなされた場合に、前記第１時刻から遡って第１期間を設定し、
１人又は複数人のユーザによって前記第１期間に発話された音声の第１データに含まれる複数の第１部分のうち、前記第１基準に分類される第１部分の量がしきい値を超える場合には、前記第１基準を用いて前記第１処理を変更した第２処理を実行し、
前記複数の第１部分のうち、前記第２基準に分類される第１部分の量がしきい値を超える場合には、前記第２基準を用いて前記第１処理を変更した第３処理を実行する、
請求項６記載の方法。
１人又は複数人のユーザによって第２期間に発話された音声の第２データに含まれる複数の第２部分のうち、前記第１基準に分類される第２部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第１基準を用いて自動的に処理を実行し、
前記複数の第２部分のうち、前記第２基準に分類される第２部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第２基準を用いて自動的に処理を実行する、
請求項６記載の方法。
前記音声のデータに含まれる複数の部分が前記第１基準に分類されるか、前記第２基準に分類されるかが決定される際には、ある部分の同義語、類義語、同類語、又は関連語の少なくとも１以上が用いられる、
請求項６記載の方法。
前記音声のデータを送信し、
前記音声のデータに含まれる複数の部分のうち、前記第１基準に分類される部分の量がしきい値を超えたか、又は前記第２基準に分類される部分の量がしきい値を超えたかの少なくとも一方に関する情報を受信する、
請求項６に記載の方法。
電子機器の制御部におけるコンピュータを動作させるためのプログラムであって、
１人又は複数人のユーザによって発話された音声のデータを受け付ける命令と、
前記音声のデータに含まれる複数の部分のうち、第１基準に分類される部分の量がしきい値を超える場合には、前記第１基準を用いて処理を実行する命令と、
前記音声のデータに含まれる複数の部分のうち、第２基準に分類される部分の量がしきい値を超える場合には、前記第２基準を用いて処理を実行する命令と、を備える
プログラム。
電子機器への第１処理を実行するための操作が第１時刻にユーザによってなされた場合に、前記第１時刻から遡って第１期間を設定する命令と、
１人又は複数人のユーザによって前記第１期間に発話された音声の第１データに含まれる複数の第１部分のうち、前記第１基準に分類される第１部分の量がしきい値を超える場合には、前記第１基準を用いて前記第１処理を変更した第２処理を実行する命令と、
前記複数の第１部分のうち、前記第２基準に分類される第１部分の量がしきい値を超える場合には、前記第２基準を用いて前記第１処理を変更した第３処理を実行する命令と、を備える請求項１１記載のプログラム。
１人又は複数人のユーザによって第２期間に発話された音声の第２データに含まれる複数の第２部分のうち、前記第１基準に分類される第２部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第１基準を用いて自動的に処理を実行する命令と、
前記複数の第２部分のうち、前記第２基準に分類される第２部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第２基準を用いて自動的に処理を実行する命令と、を備える
請求項１１記載のプログラム。
前記音声のデータに含まれる複数の部分が前記第１基準に分類されるか、前記第２基準に分類されるかが決定される際には、ある部分の同義語、類義語、同類語、又は関連語の少なくとも１以上が用いられるようにする命令を備える、
請求項１１記載のプログラム。
前記音声のデータを送信する命令と、
前記音声のデータに含まれる複数の部分のうち、前記第１基準に分類される部分の量がしきい値を超えたか、又は前記第２基準に分類される部分の量がしきい値を超えたかの少なくとも一方に関する情報を受信する命令を備える、
請求項１１記載のプログラム。