JPWO2016006088A1 - 電子機器及び方法及びプログラム - Google Patents

電子機器及び方法及びプログラム Download PDF

Info

Publication number
JPWO2016006088A1
JPWO2016006088A1 JP2016532376A JP2016532376A JPWO2016006088A1 JP WO2016006088 A1 JPWO2016006088 A1 JP WO2016006088A1 JP 2016532376 A JP2016532376 A JP 2016532376A JP 2016532376 A JP2016532376 A JP 2016532376A JP WO2016006088 A1 JPWO2016006088 A1 JP WO2016006088A1
Authority
JP
Japan
Prior art keywords
standard
exceeds
amount
criterion
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016532376A
Other languages
English (en)
Other versions
JP6305538B2 (ja
Inventor
能康 伊藤
能康 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Visual Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Visual Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Visual Solutions Corp filed Critical Toshiba Corp
Publication of JPWO2016006088A1 publication Critical patent/JPWO2016006088A1/ja
Application granted granted Critical
Publication of JP6305538B2 publication Critical patent/JP6305538B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Abstract

実施形態では、一人または複数の話者が発している音声や会話内容の話題を有効に利用されるようにすることを目的とする。実施形態によれば、1人又は複数人のユーザによって発話された音声のデータを受け付ける受付部と、前記音声のデータに含まれる複数の部分のうち、第1基準に分類される部分の量がしきい値を超える場合には、前記第1基準を用いて処理を実行する処理部と、を備え、前記音声のデータに含まれる複数の部分のうち、第2基準に分類される部分の量がしきい値を超える場合には、前記処理部は、前記第2基準を用いて処理を実行する。

Description

この実施形態は、1人又は複数人の音声に応じた処理を行うための電子機器及び方法及びプログラムに関する。
従来から音声認識装置が開発されている。音声認識装置は、人間が発した音声をデジタル化し、デジタル化した音声データを解析して、単語を識別する機能を有する。さらに音声認識装置は、音声データから単語を識別して、ある程度の命令などを判断することも可能である。
特開2003−323424号公報 特開2003−296333号公報 WO2006/085565 特開2010−181461号公報
音声認識装置は、ロボット等の各種の分野に用いられることができ、さらなる応用が期待されている。このような場合、音声認識として、一人または複数の話者が発している音声データを解析し、単語を特定することで命令語や指令語を解釈する技術のみでは、不十分なケースが考えられる。
そこで本実施形態においては、一人または複数の話者が発している音声や会話内容の話題を有効に利用されるようにした電子機器及び方法及びプログラムを提供することを目的とする。
実施形態によれば、1人又は複数人のユーザによって発話された音声のデータを受け付ける受付部と、前記音声のデータに含まれる複数の部分のうち、第1基準に分類される部分の量がしきい値を超える場合には、前記第1基準を用いて処理を実行する処理部と、を備え、前記音声のデータに含まれる複数の部分のうち、前記第2基準に分類される部分の量がしきい値を超える場合には、前記処理部は、前記第2基準を用いて処理を実行する。
一実施形態が適用されたテレビジョン受信機の構成例を示す図である。 一実施形態の要部のブロック構成を示す図である。 一実施形態の動作例を示すフローチャートである。 一実施形態に基づき動作するテレビジョン受信装置の動作説明図である。 一実施形態の基本的なブロック構成例を示す図である。 他の実施形態の全体系統を示す図である。 さらにまた他の実施形態を説明するための図である。 さらにまた他の実施形態を示す図である。
以下、実施の形態について図面を参照して説明する。まず一実施形態が適用されたテレビジョン受信機100の構成を説明し、次に要部のブロック構成、動作説明を行うこととする。
図1において、テレビジョン受信機100は、デジタルチューナ装置102を有する。デジタルチューナ装置102は、例えばスクランブルされたデジタル地上波放送信号を受信することができる複数のチューナを含む。デジタルチューナ装置102は例えばBS/CSデジタル放送受信用のチューナ(図示せず)が含んでも良い。
デジタルチューナ装置102で受信された複数のチャンネルの放送番組の信号は、TS処理部103に入力される。
TS処理部103において、複数のチャンネル(CH)のTS(Transport Stream)が1つのTS列に再多重される。多重された多重TSは各チャンネルの放送番組のパケット列を含む。各チャンネルのパケットには、チャンネル及びパケット識別用の識別情報が付加されている。
多重TSは、マイクロプロセッサー200の制御に基づき、記録再生装置223に格納されることができる。またTS処理部103に入力したTSの中で、制御情報を含むパケットは、マイクロプロセッサー200において読み取られる。
記録再生装置223は、例えば、ハードディスクドライブ、光ディスク記録再生装置を含む。光ディスクはデジタルバーサタイルディスク(DVD)及びまたはブルーレイディスク(BD)などである。
TS処理部103からマイクロプロセッサー200に送られる制御情報を含むパケットは、例えば、放送番組の暗号化情報であるECM(Entitlement Control Message)と、番組名、出演者、開始時刻などのイベント情報を記述したテーブルであるEIT(Event Information Table)などの情報、EPG(Electric Program Guide:電子番組ガイド)情報を含む。これらの情報は番組情報と称されてもよい。
パケットに含まれる映像データは、例えばMPEG(Moving Picture Expert Group)方式、AVC(Advanced Video Coding)方式などでエンコードされている。またオーディオパケット内のオーディオデータは、例えば、PCM(Pulse Code Modulation)方式、Dolby 方式、MPEG方式などでエンコードされている。従って、各パケット内のデータは各方式に応じてデコードされる。
TS処理部103で分離されたパケットの中でオーディオデータ、映像データを含むパケットは、マイクロプロセッサー200において符号化方式に応じた復号化が実施される。デコードされたオーディオデータは、増幅器111を介して、スピーカ112に供給される。
また映像データを含むパケットも、マイクロプロセッサー200において符号化方式に応じた復号化が実施される。デコードされた映像データは、高画質化回路104で高画質化され、液晶駆動回路105を介して液晶表示パネル106に供給される。
マイクロプロセッサー200に、フラッシュメモリ221、ランダムアクセスメモリ222が接続されている。フラッシュメモリ221は、マイクロプロセッサー200で用いるパラメータ、一定の画像データなどを格納している。またランダムアクセスメモリ222は、一時的なデータ保存、番組情報の保存などに利用される。
リモコン受信部401は、リモートコントローラからの操作信号を受け取り、マイクロプロセッサー200に伝送する。またリモコン受信部401は、リモートコントローラからの指令が、電源オンまたはオフ指令であれば、電源制御部402にその指令を転送することができる。
電源のオンまたはオフの指令、さらには、テレビジョン受信機の各種の操作指令は、送受信部403から入力する場合もある。例えば携帯端末がリモートコントローラに代わってテレビジョン受信機を操作可能である場合、各種の操作指令は、送受信部403から入力する。電源回路411は、テレビジョン受信機の各ブロックに適合した安定した電源電圧を生成している。
マイクロプロセッサー200は、データ、図形、番組表、シーンコメント、メッセージなどをメイン映像信号に多重することができる。
マイクロプロセッサー200は、演算部、操作入力などのコマンドを処理するコマンド処理部を含む。さらにマイクロプロセッサー200は、通信制御部、操作デバイス管理部、記録再生制御部、表示処理部、メモリを含む。さらにEPG(Electric program guide)データ処理部、記録制御部、などを含むがここでは示していない。
マイクロプロセッサー200は、全体の動作シーケンスの調整を行っている。コマンド処理部は、外部から入力する操作コマンドを解析し、コマンドに応じた動作をテレビジョン受信機に反映させることができる。操作デバイス管理部は、マイクロプロセッサー200に対して操作信号を与える携帯端末、リモートコントローラなどのデバイス識別データを把握し、管理することができる。携帯端末或いはリモートコントローラからの操作信号が入力したときは、マイクロプロセッサー200は、操作デバイスのIDが操作デバイス管理部に登録されているか否かを確認する。
記録再生制御部は、受信した番組を記録再生装置223に記録する記録系の動作を制御する。また記録再生制御部は、記録再生装置223に記録されている番組を再生する再生系の動作を制御する。再生モードとしては、通常再生、ダイジェスト再生、シーンリストに基づく番組再生などがある。
表示処理部は、液晶表示パネル106に表示される映像信号を全般的に制御することができる。また表示処理部は、画像信号の解像度、表示サイズ、表示エリアなどの調整処理を行うこともできる。また、EPGデータを用いて作成した番組表の映像信号や、操作信号に応じてマイクロプロセッサー200内で作成されたメニュー映像信号を表示させることができる。
フラッシュメモリ221は、マイクロプロセッサー200内で保存する各種のデータ、アプリケーションなどを保存することができる。
通信制御部は、送受信部403を介して、外部との通信を行い、操作コマンド、データ、コンテンツ、などを取り込むことができる。取り込まれたコンテンツ、及びデータは、例えば記録再生装置223、或いはメモリ221,222に格納されることができる。通信制御部は、テレビジョン受信機から外部に向けて、データ、コンテンツ、などを送信することができる。
通信制御部は、送受信部403、インターネット500を介して、サーバ501と相互通信を行うことができる。サーバは、ホームサーバ或いはエリア内サーバなどであってもよい。また通信制御部は、送受信部403、アクセスポイントを介して、携帯端末と相互通信が可能である。これにより、テレビジョン受信機から携帯端末にデータを送信することができるし、また携帯端末からテレビジョン受信機にデータを取り込むこともできる。
従って、携帯端末は、テレビジョン受信機をリモートコントロールすることもできる。また携帯端末は、図示しない基地局、インターネットなどを介してサーバをアクセスすることができる。サーバが提供するコンテンツは勿論のこと、各種のアプリケーション、ゲームソフトなどをダウンロードし、送受信部403を介してマイクロプロセッサー200に転送することが可能である。また携帯端末は、コンテンツを取得するための情報(例えばウェブサーバのアドレス、メールアドレス、ネットワークアドレスなど)を、送受信部403を介してマイクロプロセッサー200に転送することが可能である。
上記の構成において、さらにマイク301が設けられている。マイク301で集音された音声(オーディオ)データは、マイク制御部302で処理される。マイク制御部302は、オーディオデータをデジタル化する。デジタル化されたオーディオデータは、マイクロセッサー200に送られる。マイク制御部302は、音声ノイズの除去、話者の方位と距離の特定、特定方向の音声集音などを行ってもよい。オーディオデジタルデータは、メモリ222に一定時間分が一時的に格納されることができる。
図2は、一実施形態の要部のブロック構成を概略的に示す図である。このブロック構成は、マイクロプロセッサー200内にそのほとんどが構成されている。しかしマイク制御部302で音声認識などの処理の一部が代行されてもよい。
マイク301で集音されたオーディオデータは、メモリ装置に記憶される。メモリ装置は、例えばオーディオデータの少なくとも2乃至3分程度の会話をデジタル記録できるものであればよい。そして、直近の会話のデータを残しながら古いものを消去する方式のメモリ装置であればよい。しかし記録時間は、限定されるものではなく、さらに長い時間を記録保存できるものであってもよい。
マイク301による集音方法は、各種の形態が可能である。例えば、マイクが内蔵されたリモートコントローラを利用して、無線媒体(電波、赤外線など)を介して集音する方法がある。また、携帯端末により周囲の音声が集音され、音声データが携帯端末から音声認識部601に送信される方法もある。またマイクの設置場所も各種の形態が可能である。例えば、リビングルームに設置する、台所の冷蔵庫周辺に設置する、食事をするテーブルに設置するなど各種の形態が選択的或いは集合的に利用される。
メモリ装置から読み出されたオーディオデータは、受付部303を介して処理部としての音声データ処理部600内の音声認識装置601に入力される。この入力タイミングは、前記直近の会話のデータが常時入力されてもよいし、或いはユーザ操作が実施されたときに入力が開始されてもよい。
音声認識部601では、デジタル化されたオーディオデータの中から人が発声する音声データが分離される。音声認識部601では、例えば、話者の発話文が推定される。例えば話者AとBが会話している場合、話者Aの発話文、話者Bの発話文が区別され、トータルで例えば60秒(この長さに限定されるものではない、2分、3分など任意でもよい)程度の会話の音声データが認識される。また音声データとともに、発話音量(強弱)レベルも測定されてもよい。話者A,Bがそれぞれ会話時に発する文を、発話文と称することにする。また、各発話文には、時刻情報が付加される。
音声認識部601により推定された発話文は、形態素解析部602に入力される。形態素解析部602は、音声認識部601によって得られた発話文を品詞に分解し、この品詞に基づきデータベース管理部608のデータベースから、該品詞に対応する単語を抽出する。発話文は、話者が会話により発する単語或いはこれらの集合(文)であるから、複数の品詞が検知される。
例えば発話文が「ニュースを見たい」であれば「ニュース(名詞)」「を(助詞)」「見(動詞)」「たい(助動詞)」のように分類される。この分類に基づいて、意図判別部603は、この発話文の意図は、「ニュース(対称)」「見たい(再生指示)」であると判定する。この発話文の例は、指示文言(見たい)があるので、話題が明確である。指示文言がない場合は、発話文のカテゴリの判断が行われる。
即ち、各発話文に含まれる名詞などの品詞のデータは、会話のカテゴリを分類するカテゴリ分類部604に入力される。カテゴリ分類部604は、抽出された単語(名詞)などについてそれぞれ類義語、同意語をデータベースから引き充て、カテゴライズする。
この場合、各発話文の一次的なカテゴリが特定される。1つの発話文に対する一次的なカテゴリは、複数の候補が取得される場合もある。例えば富士山、登山、登山用品、エベレスト、天候、山仕事、などの用語が検知された場合、登山に関するカテゴリ、山の天候に関するカテゴリ、登山のためのビジネスに関するカテゴリが推定される。しかしこの場合、最多の単語は、「山」であり、カテゴリは、分散している。もし、天候に関する用語、例えば晴れ、吹雪く、雪、雨などが多発している場合、カテゴリとして「天候」に関する会話であると推定される。よってこの場合、話題が「山に関する天候の会話」であると絞り込まれることができる。しかし上記の説明は一例であり、話題の推定方法は、各種の方法が可能である。例えば、一定の単語が検知される検知回数に対して閾値が設定され、閾値を超えて表れる「単語」が採用されて、カテゴリ推定に用いられてもよい。
話量統計部606では、時計部605で取得した発話文毎の時刻情報を参照し、最後の発話分(或いは発話)から例えば60秒間遡及し、この60秒間内の各カテゴリの発話数を集計する。
話題特定部607は、話量統計部606で集計された発話数を利用し、先の最後の発話から遡及し、直近に例えば最も多く推定されたカテゴリと、直近に最も多く検出された単語を抽出する部分である。これにより、60秒間の最多のカテゴリと単語が決まる。つまり最多のカテゴリと単語により、60秒間の全体会話の話題が推定されることになる。話題が推定されたことは、この話題に基づいてサーチなどを行う対象が確定したことに想到する。話題は、例えば予めカテゴリと単語の組み合わせにより、データベース化されている。また、学習機能に基づいて、データベースが増加されてもよい。
上記の如く特定された話題(カテゴリと単語に基づく、ただしカテゴリは分散する場合もある)は、機器制御部(話題関連情報抽出部と称しても良い)に送られる。
機器制御部700は、例えばテレビジョン受信機或いはサーバに格納されている放送番組の推薦装置である。なお機器制御部700は、各種の形態が可能であり、他の実施形態については後でも説明する。
機器制御部700は、コンテンツ検索部701を有する。また番組情報を格納したコンテンツ管理部702、コンテンツ提示部703、グラフィックユーザインターフェース(GUI)処理部704を備える。
コンテンツ検索部701は、話題に関連する番組情報を、コンテンツ管理部702の番組情報中から検索する。例えば話題が「山」であれば、番組情報に「山」を含む番組名を検索する。コンテンツ検索部701は、検索したターゲット番組名をコンテンツ提示部703に供給する。さらに話題が他の用語を含む場合、例えば「山に関する天候」であれば、番組を絞り込むことができる。
コンテンツ検索部701は、話題と、コンテンツ管理部702で管理されている録画コンテンツや未来番組の番組情報とのマッチングを行い、話題の中心となる番組を特定する。この番組は1つの場合もあるし、複数の場合もある。
コンテンツ提示部703は、GUI処理部704を制御し、ターゲット番組名、及びそのチャンネル、などを液晶表示パネルに表示する。またコンテンツ提示部703は、音声合成部611を介して推薦番組の番組名などを音声出力することができる。複数の番組が抽出された場合は、複数の番組の番組名やチャンネルが番組リストとして提示される。
即ち、コンテンツ掲示部703とGUI処理部704で該当番組を一覧するとともに、音声合成部でコンテンツ情報を発話し、ユーザに知らせる。データベース管理部608は、音声認識部601やカテゴリ分類部604で必要な単語データベースやシソーラス(類義語)データベースを管理している。
したがって、上記した話題特定部607は、話題を特定するために中心となった単語及び又はカテゴリのデータであって、電子機器を制御するためのトリガとなる話題データを得ることができる。そしてこの話題データを機器制御部700が用い、ユーザに対しえ推薦番組を提示することができる。
図3は、直近の話題(例えば現時点から60秒遡及した期間の話題)に関連するコンテンツ(番組名)を検索し、この番組情報の掲示処理を行うフローチャートである。
提示処理は、例えばリモートコントローラ或いは携帯端末のTV操作画面の特定のボタンを操作することにより開始される(ステップS1)。
初めに前回の音声入力からの経過時間をチェックする(ステップS2)。一定時間が経過していない場合は、対話が継続されている状態であるため、入力された音声は音声認識される。即ち、音声入力開始(ステップS4)、入力した音声の発話時刻の記録(ステップS5)、音声認識(ステップS6)が実行される。
音声の発話時刻は、前回(最終)発話時刻としてメモリMEMO1に記録され、時間経過をチェックするステップS2において、利用される。
音声認識により得られた認識文字列は、単語データベースを参照し形態素解析にかけられる。この間、音声入力開始(ステップS4)、発話時刻記録(ステップS5)、音声認識(ステップS6)、形態素解析(ステップS7)が実行される。最終発話時刻は、メモリMEMO1に一次的に保存される。また認識文字列は、メモリMEMO2に保存される。さらにまた単語データベースは、データベースDB1が利用される。
意図判別のときは、例えば発話が「ニュースを見たい」であった場合は、「ニュース(名詞)」「を(助詞)」「見(動詞)」「たい(助動詞)」のように分類する。さらに発話の意図を「ニュース(対象)」「見たい(再生指示)」のように判別する(ステップS8)。つまり音声データが複数部分に分解され、品詞毎に分類される。
ここで「見たい」のように指示文言がある場合は、判定ステップS9からステップS10に移行する。指示文が無い場合は、カテゴリ分類ステップS11に移行する。
指示文言がある場合には、指示文言と、その直前の名詞との合成により、指示文言を含む話題として特定される。しかし60秒の会話内には、他の話題が存在する場合もある。そこで、指示文言を含む話題は、別のホルダで集合される。そして、60秒の会話の解析が終了した時点で、指示文言を含む話題の統計処理が行われ、最も頻度の高い話題に関するメッセージがユーザに提示される。ユーザは、当該話題に関する指示が実行されるのを許可するか否かを例えばリモートコントローラにより指示することができる。
ステップS9において、指示文が無かった場合、カテゴリ分類が行われる。カテゴリ分類が行われるときは、シソーラスデータベースDB2の類義語、同意語が利用される。次のステップS12では、カテゴリ別の発話時刻の記録が行われ、処理ルーチンがステップS2に戻る。発話時刻の記録は、メモリMEMO3に記録される。
上記のステップS2からS12のループが繰り返し処理され、60秒程度の会話内容のデータ処理が終了した場合、ステップS3からステップS10にジャンプする。
ステップS10において、既に60秒程度の会話内容のデータ処理が終了している場合は、特定された話題が、機器制御部に送られる。これにより、ステップS17において、対象或いは推薦番組の検索が行われる。検索は、例えばコンテンツ管理データベースDB3のデータが利用される。推薦番組が特定された後、番組名の提示が行われ終了する(ステップS17,S18)。
ステップS10において、まだ60秒程度の会話内容のデータ処理が終了していない場合は、ステップS13、S14,S15において、話量統計部606、話題特定部607による処理が実施される。即ち、話量統計部606では、時計部605で取得した発話文毎の時刻情報を参照し、最後の発話分(或いは発話)から60秒間内の各カテゴリの発話数を集計する。そして、話題特定部607は、話量統計部606で集計された発話数を利用し、60秒間の最多のカテゴリと単語を決定する。つまり最多のカテゴリと単語により、60秒間の全体会話の話題が推定される。話題が推定されたことは、この話題に基づいてサーチなどを行う対象が確定したことに想到する。
しかし話題が特定していない場合、つまり60秒間内の各カテゴリの発話数が全て集計されていない場合は、ステップS16から、ステップS2,S3に戻り、再度ステップS13−S15の処理が行われる。話題が確定している場合は、ステップS17に移行して、推薦番組の検索が行われる。
図4は、テレビジョン受信機100の周囲で、ユーザが会話しているとき、テレビジョン受信機100機能が変化した場合の例を示している。今、テレビジョン受信機100がある番組を再生しているものとする。
ここでユーザが以下の会話をしたとする(SD1)、
20:00.00 「仕事は片付いたか?」
20:00.35 「高尾山は楽しかったな」
20:00.45 「登山やってみようかな」
20:00.55 「山の天候は変わりやすいらしい」
20:01.05 「登山用品屋に行ってみようか」
20:00.20 「何かないかな?」
上記の会話を分析すると、「高尾山、登山、山」から直近の60秒前までに「山」カテゴリが4件となる(SD2)。ここで実施形態における装置は、「山」関連のコンテンツ検索を実施する(SD3)。この結果、例えばタイトル「世界遺産富士山のすべて」を抽出しユーザに音声合成で提示することができる(SD4)。
音声認識部の処理内で形態素の分解が可能な場合は、形態素解析結果を音声認識部から取得してもよい。上記の処理において、発話者を特定しうる環境下においては、同一発話者による発話ごとに発話数を統計してもよい。
上記した例は一例であり、会話から「話題」を推定し、この話題に関する関連情報をサーチしたり、利用したりするケースやシステムは多々可能である。
上記したように、実施形態によると、受付部303が、1人又は複数人のユーザによって発話された音声のデータを受け付ける。処理部600は、前記音声のデータに含まれる複数の部分(品詞)のうち、第1基準(単語及び又はカテゴリ)に分類される部分の量がしきい値を超える場合には、前記第1基準を用いて処理を実行する。そしてこの処理部600は、前記音声のデータに含まれる複数の部分のうち、第2基準(カテゴリ及び又は単語)に分類される部分の量がしきい値を超える場合には、前記第2基準を用いて処理を実行することができる。上記の第1基準は、例えばスポーツに関するキーワードであって、第2基準は、例えばドラマに関するキーワードであってもよい。
上記の実施形態は、電子機器がテレビジョン受信機の例であり、ユーザに推薦番組の提供を行うことを目的としている。このために、例えば第1基準がスポーツに関するキーワードや、第2基準がドラマに関するキーワードである。しかし第1基準、第2基準の仕様は、各種の変形が可能である。
上記実施形態により示された基本的な思想は、種々の電子機器と連携することが可能である。したがって、前記第1基準、第2基準となる「キーワード」の分類は種々の形態が可能である。設計者は種々のキーワードを複数の基準に分類する場合、本発明の思想が適用される電子機器が必要とする項目に応じて分類することが好ましい。
また実施形態によると、電子機器への第1処理(例えば、電源オン、番組視聴、番組サーチ、或いは話題処理)を実行するための操作が第1時刻にユーザによってなされた場合に、前記処理部は、前記第1時刻から遡って第1期間を設定する。次に、前記処理部は、1人又は複数人のユーザによって前記第1期間に発話された音声の第1データに含まれる複数の第1部分(単語及び又はカテゴリー)のうち、前記第1基準に分類される第1部分の量がしきい値を超える場合には、前記第1基準を用いて前記第1処理を変更した第2処理を実行することができる。例えば、テレビジョン受信機において、第1処理がデフォルトのチャンネルの受信、或いは前回視聴していたチャンネルの受信であった場合、第1基準を用いて第2処理を行う。つまり、第2処理として、操作前の数分間の会話の中の話題に適応した番組選択などを行うことができる。つまり処理部は、前回のユーザ嗜好と、現在のユーザ嗜好とが変化している場合に、この変化に追従し、現在のユーザ嗜好を優先することができる。
また、処理部は、前記複数の第1部分のうち、前記第2基準に分類される第1部分の量がしきい値を超える場合には、前記処理部は、前記第2基準を用いて前記第1処理を変更した第3処理を実行することができる。
上記処理部は、ユーザからのトリガがなくても、動作することが可能である。例えば、1人又は複数人のユーザによって第2期間に発話された音声の第2データに含まれる複数の第2部分のうち、前記第1基準に分類される第2部分の量がしきい値を超える場合がある。このとき前記処理部は、ユーザの明示的な操作がなくても、前記第1基準を用いて自動的に処理を実行することができる。又処理部は、前記複数の第2部分のうち、前記第2基準に分類される第2部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第2基準を用いて自動的に処理を実行することができる。
上記の実行は、例えば、テレビジョン受信機の画面の一部領域で、話題に適合した番組名などを表示する方法がある。或いは、特定のランプを点滅させて、話題に適合した推薦番組があることをユーザに知らせる方法がある。
なお上記の説明では、音声データが複数部分に分解され、品詞毎に分類され、統計処理が実行され、「カテゴリ」「単語」から「話題」が特定されるとした。しかし、この「話題の特定方法は、種々の実施形態が可能である。音声データが、一度、最小単位の単語に分類されたあと、各単語は、前後の単語と組み合わせられ、2乃至3の単語で意味をもつ語句に形成されてもよい。そしてこの語句が分類のための基準(要素)として用いられてもよい。




図5は、他の実施形態のブロック構成を示している。マイク901が音声データ処理部内の話題特定部902と関連接続されている。話題特定部902は、監視カメラ903をオンオフすることができる。監視カメラ903は必ずしも必要ではない。
話題特定部902で決定された話題のデータは、話題関連情報抽出部1100に伝送される。話題関連情報抽出部1100は、話題に関連する情報を抽出し、ユーザに提供することができる。
図2、図3で説明した提供情報は、推薦番組の情報である。推薦番組の情報の提供方法は、音声合成技術を利用した音声により提供する方法、テレビジョン受信機やスマートフォーンを利用した画像により提供する方法がある。
話題関連情報抽出部1100は、一定の家庭のエリア2001内に設置されてもよい。例えば話題関連情報抽出部1100は、インターネット接続可能なテレビジョン受信機内に設けられていても良い。また、話題関連情報抽出部1100は、話題関連情報を抽出するために、外部のサーバ1111をアクセスして抽出してもよい。
また、マイク901、話題特定部902を含むエリア2002が、例えば家庭内であり、話題関連情報抽出部1100がインターネットを介して接続されるサーバであってもよい。
話題特定部902において、特別な話題が検知された場合、例えば、助けて、強盗、などの叫び声で、所定レベル以上の音量の場合は、例えば監視カメラ903を高精細で動画撮影モードに切り替えるようにしてもよい。同様に、話題特定部902も外部のサーバ111内に設置されてもよい。
図6は、更に又他の実施形態を示している。例えばマイクが冷蔵庫3000の近く、或いは台所に設置されている例である。例えば、親子の会話において、冷蔵庫3000に収納されている食材や、料理名の会話から調理に関する「話題」が判定される。冷蔵庫3000は、表示画面3001、インターネットに接続される送受信機、話題特定部を備える。なお送受信機、話題特定部は、冷蔵庫3000内ではなく、家庭内LANを介して家庭内サーバ、クラウド上のサーバ、或いは、テレビジョン受信機内に設けられていてもよい。
話題とともに、食材や料理名の単語が例えばサービス局3200に送信される。サービス局3200は、話題、食材、料理名の単語から、調理できる料理のレシピを当該冷蔵庫3000に向けて送信することができる。また同時に送信したレシピにより調理を行っている見本画像を送信することができる。ユーザは、レシピと調理の見本画像を参照して、冷蔵庫3000内の食材で料理を行うことができる。
図7は、例えばコンビニエンスストアにおいて、実施された例である。この実施形態は、会計レジスタCの場所で、店員Bと客Aの会話の話題が特定される例である。例えば客Aが強盗であり、定員Bを威嚇するような単語、例えば「金をだせ」というような単語が検知された場合、話題特定部は、監視カメラDを高精細で動画撮影モードに切り替えることができ、また、警察に自動通報することができる。
また実施形態は、会議場において、話題特定のための支援装置として利用されることもできる。
さらにまた、話題を特定する装置に対して、特定する話題、或いは特定しない話題を指定できるようにしてもよい。即ち、検知すべき話題の分野などを指定できるようにしてもよい。話題として、一般ニュース、政治ニュース、スポーツニュース、海外、国内、番組のジャンルを指定できるようにしてもよい。話題に関して制限を設定する場合は、話題特定部において、予め制限される制限単語群が分類されており、ユーザが指定することができ、この制限単語群に属する発話による単語は、話題判定用から除かれる。これにより、検出される話題が制約うけるし、また話題検出速度を早くすることもできる。特に会議などにおいて、話題を特定したい場合、不要な単語群に対して制限を与えると有効である。
上記の実施形態では、話題を特定する場合に、設定された時間(60秒)内にカウントされるカテゴリと単語の各出現頻度の統計処理を行った。そして、設定された時間内に最多出現したカテゴリと単語から話題を特定した。しかし、最多出現したカテゴリと単語を採用する必要は無く、2番目に多く出現したカテゴリと単語に基づいて話題が特定されてもよい。つまり、話題を特定する要素となる出現頻度を、最多、2番目、3番目と切り替えられるようにしてもよい。
上記した話題の検出は、現時点の例えば3分前の会話データから、常時検出されていてもよい。或いは話題の検出は、ユーザが何らかの操作を開始した時点から開始され、現時点の例えば3分前の会話データから、検出されていてもよい。
さらにまた、話題を検出するための設定期間は、任意に変更可能であってもよい。例えば、操作メニューに、話題検出区間の変更ボタンが設けられる。この変更ボタンが押されると、画面に日時を示すバー表示が得られる。ユーザはバー表示の中の希望の設定区間をカーソルにより選択し、決定ボタンを押すと、話題検出区間が設定される。
また図2で説明した音声データ処理部600の構成ブロックは、ソフトウエアにより実現されてもよいことは勿論である。
図8は、別の実施形態である。この実施形態は、図2の構成に比べて、形態要素解析部602、意図判別部603、カテゴリ分類部604、話量統計部606、及び話題特定部607が、例えば外部のサービスサーバ700Aに備えられた例である。動作は先の実施形態と同じである。しかしこの構成によると、テレビジョン受信機の価格を低価格とすることができる。また音声データ処理を行うための新しいソフトウエアが開発された場合、管理者は、サーバ700Aにおいて新しいソフトウエアをアップグレードすればよい。
上記した実施形態は、以下のような構成要素を備えることができる。音声データ処理部において、設定した期間に発話された音声データを形態素解析し、形態素解析によって得られた品詞の単語及びこの単語に関しての同義語、類義語及び同類語からカテゴリを推定し、前記単語とカテゴリの話量によって会話の中心となる話題を特定し、前記話題を特定するために中心となった単語及び又はカテゴリのデータであって、電子機器を制御するためのトリガとなる話題データを得るようにしている。
また、前記話題を特定するために使用する単語は、命令語が除かれていてもよい。また、前記話題データを、前記電子機器で番組検索に用いてもよい。さらにまた前記話題データを、サーバを経由して取得してもよい。また、前記話題のデータを、監視カメラの制御に利用してもよい。さらにまた、前記話題データを、調理に関するデータ検索に用いることもできる。また、前記単語とカテゴリの話量によって会話の中心となる話題を特定する場合、使用する単語とカテゴリに制限を与えることも可能である。また上記の各動作を実行する大半の機能を制御部のコンピュータプログラムの命令により実現させることも可能である。
本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・テレビジョン受信機、102・・・デジタルチューナ装置、103・・・TS処理部、104・・・高画質化回路、105・・・液晶駆動回路、106・・・液晶パネル、200・・・マイクロプロセッサー、600・・・音声データ処理部、601・・・音声認識部、602・・・形態素解析部、603・・・意図判別部、604・・・カテゴリ分類部、605・・・時計部、606・・・話量統計部、607・・・話題特定部、700・・・機器制御部、701・・・コンテンツ検索部、702・・・コンテンツ管理部、703・・・コンテンツ提示部、704・・・GUI処理部、901・・・マイク、902・・・話題特定部、903・・・カメラ、1100・・・話題関連情報抽出部、1111・・・サーバ。

Claims (15)

  1. 1人又は複数人のユーザによって発話された音声のデータを受け付ける受付部と、
    前記音声のデータに含まれる複数の部分のうち、第1基準に分類される部分の量がしきい値を超える場合には、前記第1基準を用いて処理を実行する処理部と、を備え、
    前記音声のデータに含まれる複数の部分のうち、第2基準に分類される部分の量がしきい値を超える場合には、前記処理部は、前記第2基準を用いて処理を実行する電子機器。
  2. 前記電子機器への第1処理を実行するための操作が第1時刻にユーザによってなされた場合に、前記処理部は、前記第1時刻から遡って第1期間を設定し、
    1人又は複数人のユーザによって前記第1期間に発話された音声の第1データに含まれる複数の第1部分のうち、前記第1基準に分類される第1部分の量がしきい値を超える場合には、前記処理部は、前記第1基準を用いて前記第1処理を変更した第2処理を実行し、
    前記複数の第1部分のうち、前記第2基準に分類される第1部分の量がしきい値を超える場合には、前記処理部は、前記第2基準を用いて前記第1処理を変更した第3処理を実行する請求項1記載の電子機器。
  3. 1人又は複数人のユーザによって第2期間に発話された音声の第2データに含まれる複数の第2部分のうち、前記第1基準に分類される第2部分の量がしきい値を超える場合には、前記処理部は、ユーザの明示的な操作がなくても、前記第1基準を用いて自動的に処理を実行し、
    前記複数の第2部分のうち、前記第2基準に分類される第2部分の量がしきい値を超える場合には、前記処理部は、ユーザの明示的な操作がなくても、前記第2基準を用いて自動的に処理を実行する請求項1記載の電子機器。
  4. 前記音声のデータに含まれる複数の部分が前記第1基準に分類されるか、前記第2基準に分類されるかが決定される際には、ある部分の同義語、類義語、同類語、又は関連語の少なくとも1以上が用いられる請求項1記載の電子機器。
  5. 前記音声のデータを送信する送信部と、
    前記音声のデータに含まれる複数の部分のうち、前記第1基準に分類される部分の量がしきい値を超えたか、又は前記第2基準に分類される部分の量がしきい値を超えたかの少なくとも一方に関する情報を受信する受信部と、をさらに備える請求項1記載の電子機器。
  6. 音声データ処理部の処理方法であって、
    1人又は複数人のユーザによって発話された音声のデータを受け付け、
    前記音声のデータに含まれる複数の部分のうち、第1基準に分類される部分の量がしきい値を超える場合には、前記第1基準を用いて処理を実行し、
    前記音声のデータに含まれる複数の部分のうち、第2基準に分類される部分の量がしきい値を超える場合には、前記第2基準を用いて処理を実行する、
    方法。
  7. 電子機器への第1処理を実行するための操作が第1時刻にユーザによってなされた場合に、前記第1時刻から遡って第1期間を設定し、
    1人又は複数人のユーザによって前記第1期間に発話された音声の第1データに含まれる複数の第1部分のうち、前記第1基準に分類される第1部分の量がしきい値を超える場合には、前記第1基準を用いて前記第1処理を変更した第2処理を実行し、
    前記複数の第1部分のうち、前記第2基準に分類される第1部分の量がしきい値を超える場合には、前記第2基準を用いて前記第1処理を変更した第3処理を実行する、
    請求項6記載の方法。
  8. 1人又は複数人のユーザによって第2期間に発話された音声の第2データに含まれる複数の第2部分のうち、前記第1基準に分類される第2部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第1基準を用いて自動的に処理を実行し、
    前記複数の第2部分のうち、前記第2基準に分類される第2部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第2基準を用いて自動的に処理を実行する、
    請求項6記載の方法。
  9. 前記音声のデータに含まれる複数の部分が前記第1基準に分類されるか、前記第2基準に分類されるかが決定される際には、ある部分の同義語、類義語、同類語、又は関連語の少なくとも1以上が用いられる、
    請求項6記載の方法。
  10. 前記音声のデータを送信し、
    前記音声のデータに含まれる複数の部分のうち、前記第1基準に分類される部分の量がしきい値を超えたか、又は前記第2基準に分類される部分の量がしきい値を超えたかの少なくとも一方に関する情報を受信する、
    請求項6に記載の方法。
  11. 電子機器の制御部におけるコンピュータを動作させるためのプログラムであって、
    1人又は複数人のユーザによって発話された音声のデータを受け付ける命令と、
    前記音声のデータに含まれる複数の部分のうち、第1基準に分類される部分の量がしきい値を超える場合には、前記第1基準を用いて処理を実行する命令と、
    前記音声のデータに含まれる複数の部分のうち、第2基準に分類される部分の量がしきい値を超える場合には、前記第2基準を用いて処理を実行する命令と、を備える
    プログラム。
  12. 電子機器への第1処理を実行するための操作が第1時刻にユーザによってなされた場合に、前記第1時刻から遡って第1期間を設定する命令と、
    1人又は複数人のユーザによって前記第1期間に発話された音声の第1データに含まれる複数の第1部分のうち、前記第1基準に分類される第1部分の量がしきい値を超える場合には、前記第1基準を用いて前記第1処理を変更した第2処理を実行する命令と、
    前記複数の第1部分のうち、前記第2基準に分類される第1部分の量がしきい値を超える場合には、前記第2基準を用いて前記第1処理を変更した第3処理を実行する命令と、を備える請求項11記載のプログラム。
  13. 1人又は複数人のユーザによって第2期間に発話された音声の第2データに含まれる複数の第2部分のうち、前記第1基準に分類される第2部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第1基準を用いて自動的に処理を実行する命令と、
    前記複数の第2部分のうち、前記第2基準に分類される第2部分の量がしきい値を超える場合には、ユーザの明示的な操作がなくても、前記第2基準を用いて自動的に処理を実行する命令と、を備える
    請求項11記載のプログラム。
  14. 前記音声のデータに含まれる複数の部分が前記第1基準に分類されるか、前記第2基準に分類されるかが決定される際には、ある部分の同義語、類義語、同類語、又は関連語の少なくとも1以上が用いられるようにする命令を備える、
    請求項11記載のプログラム。
  15. 前記音声のデータを送信する命令と、
    前記音声のデータに含まれる複数の部分のうち、前記第1基準に分類される部分の量がしきい値を超えたか、又は前記第2基準に分類される部分の量がしきい値を超えたかの少なくとも一方に関する情報を受信する命令を備える、
    請求項11記載のプログラム。
JP2016532376A 2014-07-10 2014-07-10 電子機器及び方法及びプログラム Active JP6305538B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/068478 WO2016006088A1 (ja) 2014-07-10 2014-07-10 電子機器及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2016006088A1 true JPWO2016006088A1 (ja) 2017-04-27
JP6305538B2 JP6305538B2 (ja) 2018-04-04

Family

ID=55063761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016532376A Active JP6305538B2 (ja) 2014-07-10 2014-07-10 電子機器及び方法及びプログラム

Country Status (2)

Country Link
JP (1) JP6305538B2 (ja)
WO (1) WO2016006088A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106463118B (zh) * 2016-07-07 2019-09-03 深圳狗尾草智能科技有限公司 一种同步语音及虚拟动作的方法、系统及机器人
JP7189499B2 (ja) 2018-05-07 2022-12-14 オムロン株式会社 センサシステム
JP6833147B2 (ja) * 2019-01-11 2021-02-24 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003198761A (ja) * 2001-12-26 2003-07-11 Casio Comput Co Ltd Webページ提供システム、webページ提供方法およびwebページ提供プログラム
WO2006085565A1 (ja) * 2005-02-08 2006-08-17 Nippon Telegraph And Telephone Corporation 情報通信端末、情報通信システム、情報通信方法、情報通信プログラムおよびそれを記録した記録媒体
JP2008287697A (ja) * 2007-04-16 2008-11-27 Sony Corp 音声チャットシステム、情報処理装置およびプログラム
JP2010128665A (ja) * 2008-11-26 2010-06-10 Kyocera Corp 情報端末及び会話補助プログラム
JP2014013494A (ja) * 2012-07-04 2014-01-23 Nikon Corp 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003198761A (ja) * 2001-12-26 2003-07-11 Casio Comput Co Ltd Webページ提供システム、webページ提供方法およびwebページ提供プログラム
WO2006085565A1 (ja) * 2005-02-08 2006-08-17 Nippon Telegraph And Telephone Corporation 情報通信端末、情報通信システム、情報通信方法、情報通信プログラムおよびそれを記録した記録媒体
JP2008287697A (ja) * 2007-04-16 2008-11-27 Sony Corp 音声チャットシステム、情報処理装置およびプログラム
JP2010128665A (ja) * 2008-11-26 2010-06-10 Kyocera Corp 情報端末及び会話補助プログラム
JP2014013494A (ja) * 2012-07-04 2014-01-23 Nikon Corp 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム

Also Published As

Publication number Publication date
WO2016006088A1 (ja) 2016-01-14
JP6305538B2 (ja) 2018-04-04

Similar Documents

Publication Publication Date Title
US20150082330A1 (en) Real-time channel program recommendation on a display device
US11151184B2 (en) Method and system for voice based media search
US9219949B2 (en) Display apparatus, interactive server, and method for providing response information
EP2919472A1 (en) Display apparatus, method for controlling display apparatus, and interactive system
US9412368B2 (en) Display apparatus, interactive system, and response information providing method
US8250623B2 (en) Preference extracting apparatus, preference extracting method and preference extracting program
KR101298823B1 (ko) 구두 피드백을 프로세싱하고 디지탈 비디오 레코더(dvr) 기록 패턴을 업데이트하기 위한 설비
KR100879516B1 (ko) 디지털방송데이터를 이용한 휴대단말 사용자 관심정보수집방법 및 장치
CN103916704A (zh) 对话型接口设备及其控制方法
JP2014132465A (ja) ディスプレイ装置及びその制御方法
JP2007215046A (ja) 情報処理装置、情報処理方法、情報処理プログラム、および記録媒体
US20030191629A1 (en) Interface apparatus and task control method for assisting in the operation of a device using recognition technology
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
JP6305538B2 (ja) 電子機器及び方法及びプログラム
US11748059B2 (en) Selecting options by uttered speech
US20130163948A1 (en) Video playback apparatus and video playback method
CN106060641A (zh) 用于搜索的显示装置及其控制方法
KR20190051379A (ko) 전자 장치 및 그 제어 방법
JP6212719B2 (ja) 映像受信装置、情報表示方法および映像受信システム
US20220109914A1 (en) Electronic apparatus having notification function, and control method for electronic apparatus
JP2006054517A (ja) 情報提示装置、方法及びプログラム
KR20100030474A (ko) 서비스 정보 제공방법 및 그 장치
CN113228166B (zh) 指令控制装置、控制方法及非易失性存储介质
KR102182689B1 (ko) 서버 및 그의 제어 방법
KR102118195B1 (ko) 서버 및 그의 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180306

R150 Certificate of patent or registration of utility model

Ref document number: 6305538

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250