JPWO2014199602A1

JPWO2014199602A1 - 話者識別方法、話者識別装置及び情報管理方法

Info

Publication number: JPWO2014199602A1
Application number: JP2015522527A
Authority: JP
Inventors: 美沙貴辻川; 番場　裕; 裕番場
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2013-06-10
Filing date: 2014-06-05
Publication date: 2017-02-23
Anticipated expiration: 2034-06-05
Also published as: JP6348903B2; US9911421B2; US20150194155A1; WO2014199602A1

Abstract

話者識別システムは、話者の音声情報を取得する音声取得部（２０１）と、取得された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断し、取得された音声情報に対応する話者がデータベースに記憶されている登録音声情報に対応する話者と一致すると判断された場合、音声情報を取得した時点において機器に表示されているコンテンツに関するコンテンツ情報を取得し、取得されたコンテンツ情報を登録音声情報に関連付けて記憶し、取得された音声情報に対応する話者がデータベースに記憶されている登録音声情報に対応する話者と一致しないと判断された場合、取得された音声情報を登録音声情報としてデータベースに記憶するデータベース管理部（２０３）とを備える。

Description

本発明は、話者を識別する話者識別方法、話者識別装置及び情報管理方法に関するものである。

従来、音声情報からユーザを識別する方法が提案されている。例えば、特許文献１では、温度分布情報と音声情報とに基づいて視聴者の年齢、性別及び視聴者間の関係を推定し、さらに場所又は時間帯等に対する適合度を考慮することにより視聴コンテンツを選択する方法について開示されている。これにより、視聴者及び場所に適合した視聴コンテンツを提供することを実現している。

また、例えば、特許文献２では、複数の特定の話者の音声データを、話者を特定できる話者識別情報とともに登録しておき、登録された音声データと入力音声データとの類似度を算出して音声認識を行うことが記載されている。

しかし、より簡易的に音声情報から個人を識別する方法に関しては、検討が進んでいなかった。

特開２００６−９９１９５号公報特開平１１−２８２４９２号公報

本発明は、上記の問題を解決するためになされたもので、音声情報を容易にデータベースに初期登録することができる話者識別方法、話者識別装置及び情報管理方法を提供することを目的とするものである。

本発明の一局面に係る話者識別方法は、コンテンツを表示する機器の周辺にいる話者を識別する話者識別方法であって、前記話者の音声情報を取得するステップと、前記取得された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記取得された音声情報を登録音声情報として前記データベースに記憶するステップと、を含む。

本発明の実施の形態１に係る話者識別システムの全体構成を示す図である。本発明の実施の形態１における話者識別システムの構成を示すブロック図である。本発明の実施の形態１における話者識別システムの動作を示すフローチャートである。本発明の実施の形態１における話者識別システムの動作の一例を示すシーケンス図である。本発明の実施の形態１における家族データベースのデータ構造の一例を示す図である。本発明の実実施の形態１における家族データベースのデータ構造の他の例を示す図である。話者識別装置に表示される家族データベースの更新内容の一例を示す図である。話者識別装置に表示される家族データベースの更新内容の他の例を示す図である。本発明の実施の形態１における話者識別システムの動作の他の例を示すシーケンス図である。本発明の実施の形態２における話者識別システムの構成を示すブロック図である。本発明の実施の形態２における話者識別システムの動作を示すフローチャートである。本発明の実施の形態２における話者識別システムの動作の一例を示すシーケンス図である。本発明の実施の形態２における家族データベースのデータ構造の一例を示す図である。本発明の実施の形態２におけるサービス情報データベースのデータ構造の一例を示す図である。本発明の実施の形態２におけるサービス情報データベースのデータ構造の他の例を示す図である。本発明の実施の形態２においてサービスの候補を選択する選択画面の一例を示す図である。本発明の実施の形態２においてサービスの候補を選択する選択画面の他の例を示す図である。本発明の実施の形態３に係るコンテンツ提供システムの全体構成を示す図である。本発明の実施の形態３におけるコンテンツ提供システムの構成を示すブロック図である。本発明の実施の形態３におけるコンテンツ提供システムの動作の一例を示すシーケンス図である。新規話者登録時において話者の音声信号を入力するための表示画面の一例を示す図である。新規話者登録時において話者の年齢及び性別を入力するための表示画面の一例を示す図である。新規話者登録時において話者のニックネームを入力するための表示画面の一例を示す図である。視聴者構成ＤＢのデータ構成の一例を示す図である。本発明の実施の形態３におけるサーバ装置の動作の一例を示すフローチャートである。本発明の実施の形態３における端末装置の動作の一例を示すフローチャートである。本発明の実施の形態４に係るコンテンツ提供システムの構成の一例を示すブロック図である。本発明の実施の形態４におけるコンテンツ提供システムの動作の一例を示すシーケンス図である。本発明の実施の形態４におけるサーバ装置の動作の一例を示すフローチャートである。本発明の実施の形態４における端末装置の動作の一例を示すフローチャートである。

（本発明の基礎となった知見）
特許文献１に記載の視聴コンテンツ提供システムでは、温度分布情報及び音声情報に基づき視聴者（話者）の年齢及び性別を推定している。

例えば、特許文献１では、成人男性の体温が最も低く幼児の体温が最も高く成人女性の体温が成人男性と幼児の中間の体温であるといった推測のもと、視聴者（話者）がいるとされた位置の温度を調べることで年齢及び性別を特定している。しかし、この方法によって年齢を推定しても、視聴者（話者）を「成人男性」「成人女性」及び「幼児」という３つのカテゴリにしか分類することができず、それ以上詳細に視聴者（話者）の年齢等を特定する方法に関しては開示されていない。

また、特許文献１では、音声信号のスペクトルと発言とを解析することで、視聴者（話者）の年齢及び性別を推定する方法が開示されている。しかし、この方法も、上述した温度を利用する方法と同様、「成人男性」「成人女性」及び「幼児」といった大まかなカテゴリにしか分類することができない。

以上のように、特許文献１に記載の視聴コンテンツ提供システムでは、視聴者（話者）を大まかにしか分類することができない。すなわち、例えば、ある視聴者（話者）を「成人男性」というカテゴリに識別したとしても、成人男性の趣味及び嗜好は様々であり、各々の視聴者（話者）に特有のサービスを提供することは困難である。

一方、特許文献２に記載の音声認識装置では、音声データと話者識別情報とを初期登録しておき、登録された音声データと入力音声データとの類似度を算出して音声認識を行っている。

このように、音声データとユーザを識別する情報とを予め登録しておけば、特許文献１のように大まかなカテゴリに分類するのではなく、より具体的なカテゴリにユーザを識別することができるかもしれない。

しかし、このような初期登録作業は、ユーザにとって煩わしい作業である。また、システムを構築する際に、ユーザに初期登録を促すためのアプリケーションを構築する必要がある。

そこで、本発明者らは、上記検討に基づき、以下の各態様に係る発明を想到するに至った。

これにより、話者にとって煩わしい設定操作を行うことなく、話者のデータベースを構築及び更新することができる。また、音声情報及びコンテンツ情報のみが関連付けて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。

また、上記態様において、前記コンテンツ情報は、前記コンテンツの名称と、前記コンテンツに関連する人物名とを含むことが好ましい。

この場合、コンテンツの名称と、コンテンツに関連する人物名とが、登録音声情報に関連付けて記憶されるので、話者が視聴したコンテンツを管理することができる。

また、上記態様において、前記登録音声情報に関連付けられている複数のコンテンツを複数のジャンルに分類し、前記複数のジャンル毎に前記複数のコンテンツのうちの各ジャンルに分類されたコンテンツの割合を算出し、前記複数のジャンル毎に算出された前記コンテンツの割合を前記登録音声情報に関連付けて前記データベースに記憶するステップをさらに含むことが好ましい。

この場合、複数のジャンル毎に算出されたコンテンツの割合が登録音声情報に関連付けて記憶されるので、話者がどのようなジャンルのコンテンツを好んで視聴するかを管理することができる。

また、上記態様において、前記データベースは、コンテンツ情報と、前記コンテンツ情報に対応するコンテンツを視聴した話者に提供されるサービスとを関連付けて記憶し、前記取得された前記音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記登録音声情報に関連付けられて記憶されている前記コンテンツ情報を特定し、特定した前記コンテンツ情報に関連付けられているサービスを特定し、特定した前記サービスを前記話者に提供するステップをさらに含むことが好ましい。

この場合、コンテンツ情報に関連付けられているサービスが話者に提供されるので、話者の趣味及び嗜好に応じた適切なサービスを提供することができる。

また、上記態様において、提供可能な少なくとも１つのサービスが存在し、かつ予め決められているサービス提供タイミングであるか否かを判断するステップと、提供可能なサービスが存在し、かつ予め決められているサービス提供タイミングであると判断された場合、提供可能な前記少なくとも１つのサービスの候補を前記機器に表示するステップとをさらに含むことが好ましい。

この場合、提供可能な少なくとも１つのサービスの候補が機器に表示されるので、話者は、提供可能なサービスを確認することができる。

また、上記態様において、表示された前記少なくとも１つのサービスの候補の中から前記話者によって選択されたサービスを前記話者に提供するステップと、提供された前記サービスを前記登録音声情報に関連付けて前記データベースに記憶するステップとをさらに含むことが好ましい。

この場合、表示された少なくとも１つのサービスの候補の中から話者によって選択されたサービスが話者に提供されるので、話者は、所望のサービスを選択することができる。また、提供されたサービスが登録音声情報に関連付けてデータベースに記憶されるので、話者に提供されたサービスを管理することができる。

また、上記態様において、前記サービスは、前記機器に表示するコンテンツを配信するサービス、又は前記機器に表示する広告を配信するサービスを含むことが好ましい。

この場合、機器に表示するコンテンツを配信するサービス、又は機器に表示する広告を配信するサービスを話者に提供することができる。

本発明の他の局面に係る話者識別装置は、話者を識別する話者識別装置であって、コンテンツを表示する表示部と、前記話者識別装置の周辺にいる話者の音声情報を取得する音声取得部と、登録された音声情報である登録音声情報と、コンテンツに関するコンテンツ情報とを関連付けて記憶するデータベースと、前記音声取得部によって取得された前記音声情報に対応する話者が、前記データベースにコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する判断部と、前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記表示部に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するデータベース更新部と、前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記音声取得部によって取得された音声情報を登録音声情報として前記データベースに記憶するデータベース記憶部と、を備える。

本発明の他の局面に係る情報管理方法は、コンテンツを表示する機器の周辺にいる話者を識別する話者識別システムにおける情報管理方法であって、前記話者の音声情報を受信するステップと、前記受信された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記受信されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記受信された音声情報を登録音声情報として前記データベースに記憶するステップと、を含む。

これにより、話者にとって煩わしい設定操作を行うことなく、データベースを構築及び更新することができる。また、音声情報及びコンテンツ情報のみが関連付けて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。

なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
（各装置の構成）
図１は、本発明の実施の形態１に係る話者識別システムの全体構成を示す図である。なお、図１に記載の構成は一例であり、話者識別システムは、図１に示されている構成以外の構成を備えていてもよい。また、話者識別システムは、図１に示されている構成の一部の構成が欠けていてもよい。

話者識別システムは、サーバ装置１００と、話者識別装置１１０とを備える。話者識別装置１１０は、例えば、各家庭に設置されたテレビ又はパーソナルコンピュータなどのコンテンツ視聴機器である。図１に示すようにサーバ装置１００と各家庭に設置された話者識別装置１１０とは、ネットワーク１２０を介して互いに通信可能に接続される。

なお、１つの話者識別装置１１０が、サーバ装置１００に接続されていてもよく、また、複数の話者識別装置１１０が、サーバ装置１００に接続されていてもよい。また、各家庭には、複数の話者識別装置１１０が配置されていてもよい。また、ネットワーク１２０は、例えばインターネットである。サーバ装置１００が配置されている場所に関しては、特に限定しない。サーバ装置１００は、ビッグデータを取り扱うデータセンタに配置されていてもよいし、各家庭に配置されていてもよい。データセンタは、データセンタを管理及び運営する会社が保有する。また、サーバ装置１００の各構成は、１つの装置内に集約されていてもよいし、各々異なる装置に配置されていてもよい。

サーバ装置１００は、制御部１０１と、通信部１０２と、番組情報データベース（ＤＢ）１０３と、サービス情報データベース（ＤＢ）１０４と、家族データベース（ＤＢ）１０５とを備える。番組情報ＤＢ１０３及びサービス情報ＤＢ１０４は、全ての家庭に共通の共通データベース（ＤＢ）である。家族データベース（ＤＢ）１０５は、家庭毎に構築される個別データベース（ＤＢ）である。

制御部１０１は、サーバ装置１００に関する様々な制御を行う構成要素であり、特に限定しない。制御部１０１は、例えばＣＰＵ（中央演算処理装置）などで構成される。

通信部１０２は、ネットワーク１２０に接続するための構成要素であり、特に限定しない。ネットワーク１２０への接続に関してはその方法を問わない。

共通データベースである番組情報データベース１０３及びサービス情報データベース１０４は、全ての話者識別装置１１０から参照されるデータベースである。番組情報データベース１０３及びサービス情報データベース１０４は、大量の情報を蓄積可能な記録装置である。番組情報データベース１０３及びサービス情報データベース１０４は、同一の装置内に格納されていてもよいし、別々の装置内に格納されていてもよい。

番組情報データベース１０３は、例えばテレビ番組に関する番組情報（番組名、放送時間、ジャンル及び出演者等）を蓄積している。なお、サーバ装置１００は、外部のサーバ装置からテレビ番組に関する番組情報を取得してもよい。テレビ番組は、地上デジタル放送波又は衛星放送波により提供される。また、ユーザ（話者）が視聴するコンテンツは、テレビ番組に限定されず、インターネットを介して取得されるコンテンツであってもよい。サービス情報データベース１０４は、話者に提供するサービスに関する情報を蓄積している。

個別データベースである家族データベース１０５及び家族データベース１０６は、各家庭別に構築される。家族データベース１０５は、各データベースに対応する話者識別装置１１０のみから参照される。家族データベース１０５は、共通データベースと同じく、大量の情報を蓄積可能な記録装置である。例えば家族データベース１０５は、図１に示す家庭Ａ内の話者識別装置１１０に対応し、家族データベース１０６は、図１に示す家庭Ｂ内の話者識別装置１１０に対応している。各家族データベースは、同一の装置内に格納されていてもよいし、別々の装置内に格納されていてもよい。

話者識別装置１１０は、制御部１１１と、通信部１１２と、音声取得部１１３と、表示部１１４とを備える。なお、これらの構成は、コンテンツ視聴機器の構成の一部として内蔵されていてもよいし、コンテンツ視聴機器の外部に接続される装置に内蔵されていてもよい。ここで、話者識別装置１１０としては、上記した各構成を備えていればよく、例えば一般家庭用のテレビ、ＰＣ（パーソナルコンピュータ）、スマートフォン、タブレット型コンピュータ及び携帯電話機などでもよい。また、話者識別装置１１０は、話者識別システムを行うための専用装置でもよい。

制御部１１１及び通信部１１２は、サーバ装置１００の制御部１０１及び通信部１０２と同様の構成であるため、その説明は省略する。

音声取得部１１３は、マイクを備えた音声記録装置である。表示部１１４は、モニタなどによる表示機能を持つ装置である。

なお、図１では、話者識別装置１１０とサーバ装置１００とによって以下に述べる話者識別システムを構成する図を示しているが、本発明はこれに限られない。例えば、サーバ装置１００の一部の構成又は全部の構成が、話者識別装置１１０に含まれていてもよく、話者識別装置１１０のみで話者識別システムを構成してもよい。

（話者識別システムの構成）
図２は、本実施の形態１における話者識別システムの構成を示すブロック図である。

本実施の形態１における話者識別システムは、音声取得部２０１と、視聴コンテンツ情報取得部２０２と、データベース管理部２０３とを備える。

音声取得部２０１は、話者識別のために解析可能な形式の音声情報を取得する。ここで解析可能な形式の音声情報とは、１人の話者の音声を含んでいる音であればよい。音声取得部２０１は、音声情報中に人の発する音声以外の雑音が含まれている場合は、音声情報から雑音を除去していてもよい。また、音声情報を取得するタイミング及び取得する音声情報の時間長に関しては特に限定しない。音声取得部２０１は、常に音声情報を取得していてもよいし、予め設定した時間間隔で音声情報を取得してもよい。また、音声取得部２０１は、人が音声を発しているときだけ音声情報を取得してもよい。音声取得部２０１は、音声区間を自動で検出し、取得した音声情報を解析した結果、識別可能である音声情報をデータベース管理部２０３に出力する。

視聴コンテンツ情報取得部２０２は、音声取得部２０１が音声情報を取得したタイミングにおいて話者が視聴しているコンテンツに関する視聴コンテンツ情報を取得する。視聴コンテンツ情報は、例えば、コンテンツのジャンル、放送時刻、出演者及び視聴時間等を含む。なお、視聴コンテンツ情報は、コンテンツの提供元、又はコンテンツ視聴機器から取得できるその他の情報を含んでもよい。視聴コンテンツ情報取得部２０２は、取得した視聴コンテンツ情報をデータベース管理部２０３に出力する。

データベース管理部２０３は、音声取得部２０１によって取得された音声情報と、視聴コンテンツ情報取得部２０２によって取得された視聴コンテンツ情報とを使用して、家族データベース１０５を構築及び管理する。家族データベース１０５は、過去に取得された音声情報である登録音声情報と、登録音声情報に対応する話者の視聴コンテンツ情報の履歴とを関連付けて保存している。ここで、登録音声情報は、ＷＡＶ形式のファイルとして登録されている。なお、登録音声情報は、必ずしもＷＡＶ形式のファイルでなくてもよい。例えば、登録音声情報は、ＭＰＥＧ形式又はＡＩＦＦ形式等の音声圧縮されたデータであってもよい。また、登録音声情報は、例えば自動的に圧縮ファイルにエンコードされ、家族データベース１０５に格納される。

データベース管理部２０３は、視聴コンテンツ情報取得部２０２によって取得された視聴コンテンツ情報をそのまま家族データベース１０５に蓄積してもよいし、視聴コンテンツ情報取得部２０２によって取得された視聴コンテンツ情報を内部メモリに一定量蓄積し、分析及び分類した後、分析及び分類した視聴コンテンツ情報を家族データベース１０５に蓄積してもよい。なお、家族データベース１０５に蓄積される情報については、後述する。

データベース管理部２０３は、音声取得部２０１によって取得された音声情報に対応する話者が、家族データベース１０５に視聴コンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する。データベース管理部２０３は、取得された音声情報に対応する話者が家族データベース１０５に記憶されている登録音声情報に対応する話者と一致すると判断された場合、音声情報を取得した時点において表示部１１４に表示されているコンテンツに関する視聴コンテンツ情報を取得し、取得された視聴コンテンツ情報を登録音声情報に関連付けて記憶する。データベース管理部２０３は、取得された音声情報に対応する話者が家族データベース１０５に記憶されている登録音声情報に対応する話者と一致しないと判断された場合、音声取得部２０１によって取得された音声情報を登録音声情報として家族データベース１０５に記憶する。

（話者識別システムの動作）
図３は、本発明の実施の形態１における話者識別システムの動作を示すフローチャートである。

図３を用いて、本実施の形態１における話者識別システムによる家族データベース更新方法について説明する。なお、フローチャートの処理は継続的に行われるものとし、音声取得時にフローチャートの処理が繰り返される。

まず、音声取得部２０１は、話者の音声情報を取得する（ステップＳ１）。

次に、データベース管理部２０３は、取得された音声情報を解析（図示せず）した結果に基づいて、取得された音声情報が、過去に家族データベース１０５に蓄積された登録音声情報と一致するか否かを判断する（ステップＳ２）。ここで、取得された音声情報が登録音声情報と一致すると判断された場合はステップＳ３の処理に進み、取得された音声情報が登録音声情報と一致しないと判断された場合はステップＳ５の処理に進む。なお、本話者識別システムが初めて利用される際には、家族ＤＢは存在しないので、ステップＳ５の処理に進む。

ここで、取得された音声情報と登録音声情報との比較手法ついては特に限定しない。例えば、データベース管理部２０３は、取得された音声情報から話者モデルを取得し、取得した話者モデルを登録音声情報の話者モデルと比較することで判断する。話者モデルとは、取得された音声情報の周波数特性などの個人に固有の特性から算出される、話者の特定に必要な情報などである。データベース管理部２０３は、周波数特性から正規分布を算出することで話者モデルを作成してもよい。なお、話者モデルは、話者を特定するための情報であればよく、音声情報から取得できるその他の特性又はそれらから算出できるその他の情報などでもよい。

このように、データベース管理部２０３は、取得された音声情報が、過去に家族データベース１０５に蓄積された登録音声情報と一致するか否かを判断することにより、取得された音声情報に対応する話者が、家族データベース１０５に視聴コンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断することができる。

取得された音声情報が登録音声情報と一致すると判断された場合（ステップＳ２でＹＥＳ）、視聴コンテンツ情報取得部２０２は、話者が話者識別装置１１０で現在視聴しているコンテンツに関する視聴コンテンツ情報を番組情報データベース１０３より取得する（ステップＳ３）。

次に、データベース管理部２０３は、家族データベース１０５に記憶されている登録音声情報と関連付けて、視聴コンテンツ情報取得部２０２によって取得された視聴コンテンツ情報を記憶する（ステップＳ４）。これにより、家族データベースが再構築される。なお、データベース管理部２０３は、既に記憶されている視聴コンテンツに加えて、新たに取得された視聴コンテンツ情報を記憶する。

一方、取得された音声情報が登録音声情報と一致しないと判断された場合（ステップＳ２でＮＯ）、データベース管理部２０３は、取得された音声情報を登録音声情報として家族データベース１０５に登録（記憶）する（ステップＳ５）。このとき、データベース管理部２０３は、取得された音声情報から作成した話者モデルを登録音声情報として記憶してもよい。

以上の処理が一定の間隔にて繰り返し行われ、家族データベース１０５の更新が繰り返されることで、精度の高いデータベースが構築される。

（話者識別システムのシーケンス図）
図４は、本発明の実施の形態１における話者識別システムの動作の一例を示すシーケンス図である。

図４を用いて、本実施の形態１における各装置間の具体的なデータのやり取りと各装置の具体的な動作例について説明する。なお、図４に示す動作例では、話者識別装置１１０がテレビである例について説明する。図４に示す動作例は一例であり、本実施の形態を限定するものではない。

まず、図１における例えば家庭Ａ内の視聴者（話者）が話者識別装置１１０（テレビ）でコンテンツを視聴している際に視聴者が発話した場合、話者識別装置１１０の音声取得部１１３は、発話があったことを検出して話者の音声情報を取得する（ステップＳ１１）。

次に、制御部１１１は、音声取得部１１３によって取得された音声情報を解析処理し（図示せず）、通信部１１２は、制御部１１１によって解析処理された音声情報をサーバ装置１００へ送信する（ステップＳ１２）。なお、音声の解析処理は、話者識別装置１１０の制御部１１１によって行われてもよいし、サーバ装置１００の制御部１０１によって行われてもよい。サーバ装置１００の通信部１０２は、話者識別装置１１０によって送信された音声情報を受信する。

次に、サーバ装置１００の制御部１０１は、通信部１０２によって受信された音声情報とサーバ装置１００の家庭Ａに対応する家族データベース１０５とを用いて、受信された音声情報を家族データベース内の登録音声情報と比較する（ステップＳ１３）。制御部１０１は、受信された音声情報が家族データベース内の登録音声情報と一致するか否かを判断する。これにより、発話が検出された話者が、音声情報が既に登録されている話者であるか否かを判断することができる。受信された音声情報が登録音声情報と一致するか否かの判断方法は、図３のステップＳ２にて説明した方法と同様であるので説明を省略する。

なお、複数の家族データベースのうち、どの家庭に対応する家族データベースを用いるかについては、例えば、話者識別装置１１０を識別するための機器ＩＤに対応付けて各家族データベースを管理し、音声情報に機器ＩＤを付加することにより、判断することができる。すなわち、家族データベースは、話者識別装置１１０を識別するための機器ＩＤ毎に設けられ、話者識別装置１１０は、音声情報に機器ＩＤを付加して送信し、サーバ装置１００は、受信した機器ＩＤに対応する家族データベースを読み出す。また、家族データベースは、視聴者を識別するための視聴者ＩＤ毎に設けられてもよく、話者識別装置１１０は、音声情報に視聴者ＩＤを付加して送信してもよく、サーバ装置１００は、受信した視聴者ＩＤに対応する家族データベースを読み出してもよい。また、制御部１０１は、取得された音声情報と、複数の家族データベースの全ての登録音声情報とを比較してもよい。

受信された音声情報が家族データベースに既に登録されている登録音声情報と一致すると判断された場合、制御部１０１は、音声情報が取得された時点で家庭Ａ内の視聴者（話者）が視聴しているコンテンツ（番組）に関する視聴コンテンツ情報をサーバ装置１００内の番組情報データベース１０３から取得する（ステップＳ１４）。

ここで、サーバ装置１００の制御部１０１が、視聴者（話者）が視聴している番組を特定する方法に関しては限定しない。制御部１０１は、ステップＳ１３の後に、逐次話者識別装置１１０に対してチャンネル番号等の視聴した番組を識別することが可能な番組識別情報を送信するように要求してもよい。また、ステップＳ１２において、話者識別装置１１０は、視聴チャンネル等の番組識別情報を音声情報とともに送信してもよく、制御部１０１は、受信した番組識別情報に対応する視聴コンテンツ情報を番組情報データベース１０３から取得してもよい。

次に、制御部１０１は、取得された視聴コンテンツ情報に基づいて、視聴者（話者）ごとに家族データベース１０５を構築及び更新する（ステップＳ１５）。

図５は、本発明の実施の形態１における家族データベースのデータ構造の一例を示す図である。例えば、取得された音声情報が、家族データベース内の登録音声情報と一致すると判断された場合、制御部１０１は、図５に示すように、音声情報が取得されたときに視聴していたコンテンツのジャンル、主な出演者及び放送時間などの視聴コンテンツ情報を家族データベースに蓄積し、家族データベースを更新する。図５に示す例では、ＷＡＶ形式で蓄積された各登録音声情報に、登録音声情報に対応する話者が視聴したコンテンツの放送開始日時、番組名及び出演者を含む視聴コンテンツ情報が、関連付けられて管理されている。このように、家族データベースは、登録音声情報と、話者が視聴したコンテンツに関する視聴コンテンツ情報とをそのまま関連付けて管理してもよい。

なお、視聴コンテンツ情報は、コンテンツの名称とコンテンツに関連する人物名とを含み、放送日時を含まなくてもよい。

図６は、本発明の実実施の形態１における家族データベースのデータ構造の他の例を示す図である。図６の例では、ＷＡＶ形式で蓄積された各登録音声情報に、登録音声情報に対応する話者が過去に視聴したコンテンツを分析した結果が、視聴コンテンツ情報として関連付けられて管理されている。図６に示す例では、制御部１０１は、話者が過去に視聴したコンテンツにおけるジャンル、出演者及び視聴時間帯のそれぞれの割合を算出し、管理している。

制御部１０１は、登録音声情報に関連付けられている複数のコンテンツを複数のジャンルに分類し、複数のジャンル毎に複数のコンテンツのうちの各ジャンルに分類されたコンテンツの割合を算出し、複数のジャンル毎に算出されたコンテンツの割合を登録音声情報に関連付けて家族データベースに記憶してもよい。

また、制御部１０１は、登録音声情報に関連付けられている複数のコンテンツのそれぞれに対応付けられている出演者を抽出し、各出演者の抽出数をカウントし、登録音声情報に関連付けられている全てのコンテンツの数のうちの各出演者の抽出回数の割合を算出し、出演者毎に算出された出演者の抽出回数の割合を登録音声情報に関連付けて家族データベースに記憶してもよい。

また、制御部１０１は、登録音声情報に関連付けられている複数のコンテンツを複数の視聴時間帯に分類し、複数の視聴時間帯毎に複数のコンテンツのうちの各視聴時間帯に分類されたコンテンツの割合を算出し、複数の視聴時間帯毎に算出されたコンテンツの割合を登録音声情報に関連付けて家族データベースに記憶してもよい。視聴時間帯は、例えば、朝、昼、夜及び深夜の４つの時間帯に分類される。

なお、家族間で音声情報が酷似しており判別が困難な場合は、個人識別の精度を向上させるために、制御部１０１は、音声情報からテキスト情報を抽出し、抽出したテキスト情報に基づいて発言内容を分析することにより、話者を判別してもよい。また、制御部１０１は、取得された視聴コンテンツ情報と家族データベース内に蓄積されている視聴コンテンツ情報とを比較することにより、話者を判別してもよい。

また、取得された音声情報が、家族データベース内の登録音声情報と一致しないと判断された場合、制御部１０１は、その時点で家族データベースを更新せず、取得された音声情報を内部のメモリに蓄積してもよい。そして、制御部１０１は、例えば１週間ごとに、メモリに蓄積された複数の音声情報のうち、同一の人物であると判別される音声情報を新たに登録音声情報として作成して家族データベースに記憶（登録）してもよい。

以上のステップＳ１１〜ステップＳ１５の処理が繰り返される。

また、ステップＳ１５の処理の後、通信部１０２は、構築された家族データベースの更新情報を、話者識別装置１１０に送信してもよい（ステップＳ１６）。話者識別装置１１０の通信部１１２は、サーバ装置１００によって送信された家族データベースの更新情報を受信する。

また、話者識別装置１１０の表示部１１４は、受信された家族データベースの更新情報に基づいて、家族データベースの更新内容を表示してもよい（ステップＳ１７）。表示部１１４は、更新された家族データベースの一部又は全部を表示してもよい。なお、ステップＳ１６及びステップＳ１７の処理は必須の処理ではない。

図７は、話者識別装置に表示される家族データベースの更新内容の一例を示す図であり、図８は、話者識別装置に表示される家族データベースの更新内容の他の例を示す図である。

図７及び図８に示す表示画面には、視聴コンテンツ情報が追加された家族データベースが表示され、同一の家庭に属する全てのユーザの視聴コンテンツ情報が表示されている。なお、表示部１１４は、視聴コンテンツ情報が追加されたユーザに対応する視聴コンテンツ情報のみを表示してもよい。また、図７に示すように、表示部１１４は、視聴コンテンツ情報をそのまま表示してもよい。また、図８に示すように、表示部１１４は、登録音声情報に対応する話者が過去に視聴したコンテンツを分析した結果を、視聴コンテンツ情報として表示してもよい。図８に示す例では、表示部１１４は、話者が過去に視聴したコンテンツにおけるジャンル、出演者及び視聴時間帯のそれぞれの割合を表示している。

家族データベースの更新内容を表示するタイミングは、家族データベース１０５（１０６）が更新されたタイミングでもよく、又はユーザから家族データベースの更新内容の表示に関する指示があったタイミングでもよい。このように、家族データベースの更新内容が表示されることで、ユーザは取得された視聴コンテンツ情報を把握できる。また、ユーザの名前、年齢及び性別に関する個人情報が取得されてないことを確認できるので、より一層の安心感をユーザに与えることができる。また、話者識別装置１１０は、家族データベースに蓄積されている情報に誤りがあった場合に、何らかの操作によって誤った情報を修正する機能を有することにより、家族データベースの精度を更に向上させることができる。

なお、図９に示すように、図４のステップＳ１３及びステップＳ１５の処理を、話者識別装置１１０が行ってもよい。この場合、話者識別装置１１０は、家族データベース１０５を備えていてもよい。

図９は、本発明の実施の形態１における話者識別システムの動作の他の例を示すシーケンス図である。

まず、話者識別装置１１０の音声取得部１１３は、発話があったことを検出して話者の音声情報を取得する（ステップＳ２１）。なお、ステップＳ２１の処理は、図４のステップＳ１１の処理と同じである。

次に、制御部１１１は、音声取得部１１３によって取得された音声情報と話者識別装置１１０の家庭Ａに対応する家族データベース１０５とを用いて、取得された音声情報を家族データベース内の登録音声情報と比較する（ステップＳ２２）。なお、ステップＳ２２の処理は、図４のステップＳ１３の処理と同じである。

次に、通信部１１２は、サーバ装置１００に対して視聴コンテンツ情報を要求する（ステップＳ２３）。

次に、サーバ装置１００の制御部１０１は、音声情報が取得された時点で家庭Ａ内の視聴者（話者）が視聴しているコンテンツ（番組）に関する視聴コンテンツ情報をサーバ装置１００内の番組情報データベース１０３から取得する（ステップＳ２４）。なお、ステップＳ２４の処理は、図４のステップＳ１４の処理と同じである。

次に、通信部１０２は、取得した視聴コンテンツ情報を話者識別装置１１０に送信する（ステップＳ２５）。話者識別装置１１０の通信部１１２は、サーバ装置１００によって送信された視聴コンテンツ情報を受信する。

次に、制御部１１１は、受信された視聴コンテンツ情報に基づいて、視聴者（話者）ごとに家族データベース１０５を構築及び更新する（ステップＳ２６）。なお、ステップＳ２６の処理は、図４のステップＳ１５の処理と同じである。

次に、話者識別装置１１０の表示部１１４は、家族データベースの更新内容を表示してもよい（ステップＳ２７）。なお、ステップＳ２７の処理は、図４のステップＳ１７の処理と同じである。

以上、本実施の形態によれば、ユーザにとって煩わしい設定操作を行うことなく、家族データベースを構築及び更新することができる。また、音声情報及び視聴コンテンツ情報のみが互いに関連付けられて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。例えば、図５又は図６に示すようなデータベースさえ構築できれば、ユーザの年齢及びユーザの性別といった無駄な情報を取得することなく、視聴中のユーザへ最適なコンテンツを提供したり、最適なコンテンツを推奨したりすることができる。また、ユーザの名前、年齢及び性別などの個人情報が取得されないので、ユーザにとっても安心して話者識別システムを利用することができる。

なお、図３に示す話者識別システムの動作において、取得された音声情報が家族データベースの登録音声情報と一致しないと判断された場合（ステップＳ２でＮＯ）、データベース管理部２０３は、取得された音声情報を家族データベースに登録するとしているが、本発明は特にこれに限られない。例えば、データベース管理部２０３は、一定時間（期間）中に連続して話者の音声情報を取得しており、ステップＳ２において取得された音声情報が家族データベースの登録音声情報と一致しないと判断された回数をカウントし、カウントされた回数が所定回数を超えた場合のみステップＳ５の処理を行ってもよい。これにより、家族データベース内に本来取得する必要のないデータ及びノイズが増えることを抑制できる。

また、本実施の形態において、制御部１０１は、登録音声情報に一致する音声情報が一定期間以上取得されない場合、当該登録音声情報を家族データベースから削除してもよい。これにより、家族以外の人物の音声情報が家族データベースに登録されたとしても、自動的に削除することができる。

また、本実施の形態において個人判別のために音声情報のみを用いるシステムでは、過剰なユーザの個人情報を取得することを避けることができる。例えば、カメラなどの撮像装置でユーザの画像を取得した場合、ユーザの顔情報など個人判別に必要な情報を取得することができるが、ユーザの服装及びユーザの部屋の様子など、個人判別に不要な個人情報も取得することになる。しかしながら、本実施の形態のように、個人判別のために音声情報のみを用いるのであれば、本来取得する必要のないデータ及びノイズが増えることを抑制でき、不要にユーザの個人情報を取得しないことでユーザの不快感を低減できる。

（実施の形態２）
（話者識別システムの構成）
図１０は、本発明の実施の形態２における話者識別システムの構成を示すブロック図である。

本実施の形態２における話者識別システムは、音声取得部２０１と、視聴コンテンツ情報取得部２０２と、データベース管理部２０３と、サービス提供部２０４とを備える。

なお、図１０において、図２に示す話者識別システムと同じ構成要素については同じ符号を用い、説明を省略する。音声取得部２０１及び視聴コンテンツ情報取得部２０２の構成は、実施の形態１と同じであるので説明を省略する。

データベース管理部２０３は、実施の形態１と同様に、取得した音声情報と視聴コンテンツ情報とに基づいて家族データベースを構築する。さらに、本実施の形態２では、データベース管理部２０３は、家族データベースに記憶された音声情報及び視聴コンテンツ情報を、サービス提供部２０４に出力する。また、データベース管理部２０３は、後述するサービス提供部２０４から、ユーザに提供されたサービスに関する情報を取得し、登録音声情報に関連付けて記憶する。また、データベース管理部２０３は、提供するサービスの候補に関する情報を、テレビのコンテンツに関連付けて記憶するデータベースを管理してもよい。

サービス提供部２０４は、取得された音声情報及び視聴コンテンツ情報に基づいて、所定のサービス提供条件を満たす場合に視聴者（話者）の嗜好に適したサービスを提供する。ここで、サービスとは、視聴可能なテレビ番組等のコンテンツを推薦するサービス、又は広告を配信するサービスである。なお、サービス提供部２０４は、視聴コンテンツ情報から類推できるその他のサービスを提供してもよい。サービスは、サービス提供可能なタイミングにおいて、表示部１１４に提供される。また、サービスが提示される際には、複数の提供可能な複数のサービスの候補が提示され、視聴者（話者）に選択させてもよい。提供するサービスの候補は、データベース管理部２０３が管理しているデータベースから取得してもよい。

サービスデータベース（不図示）は、視聴コンテンツ情報と、視聴コンテンツ情報に対応するコンテンツを視聴した話者に提供されるサービスとを関連付けて記憶する。なお、サービスデータベースに格納される視聴コンテンツ情報は、例えば、コンテンツの名称である。

サービス提供部２０４は、取得された音声情報に対応する話者が家族データベースに記憶されている登録音声情報に対応する話者と一致すると判断された場合、登録音声情報に関連付けられて記憶されているコンテンツ情報を特定し、特定したコンテンツ情報に関連付けられているサービスを特定し、特定したサービスを話者に提供する。

また、サービス提供部２０４は、提供可能な少なくとも１つのサービスが存在し、かつ予め決められているサービス提供タイミングであるか否かを判断する。そして、提供可能なサービスが存在し、かつ予め決められているサービス提供タイミングであると判断された場合、サービス提供部２０４は、提供可能な少なくとも１つのサービスの候補を話者識別装置１１０に表示させる。

また、サービス提供部２０４は、表示された少なくとも１つのサービスの候補の中から話者によって選択されたサービスを話者に提供する。データベース管理部２０３は、提供されたサービスを登録音声情報に関連付けて家族データベースに記憶する。

また、サービスは、話者識別装置１１０に表示するコンテンツを配信するサービス、又は話者識別装置１１０に表示する広告を配信するサービスを含む。

（話者識別システムの動作）
図１１は、本発明の実施の形態２における話者識別システムの動作を示すフローチャートである。

図１１を用いて、本実施の形態２における話者識別システムによるサービス提供方法について説明する。なお、フローチャートの処理は継続的に行われるものとし、音声取得時にフローチャートの処理が繰り返される。

また、図１１に示す実施の形態２における話者識別システムの動作において、図３に示す実施の形態１における話者識別システムと同じ処理については説明を省略する。

図１１のステップＳ３１及びステップＳ３２の処理は、図３のステップＳ１及びステップＳ２の処理と同様であるので、説明を省略する。また、ステップＳ３２において取得された音声情報が登録音声情報と一致しないと判断された場合に、取得された音声情報を家族データベースに登録するステップＳ３３の処理は、図３のステップＳ５の処理と同様であるので、説明を省略する。

取得された音声情報が家族データベースの登録音声情報と一致すると判断された場合（ステップＳ３２でＹＥＳ）、視聴コンテンツ情報取得部２０２は、話者が話者識別装置１１０で現在視聴しているコンテンツに関する視聴コンテンツ情報を番組情報データベース１０３より取得する（ステップＳ３４）。なお、ステップＳ３４の処理は、図３のステップＳ３の処理と同様である。

次に、サービス提供部２０４は、データベース管理部２０３より、提供する少なくとも１つのサービスの候補を取得する（ステップＳ３５）。ここで、提供する少なくとも１つのサービスの候補とは、例えば、取得された音声情報に一致する登録音声情報に対応する視聴コンテンツ情報に関連付けられた、少なくとも１つのサービスである。すなわち、この時点で、取得される少なくとも１つのサービスの候補は、視聴コンテンツ情報に関連付けられているため、視聴者（話者）の嗜好に適合したものに絞られる。

次に、サービス提供部２０４は、サービス提供条件を満たすか否かを判断する（ステップＳ３６）。サービス提供条件を満たすと判断された場合はステップＳ３４の処理に進み、サービス提供条件を満たさないと判断された場合はステップＳ４０の処理に進む。サービス提供条件とは、提供可能なサービスが存在するか否かの判断と、予め決められているサービスを提供するタイミングであるか否かの判断とである。提供可能なサービスが存在するか否かの判断は、ステップＳ３５において少なくとも１つのサービスの候補が取得されたか否かである。例えば、視聴していたコンテンツによっては、サービスの候補が関連付けられていない可能性もある。その場合は、ステップＳ４０の処理に進む。また、サービスを提供するタイミングであるか否かの判断とは、例えば、話者識別装置１１０の電源がＯＮされたタイミング、又は話者が視聴していたコンテンツが切り替えられたタイミングなどサービスの提供がコンテンツの視聴を阻害しないタイミングである。コンテンツの視聴を阻害するタイミングであれば、ステップＳ４０の処理に進む。なお、サービス提供のタイミングについては、視聴者（話者）が意図的に選択してもよいし、話者識別システムが自動で判別してもよい。

ここで、サービス提供条件を満たすと判断された場合（ステップＳ３６でＹＥＳ）、サービス提供部２０４は、少なくとも１つのサービスの候補を選択可能な状態で表示部１１４に表示する（ステップＳ３７）。表示方法は、例えば、現在表示されているコンテンツの視聴を阻害しないように表示されてもよいし、現在表示されているコンテンツから切り替えてサービスの候補を表示してもよい。なお、サービスの候補の表示例については後述する。

次に、表示された少なくとも１つのサービス候補のうち、１つのサービスが選択された場合、サービス提供部２０４は、選択されたサービスを提供する（ステップＳ３８）。なお、表示された少なくとも１つのサービス候補のうち、１つのサービスが選択されない場合、ステップＳ４０の処理に移行してもよい。

次に、データベース管理部２０３は選択されたサービスに関する情報を、登録音声情報と関連付けて家族データベースに追加する（ステップＳ３９）。

次に、データベース管理部２０３は、家族データベースに記憶されている登録音声情報に関連付けて、視聴コンテンツ情報取得部２０２によって取得された視聴コンテンツ情報を記憶する（ステップＳ４０）。これにより、家族データベースが再構築される。なお、ステップＳ４０の処理は、図３におけるステップＳ４の処理と同様である。

（話者識別システムのシーケンス図）
図１２は、本発明の実施の形態２における話者識別システムの動作の一例を示すシーケンス図である。

図１２を用いて、本実施の形態２における各装置間の具体的なデータのやり取りと各装置の具体的な動作例について説明する。なお、図１２に示す動作例では、話者識別装置１１０がテレビである例について説明する。図１２に示す動作例は一例であり、本実施の形態を限定するものではない。

また、図１２に示す実施の形態２における話者識別システムの動作において、図４に示す実施の形態１における話者識別システムと同じ処理については説明を省略する。図１２のステップＳ５１〜Ｓ５４の処理は、図４のステップＳ１１〜ステップＳ１４の処理と同様であるので、説明を省略する。以下、図１における例えば家庭Ａ内の視聴者（話者）の音声情報が、家族データベース１０５内の登録音声情報と比較されることによって、家族データベース１０５内の既存の話者の音声情報と一致すると判別された場合について説明する。

サーバ装置１００の制御部１０１は、家族データベース１０５内の視聴コンテンツ情報に基づいて、提供される少なくとも１つのサービスの候補をサービス情報データベース１０４から取得する（ステップＳ５５）。ここで、図１３〜図１５を用いて、提供されるサービスの候補の取得方法に関して説明する。

図１３は、本発明の実施の形態２における家族データベースのデータ構造の一例を示す図である。図１３に示すように、本実施の形態２における家族データベース１０５には、登録音声情報に対して、視聴コンテンツ情報及び話者によって過去に選択されたサービスの履歴（サービス選択履歴）が関連付けられて蓄積されている。

図１４は、本発明の実施の形態２におけるサービス情報データベースのデータ構造の一例を示す図である。図１４に示すように、本実施の形態２におけるサービス情報データベース１０４には、コンテンツの名称に対して、提供されるサービスの候補（提供サービス候補）が関連付けられて蓄積されている。なお、１つのコンテンツの名称に対して１つのサービスの候補が関連付けられているとは限らず、１つのコンテンツの名称に対して複数のサービスの候補が関連付けられていてもよい。

ステップＳ５３において音声情報と一致すると判断された登録音声情報が「０００１．ｗａｖ」であったとする。この場合、制御部１０１は、登録音声情報「０００１．ｗａｖ」に関連付けられている視聴コンテンツ情報に含まれるコンテンツ名と、サービス情報データベース１０４内のコンテンツ名とを比較する。制御部１０１は、サービス情報データベース１０４内のコンテンツ名の中から、登録音声情報「０００１．ｗａｖ」に関連付けられている視聴コンテンツ情報に含まれるコンテンツ名と一致するコンテンツ名を検索する。そして、例えば、図１４に示すように、「クイズＡＡ」が一致するコンテンツ名であった場合、制御部１０１は、一致したコンテンツ名に対応する提供サービスの候補をサービス情報データベース１０４から取得する。これにより、話者の興味のあるコンテンツに関連するサービス（コンテンツの提供又は広告の提供）の候補が選択される。

なお、サービスの候補の取得方法はこれに限られない。例えば、コンテンツ名ではなく出演者と提供サービス候補とが関連付けられて管理されていてもよい。これにより、話者の興味のある出演者に関連するサービス（コンテンツの提供又は広告の提供）の候補が選択される。

図１５は、本発明の実施の形態２におけるサービス情報データベースのデータ構造の他の例を示す図である。図１５に示すように、本実施の形態２の他の例におけるサービス情報データベース１０４には、コンテンツのジャンルに対して、提供されるサービスの候補（提供サービス候補）が関連付けられて蓄積されている。

この場合、制御部１０１は、取得された音声情報と同一であると判別された登録音声情報に関連付けられた視聴コンテンツ情報を用いて、過去に最も多く視聴されたコンテンツのジャンルを特定し、サービス情報データベース１０４内のジャンルの中から、特定したジャンルと一致するジャンルを検索する。一致するジャンルが存在する場合、制御部１０１は、一致したジャンルに対応する提供サービスの候補をサービス情報データベース１０４から取得する。これにより、話者の興味のあるコンテンツのジャンルに関連するサービス（コンテンツの提供又は広告の提供）の候補が選択される。

また、音声情報が取得されない場合であっても、家族データベース１０５内の視聴コンテンツ情報に基づいて提供可能なサービスの情報がある場合、サービス情報データベース１０４内の提供サービス候補を更新してもよい。

図１２に戻って、サーバ装置１００の通信部１０２は、取得した少なくとも１つのサービスの候補を示すサービス情報を、話者識別装置１１０であるテレビに送信する（ステップＳ５６）。話者識別装置１１０の通信部１１２は、サーバ装置１００によって送信されたサービス情報を受信する。

次に、話者識別装置１１０の制御部１１１は、サービス提供可能なタイミングであるか否かを判断し、サービス提供可能なタイミングであると判断された場合、話者識別装置１１０の表示部１１４は、サービスの候補を表示する（ステップＳ５７）。表示部１１４は、例えば、テレビの電源が入れられた直後のタイミング、番組表が表示されたタイミング、又はテレビに対する何らかの操作が行われた直後のタイミングなど、視聴者（話者）が現在の視聴コンテンツに集中しておらず、サービスを選択したり、視聴しているコンテンツを変更したりするのに適切である可能性の高いタイミングにサービスの候補を表示する。また、サーバ装置１００の制御部１０１が、サービス提供可能なタイミングであるか否かを判断してもよいし、話者識別装置１１０の制御部１１１が、サービス提供可能なタイミングであるか否かを判断してもよい。そして、話者識別装置１１０の入力受付部（不図示）は、表示された少なくとも１つのサービスの候補の中から視聴者（話者）による一のサービスの選択を受け付ける。

図１６は、本発明の実施の形態２においてサービスの候補を選択する選択画面の一例を示す図である。例えば、図１６に示すように、表示部１１４は、取得した提供可能なサービス（広告の配信）の候補を表示する。図１６では、例えば複数の広告をリモコンのボタンの色に関連付けて表示する例を示している。視聴者（話者）は、所望のサービス（広告の配信）に対応するリモコンのボタンを押すことで、所望のサービス（広告の配信）を選択できる。なお、サービス表示部分からサービスを選択することで所望の操作（チャンネルの変更又はインターネットショッピングなど）ができてもよいし、サービスを見た視聴者（話者）が自発的にそれらの操作を行ってもよい。

図１７は、本発明の実施の形態２においてサービスの候補を選択する選択画面の他の例を示す図である。例えば、図１７に示すように、表示部１１４は、取得した提供可能なサービス（コンテンツの再生）の候補を表示する。図１７では、例えば、視聴者（話者）に推奨するコンテンツ（番組）を表示する例を示している。視聴者（話者）は、所望のサービス（コンテンツの再生）に対応するリモコンのボタンを押すことで、所望のサービス（コンテンツの再生）を選択できる。

次に、話者識別装置１１０の制御部１１１は、選択されたサービスを提供する（ステップＳ５８）。すなわち、制御部１１１は、選択されたサービスを表示部１１４に表示させる。例えば選択されたサービスが番組コンテンツを再生するコンテンツであれば、制御部１１１は、選択されたコンテンツを再生する。なお、再生するコンテンツが、話者識別装置１１０内に記憶されていれば、制御部１１１は、記憶されているコンテンツを読み出して再生する。また、再生するコンテンツが、話者識別装置１１０内に記憶されておらず、サーバ装置１００内に記憶されていれば、制御部１１１は、サーバ装置１００からコンテンツを取得し、取得したコンテンツを再生する。また、選択されたサービスが広告を配信するサービスであれば、制御部１１１は、ネットワークを介して、選択された広告のウェブページを表示させる。

次に、話者識別装置１１０の制御部１１１によってサービスが選択されたことが検知された場合、通信部１１２は、選択されたサービスに関するサービス選択情報をサーバ装置１００に送信する（ステップＳ５９）。コンテンツを再生するサービスが選択された場合、サービス選択情報は、例えば、コンテンツが再生された日時、再生されたコンテンツの名称、及び再生されたコンテンツの出演者を含む。サーバ装置１００の通信部１０２は、話者識別装置１１０によって送信されたサービス選択情報を受信する。

次に、サーバ装置１００の制御部１０１は、取得された視聴コンテンツ情報及び受信されたサービス選択情報に基づいて、家族データベース１０５を更新する（ステップＳ６０）。ここで、本実施の形態では、制御部１０１は、登録音声情報に関連付けて、視聴コンテンツ情報を更新するとともに、視聴者（話者）によって選択されたサービス選択情報も更新する。図１３に示すように、制御部１０１は、登録音声情報に関連付けて、サービス選択履歴を更新する。

なお、ステップＳ６０の処理の後、通信部１０２は、構築された家族データベースの更新情報を、話者識別装置１１０に送信してもよい（ステップＳ６１）。話者識別装置１１０の通信部１１２は、サーバ装置１００によって送信された家族データベースの更新情報を受信する。

また、話者識別装置１１０の表示部１１４は、受信された家族データベースの更新情報に基づいて、家族データベースの更新内容を表示してもよい（ステップＳ６２）。表示部１１４は、更新された家族データベースの一部又は全部を表示してもよい。なお、ステップＳ６１及びステップＳ６２の処理は必須の処理ではない。

これにより、本実施の形態２では、ユーザに煩わしい設定操作を行わせることなく、家族データベースを構築することができる。最適なサービスを少なくとも１つのサービスの候補の中から選択させることで、さらに登録音声情報に対応する話者の嗜好に関する情報を蓄積することができるので、より話者に最適なサービスを提供することができる。

（実施の形態３）
従来、テレビなどの表示装置の前にいる視聴者を特徴付けるデータを取得して、適切な広告を配信する方法が提案されている（例えば、国際公開第０１／０８９２１６号参照）。

しかしながら、国際公開第０１／０８９２１６号に記載の発明は、予め登録されている視聴者を特徴付けるデータに関して、視聴者の家族構成が変化した際には使用できない。また、新規の視聴者をデータベースに登録する手段に関して十分な検討がされていなかった。

国際公開第０１／０８９２１６号には、登録された各視聴者の受信機へ、広告データを送信する広告配信方法及び広告配信装置について開示されている。従来の広告配信装置は、送信側において、登録された各視聴者から視聴者層を特徴付けるデータを受け取り、広告データが対象とする視聴者層を特徴付けるデータを受け取って広告データに関連付け、登録された各視聴者毎に、視聴者の視聴者層を特徴付けるデータと、広告が対象とする視聴者層を特徴付けるデータとの一致の度合いに基づいて、視聴者の受信機へ送信する広告データを広告データの中から選択して視聴者に割り当て、登録された各視聴者毎に、視聴者に割り当てた広告データを視聴者の受信機へ送信する。

国際公開第０１／０８９２１６号に記載の方法では、広告が対象とする視聴者層を特徴付けるデータと、既に登録された視聴者のみを特徴付けるデータとの一致の度合いに基づいて広告データ配信が制御される。そのため、視聴者の家族構成が変化するなど、登録内容が変化した場合は、登録内容の変更手続きを自発的に行う必要がある。また、視聴者の視聴者層を特徴付けるデータを登録し忘れた場合は、広告が対象とする視聴者層を特徴付けるデータとの一致度合いの判断ができないため、適切な広告を受信できないという課題を有している。

本発明の一局面に係る話者識別方法は、話者を識別する話者識別方法であって、前記話者の音声情報を取得するステップと、前記取得された音声情報に対応する話者が、データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記話者による話者情報の入力を受け付けるステップと、前記取得された音声情報を登録音声情報として前記データベースに記憶するとともに、前記受け付けられた話者情報を前記登録音声情報に関連付けて前記データベースに記憶するステップと、を含む。

これにより、話者の音声情報を取得して話者を識別し、データベースに登録されていない新規の話者が識別された場合、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。したがって、話者にとって煩わしい設定操作を行うことなく、新規の話者をデータベースに登録することができる。

また、上記態様において、前記話者情報に応じたコンテンツを配信するステップをさらに含むことが好ましい。この場合、話者情報に応じたコンテンツが配信されるので、話者に対して適切なコンテンツを提供することができる。

また、上記態様において、前記話者情報は、話者の年齢及び話者の性別の少なくとも一方を含むことが好ましい。この場合、話者の年齢及び性別の少なくとも一方に応じたコンテンツを提供することができる。

本発明の他の局面に係る話者識別装置は、話者を識別する話者識別装置であって、前記話者識別装置の周辺にいる話者の音声情報を取得する音声取得部と、登録された音声情報である登録音声情報と、話者に関する話者情報とを関連付けて記憶するデータベースと、前記音声取得部によって取得された音声情報に対応する話者が、前記データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する判断部と、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記話者による話者情報の入力を受け付ける入力受付部と、前記取得された音声情報を登録音声情報として前記データベースに記憶するとともに、前記入力受付部によって受け付けられた前記話者情報を前記登録音声情報に関連付けて前記データベースに記憶するデータベース記憶部と、を備える。

本発明の他の局面に係る情報管理方法は、話者を識別する話者識別システムにおける情報管理方法であって、前記話者の音声情報を受信するステップと、前記受信された音声情報に対応する話者が、データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記話者に対して話者情報の入力を促す入力促進情報を送信するステップと、前記入力促進情報に応じて前記話者により入力された話者情報を受信するステップと、前記受信された音声情報を登録音声情報として前記データベースに記憶するとともに、前記受信された話者情報を前記登録音声情報に関連付けて前記データベースに記憶するステップと、を含む。

以下、本発明の実施の形態について、図面を参照しながら説明する。

本発明の実施の形態３では、視聴者に関する視聴者情報に応じて適切なコンテンツを提供するコンテンツ提供システムの例として、テレビ（以下、端末装置とも呼ぶ）の前にいる視聴者に応じて各種インターネット等の通信回線を介して、実施されるコンテンツ提供システムについて示したものである。

（コンテンツ提供システムの構成）
まず、本実施の形態におけるコンテンツ提供システムの各構成について説明する。

図１８は、本発明の実施の形態３に係るコンテンツ提供システムの全体構成を示す図である。

コンテンツ提供システム４００は、音声取得部４０１と、話者識別部４０２と、視聴者構成管理部４０３と、情報入力部４０４と、コンテンツ配信制御部４０５と、コンテンツ配信部４０６と、表示部４０７とを備える。

音声取得部４０１は、視聴者（話者）の音声信号（音声情報）を取得する。話者識別部４０２は、音声取得部４０１によって取得された音声情報から、話者を識別する。話者識別部４０２は、取得された音声情報に対応する話者が、データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する。なお、話者情報は、例えば、話者の年齢及び話者の性別の少なくとも一方を含む。

視聴者構成管理部４０３は、話者識別部４０２から取得した識別情報を用いて視聴者構成情報を管理し、新規視聴者と判定された場合に新規視聴者に関連する情報の入力を促し、入力された情報を受信して、視聴者構成を管理する。

情報入力部４０４は、視聴者による情報の入力を受け付ける。情報入力部４０４は、取得された音声情報に対応する話者がデータベースに記憶されている登録音声情報に対応する話者と一致しないと判断された場合、話者による話者情報の入力を受け付ける。視聴者構成管理部４０３は、取得された音声情報を登録音声情報としてデータベースに記憶するとともに、受け付けられた話者情報を登録音声情報に関連付けてデータベースに記憶する。

コンテンツ配信制御部４０５は、視聴者構成管理部４０３によって管理される視聴者構情報成に応じたコンテンツの配信を制御する。コンテンツ配信部４０６は、コンテンツ配信制御部４０５によって制御され、視聴者構成情報に応じたコンテンツを配信する。コンテンツ配信部４０６は、話者情報に応じたコンテンツを配信する。

表示部４０７は、視聴者に関する情報の入力を促し、配信されたコンテンツを表示する。なお、コンテンツ提供システム４００は、必ずしもこれらの構成を全て備えている必要はなく、一部の構成が欠けていてもよい。

コンテンツ提供システム４００は、例えば、視聴者側の端末装置と、コンテンツを配信するサーバ装置とに分けることができる。以下に説明する端末装置の各部は、例えば端末装置の一例であるテレビに配置されたマイクロホン、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、制御プログラムを格納したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び各種通信用ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェアにより、実現される。また、サーバ装置の各部は、コンピュータを構成するＣＰＵ、制御プログラムを格納したＲＯＭ、及び各種通信用のＩＣなどのハードウェアにより、実現される。

以下に、コンテンツ提供システムを実現するための各装置の構成例について、図１９に示すコンテンツ提供システム５００の処理ブロック図（構成図）を用いて説明する。

図１９は、本発明の実施の形態３におけるコンテンツ提供システムの構成を示すブロック図である。なお、図１９のコンテンツ提供システム５００は、図１８のコンテンツ提供システム４００の構成の一例を示している。コンテンツ提供システム５００とコンテンツ提供システム４００とは、同一のシステムであるが、便宜上、異なる符号で表現している。

図１９に示すコンテンツ提供システム５００は、サーバ装置５１０及び端末装置５２０を備える。

サーバ装置５１０は、サーバ通信部５１１、話者識別部５１２、視聴者構成管理部５１３、広告配信制御部５１４、視聴者構成ＤＢ（ＤａｔａＢａｓｅ）５１５、及び配信広告ＤＢ（ＤａｔａＢａｓｅ）５１６を備える。サーバ装置５１０が配置されている場所に関しては、特に限定しない。サーバ装置５１０は、ビッグデータを取り扱うデータセンタに配置されていてもよいし、各家庭に配置されていてもよい。データセンタは、データセンタを管理及び運営する会社が保有する。また、サーバ装置５１０の各構成は、１つの装置内に集約されていてもよいし、各々異なる装置に配置されていてもよい。

端末装置５２０は、端末通信部５２１、音声取得部５２２、情報入力部５２３、及び表示部５２４を備える。端末装置５２０としては、これらの構成を備えている機器であればよい。端末装置５２０は、例えば家庭内のテレビ、ＰＣ（パーソナルコンピュータ）、及びＰＣに接続されたディスプレイ等で構成される。また、端末装置５２０は、携帯電話機、スマートフォン又はタブレット型端末などの携帯端末で構成されてもよい。また、端末装置５２０は、各構成を必ずしも端末装置５２０の内部に備えていなくてもよい。例えば、音声取得部５２２のみが、端末装置５２０の外部に取り付けられてもよい。また、コンテンツ提供システム５００は、複数の端末装置５２０を備え、各々の端末装置５２０がサーバ装置５１０に接続されていてもよい。

サーバ通信部５１１は、インターネット等の各種公衆回線である通信回線５３０を介して、回線データを受信する。そして、サーバ通信部５１１は、受信した回線データより、端末装置５２０によって送信された視聴者音声信号を抽出し、話者識別部５１２に出力する。また、サーバ通信部５１１は、受信した回線データより、端末装置５２０によって送信された視聴者タグデータを抽出し、視聴者構成管理部５１３に出力する。また、サーバ通信部５１１は、新規話者が検出された場合に生成される登録促進信号及び広告データを通信回線５３０へ回線データとして出力し、通信回線５３０を介して登録促進信号及び広告データを端末装置５２０へ送信する。

話者識別部５１２は、サーバ通信部５１１によって出力された視聴者音声信号を取得して話者を識別し、話者識別結果を視聴者構成管理部５１３に出力する。話者識別部５１２は、取得した視聴者音声信号と、視聴者構成ＤＢ５１５に登録されている登録音声信号とを比較し、話者を識別する。このとき、話者識別部５１２は、取得した視聴者音声信号と、視聴者構成ＤＢ５１５に登録されている登録音声信号とが一致しない場合、新規話者を検出する。

視聴者構成管理部５１３は、話者識別部５１２によって新規話者が検出された場合は、サーバ通信部５１１に登録促進信号を出力する。すなわち、視聴者構成管理部５１３は、話者識別部５１２によって識別された話者が、視聴者構成ＤＢ５１５に記憶されている視聴者構成に登録されていない場合は、サーバ通信部５１１に登録促進信号を出力する。また、視聴者構成管理部５１３は、視聴者によって入力された視聴者タグデータをサーバ通信部５１１より取得して、視聴者構成と関連付けられるタグ情報を管理し、視聴者構成情報を出力する。

広告配信制御部５１４は、配信広告ＤＢ５１６から、視聴者構成情報に基づいて端末側に配信する広告を選択し、サーバ通信部５１１へ出力する。

視聴者構成ＤＢ５１５は、視聴者構成管理部５１３により管理される視聴者構成情報を記憶するデータベースである。ここで、複数の端末装置５２０が存在する場合、視聴者構成ＤＢは、各端末装置に対して作成されており、各端末装置に対応するＩＰアドレス又はＩＤによって管理されている。

配信広告ＤＢ５１６は、広告配信制御部５１４により配信及び管理される広告データを記憶するデータベースである。

端末通信部５２１は、インターネット等の各種公衆回線である通信回線５３０を介して、回線データを受信する。端末通信部５２１は、サーバ装置５１０によって送信された広告データ及び登録促進信号を受信し、受信した広告データ及び登録促進信号を表示部５２４へ出力する。また、端末通信部５２１は、音声取得部５２２によって取得された視聴者音声信号を通信回線５３０へ出力するとともに、情報入力部５２３によって入力された視聴者タグデータを通信回線５３０へ出力する。

音声取得部５２２は、視聴者音声信号を取得し、端末通信部５２１へ出力する。

情報入力部５２３は、表示部５２４に登録促進信号による登録促進画面が表示されたときに、新規視聴者に関連付けられる視聴者タグデータの入力を受け付け、入力された視聴者タグデータを端末通信部５２１へ出力する。

表示部５２４は、登録促進信号を受信した場合に視聴者タグデータの入力を促す画面を表示する。また、表示部５２４は、受信した配信広告データを表示する。

以上でコンテンツ提供システム５００における各装置の構成の説明を終える。なお、各装置は上記で説明したすべての構成を必ずしも備えている必要はなく、一部の構成が欠けていてもよい。また、各装置は、他の機能を有する構成を備えていてもよい。

（コンテンツ提供システムの動作）
次に、コンテンツ提供システム５００の動作について説明する。なお、各装置（端末装置５２０及びサーバ装置５１０）の詳細な動作に関しては後述する。ここでは、コンテンツ提供システム５００全体の大まかな動作及び処理の流れを説明する。

図２０は、本発明の実施の形態３におけるコンテンツ提供システム５００の動作の一例を示すシーケンス図である。なお、図２０では、端末装置５２０に新たな視聴者が検出された場合について示す。

まず、端末装置５２０の音声取得部５２２は、端末装置５２０の視聴者の音声信号を取得する（ステップＳ７１）。なお、ステップＳ７１の処理は、図１８におけるコンテンツ提供システム４００の音声取得部４０１による処理に相当する。

次に、端末装置５２０の端末通信部５２１は、取得した視聴者音声信号を、通信回線５３０を通じて、サーバ装置５１０に送信する（ステップＳ７２）。この時、端末通信部５２１は、視聴者音声信号と合わせて、端末装置５２０のユーザを特定するＩＤ又はＩＰアドレス等、端末装置５２０に関する他の情報を送信してもよい。サーバ装置５１０のサーバ通信部５１１は、端末装置５２０によって送信された視聴者音声信号を受信する。

次に、サーバ装置５１０の話者識別部５１２は、端末装置５２０から通信回線５３０を介して送信された視聴者音声信号と、視聴者音声信号を取得した端末装置５２０に対応する視聴者構成ＤＢ５１５とを用いて話者を識別する（ステップＳ７３）。なお、端末装置５２０に対応する視聴者構成ＤＢ５１５の抽出に関しては、端末装置５２０から送られてくるＩＰアドレスなどの記憶位置が特定できる情報に基づいて行ってもよい。ステップＳ７３の処理は、図１８におけるコンテンツ提供システム４００の話者識別部４０２による処理に相当する。

次に、話者識別部５１２は、視聴者構成ＤＢ５１５に登録されていない新規の話者を検出する（ステップＳ７４）。すなわち、話者識別部５１２は、視聴者構成ＤＢ５１５に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在する場合、視聴者音声信号に対応する話者が当該登録音声信号に対応する話者であると判断する。一方、話者識別部５１２は、視聴者構成ＤＢ５１５に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在しない場合、視聴者音声信号に対応する話者が、視聴者構成ＤＢ５１５に登録されていない新規話者であると判断する。これにより、新規の話者が検出される。

次に、サーバ装置５１０のサーバ通信部５１１は、端末装置５２０に対して通信回線５３０を介して新規話者に関連付けられるタグ情報のデータベースへの登録を促すための登録促進信号を送信する（ステップＳ７５）。端末装置５２０の端末通信部５２１は、通信回線５３０を介して送信された登録促進信号を受信する。このとき、新規話者の検出は、新規話者の音声信号が所定期間（数日間）継続して検出されることなどを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声であるとして誤って識別してしまうことを回避することができる。

次に、表示部５２４は、新規話者に関連付けられタグ情報の入力を促進するための登録促進画面を表示する（ステップＳ７６）。ステップＳ７６の処理は、図１８におけるコンテンツ提供システム４００の表示部４０７による処理に相当する。登録促進画面は、番組などのコンテンツが表示される表示画面の端部などのコンテンツの視聴の妨げにならない位置に表示してもよい。また、登録促進画面は、端末装置５２０の電源ＯＮ／ＯＦＦ時などのコンテンツの視聴の妨げにならないタイミングで表示してもよい。

次に、情報入力部５２３は、視聴者音声信号及び視聴者音声信号に関連付けられる視聴者に関する情報（視聴者タグデータ）を含む新規話者情報の入力を受け付ける（ステップＳ７７）。新規話者は、登録促進画面の表示に従い、新規話者情報を入力する。ステップＳ７７の処理は、図１８におけるコンテンツ提供システム４００の情報入力部４０４による処理に相当する。

図２１は、新規話者登録時において話者の音声信号を入力するための表示画面の一例を示す図であり、図２２は、新規話者登録時において話者の年齢及び性別を入力するための表示画面の一例を示す図であり、図２３は、新規話者登録時において話者のニックネームを入力するための表示画面の一例を示す図である。

新規話者の音声信号とタグ情報との関連性を確実にするために、まず、音声取得部５２２は、音声信号を取得する。音声取得時の表示画面６０１（図２１）では、ユーザの音声を確実に収録するための音声レベルメータ、及び発話する語彙などが表示され、リモコンの決定ボタンの操作などの簡単な操作で新規話者の音声信号を取得する。

音声信号を取得した後、情報入力部５２３は、話者と関連付けるタグデータの入力を受け付ける。ここで、タグデータは、新規話者のニックネーム、年齢及び性別を含む。年齢及び性別入力時の表示画面６０２（図２２）では、年齢及び性別の入力を簡単なリモコン操作で受け付ける。ユーザは、年齢及び性別のそれぞれの入力欄に移動して子画面で表示される該当する項目を選択し、決定ボタンを押して入力を完了する。

また、ニックネーム入力時の表示画面６０３（図２３）では、ユーザは、テンキーを用いて自身のニックネームを入力する。ニックネームの入力が完了した後、完了ボタンに移動して決定ボタンが押下されることにより、タグデータの入力が完了する。

入力処理が完了した後、端末通信部５２１は、新規話者の視聴者タグデータ及び視聴者音声信号を、通信回線５３０を介してサーバ装置５１０に送信する（ステップＳ７８）。サーバ装置５１０のサーバ通信部５１１は、端末装置５２０によって送信された視聴者タグデータ及び視聴者音声信号を受信する。

次に、サーバ装置５１０の視聴者構成管理部５１３は、サーバ通信部５１１によって受信された視聴者タグデータ及び視聴者音声信号を視聴者構成ＤＢ５１５に記憶することにより、視聴者構成ＤＢ５１５を更新する（ステップＳ７９）。ステップＳ７９の処理は、図１８におけるコンテンツ提供システム４００の視聴者構成管理部４０３による処理に相当する。

図２４は、視聴者構成ＤＢ５１５のデータ構成の一例を示す図である。図２４に示すように、視聴者構成ＤＢ５１５では、視聴者を表すニックネーム毎に、年齢、性別、及び取得した視聴者音声信号が関連付けられている。なお、視聴者構成ＤＢ５１５において構築されるデータベースに関してはこの例に限られない。

次に、サーバ装置５１０の広告配信制御部５１４は、視聴者構成ＤＢ５１５に記憶されている視聴者に関する情報に応じた広告データを、配信広告ＤＢ５１６より選択する（ステップＳ８０）。ここで、広告の選択方法については特に限定しない。例えば、配信広告ＤＢ５１６は、年齢及び性別に対応付けて、配信する広告データを記憶している。例えば、４０歳代の男性には、車の広告が対応付けられており、３０歳代の女性には、化粧品の広告が対応付けられており、広告配信制御部５１４は、ユーザの年齢及び性別に応じた最適な広告を選択する。ステップＳ８０の処理は、図１８におけるコンテンツ提供システム４００のコンテンツ配信制御部４０５による処理に相当する。

なお、配信広告ＤＢ５１６は、年齢のみに対応付けて広告データを記憶してもよく、性別のみに対応付けて広告データを記憶してもよい。また、配信広告ＤＢ５１６は、年齢及び性別以外の視聴者に関する情報に対応付けて広告データを記憶してもよい。視聴者構成ＤＢ５１５に視聴者の住所が記憶されている場合、配信広告ＤＢ５１６は、住所に対応付けて広告データを記憶しておき、広告配信制御部５１４は、視聴者の住所に最も近い店舗の広告データを選択してもよい。

次に、サーバ通信部５１１は、広告配信制御部５１４によって選択された広告データを、通信回線５３０を介して端末装置５２０に送信する（ステップＳ８１）。端末装置５２０の端末通信部５２１は、サーバ装置５１０によって送信された広告データを受信する。

次に、端末装置５２０の表示部５２４は、サーバ装置５１０から配信された広告データを表示する（ステップＳ８２）。ステップＳ８２の処理は、図１８におけるコンテンツ提供システム４００のコンテンツ配信部４０６による処理に相当する。

以上で、コンテンツ提供システム５００の動作の説明を終える。

（サーバ装置の動作）
次に、本実施の形態３におけるコンテンツ提供システム５００のサーバ装置５１０の動作について説明する。

図２５は、本発明の実施の形態３におけるサーバ装置５１０の動作の一例を示すフローチャートである。サーバ装置５１０は、例えば図２５に示す動作を、電源スイッチ又は電源スイッチに関連する機能（図１９には図示しない）がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。

まず、ステップＳ９１において、サーバ装置５１０のサーバ通信部５１１は、通信回線５３０より回線データを受信する。このとき、サーバ通信部５１１は、端末装置５２０によって送信された視聴者音声信号を取得する。

次に、ステップＳ９２において、話者識別部５１２は、取得した視聴者音声信号に対応する話者を識別する。話者識別部５１２は、受信した視聴者音声信号と、端末装置ごとの視聴者構成ＤＢ５１５とを照合することで、話者を識別する。

次に、ステップＳ９３において、話者識別部５１２は、話者識別結果を用いて、新規話者を検出したか否かを判断する。話者識別部５１２は、受信した視聴者音声信号が視聴者構成ＤＢ５１５に登録されていなければ、新規話者を検出したと判断し、受信した視聴者音声信号が視聴者構成ＤＢ５１５に登録されていれば、新規話者を検出していないと判断する。なお、新規話者の検出は、所定期間（数日間）にわたり視聴者構成ＤＢ５１５に存在していない話者であることを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声として誤って識別してしまうことを回避することができる。ここで、新規話者を検出したと判断された場合（ステップＳ９３でＹＥＳ）、新規話者を登録するために、ステップＳ９４の処理へ進む。一方、新規話者を検出していないと判断された場合（ステップＳ９３でＮＯ）、ステップＳ９７の処理へ進む。

ステップＳ９４において、視聴者構成管理部５１３は、新規話者に関する情報を視聴者構成ＤＢ５１５に登録するための登録促進信号を作成してサーバ通信部５１１へ出力し、サーバ通信部５１１は、登録促進信号を送信する。

次に、ステップＳ９５において、視聴者構成管理部５１３は、サーバ通信部５１１によって新規話者の視聴者タグデータ及び視聴者音声信号が受信されたか否かを判断する。ここで、登録促進信号を送信したにもかかわらず、端末装置５２０から視聴者タグデータ及び視聴者音声信号が送信されない場合、すなわちサーバ装置５１０で視聴者タグデータ及び視聴者音声信号が受信されないと判断された場合（ステップＳ９５でＮＯ）、継続して登録を促すために、ステップＳ９４の処理へ戻る。

一方、端末装置５２０から視聴者タグデータ及び視聴者音声信号が送信された場合、すなわち視聴者タグデータ及び視聴者音声信号が受信されたと判断された場合（ステップＳ９５でＹＥＳ）、ステップＳ９６の処理へ進む。

ステップＳ９６において、視聴者構成管理部５１３は、端末装置ごとの視聴者構成ＤＢ５１５を更新する。具体的には、視聴者構成管理部５１３は、情報入力部５２３によって入力された視聴者タグデータと、音声取得部５２２によって取得された視聴者音声信号とを用いて視聴者構成ＤＢ５１５を更新する。図２４に示すように、視聴者構成ＤＢ５１５は、新規話者のニックネームごとに、年齢、性別及び視聴者音声信号を関連付けて記憶することにより、更新される。視聴者構成管理部５１３は、サーバ通信部５１１によって受信された視聴者タグデータ及び視聴者音声信号を視聴者構成ＤＢ５１５に記憶する。

なお、本実施の形態では、登録促進信号を受けた端末装置５２０によって改めて取得された視聴者音声信号が受信され、受信された視聴者音声信号が視聴者構成ＤＢ５１５に記憶されるが、本発明は特にこれに限定されず、サーバ装置５１０は、視聴者タグデータのみを受信し、受信した視聴者タグデータと、ステップＳ９１で受信した視聴者音声信号とを対応付けて視聴者構成ＤＢ５１５に記憶してもよい。

次に、ステップＳ９７において、広告配信制御部５１４は、視聴者構成ＤＢ５１５に記憶されている視聴者（識別された話者又は新規話者）に関する情報に対応する広告データを配信広告ＤＢ５１６から選択する。具体的には、広告配信制御部５１４は、視聴者構成ＤＢ５１５における識別された話者又は新規話者の年齢及び性別に対応する広告データを配信広告ＤＢ５１６から抽出し、抽出した広告データをサーバ通信部５１１へ出力する。

次に、ステップＳ９８において、サーバ通信部５１１は、広告配信制御部５１４によって選択された広告データを、通信回線５３０を介して端末装置５２０へ送信する。

以上で、サーバ装置５１０の動作についての説明を終える。

（端末装置の動作）
次に、本実施の形態３におけるコンテンツ提供システム５００の端末装置５２０の動作について説明する。

図２６は、本発明の実施の形態３における端末装置５２０の動作の一例を示すフローチャートである。端末装置５２０は、例えば図２６に示す動作を、電源スイッチ又は電源スイッチに関連する機能（図１９には図示しない）がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。なお、本端末装置５２０がテレビである場合、テレビの基本機能として放送番組（コンテンツ）を表示する機能が存在するが、本コンテンツ提供システムの説明では、コンテンツの表示に関する詳細な説明は省略し、広告の配信に関する事項のみ説明する。

まず、ステップＳ１１１において、音声取得部５２２は、端末装置５２０の周辺にいる視聴者が発話した音声を表す視聴者音声信号を取得する。音声取得部５２２は、取得した視聴者音声信号を端末通信部５２１へ出力する。

次に、ステップＳ１１２において、端末通信部５２１は、音声取得部５２２によって取得された視聴者音声信号を、通信回線５３０を介してサーバ装置５１０へ送信する。端末通信部５２１は、通信回線５３０に視聴者音声信号を、回線データとして出力する。

次に、ステップＳ１１３において、端末通信部５２１は、サーバ装置５１０によって送信される登録促進信号を受信したか否かを判断する。登録促進信号を受信したと判断された場合（ステップＳ１１３でＹＥＳ）、ステップＳ１１４の処理へ進む。端末通信部５２１は、受信した登録促進信号を表示部５２４へ出力する。一方、登録促進信号を受信していないと判断された場合（ステップＳ１１３でＮＯ）、ステップＳ１１７の処理へ進む。

ステップＳ１１４において、表示部５２４は、新規話者に関する情報の入力を促すための登録促進画面を表示する。ここで、情報入力部５２３は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力を受け付ける。

次に、ステップＳ１１５において、端末通信部５２１は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力が完了したか否かを判断する。入力が完了していないと判断された場合（ステップＳ１１５でＮＯ）、ステップＳ１１４の処理へ戻り、表示部５２４は、継続して登録促進画面を表示する。一方、入力が完了したと判断された場合（ステップＳ１１５でＹＥＳ）、ステップＳ１１６の処理へ進む。

次に、ステップＳ１１６において、端末通信部５２１は、表示部５２４に表示された登録促進画面に従ってリモコンなどの情報入力部５２３によって入力された、新規話者の視聴者音声信号と、視聴者音声信号に関連付けられる視聴者タグデータ（ここでは、年齢、性別及びニックネーム）とを、サーバ装置５１０へ送信する。

次に、ステップＳ１１７において、端末通信部５２１は、サーバ装置５１０によって送信された広告データを受信する。

次に、ステップＳ１１８において、表示部５２４は、端末通信部５２１によって受信された広告データを表示する。

以上で、端末装置５２０の動作についての説明を終える。

以上のような動作により、端末装置から視聴者が発話した音声を取得して話者を識別し、一定期間同じ未知の話者が識別された場合、その話者を、端末装置を利用する視聴者の新たな構成員とみなす。そして、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。これにより、端末装置を保有している家族の各構成員に関する情報を格納するデータベースを構築することができる。また、視聴者に応じて適切な広告を配信するコンテンツ提供システムを提供することができる。

なお、本実施の形態におけるシステムは、コンテンツを提供するコンテンツ提供システムであるとして説明しているが、データベースを構築する視聴者構成ＤＢ構築管理システムであってもよい。その場合、図１８に記載のシステムにおいて、コンテンツ配信制御部４０５とコンテンツ配信部４０６とが必須の構成ではなくなる。また、図１９に記載のサーバ装置５１０において、広告配信制御部５１４と配信広告ＤＢ５１６とが必須の構成ではなくなる。また、図２０のフローチャートにおけるステップＳ８０以降の処理が必須の処理ではなくなる。また、図２５のフローチャートにおけるステップＳ９７以降の処理が必須の処理ではなくなる。また、図２６のフローチャートにおけるステップＳ１１７以降の処理が必須の処理ではなくなる。

（実施の形態４）
以下、本発明の実施の形態４におけるコンテンツ提供システムを説明する。なお、本実施の形態４において、実施の形態３と同様の構成については説明を省略する。また、実施の形態４の技術は、実施の形態３に記載の技術と組み合わせることも可能である。

上記の実施の形態３では、端末装置で取得した音声信号をサーバ装置へ送信し、サーバ装置において話者の識別と話者に関する情報の管理を行っているが、本実施の形態４では、端末装置において話者の識別と話者に関する情報の管理を行い、話者に関する情報のみが、端末装置からサーバ装置へ送信される。これにより、実施の形態４におけるコンテンツ提供システムは、送信するデータ量を削減することができ、低容量の通信回線にも対応することができる。

以下、本実施の形態４におけるコンテンツ提供システムの構成について説明する。

（コンテンツ提供システムの構成）
図２７は、本発明の実施の形態４に係るコンテンツ提供システムの構成の一例を示すブロック図である。図２７において、図１９と同じ構成要素については、同一の符号を付し、説明を省略する。

図２７に示すコンテンツ提供システム８００は、サーバ装置５５０及び端末装置５６０を備える。

サーバ装置５５０は、サーバ通信部５５１、広告配信制御部５５４、及び配信広告ＤＢ（ＤａｔａＢａｓｅ）５１６を備える。

端末装置５６０は、話者識別部５１２、端末通信部５６１、視聴者構成管理部５６２、視聴者構成ＤＢ（ＤａｔａＢａｓｅ）５１５、音声取得部５２２、情報入力部５２３、及び表示部５２４を備える。

サーバ通信部５５１は、インターネット等の各種公衆回線である通信回線５３０を介して、回線データを受信する。そして、サーバ通信部５５１は、受信した回線データより、端末装置５６０によって送信された視聴者構成情報を抽出し、広告配信制御部５１４へ出力する。また、サーバ通信部５５１は、広告データを通信回線５３０へ回線データとして出力し、通信回線５３０を介して広告データを端末装置５２０へ送信する。

広告配信制御部５５４は、サーバ通信部５５１によって受信された視聴者構成情報に基づいて、配信広告ＤＢ５１６から広告データを選択し、選択した広告データをサーバ通信部５５１に出力する。

端末通信部５６１は、インターネット等の各種公衆回線である通信回線５３０を介して、回線データを受信する。端末通信部５６１は、サーバ装置５５０によって送信された広告データを受信し、受信した広告データを表示部５２４へ出力する。また、端末通信部５６１は、視聴者構成管理部５６２によって出力された視聴者構成情報を回線データに変換し、通信回線５３０へ出力する。

視聴者構成管理部５６２は、話者識別部５１２によって新規話者が検出された場合は、表示部５２４に登録促進信号を送信する。また、視聴者構成管理部５６２は、情報入力部５２３を用いて視聴者によって入力された視聴者音声信号及び視聴者タグデータを取得し、視聴者構成ＤＢ５１５の情報を更新する。また、視聴者構成管理部５６２は、視聴者構成ＤＢ５１５の視聴者構成情報を端末通信部５６１に出力する。

以上で、コンテンツ提供システム８００の構成の説明を終える。

（コンテンツ提供システムの動作）
次に、コンテンツ提供システム８００の動作について説明する。なお、各装置（端末装置５６０及びサーバ装置５５０）の詳細な動作に関しては後述する。ここでは、コンテンツ提供システム８００全体の大まかな動作及び処理の流れを説明する。

図２８は、本発明の実施の形態４におけるコンテンツ提供システム８００の動作の一例を示すシーケンス図である。なお、図２８では、端末装置５６０に新たな視聴者が検出された場合について示す。

まず、端末装置５６０の音声取得部５２２は、端末装置５６０の視聴者の音声信号を取得する（ステップＳ１２１）。なお、ステップＳ１２１の処理は、図１８におけるコンテンツ提供システム４００の音声取得部４０１による処理に相当する。音声取得部５２２は、取得した視聴者音声信号を、話者識別部５１２に出力する。

次に、話者識別部５１２は、音声取得部５２２によって取得された視聴者音声信号と、端末装置５６０の視聴者に関する情報を格納する視聴者構成ＤＢ５１５とを用いて話者を識別する（ステップＳ１２２）。ステップＳ１２２の処理は、図１８におけるコンテンツ提供システム４００の話者識別部４０２による処理に相当する。視聴者構成ＤＢ５１５は、端末装置５６０を利用する視聴者の視聴者構成情報のみを記憶する。視聴者構成情報は、図２４に示すように、ニックネーム、年齢、性別及び音声信号を関連付けた情報である。

次に、話者識別部５１２は、視聴者構成ＤＢ５１５に登録されていない新規の話者を検出する（ステップＳ１２３）。すなわち、話者識別部５１２は、視聴者構成ＤＢ５１５に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在する場合、視聴者音声信号に対応する話者が当該登録音声信号に対応する話者であると判断する。一方、話者識別部５１２は、視聴者構成ＤＢ５１５に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在しない場合、視聴者音声信号に対応する話者が、視聴者構成ＤＢ５１５に登録されていない新規話者であると判断する。これにより、新規の話者が検出される。

視聴者構成ＤＢ５１５に登録されていない新規の話者が検出されると、視聴者構成管理部５６２は、表示部５２４に対して、新規話者に関連付けられるタグ情報のデータベースへの登録を促すための登録促進画面を表示するように指示する。このとき、新規話者の検出は、新規話者の音声信号が所定期間（数日間）継続して検出されることなどを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声であるとして誤って識別してしまうことを回避することができる。

次に、表示部５２４は、新規話者に関連付けられるタグ情報の入力を促進するための登録促進画面を表示する（ステップＳ１２４）。ステップＳ１２４の処理は、図１８におけるコンテンツ提供システム４００の表示部４０７による処理に相当する。登録促進画面は、番組などのコンテンツが表示される表示画面の端部などのコンテンツの視聴の妨げにならない位置に表示してもよい。また、登録促進画面は、端末装置５６０の電源ＯＮ／ＯＦＦ時などのコンテンツの視聴の妨げにならないタイミングで表示してもよい。

次に、情報入力部５２３は、視聴者音声信号及び視聴者音声信号に関連付けられる視聴者に関する情報（視聴者タグデータ）を含む新規話者情報の入力を受け付ける（ステップＳ１２５）。新規話者は、登録促進画面の表示に従い、新規話者情報を入力する。ステップＳ１２５の処理は、図１８におけるコンテンツ提供システム４００の情報入力部４０４による処理に相当する。なお、新規話者情報入力時に端末装置５６０の表示部５２４に表示される登録促進画面については、実施の形態３において図２１〜図２３を用いて既に説明した通りである。そのため、詳細な説明は省略する。

入力処理が完了した後、視聴者構成管理部５６２は、新規話者の視聴者タグデータ及び視聴者音声信号を視聴者構成ＤＢ５１５に記憶することにより、実施の形態１と同様に、視聴者構成ＤＢ５１５を更新する（ステップＳ１２６）。視聴者構成ＤＢ５１５のデータ構成は、図２４に示した通りである。ステップＳ１２６の処理は、図１８におけるコンテンツ提供システム４００の視聴者構成管理部４０３による処理に相当する。

次に、端末通信部５６１は、話者識別部５１２によって識別された話者又は新規話者の視聴者構成情報を、通信回線５３０を介してサーバ装置５５０へ送信する（ステップＳ１２７）。サーバ装置５５０へ送信される視聴者構成情報は、音声信号に関連付けられている複数の情報のうちの全てであってもよいし、一部であってもよい。すなわち、視聴者構成情報は、年齢及び性別のうちの少なくとも１つを含み、話者に提供すべき広告を特定することが可能な情報であればよい。本実施の形態では、端末通信部５６１は、話者識別部５１２によって識別された話者又は新規話者の年齢及び性別を含む視聴者構成情報をサーバ装置５５０へ送信する。サーバ装置５５０のサーバ通信部５５１は、端末装置５６０によって送信された視聴者構成情報を受信する。

次に、サーバ装置５５０の広告配信制御部５５４は、受信した視聴者構成情報に基づいて、端末装置５６０に配信する広告データを配信広告ＤＢ５１６から選択する（ステップＳ１２８）。ここで、広告の選択方法については特に限定しない。例えば、配信広告ＤＢ５１６は、年齢及び性別に対応付けて、配信する広告データを記憶している。例えば、４０歳代の男性には、車の広告が対応付けられており、３０歳代の女性には、化粧品の広告が対応付けられており、広告配信制御部５１４は、ユーザの年齢及び性別に応じた最適な広告を選択する。ステップＳ１２８の処理は、図１８におけるコンテンツ提供システム４００のコンテンツ配信制御部４０５による処理に相当する。

次に、サーバ通信部５５１は、広告配信制御部５１４によって選択された広告データを、通信回線５３０を介して端末装置５６０に送信する（ステップＳ１２９）。端末装置５６０の端末通信部５６１は、サーバ装置５５０によって送信された広告データを受信する。

次に、端末装置５６０の表示部５２４は、サーバ装置５５０から配信された広告データを表示する（ステップＳ１３０）。ステップＳ１３０の処理は、図１８におけるコンテンツ提供システム４００のコンテンツ配信部４０６による処理に相当する。

以上で、コンテンツ提供システム８００の動作の説明を終える。

（サーバ装置の動作）
次に、本実施の形態４におけるコンテンツ提供システム８００のサーバ装置５５０の動作について説明する。

図２９は、本発明の実施の形態４におけるサーバ装置５５０の動作の一例を示すフローチャートである。サーバ装置５５０は、例えば図２９に示す動作を、電源スイッチ又は電源スイッチに関連する機能がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。

まず、ステップＳ１４１において、サーバ装置５５０のサーバ通信部５５１は、通信回線５３０より回線データを受信する。このとき、サーバ通信部５５１は、端末装置５６０によって送信された視聴者構成情報を取得し、広告配信制御部５５４へ出力する。

次に、ステップＳ１４２において、広告配信制御部５５４は、取得された視聴者構成情報に含まれる年齢及び性別を示す視聴者タグデータに基づき、広告データを配信広告ＤＢ５１６から選択し、選択した広告データをサーバ通信部５５１に出力する。

次に、ステップＳ１４３において、サーバ通信部５５１は、広告配信制御部５１４によって選択された広告データを、通信回線５３０を介して端末装置５６０へ送信する。

以上で、サーバ装置５５０の動作の説明を終える。

（端末装置の動作）
次に、本実施の形態４におけるコンテンツ提供システム８００の端末装置５６０の動作について説明する。

図３０は、本発明の実施の形態４における端末装置５６０の動作の一例を示すフローチャートである。端末装置５６０は、例えば図３０に示す動作を、電源スイッチ又は電源スイッチに関連する機能がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。

まず、ステップＳ１５１において、音声取得部５２２は、端末装置５２０の周辺にいる視聴者が発話した音声を表す視聴者音声信号を取得する。音声取得部５２２は、取得した視聴者音声信号を話者識別部５１２へ出力する。

次に、ステップＳ１５２において、話者識別部５１２は、取得した視聴者音声信号に対応する話者を識別する。話者識別部５１２は、取得した視聴者音声信号と、視聴者構成ＤＢ５１５とを照合することで、話者を識別する。

次に、ステップＳ１５３において、話者識別部５１２は、話者識別結果を用いて、新規話者を検出したか否かを判断する。話者識別部５１２は、受信した視聴者音声信号が視聴者構成ＤＢ５１５に登録されていなければ、新規話者を検出したと判断し、受信した視聴者音声信号が視聴者構成ＤＢ５１５に登録されていれば、新規話者を検出していないと判断する。なお、新規話者の検出は、所定期間（数日間）にわたり視聴者構成ＤＢ５１５に存在していない話者であることを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声として誤って識別してしまうことを回避することができる。ここで、新規話者を検出したと判断された場合（ステップＳ１５３でＹＥＳ）、ステップＳ１５４の処理へ進む。一方、新規話者を検出していないと判断された場合（ステップＳ１５３でＮＯ）、ステップＳ１５７の処理へ進む。

次に、ステップＳ１５４において、表示部５２４は、新規話者に関する情報の入力を促すための登録促進画面を表示する。ここで、情報入力部５２３は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力を受け付ける。

ステップＳ１５５において、視聴者構成管理部５６２は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力が完了したか否かを判断する。入力が完了していないと判断された場合（ステップＳ１５５でＮＯ）、ステップＳ１５４の処理へ戻り、表示部５２４は、継続して登録促進画面を表示する。一方、入力が完了したと判断された場合（ステップＳ１５５でＹＥＳ）、ステップＳ１５６の処理へ進む。

次に、ステップＳ１５６において、視聴者構成管理部５６２は、視聴者構成ＤＢ５１５を更新する。具体的には、視聴者構成管理部５６２は、情報入力部５２３によって入力された視聴者タグデータと、音声取得部５２２によって取得された視聴者音声信号とを用いて視聴者構成ＤＢ５１５を更新する。図２４に示すように、視聴者構成ＤＢ５１５は、新規話者のニックネームごとに、年齢、性別及び視聴者音声信号を関連付けて記憶することにより、更新される。

次に、ステップＳ１５７において、視聴者構成管理部５６２は、視聴者構成情報を端末通信部５６１に出力し、端末通信部５６１は、視聴者構成情報を、通信回線５３０を介してサーバ装置５５０へ送信する。

次に、ステップＳ１５８において、端末通信部５６１は、サーバ装置５５０によって送信された広告データを受信する。

次に、ステップＳ１５９において表示部５２４は、端末通信部５６１によって受信された広告データを表示する。

以上で、端末装置５６０の動作についての説明を終える。

以上のような動作により、話者の識別と話者に関する情報の管理とが端末装置で行われるので、端末装置から送信されるデータを、広告データを選択するために必要な話者に関する情報のみの少ないデータに削減することができる。これにより、通信回線が低容量である場合でも、視聴者に応じた適切な広告を配信するコンテンツ提供システムを提供することができる。

なお、実施の形態３，４において、視聴者構成ＤＢは、ニックネーム、年齢、性別及び音声信号を互いに関連付けるだけでなく、家族関係を示す情報をさらに関連付けてもよい。家族関係を示す情報とは、視聴者が例えば父、母及び子供のいずれであるかを示す情報である。この場合、配信広告ＤＢは、家族構成と、広告データとを対応付けて記憶してもよく、コンテンツ配信制御部４０５は、視聴者の家族構成を示す情報を取得し、取得した家族構成に対応する広告データを配信広告ＤＢから選択してもよい。家族構成を示す情報とは、例えば、視聴者の家族が父、母及び子供で構成されていることを示す情報である。

これにより、家庭内の家族構成に応じた広告データを配信することができる。

また、実施の形態３，４において、視聴者構成ＤＢは、ニックネーム、年齢、性別及び音声信号を互いに関連付けるだけでなく、家族関係を示す情報と視聴者によって視聴された番組に関する情報とをさらに関連付けてもよい。家族関係を示す情報とは、視聴者が例えば父、母及び子供のいずれであるかを示す情報である。番組に関する情報とは、例えば、端末装置で視聴されたテレビ番組の番組名、チャンネル番号、放送日時及び出演者を表す情報である。この場合、コンテンツ配信制御部４０５は、視聴者の家族構成を示す情報を取得し、取得した家族構成と同じ家族構成である他の視聴者の番組に関する情報を取得し、他の視聴者が視聴した番組を、識別された話者に提供してもよい。

これにより、家族構成が同じ他の視聴者によって視聴された番組を、識別された話者に提供することができる。

また、本実施の形態では、端末装置に広告データを提供しているが、本発明は特にこれに限定されず、端末装置に番組データを提供してもよい。

本発明に係る話者識別方法、話者識別装置及び情報管理方法は、話者にとって煩わしい設定操作を行うことなく、データベースを構築及び更新することができ、コンテンツを表示する機器の周辺にいる話者を識別する話者識別方法、話者識別装置及び情報管理方法として有用である。

また、本発明に係る話者識別方法、話者識別装置及び情報管理方法は、話者にとって煩わしい設定操作を行うことなく、新規の話者をデータベースに登録することができ、話者を識別する話者識別方法、話者識別装置及び情報管理方法として有用である。

Claims

コンテンツを表示する機器の周辺にいる話者を識別する話者識別方法であって、
前記話者の音声情報を取得するステップと、
前記取得された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、
前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、
前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記取得された音声情報を登録音声情報として前記データベースに記憶するステップと、
を含む話者識別方法。
前記コンテンツ情報は、前記コンテンツの名称と、前記コンテンツに関連する人物名とを含む、
請求項１記載の話者識別方法。
前記登録音声情報に関連付けられている複数のコンテンツを複数のジャンルに分類し、前記複数のジャンル毎に前記複数のコンテンツのうちの各ジャンルに分類されたコンテンツの割合を算出し、前記複数のジャンル毎に算出された前記コンテンツの割合を前記登録音声情報に関連付けて前記データベースに記憶するステップをさらに含む、
請求項１又は２記載の話者識別方法。
前記データベースは、コンテンツ情報と、前記コンテンツ情報に対応するコンテンツを視聴した話者に提供されるサービスとを関連付けて記憶し、
前記取得された前記音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記登録音声情報に関連付けられて記憶されている前記コンテンツ情報を特定し、特定した前記コンテンツ情報に関連付けられているサービスを特定し、特定した前記サービスを前記話者に提供するステップをさらに含む、
請求項１〜３のいずれかに記載の話者識別方法。
提供可能な少なくとも１つのサービスが存在し、かつ予め決められているサービス提供タイミングであるか否かを判断するステップと、
提供可能なサービスが存在し、かつ予め決められているサービス提供タイミングであると判断された場合、提供可能な前記少なくとも１つのサービスの候補を前記機器に表示するステップとをさらに含む、
請求項４記載の話者識別方法。
表示された前記少なくとも１つのサービスの候補の中から前記話者によって選択されたサービスを前記話者に提供するステップと、
提供された前記サービスを前記登録音声情報に関連付けて前記データベースに記憶するステップとをさらに含む、
請求項５記載の話者識別方法。
前記サービスは、前記機器に表示するコンテンツを配信するサービス、又は前記機器に表示する広告を配信するサービスを含む、
請求項４〜６のいずれかに記載の話者識別方法。
話者を識別する話者識別装置であって、
コンテンツを表示する表示部と、
前記話者識別装置の周辺にいる話者の音声情報を取得する音声取得部と、
登録された音声情報である登録音声情報と、コンテンツに関するコンテンツ情報とを関連付けて記憶するデータベースと、
前記音声取得部によって取得された前記音声情報に対応する話者が、前記データベースにコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する判断部と、
前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記表示部に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するデータベース更新部と、
前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記音声取得部によって取得された音声情報を登録音声情報として前記データベースに記憶するデータベース記憶部と、
を備える話者識別装置。
コンテンツを表示する機器の周辺にいる話者を識別する話者識別システムにおける情報管理方法であって、
前記話者の音声情報を受信するステップと、
前記受信された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、
前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記受信されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、
前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記受信された音声情報を登録音声情報として前記データベースに記憶するステップと、
を含む情報管理方法。