(本発明の基礎となった知見)
特許文献1に記載の視聴コンテンツ提供システムでは、温度分布情報及び音声情報に基づき視聴者(話者)の年齢及び性別を推定している。
例えば、特許文献1では、成人男性の体温が最も低く幼児の体温が最も高く成人女性の体温が成人男性と幼児の中間の体温であるといった推測のもと、視聴者(話者)がいるとされた位置の温度を調べることで年齢及び性別を特定している。しかし、この方法によって年齢を推定しても、視聴者(話者)を「成人男性」「成人女性」及び「幼児」という3つのカテゴリにしか分類することができず、それ以上詳細に視聴者(話者)の年齢等を特定する方法に関しては開示されていない。
また、特許文献1では、音声信号のスペクトルと発言とを解析することで、視聴者(話者)の年齢及び性別を推定する方法が開示されている。しかし、この方法も、上述した温度を利用する方法と同様、「成人男性」「成人女性」及び「幼児」といった大まかなカテゴリにしか分類することができない。
以上のように、特許文献1に記載の視聴コンテンツ提供システムでは、視聴者(話者)を大まかにしか分類することができない。すなわち、例えば、ある視聴者(話者)を「成人男性」というカテゴリに識別したとしても、成人男性の趣味及び嗜好は様々であり、各々の視聴者(話者)に特有のサービスを提供することは困難である。
一方、特許文献2に記載の音声認識装置では、音声データと話者識別情報とを初期登録しておき、登録された音声データと入力音声データとの類似度を算出して音声認識を行っている。
このように、音声データとユーザを識別する情報とを予め登録しておけば、特許文献1のように大まかなカテゴリに分類するのではなく、より具体的なカテゴリにユーザを識別することができるかもしれない。
しかし、このような初期登録作業は、ユーザにとって煩わしい作業である。また、システムを構築する際に、ユーザに初期登録を促すためのアプリケーションを構築する必要がある。
そこで、本発明者らは、上記検討に基づき、以下の各態様に係る発明を想到するに至った。
本発明の一局面に係る話者識別方法は、コンテンツを表示する機器の周辺にいる話者を識別する話者識別方法であって、前記話者の音声情報を取得するステップと、前記取得された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記取得された音声情報を登録音声情報として前記データベースに記憶するステップと、を含む。
これにより、話者にとって煩わしい設定操作を行うことなく、話者のデータベースを構築及び更新することができる。また、音声情報及びコンテンツ情報のみが関連付けて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。
また、上記態様において、前記コンテンツ情報は、前記コンテンツの名称と、前記コンテンツに関連する人物名とを含むことが好ましい。
この場合、コンテンツの名称と、コンテンツに関連する人物名とが、登録音声情報に関連付けて記憶されるので、話者が視聴したコンテンツを管理することができる。
また、上記態様において、前記登録音声情報に関連付けられている複数のコンテンツを複数のジャンルに分類し、前記複数のジャンル毎に前記複数のコンテンツのうちの各ジャンルに分類されたコンテンツの割合を算出し、前記複数のジャンル毎に算出された前記コンテンツの割合を前記登録音声情報に関連付けて前記データベースに記憶するステップをさらに含むことが好ましい。
この場合、複数のジャンル毎に算出されたコンテンツの割合が登録音声情報に関連付けて記憶されるので、話者がどのようなジャンルのコンテンツを好んで視聴するかを管理することができる。
また、上記態様において、前記データベースは、コンテンツ情報と、前記コンテンツ情報に対応するコンテンツを視聴した話者に提供されるサービスとを関連付けて記憶し、前記取得された前記音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記登録音声情報に関連付けられて記憶されている前記コンテンツ情報を特定し、特定した前記コンテンツ情報に関連付けられているサービスを特定し、特定した前記サービスを前記話者に提供するステップをさらに含むことが好ましい。
この場合、コンテンツ情報に関連付けられているサービスが話者に提供されるので、話者の趣味及び嗜好に応じた適切なサービスを提供することができる。
また、上記態様において、提供可能な少なくとも1つのサービスが存在し、かつ予め決められているサービス提供タイミングであるか否かを判断するステップと、提供可能なサービスが存在し、かつ予め決められているサービス提供タイミングであると判断された場合、提供可能な前記少なくとも1つのサービスの候補を前記機器に表示するステップとをさらに含むことが好ましい。
この場合、提供可能な少なくとも1つのサービスの候補が機器に表示されるので、話者は、提供可能なサービスを確認することができる。
また、上記態様において、表示された前記少なくとも1つのサービスの候補の中から前記話者によって選択されたサービスを前記話者に提供するステップと、提供された前記サービスを前記登録音声情報に関連付けて前記データベースに記憶するステップとをさらに含むことが好ましい。
この場合、表示された少なくとも1つのサービスの候補の中から話者によって選択されたサービスが話者に提供されるので、話者は、所望のサービスを選択することができる。また、提供されたサービスが登録音声情報に関連付けてデータベースに記憶されるので、話者に提供されたサービスを管理することができる。
また、上記態様において、前記サービスは、前記機器に表示するコンテンツを配信するサービス、又は前記機器に表示する広告を配信するサービスを含むことが好ましい。
この場合、機器に表示するコンテンツを配信するサービス、又は機器に表示する広告を配信するサービスを話者に提供することができる。
本発明の他の局面に係る話者識別装置は、話者を識別する話者識別装置であって、コンテンツを表示する表示部と、前記話者識別装置の周辺にいる話者の音声情報を取得する音声取得部と、登録された音声情報である登録音声情報と、コンテンツに関するコンテンツ情報とを関連付けて記憶するデータベースと、前記音声取得部によって取得された前記音声情報に対応する話者が、前記データベースにコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する判断部と、前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記表示部に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するデータベース更新部と、前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記音声取得部によって取得された音声情報を登録音声情報として前記データベースに記憶するデータベース記憶部と、を備える。
これにより、話者にとって煩わしい設定操作を行うことなく、話者のデータベースを構築及び更新することができる。また、音声情報及びコンテンツ情報のみが関連付けて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。
本発明の他の局面に係る情報管理方法は、コンテンツを表示する機器の周辺にいる話者を識別する話者識別システムにおける情報管理方法であって、前記話者の音声情報を受信するステップと、前記受信された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記受信されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記受信された音声情報を登録音声情報として前記データベースに記憶するステップと、を含む。
これにより、話者にとって煩わしい設定操作を行うことなく、データベースを構築及び更新することができる。また、音声情報及びコンテンツ情報のみが関連付けて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。
なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態1)
(各装置の構成)
図1は、本発明の実施の形態1に係る話者識別システムの全体構成を示す図である。なお、図1に記載の構成は一例であり、話者識別システムは、図1に示されている構成以外の構成を備えていてもよい。また、話者識別システムは、図1に示されている構成の一部の構成が欠けていてもよい。
話者識別システムは、サーバ装置100と、話者識別装置110とを備える。話者識別装置110は、例えば、各家庭に設置されたテレビ又はパーソナルコンピュータなどのコンテンツ視聴機器である。図1に示すようにサーバ装置100と各家庭に設置された話者識別装置110とは、ネットワーク120を介して互いに通信可能に接続される。
なお、1つの話者識別装置110が、サーバ装置100に接続されていてもよく、また、複数の話者識別装置110が、サーバ装置100に接続されていてもよい。また、各家庭には、複数の話者識別装置110が配置されていてもよい。また、ネットワーク120は、例えばインターネットである。サーバ装置100が配置されている場所に関しては、特に限定しない。サーバ装置100は、ビッグデータを取り扱うデータセンタに配置されていてもよいし、各家庭に配置されていてもよい。データセンタは、データセンタを管理及び運営する会社が保有する。また、サーバ装置100の各構成は、1つの装置内に集約されていてもよいし、各々異なる装置に配置されていてもよい。
サーバ装置100は、制御部101と、通信部102と、番組情報データベース(DB)103と、サービス情報データベース(DB)104と、家族データベース(DB)105とを備える。番組情報DB103及びサービス情報DB104は、全ての家庭に共通の共通データベース(DB)である。家族データベース(DB)105は、家庭毎に構築される個別データベース(DB)である。
制御部101は、サーバ装置100に関する様々な制御を行う構成要素であり、特に限定しない。制御部101は、例えばCPU(中央演算処理装置)などで構成される。
通信部102は、ネットワーク120に接続するための構成要素であり、特に限定しない。ネットワーク120への接続に関してはその方法を問わない。
共通データベースである番組情報データベース103及びサービス情報データベース104は、全ての話者識別装置110から参照されるデータベースである。番組情報データベース103及びサービス情報データベース104は、大量の情報を蓄積可能な記録装置である。番組情報データベース103及びサービス情報データベース104は、同一の装置内に格納されていてもよいし、別々の装置内に格納されていてもよい。
番組情報データベース103は、例えばテレビ番組に関する番組情報(番組名、放送時間、ジャンル及び出演者等)を蓄積している。なお、サーバ装置100は、外部のサーバ装置からテレビ番組に関する番組情報を取得してもよい。テレビ番組は、地上デジタル放送波又は衛星放送波により提供される。また、ユーザ(話者)が視聴するコンテンツは、テレビ番組に限定されず、インターネットを介して取得されるコンテンツであってもよい。サービス情報データベース104は、話者に提供するサービスに関する情報を蓄積している。
個別データベースである家族データベース105及び家族データベース106は、各家庭別に構築される。家族データベース105は、各データベースに対応する話者識別装置110のみから参照される。家族データベース105は、共通データベースと同じく、大量の情報を蓄積可能な記録装置である。例えば家族データベース105は、図1に示す家庭A内の話者識別装置110に対応し、家族データベース106は、図1に示す家庭B内の話者識別装置110に対応している。各家族データベースは、同一の装置内に格納されていてもよいし、別々の装置内に格納されていてもよい。
話者識別装置110は、制御部111と、通信部112と、音声取得部113と、表示部114とを備える。なお、これらの構成は、コンテンツ視聴機器の構成の一部として内蔵されていてもよいし、コンテンツ視聴機器の外部に接続される装置に内蔵されていてもよい。ここで、話者識別装置110としては、上記した各構成を備えていればよく、例えば一般家庭用のテレビ、PC(パーソナルコンピュータ)、スマートフォン、タブレット型コンピュータ及び携帯電話機などでもよい。また、話者識別装置110は、話者識別システムを行うための専用装置でもよい。
制御部111及び通信部112は、サーバ装置100の制御部101及び通信部102と同様の構成であるため、その説明は省略する。
音声取得部113は、マイクを備えた音声記録装置である。表示部114は、モニタなどによる表示機能を持つ装置である。
なお、図1では、話者識別装置110とサーバ装置100とによって以下に述べる話者識別システムを構成する図を示しているが、本発明はこれに限られない。例えば、サーバ装置100の一部の構成又は全部の構成が、話者識別装置110に含まれていてもよく、話者識別装置110のみで話者識別システムを構成してもよい。
(話者識別システムの構成)
図2は、本実施の形態1における話者識別システムの構成を示すブロック図である。
本実施の形態1における話者識別システムは、音声取得部201と、視聴コンテンツ情報取得部202と、データベース管理部203とを備える。
音声取得部201は、話者識別のために解析可能な形式の音声情報を取得する。ここで解析可能な形式の音声情報とは、1人の話者の音声を含んでいる音であればよい。音声取得部201は、音声情報中に人の発する音声以外の雑音が含まれている場合は、音声情報から雑音を除去していてもよい。また、音声情報を取得するタイミング及び取得する音声情報の時間長に関しては特に限定しない。音声取得部201は、常に音声情報を取得していてもよいし、予め設定した時間間隔で音声情報を取得してもよい。また、音声取得部201は、人が音声を発しているときだけ音声情報を取得してもよい。音声取得部201は、音声区間を自動で検出し、取得した音声情報を解析した結果、識別可能である音声情報をデータベース管理部203に出力する。
視聴コンテンツ情報取得部202は、音声取得部201が音声情報を取得したタイミングにおいて話者が視聴しているコンテンツに関する視聴コンテンツ情報を取得する。視聴コンテンツ情報は、例えば、コンテンツのジャンル、放送時刻、出演者及び視聴時間等を含む。なお、視聴コンテンツ情報は、コンテンツの提供元、又はコンテンツ視聴機器から取得できるその他の情報を含んでもよい。視聴コンテンツ情報取得部202は、取得した視聴コンテンツ情報をデータベース管理部203に出力する。
データベース管理部203は、音声取得部201によって取得された音声情報と、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報とを使用して、家族データベース105を構築及び管理する。家族データベース105は、過去に取得された音声情報である登録音声情報と、登録音声情報に対応する話者の視聴コンテンツ情報の履歴とを関連付けて保存している。ここで、登録音声情報は、WAV形式のファイルとして登録されている。なお、登録音声情報は、必ずしもWAV形式のファイルでなくてもよい。例えば、登録音声情報は、MPEG形式又はAIFF形式等の音声圧縮されたデータであってもよい。また、登録音声情報は、例えば自動的に圧縮ファイルにエンコードされ、家族データベース105に格納される。
データベース管理部203は、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報をそのまま家族データベース105に蓄積してもよいし、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報を内部メモリに一定量蓄積し、分析及び分類した後、分析及び分類した視聴コンテンツ情報を家族データベース105に蓄積してもよい。なお、家族データベース105に蓄積される情報については、後述する。
データベース管理部203は、音声取得部201によって取得された音声情報に対応する話者が、家族データベース105に視聴コンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する。データベース管理部203は、取得された音声情報に対応する話者が家族データベース105に記憶されている登録音声情報に対応する話者と一致すると判断された場合、音声情報を取得した時点において表示部114に表示されているコンテンツに関する視聴コンテンツ情報を取得し、取得された視聴コンテンツ情報を登録音声情報に関連付けて記憶する。データベース管理部203は、取得された音声情報に対応する話者が家族データベース105に記憶されている登録音声情報に対応する話者と一致しないと判断された場合、音声取得部201によって取得された音声情報を登録音声情報として家族データベース105に記憶する。
(話者識別システムの動作)
図3は、本発明の実施の形態1における話者識別システムの動作を示すフローチャートである。
図3を用いて、本実施の形態1における話者識別システムによる家族データベース更新方法について説明する。なお、フローチャートの処理は継続的に行われるものとし、音声取得時にフローチャートの処理が繰り返される。
まず、音声取得部201は、話者の音声情報を取得する(ステップS1)。
次に、データベース管理部203は、取得された音声情報を解析(図示せず)した結果に基づいて、取得された音声情報が、過去に家族データベース105に蓄積された登録音声情報と一致するか否かを判断する(ステップS2)。ここで、取得された音声情報が登録音声情報と一致すると判断された場合はステップS3の処理に進み、取得された音声情報が登録音声情報と一致しないと判断された場合はステップS5の処理に進む。なお、本話者識別システムが初めて利用される際には、家族DBは存在しないので、ステップS5の処理に進む。
ここで、取得された音声情報と登録音声情報との比較手法ついては特に限定しない。例えば、データベース管理部203は、取得された音声情報から話者モデルを取得し、取得した話者モデルを登録音声情報の話者モデルと比較することで判断する。話者モデルとは、取得された音声情報の周波数特性などの個人に固有の特性から算出される、話者の特定に必要な情報などである。データベース管理部203は、周波数特性から正規分布を算出することで話者モデルを作成してもよい。なお、話者モデルは、話者を特定するための情報であればよく、音声情報から取得できるその他の特性又はそれらから算出できるその他の情報などでもよい。
このように、データベース管理部203は、取得された音声情報が、過去に家族データベース105に蓄積された登録音声情報と一致するか否かを判断することにより、取得された音声情報に対応する話者が、家族データベース105に視聴コンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断することができる。
取得された音声情報が登録音声情報と一致すると判断された場合(ステップS2でYES)、視聴コンテンツ情報取得部202は、話者が話者識別装置110で現在視聴しているコンテンツに関する視聴コンテンツ情報を番組情報データベース103より取得する(ステップS3)。
次に、データベース管理部203は、家族データベース105に記憶されている登録音声情報と関連付けて、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報を記憶する(ステップS4)。これにより、家族データベースが再構築される。なお、データベース管理部203は、既に記憶されている視聴コンテンツに加えて、新たに取得された視聴コンテンツ情報を記憶する。
一方、取得された音声情報が登録音声情報と一致しないと判断された場合(ステップS2でNO)、データベース管理部203は、取得された音声情報を登録音声情報として家族データベース105に登録(記憶)する(ステップS5)。このとき、データベース管理部203は、取得された音声情報から作成した話者モデルを登録音声情報として記憶してもよい。
以上の処理が一定の間隔にて繰り返し行われ、家族データベース105の更新が繰り返されることで、精度の高いデータベースが構築される。
(話者識別システムのシーケンス図)
図4は、本発明の実施の形態1における話者識別システムの動作の一例を示すシーケンス図である。
図4を用いて、本実施の形態1における各装置間の具体的なデータのやり取りと各装置の具体的な動作例について説明する。なお、図4に示す動作例では、話者識別装置110がテレビである例について説明する。図4に示す動作例は一例であり、本実施の形態を限定するものではない。
まず、図1における例えば家庭A内の視聴者(話者)が話者識別装置110(テレビ)でコンテンツを視聴している際に視聴者が発話した場合、話者識別装置110の音声取得部113は、発話があったことを検出して話者の音声情報を取得する(ステップS11)。
次に、制御部111は、音声取得部113によって取得された音声情報を解析処理し(図示せず)、通信部112は、制御部111によって解析処理された音声情報をサーバ装置100へ送信する(ステップS12)。なお、音声の解析処理は、話者識別装置110の制御部111によって行われてもよいし、サーバ装置100の制御部101によって行われてもよい。サーバ装置100の通信部102は、話者識別装置110によって送信された音声情報を受信する。
次に、サーバ装置100の制御部101は、通信部102によって受信された音声情報とサーバ装置100の家庭Aに対応する家族データベース105とを用いて、受信された音声情報を家族データベース内の登録音声情報と比較する(ステップS13)。制御部101は、受信された音声情報が家族データベース内の登録音声情報と一致するか否かを判断する。これにより、発話が検出された話者が、音声情報が既に登録されている話者であるか否かを判断することができる。受信された音声情報が登録音声情報と一致するか否かの判断方法は、図3のステップS2にて説明した方法と同様であるので説明を省略する。
なお、複数の家族データベースのうち、どの家庭に対応する家族データベースを用いるかについては、例えば、話者識別装置110を識別するための機器IDに対応付けて各家族データベースを管理し、音声情報に機器IDを付加することにより、判断することができる。すなわち、家族データベースは、話者識別装置110を識別するための機器ID毎に設けられ、話者識別装置110は、音声情報に機器IDを付加して送信し、サーバ装置100は、受信した機器IDに対応する家族データベースを読み出す。また、家族データベースは、視聴者を識別するための視聴者ID毎に設けられてもよく、話者識別装置110は、音声情報に視聴者IDを付加して送信してもよく、サーバ装置100は、受信した視聴者IDに対応する家族データベースを読み出してもよい。また、制御部101は、取得された音声情報と、複数の家族データベースの全ての登録音声情報とを比較してもよい。
受信された音声情報が家族データベースに既に登録されている登録音声情報と一致すると判断された場合、制御部101は、音声情報が取得された時点で家庭A内の視聴者(話者)が視聴しているコンテンツ(番組)に関する視聴コンテンツ情報をサーバ装置100内の番組情報データベース103から取得する(ステップS14)。
ここで、サーバ装置100の制御部101が、視聴者(話者)が視聴している番組を特定する方法に関しては限定しない。制御部101は、ステップS13の後に、逐次話者識別装置110に対してチャンネル番号等の視聴した番組を識別することが可能な番組識別情報を送信するように要求してもよい。また、ステップS12において、話者識別装置110は、視聴チャンネル等の番組識別情報を音声情報とともに送信してもよく、制御部101は、受信した番組識別情報に対応する視聴コンテンツ情報を番組情報データベース103から取得してもよい。
次に、制御部101は、取得された視聴コンテンツ情報に基づいて、視聴者(話者)ごとに家族データベース105を構築及び更新する(ステップS15)。
図5は、本発明の実施の形態1における家族データベースのデータ構造の一例を示す図である。例えば、取得された音声情報が、家族データベース内の登録音声情報と一致すると判断された場合、制御部101は、図5に示すように、音声情報が取得されたときに視聴していたコンテンツのジャンル、主な出演者及び放送時間などの視聴コンテンツ情報を家族データベースに蓄積し、家族データベースを更新する。図5に示す例では、WAV形式で蓄積された各登録音声情報に、登録音声情報に対応する話者が視聴したコンテンツの放送開始日時、番組名及び出演者を含む視聴コンテンツ情報が、関連付けられて管理されている。このように、家族データベースは、登録音声情報と、話者が視聴したコンテンツに関する視聴コンテンツ情報とをそのまま関連付けて管理してもよい。
なお、視聴コンテンツ情報は、コンテンツの名称とコンテンツに関連する人物名とを含み、放送日時を含まなくてもよい。
図6は、本発明の実実施の形態1における家族データベースのデータ構造の他の例を示す図である。図6の例では、WAV形式で蓄積された各登録音声情報に、登録音声情報に対応する話者が過去に視聴したコンテンツを分析した結果が、視聴コンテンツ情報として関連付けられて管理されている。図6に示す例では、制御部101は、話者が過去に視聴したコンテンツにおけるジャンル、出演者及び視聴時間帯のそれぞれの割合を算出し、管理している。
制御部101は、登録音声情報に関連付けられている複数のコンテンツを複数のジャンルに分類し、複数のジャンル毎に複数のコンテンツのうちの各ジャンルに分類されたコンテンツの割合を算出し、複数のジャンル毎に算出されたコンテンツの割合を登録音声情報に関連付けて家族データベースに記憶してもよい。
また、制御部101は、登録音声情報に関連付けられている複数のコンテンツのそれぞれに対応付けられている出演者を抽出し、各出演者の抽出数をカウントし、登録音声情報に関連付けられている全てのコンテンツの数のうちの各出演者の抽出回数の割合を算出し、出演者毎に算出された出演者の抽出回数の割合を登録音声情報に関連付けて家族データベースに記憶してもよい。
また、制御部101は、登録音声情報に関連付けられている複数のコンテンツを複数の視聴時間帯に分類し、複数の視聴時間帯毎に複数のコンテンツのうちの各視聴時間帯に分類されたコンテンツの割合を算出し、複数の視聴時間帯毎に算出されたコンテンツの割合を登録音声情報に関連付けて家族データベースに記憶してもよい。視聴時間帯は、例えば、朝、昼、夜及び深夜の4つの時間帯に分類される。
なお、家族間で音声情報が酷似しており判別が困難な場合は、個人識別の精度を向上させるために、制御部101は、音声情報からテキスト情報を抽出し、抽出したテキスト情報に基づいて発言内容を分析することにより、話者を判別してもよい。また、制御部101は、取得された視聴コンテンツ情報と家族データベース内に蓄積されている視聴コンテンツ情報とを比較することにより、話者を判別してもよい。
また、取得された音声情報が、家族データベース内の登録音声情報と一致しないと判断された場合、制御部101は、その時点で家族データベースを更新せず、取得された音声情報を内部のメモリに蓄積してもよい。そして、制御部101は、例えば1週間ごとに、メモリに蓄積された複数の音声情報のうち、同一の人物であると判別される音声情報を新たに登録音声情報として作成して家族データベースに記憶(登録)してもよい。
以上のステップS11〜ステップS15の処理が繰り返される。
また、ステップS15の処理の後、通信部102は、構築された家族データベースの更新情報を、話者識別装置110に送信してもよい(ステップS16)。話者識別装置110の通信部112は、サーバ装置100によって送信された家族データベースの更新情報を受信する。
また、話者識別装置110の表示部114は、受信された家族データベースの更新情報に基づいて、家族データベースの更新内容を表示してもよい(ステップS17)。表示部114は、更新された家族データベースの一部又は全部を表示してもよい。なお、ステップS16及びステップS17の処理は必須の処理ではない。
図7は、話者識別装置に表示される家族データベースの更新内容の一例を示す図であり、図8は、話者識別装置に表示される家族データベースの更新内容の他の例を示す図である。
図7及び図8に示す表示画面には、視聴コンテンツ情報が追加された家族データベースが表示され、同一の家庭に属する全てのユーザの視聴コンテンツ情報が表示されている。なお、表示部114は、視聴コンテンツ情報が追加されたユーザに対応する視聴コンテンツ情報のみを表示してもよい。また、図7に示すように、表示部114は、視聴コンテンツ情報をそのまま表示してもよい。また、図8に示すように、表示部114は、登録音声情報に対応する話者が過去に視聴したコンテンツを分析した結果を、視聴コンテンツ情報として表示してもよい。図8に示す例では、表示部114は、話者が過去に視聴したコンテンツにおけるジャンル、出演者及び視聴時間帯のそれぞれの割合を表示している。
家族データベースの更新内容を表示するタイミングは、家族データベース105(106)が更新されたタイミングでもよく、又はユーザから家族データベースの更新内容の表示に関する指示があったタイミングでもよい。このように、家族データベースの更新内容が表示されることで、ユーザは取得された視聴コンテンツ情報を把握できる。また、ユーザの名前、年齢及び性別に関する個人情報が取得されてないことを確認できるので、より一層の安心感をユーザに与えることができる。また、話者識別装置110は、家族データベースに蓄積されている情報に誤りがあった場合に、何らかの操作によって誤った情報を修正する機能を有することにより、家族データベースの精度を更に向上させることができる。
なお、図9に示すように、図4のステップS13及びステップS15の処理を、話者識別装置110が行ってもよい。この場合、話者識別装置110は、家族データベース105を備えていてもよい。
図9は、本発明の実施の形態1における話者識別システムの動作の他の例を示すシーケンス図である。
まず、話者識別装置110の音声取得部113は、発話があったことを検出して話者の音声情報を取得する(ステップS21)。なお、ステップS21の処理は、図4のステップS11の処理と同じである。
次に、制御部111は、音声取得部113によって取得された音声情報と話者識別装置110の家庭Aに対応する家族データベース105とを用いて、取得された音声情報を家族データベース内の登録音声情報と比較する(ステップS22)。なお、ステップS22の処理は、図4のステップS13の処理と同じである。
次に、通信部112は、サーバ装置100に対して視聴コンテンツ情報を要求する(ステップS23)。
次に、サーバ装置100の制御部101は、音声情報が取得された時点で家庭A内の視聴者(話者)が視聴しているコンテンツ(番組)に関する視聴コンテンツ情報をサーバ装置100内の番組情報データベース103から取得する(ステップS24)。なお、ステップS24の処理は、図4のステップS14の処理と同じである。
次に、通信部102は、取得した視聴コンテンツ情報を話者識別装置110に送信する(ステップS25)。話者識別装置110の通信部112は、サーバ装置100によって送信された視聴コンテンツ情報を受信する。
次に、制御部111は、受信された視聴コンテンツ情報に基づいて、視聴者(話者)ごとに家族データベース105を構築及び更新する(ステップS26)。なお、ステップS26の処理は、図4のステップS15の処理と同じである。
次に、話者識別装置110の表示部114は、家族データベースの更新内容を表示してもよい(ステップS27)。なお、ステップS27の処理は、図4のステップS17の処理と同じである。
以上、本実施の形態によれば、ユーザにとって煩わしい設定操作を行うことなく、家族データベースを構築及び更新することができる。また、音声情報及び視聴コンテンツ情報のみが互いに関連付けられて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。例えば、図5又は図6に示すようなデータベースさえ構築できれば、ユーザの年齢及びユーザの性別といった無駄な情報を取得することなく、視聴中のユーザへ最適なコンテンツを提供したり、最適なコンテンツを推奨したりすることができる。また、ユーザの名前、年齢及び性別などの個人情報が取得されないので、ユーザにとっても安心して話者識別システムを利用することができる。
なお、図3に示す話者識別システムの動作において、取得された音声情報が家族データベースの登録音声情報と一致しないと判断された場合(ステップS2でNO)、データベース管理部203は、取得された音声情報を家族データベースに登録するとしているが、本発明は特にこれに限られない。例えば、データベース管理部203は、一定時間(期間)中に連続して話者の音声情報を取得しており、ステップS2において取得された音声情報が家族データベースの登録音声情報と一致しないと判断された回数をカウントし、カウントされた回数が所定回数を超えた場合のみステップS5の処理を行ってもよい。これにより、家族データベース内に本来取得する必要のないデータ及びノイズが増えることを抑制できる。
また、本実施の形態において、制御部101は、登録音声情報に一致する音声情報が一定期間以上取得されない場合、当該登録音声情報を家族データベースから削除してもよい。これにより、家族以外の人物の音声情報が家族データベースに登録されたとしても、自動的に削除することができる。
また、本実施の形態において個人判別のために音声情報のみを用いるシステムでは、過剰なユーザの個人情報を取得することを避けることができる。例えば、カメラなどの撮像装置でユーザの画像を取得した場合、ユーザの顔情報など個人判別に必要な情報を取得することができるが、ユーザの服装及びユーザの部屋の様子など、個人判別に不要な個人情報も取得することになる。しかしながら、本実施の形態のように、個人判別のために音声情報のみを用いるのであれば、本来取得する必要のないデータ及びノイズが増えることを抑制でき、不要にユーザの個人情報を取得しないことでユーザの不快感を低減できる。
(実施の形態2)
(話者識別システムの構成)
図10は、本発明の実施の形態2における話者識別システムの構成を示すブロック図である。
本実施の形態2における話者識別システムは、音声取得部201と、視聴コンテンツ情報取得部202と、データベース管理部203と、サービス提供部204とを備える。
なお、図10において、図2に示す話者識別システムと同じ構成要素については同じ符号を用い、説明を省略する。音声取得部201及び視聴コンテンツ情報取得部202の構成は、実施の形態1と同じであるので説明を省略する。
データベース管理部203は、実施の形態1と同様に、取得した音声情報と視聴コンテンツ情報とに基づいて家族データベースを構築する。さらに、本実施の形態2では、データベース管理部203は、家族データベースに記憶された音声情報及び視聴コンテンツ情報を、サービス提供部204に出力する。また、データベース管理部203は、後述するサービス提供部204から、ユーザに提供されたサービスに関する情報を取得し、登録音声情報に関連付けて記憶する。また、データベース管理部203は、提供するサービスの候補に関する情報を、テレビのコンテンツに関連付けて記憶するデータベースを管理してもよい。
サービス提供部204は、取得された音声情報及び視聴コンテンツ情報に基づいて、所定のサービス提供条件を満たす場合に視聴者(話者)の嗜好に適したサービスを提供する。ここで、サービスとは、視聴可能なテレビ番組等のコンテンツを推薦するサービス、又は広告を配信するサービスである。なお、サービス提供部204は、視聴コンテンツ情報から類推できるその他のサービスを提供してもよい。サービスは、サービス提供可能なタイミングにおいて、表示部114に提供される。また、サービスが提示される際には、複数の提供可能な複数のサービスの候補が提示され、視聴者(話者)に選択させてもよい。提供するサービスの候補は、データベース管理部203が管理しているデータベースから取得してもよい。
サービスデータベース(不図示)は、視聴コンテンツ情報と、視聴コンテンツ情報に対応するコンテンツを視聴した話者に提供されるサービスとを関連付けて記憶する。なお、サービスデータベースに格納される視聴コンテンツ情報は、例えば、コンテンツの名称である。
サービス提供部204は、取得された音声情報に対応する話者が家族データベースに記憶されている登録音声情報に対応する話者と一致すると判断された場合、登録音声情報に関連付けられて記憶されているコンテンツ情報を特定し、特定したコンテンツ情報に関連付けられているサービスを特定し、特定したサービスを話者に提供する。
また、サービス提供部204は、提供可能な少なくとも1つのサービスが存在し、かつ予め決められているサービス提供タイミングであるか否かを判断する。そして、提供可能なサービスが存在し、かつ予め決められているサービス提供タイミングであると判断された場合、サービス提供部204は、提供可能な少なくとも1つのサービスの候補を話者識別装置110に表示させる。
また、サービス提供部204は、表示された少なくとも1つのサービスの候補の中から話者によって選択されたサービスを話者に提供する。データベース管理部203は、提供されたサービスを登録音声情報に関連付けて家族データベースに記憶する。
また、サービスは、話者識別装置110に表示するコンテンツを配信するサービス、又は話者識別装置110に表示する広告を配信するサービスを含む。
(話者識別システムの動作)
図11は、本発明の実施の形態2における話者識別システムの動作を示すフローチャートである。
図11を用いて、本実施の形態2における話者識別システムによるサービス提供方法について説明する。なお、フローチャートの処理は継続的に行われるものとし、音声取得時にフローチャートの処理が繰り返される。
また、図11に示す実施の形態2における話者識別システムの動作において、図3に示す実施の形態1における話者識別システムと同じ処理については説明を省略する。
図11のステップS31及びステップS32の処理は、図3のステップS1及びステップS2の処理と同様であるので、説明を省略する。また、ステップS32において取得された音声情報が登録音声情報と一致しないと判断された場合に、取得された音声情報を家族データベースに登録するステップS33の処理は、図3のステップS5の処理と同様であるので、説明を省略する。
取得された音声情報が家族データベースの登録音声情報と一致すると判断された場合(ステップS32でYES)、視聴コンテンツ情報取得部202は、話者が話者識別装置110で現在視聴しているコンテンツに関する視聴コンテンツ情報を番組情報データベース103より取得する(ステップS34)。なお、ステップS34の処理は、図3のステップS3の処理と同様である。
次に、サービス提供部204は、データベース管理部203より、提供する少なくとも1つのサービスの候補を取得する(ステップS35)。ここで、提供する少なくとも1つのサービスの候補とは、例えば、取得された音声情報に一致する登録音声情報に対応する視聴コンテンツ情報に関連付けられた、少なくとも1つのサービスである。すなわち、この時点で、取得される少なくとも1つのサービスの候補は、視聴コンテンツ情報に関連付けられているため、視聴者(話者)の嗜好に適合したものに絞られる。
次に、サービス提供部204は、サービス提供条件を満たすか否かを判断する(ステップS36)。サービス提供条件を満たすと判断された場合はステップS34の処理に進み、サービス提供条件を満たさないと判断された場合はステップS40の処理に進む。サービス提供条件とは、提供可能なサービスが存在するか否かの判断と、予め決められているサービスを提供するタイミングであるか否かの判断とである。提供可能なサービスが存在するか否かの判断は、ステップS35において少なくとも1つのサービスの候補が取得されたか否かである。例えば、視聴していたコンテンツによっては、サービスの候補が関連付けられていない可能性もある。その場合は、ステップS40の処理に進む。また、サービスを提供するタイミングであるか否かの判断とは、例えば、話者識別装置110の電源がONされたタイミング、又は話者が視聴していたコンテンツが切り替えられたタイミングなどサービスの提供がコンテンツの視聴を阻害しないタイミングである。コンテンツの視聴を阻害するタイミングであれば、ステップS40の処理に進む。なお、サービス提供のタイミングについては、視聴者(話者)が意図的に選択してもよいし、話者識別システムが自動で判別してもよい。
ここで、サービス提供条件を満たすと判断された場合(ステップS36でYES)、サービス提供部204は、少なくとも1つのサービスの候補を選択可能な状態で表示部114に表示する(ステップS37)。表示方法は、例えば、現在表示されているコンテンツの視聴を阻害しないように表示されてもよいし、現在表示されているコンテンツから切り替えてサービスの候補を表示してもよい。なお、サービスの候補の表示例については後述する。
次に、表示された少なくとも1つのサービス候補のうち、1つのサービスが選択された場合、サービス提供部204は、選択されたサービスを提供する(ステップS38)。なお、表示された少なくとも1つのサービス候補のうち、1つのサービスが選択されない場合、ステップS40の処理に移行してもよい。
次に、データベース管理部203は選択されたサービスに関する情報を、登録音声情報と関連付けて家族データベースに追加する(ステップS39)。
次に、データベース管理部203は、家族データベースに記憶されている登録音声情報に関連付けて、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報を記憶する(ステップS40)。これにより、家族データベースが再構築される。なお、ステップS40の処理は、図3におけるステップS4の処理と同様である。
(話者識別システムのシーケンス図)
図12は、本発明の実施の形態2における話者識別システムの動作の一例を示すシーケンス図である。
図12を用いて、本実施の形態2における各装置間の具体的なデータのやり取りと各装置の具体的な動作例について説明する。なお、図12に示す動作例では、話者識別装置110がテレビである例について説明する。図12に示す動作例は一例であり、本実施の形態を限定するものではない。
また、図12に示す実施の形態2における話者識別システムの動作において、図4に示す実施の形態1における話者識別システムと同じ処理については説明を省略する。図12のステップS51〜S54の処理は、図4のステップS11〜ステップS14の処理と同様であるので、説明を省略する。以下、図1における例えば家庭A内の視聴者(話者)の音声情報が、家族データベース105内の登録音声情報と比較されることによって、家族データベース105内の既存の話者の音声情報と一致すると判別された場合について説明する。
サーバ装置100の制御部101は、家族データベース105内の視聴コンテンツ情報に基づいて、提供される少なくとも1つのサービスの候補をサービス情報データベース104から取得する(ステップS55)。ここで、図13〜図15を用いて、提供されるサービスの候補の取得方法に関して説明する。
図13は、本発明の実施の形態2における家族データベースのデータ構造の一例を示す図である。図13に示すように、本実施の形態2における家族データベース105には、登録音声情報に対して、視聴コンテンツ情報及び話者によって過去に選択されたサービスの履歴(サービス選択履歴)が関連付けられて蓄積されている。
図14は、本発明の実施の形態2におけるサービス情報データベースのデータ構造の一例を示す図である。図14に示すように、本実施の形態2におけるサービス情報データベース104には、コンテンツの名称に対して、提供されるサービスの候補(提供サービス候補)が関連付けられて蓄積されている。なお、1つのコンテンツの名称に対して1つのサービスの候補が関連付けられているとは限らず、1つのコンテンツの名称に対して複数のサービスの候補が関連付けられていてもよい。
ステップS53において音声情報と一致すると判断された登録音声情報が「0001.wav」であったとする。この場合、制御部101は、登録音声情報「0001.wav」に関連付けられている視聴コンテンツ情報に含まれるコンテンツ名と、サービス情報データベース104内のコンテンツ名とを比較する。制御部101は、サービス情報データベース104内のコンテンツ名の中から、登録音声情報「0001.wav」に関連付けられている視聴コンテンツ情報に含まれるコンテンツ名と一致するコンテンツ名を検索する。そして、例えば、図14に示すように、「クイズAA」が一致するコンテンツ名であった場合、制御部101は、一致したコンテンツ名に対応する提供サービスの候補をサービス情報データベース104から取得する。これにより、話者の興味のあるコンテンツに関連するサービス(コンテンツの提供又は広告の提供)の候補が選択される。
なお、サービスの候補の取得方法はこれに限られない。例えば、コンテンツ名ではなく出演者と提供サービス候補とが関連付けられて管理されていてもよい。これにより、話者の興味のある出演者に関連するサービス(コンテンツの提供又は広告の提供)の候補が選択される。
図15は、本発明の実施の形態2におけるサービス情報データベースのデータ構造の他の例を示す図である。図15に示すように、本実施の形態2の他の例におけるサービス情報データベース104には、コンテンツのジャンルに対して、提供されるサービスの候補(提供サービス候補)が関連付けられて蓄積されている。
この場合、制御部101は、取得された音声情報と同一であると判別された登録音声情報に関連付けられた視聴コンテンツ情報を用いて、過去に最も多く視聴されたコンテンツのジャンルを特定し、サービス情報データベース104内のジャンルの中から、特定したジャンルと一致するジャンルを検索する。一致するジャンルが存在する場合、制御部101は、一致したジャンルに対応する提供サービスの候補をサービス情報データベース104から取得する。これにより、話者の興味のあるコンテンツのジャンルに関連するサービス(コンテンツの提供又は広告の提供)の候補が選択される。
また、音声情報が取得されない場合であっても、家族データベース105内の視聴コンテンツ情報に基づいて提供可能なサービスの情報がある場合、サービス情報データベース104内の提供サービス候補を更新してもよい。
図12に戻って、サーバ装置100の通信部102は、取得した少なくとも1つのサービスの候補を示すサービス情報を、話者識別装置110であるテレビに送信する(ステップS56)。話者識別装置110の通信部112は、サーバ装置100によって送信されたサービス情報を受信する。
次に、話者識別装置110の制御部111は、サービス提供可能なタイミングであるか否かを判断し、サービス提供可能なタイミングであると判断された場合、話者識別装置110の表示部114は、サービスの候補を表示する(ステップS57)。表示部114は、例えば、テレビの電源が入れられた直後のタイミング、番組表が表示されたタイミング、又はテレビに対する何らかの操作が行われた直後のタイミングなど、視聴者(話者)が現在の視聴コンテンツに集中しておらず、サービスを選択したり、視聴しているコンテンツを変更したりするのに適切である可能性の高いタイミングにサービスの候補を表示する。また、サーバ装置100の制御部101が、サービス提供可能なタイミングであるか否かを判断してもよいし、話者識別装置110の制御部111が、サービス提供可能なタイミングであるか否かを判断してもよい。そして、話者識別装置110の入力受付部(不図示)は、表示された少なくとも1つのサービスの候補の中から視聴者(話者)による一のサービスの選択を受け付ける。
図16は、本発明の実施の形態2においてサービスの候補を選択する選択画面の一例を示す図である。例えば、図16に示すように、表示部114は、取得した提供可能なサービス(広告の配信)の候補を表示する。図16では、例えば複数の広告をリモコンのボタンの色に関連付けて表示する例を示している。視聴者(話者)は、所望のサービス(広告の配信)に対応するリモコンのボタンを押すことで、所望のサービス(広告の配信)を選択できる。なお、サービス表示部分からサービスを選択することで所望の操作(チャンネルの変更又はインターネットショッピングなど)ができてもよいし、サービスを見た視聴者(話者)が自発的にそれらの操作を行ってもよい。
図17は、本発明の実施の形態2においてサービスの候補を選択する選択画面の他の例を示す図である。例えば、図17に示すように、表示部114は、取得した提供可能なサービス(コンテンツの再生)の候補を表示する。図17では、例えば、視聴者(話者)に推奨するコンテンツ(番組)を表示する例を示している。視聴者(話者)は、所望のサービス(コンテンツの再生)に対応するリモコンのボタンを押すことで、所望のサービス(コンテンツの再生)を選択できる。
次に、話者識別装置110の制御部111は、選択されたサービスを提供する(ステップS58)。すなわち、制御部111は、選択されたサービスを表示部114に表示させる。例えば選択されたサービスが番組コンテンツを再生するコンテンツであれば、制御部111は、選択されたコンテンツを再生する。なお、再生するコンテンツが、話者識別装置110内に記憶されていれば、制御部111は、記憶されているコンテンツを読み出して再生する。また、再生するコンテンツが、話者識別装置110内に記憶されておらず、サーバ装置100内に記憶されていれば、制御部111は、サーバ装置100からコンテンツを取得し、取得したコンテンツを再生する。また、選択されたサービスが広告を配信するサービスであれば、制御部111は、ネットワークを介して、選択された広告のウェブページを表示させる。
次に、話者識別装置110の制御部111によってサービスが選択されたことが検知された場合、通信部112は、選択されたサービスに関するサービス選択情報をサーバ装置100に送信する(ステップS59)。コンテンツを再生するサービスが選択された場合、サービス選択情報は、例えば、コンテンツが再生された日時、再生されたコンテンツの名称、及び再生されたコンテンツの出演者を含む。サーバ装置100の通信部102は、話者識別装置110によって送信されたサービス選択情報を受信する。
次に、サーバ装置100の制御部101は、取得された視聴コンテンツ情報及び受信されたサービス選択情報に基づいて、家族データベース105を更新する(ステップS60)。ここで、本実施の形態では、制御部101は、登録音声情報に関連付けて、視聴コンテンツ情報を更新するとともに、視聴者(話者)によって選択されたサービス選択情報も更新する。図13に示すように、制御部101は、登録音声情報に関連付けて、サービス選択履歴を更新する。
なお、ステップS60の処理の後、通信部102は、構築された家族データベースの更新情報を、話者識別装置110に送信してもよい(ステップS61)。話者識別装置110の通信部112は、サーバ装置100によって送信された家族データベースの更新情報を受信する。
また、話者識別装置110の表示部114は、受信された家族データベースの更新情報に基づいて、家族データベースの更新内容を表示してもよい(ステップS62)。表示部114は、更新された家族データベースの一部又は全部を表示してもよい。なお、ステップS61及びステップS62の処理は必須の処理ではない。
これにより、本実施の形態2では、ユーザに煩わしい設定操作を行わせることなく、家族データベースを構築することができる。最適なサービスを少なくとも1つのサービスの候補の中から選択させることで、さらに登録音声情報に対応する話者の嗜好に関する情報を蓄積することができるので、より話者に最適なサービスを提供することができる。
(実施の形態3)
従来、テレビなどの表示装置の前にいる視聴者を特徴付けるデータを取得して、適切な広告を配信する方法が提案されている(例えば、国際公開第01/089216号参照)。
しかしながら、国際公開第01/089216号に記載の発明は、予め登録されている視聴者を特徴付けるデータに関して、視聴者の家族構成が変化した際には使用できない。また、新規の視聴者をデータベースに登録する手段に関して十分な検討がされていなかった。
国際公開第01/089216号には、登録された各視聴者の受信機へ、広告データを送信する広告配信方法及び広告配信装置について開示されている。従来の広告配信装置は、送信側において、登録された各視聴者から視聴者層を特徴付けるデータを受け取り、広告データが対象とする視聴者層を特徴付けるデータを受け取って広告データに関連付け、登録された各視聴者毎に、視聴者の視聴者層を特徴付けるデータと、広告が対象とする視聴者層を特徴付けるデータとの一致の度合いに基づいて、視聴者の受信機へ送信する広告データを広告データの中から選択して視聴者に割り当て、登録された各視聴者毎に、視聴者に割り当てた広告データを視聴者の受信機へ送信する。
国際公開第01/089216号に記載の方法では、広告が対象とする視聴者層を特徴付けるデータと、既に登録された視聴者のみを特徴付けるデータとの一致の度合いに基づいて広告データ配信が制御される。そのため、視聴者の家族構成が変化するなど、登録内容が変化した場合は、登録内容の変更手続きを自発的に行う必要がある。また、視聴者の視聴者層を特徴付けるデータを登録し忘れた場合は、広告が対象とする視聴者層を特徴付けるデータとの一致度合いの判断ができないため、適切な広告を受信できないという課題を有している。
そこで、本発明者らは、上記検討に基づき、以下の各態様に係る発明を想到するに至った。
本発明の一局面に係る話者識別方法は、話者を識別する話者識別方法であって、前記話者の音声情報を取得するステップと、前記取得された音声情報に対応する話者が、データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記話者による話者情報の入力を受け付けるステップと、前記取得された音声情報を登録音声情報として前記データベースに記憶するとともに、前記受け付けられた話者情報を前記登録音声情報に関連付けて前記データベースに記憶するステップと、を含む。
これにより、話者の音声情報を取得して話者を識別し、データベースに登録されていない新規の話者が識別された場合、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。したがって、話者にとって煩わしい設定操作を行うことなく、新規の話者をデータベースに登録することができる。
また、上記態様において、前記話者情報に応じたコンテンツを配信するステップをさらに含むことが好ましい。この場合、話者情報に応じたコンテンツが配信されるので、話者に対して適切なコンテンツを提供することができる。
また、上記態様において、前記話者情報は、話者の年齢及び話者の性別の少なくとも一方を含むことが好ましい。この場合、話者の年齢及び性別の少なくとも一方に応じたコンテンツを提供することができる。
本発明の他の局面に係る話者識別装置は、話者を識別する話者識別装置であって、前記話者識別装置の周辺にいる話者の音声情報を取得する音声取得部と、登録された音声情報である登録音声情報と、話者に関する話者情報とを関連付けて記憶するデータベースと、前記音声取得部によって取得された音声情報に対応する話者が、前記データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する判断部と、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記話者による話者情報の入力を受け付ける入力受付部と、前記取得された音声情報を登録音声情報として前記データベースに記憶するとともに、前記入力受付部によって受け付けられた前記話者情報を前記登録音声情報に関連付けて前記データベースに記憶するデータベース記憶部と、を備える。
これにより、話者の音声情報を取得して話者を識別し、データベースに登録されていない新規の話者が識別された場合、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。したがって、話者にとって煩わしい設定操作を行うことなく、新規の話者をデータベースに登録することができる。
本発明の他の局面に係る情報管理方法は、話者を識別する話者識別システムにおける情報管理方法であって、前記話者の音声情報を受信するステップと、前記受信された音声情報に対応する話者が、データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記話者に対して話者情報の入力を促す入力促進情報を送信するステップと、前記入力促進情報に応じて前記話者により入力された話者情報を受信するステップと、前記受信された音声情報を登録音声情報として前記データベースに記憶するとともに、前記受信された話者情報を前記登録音声情報に関連付けて前記データベースに記憶するステップと、を含む。
これにより、話者の音声情報を取得して話者を識別し、データベースに登録されていない新規の話者が識別された場合、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。したがって、話者にとって煩わしい設定操作を行うことなく、新規の話者をデータベースに登録することができる。
以下、本発明の実施の形態について、図面を参照しながら説明する。
本発明の実施の形態3では、視聴者に関する視聴者情報に応じて適切なコンテンツを提供するコンテンツ提供システムの例として、テレビ(以下、端末装置とも呼ぶ)の前にいる視聴者に応じて各種インターネット等の通信回線を介して、実施されるコンテンツ提供システムについて示したものである。
(コンテンツ提供システムの構成)
まず、本実施の形態におけるコンテンツ提供システムの各構成について説明する。
図18は、本発明の実施の形態3に係るコンテンツ提供システムの全体構成を示す図である。
コンテンツ提供システム400は、音声取得部401と、話者識別部402と、視聴者構成管理部403と、情報入力部404と、コンテンツ配信制御部405と、コンテンツ配信部406と、表示部407とを備える。
音声取得部401は、視聴者(話者)の音声信号(音声情報)を取得する。話者識別部402は、音声取得部401によって取得された音声情報から、話者を識別する。話者識別部402は、取得された音声情報に対応する話者が、データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する。なお、話者情報は、例えば、話者の年齢及び話者の性別の少なくとも一方を含む。
視聴者構成管理部403は、話者識別部402から取得した識別情報を用いて視聴者構成情報を管理し、新規視聴者と判定された場合に新規視聴者に関連する情報の入力を促し、入力された情報を受信して、視聴者構成を管理する。
情報入力部404は、視聴者による情報の入力を受け付ける。情報入力部404は、取得された音声情報に対応する話者がデータベースに記憶されている登録音声情報に対応する話者と一致しないと判断された場合、話者による話者情報の入力を受け付ける。視聴者構成管理部403は、取得された音声情報を登録音声情報としてデータベースに記憶するとともに、受け付けられた話者情報を登録音声情報に関連付けてデータベースに記憶する。
コンテンツ配信制御部405は、視聴者構成管理部403によって管理される視聴者構情報成に応じたコンテンツの配信を制御する。コンテンツ配信部406は、コンテンツ配信制御部405によって制御され、視聴者構成情報に応じたコンテンツを配信する。コンテンツ配信部406は、話者情報に応じたコンテンツを配信する。
表示部407は、視聴者に関する情報の入力を促し、配信されたコンテンツを表示する。なお、コンテンツ提供システム400は、必ずしもこれらの構成を全て備えている必要はなく、一部の構成が欠けていてもよい。
コンテンツ提供システム400は、例えば、視聴者側の端末装置と、コンテンツを配信するサーバ装置とに分けることができる。以下に説明する端末装置の各部は、例えば端末装置の一例であるテレビに配置されたマイクロホン、CPU(Central Processing Unit)、制御プログラムを格納したROM(Read Only Memory)、及び各種通信用IC(Integrated Circuit)などのハードウェアにより、実現される。また、サーバ装置の各部は、コンピュータを構成するCPU、制御プログラムを格納したROM、及び各種通信用のICなどのハードウェアにより、実現される。
以下に、コンテンツ提供システムを実現するための各装置の構成例について、図19に示すコンテンツ提供システム500の処理ブロック図(構成図)を用いて説明する。
図19は、本発明の実施の形態3におけるコンテンツ提供システムの構成を示すブロック図である。なお、図19のコンテンツ提供システム500は、図18のコンテンツ提供システム400の構成の一例を示している。コンテンツ提供システム500とコンテンツ提供システム400とは、同一のシステムであるが、便宜上、異なる符号で表現している。
図19に示すコンテンツ提供システム500は、サーバ装置510及び端末装置520を備える。
サーバ装置510は、サーバ通信部511、話者識別部512、視聴者構成管理部513、広告配信制御部514、視聴者構成DB(Data Base)515、及び配信広告DB(Data Base)516を備える。サーバ装置510が配置されている場所に関しては、特に限定しない。サーバ装置510は、ビッグデータを取り扱うデータセンタに配置されていてもよいし、各家庭に配置されていてもよい。データセンタは、データセンタを管理及び運営する会社が保有する。また、サーバ装置510の各構成は、1つの装置内に集約されていてもよいし、各々異なる装置に配置されていてもよい。
端末装置520は、端末通信部521、音声取得部522、情報入力部523、及び表示部524を備える。端末装置520としては、これらの構成を備えている機器であればよい。端末装置520は、例えば家庭内のテレビ、PC(パーソナルコンピュータ)、及びPCに接続されたディスプレイ等で構成される。また、端末装置520は、携帯電話機、スマートフォン又はタブレット型端末などの携帯端末で構成されてもよい。また、端末装置520は、各構成を必ずしも端末装置520の内部に備えていなくてもよい。例えば、音声取得部522のみが、端末装置520の外部に取り付けられてもよい。また、コンテンツ提供システム500は、複数の端末装置520を備え、各々の端末装置520がサーバ装置510に接続されていてもよい。
サーバ通信部511は、インターネット等の各種公衆回線である通信回線530を介して、回線データを受信する。そして、サーバ通信部511は、受信した回線データより、端末装置520によって送信された視聴者音声信号を抽出し、話者識別部512に出力する。また、サーバ通信部511は、受信した回線データより、端末装置520によって送信された視聴者タグデータを抽出し、視聴者構成管理部513に出力する。また、サーバ通信部511は、新規話者が検出された場合に生成される登録促進信号及び広告データを通信回線530へ回線データとして出力し、通信回線530を介して登録促進信号及び広告データを端末装置520へ送信する。
話者識別部512は、サーバ通信部511によって出力された視聴者音声信号を取得して話者を識別し、話者識別結果を視聴者構成管理部513に出力する。話者識別部512は、取得した視聴者音声信号と、視聴者構成DB515に登録されている登録音声信号とを比較し、話者を識別する。このとき、話者識別部512は、取得した視聴者音声信号と、視聴者構成DB515に登録されている登録音声信号とが一致しない場合、新規話者を検出する。
視聴者構成管理部513は、話者識別部512によって新規話者が検出された場合は、サーバ通信部511に登録促進信号を出力する。すなわち、視聴者構成管理部513は、話者識別部512によって識別された話者が、視聴者構成DB515に記憶されている視聴者構成に登録されていない場合は、サーバ通信部511に登録促進信号を出力する。また、視聴者構成管理部513は、視聴者によって入力された視聴者タグデータをサーバ通信部511より取得して、視聴者構成と関連付けられるタグ情報を管理し、視聴者構成情報を出力する。
広告配信制御部514は、配信広告DB516から、視聴者構成情報に基づいて端末側に配信する広告を選択し、サーバ通信部511へ出力する。
視聴者構成DB515は、視聴者構成管理部513により管理される視聴者構成情報を記憶するデータベースである。ここで、複数の端末装置520が存在する場合、視聴者構成DBは、各端末装置に対して作成されており、各端末装置に対応するIPアドレス又はIDによって管理されている。
配信広告DB516は、広告配信制御部514により配信及び管理される広告データを記憶するデータベースである。
端末通信部521は、インターネット等の各種公衆回線である通信回線530を介して、回線データを受信する。端末通信部521は、サーバ装置510によって送信された広告データ及び登録促進信号を受信し、受信した広告データ及び登録促進信号を表示部524へ出力する。また、端末通信部521は、音声取得部522によって取得された視聴者音声信号を通信回線530へ出力するとともに、情報入力部523によって入力された視聴者タグデータを通信回線530へ出力する。
音声取得部522は、視聴者音声信号を取得し、端末通信部521へ出力する。
情報入力部523は、表示部524に登録促進信号による登録促進画面が表示されたときに、新規視聴者に関連付けられる視聴者タグデータの入力を受け付け、入力された視聴者タグデータを端末通信部521へ出力する。
表示部524は、登録促進信号を受信した場合に視聴者タグデータの入力を促す画面を表示する。また、表示部524は、受信した配信広告データを表示する。
以上でコンテンツ提供システム500における各装置の構成の説明を終える。なお、各装置は上記で説明したすべての構成を必ずしも備えている必要はなく、一部の構成が欠けていてもよい。また、各装置は、他の機能を有する構成を備えていてもよい。
(コンテンツ提供システムの動作)
次に、コンテンツ提供システム500の動作について説明する。なお、各装置(端末装置520及びサーバ装置510)の詳細な動作に関しては後述する。ここでは、コンテンツ提供システム500全体の大まかな動作及び処理の流れを説明する。
図20は、本発明の実施の形態3におけるコンテンツ提供システム500の動作の一例を示すシーケンス図である。なお、図20では、端末装置520に新たな視聴者が検出された場合について示す。
まず、端末装置520の音声取得部522は、端末装置520の視聴者の音声信号を取得する(ステップS71)。なお、ステップS71の処理は、図18におけるコンテンツ提供システム400の音声取得部401による処理に相当する。
次に、端末装置520の端末通信部521は、取得した視聴者音声信号を、通信回線530を通じて、サーバ装置510に送信する(ステップS72)。この時、端末通信部521は、視聴者音声信号と合わせて、端末装置520のユーザを特定するID又はIPアドレス等、端末装置520に関する他の情報を送信してもよい。サーバ装置510のサーバ通信部511は、端末装置520によって送信された視聴者音声信号を受信する。
次に、サーバ装置510の話者識別部512は、端末装置520から通信回線530を介して送信された視聴者音声信号と、視聴者音声信号を取得した端末装置520に対応する視聴者構成DB515とを用いて話者を識別する(ステップS73)。なお、端末装置520に対応する視聴者構成DB515の抽出に関しては、端末装置520から送られてくるIPアドレスなどの記憶位置が特定できる情報に基づいて行ってもよい。ステップS73の処理は、図18におけるコンテンツ提供システム400の話者識別部402による処理に相当する。
次に、話者識別部512は、視聴者構成DB515に登録されていない新規の話者を検出する(ステップS74)。すなわち、話者識別部512は、視聴者構成DB515に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在する場合、視聴者音声信号に対応する話者が当該登録音声信号に対応する話者であると判断する。一方、話者識別部512は、視聴者構成DB515に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在しない場合、視聴者音声信号に対応する話者が、視聴者構成DB515に登録されていない新規話者であると判断する。これにより、新規の話者が検出される。
次に、サーバ装置510のサーバ通信部511は、端末装置520に対して通信回線530を介して新規話者に関連付けられるタグ情報のデータベースへの登録を促すための登録促進信号を送信する(ステップS75)。端末装置520の端末通信部521は、通信回線530を介して送信された登録促進信号を受信する。このとき、新規話者の検出は、新規話者の音声信号が所定期間(数日間)継続して検出されることなどを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声であるとして誤って識別してしまうことを回避することができる。
次に、表示部524は、新規話者に関連付けられタグ情報の入力を促進するための登録促進画面を表示する(ステップS76)。ステップS76の処理は、図18におけるコンテンツ提供システム400の表示部407による処理に相当する。登録促進画面は、番組などのコンテンツが表示される表示画面の端部などのコンテンツの視聴の妨げにならない位置に表示してもよい。また、登録促進画面は、端末装置520の電源ON/OFF時などのコンテンツの視聴の妨げにならないタイミングで表示してもよい。
次に、情報入力部523は、視聴者音声信号及び視聴者音声信号に関連付けられる視聴者に関する情報(視聴者タグデータ)を含む新規話者情報の入力を受け付ける(ステップS77)。新規話者は、登録促進画面の表示に従い、新規話者情報を入力する。ステップS77の処理は、図18におけるコンテンツ提供システム400の情報入力部404による処理に相当する。
図21は、新規話者登録時において話者の音声信号を入力するための表示画面の一例を示す図であり、図22は、新規話者登録時において話者の年齢及び性別を入力するための表示画面の一例を示す図であり、図23は、新規話者登録時において話者のニックネームを入力するための表示画面の一例を示す図である。
新規話者の音声信号とタグ情報との関連性を確実にするために、まず、音声取得部522は、音声信号を取得する。音声取得時の表示画面601(図21)では、ユーザの音声を確実に収録するための音声レベルメータ、及び発話する語彙などが表示され、リモコンの決定ボタンの操作などの簡単な操作で新規話者の音声信号を取得する。
音声信号を取得した後、情報入力部523は、話者と関連付けるタグデータの入力を受け付ける。ここで、タグデータは、新規話者のニックネーム、年齢及び性別を含む。年齢及び性別入力時の表示画面602(図22)では、年齢及び性別の入力を簡単なリモコン操作で受け付ける。ユーザは、年齢及び性別のそれぞれの入力欄に移動して子画面で表示される該当する項目を選択し、決定ボタンを押して入力を完了する。
また、ニックネーム入力時の表示画面603(図23)では、ユーザは、テンキーを用いて自身のニックネームを入力する。ニックネームの入力が完了した後、完了ボタンに移動して決定ボタンが押下されることにより、タグデータの入力が完了する。
入力処理が完了した後、端末通信部521は、新規話者の視聴者タグデータ及び視聴者音声信号を、通信回線530を介してサーバ装置510に送信する(ステップS78)。サーバ装置510のサーバ通信部511は、端末装置520によって送信された視聴者タグデータ及び視聴者音声信号を受信する。
次に、サーバ装置510の視聴者構成管理部513は、サーバ通信部511によって受信された視聴者タグデータ及び視聴者音声信号を視聴者構成DB515に記憶することにより、視聴者構成DB515を更新する(ステップS79)。ステップS79の処理は、図18におけるコンテンツ提供システム400の視聴者構成管理部403による処理に相当する。
図24は、視聴者構成DB515のデータ構成の一例を示す図である。図24に示すように、視聴者構成DB515では、視聴者を表すニックネーム毎に、年齢、性別、及び取得した視聴者音声信号が関連付けられている。なお、視聴者構成DB515において構築されるデータベースに関してはこの例に限られない。
次に、サーバ装置510の広告配信制御部514は、視聴者構成DB515に記憶されている視聴者に関する情報に応じた広告データを、配信広告DB516より選択する(ステップS80)。ここで、広告の選択方法については特に限定しない。例えば、配信広告DB516は、年齢及び性別に対応付けて、配信する広告データを記憶している。例えば、40歳代の男性には、車の広告が対応付けられており、30歳代の女性には、化粧品の広告が対応付けられており、広告配信制御部514は、ユーザの年齢及び性別に応じた最適な広告を選択する。ステップS80の処理は、図18におけるコンテンツ提供システム400のコンテンツ配信制御部405による処理に相当する。
なお、配信広告DB516は、年齢のみに対応付けて広告データを記憶してもよく、性別のみに対応付けて広告データを記憶してもよい。また、配信広告DB516は、年齢及び性別以外の視聴者に関する情報に対応付けて広告データを記憶してもよい。視聴者構成DB515に視聴者の住所が記憶されている場合、配信広告DB516は、住所に対応付けて広告データを記憶しておき、広告配信制御部514は、視聴者の住所に最も近い店舗の広告データを選択してもよい。
次に、サーバ通信部511は、広告配信制御部514によって選択された広告データを、通信回線530を介して端末装置520に送信する(ステップS81)。端末装置520の端末通信部521は、サーバ装置510によって送信された広告データを受信する。
次に、端末装置520の表示部524は、サーバ装置510から配信された広告データを表示する(ステップS82)。ステップS82の処理は、図18におけるコンテンツ提供システム400のコンテンツ配信部406による処理に相当する。
以上で、コンテンツ提供システム500の動作の説明を終える。
(サーバ装置の動作)
次に、本実施の形態3におけるコンテンツ提供システム500のサーバ装置510の動作について説明する。
図25は、本発明の実施の形態3におけるサーバ装置510の動作の一例を示すフローチャートである。サーバ装置510は、例えば図25に示す動作を、電源スイッチ又は電源スイッチに関連する機能(図19には図示しない)がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。
まず、ステップS91において、サーバ装置510のサーバ通信部511は、通信回線530より回線データを受信する。このとき、サーバ通信部511は、端末装置520によって送信された視聴者音声信号を取得する。
次に、ステップS92において、話者識別部512は、取得した視聴者音声信号に対応する話者を識別する。話者識別部512は、受信した視聴者音声信号と、端末装置ごとの視聴者構成DB515とを照合することで、話者を識別する。
次に、ステップS93において、話者識別部512は、話者識別結果を用いて、新規話者を検出したか否かを判断する。話者識別部512は、受信した視聴者音声信号が視聴者構成DB515に登録されていなければ、新規話者を検出したと判断し、受信した視聴者音声信号が視聴者構成DB515に登録されていれば、新規話者を検出していないと判断する。なお、新規話者の検出は、所定期間(数日間)にわたり視聴者構成DB515に存在していない話者であることを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声として誤って識別してしまうことを回避することができる。ここで、新規話者を検出したと判断された場合(ステップS93でYES)、新規話者を登録するために、ステップS94の処理へ進む。一方、新規話者を検出していないと判断された場合(ステップS93でNO)、ステップS97の処理へ進む。
ステップS94において、視聴者構成管理部513は、新規話者に関する情報を視聴者構成DB515に登録するための登録促進信号を作成してサーバ通信部511へ出力し、サーバ通信部511は、登録促進信号を送信する。
次に、ステップS95において、視聴者構成管理部513は、サーバ通信部511によって新規話者の視聴者タグデータ及び視聴者音声信号が受信されたか否かを判断する。ここで、登録促進信号を送信したにもかかわらず、端末装置520から視聴者タグデータ及び視聴者音声信号が送信されない場合、すなわちサーバ装置510で視聴者タグデータ及び視聴者音声信号が受信されないと判断された場合(ステップS95でNO)、継続して登録を促すために、ステップS94の処理へ戻る。
一方、端末装置520から視聴者タグデータ及び視聴者音声信号が送信された場合、すなわち視聴者タグデータ及び視聴者音声信号が受信されたと判断された場合(ステップS95でYES)、ステップS96の処理へ進む。
ステップS96において、視聴者構成管理部513は、端末装置ごとの視聴者構成DB515を更新する。具体的には、視聴者構成管理部513は、情報入力部523によって入力された視聴者タグデータと、音声取得部522によって取得された視聴者音声信号とを用いて視聴者構成DB515を更新する。図24に示すように、視聴者構成DB515は、新規話者のニックネームごとに、年齢、性別及び視聴者音声信号を関連付けて記憶することにより、更新される。視聴者構成管理部513は、サーバ通信部511によって受信された視聴者タグデータ及び視聴者音声信号を視聴者構成DB515に記憶する。
なお、本実施の形態では、登録促進信号を受けた端末装置520によって改めて取得された視聴者音声信号が受信され、受信された視聴者音声信号が視聴者構成DB515に記憶されるが、本発明は特にこれに限定されず、サーバ装置510は、視聴者タグデータのみを受信し、受信した視聴者タグデータと、ステップS91で受信した視聴者音声信号とを対応付けて視聴者構成DB515に記憶してもよい。
次に、ステップS97において、広告配信制御部514は、視聴者構成DB515に記憶されている視聴者(識別された話者又は新規話者)に関する情報に対応する広告データを配信広告DB516から選択する。具体的には、広告配信制御部514は、視聴者構成DB515における識別された話者又は新規話者の年齢及び性別に対応する広告データを配信広告DB516から抽出し、抽出した広告データをサーバ通信部511へ出力する。
次に、ステップS98において、サーバ通信部511は、広告配信制御部514によって選択された広告データを、通信回線530を介して端末装置520へ送信する。
以上で、サーバ装置510の動作についての説明を終える。
(端末装置の動作)
次に、本実施の形態3におけるコンテンツ提供システム500の端末装置520の動作について説明する。
図26は、本発明の実施の形態3における端末装置520の動作の一例を示すフローチャートである。端末装置520は、例えば図26に示す動作を、電源スイッチ又は電源スイッチに関連する機能(図19には図示しない)がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。なお、本端末装置520がテレビである場合、テレビの基本機能として放送番組(コンテンツ)を表示する機能が存在するが、本コンテンツ提供システムの説明では、コンテンツの表示に関する詳細な説明は省略し、広告の配信に関する事項のみ説明する。
まず、ステップS111において、音声取得部522は、端末装置520の周辺にいる視聴者が発話した音声を表す視聴者音声信号を取得する。音声取得部522は、取得した視聴者音声信号を端末通信部521へ出力する。
次に、ステップS112において、端末通信部521は、音声取得部522によって取得された視聴者音声信号を、通信回線530を介してサーバ装置510へ送信する。端末通信部521は、通信回線530に視聴者音声信号を、回線データとして出力する。
次に、ステップS113において、端末通信部521は、サーバ装置510によって送信される登録促進信号を受信したか否かを判断する。登録促進信号を受信したと判断された場合(ステップS113でYES)、ステップS114の処理へ進む。端末通信部521は、受信した登録促進信号を表示部524へ出力する。一方、登録促進信号を受信していないと判断された場合(ステップS113でNO)、ステップS117の処理へ進む。
ステップS114において、表示部524は、新規話者に関する情報の入力を促すための登録促進画面を表示する。ここで、情報入力部523は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力を受け付ける。
次に、ステップS115において、端末通信部521は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力が完了したか否かを判断する。入力が完了していないと判断された場合(ステップS115でNO)、ステップS114の処理へ戻り、表示部524は、継続して登録促進画面を表示する。一方、入力が完了したと判断された場合(ステップS115でYES)、ステップS116の処理へ進む。
次に、ステップS116において、端末通信部521は、表示部524に表示された登録促進画面に従ってリモコンなどの情報入力部523によって入力された、新規話者の視聴者音声信号と、視聴者音声信号に関連付けられる視聴者タグデータ(ここでは、年齢、性別及びニックネーム)とを、サーバ装置510へ送信する。
次に、ステップS117において、端末通信部521は、サーバ装置510によって送信された広告データを受信する。
次に、ステップS118において、表示部524は、端末通信部521によって受信された広告データを表示する。
以上で、端末装置520の動作についての説明を終える。
以上のような動作により、端末装置から視聴者が発話した音声を取得して話者を識別し、一定期間同じ未知の話者が識別された場合、その話者を、端末装置を利用する視聴者の新たな構成員とみなす。そして、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。これにより、端末装置を保有している家族の各構成員に関する情報を格納するデータベースを構築することができる。また、視聴者に応じて適切な広告を配信するコンテンツ提供システムを提供することができる。
なお、本実施の形態におけるシステムは、コンテンツを提供するコンテンツ提供システムであるとして説明しているが、データベースを構築する視聴者構成DB構築管理システムであってもよい。その場合、図18に記載のシステムにおいて、コンテンツ配信制御部405とコンテンツ配信部406とが必須の構成ではなくなる。また、図19に記載のサーバ装置510において、広告配信制御部514と配信広告DB516とが必須の構成ではなくなる。また、図20のフローチャートにおけるステップS80以降の処理が必須の処理ではなくなる。また、図25のフローチャートにおけるステップS97以降の処理が必須の処理ではなくなる。また、図26のフローチャートにおけるステップS117以降の処理が必須の処理ではなくなる。
(実施の形態4)
以下、本発明の実施の形態4におけるコンテンツ提供システムを説明する。なお、本実施の形態4において、実施の形態3と同様の構成については説明を省略する。また、実施の形態4の技術は、実施の形態3に記載の技術と組み合わせることも可能である。
上記の実施の形態3では、端末装置で取得した音声信号をサーバ装置へ送信し、サーバ装置において話者の識別と話者に関する情報の管理を行っているが、本実施の形態4では、端末装置において話者の識別と話者に関する情報の管理を行い、話者に関する情報のみが、端末装置からサーバ装置へ送信される。これにより、実施の形態4におけるコンテンツ提供システムは、送信するデータ量を削減することができ、低容量の通信回線にも対応することができる。
以下、本実施の形態4におけるコンテンツ提供システムの構成について説明する。
(コンテンツ提供システムの構成)
図27は、本発明の実施の形態4に係るコンテンツ提供システムの構成の一例を示すブロック図である。図27において、図19と同じ構成要素については、同一の符号を付し、説明を省略する。
図27に示すコンテンツ提供システム800は、サーバ装置550及び端末装置560を備える。
サーバ装置550は、サーバ通信部551、広告配信制御部554、及び配信広告DB(Data Base)516を備える。
端末装置560は、話者識別部512、端末通信部561、視聴者構成管理部562、視聴者構成DB(Data Base)515、音声取得部522、情報入力部523、及び表示部524を備える。
サーバ通信部551は、インターネット等の各種公衆回線である通信回線530を介して、回線データを受信する。そして、サーバ通信部551は、受信した回線データより、端末装置560によって送信された視聴者構成情報を抽出し、広告配信制御部514へ出力する。また、サーバ通信部551は、広告データを通信回線530へ回線データとして出力し、通信回線530を介して広告データを端末装置520へ送信する。
広告配信制御部554は、サーバ通信部551によって受信された視聴者構成情報に基づいて、配信広告DB516から広告データを選択し、選択した広告データをサーバ通信部551に出力する。
端末通信部561は、インターネット等の各種公衆回線である通信回線530を介して、回線データを受信する。端末通信部561は、サーバ装置550によって送信された広告データを受信し、受信した広告データを表示部524へ出力する。また、端末通信部561は、視聴者構成管理部562によって出力された視聴者構成情報を回線データに変換し、通信回線530へ出力する。
視聴者構成管理部562は、話者識別部512によって新規話者が検出された場合は、表示部524に登録促進信号を送信する。また、視聴者構成管理部562は、情報入力部523を用いて視聴者によって入力された視聴者音声信号及び視聴者タグデータを取得し、視聴者構成DB515の情報を更新する。また、視聴者構成管理部562は、視聴者構成DB515の視聴者構成情報を端末通信部561に出力する。
以上で、コンテンツ提供システム800の構成の説明を終える。
(コンテンツ提供システムの動作)
次に、コンテンツ提供システム800の動作について説明する。なお、各装置(端末装置560及びサーバ装置550)の詳細な動作に関しては後述する。ここでは、コンテンツ提供システム800全体の大まかな動作及び処理の流れを説明する。
図28は、本発明の実施の形態4におけるコンテンツ提供システム800の動作の一例を示すシーケンス図である。なお、図28では、端末装置560に新たな視聴者が検出された場合について示す。
まず、端末装置560の音声取得部522は、端末装置560の視聴者の音声信号を取得する(ステップS121)。なお、ステップS121の処理は、図18におけるコンテンツ提供システム400の音声取得部401による処理に相当する。音声取得部522は、取得した視聴者音声信号を、話者識別部512に出力する。
次に、話者識別部512は、音声取得部522によって取得された視聴者音声信号と、端末装置560の視聴者に関する情報を格納する視聴者構成DB515とを用いて話者を識別する(ステップS122)。ステップS122の処理は、図18におけるコンテンツ提供システム400の話者識別部402による処理に相当する。視聴者構成DB515は、端末装置560を利用する視聴者の視聴者構成情報のみを記憶する。視聴者構成情報は、図24に示すように、ニックネーム、年齢、性別及び音声信号を関連付けた情報である。
次に、話者識別部512は、視聴者構成DB515に登録されていない新規の話者を検出する(ステップS123)。すなわち、話者識別部512は、視聴者構成DB515に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在する場合、視聴者音声信号に対応する話者が当該登録音声信号に対応する話者であると判断する。一方、話者識別部512は、視聴者構成DB515に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在しない場合、視聴者音声信号に対応する話者が、視聴者構成DB515に登録されていない新規話者であると判断する。これにより、新規の話者が検出される。
視聴者構成DB515に登録されていない新規の話者が検出されると、視聴者構成管理部562は、表示部524に対して、新規話者に関連付けられるタグ情報のデータベースへの登録を促すための登録促進画面を表示するように指示する。このとき、新規話者の検出は、新規話者の音声信号が所定期間(数日間)継続して検出されることなどを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声であるとして誤って識別してしまうことを回避することができる。
次に、表示部524は、新規話者に関連付けられるタグ情報の入力を促進するための登録促進画面を表示する(ステップS124)。ステップS124の処理は、図18におけるコンテンツ提供システム400の表示部407による処理に相当する。登録促進画面は、番組などのコンテンツが表示される表示画面の端部などのコンテンツの視聴の妨げにならない位置に表示してもよい。また、登録促進画面は、端末装置560の電源ON/OFF時などのコンテンツの視聴の妨げにならないタイミングで表示してもよい。
次に、情報入力部523は、視聴者音声信号及び視聴者音声信号に関連付けられる視聴者に関する情報(視聴者タグデータ)を含む新規話者情報の入力を受け付ける(ステップS125)。新規話者は、登録促進画面の表示に従い、新規話者情報を入力する。ステップS125の処理は、図18におけるコンテンツ提供システム400の情報入力部404による処理に相当する。なお、新規話者情報入力時に端末装置560の表示部524に表示される登録促進画面については、実施の形態3において図21〜図23を用いて既に説明した通りである。そのため、詳細な説明は省略する。
入力処理が完了した後、視聴者構成管理部562は、新規話者の視聴者タグデータ及び視聴者音声信号を視聴者構成DB515に記憶することにより、実施の形態1と同様に、視聴者構成DB515を更新する(ステップS126)。視聴者構成DB515のデータ構成は、図24に示した通りである。ステップS126の処理は、図18におけるコンテンツ提供システム400の視聴者構成管理部403による処理に相当する。
次に、端末通信部561は、話者識別部512によって識別された話者又は新規話者の視聴者構成情報を、通信回線530を介してサーバ装置550へ送信する(ステップS127)。サーバ装置550へ送信される視聴者構成情報は、音声信号に関連付けられている複数の情報のうちの全てであってもよいし、一部であってもよい。すなわち、視聴者構成情報は、年齢及び性別のうちの少なくとも1つを含み、話者に提供すべき広告を特定することが可能な情報であればよい。本実施の形態では、端末通信部561は、話者識別部512によって識別された話者又は新規話者の年齢及び性別を含む視聴者構成情報をサーバ装置550へ送信する。サーバ装置550のサーバ通信部551は、端末装置560によって送信された視聴者構成情報を受信する。
次に、サーバ装置550の広告配信制御部554は、受信した視聴者構成情報に基づいて、端末装置560に配信する広告データを配信広告DB516から選択する(ステップS128)。ここで、広告の選択方法については特に限定しない。例えば、配信広告DB516は、年齢及び性別に対応付けて、配信する広告データを記憶している。例えば、40歳代の男性には、車の広告が対応付けられており、30歳代の女性には、化粧品の広告が対応付けられており、広告配信制御部514は、ユーザの年齢及び性別に応じた最適な広告を選択する。ステップS128の処理は、図18におけるコンテンツ提供システム400のコンテンツ配信制御部405による処理に相当する。
次に、サーバ通信部551は、広告配信制御部514によって選択された広告データを、通信回線530を介して端末装置560に送信する(ステップS129)。端末装置560の端末通信部561は、サーバ装置550によって送信された広告データを受信する。
次に、端末装置560の表示部524は、サーバ装置550から配信された広告データを表示する(ステップS130)。ステップS130の処理は、図18におけるコンテンツ提供システム400のコンテンツ配信部406による処理に相当する。
以上で、コンテンツ提供システム800の動作の説明を終える。
(サーバ装置の動作)
次に、本実施の形態4におけるコンテンツ提供システム800のサーバ装置550の動作について説明する。
図29は、本発明の実施の形態4におけるサーバ装置550の動作の一例を示すフローチャートである。サーバ装置550は、例えば図29に示す動作を、電源スイッチ又は電源スイッチに関連する機能がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。
まず、ステップS141において、サーバ装置550のサーバ通信部551は、通信回線530より回線データを受信する。このとき、サーバ通信部551は、端末装置560によって送信された視聴者構成情報を取得し、広告配信制御部554へ出力する。
次に、ステップS142において、広告配信制御部554は、取得された視聴者構成情報に含まれる年齢及び性別を示す視聴者タグデータに基づき、広告データを配信広告DB516から選択し、選択した広告データをサーバ通信部551に出力する。
次に、ステップS143において、サーバ通信部551は、広告配信制御部514によって選択された広告データを、通信回線530を介して端末装置560へ送信する。
以上で、サーバ装置550の動作の説明を終える。
(端末装置の動作)
次に、本実施の形態4におけるコンテンツ提供システム800の端末装置560の動作について説明する。
図30は、本発明の実施の形態4における端末装置560の動作の一例を示すフローチャートである。端末装置560は、例えば図30に示す動作を、電源スイッチ又は電源スイッチに関連する機能がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。
まず、ステップS151において、音声取得部522は、端末装置520の周辺にいる視聴者が発話した音声を表す視聴者音声信号を取得する。音声取得部522は、取得した視聴者音声信号を話者識別部512へ出力する。
次に、ステップS152において、話者識別部512は、取得した視聴者音声信号に対応する話者を識別する。話者識別部512は、取得した視聴者音声信号と、視聴者構成DB515とを照合することで、話者を識別する。
次に、ステップS153において、話者識別部512は、話者識別結果を用いて、新規話者を検出したか否かを判断する。話者識別部512は、受信した視聴者音声信号が視聴者構成DB515に登録されていなければ、新規話者を検出したと判断し、受信した視聴者音声信号が視聴者構成DB515に登録されていれば、新規話者を検出していないと判断する。なお、新規話者の検出は、所定期間(数日間)にわたり視聴者構成DB515に存在していない話者であることを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声として誤って識別してしまうことを回避することができる。ここで、新規話者を検出したと判断された場合(ステップS153でYES)、ステップS154の処理へ進む。一方、新規話者を検出していないと判断された場合(ステップS153でNO)、ステップS157の処理へ進む。
次に、ステップS154において、表示部524は、新規話者に関する情報の入力を促すための登録促進画面を表示する。ここで、情報入力部523は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力を受け付ける。
ステップS155において、視聴者構成管理部562は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力が完了したか否かを判断する。入力が完了していないと判断された場合(ステップS155でNO)、ステップS154の処理へ戻り、表示部524は、継続して登録促進画面を表示する。一方、入力が完了したと判断された場合(ステップS155でYES)、ステップS156の処理へ進む。
次に、ステップS156において、視聴者構成管理部562は、視聴者構成DB515を更新する。具体的には、視聴者構成管理部562は、情報入力部523によって入力された視聴者タグデータと、音声取得部522によって取得された視聴者音声信号とを用いて視聴者構成DB515を更新する。図24に示すように、視聴者構成DB515は、新規話者のニックネームごとに、年齢、性別及び視聴者音声信号を関連付けて記憶することにより、更新される。
次に、ステップS157において、視聴者構成管理部562は、視聴者構成情報を端末通信部561に出力し、端末通信部561は、視聴者構成情報を、通信回線530を介してサーバ装置550へ送信する。
次に、ステップS158において、端末通信部561は、サーバ装置550によって送信された広告データを受信する。
次に、ステップS159において表示部524は、端末通信部561によって受信された広告データを表示する。
以上で、端末装置560の動作についての説明を終える。
以上のような動作により、話者の識別と話者に関する情報の管理とが端末装置で行われるので、端末装置から送信されるデータを、広告データを選択するために必要な話者に関する情報のみの少ないデータに削減することができる。これにより、通信回線が低容量である場合でも、視聴者に応じた適切な広告を配信するコンテンツ提供システムを提供することができる。
なお、実施の形態3,4において、視聴者構成DBは、ニックネーム、年齢、性別及び音声信号を互いに関連付けるだけでなく、家族関係を示す情報をさらに関連付けてもよい。家族関係を示す情報とは、視聴者が例えば父、母及び子供のいずれであるかを示す情報である。この場合、配信広告DBは、家族構成と、広告データとを対応付けて記憶してもよく、コンテンツ配信制御部405は、視聴者の家族構成を示す情報を取得し、取得した家族構成に対応する広告データを配信広告DBから選択してもよい。家族構成を示す情報とは、例えば、視聴者の家族が父、母及び子供で構成されていることを示す情報である。
これにより、家庭内の家族構成に応じた広告データを配信することができる。
また、実施の形態3,4において、視聴者構成DBは、ニックネーム、年齢、性別及び音声信号を互いに関連付けるだけでなく、家族関係を示す情報と視聴者によって視聴された番組に関する情報とをさらに関連付けてもよい。家族関係を示す情報とは、視聴者が例えば父、母及び子供のいずれであるかを示す情報である。番組に関する情報とは、例えば、端末装置で視聴されたテレビ番組の番組名、チャンネル番号、放送日時及び出演者を表す情報である。この場合、コンテンツ配信制御部405は、視聴者の家族構成を示す情報を取得し、取得した家族構成と同じ家族構成である他の視聴者の番組に関する情報を取得し、他の視聴者が視聴した番組を、識別された話者に提供してもよい。
これにより、家族構成が同じ他の視聴者によって視聴された番組を、識別された話者に提供することができる。
また、本実施の形態では、端末装置に広告データを提供しているが、本発明は特にこれに限定されず、端末装置に番組データを提供してもよい。