JPWO2013084422A1

JPWO2013084422A1 - 情報処理装置、通信端末、情報検索方法、及びプログラム

Info

Publication number: JPWO2013084422A1
Application number: JP2013548069A
Authority: JP
Inventors: 光洋渡邊
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-12-08
Filing date: 2012-11-15
Publication date: 2015-04-27
Also published as: WO2013084422A1

Abstract

一実施形態では、情報処理装置（１）は、指定制御部（１４）及び検索制御部（１５）を含む。指定制御部（１４）は、ディスプレイ（１２）に表示されている動画に映った被写体の属性情報の検索のために、当該動画に含まれる対象画像の指定を利用者による入力デバイス（１３）の操作によって受け付ける。検索制御部（１５）は、対象画像又はその代替画像を検索システム（９）に送信するとともに、対象画像又は代替画像に基づいて検索された属性情報を検索システム（９）から受信する。さらに、指定制御部（１４）は、利用者の操作の実行に要する遅延時間を補償するために、当該操作の完了時点よりも前にディスプレイ（１２）に表示されていた画像を対象画像として決定する。

Description

本発明は、動画に表示されている被写体の関連情報を検索する技術に関する。

ある画像をもとに類似画像を検索し、さらに検索された類似画像に関連付けられた属性情報を取得する技術が知られている（例えば、特許文献１及び２を参照）。特許文献１は、夜空の撮影画像をもとに類似画像検索を行うことによって星座を特定し、特定された星座に関する情報を提供するシステムを開示している。また、特許文献２は、医療分野における診断画像をもとに類似画像の検索を行い、検索された類似画像に関連付けられた症例データを提供するシステムを開示している。

一方、特許文献３は、テレビジョン放送等の動画に表示されている被写体（e.g. 俳優が身に付いけている衣装）の属性情報（e.g. 販売者、価格）を検索する技術を開示している。より具体的に述べると、特許文献３に開示された検索システムは、視聴者が選択した被写体を特定するために、動画の識別情報（e.g. チャンネル番号および放送日時）と、画面内での選択位置及び範囲を示す情報を視聴者側の端末からサーバに送信する。そして、サーバは、動画の識別情報と選択位置及び範囲を示す情報に関連付けられた属性情報を検索し、得られた属性情報を端末に送信する。

特許文献１及び２に開示されている一般的な類似画像検索は、画像照合技術を利用している。すなわち、２つの画像の特徴量を比較することで類似度を評価する。これに対して、特許文献３は、動画の識別情報（e.g. チャンネル番号および放送日時）と画面内での選択位置及び範囲を示す情報をキーとして検索を行うものであって、いわゆる類似画像検索を行うものではない。

特開２００５−１７４２４０号公報特開２００４−００５３６４号公報特開２００２−３３４０９２号公報

視聴者が動画を閲覧している際に、その動画に表示されている被写体の属性情報を知りたいと思っても、それを即座に検索するためには問題が存在する。ここで、視聴者によって閲覧される動画は、例えば、テレビ放送、映画、又はスポーツ競技若しくはコンサート等を撮影したビデオなどである。また、この動画は、携帯通信端末（e.g. スマートフォン、タブレットコンピュータ、ノートＰＣ（Personal Computer））に搭載されたカメラによる撮影画像を当該端末のディスプレイに実質的にリアルタイムに表示したものであってもよい。また、この動画は、記録媒体（e.g. 光ディスク、ハードディスク、フラッシュメモリ）や通信媒体から取得された符号化動画データ（e.g. MPEG-2データ、MPEG-4データ）の再生画像であってもよい。また、被写体は、例えば、人、動物、植物、製品、アニメキャラクターなどである。そして、被写体の属性情報は、例えば、名前、国籍、出身地、又は生年月日等の人物プロフィール、キャラクターの名称、製品名、製造者、発売日、価格、ＵＲＬ（Uniform Resource Locator）などである。

より具体的に述べると、動画に表示されている被写体の属性情報の検索に際して、視聴者は、検索を希望する被写体が映った対象画像を指定する操作を行う必要がある。しかしながら、動画の表示画面は刻々と変化するため、この対象画像の選択操作を行うことが難しいという問題がある。特許文献１〜３のいずれも、この問題の解決に寄与する技術について何ら開示していない。

本発明は、本件発明者による上述した知見および考察に基づいてなされたものであり、動画に表示されている被写体の属性情報の検索に際して、被写体が映った対象画像を動画中から指定する操作を容易化することが可能な情報処理装置、通信端末、情報検索方法、及びプログラムの提供を目的とする。

本発明の第１の態様は、情報処理装置を含む。当該情報処理装置は、指定制御部及び検索制御部を含む。前記指定制御部は、ディスプレイに表示されている動画に映った被写体の属性情報の検索のために、前記動画に含まれる対象画像の指定を利用者による入力デバイスの操作によって受け付ける。前記検索制御部は、前記対象画像又はその代替画像を検索システムに送信するとともに、前記対象画像又は前記代替画像に基づいて検索された属性情報を前記検索システムから受信する。さらに、前記指定制御部は、前記操作の実行に要する遅延時間を補償するために、前記操作の完了時点以前である基準時点よりも前に前記ディスプレイに表示されていた画像を前記対象画像として決定する。

本発明の第２の態様は、通信端末を含む。当該通信端末は、上述した本発明の第１の態様に係る情報処理装置、ディスプレイ、入力デバイス、及び通信部を含む。当該通信部は、前記検索制御部による前記対象画像の送信、及び前記属性情報の受信のために使用される。

本発明の第３の態様は、情報処理装置による情報検索方法を含む。当該情報検索方法は、以下のステップ（ａ）〜（ｃ）を含む。
（ａ）ディスプレイに表示されている動画に映った被写体の属性情報の検索のために、前記動画に含まれる対象画像の指定を利用者による入力デバイスの操作によって受け付けること、
（ｂ）前記対象画像又はその代替画像を検索システムに送信すること、及び
（ｃ）前記対象画像又は前記代替画像に基づいて検索された属性情報を前記検索システムから受信すること。
さらに、（ａ）における前記受け付けることは、前記操作の実行に要する遅延時間を補償するために、前記操作の完了時点以前である基準時点よりも前に前記ディスプレイに表示されていた画像を前記対象画像として決定することを含む。

本発明の第３の態様は、上述した本発明の第３の態様に係る情報検索方法をコンピュータに行わせるためのプログラムを含む。

上述した本発明の各態様によれば、動画に表示されている被写体の属性情報の検索に際して、被写体が映った対象画像を動画中から指定する操作を容易化することが可能な情報処理装置、通信端末、情報検索方法、及びプログラムを提供できる。

本発明の実施の形態１に係る通信端末を含むネットワーク構成図である。本発明の実施の形態１に係る通信端末の構成例を示すブロック図である。本発明の実施の形態１に係る通信端末による情報検索方法の具体例を示すフローチャートである。本発明の実施の形態１に係る通信端末における対象画像の指定操作を説明するための図である。本発明の実施の形態１に係る通信端末における対象画像の指定操作を説明するための図である。本発明の実施の形態１に係る通信端末における対象画像の指定操作を説明するための図である。本発明の実施の形態１に係る通信端末における対象画像の指定操作を説明するための図である。本発明の実施の形態１に係る通信端末における対象画像の指定操作を説明するための図である。本発明の実施の形態１に係る通信端末の他の構成例を示すブロック図である。本発明の実施の形態２に係る通信端末による情報検索方法の具体例を示すフローチャートである。本発明の実施の形態３に係る通信端末による情報検索方法の具体例を示すフローチャートである。本発明の実施の形態４に係る通信端末の構成例を示すブロック図である。本発明の実施の形態４に係る通信端末による情報検索方法の具体例を示すフローチャートである。発明の実施の形態４に係る通信端末による代替画像の指定方法の具体例を示すフローチャートである。本発明の実施の形態５に係る通信端末の構成例を示すブロック図である。本発明の実施の形態５に係る通信端末による情報検索方法の具体例を示すフローチャートである。

以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。

＜発明の実施の形態１＞
図１は、本実施の形態に係る通信端末を含むネットワーク構成を示す図である。通信端末１は、無線又は有線のトランシーバを有し、ネットワーク８を介して検索システム９と通信可能である。通信端末１の具体例は、携帯電話端末、スマートフォン、タブレットコンピュータ、ノートＰＣ、デスクトップＰＣ、通信機能を有するテレビ放送受信機を含む。ネットワーク８は、ＩＰ（Internet Protocol）ネットワーク等のデータ転送網である。ネットワーク８は、有線ネットワークでもよいし、無線ネットワークでもよいし、これらの組み合わせであってもよい。ネットワーク８は、例えば、通信事業者の無線アクセスネットワーク及びパケットコアネットワーク、ＩＰ専用線、公衆インターネットを含む。

通信端末１は、ディスプレイに表示されている動画に映った被写体の属性情報の検索のために、視聴者によって動画中から選択された対象画像を検索システム９に送信する。対象画像は、１画面（１フレーム）分の画像でもよいし、画面内の一部に相当する部分画像であってもよい。通信端末１における対象画像の選択方法の詳細については後述する。

検索システム９は、通信端末１から受信した対象画像を用いて類似画像検索を行うことにより、対象画像に映されている被写体を特定する。さらに、検索システム９は、特定された被写体に関連する属性情報を通信端末１に送信する。被写体は、上述したように、例えば、人、動物、植物、製品、アニメキャラクターなどである。また、被写体の属性情報は、例えば、名前、国籍、出身地、又は生年月日等の人物プロフィール、キャラクターの名称、製品名、製造者、発売日、価格、ＵＲＬ（Uniform Resource Locator）などである。

検索システム９は、インターネット上に配置された汎用的な画像検索サーバであってもよい。また、検索システム９は、特定の動画に特化した検索システムであってもよい。例えば、検索システム９は、テレビ放送に表示される人物（出演者）の検索に特化したシステムであってもよい。この場合、検索システム９は、検索が行われる時間帯に放送されているテレビ番組の情報を利用することで、対象画像と優先的に照合すべき画像を決定してもよい。具体的には、検索システム９は、検索が行われる時間帯に放送されているテレビ番組の出演者の画像を優先的に対象画像と照合すればよい。

上述したように、通信端末１は、視聴者（i.e. 端末１の利用者）によって動画中から選択された対象画像を検索システム９に送る。そのために、視聴者は、検索を希望する被写体が映った対象画像を指定する操作を通信端末１に対して行う必要がある。しかしながら、視聴者が被写体の検索を決意してから視聴者がこの操作をし終えるまでに動画の表示内容が変化し、視聴者が検索しようとした被写体が画面内の別の位置に移動したり、画面内に存在しなくなったりすることが想定される。つまり、動画の表示画面は刻々と変化するため、この対象画像の選択操作を行うことが難しいという問題がある。

例えば、動画中の被写体を指定する方法の１つとして、通信端末のディスプレイに所望の被写体が表示されたタイミングにおいて、入力デバイス１３としてのタッチパネルを視聴者が操作することが考えられる。例えば、その下のディスプレイに所望の被写体が表示されているタッチパネル上の範囲を視聴者が指で囲むように（e.g. 円を描くように）触ることによって、被写体の指定を行えばよい。しかしながら、動画の表示内容は時間の経過に従って変化する。このため、視聴者が被写体の検索を決意してからタッチパネルの操作を終えるまでに動画の表示内容が変化し、視聴者が検索しようとした被写体が画面内の別の位置に移動したり、画面内に存在しなくなったりすることが想定される。

この問題に対処するため、通信端末１は、この対象画像を指定する操作を支援する機能を有する。すなわち、通信端末１は、視聴者による操作の実行に要する遅延時間を補償するために、視聴者の操作に基づいて定まる基準時点より前にディスプレイに表示されていた画像を対象画像として決定するよう構成されている。ここで、基準時点は、視聴者の操作の完了時点以前である。以下では、通信端末１の構成例及び動作について詳細に説明する。

図２は、通信端末１の構成例を示すブロック図である。図２に示された通信端末１は、無線通信機能を有する。プロセッサ１０は、端末１の制御、監視、情報処理を行う。プロセッサ１０は、複数のコンピュータ（e.g. ＭＰＵ（Micro Processing Unit）、マイクロコントローラ）の組み合わせであってもよい。より具体的に述べると、プロセッサ１０は、動画に表示されている被写体の属性情報の検索を実現するために、ディスプレイ１２への動画表示、対象画像を選択する操作の受付、検索システム９とのデータ送受信を行う。プロセッサ１０は、指定制御部１４及び検索制御部１５を含む。指定制御部１４及び検索制御部１５の詳細については後述する。

無線通信部１１は、基地局（又は無線アクセスポイント）を介して無線通信ネットワークに接続する。無線通信部１１は、送信データに対する伝送路符号化、インタリービング、変調（送信シンボルマッピング）、周波数アップコンバージョン、信号増幅等の各処理を行って送信信号を生成する。また、無線通信部１１は、アンテナによる受信信号に対して信号増幅、周波数ダウンコンバージョン、復調、誤り訂正復号等の各処理を行って受信データを生成する。無線通信部１１には、公知のセルラ通信方式、例えば、ＵＴＲＡ（UMTS Terrestrial Radio Access）、Ｅ−ＵＴＲＡ（Evolved UTRA）、ＧＳＭ（Global System for Mobile Communications）（登録商標）、無線ＬＡＮ（Local Area Network）、ＷｉＭＡＸ（Worldwide Interoperability for Microwave Access）等に準拠した送受信機を用いればよい。

ディスプレイ１２は、視聴者（端末１の利用者）が視認できるように動画を含む画像の表示を行う。ディスプレイ１２の具体例は、液晶ディスプレイ（ＬＣＤ：Liquid Cristal Display）、ＥＬ（electroluminescence）ディスプレイ、ＣＲＴ（Cathode Ray Tube）ディスプレイである。

ディスプレイ１２に表示される動画は、通信端末１に搭載されたカメラ（不図示）によって撮影された映像であってもよい。また、この動画は、通信端末１に内蔵されたメモリ（e.g. 光ディスク、ハードディスク、フラッシュメモリ）又は無線通信部１１を介してアクセス可能な外部装置から取得された符号化動画データ（e.g. MPEG-2データ、MPEG-4データ）の再生画像であってもよい。

入力デバイス１３は、ユーザによる操作を受け付けるデバイスである。入力デバイス１３は、視聴者（端末１の利用者）の手によって操作されるポインティングデバイス、視聴者の音声を集音するマイクロフォン、及び視聴者の視線によって操作されるポインティングデバイスのうち少なくとも１つを含む。また、視聴者の手によって操作されるポインティングデバイスの具体例は、タッチパネル、タッチパッド、及びマウスを含む。

指定制御部１４は、ディスプレイ１２に表示されている動画に映った被写体の属性情報の検索のために、この動画に含まれる対象画像の指定を視聴者による入力デバイス１３の操作によって受け付ける。例えば、入力デバイス１３がタッチパネルである場合、視聴者は、ディスプレイ１２に所望の被写体が表示されているタイミングにおいて、被写体の表示範囲を指で囲むように（e.g. 円を描くように）タッチパネルを触ることによって、被写体の指定を行えばよい。また、視聴者は、被写体の指定のために、被写体の一点をタッチする操作を行なってもよい。この場合、指定制御部１４は、視聴者によってタッチされた一点を含む領域に対して顔認識などの画像認識処理を行うことによって、被写体が含まれる画像領域を特定すればよい。

入力デバイス１３がその他のポインティングデバイスである場合、視聴者は、被写体の表示範囲をポインタで囲むように（e.g. 円を描くように）、ポインティングデバイスを操作すればよい。また、視聴者は、被写体の指定のために、被写体の一点をポインタで指定する操作を行なってもよい。

また、入力デバイス１３がマイクロフォンを含む場合、視聴者は被写体を特定するための単語又はフレーズ（e.g. 男性、女性、犬、猫、花、自動車など）をマイクロフォンに入力してもよい。この場合、後述する検索制御部１５は、視聴者が単語又はフレーズを入力したタイミングによって対象画像を特定してもよいし、視聴者による他の入力デバイス（e.g. タッチパネル、マウス、操作ボタン等）の操作によって対象画像を特定してもよい。このとき、対象画像は、部分画像ではなく一画面全体の画面画像であってもよい。検索制御部１５は、画面画像としての対象画像と、視聴者が入力した単語又はフレーズとを検索システム９に送信すればよい。検索システム９は、視聴者が入力した単語又はフレーズに対応する被写体を対象画像の中から認識し、この認識した被写体像を用いて類似画像検索を行えばよい。

さらに、指定制御部１４は、視聴者による対象画像の指定操作の実行に要する遅延時間を補償するために、視聴者による操作に基づいて定まる基準時点より前にディスプレイ１２に表示されていた画像を対象画像として決定する。ここで、基準時点は、視聴者による操作の完了時点以前である。言い換えると、指定制御部１４は、少なくとも操作の完了時点より前にディスプレイ１２に表示されていた画像を対象画像として決定する。基準時点は、例えば、対象画像の指定操作の完了時点、当該指定操作の開始時点、又は当該指定操作に要した期間の中央の時点とすればよい。

視聴者による操作の基準時点（e.g. 操作の完了時点）よりどの程度前の画像を対象画像とするかは、静的に定めてもよいし、視聴者に応じて又は動画に応じて変更してもよい。静的に定める場合には、人の平均的な反応速度を考慮して、基準時点から遡る期間（以下、シフト時間と呼ぶ）を決定すればよい。

一方、視聴者に応じてシフト時間を動的に定める場合には、視聴者の反応速度を測定するキャリブレーションを行なってもよい。具体的には、テスト用の動画を表示し、テスト用の動画に特定の被写体が映し出された後に視聴者がその被写体の表示範囲を選択する操作を完了するまでに要する時間を計測し、計測された時間の長さに応じてシフト時間を決定すればよい。また、人の平均的な反応速度に基づいたシフト時間の初期値を視聴者が自由に変更できるようにしてもよい。例えば、視聴者が端末１を操作することによって、シフト時間が長すぎること（過去に遡り過ぎであること）及びシフト時間が短すぎること（遡りが不十分であること）を補正できるようにしてもよい。視聴者が対象画像を指定する操作の完了までに要する時間は、視聴者の年齢などの影響によって個々に異なると想定される。したがって、シフト時間を視聴者に応じて変更することで、視聴者が意図した対象画像をより適切に特定することができる。

また、動画に応じてシフト時間を動的に定める場合には、動画に映った被写体の動きの速さに応じてシフト時間を変更するとよい。動画に応じてシフト時間を変更する具体例については、他の実施の形態（実施の形態３）において詳しく説明する。

検索制御部１５は、指定制御部１４により特定された対象画像又はその代替画像を、無線通信部１１を介して検索システム９に送信する。そして、検索制御部１５は、対象画像又はその代替画像に基づいて検索された属性情報を、無線通信部１１を介して検索システム９から受信する。ここで代替画像は、指定制御部１４により特定された対象画像と実質的に同一の被写体を含むが、対象画像よりも画質が優れる等の理由によって類似画像検索に適した画像である。代替画像を利用する例については、他の実施の形態（実施の形態４）において詳細に説明する。

図３は、本実施の形態に係る通信端末１による情報検索方法の具体例を示すフローチャートである。ステップＳ１では、通信端末１は、ディスプレイ１２に動画を表示する。ステップＳ２では、通信端末１は、対象画像を指定するための視聴者による入力デバイス１３の操作を受け付ける。ステップＳ３では、通信端末１は、視聴者による操作の基準時点より前に表示された画像、言い換えると、少なくとも視聴者による操作の完了時点より前にディスプレイ１２に表示されていた画像、を対象画像として決定する。ステップＳ４では、通信端末１は、決定された対象画像又はその代替画像を検索システム９に送信する。最後に、ステップＳ５では、通信端末１は、検索システム９から属性情報を受信する。

続いて以下では、シフト時間を用いて対象画像の特定を行うことの利点について、図４Ａ〜４Ｄ並びに図５を用いて説明する。なお、図４Ａ〜４Ｄ並びに図５は、一例として、入力デバイス１３がタッチパネルである場合について示している。視聴者は、被写体の表示範囲を指で囲むようにタッチパネルを指で触ることによって、部分画像としての対象画像を指定する。

図４Ａ〜４Ｃの各々は、被写体４０１が映されたディスプレイ１２の一画面の画像４０を示している。ここでは、被写体４０１は、人物である。ディスプレイ１２の表示は、時間の経過にそって、図４Ａ、図４Ｂ、図４Ｃの順序で変化するものとする。つまり、図４Ａ〜４Ｃにて白抜き矢印で示されているように、被写体４０１は、画面の右方向に移動する。

視聴者は、図４Ａのタイミングにおいて被写体４０１の属性情報の検索を決意し、図４Ｂのタイミングにおいて被写体４０１の顔部分を囲むように選択する操作を開始する。図４Ｂの操作軌跡４０２は、視聴者が指で触った軌跡を示している。そして、図４Ｃの操作軌跡４０３は、視聴者が操作を完了した時点の操作軌跡を示している。しかしながら、動画の表示内容は刻々と変化する。したがって、図４Ｃの時点では、被写体４０１は、画面右方向に移動しており、視聴者による操作軌跡４０３によって囲まれた範囲内に所望の被写体４０１の像は存在していない。

このような視聴者の操作の実行に要する遅延時間を補償するため、本実施の形態に係る通信端末１は、例えば、操作の完了時点を基準時点とし、基準時点よりも予め定められたシフト時間（又は、視聴者若しくは動画に応じて決定されたシフト時間）だけ前の画像を対象画像として採用する。例えば、シフト時間によって操作の開始時点まで遡ることによって、図４Ｄに示す画像４３のように、被写体４０１を正しく選択することが可能となる。

なお、図４Ａ〜４Ｄの例は、視聴者が操作を開始してから操作を完了するまでの遅延時間の補償について説明した。しかしながら、視聴者が検索の実施を決意してから、そのための操作を開始するまでにも遅延時間が存在する。例えば、視聴者が動画中の被写体を検索しようとしてから実際に入力デバイス１３を操作するまでの遅延時間の間に動画の表示内容が変化し、被写体が表示されなくなることが想定される。この問題に対処するためには、例えば、視聴者の操作の開始時点を基準時点とし、視聴者の操作の開始時点からシフト時間だけ前の表示画像を対象画像として選択すればよい。これにより、視聴者が検索の実施を決意した時点に近い表示画像を対象画像として選択することができる。

図４Ａ〜４Ｄに示した対象画像の指定手順は一例に過ぎない。対象画像（被写体）の指定を容易にするため、又は対象画像（被写体）を指定する操作に要する遅延時間を短くするためには、対象画像（被写体）を指定する操作をより簡易化できるとよい。例えば、通信端末１（指定制御部１４）は、動画中に表示された被写体を自動認識し、自動認識された被写体の中から選択対象とすべき被写体の指定を視聴者の操作によって受け付けてもよい。人物を特定する場合、図５に示すように、通信端末１は、被写体４０１が映されたディスプレイ１２の一画面の画像４０に対して顔認識処理を行い、検出された人物の顔を含む顔領域を示す枠４０４を画像４０に重ねて表示してもよい。そして、通信端末１は、例えば、入力デバイス１３を用いて、枠４０４を指定する視聴者の操作を受け付ければよい。例えば、入力デバイス１３がタッチパネルである場合、視聴者が枠４０４又はその内側の領域をタッチする操作を、対象画像の指定操作として用いればよい。なお、画像４０に複数の被写体（e.g. 複数の人物）が表示されている場合、通信端末１は、検出された複数の被写体領域（e.g. 顔領域）を枠４０４等によって表示すればよい。つまり、通信端末１が、被写体の自動認識機能を用いて対象画像の候補を提示することによって、対象画像（被写体）を指定する操作をより簡易化できるため、対象画像（被写体）を指定する操作に要する遅延時間を短くできる。

しかしながら、図５に示したような被写体の自動認識機能を用いることで、視聴者の操作に要する時間が短縮された場合であっても、視聴者が検索の実施を決意してから、そのための操作を行うまでの遅延時間は少なくとも存在する。したがって、視聴者の操作に関する基準時点（e.g. 操作の開始時点、中央時点、又は完了時点）からシフト時間だけ前の表示画像を対象画像として選択すればよい。ここでのシフト時間は、視聴者が検索の実施を決意してから、そのための操作を行うまでの遅延時間を考慮して決定すればよい。これにより、視聴者が検索の実施を決意した時点に近い表示画像を対象画像として選択することができる。

動画の表示画面が刻々と変化するために、動画中の被写体（対象画像）の選択操作を行うことが難しいという問題は、あらゆる動画に関して発生し得ることは勿論である。したがって、本実施の形態に係る通信端末１は、ディスプレイ１２に表示される動画の種別に依らず有効である。しかしながら、動画中の被写体の指定に関する上述の問題は、視聴者がテレビ放送を見ている場合に特に影響が大きい。なぜなら、テレビ放送は、一般的に、視聴者自身の意思で自由に再生を一時停止したり、巻き戻したりすることができないためである。したがって、本実施の形態に係る通信端末１は、ディスプレイ１２に表示されている動画がテレビ放送である場合に特に有効である。

ところで、本実施の形態で説明した指定制御部１４及び検索制御部１５により行われる処理は、ＡＳＩＣ（Application Specific Integrated Circuit）を含む半導体処理装置を用いて実現してもよい。また、これらの処理は、マイクロプロセッサ、ＤＳＰ（Digital Signal Processor）等のコンピュータにプログラムを実行させることによって実現してもよい。図１〜４を用いて説明したアルゴリズムをコンピュータに行わせるための命令群を含む１又は複数のプログラムを作成し、当該プログラムをコンピュータに供給すればよい。

このプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

通信端末１がコンピュータシステムを用いて製造される場合の構成例を図６に示す。ＬＣＤ１２１は、ディスプレイ１２の具体例である。タッチパネル１３１及びマイク１３２は、入力デバイス１３の具体例である。不揮発性記憶部１０２（例えばフラッシュメモリ、又はハードディスクドライブ）に格納されたオペレーティングシステム（ＯＳ：Operating System）１０３及び検索アプリケーションプログラム１０４は、ＲＡＭ（Random Access Memory）１０１にロードされる。ＭＰＵ（Micro Processing Unit）１００がＲＡＭ１０１にロードされたＯＳ１０３及び検索アプリケーションプログラム１０４を実行することにより、指定制御部１４及び検索制御部１５の機能が実現される。

＜発明の実施の形態２＞
本実施の形態では上述した発明の実施の形態１にかかる通信端末１の第１の変形例について説明する。本実施の形態では、通信端末１は、視聴者の操作に関する基準時点（e.g. 操作開始時点、又は操作完了時点）より前の第１の期間内における動画のシーン変化の有無を判定する。そして、端末１は、シーン変化があった場合に、シーン変化より前の画像を対象画像として決定する。なお、シーン変化の有無は、基準時点に係る画像と基準時点より前の画像を比較することによって判定すればよい。具体的に述べると、２つの画像間において、画素毎又は複数の画素を含む画素ブロック毎の画素値の変化の大きさを計算し、画素値の変化量が所定の基準を超える場合にシーン変化有りと判定すればよい。

動画内での被写体の動きが小さい場合、視聴者は比較的容易に被写体を指定することができる。しかしながら、テレビ放送や映画においては、シーンが不連続に切り替わることがある。したがって、視聴者が被写体の検索を決意してからそのための操作を開始するまでの間にちょうどシーン変化が発生すると、視聴者は、被写体を検索する機会を失ってしまうおそれがある。しかしながら、本実施の形態では、シーン変化の有無を判定し、シーン変化があった場合に、シーン変化より前の画像を対象画像として決定する。このため、視聴者が検索を求める対象画像を適切に選択することができる。

図７は、本実施の形態に係る通信端末１による情報検索方法の具体例を示すフローチャートである。図７中のステップＳ１、Ｓ２、Ｓ４、及びＳ５における処理は、図３に示された同一符号のステップとそれぞれ同様である。したがって、これらのステップに関する重複説明は省略する。

図７のステップＳ３１〜Ｓ３４は、図３のステップＳ３の変形例を示している。ステップＳ３１では、通信端末１（指定制御部１４）は、視聴者による操作の基準時点（e.g. 操作の開始時点）より前の所定期間内におけるシーン変化の有無を判定する。なお、発明の実施の形態１で述べたことから理解されるように、ステップＳ３１の所定期間は、静的に決定されてもよいし、視聴者又は動画に応じて動的に決定されてもよい。シーン変化があった場合（ステップＳ３２でＹＥＳ）、通信端末１（指定制御部１４）は、シーン変化の前の画像を対象画像として決定する（ステップＳ３３）。一方、シーン変化が検出されなかった場合（ステップＳ３２でＮＯ）、通信端末１（指定制御部１４）は、視聴者による操作の基準時点の画像を対象画像として選択してもよいし、それより前の画像を選択してもよい（ステップＳ３４）。

＜発明の実施の形態３＞
本実施の形態では上述した発明の実施の形態１にかかる通信端末１の第２の変形例について説明する。本実施の形態では、通信端末１は、動画に含まれる被写体の動きの速さに応じて、シフト時間を変更する。言い換えると、本実施の形態に係る通信端末１は、動画に含まれる複数の画像の間における動きベクトルの大きさに応じて、シフト時間を変更する。

被写体の動きの速さを判定するためには、動画に含まれる複数の画像の間の動きベクトルを計算し、動きベクトルの大きさを求めればよい。例えば、動画に映った被写体の動きが早いほど、つまり動きベクトルが大きいほど、シフト時間が相対的に長くなるようにしてもよい。被写体の動きが早いほど、視聴者の操作に戸惑いが生じたり、正確に被写体を選択しようとするあまりに操作の完了まで時間を要したりすることが想定される。したがって、動画に映った被写体の動きが早いほど、つまり動きベクトルが大きいほど、シフト時間を大きくすることで、視聴者が意図した対象画像をより適切に特定することができる。

図８は、本実施の形態に係る通信端末１による情報検索方法の具体例を示すフローチャートである。図８中のステップＳ１、Ｓ２、Ｓ４、及びＳ５における処理は、図３に示された同一符号のステップとそれぞれ同様である。したがって、これらのステップに関する重複説明は省略する。

図８のステップＳ３５〜Ｓ３７は、図３のステップＳ３の変形例を示している。ステップＳ３５では、通信端末１（指定制御部１４）は、動画中の複数の画像間における動きベクトルを計算する。ステップＳ３６では、通信端末１（指定制御部１４）は、計算された動きベクトルの大きさに応じてシフト時間を決定する。ステップＳ３７では、通信端末１（指定制御部１４）は、視聴者による操作の基準時点よりシフト時間だけ前の表示画像を対象画像として決定する。

＜発明の実施の形態４＞
本実施の形態では上述した発明の実施の形態１にかかる通信端末１の第３の変形例について説明する。具体的には、本実施の形態は、指定制御部１４により決定された対象画像に対応する代替画像を検索システム９に送信する例を示す。

図９は、本実施の形態に係る通信端末４の構成例を示すブロック図である。通信端末４は、外部のテレビ受信機等に表示されているテレビ放送の画面を、端末４に搭載されたカメラ１６１によって撮影することにより得られる映像をディスプレイ１２に表示する。

指定制御部１４は、上述した実施の形態１〜３に記載されたいずれかの方法に従って、ディスプレイ１２に表示された動画（つまり、カメラ１６１によって撮影されたテレビ放送画面を含む映像）から対象画像を決定する。

検索制御部４５は、指定制御部１４により決定された対象画像に対応する代替画像を取得する。具体的に述べると、検索制御部４５は、カメラ１６１で撮影された後にディスプレイ１２に表示された対象画像と実質的に同一時刻におけるテレビ放送の画像を、端末１に搭載されたテレビチューナー１６２を用いることによって代替画像として取得する。

本実施の形態は、視聴者が一般的なテレビ放送受信機を用いてテレビ番組を視聴しているときに、その出演者の氏名などの属性情報を検索するケースを想定している。なお、カメラ１６１で撮影された後にディスプレイ１２に表示された動画に対して、上述した実施の形態１〜３で述べたいずれかの情報検索方法を用いることによっても、視聴者は、所望の属性情報を取得できることは勿論である。しかしながら、カメラ１６１で撮影されたテレビ放送画面は、端末４に搭載されたテレビチューナー１６２によって得られる映像よりも画質が劣る場合がある。例えば、テレビ放送受信機の画面を遠方から撮影している場合、又は撮影時に手ぶれが生じた場合に画質が劣化する。本実施の形態では、テレビチューナー１６２によって得られた映像を代替画像として用いるため、対象画像よりも画質が優れている代替画像を類似画像検索のために使用できる利点がある。

なお、代替画像を決定するためには、カメラ１６１により撮影されたテレビ放送画面のチャンネルを識別する必要がある。例えば、検索制御部４５は、カメラ１６１の画像とテレビチューナー１６２の画像とを比較することによって、若しくはマイクロフォン（不図示）によって取得された音声とテレビチューナー１６２の音声とを比較することによって、又はこれらの組み合わせによって、カメラ１６１により撮影されているテレビ放送画面とテレビチューナー１６２の映像とのチャンネルの一致を判定すればよい。また、検索制御部４５は、カメラ１６１によって撮影されたテレビ放送画面に含まれているチャンネル情報を文字検出してもよい。さらにまた、これらの自動的なチャンネルの識別に代えて、視聴者が端末４を操作することによってチャンネルを指定してもよい。

図１０は、本実施の形態に係る通信端末４による情報検索方法の具体例を示すフローチャートである。図１０中のステップＳ２、Ｓ３、及びＳ５における処理は、図３に示された同一符号のステップとそれぞれ同様である。したがって、これらのステップに関する重複説明は省略する。

ステップＳ１１では、通信端末４は、テレビ放送画面をカメラ１６１で撮影して得られる動画をディスプレイ１２に表示する。ステップＳ４１では、通信端末４は、ステップＳ３で決定された対象画像に関する代替画像を、テレビチューナー１６２によって得られる映像から取得する。ステップＳ４２では、通信端末４は、代替画像を検索システム９に送信する。

さらに、視聴者がカメラ１６１を用いてテレビ放送画面を撮影する場合、テレビ放送画面をカメラ１６１の画枠にぴったりと合わせて撮影できるとよい。しかしながら、被写体検索のためにテレビ放送画面を急いで撮影する場合を考慮すると、テレビ放送画面をカメラ１６１の画枠にぴったりと合わせて撮影することは容易ではない。また、視聴者の利便性を考えると、テレビ放送画面の撮影をもっと容易に行えることが望ましい。したがって、通信端末４は、カメラ１６１による撮影画像に映ったテレビ放送画面を検出してもよい。テレビ放送画面の検出を行う具体例について図１１を用いて説明する。

図１１は、図１０のステップＳ４１の具体例を示すフローチャートである。ステップＳ４１１では、検索制御部４５は、カメラ１６１による撮影画像の中からテレビ放送画面を検出する。具体的に述べると、検索制御部４５は、カメラ１６１による撮影画像の中からテレビ放送受信機の四角形のフレームを検知すればよい。

ステップＳ４１２では、検索制御部４５は、カメラ１６１による撮影画像内におけるテレビ放送画面の位置及び大きさに基づいて、視聴者（端末４の利用者）により選択された部分画像を特定する。

ステップＳ４１３では、検索制御部４５は、視聴者により選択された部分画像に対応するテレビチューナー１６２による映像を代替画像として決定する。

＜発明の実施の形態５＞
本実施の形態では上述した発明の実施の形態１にかかる通信端末１の第４の変形例について説明する。図１２は、本実施の形態に係る通信端末５の構成例を示すブロック図である。通信端末５は、録画制御部１６を有する。録画制御部１６は、テレビチューナー１６２を用いることにより、検索システム９から取得された属性情報に関連するテレビ放送番組を自動的に録画する。

図１３は、本実施の形態に係る通信端末５による情報検索方法の具体例を示すフローチャートである。図１３中のステップＳ１〜Ｓ５における処理は、図３に示された同一符号のステップとそれぞれ同様である。したがって、これらのステップに関する重複説明は省略する。

図１３のステップＳ６では、通信端末５（録画制御部１６）は、検索システム９から取得された属性情報に関連するテレビ放送番組を自動的に録画する。例えば、録画制御部１６は、属性情報に含まれる被写体の人名に対応する人物が出演するテレビ番組を自動的に録画すれよい。録画制御部１６は、テレビ番組表を取得したり、テレビ番組の出演者情報を保持するサーバ（例えば、World Wide Webサーバ）にアクセスしたりすることによって、属性情報に含まれる人名に対応する人物が出演するテレビ番組を決定すればよい。

本実施の形態によれば、通信端末５は、テレビ番組を視聴中の視聴者がその番組の出演者の画像を指定して画像検索を指示したことに応じて、その出演者が今後出演する他のテレビ番組を簡単に自動的に予約することができる。つまり、視聴者は、出演者の名前を知らない場合であっても、その出演者が出演する他の番組の録画予約を行うことができる。
＜その他の実施の形態＞

上述した発明の実施の形態１〜５では、ディスプレイ１２、入力デバイス１３、カメラ１６１、及びテレビチューナー１６２が、プロセッサ１０と共に、通信端末１、４、及び５に搭載されている例について説明した。しかしながら、これらのデバイスは、プロセッサ１０と結合されていればよく、一体の通信端末として構成される必要はない。例えば、これらのデバイス及びプロセッサ１は、無線ＬＡＮ又はＢｌｕｅｔｏｏｔｈ（登録商標）などの無線通信機能、若しくは有線通信機能を用いて通信可能であればよい。

さらに、本発明は上述した実施の形態のみに限定されるものではなく、既に述べた本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。

この出願は、２０１１年１２月８日に出願された日本出願特願２０１１−２６８９９４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１、４、５通信端末
１０プロセッサ
１１無線通信部
１２ディスプレイ
１３入力デバイス
１４指定制御部
１５検索制御部
１６録画制御部
４０〜４３画像
４５検索制御部
８ネットワーク
９検索システム
１００ＭＰＵ（Micro Processing Unit）
１０１ＲＡＭ（Random Access Memory）
１０２不揮発性記憶部
１０３オペレーティングシステム
１０４検索アプリケーションプログラム
１２１ＬＣＤ（Liquid Crystal Display）
１３１タッチパネル
１３２マイク
１６１カメラ
１６２テレビチューナー
４０１被写体
４０２、４０３操作軌跡
４０４顔領域を示す枠

Claims

ディスプレイに表示されている動画に映った被写体の属性情報の検索のために、前記動画に含まれる対象画像の指定を利用者による入力デバイスの操作によって受け付ける指定制御手段と、
前記対象画像又はその代替画像を検索システムに送信するとともに、前記対象画像又は前記代替画像に基づいて検索された属性情報を前記検索システムから受信する検索制御手段と、
を備え、
前記指定制御手段は、前記操作の実行に要する遅延時間を補償するために、前記操作の完了時点以前である前記操作の基準時点よりも前に前記ディスプレイに表示されていた画像を前記対象画像として決定する、
情報処理装置。
前記指定制御手段は、前記基準時点より前の第１の期間内における前記動画のシーン変化の有無を判定するとともに、前記シーン変化があった場合に前記シーン変化より前の画像を前記対象画像として決定する、請求項１に記載の情報処理装置。
前記指定制御手段は、前記基準時点に係る画像と前記基準時点より前の画像を比較することによって、前記シーン変化の有無を判定する、請求項２に記載の情報処理装置。
前記指定制御手段は、前記基準時点より第１の期間だけ前に表示されていた画像を前記対象画像として決定する、請求項１に記載の情報処理装置。
前記指定制御手段は、前記第１の期間を変更可能である、請求項２〜４のいずれか１項に記載の情報処理装置。
前記指定制御手段は、前記利用者の反応時間を測定するためのキャリブレーションを実施し、前記反応時間に応じて前記第１の期間を決定する、請求項５に記載の情報処理装置。
前記指定制御手段は、前記動画に含まれる複数の画像の間における動きベクトルの大きさに応じて、前記第１の期間を決定する、請求項５に記載の情報処理装置。
前記指定制御手段は、前記動きベクトルの大きさが大きい程、前記第１の期間が相対的に長くなるように決定する、請求項７に記載の情報処理装置。
前記基準時点は、前記操作の完了時点、前記操作の開始時点、又は前記操作に要した期間の中央の時点である、請求項１〜８のいずれか１項に記載の情報処理装置。
前記動画は、前記情報処理装置に結合されたカメラによって撮影される映像である、
請求項１〜９のいずれか１項に記載の情報処理装置。
前記動画は、テレビ放送の表示画面を前記カメラによって撮影することにより得られる映像である、請求項１０に記載の情報処理装置。
前記検索制御手段は、
前記カメラで撮影された後に前記ディスプレイに表示された前記対象画像と実質的に同一時刻におけるテレビ放送の画像を、前記情報処理装置に結合されたテレビチューナーを用いることにより前記代替画像として取得し、
前記代替画像を前記検索システムに送信する、
請求項１１に記載の情報処理装置。
前記検索制御手段は、
前記カメラによる撮影画像から前記テレビ放送の表示画面を検出し、
前記撮影画像内における前記表示画面の大きさ及び位置に基づいて、前記テレビチューナーによる映像の中から前記代替画像を取得する、
請求項１２に記載の情報処理装置。
前記対象画像は、前記動画に含まれる一画面の画像の部分画像である、請求項１〜１３のいずれか１項に記載の情報処理装置。
前記指定制御手段は、前記動画に含まれる画像から被写体を自動認識するとともに、認識された被写体を示す表示を前記ディスプレイに出力し、
前記操作は、前記被写体を示す表示を指定することを含む、請求項１４に記載の情報処理装置。
前記入力デバイスは、前記ディスプレイの前面に配置されたタッチパネルを含み、
前記操作は、前記ディスプレイに所望の被写体が表示されている前記タッチパネル上の範囲を前記利用者が指で囲むように触ることを含む、
請求項１４に記載の情報処理装置。
前記入力デバイスは、前記利用者の音声を集音するマイクロフォンを含み、
前記検索制御手段は、前記部分画像としての前記対象画像を含む前記一画面の画像と、前記マクロフォンによって入力された前記被写体を指定するための音声情報を前記検索システムに送信する、
請求項１４に記載の情報処理装置。
前記情報処理装置に結合されたテレビチューナーを用いることにより、前記検索システムから取得した前記属性情報に関連するテレビ放送番組を自動的に録画する録画制御手段をさらに備える、請求項１〜１７のいずれか１項に記載の情報処理装置。
請求項１〜１７のいずれか１項に記載の情報処理装置と、
前記ディスプレイと、
前記入力デバイスと、
前記検索制御手段による前記対象画像の送信、及び前記属性情報の受信のために使用される通信手段と、
を備える通信端末。
前記入力デバイスは、前記利用者の手によって操作されるポインティングデバイス、前記利用者の音声を集音するマイクロフォン、及び前記利用者の視線によって操作されるポインティングデバイスのうち少なくとも１つを含む、請求項１９に記載の通信端末。
情報処理装置による情報検索方法であって、
ディスプレイに表示されている動画に映った被写体の属性情報の検索のために、前記動画に含まれる対象画像の指定を利用者による入力デバイスの操作によって受け付けること、
前記対象画像又はその代替画像を検索システムに送信すること、及び
前記対象画像又は前記代替画像に基づいて検索された属性情報を前記検索システムから受信すること、
を備え、
前記受け付けることは、前記操作の実行に要する遅延時間を補償するために、前記操作の完了時点以前である前記操作の基準時点よりも前に前記ディスプレイに表示されていた画像を前記対象画像として決定することを含む、
情報検索方法。
前記対象画像として決定することは、前記基準時点より前の第１の期間内における前記動画のシーン変化の有無を判定するとともに、前記シーン変化があった場合に前記シーン変化より前の画像を前記対象画像として決定することを含む、請求項２１に記載の情報検索方法。
前記対象画像として決定することは、前記基準時点に係る画像と前記基準時点より前の画像を比較することによって、前記シーン変化の有無を判定することを含む、請求項２２に記載の情報検索方法。
前記対象画像として決定することは、前記基準時点より第１の期間だけ前に表示されていた画像を前記対象画像として決定することを含む、請求項２１に記載の情報検索方法。
前記第１の期間を変更することをさらに備える、請求項２２〜２４のいずれか１項に記載の情報検索方法。
前記第１の期間を変更することは、前記利用者の反応時間を測定するためのキャリブレーションを実施し、前記反応時間に応じて前記第１の期間を決定することを含む、請求項２５に記載の情報検索方法。
前記第１の期間を変更することは、前記動画に含まれる複数の画像の間における動きベクトルの大きさに応じて、前記第１の期間を決定することを含む、請求項２５に記載の情報検索方法。
前記第１の期間は、前記動きベクトルの大きさが大きい程、相対的に長くなるように決定される、請求項２７に記載の情報検索方法。
前記基準時点は、前記操作の完了時点、前記操作の開始時点、又は前記操作に要した期間の中央の時点である、請求項２１〜２８のいずれか１項に記載の情報検索方法。
前記動画は、前記情報処理装置に結合されたカメラによって撮影される映像である、
請求項２１〜２９のいずれか１項に記載の情報検索方法。
前記動画は、テレビ放送の表示画面を前記カメラによって撮影することにより得られる映像である、請求項３０に記載の情報検索方法。
前記送信することは、
前記カメラで撮影された後に前記ディスプレイに表示された前記対象画像と実質的に同一時刻におけるテレビ放送の画像を、前記情報処理装置に結合されたテレビチューナーを用いることにより前記代替画像として取得すること、及び
前記代替画像を前記検索システムに送信すること、
を含む、請求項３１に記載の情報検索方法。
前記取得することは、
前記カメラによる撮影画像から前記テレビ放送の表示画面を検出すること、及び
前記撮影画像内における前記表示画面の大きさ及び位置に基づいて、前記テレビチューナーによる映像の中から前記代替画像を取得すること、
を含む、請求項３２に記載の情報検索方法。
前記対象画像は、前記動画に含まれる一画面の画像の部分画像である、請求項２１〜３３のいずれか１項に記載の情報検索方法。
前記動画に含まれる画像から被写体を自動認識するとともに、認識された被写体を示す表示を前記ディスプレイに出力することをさらに備え、
前記操作は、前記被写体を示す表示を指定することを含む、請求項３４に記載の情報検索方法。
前記入力デバイスは、前記ディスプレイの前面に配置されたタッチパネルを含み、
前記操作は、前記ディスプレイに所望の被写体が表示されている前記タッチパネル上の範囲を前記利用者が指で囲むように触ることを含む、
請求項３４に記載の情報検索方法。
前記情報処理装置に結合されたテレビチューナーを用いることにより、前記検索システムから取得した前記属性情報に関連するテレビ放送番組を自動的に録画することをさらに備える、請求項２１〜３６のいずれか１項に記載の情報検索方法。
情報検索方法をコンピュータに行わせるためのプログラムを格納した非一時的なコンピュータ可読媒体であって、
前記方法は、
ディスプレイに表示されている動画に映った被写体の属性情報の検索のために、前記動画に含まれる対象画像の指定を利用者による入力デバイスの操作によって受け付けること、
前記対象画像又はその代替画像を検索システムに送信すること、及び
前記対象画像又は前記代替画像に基づいて検索された属性情報を前記検索システムから受信すること、
を含み、
前記受け付けることは、前記操作の実行に要する遅延時間を補償するために、前記操作の完了時点以前である前記操作の基準時点よりも前に前記ディスプレイに表示されていた画像を前記対象画像として決定することを含む、
非一時的なコンピュータ可読媒体。